百度陈尚义---百度大数据引擎


百度大数据引擎 2014.8.20 百度大数据引擎 2014.8.20 3 目录 一、百度技术概览 二、百度大数据实践 三、百度大数据引擎 四、大数据引擎助力产业升级 3 全球最大的中文搜索引擎,最大的中文网站 百度每天响应来自 138个国家和地区的 70亿次 搜索请求,平均每个中国网民每天使用10次百度。 百度的大数据特征 5 容量 Volume • 数据总量EB级 • 每日新增800TB • 网页量>5000亿 • 单集群数万台服务器 时效性 Velocity • 毫秒-秒级响应时间 • 极速搜索最快0.04秒 多样性 Variety • 内容:网页、广告、 日志、UGC • 类型:文本、图片、 视频 • 形式:结构化、半结 构化、非结构化 突破关键技术,构建完整、自主创新的大数据架构 大数据挖掘、分析、可视化 数据仓库 深度学习 大规模软件基础设施 数据中心与服务器 知识图谱 舆情监测 行业报告搜索指数 趋势预测 “百度大脑”世界一流、超大规模 百度研究院 云计算中心调度 千PB海量数据处理 自动化智能运维 亚洲一流数据中心 自主设计建设 数十万台自研服务器 ...... 6 基础设施自主设计 ARM服务器 • 全球首个 ARM架构服 务器规模化 应用 • 存储密度提 升70% GPU服务器 • 单GPU计算 能力可比百 片CPU •GPU实现深 度神经网络 并行训练 • 训练时间从 数月缩短到 一周 自研万兆交换机 • 业内最大规 模部署自研 万兆交换机 • 接入成本下 降83% 整机柜服务器 • 国内首次规 模部署 • 高效部署, 提高交付效 率10倍 百度IDC • 三大自建数 据中心 • 软硬件一体 化设计 • 全年约一半 时间完全免 费冷却 • 国内大型数 据中心PUE 第一的最佳 成绩:年均 PUE 1.32, 最佳PUE 1.16 7 自研大规模软件基础设施 接入10W+ 台服务器 统一资源池管理 提供80万 +CPU核 2W T 内存的 超强计算能力 志愿计算 高效利用空闲计算 资源 额外提供10000台 服务器计算能力 最小运维成 本 服务实现动态伸缩 屏蔽底层硬件 故障处理全自动化 服务零宕机时间 支持在线离 线业务混布 完善的资源隔离 方案 最大化资源利用 集群操作系统 大规模分布式计算 大规模机器学 习平台 样本/特征达千亿 支持30+机器学习 算法 实时流式计算 平台 延迟毫秒-秒级 吞吐10GB/s 高吞吐离线计 算平台 单集群规模数万台 自主研发技术提升 MR性能50% 8 人工智能及深度学习技术 • 2014年成立百度研究院 • 硅谷人工智能实验室 • 北京深度学习实验室(原深度学习研究院) • 北京大数据实验室 • 深度学习、大规模机器学习、统计建模 • 计算机视觉、自然语言处理 • 智能交互、无人车 • 带动AI和大数据领域发展 人工智能世界级专家 百度首席科学家 吴恩达 目录 一、百度技术概览 二、百度大数据实践 三、百度大数据引擎 四、大数据引擎助力产业升级 10 百度智能搜索 • 理解自然语言文本,推送精准答案 11 知识图谱,智能推荐 <海贼王> 视频 <海贼王> 百科 <海贼王> 漫画 从不同的来源 提取 知识 归并, 消歧, 和 保存 到知识库 <海贼王> 知识库 Uri 组织知识库内容, 服务用户 [海贼王] 搜索结果页 12 大数据驱动智能交互 语音搜 索 输入法 地图搜 索 语音助 手 图像语音 基于图片的搜索 百度的结果 其他搜索引擎结果 13 - 更加自然的人机交互方式(感知,展现,…) - 对非结构化数字媒体内容的语义解析 百度翻译 14 • 最懂中文的机器翻译 • 翻译质量持平或领先业界水平 • 时效性更新快 • 多语种翻译(支持30个语言方向且不断 增加中) • 语音同声翻译 • 语音会话模式 • 实物翻译 • 将百度领先的机器翻译和图像识别技术完 美结合。用户仅需对准实物拍摄,对需要 翻译的物品画圈,即可进行识别、判断 • 支持两万余个对象种类的识别和翻译,包 括常见的日常用品以及人物照片等,可以 从容应对用户的日常翻译需求 百度预测:大数据知天下 景点预测 • 未来2日 的拥挤及 舒适度预 测 城市预测 • 未来2周 内人数规 模预测 高考预测 • 2014年全 国高考语 文题目, 百度高考 作文预测 命中了全 国18卷中 12卷作文 方向 世界杯预测 • 淘汰赛阶 段16场预 测15中, 并成功预 测冠军球 队,在各 种预测产 品中一枝 独秀 疾病预测 • 4种疾病: 流感、肝 炎、肺结 核、性病 • 未来6天 内发病指 数预测 经济指数 预测 • 中小企业 景气指数 • 宏观经济 指数预测 15 目录 一、百度技术概览 二、百度大数据实践 三、百度大数据引擎 四、大数据引擎助力产业升级 16 开放的百度大数据引擎 百度大数据产品 + 行业应用 17 开放云,解决数据存储与计算规模瓶颈 18 数据工厂,提供强大的数据分析能力 19 百度大脑,实现数据智能 20 目录 一、百度技术概览 二、百度大数据实践 三、百度大数据引擎 四、大数据引擎助力产业升级 21 • 百度基础设施 • 200+万块硬盘 • 硬件故障率:硬盘>内存>电源 • 预测故障,提前拷贝数据,更换硬盘 • 百度经过对近9亿条实例进行采集处理 • 选取15万个训练样本 • 从历史的硬盘故障病例中,选取了240个特征 • 人工智能模型预测硬盘故障 • 对比无预测的故障恢复的好处 • 提前一天预测出硬盘故障 • 提前拷贝数据,更换硬盘 • 准确率 >85% • 极大节省带宽和计算资源 • 正在IT、发电机组、发动机组、汽车制造和 基站等的智能监控与运维方面开展合作 工业领域——智能监控与运维 22 生产效率 运营成本 数据 智能预测 数据查询 数据存储 百度大数据引擎 百度医疗 大脑 医疗领域——百度医疗大脑 • 借助百度大数据引擎平台,及其云计算、大数据、人工智能等核心技术, 构建“百度医疗大脑” • 与“祥云”医疗集团、政府机构等开展合作 23 临床电子病 历 临床专家经 验 疾病科研成 果 健康体检数 据 可穿戴设备 数据 公共健康数 据 ··· 疾病分析 模型 治疗路径 分析 药用药效 分析 最佳临床治 疗方案选择 健康指标 特征 疾病人群 画像 传播感染 预测 ··· 传染病监测 预警 重大慢性疾 病预防控制 个人健康跟 踪与评估 24 金融领域 • 基础架构 • 分布式存储 • 结构化、非结构化数据存储 • 分布式数据仓库 • 超大规模异构数据查询 •SQL查询语言 • 多维分析 • 高可用性、高并发、低延迟 • 数据智能分析 • 人群分析 • 品牌用户的目标人群及人群特征 • 品牌分析 • 用户对产品的评价、关注度及同业的 对比 • 媒体分析 • 了解用户常访问的媒体,有利于广告 投放 • 数据可视化 • 交互式体验 • 有利于用户理解和分析数据 • 与银行开展合作 24 分布式数据仓库 分析决 策 分析 挖掘 数据智能 数据 清洗 分布式存储 结构化、非结构化 数据 标准 化 大数据引擎逐渐成为推动行业升级的重要力量 工业领域 • 工业增质提效转型 动力 • 有效分配资源、提 高产能、产业链升 级 • 硬盘预测,发动机 组、汽车制造和基 站故障等 医疗领域 • 医疗数据激增,大 数据应用开始布局 • 整合临床、健康、 公共卫生数据,改 良科研、疾病控制、 临床支持和重大预 警 金融领域 • 信息化程度高,率 先实践 • 消费者洞察,个人 定制,品牌分析, 改良现有产品形态 百度的大数据实践奠定了行业数据应用的基础,行业意识到 数据挖掘的价值,大数据引擎逐渐成为行业升级助推器 25 谢谢! 26
还剩25页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 8 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

p7w22

贡献于2015-02-14

下载需要 8 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf