大数据的系统架构支持


大数据的系统架构支持 @林仕鼎 2013/4/26, BDGS’13 互联网服务的典型技术特点 超大规模 快速迭代 百度的数据规模 • 100~1000PB 数据总量 • 10~100PB/天 数据处理量 • 千亿~万亿 网页 • 百亿~千亿 索引 • 十亿~百亿/天 更新量 • 十亿~百亿/天 请求 • 100TB~1PB/天 日志 离线 在线 离线分析与在线实验相结合 通过反馈来验证算法优劣 算法A 算法B 算法B 快速迭代是互联网产品的 主要创新手段 搜索引擎的迭代 网页库 倒排表 网页 5% 5% 策略 数据 机器学习 平台 Online Learning A/B test Feature Training Data Mining 互联网产品的迭代 想法 原型 系统 快速开发 测试 产品 部署运维 A/B测试,持续优化 开发框架 数据智能 验证 数据分析 应用引擎 云测试 应用引擎 数据 架构 技术 数据智能 enable 互联网服务 IT产业生产力的变化 ‘60 ‘70 ‘80 ‘90 ‘00 ‘10 硬件 软件 软件 +人 Inf +人 +数据 Mainframe PC Internet Cloud 迭代的本质是让人参与系统进化, 而Big Data为迭代指导方向, Infrastructure则加速迭代。 数据智能 软件基础架构 大数据 数据中心、网络、服务器 数据中心计算 云计算技术体系 主要技术领域 超大规模系统 存储 计算 实 时 结构 访问模式 数据密集型 计算密集型 通讯密集型 体系结构、虚拟化 数据中心 设计、开发、 测试、运维 Disk Flash Pipe K/V File Table  统一存储体系 – 平衡大容量、高并发、低延迟 – 不同访问模式通过组合满足  统一访问与传输 数据访问层 P2P CDN 分布式存储 描述能力 数据流优化 控制流管理 资源分配 优先级、并发控制 隔离、安全 执行层 模型层 Map Reduce 表示层 SQL-like 翻译 Join Select Top 分布式计算 B C D A 实时存储与计算 分布式数据结构 kNN查询 平台 向量计算引擎 流式数据处理引擎 复杂事件处理引擎 PubSub 引擎 机器学习 算法平台 OLAP 引擎 超大规模数据仓库 图查询 平台 实时检索 平台 向量计算引擎 Vector Layout Map- Shuffle Operators / Checkpoint SIMD Program 复杂事件处理 average(price) trigger(?,b,c) filter(b) pattern(a->b->c) condition(func(a,b,c)) 流式计算模型 window step bound time M=Stream 目标 • 1000PB 海量 • 10亿维特征训练 • 100维条件查询 高维、多维 • 流式 • 触发式 实时 更大、更复杂、更快! 数据智能 分布式 存储与计算 大规模人工 辅劣标注系统 人计算 向量引擎 Machine Learning 算法 Web Contents 流式处理 Logs PubSub 推荐系统 智能交通 自劢评估 Apps 商业智能 决策辅劣 Thanks!
还剩18页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 8 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

cndkei

贡献于2016-02-08

下载需要 8 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf