09-赵昆-淘宝海量数据技术


淘宝海量数据产品技术 数据产品 赵昆 11年 11月 26日星期六 WHO AM I • 赵昆 (淘宝花名:空无) • 淘宝网 - 数据平台与产品部 - 数据产品 • 热爱技术、热爱数据、热爱生活 • 果粉、G粉 • 微博: @此处空无⼀人 11年 11月 26日星期六 误区 • 淘宝是一家电子商务公司 • 数据越多越值钱 • 海量只是数据量更大 • 云计算只是一个概念 11年 11月 26日星期六 传统海量数据产品误区 • 只关注分析处理性能,不关注数据查询性能 • 大型商业产品更好 • Oracle/GreenPlum可以解决大多数问题 • IBM/EMC • 开源产品更好 • Hadoop可以解决一切问题 • Hadoop成本更低 • 数据展现不重要 11年 11月 26日星期六 大纲 • 大数据在淘宝的挑战 • 分布式存储计算 • 实时计算 • 实时流处理 • 数据可视化 • 数据产品实践 11年 11月 26日星期六 大数据在淘宝的挑战 11年 11月 26日星期六 淘宝规模 PV 20亿 商品数 8亿 + 用户数 4.4亿 品牌数 8万 + SPU 334万 每分钟销售商品 件数 4.8万件 高峰日成交金额 52亿元 11年 11月 26日星期六 淘宝数据特点 • 数据量大 • 内容多样 • 日志型数据 • 文本数据 • 关系型数据 • 维度丰富 • 涵盖近100个不同行业的商品维度,五级商品类目体系 • 近80000个品牌 • 商品维度+卖家维度+买家维度 • 源数据质量不高 • 非法交易 • 恶意评价 • 用于自定义属性 11年 11月 26日星期六 挑战 • 20PB 总量 • 900TB 每天计算扫描数据量 • 月增1.5P • 日增0.06P • 高峰处理数据量:30G/s • ... 11年 11月 26日星期六 挑战 • 数据的商业模式不清楚,缺乏足够的业务支撑 • 海量数据处理的基础技术需要大量的研发投入 • 数据安全机制非常复杂,还要兼顾效率 • 开放的同时,需要防止数据被恶意爬取 • 基础设施的建设周期较长,可能赶不上业务的变化 • 数据自身变化演进,数据更新非常困难 11年 11月 26日星期六 传统的数据平台 大容量 存储 数据同步 展现 API 离线计算 高性能 DB 11年 11月 26日星期六 有没有完美的数据平台? 11年 11月 26日星期六 我心中的完美 大容量 存储 数据同步 实时传输 实时计算 展现 API 离线计算 高速访 问存储 11年 11月 26日星期六 在线计算 实时 处理 数据API 实时同步 淘宝DB 底层存储 在线存储 安全过滤层 数据写入API 业务系统 Open DBOpen DB 数据同步 TOP API 服务API 离线计算 数据挖掘 TOP API 淘宝数据应用 缓冲区存储 Open Hosting 数据工场 11年 11月 26日星期六 分布式存储计算 11年 11月 26日星期六 M/R Hive 分布式存储计算 • M/R: • 文本数据 • 数据挖掘 • 复杂计算 • HQL: • 中间层建设 • 维度转换 • 指标加工 RPT Automac Code Framework RPT 11年 11月 26日星期六 使用状况 • 分布式存储和计算 • 1800+ Hadoop集群 • 24G+2T*12T • 离线 • 7:00 前必须处理完昨日增量计算 • (目前每天3半点前处理完成) • 在线 • 实时的交易跟踪,秒级别的延迟 • 实时千万级交易维度交叉计算 • 分布式数据挖掘 • 30个节点的Mahout集群 • 淘宝母婴频道推荐月底上线 11年 11月 26日星期六 • 多维数据立方体构造 • 满足业务对数据分析灵活性要求 • 压缩数据处理中间过程 • 减少表间关联 • 计算时对维度抽象转换: • 一次过程进行多粒度进行指标汇总 • 支持用户自定义 11年 11月 26日星期六 Myfox - 分布式Mysql集群 • 基于Mysql Myisam存储引擎 • 海量数据分布式存储、非实时写入 • 提供全镜像、路由字段、记录条数、组合等数据分片规则 • 32个节点 11年 11月 26日星期六 Myfox - 分布式Mysq集群 14 MyFOX(虚拟机) 热节点(MySQL) 15k SAS硬盘,300G * 12,8节点 冷节点(MySQL) 7.2k SATA硬盘,1T * 12,8节点 M S 路由信息库 MySQL MySQL = MySQL MySQL MySQL = = 11年 11月 26日星期六 Myfox - 数据查询 结果合并 取分片数据 路 由 层 查 询 层 计 算 层 缓存 缓存 SQL解析 语义理解 查询路由 字段改写 分片SQL 计算规则 APC 11年 11月 26日星期六 挑战 • 淘宝涵盖100个行业的商品 • 属性值的条数2000W 如何获取任意多个商品属性值组 合产生的交易 ? 11年 11月 26日星期六 实时计算 11年 11月 26日星期六 Prom • T级数据量(7天总量hbase) • 千万级记录实时计算分析 • 以byte[]方式存储于hbase 11年 11月 26日星期六 ClientApp SharesMerge Shard1 Cache Shard2 Calc DataFetch Index DataStorage IndexStorage 11年 11月 26日星期六 Glider • 高性能异构数据中间层 • 统一restful数据输出接口 • 使用SQL Like作为配置语法 • 整合多种数据源,不同数据源之间数据可以进行SQL关联操作 • Myfox/iSearch/Prom/Andes/Mysql/Hbase/TOP API • 简单的数据二次加工 • 内置二级缓存 • 单虚拟机 8000qps (4CPU/7G内存) • 请求分优先级 11年 11月 26日星期六 挑战 • 如何获取店铺实时数据? • 不能直接主库上计算啊,主库表示压力很大。 11年 11月 26日星期六 实时流处理 11年 11月 26日星期六 银河 - 实时流处理平台 • 基于Actor模型的分布式流数据实时处理和计算框架 • 底层基于开源软件AKKA实现 • 消息既数据 • 客户端3台(1.5万/s),Hbase 5台 • 日处理3亿数据量 前端应用 实时计算系统 数据源 实时流处理 实时流 计算 数据缓存 数据反馈 11年 11月 26日星期六 银河 - 技术框架 Other&PNs & AKKA Configurati on Manager Data Event Dispatche r Status Monitor Stage Container Data API Control & Management API PN Stage Manager & & & ZK Config file & DB ZK 11年 11月 26日星期六 银河 - 数据流 11年 11月 26日星期六 应用 • 实时行业总体数据 • 分类目实时商品成交排行 • 实时店铺汇总数据 • 实时店铺浏览、交易明细 • 实时用户成交排行 11年 11月 26日星期六 数据可视化 11年 11月 26日星期六 数据可视化 • 为什么要研究数据可视化? 数据太枯燥、难懂 数据大爆炸 数据关系太复杂 数据背后隐藏什么? 11年 11月 26日星期六 11年 11月 26日星期六 11年 11月 26日星期六 11年 11月 26日星期六 11年 11月 26日星期六 浪淘金 • 社会化电子商务数据可视化分析工具 • 淘宝数据平台与新浪微博合作项目 11年 11月 26日星期六 可视化应用开发流程 11年 11月 26日星期六 总结 大容量 存储 数据同步 实时传输 实时计算 展现 API 离线计算 高速访 问存储 11年 11月 26日星期六 数据产品实践 11年 11月 26日星期六 数据魔方 data.taobao.com 11年 11月 26日星期六 挑战 • 数据量巨大 • 商品更新 • 类目变化频繁 • 大单、走账 • 作弊、刷信用 • 数据安全 • 马太效应 11年 11月 26日星期六 数据魔方 • 淘宝第一个基于全量数据的数据产品 • 底层基于云计算 • 第一个成熟的、基于海量数据的商业数据产品 • 明年计划开放数据给第三方应用 11年 11月 26日星期六 数据魔方 - 数据模型 11年 11月 26日星期六 淘宝数据产品架构 47 Cloud MySQL Myfox Prom KVProxy TC Redis HBase Andes SearchEngine Glider Cubex Index API Mytaobao Lisng 3rd 11年 11月 26日星期六 维度和指标 维度 基本维度 时间 类目 品牌 产品 买家维度 年龄 性别 地区 买家信用 购买频次 卖家维度 地区 卖家信用 卖家类型 促销方式 指标 交易指标 GMV成交 金额 笔数 人数 商品数 Alipay成交 金额 笔数 人数 商品数 成交店铺 行为指标 搜索人数 搜索次数 浏览人数 浏览次数 收藏人数 收藏次数 规模指标 上架店铺 上架商品 活跃店铺 活跃商品 属性 价格区间 11年 11月 26日星期六 11年 11月 26日星期六 11年 11月 26日星期六 淘宝指数 • 淘宝下一个重要的数据产品 • 完全免费 • 2011正式发布 • 流行趋势、消费者研究 11年 11月 26日星期六 11年 11月 26日星期六 11年 11月 26日星期六 11年 11月 26日星期六 其他数据产品 • 淘宝魔镜 • TCIF • 母婴推荐 • 淘宝情报 • 卖家经营报告 • 商品评论分析系统 • 淘宝数据门户 * • LabsEngine * 11年 11月 26日星期六 未来 • 开放 • 数据开放 • 平台开放 • 系统开源 • 实时 • 实时计算 • 流处理 11年 11月 26日星期六 Thanks 微博: @此处空无一人 kongwu@taobao.com 11年 11月 26日星期六
还剩56页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 15 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

noblemoon

贡献于2012-03-21

下载需要 15 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf