美团大数据体系


美团⼤数据体系 挑战 , 架构 , 经验总结 ⺫录 • ⼤数据在美团 • 数据流架构与设计权衡 • 美团数据体系演进 • 经验以及教训 ⺫录 • ⼤数据在美团 • 数据流架构与设计权衡 • 美团数据体系演进 • 经验以及教训 ⼤数据在美团 • ⼤数据是什么 • Volume • Velocity • Variety • Value ⼤数据在美团 • Volume • 4P+ 总存储量 • 30T+ 天增数据量 • 300+ 机器 • 1.3K 机器年度预算 ⼤数据在美团 • Velocity • 秒级别 实时数据流延迟 • 半⼩时 离线数据流延迟 • 分钟级 分析查询延迟 ⼤数据在美团 • Variety • 40K 天均任务数 • 5K 数据仓库数据表数 • 近半年上述指标增量翻倍 ⼤数据在美团 • Value • 600 分析师 /运营 /数据 RD • 500+ 报表 • 2500+ 指标数 • 200% 推荐系统交易额占⽐提升 ⼤数据在美团 • 美团的主要挑战 • 数据量不⼩ , 增⻓极快 • 业务变动速度快 • 应⽤模式复杂 • 响应速度要求⾼ • 可⽤性 , 正确性要求⾼ • 基础架构演进快 ⺫录 • ⼤数据在美团 • 数据流架构与设计权衡 • 美团数据体系演进 • 经验以及教训 美团数据流架构图 美团数据流架构图 美团数据流架构图 简单聊两句数据仓库 • dim 维度 / 维度表 • ⼀般是指实际存在或虚拟存在的⼀个 “东⻄ ”,⽐如 ⽤户、项⺫、商家、品牌、商品、城市、⽇期、部 ⻔、员⼯,以及围绕这个东⻄的各种属性 • fact 事实 / 事实表 • 可以理解为⼀个实际发⽣的事情,⽐如:访问、下单、评论、维权,⽽且,⼀般来说⼀个事实都是两个或 多个维度 相关联 • detail 明细表 • 对于事实和维度进⾏细粒度的计算和改进 • summary 聚合表 • 对于⼀系列事实 , 按照不同的维度组合 , 计算出对应条件下的指标 , 并按照维度组合组织 , 不同的维度组合相 当于 group by 条件 简单聊两句数据仓库 • aggr 聚合表 2.0 • 元数据驱动的数据聚合 , 将某个领域事实按照不同的维度组合进⾏聚合 • topic 主题表 , ⼤宽表 • 将相同维度组合的聚合表进⾏拼接 , 提供统⼀接⼝ 美团数据流架构图 美团数据流架构图 美团数据流架构图 美团数据流架构图 ⺫录 • ⼤数据在美团 • 数据流架构与设计权衡 • 美团数据体系演进 • 经验以及教训 美团数据体系时间线 • 史前时代 • 数据流⼯具 , 报表⼯具 • 数据仓库 , 调度 , 元数据 , hadoop • 开放平台 , 多应⽤形式 • DW2.0 元数据驱动数据⽣产 美团数据体系演进 • 史前时代 - 11年 6⽉前 • 内部信息系统状态 • “⼿写 ” PHP 报表 • mvc + 前端控件 • 直接读取主站数据 美团数据体系演进 • 问题来了 • 与主站业务捆绑 , 隔离弱 • 报表编写规范不⼀ • 开发周期⻓ 美团数据体系演进 • 数据流⼯具 , 报表⼯具 - 12年 6⽉前 • 线下线上数据分离 • sqlweaver sql驱动的数据搬迁 • 报表⼯具 sql驱动的报表⻚⾯开发 美团数据体系演进 • 问题来了 • crontab 管理 ETL 时间做依赖 • 数据修复与重导 管理 • ⽇志数据量过⼤ , 单机解析⽆法⽀撑 美团数据体系演进 • 数据仓库 , 调度 , 元数据 , hadoop - 13年前 • 数据流程 (ETL)⼤发展 • 数据仓库顶层概念 • schema粒度拆分与管理 • ETL依赖关系 , 调度驱动 • ETL第⼀期元数据建设 • 上 hadoop 美团数据体系演进 • 问题来了 • 数据仓库并不能解决所有需求 • 查询形式多变 • 需求量暴增 , 数据开发应对 能⼒不⾜ 美团数据体系演进 • 开放平台 , 查询中⼼ , 多应⽤形式 - 14年 • ETL开放平台 • 界⾯编写 , 测试 , review上线 • 同步 /异步查询中⼼ • storm开放平台 • hadoop, spark开放客户端 美团数据体系演进 • 问题来了 • review能⼒⽆法⽀撑 • 开放后资源⽆法合理预估 • 开放底层客户端任务⽆法管理 • 分析师的查询不够效率 美团数据体系演进 • DW2.0 元数据驱动数据⽣产 - 14年下 • 分层 , 规范化数据流向 • 规范化命名 , ⽂档 • modelbuiler 元数据⽀撑数据⽣产 • 指标提取⼯具 元数据⽀撑数据分析 • ETL⾃治 • 离线任务托管 美团数据体系演进 • 未来 • 多计算 /查询系统 • 运维系统弹性扩容 • 平台即产品 • 美团云深度整合 ⺫录 • ⼤数据在美团 • 数据流架构与设计权衡 • 美团数据体系演进 • 经验以及教训 再来看主要挑战 • 美团的主要挑战 • 数据量不⼩ , 增⻓极快 • 业务变动速度快 • 应⽤模式复杂 • 响应速度要求⾼ • 可⽤性 , 正确性要求⾼ • 基础架构演进快 再来看主要挑战 • ⼈不够 … 好的决策 • 重度依赖 sql • ⼯具化 • 开放 , 解放⽣产⼒ • 管理 / 运营 / ⼯作流平台 • 拥抱开源 • 解决⾃⼰问题 , 吃⾃⼰狗粮 如果重来 • 更早的开始报表⼯具 , 解放⽣产⼒ • 权衡好⼯具开发和业务开发之间的关系 • 尽早构建结构化元数据 • 转变⼯具开发思维 , 平台即产品 Q&A
还剩37页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 10 金币 [ 分享pdf获得金币 ] 1 人已下载

下载pdf

pdf贡献者

tensorflow

贡献于2017-12-13

下载需要 10 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf