知乎⼤大数据平台架构和实践优化


知乎⼤数据平台架构和实践优化 ⼤数据平台负责⼈- 王⾬⾈SACC2017 1. 关于知乎 2. 数据平台组 3. 数据平台架构 Outline SACC2017 关于知乎 SACC2017 注册⽤户数 破亿 全站 DAU 达 2600万 截⽌ 2017 年 8 ⽉ SACC2017 提问量达 1900万 ⽉浏览量 180亿 回答量达 7100万 SACC2017 We are growing FASTER SACC2017 新版⾸⻚ SACC2017 想法 SACC2017 市场 SACC2017 Live SACC2017 书店 SACC2017 视频 SACC2017 电影话题 SACC2017 + 产品经理 + 客户端开发 + 后端开发 + 数据分析师 + 运营 + 测试 新业务、新挑战 SACC2017 数据平台如何在⼈员相对稳定的情况下 ⽀撑公司业务快速扩张 ?SACC2017 知乎数据平台的职责 1. 公司级数据平台 2. 维护基础流量数据和数据仓库 3. 维护算法、商业、搜索、后端服务需要的数据源 4. 为管理层、运营、产品、数据分析师等提供数据看板和分析系统 5. 维护数据地图、埋点管理系统、埋点配置和测试系统等产品 6. 维护 A/B 实验 SACC2017 1.流量数据埋点 2.创建数据仓库 3.创建数据源、指标、维度、报表 4.创建业务看板 快速满⾜新业务需求的过程 SACC2017 1.⽤户能⾃定义创建报表 2.秒级查询能⼒,解决指标开发⼈⼒投⼊与数据 T+1 的痛点 3.⾃定义创建仪表盘数据 特点 SACC2017 数据源导⼊ SACC2017 SACC2017 SACC2017 SACC2017 SACC2017 创建指标 SACC2017 SACC2017 SACC2017 创建多维分析报表 SACC2017 SACC2017 SACC2017 动态添加虚拟指标 SACC2017 SACC2017 SACC2017 创建留存报表 SACC2017 SACC2017 SACC2017 SACC2017 SACC2017 搭建可视化看板 SACC2017 SACC2017 SACC2017 SACC2017 数据平台架构 SACC2017 SACC2017 数据采集 • 客户端和前端采⽤ Protobuf 格式打点 • Hybrid 框架,保证 JS 和 Native 打通 • 客户端更关注埋点定位,内容数据由后端序列化⽣成下发 SACC2017 ⽇志接收 • ⾃研⽇志接收服务,发送到 Kafka • 能⾃适应 Kafka 健康状态,保证数据不丢 SACC2017 数据传输 • Kafka -> HDFS,⽀持 Protobuf 格式 • Mysql -> Kudu,Mysql -> Hive • Hive -> Druid, HBase -> Druid SACC2017 计算 • Spark Streaming • MapReduce • Druid • Hive,ImpalaSACC2017 数据仓库 • 数据分层 • ODS • DMW、DIM、DWD • 星形模型 • 事实表和维度表 • 事实表采⽤退化维度,减少关联多表操作SACC2017 QA SACC2017 SACC2017
还剩49页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 10 金币 [ 分享pdf获得金币 ] 1 人已下载

下载pdf