实时计算-大数据大会


阿里实时计算 和仲  简介  模型  架构  未来 简介  花名:和仲  姓名:强琦  个人介绍:读书的研究方向是机器学习基础理论,毕业后 一直从事搜索技术的研发,08年进入阿里后也一直在搜索 和广告技术领域,12年加入集团数据平台事业部,致力于 打造开放的大数据供应链基础设施平台。对机器学习,分 布式计算,搜索广告技术都有浓厚的兴趣。  微博:和仲Q 简介 简介 阿里云 面向资源 面向计算 计算平台 面向体验 面向数据 面向服务 数据服务平台 开发者平台 通用数据体系 面向应用 BI ISV 广 告 搜 索 天 猫 淘 宝 高 德 快 的 ... CDO 数据隐私 安全 审计 计量 监控 数据跟踪 过程控制 元数据 简介  实时  数据的时效性  计算的时效性  计算  可枚举  不可枚举  交互式(增量)  无状态  有状态  成本模型  数据复用程度  Pattern  预知pattern(数据,计算)  不可知  数据规模  大数据  “小”数据  实时数据的实时计算 模型 假设有N条数据,M个资源,共有n个module。第i个module 的吞吐为OI,调度的资源数为Pi …… 模型  优:模型简单;吞吐;  劣:数据时效性;倾斜;  面向吞吐;兼顾延时  优:数据时效;倾斜友好  劣:建模复杂;调度复杂  面向延时;兼顾吞吐 集群吞吐 离线 计算 平均延 时 模型  增量模型  确定性  可加性  可逆性  交互式计算  并行DAG  Case t1 = select a, sum(b) as b’from t0 group by a; t2 = select count(a) from t1 group by b’/10; 粒度 计算 生命周期 容错监控 面向 DAG 全量 Partition/文 件/pull 局部 数据处理完,进程” 退出” 进程 吞吐 串行 增量(流) Batch/内存 /push 有状态 Keep alive 数据-中间结果不 落地 延时 并行 模型 Map void map(GalaxyRecord record); Reduce void reduce(X key, List values); Merge T merge(T oldValue, X key, Z value, StateGroup stateGroup); T rollback(T oldValue, X key, Z value, StateGroup stateGroup); mapOnly, mapreduce, mrm  源表  目标表  纬度表(本地化)  临时表(本地化)  中间表(本地化) 模型 CPi Bi2 Bi1 Bin B(i+1)2 B(i+1)1 B(i+1)k …… …… CPj B(j+1)2 B(j+1)1 B(j+1)k …… …… Current CheckPoint(flush-存储多版本-异步) Incremental snapshot(i) Incremental snapshot(j) 有状态->全局-> 性能->局部解 架构 CORE 实时调度 计算框架 算子 SQL RUNTIME 架构 CORE Online machine learning Incremental computing Adhoc Streaming 架构 Auto tunning 架构  原语  Map  Reduce  Shuflle  Union  Merge  高级算子  Topk  Join  _windows 架构 架构 val input_table1=loadTable() for (i => 1 to 10) { val input_table2 = job1(input_table1) for (j => 1 to 5) { input_table2 = job2(input_table2) } table3 = job3(input_table2) input_table1 = table3 table3.checkpoint(); } table3.output() 架构-调度  实时调度系统  在线服务调度/隔离  Min  Max  上云适配  通用运维 架构-分析引擎  ADS(分析数据库服务) 架构-分析引擎 极速的计算 能力 SQL/UDF/Join 自由的查询 能力 like/in/contains 智能的优化 列顺序/表顺序/…… 分层的安全 列授权/公私钥 方便的接口 REST/MySQL/MDX ODPS/RDS/OSS 弹性的多租户 资源隔离/元数据 /…… 架构-分析引擎 响应时间 数据规模 万亿+ 千亿+ 百亿+ 十亿+ hadoop/HIV E 10分钟+ 1分钟+ 10秒+ 1秒+ 100毫秒+ ADS RDBMS 千万+ Spa rk PowerDril l Impala 架构-分析引擎 IBM Cognos 灵活性 数据规模 万亿+ 千亿+ 百亿+ 十亿+ ADS 千万+ Oracle EssBase IBM Cognos Oracle EssBase M OLAP RT OLAP 预先建模 无需建模 架构-分析引擎 请求次数 成本 hadoop/Impala y=ax+b ADS y=c(1+floor(x/d)) 固定数据集 架构-分析引擎 Request 70M+ Storage 100TB+ QPS 10000+ Availability 99.99% Developer User Product 60+ Records 500B+ RT 60ms 双机房热备 400+ 架构-分析引擎 45 + 390 + 23 + 文档 应用 表 访问层 多接口 (HSF/MySQL) 动态资源 发布隔离 元数据 (完全可交互) 集群层 跨机房 滚动升级 多环境 Localit y 资源层 DB隔离 Build 预 测 (DAG) Cache 统一化 动态数据 上下线 标准化 (DML/DDL) 数据层 链式 压缩 字典 自动化 类型 半自动化 存储格式 标准化 过载 保护 (7+) 元 数据 安全 架构-分析引擎 访问层 计算层 Cache 长尾 分区结果 Cache 路由 Cache 异步 长连接 局部聚合 DB 隔离 数据层 DB 隔离 CBO 流式 计算 内存 对齐 异步IO 链式压缩 预排序 并发写 DFS GCIH 原生类型 架构-分析引擎 解析层 计算层 Project Push Condition Replan Condition Sink Stat Query Index Cost Block Cost UnCompress Cost Cache Cost 访问层 Backup Task Cost Scan Cost Agg Cost 架构-分析引擎 空间检 索 UDTF 多值列 10x Perf DMP lookalike 观象台 DMP intersect ion 未来  场景  延时  交互式  开放  benchmark  基础设施  数据服务  技术  统一计算框架 谢谢
还剩29页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 6 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

fde8

贡献于2014-12-31

下载需要 6 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf