支付宝无线:从前端到后端的服务治理-庞磊(卡瓦)


1 支付宝无线 从前端到后端的服务治理 阿里巴巴集团 - 支付宝 - 无线基础技术部 - 庞磊 邮箱:lei.panglei@alibaba-inc.com 2015-6-3 2015-6-3 4 大纲 现状与挑战 服务治理场景 服务治理的实现 5 现状与挑战 6 支付宝无线现状 支付宝 无线 200 多个系统 60亿请求 几百人规模 上千台服务器 7 服务治理挑战 如何快速进行数据处理 如何对关键指标监控及预警 如何进行从端到服务的链路分析 8 大纲 现状与挑战 服务治理场景 服务治理的实现 服务治理场景 10 重点指标监控 流量 电量 闪退 流畅 度 性能 11 问题快速定位 open_page:ViewController click:ViewController:ButtonId Network:WIFI,RPC 应用A RPC 2015-09-25 10:10:10.111 2015-09-25 10:12:10.111 open_page:ViewController2 click:ViewController:ButtonId1 Network:WIFI,RPC RPC 应用E 应用F 应用D 应用C 应用B 客户端 服务 12 链路分析 无 线 网 关 应用B 应用C 应用A 数据库 分布式 缓存 分布式 文件系统 消息服务 应用E 应用F 应用G 读写文件 读写缓存 写缓存 JDBC 服务器 调用 服务器 调用 服务器 调用 服务器 调用 发消息 收消息 收消息 服务器 调用 客户端 调用 13 故障自动分派 服务治理 Crash Bug … 14 大纲 现状与挑战 服务治理场景 服务治理的实现 15 服务治理的实现 日志数据处理流程 日志数据采集 实时计算 存储 预警 可视化展现 故障分派 17 实时计算平台 18 实时计算架构 日志采集 Jstorm 计算 日志 流出 指标 计算 存储 levelDB HBase MySQL InfoBright REST API 任务 合并 任务 告警 任务 消息队列 19 日志数据采集 客户端日志采集 业务服务器 LogAgent LogAgent 日志中心 20 实时计算 日志 中心 存储 map reduce merge distinct map reduce merge 指标计算 日志流出 JStorm 21 报警 指标监控 计算公式 计算 阀值报警判定 发送报警信息 Groovy脚本报警 判定 22 日志模型 23 日志关系 设备1对应日志 设备2对应日志 用户 设备1 设备2 24 日志模型 •UI切换 • 点击事件 • H5页面 行为日志 • 网络日志 • 业务性能埋点性能日志 • 闪退日志 • 流量&电量日志异常日志 • Tracelog • 业务日志服务端日志 25 客户端 主要指标及处理 26 闪退处理 Crash 日志采集 流出/计算 HBase 定时任务 栈分析 MySQL 闪退报告闪退日志 27 Log Agent 电量&流量统计 Alipay Mobile SDK 电量监控 流量监控 日志采集 指标计算 HBase 展现 28 性能计算 Time1,BIZ_KEY1, level1=20ms^level2=50ms,level3=50ms Time2,BIZ_KEY1, level1=21ms^level2=55ms,level3=52ms Time3,BIZ_KEY1, level1=20ms^level2=50ms,level3=50ms 日志采集 指标计算 HBase time,BIZ_KEY1,level1={sum:61,cnt:3} time,BIZ_KEY1,level2={sum:155,cnt:3} time,BIZ_KEY1,level3={sum:152,cnt:3} 展现 L3 50.66ms L2 51.66ms L1 20.33ms BIZ1 29 服务日志处理 30 TraceLog Tracer 组件是一个异步日志组件,通过统一的 ID,将调用链路中的各种网络 调用情况以日志的方式记录下来,以达到透视化网络调用的目的。 A-1 C-3 C-2 B-1 TRACE_ID B.service C.service1 C.service2 31 TraceLog处理 Time,traceId,A-1,B-2,Y,serivce,20ms Time,traceId,A-1,C-1,Y,serivce,30ms 日志流出 InfoBright 展现 A-1 C-1 B-2 traceId1 ------------------------------------------------------ traceId1 | Time1, A-1,B-2,Y,service,20m | Time2, A-1,C-1,Y,service,20m ------------------------------------------------------ 32 端行为与服务贯通 2015-09-25 10:12:10.111 open_page:ViewController2 click:ViewController:ButtonId1 Network:WIFI,RPC 应用E 应用F 应用D 客户端 服务 无 线 网 关 networkId = (deviceId + seq) networkId,traceld 33 故障快速分派 34 故障自动分派 日志流出 栈分析 去重 关键字匹配 故障派发 35 谢谢
还剩34页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 8 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

deffe

贡献于2015-12-16

下载需要 8 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf