基于机器学习的智能运维


基于机器学习的智能运维 清华大学 裴丹 1 • 背景介绍 • 智能运维:从基于规则到基于学习 • 百度案例 • 挑战与思路 2 目录 我的运维之路 我的官方简历 2005年:UCLA计算机系最佳博士 论文, 研究BGP 2003年夏: AT&T研究院实习 2005-2011:AT&T研究院资深研 究员和主任研究员 ACM 和IEEE Senior Member,与20+美国教 授合作, 23项美国专利 2012至今清华大学计算机系副教 授、博导、入选千人计划(青年项 目)、ACM/IEEE Senior Member, 80多篇学术论文 3 我的运维简历 与ISP运维人员密切打交道五年 喜欢上分析实际运维数据 第五级运维,基于大数据技术管理网 络和应用(BGP, OSPF, DSL, IPTV, CDN, Cellular, Web, App, Video Streaming)的性能、可靠性和安全 开设网络/应用管理课程 所有科研项目都是运维相关:与百度、 微软Azure云计算、清华校园网、中 石油数据中心的运维部门合作 3 运维是过去20余年的科研热点之一 4 SIGCOMM 2015 评委会中的AT&T运维 人员 实习运维 运维员工 5 IMC:专注于互联网运维的顶级会议 6 Cake: 一个大数据处理系统, 结合开源的计算 平台, 使得机器学习实验易如反掌 AppMind: 基于云的运维算法平台, 支持 RobOP, SmoothApp和WiFi Union的海量数据处理 RobOP: 互联网应用的网 络管理助手机器人 SmoothApp: 管理移动 应用性能的统一架构 WiFi Union: 优化WiFi性能体 验, 解决安全、隐私问题 清华大学NetMan实验室科研项目简介 国家自然基金支持 国家自然基金支持青年千人项目支持 http://netman.cs.tsinghua.edu.cn 7 背景部分小结 最相关的的single-track顶会 (Google, Facebook, Microsoft, LinkedIn 在这些会议中发标过运维相 关论文) ACM SIGCOMM ACM IMC ACM/USENIX NSDI ACM MobiSys ACM CoNEXT ACM MobiCom ACM SIGMETRICS 值得工业界运维同仁关注的顶级学术会议 相关Multi-track 顶会或偏安全方面的顶会 IEEE INFOCOM ACM KDD USENIX Security IEEE Security & Privacy ACM CCS NDSS • 工业界与学术界应该在运维领域密切合作 • 工业界获得算法层面的深度支持 • 学术界获得现实世界的前沿问题及数据,有利发表论文和申请国家项目 • 背景介绍 • 智能运维:从基于规则到基于学习 • 百度案例 • 挑战与思路 9 目录 10 人工智能发展史: 专家库-> 机器学习 -> 深度学习 图片来自互联网 数据 标注 工具(算法和系统) 应用 11 机器学习成功案例的几大要素 互联网应用天然有海量日志作为特征数据; 还 可以按需自主生成新的日志数据 Troubleshooting Customers Network alerts Customer trouble tickets Network Routing events (OSPF) End to end service monitoring (e.g., GSTool, RCAT, WIPM) Logs (workflow, syslogs) Customer issues (MTS, tickets, tweets) Alarms, tickets (e.g., Netcool, AOTS) Performance counters (e.g., Compass, Optima) Lower layers (e.g., SONET, CNI) 15 13 运维日常工作产生标注数据 NSDI 2013 14 应用:运维人员就可以设计、部署、使用、 并受益于智能运维系统,形成有效闭环 建模 测量 分析决策 控制 15 小结:智能运维在今后若干年会飞速发展 • “基于机器学习的智能运维”具有得天独厚的基础 − 互联网应用天然有海量日志作为特征数据 − 运维日常工作日志产生标注数据 − 大量成熟的机器学习算法和开源系统 − 直接用于改善互联网应用 • 背景介绍 • 智能运维:从基于规则到基于学习 • 百度案例 • 挑战与思路 1 6 目录 17 智能运维的三个案例: 基于与百度运维、搜索部门的合作 1. 自动检测PV异常 3. 自动关联KPI异常与版本上线2. 自动分析性能瓶颈并提出优化建议 案例1:基于机器学习的KPI自动化异常检测 (Dapeng Liu et al. IMC 2015) 18 KPI异常检测 19 KPIs (Key Performance Indicators):用来衡量服务性能的关键指标 Baidu搜索访问量 KPI异常行为à 潜在的风险、故障、bugs、攻击…… KPI异常检测:在KPI时序曲线上识别异常行为 à诊断和修复 à阻止进一步损失或潜在风险 构建KPI异常检测系统 20 领域专家(运维人员) • 对KPI负责 • 熟悉KPI的行为 算法开发人员 • 负责构建KPI异常检测系统 • 熟悉一些异常检测器(算法) Simple threshold … Historical Average Wavelet Holt-Winters 实践与挑战 21 运维人员 开发人员 描述异常 Wavelet Moving Average Holt-Winters … 选择合适的检测器 选择合适的参数和阈值 检测系统异常检测结果 实践与挑战 22 运维人员 开发人员 描述异常 Wavelet Moving Average Holt-Winters … 选择合适的检测器 选择合适的参数配置 检测系统异常检测结 果 1. 运维人员难以事先给出准确、量化的异常定义 2. 选择和综合不同的检测器需要很多人力 3. 检测器算法复杂,参数调节不直观 主要思想 23 运维Opprentice PV Opprentice (Operator’s Apprentice):跟着运维人员从历史异常中学习 主要思想 24 运维人员 标记 检测准确性倾向 (Precision & recall) 提供 异常检测 Opprentice 主要思想 25 检测器 Time series decomposition HW 0.2 0.2 0.2 HW 0.5 0.7 0.7 Differencing-last day Differencing-last season WMA-WIN30 Differencing-last slot Historical average-4 season EWMA-0,7 提取异常特征 KPI 曲线 主要思想 26 异常特征空间分类 ——监督机器学习 运维人员 挑战与解决方案 27 挑战1:标记历史数据的开销 方案:高效的标记工具 方案:根据检测准确性倾向调整分类阈值 挑战与解决方案 28 挑战1:标记历史数据的开销 方案:高效的标记工具 挑战2:历史数据中异常种类少 方案:用最新的数据增量学习 挑战3:类别不均衡问题 挑战4:冗余和无关特征 方案:随机森林 Opprentice设计 29 离线训练分类器 在线检测 四种真实KPI数据 30 验证与评价 百 度 清华校园 无线网 搜索访问量(25周) 数据中心慢响应数(19周) 搜索响应时间(16周) 在线设备数(15周) 与已有检测器方法比较(四种KPI) 31 验证与评价 第一 第一 第一第二 • 通过学习历史异常数据自动构建异常检测系统 –无需人工选择繁杂的检测器和调参 –为复杂检测器的实际应用提供自动化框架 • 采用来自百度、清华校园网的数个月的真实数据验证 32 Opprentice小结 案例2:多属性日志中的搜索响应时瓶颈分析 (Dapeng Liu et al., INFOCOM 2016) 33 用户在搜索中实际等待的时间 34 搜索响应时间SRT (search response time) Web响应时间的重要性 35 +100ms 销量 1% [Greg Linden, Amazon] +100ms~400ms 搜索 0.2%~0.6% [Jake Brutlag, Google] +500ms 利润 1.2% [Eric Schurman, Bing] +1000ms 访问量 11% [Simic Bojan, Aberdeen] 实际中的搜索响应时间 36 问题:大于1秒的搜索(HSRT)是为什么? High SRT 搜索引擎通过搜索日志来监测搜索响应时间SRT 37 搜索日志 SRT Client ISP 浏览器内核 图片数量 有无广告 后台负载 …… 800ms (Low SRT) China Unicom WebKit 10 Yes 1000 PV/s …… 1200ms (High SRT) China Telecom Trident 5.0 5 No 500 PV/s …… 潜在可能影响SRT的可测量属性 本项目提出搜索日志分析框架FOCUS来回答下面三个问题: • HSRT容易发生的条件是什么? • 哪些HSRT 条件是相近的(HSRT 条件类型),并且比较流行? • 流行的HSRT 条件类型中的各个属性和值对SRT 有怎样的影响? 分析多维属性搜索日志的挑战 38 单维度属性分析方法无法揭示属性组合的影响 看到的: 条件“WebKit”下的HSRT比例只有27% 未看到的:条件“WebKit+图片数量多于30”下的HSRT比例 可以多于38% 分析多维属性搜索日志的挑战 39 单维度属性分析方法无法揭示属性组合的影响 属性间的潜在依赖关系à 单维度分析的结论可能是片面的 Trident LEGC内核浏览器 还是 同步加载? 分析多维属性搜索日志的挑战 40 单维度属性分析方法无法揭示属性组合的影响 属性间的潜在依赖关系à 单维度分析的结论可能是片面的 得到的HSRT条件可重叠,每次HSRT被计算多次,不易理解 比如得到下面三个条件: • “图片数量>30” • “有广告” • “图片数量>20,有广告” 贡献50%的HSRT 贡献40%的HSRT 贡献30%的HSRT 总计120%?重叠部分还是 非重叠部分? 主要思想 41 单维度属性分析方法无法揭示属性组合的影响 属性间的潜在依赖关系à 单维度分析的结论可能是片面的 得到的HSRT条件可重叠,每次HSRT被计算多次,不易理解 将其建模为分类问题,利用监督机器学习算法——决策树得到直观分类模型 多维度分析 可以解决属性依赖关系 分类划分没有重叠 FOCUS概览 42 基于决策树的HSRT条件识别 43 挖掘相似HSRT条件(HSRT条件类型) 44 第1天 第2天 第3天 …… 相似HSRT条件: • 属性种类相同 • 类别型属性值相同 • 值型属性相似à层次化聚类 属性影响力估计 45 受控制实验启发: • 每次变化一个属性条件(取补集)产生实验组 • 在历史数据中对比实验组和对照组条件下的SRT差别 一个月的真实搜索日志中发现36种HSRT条件类型 其中4个出现超过5天 46 FOCUS分析结果——HSRT条件类型 图片数量是主要的瓶颈 FOCUS的分析结果显示优化图片有最大提升潜力 部署base64 encoding提高“数量多、体积小”的图片传输速度 47 实际优化部署 HSRT比例 减少30% SRT 80分位数 下降253 ms (20%) • 搜索日志中响应时间瓶颈分析系统 –为高搜索时间调查提供更具体方向 –根据历史数据估计不同属性的影响力 –通用性很高 • 部署于搜索引擎并分析2个月真实数据 • 根据分析结果实际部署优化方案,效果显著 48 FOCUS小结 案例3: 软件更新对应用的影响 (Shenglin Zhang et al. CoNEXT 2015) 49 软件更新错误导致大规模故障 2014.1, Dropbox 2014.6, Facebook • 部分服务器上规划中 的操作系统升级 • Dropbox 服务下线3 小时 • 软件配置更新错误 • Facebook 下线31分钟 55 自动评估软件更新对应用的影响 选择相关KPI 考察KPI的变化 决定是否回卷 51 • 自动 • 可扩展 • 鲁棒性强 挑战1: 检测延迟短 vs. 监测鲁棒性强 用户体验下降 营收损失 52 The number of successful orders (normalized) 真实事件 53 The number of successful orders (normalized) level shiftspike 挑战1: 检测延迟短 vs. 监测鲁棒性强 用户体验下降 营收损失 真实事件 54 The number of successful orders (normalized) KPI变化检测要又快又准 挑战1: 检测延迟短 vs. 监测鲁棒性强 用户体验下降 营收损失 真实事件 挑战2: 大量KPI 55 挑战2: 大量KPI & 大量软件更新 56 • 规模大 − 100多个产品线 − 上万个模块 − 几十万台服务器 − 百万级KPI监控 • 变化快 − 每天上万个软件更新 计算开销要小 挑战3: KPI数据多样性 不同类型的KPI数据 57 季节性 多变 静态 PV 网卡吞吐率 内存利用率 需要适应多样性的KPI数据 挑战4:KPI变化可能是其它因素导致的 58 季节变化 网络故障 恶意攻击 需要消除其它因素的影响 FUNNEL 架构 59 Step 1 – 识别相关KPI集合 Step 2 – 检测出发生变化的KPI Step 3 – 排除其它因素导致的变化 Step 1 Step 2 Step 3 KPIs in the impact set KPIs with behavior changes KPIs with behavior changes induced by software change 改进的奇异频谱转换 算法:鲁邦、快速、 低开销 Split testing 排 除其它因素 软件更新发生时间 案例举例: 一个带bug的版本上线把来自 iPhone的搜索流量都屏蔽了 FUNNEL: – 能十分钟准确检测出问题并定位到该版本上线 管理员人工定位: – 1.5 小时检测完成问题定位 – 客户申述->检查KPI->定位问题 60 • 异常检测之后的故障定位 • 故障止损建议 • 故障根因分析 • 数据中心交换机故障预测 • 海量Syslog 日志压缩成少量有意义的事件 • 基于机器学习的系统优化(如TCP运行参数) 61 其它案例 62 AppMind 智能运维算法云: 把数据转化为决策和行动 实时分析引擎 事件 检测 事件 定位 止损 建议 事件 关联 分析 事件 预测 中长期分析引擎 瓶颈 定位 趋势 预测 模式 挖掘 决策 建议 应用 可视化 数据 适配 API 63 标准API: 支持任意时序数据 时间戳 关键指标 属性1 属性2 … 属性n 销售额、利润、订单数、PV、转化率、用户数、用户增速、留存率、首屏时 间、闪退率、投诉率…。 • 背景介绍 • 智能运维:从基于规则到基于学习 • 百度案例 • 挑战与思路 64 目录 65 挑战1:智能运维的可行目标是什么? T2: 代替运维人员,接管所有工作? R2-D2: 运维人员的高效可靠助手? 图片来自互联网 66 来自清华大学张钹院士的报告 思路: 自动化那些“知其然而不知其所以然” 的运维技能 67 思路: 自动化那些“知其然而不知其所以然” 的运维任务 Engineering 编程、分布式计算、 数据库、可视化… Science 统计、机器学习、关 联规则、相似性,时 序数据分析… Arts 领域知识 网络知识、应用原 理、业务需求、系 统结构… 智能运维 技术可能永远也无 法代替领域专家 (艺术家),但是 可以为领域专家提 供更好的工具 智能运维的终极可行目标: 1. 日常工作都能自动完成 2.运维人员能够独立进行数据分析 技术正在逐渐解决 Science+Engineering 的问题 • 特征选取: – 全部数据+容忍度高的算法(如随机森林) – 特征工程 – 自动选取(深度学习) • 不同机器学习算法适用不同的问题 – Tree-based: 决策树,回归树,随机森林等 – Convolutional Neural Networks – Recurrent Neural Networks – Deep Belief Network – Monte Carlo Tree Search • 有效策略:工业界和学术界针对具体问题 进行密切合作 68 挑战2: 如何更系统的应用机器学习技术? 72 69 挑战3: 如何从现有ticket 数据中提取有价值信息 NSDI 2013 73 • Ticket 格式、系统的设计都应该是智能运维的工 作的一部分 • ticket需要包含足够的信息以供机器学习使用 • ticket系统要向互联网产品一样简洁易用 • 运维人员要自律并认真填写ticket • 开发工具自动分析ticket自由文本部分 思路:把ticketing系统作为智能运维的一部分 来设计 74 企业痛点: 运营数据与精准决策/行动之间的巨大鸿沟 71 无法 决策和行动 缺乏工具高效实现: 运营数据 --》 精准决策和行动 徒有海量运营数据 挑战4: 如何把智能运维延伸到智能运营? 75 72 思路: 通过算法云把运营数据转化为决策和行动 实时分析引擎 事件 检测 事件 定位 止损 建议 事件 关联 分析 事件 预测 中长期分析引擎 瓶颈 定位 趋势 预测 模式 挖掘 决策 建议 应用 可视化 数据 适配 API 时间戳 关键指标 属性1 属性2 … 属性n 销售额、利润、订单数、PV、转化率、用户数、用户增速、留存率、首屏时 间、闪退率、投诉率…。 73 总结 • 基于机器学习的智能运维在今后若干年会飞速发展 − 得天独厚的数据、标注和应用 • 智能运维的终极可行目标: 运维人员高效可靠的助手 − 日常工作都能自动完成 − 运维人员能够独立进行数据分析 • 智能运维应更系统应用机器学习技术 − 工业界与学术界应在具体问题上密切合作 • 更系统的数据采集和标注会帮助智能运维更快发展 • 从智能运维延伸到智能运营 THANK YOU Email: peidan@tsinghua.edu.cn 微信: peidanwechat http://netman.cs.tsinghua.edu.cn 《高等网络管理》课件: http://netman.cs.tsinghua.edu.cn/courses/advanced-network- management-spring2016/ Many thanks to Baidu Search & OP team, and the entire Tsinghua NetMan team 74
还剩73页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 10 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

kevinfight

贡献于2016-12-21

下载需要 10 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf