【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

Nurse:LinkedIn 的运维自动化修复系统

  • 2015-08-03
  • 本文字数:1541 字

    阅读完需:约 5 分钟

目前,LinkedIn 已经成为全球最大的职业社交网站,其会员人数超过 3.6 亿。随着网站的迅速发展,其维护成本也不断增加,公司员工从几百人增加到数千人。为了维护网站能够正常运转和发展,LinkedIn 设置了一个专门的运维工程师团队,来充分了解网站的每个组件,并确保能够迅速解决网站的问题。然而,近些年网站遇到问题的数量增加了十几倍,使得人工解决问题越来越难。于是,LinkedIn 近期开发了自动修复系统—— Nurse
接下来,本文就 LinkedIn 的自动修复系统进行介绍。

LinkedIn 的网站可靠性工程师 Brian Cory Sherwin 表示,LinkedIn 之前都是采用人工手段来探测和解决网站运行中出现的问题。站点的稳定全都依靠工程师的双眼进行发现,然后利用双手进行手动。然而,从 2010 年到 2015 年,网站遇到问题的数量增加了 18 倍,而工程师数量却只增加了个位数。为了网站的稳定发展,LinkedIn 高层面临了一个重要选择——是相应的增加工程师数量还是设计一个自动的系统来完成大部分工作。当然,根据诸多网站发展的经验,LinkedIn 选择了后者。

作为开发自动修复系统的第一步,开发工程师们需要确定如何利用计算机算法来发现并解决问题。之前,LinkedIn 已经建立一个单独的监控系统。该系统包括了几十万个传感器,能够迅速发现网站异常,并向工程师们发出警告。然而,对于一个自动修复系统,只是发现问题肯定是远远不够的。该系统需要能够自行解决一些比较简单和常见的问题。只有对于无法自动解决的复杂问题,系统进行分类和简单分析后,将其提交给工程师解决。

那么,在发现一个问题之后,系统如何进行分析和解决呢?例如,对于一个具体的问题,基于现象的警告只能说明表相——服务器无法登陆或者应用掉线等。然而,其背后的原因可能多种多样,包括进程失效、服务器崩溃等等。在人工处理情况下,运维工程师会进一步详细分析这些现象,发掘出具体的原因,并相应的执行不同的修复步骤。自动修复系统采用了类似的处理方法。LinkedIn 团队把监控系统所发现的问题送到具体的请求工作流中。这些工作流再根据工程师之前内置的算法和动作来修复网站。以应用程序掉线为例,监控系统发现一台机器处于异常状态,无法服务数据流。之后,数据流会收集事件发生的原因、根据内置算法重启相关进程并把整个数据流的结果放置到卡片中。通过这些自动化的流程,工程师就可以避免把大量精力用在简单问题的处理上,从而把更多精力放置到复杂、深入问题方面的分析和研究中,保证网站长期健康发展。

此外,LinkedIn 已经把 Nurse 与其他系统进行了完美集成。在多个系统中间,Nurse 扮演着中间人的角色。监控系统会把修复工作流的请求发送到该 Nurse,进行问题修复。目前,LinkedIn 已经把代码部署系统、售票系统、远程执行系统等与 Nurse 集成在一起。而且,公司允许站点运维工程师和运维工程师把解决常见问题的方法放置到系统中,供系统自动学习。

在实际测试中,LinkedIn 已经证实了 Nurse 系统的用途。 Sherwin 表示,针对突然断电导致的大量服务器掉线的情况,Nurse 在数分钟即完成了服务器状态的恢复,执行速度大大优于人工解决的情况。而且,Nurse 目前每周会执行 150 个小时的修复工作流,大大节约了工程师的时间和精力。

未来,LinkedIn 会继续对 Nurse 进行改进。其考虑增加和完善的功能包括减少监控系统的资源消耗、减少从异常状态恢复的时间以及允许运维工程师更多的关注基于现象的警告等。而且,该系统为同类型公司和其他网站提供了一定的借鉴。相信未来会有更多的公司推出自动修复系统。


感谢徐川对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。

2015-08-03 07:392701
用户头像

发布了 268 篇内容, 共 118.3 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

【LLM for SE】顶会ICSE-2023发布LIBRO技术,利用大模型技术进行缺陷重现,自动重现率(33%)实现业界突破

华为云PaaS服务小智

云计算 华为云

黄仁勋盛赞英特尔下一代制造工艺,有望委托代工英伟达 AI 芯片

E科讯

低代码平台入门教程

这我可不懂

低代码 低代码平台 JNPF

Zilliz @ GOTC:大模型的记忆体——向量数据库的现在与未来

Zilliz

Milvus AIGC 向量数据库 zillizcloud cvpstack

深度学习进阶篇[7]:Transformer模型长输入序列、广义注意力、FAVOR+快速注意力、蛋白质序列建模实操。

汀丶人工智能

人工智能 自然语言处理 深度学习 Transformer 注意力机制

Django笔记三十九之settings配置介绍

Hunter熊

Python django session database setting

Generative AI 新世界 | 大语言模型(LLMs)在 Amazon SageMaker 上的动手实践

亚马逊云科技 (Amazon Web Services)

机器学习

办公必备|PDF Reader Pro mac永久激活版 pdf编辑阅读器推荐

Rose

pdf编辑器 mac软件下载 PDF Reader Pro中文 PDF Reader Pro破解

2023 CCF-百度松果基金正式启动申报!大语言模型、AIGC等热点课题首次公布

飞桨PaddlePaddle

标签系列:标签的两大行业应用实践

Taylor

CDP 精细化运营 标签体系 DMP 精准营销

C4D必备的7个素材网站,很多爆款素材!

Finovy Cloud

C4D

Code Whisperer测评体验

呆呆ら

Photoshop 2023(ps测试版)新功能:生成填充功能介绍

Rose

Photoshop 2023下载 PS测试版下载 PS2023新功能介绍

信通院公布2023低代码·无代码最新评估结果,阿里云两案例入选!

云布道师

阿里云

Alfred 5 for Mac(苹果效率提升工具) v5.1.1(2138)中文汉化版

Rose

mac效率工具 Alfred 教程 Alfred 5下载 Alfred 5破解版 Alfred 中文

免费好用的苹果Mac软件|Parallels Client远程控制

Rose

Mac远程控制软件 Parallels Client 下载

Python潮流周刊#4:Python 2023 语言峰会

Python猫

Python

如何使用Pixelmator Pro照片编辑器一键改善照片?

Rose

Pixelmator Pro破解 Pixelmator Pro中文 Pixelmator Pro下载 Mac照片编辑器

Word 2021 LTSC mac v16.73-中文正式版-永久许可证

Rose

Word 2021 许可证 Word 2021破解版 Word下载

文心一言 VS 讯飞星火 VS chatgpt (27)-- 算法导论5.1 2题

福大大架构师每日一题

福大大 ChatGPT 文心一言 讯飞星火

硬核Prompt赏析:AI老师长什么样?

无人之路

AI Prompt

ChatGPT与软件架构(1) - 快速原型

俞凡

人工智能 架构 ChatGPT

窄带高清技术之百万级并发下的演唱会直播细节修复

阿里云视频云

云计算 窄带高清 时代少年团 理想之途

kafka消费者那些事儿

JAVA旭阳

kafka

【亲测可用】parallels desktop虚拟机激活密钥

Rose

Mac虚拟机 Parallels Desktop 18破解 PD虚拟机激活秘钥 PD18下载 Parallels 激活码

Vue:打造属于自己的高质量自定义组件库

xfgg

Vue 组件

军事领域关系抽取:UIE Slim最新升级版含数据标注、serving部署、模型蒸馏等教学,助力工业应用场景快速落地

汀丶人工智能

人工智能 自然语言处理 知识图谱 关系抽取 命名实体识别

2023-05-31:给定一个整数数组 A,你可以从某一起始索引出发,跳跃一定次数 在你跳跃的过程中,第 1、3、5... 次跳跃称为奇数跳跃 而第 2、4、6... 次跳跃称为偶数跳跃 你可以按以下

福大大架构师每日一题

golang 算法 rust 福大大

C语言编程—字符串

智趣匠

6 月 优质更文活动

Idea 社区版创建 Web 项目

Andy

为什么双重效验锁要加volatile?

javacn.site

Nurse:LinkedIn的运维自动化修复系统_语言 & 开发_张天雷_InfoQ精选文章