盛大游戏运维体系


盛大游戏 运维体系 Agenda 盛大游戏运维体系综述 分子系统介绍 游戏运维体系未来展望 Agenda 盛大游戏运维体系综述 分子系统介绍 游戏运维体系展望 盛大游戏运维体系发展历程 可操作 可控制 可管理 自2004年开始,随着服务器数量的快速增长,盛大着手建立 游戏远程操作平台,使运维逐渐摆脱依赖人海战术的模式, 提高生产效率 随着自动化体系日益丰富,盛大开始建立报警和监控 系统,快速准确地发现和定位故障,提高运维稳定性 为了更好支持快速发展的业务,运维工作必须朝着规范 化、标准化、可管理的方向发展,08年起盛大也逐步引 入ITIL、安全标准等理念,打造盛大模式的运维体系 盛大游戏运维体系-四大主要部分 • 安全审计 • 应用安全 • 系统安全 • 网络安全 • 事件管理 • 问题管理&知识库 • 变更管理 • 配置管理 • 盛大监控服务体 系 • 服务器虚拟化 • Octopod • Autopatch • Uniweb • 等等 自动化 管理 自动化 监控 安全管 理 流程管 理 Agenda 盛大游戏运维体系综述 分子系统介绍 游戏运维体系未来展望 服务器远程操作平台--Octopod Octopod是盛大自主研发的服务器远 程管理系统,系统管理员无需再服 务器现场即可完成所有操作。 操作管理信息管理 Octopod Server 基础框架 Octopod Client 用户管理 补丁管理 日志管理 游戏管理 远 程 桌 面 通讯层 基础层 自动化 管理 自动化 监控 安全管 理 流程管 理 服务器虚拟化软件系统 盛大积极倡导虚拟化技术的运用: • 虚拟化软件采用了盛大自主研发的虚拟化 操作系统 • 虚拟化管理系统和盛大的服务器管理系统 进行无缝的整合 自动化 管理 自动化 监控 安全管 理 流程管 理 高效 服务器虚拟化软件系统 盛大自2007年起建设和推广服务器虚拟化软件系统, 实现了以下目标: •可将目前一主流台服务器虚拟成独立的多台不等的服务 器 •极大地提高了服务器的部署效率 节地 •大量节约服务器数量; •大量节约机柜数量 节能 •大量节约电力 盛大游戏客户端补丁自动更新系统 盛大游戏客户端补丁自动更新系统可实现用户 管理、版本管理、补丁上传下发及校验等 功能。 冒险岛 泡泡堂 彩虹岛 热血传奇 传奇世界 英雄年代 …………… DLC前台服务器组 Master Slave DLC后台服务器组 Autopatch服务器组…………… 管理系统 任务信息 Patch文件 SVN 备份 自动化 管理 自动化 监控 安全管 理 流程管 理 盛大业务运维监控体系 盛大业务运维监控体系有针对性地对所有可 能影响游戏运营的因素进行全方位的监控 和数据采集、分析,目前能展示10万多条 再现人数和性能曲线,监控覆盖率达 100%,报警有效率达70%以上。 游戏服务器端应用 系统程序 服务器、网络设备 硬件 机房、链路 游戏客户端 •游戏客户端质量监控 •游戏服务器端程序监控 •系统日志的收集和分析 •游戏服务器健康检查 和性能监控 •网络设备和流量监控 •IDC网络质量监控 •IDC机房连通性监控 游 戏 人 数 监 控 自动化 管理 自动化 监控 安全管 理 流程管 理 盛大业务运维监控体系 盛大业务运维监控体系的监控范围包括:  游戏在线人数监控;  游戏服务器端程序监控;  游戏服务器健康检查和性能监控;  系统日志的收集和分析;  网络设备和流量监控;  IDC网络质量监控;  IDC机房连通性监控;  其他专项业务监控 盛大业务运维监控体系 盛大业务运维监控体系的系统特点如下: 从客户端到服务器端的完整覆盖; 支持统一的监控策略配置和完整性检查; 丰富的监控曲线展示界面; 海量报警信息的有效关联和过滤; 与ITIL事件管理紧密结合,报警自动转化为应急响 应工作平台的事件单 7*24小时处理。 玩家 玩家 玩家 玩家 运维安全体系 自动化 管理 自动化 监控 安全管 理 流程管 理安全审计 内部用户登录审计、外部用户权限审计、内部用户操作行为审计 应用安全 •Web漏洞扫描 •Webshell监控 •渗透性测试 •Web代码审计 系统安全 •补丁分发管理 •主机访问控制 •病毒扫描 •漏洞跟踪 网络安全 •ARP攻击测试 •DDOS攻击防御 •网络访问控制 •网络流量分析 运维安全-网络安全 ARP攻击监控 报警 • 自研开发每3 分钟检测一 次 • 发现攻击及 时上报至应 急响应平台 DDOS攻击 防御 • 千兆级抗 DDOS设备 +ACL过滤常见 攻击 • 旁路式全局 DDOS流量清 洗 网络访问 控制 • 防火墙实现 • 交换机ACL实 现 网络流量分析 • 基于Netflow自 研开发 • 实施完成后通 过快速分析异 常流量 • 迅速定位攻击 类型及时响应 网络安全 ARP攻击检测 DDOS攻击防御 网络访问控制 网络流量分析 运维安全体系-系统安全 补丁管理 • 基于Octopod • 万台服务器补 丁快速分发安 装与检查 主机访问控制 • Uinx/Linux采用 iptables实施控 制 • Windows采用 ipsec实施控制 病毒扫描 • 统一的病毒库 升级策略 • 统一的全网病 扫描策略 • 统一的事件上 报应急响应平 台策略 漏洞跟踪 • 跟踪国外安全 机构最新漏洞 • 跟踪黑客群体 最新动向 • 跟踪最新0day • 及时预警采取 应对方案 系统安全 补丁分发管理 主机访问控制 病毒扫描 漏洞跟踪与预警 运维安全体系-应用安全 Web漏洞扫描 • 发现和消除网 站安全漏洞 • 自动化工具定 期扫描 Webshell监控 • 自研开发,对 公司网站每小 时扫描一次 • 统一的网站检 测策略 • 检测报警上报 应急响应平台 渗透性测试 • 定期对内部系 统进行安全性 测试 • 查找权限问题 • SQL注入 • 跨站脚本 • 及时修补安全 问题 网站代码审计 • 通过网站上 线前的代码 检查机制 • 及时处理网 站存在安全 漏洞 应用安全 Web漏洞扫描 web代码审计Webshell监控 渗透性测试 运维安全体系-安全审计 登录审计 • 实现对服务器登录日 志的审计 • 实现内部应用系统登 录日志的审计 • 审计登录中存在的异 常的行为 权限审计 • 实现对用户访问服务 器权限的审计 • 实现对用户访问内部 应用系统的审计 • 审计出不合理的权限 • 消除安全隐患 操作行为审计 • 实现对windows图形 环境屏幕录像审计 • 实现对Octopod操作 日志的审计 • 实现内部应用系统操 作行为的审计 • 审计异常和违规的操 作行为 安全审计 内部用户登录审计 内部用户权限审计 内部用户操作行为审计 运维服务管理体系 随着系统、技术的日益复杂,维护水平要求的 逐步提高,盛大运维团队借鉴业界最佳实践 ITIL的理念,从人员、流程、技术等各方面着 手,逐步提升管理能力,以有限的人力支持不 断扩展的游戏数量。 自动化 管理 自动化 监控 安全管 理 流程管 理 人员 技术 服务 流程 以服务导向取代技 术导向 参考业界最佳实践, 建设规范化流程 调整组织结构,以适应业 务和流程的需求,并实现 量化考核 通过合适的技术,固化流 程,以及提升自动化程度 Information Lifecycle Management Service Continuity Management A Group 监控体系 变更管理A Group事件管理 报警事件 设备管理平台/ 配置管理数据库 A Group 问题管理 变更请求 变更请求 数据采集/校验 IT服务管理体系  借鉴ITIL等业界最佳时间,技术保障中心开发实施了事件管理、问题管理、 变更管理、配置管理等流程,通过一系列平台的推广使用,配合相应管理制度、 流程的推行,使得所提供的服务日趋稳定和成熟。  配合建立的知识库,提供了经验、技能的沉淀模式,有助于人员的培养。 运维服务管理体系 知识库 Agenda 盛大游戏运维体系综述 分子系统介绍 游戏运维体系未来展望 盛大游戏运维体系框架—建设愿景 盛大游戏运维体系框架—建设重点 持续发展体系框架下的各模块: 运维自动化  服务器自动安装  服务器虚拟化推广  系统软件自动安装  应用软件自动安装和版本管理  客户端补丁自动更新 监控自动化 全景监控策略配置和监控展示 流程管理 服务导向为核心,建设服务保障 平台 THANK YOU
还剩23页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 15 金币 [ 分享pdf获得金币 ] 6 人已下载

下载pdf

pdf贡献者

六世轮回

贡献于2011-11-17

下载需要 15 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf