- 1. 河北、内蒙古、辽宁IT运维管理系统技术方案汇报
- 2. 汇报目录系统建设目标及实施范围 1 2系统功能 3系统接口和配置 4成功案例
- 3. 项目背景监控手段单一
不能进行集中的监控管理
故障监控不准确各类主机、交换机、路由器
防火墙、存储设备、中间件、数据库、业务系统等管理流程不清晰
谁使用,谁监控
IT支撑体系构架不完整缺乏管理IT复杂流程不清
- 4. 建设目标技术导向
救火队
被动
非正式流程
从IT部门内部考虑
IT管理客户价值之前之后流程导向
预防为主
主动
正式的最佳实践
从业务角度出发
目标全方位的7*24小时集中监控管理,建立故障预警机制,及时发现问题,解决问题,提高IT系统可用性;改进支持管理流程,提高运维效率,降低企业管理成本。IT系统处于无序状态
IT管理难度大
IT系统可用性得不到保证
IT管理成本高
可有效的管理IT系统
IT管理变得轻松、规范
大大提高IT系统可用性
降低IT管理成本
- 5. 实施范围123实现北方电信九省OSS域IT基础设施及核心应用的集中监控,其中基础设施主要包括网络设备、主机、数据库、中间件、存储等,核心应用主要指业务系统功能的使用实现北方电信九省OSS系统的集中管理,包括服务开通、服务保障、综合激活业务系统监控.实现IT运维管理,包括服务事件管理、问题管理、变更管理、配置管理、服务级别管理等流程。根据集团公司统一规划,IT运维系统先完成内蒙古、河北、辽宁三个分公司IT运维系统建设。实现服务保障、服务开通、综合激活系统的应用监控及主要IT基础设施平台的集中监控管理;同时实现基于ITIL的事件管理和问题管理、变更管理、配置管理等IT服务管理功能,提高IT系统运维的效率,确保IT系统持续可用性;后续再完成中国电信北方九省除内蒙古、河北、辽宁之外的IT运维系统建设。
- 6. 汇报目录系统建设目标及实施范围 1 2系统功能 3系统接口和配置 4成功案例
- 7. 目标构架服务台、专家台、维护经理IT监控管理IT应用监控管理数据库
CMDB主机网络数据库中间件存储备份应用其他事件管理IT平台监控业务关联分析问题管理变更管理配置管理SLA管理IT运维管理
- 8. IT监控管理-监控数据采集方式KMAgentKM采集机代理网络设备存储设备非代理代理方式非代理方式通过在被管对象部署代理软件,收集被管对象运行的管理数据,实现底层数据采集通过标准协议如SNMP等获取被管对象的运行管理数据
- 9. IT监控管理-监控对象网络设备
路由器
交换机
防火墙
主机平台
Windows系列
Solaris
HP-Unix
Linux
Aix
Sco-UNIX
数据库
Oracle
Sybase
SqlServer
Informix
DB2通用服务
DNS
FTP
HTTP
中间件
WebSphere
Tomcat
JBoss
WebLogic
MQ
Tuxedo
存储介质
IBM
HP
应用系统
服务开通
服务保障
综合激活
- 10. IT监控管理-告警管理告警采集告警处理告警显示告警监视
告警定位
告警浏览
告警操作
历史告警查询
…基于XML的告警过滤
告警级别重定义
告警业务影响分析
…SYSLOG
SNMP TRAP
ICMP POLL
TCP/UDP POLL
性能阀值
…告警设备
告警时间
告警类别
告警级别
告警内容
告警处理人
…告警格式告警指标主机、网卡、连接状况
数据库、表空间、锁状况
中间件连接、监控、群集、执行队列、JDBC连接池
- 11. IT监控管理-性能管理性能采集性能处理性能展现性能图标监视
性能数据查询
性能历史数据查询
性能报表
预警分析报表
…性能阀值分析
预警分析
性能数据归并
…SNMP
HTTP/HTTPS
SQL*NET
DNS
PMI/JMX
…
数据库指标表空间、缩、连接
日志、回滚段
共享内存命中情况
动态捕捉SQL
…中间件指标服务器可用性
JVM性能、队列
前端资源情况
后端JDBC连接情况
…主机指标系统信息、版本
监控处理器、内存
磁盘空间利用率
IPC、进程、日志
…
- 12. IT监控管理-对应用系统的监控支持的接口方式:
FTP/FILE
DB LINK
XML/SOCKET
SNMP
监控信息点指标:
退单处理数
接口超时工单总数
接口失败工单数
等IT运维系统综合激活 服务开通服务保障…
- 13. IT监控管理-业务关联分析传统业务监控的缺陷
只能进行进程、数据库或中间件的单点监控
不能按照业务的资源组成进行关联分析
需要从庞大的告警数据中寻找问题源
业务影响分析
多点监控,有效的发现业务问题
可通过配置和规则关联业务分析
方便定位,并实现业务的预警和决策支持
- 14. IT运维管理功能架构
- 15. 总体功能流程
- 16. IT运维管理-事件管理目标:
在尽可能小地影响企业及用户业务的情况下使IT系统尽快恢复到服务级别协议所定义的服务级别,以确保最好的服务质量和可用性级别。
主要任务:
及时识别并跟踪发生的事故
对事故进行分类并提供初步支持
对事故进行调查与分析识别引发事故的潜在原因
解决事故并恢复服务
跟踪和监督所有事故的解决过程,并随时进行沟通
- 17. IT运维管理-问题管理目标:
寻找发生问题的根本原因,根据优先级定义首先解决关键性问题,并防止与这些事故相关的事故再次发生,增加支持人员解决问题的能力。。
主要任务:
识别和记录问题
对问题归类,主要关注影响业务的问题
调查问题的根本原因
解决问题
终止问题对事故进行分类并提供初步支持
- 18. IT运维管理-变更管理目标:
确保在变更实施的过程中使用标准的方法和步骤,从而以最快的速度实施变更,将由变更所导致的业务中断的影响减少到最低。
主要任务:
记录和筛选变更请求
对RFC进行分类并划分优先级
评价RFC对基础架构和其他服务的影响,及非IT流程与不实施RFC的影响
实施RFC所需要的资源
获得实施RFC的正式批准
变更进度安排
实施RFC
评审RFC的实施
- 19. IT运维管理-配置管理目标:
核实有关IT基础架构的配置记录的正确性并纠正发现的错误 ;提供准确的配置信息支持其它服务管理流程。
主要任务:
识别相关信息的需求
与配置项所有者一起识别和标识配置项,有效的文档、版本及相互关系
在中心配置管理数据库中记录配置项
可追溯的历史记录
确保数据的永久状态
对CDMB中记录的配置项进行审验
- 20. IT运维管理-服务级别管理目标:
确保组织所需的IT服务质量按服务级别协议规定的质量提供,同时在成本范围内得以维持并持续提高 。
主要任务:
记录服务级别需求(SLR)
通过建立或更新服务质量计划(SQP)、与第三方服务商签订外包合同和运营级别协议(OLA)来确保按服务级别协议规定的质量提供
监控提供的服务水平
提高服务质量
建立和维护服务目录
- 21. 汇报目录系统建设目标及实施范围 1 2系统功能 3系统接口和配置 4成功案例
- 22. 系统接口1、 IT基础构架接口
SNMP
SYSLOG
FILE
等。
2、第三方平台接口
SNMP
SYSLOG
API
WEB SERVICE
等
3、业务系统接口
SNMP
FTP
SOCKET
等
主机数据库磁盘阵列网络设备IT运维系统业务系统接口服务开通系统服务保障系统综合激活系统中间件IT基础构架接口第三方平台软件集成接口
- 23. 设备配置建议各省配置建议如下: 根据测算,每省建议配置两台pc-server做数据库/应用 服务器
- 24. 汇报目录系统建设目标及实施范围 1 2系统功能 3系统接口和配置 4成功案例
- 25. 某省电信IT运维实施案例某省电信IT运维系统工程分三阶段实施,其中第一期完成对部分核心业务系统的应用监控和部分平台及网络设备的监控管理,实现基于ITIL的事件管理、问题管理等IT服务管理功能;第二期完成IT运维系统的全省推广建设,进一步完善系统基于ITIL的IT服务管理功能;第三期工程优化系统架构和功能,实现企业转型支撑,通过IT运维系统向外部客户提供IT资源管理监控服务。 建设目标200820092010网络层:
省中心和长电汇聚层以上及重要接入层网络设备
应用系统:
省集中计费系统、联机采集系统、EDW、号码百事通系统、IP认证计费系统和全球眼系统。网络层:
其他本地网汇聚层以上及重要接入层网络设备。
应用系统:
CRM&SPS、资源管理系统、服务保障、IPTV等系统。IT服务:
IT运维系统向客户网络延伸;可支持提供客户IT资源监控外包服务。提供外包网络呈现,定期报告监控机制等
IT运维一期IT运维二期IT运维三期
- 26. 某省电信IT运维系统建设规模阶段区域主机服务器数据库应用服务器存储/备份切换软件网络设备IT运维一期省中心65411721215869317长电291642083合计68313321616069400IT运维二期其他本地网37720852260260总计106034126818669660说明:
IT运维系统监控数据处理层数据、应用层数据在线存储12个月。
IT运维系统一期接入6个业务系统平台(计费系统、联机采集、IP认证计费、CRM及互增业务平台);
IT运维系统二期接入9个业务系统平台,两期共计15个业务系统平台;
二期网络设备按每个本地网20台计算,共计260台。某省电信IT运维管理系统已正式上线投入使用!
- 27. Thank You !