数据中心监控系统技术方案书
- 格式:docx
- 大小:12.37 MB
- 文档页数:129
数据中心监控系统技术方案书
方案技术背景
1.1背景概述
项目建设目标是结合数据中心现有的IT服务管理系统,直观地展现业务系统与基础设施之间的关系、有效地预警和监控、保证公司信息服务的可用性与持续性,将监控工作的“被动发现”转变为“主动预警”。
1.2典型需求描述
1.统一的性能监测采集
1)提供统一的监测管理平台,集中监控主机系如AIX/LINUX/WINDOWS 等、中间件WEBLOGIC/WEBSPHERE/IIS/APACHE等、数据库
ORACLE/SQLSERVER/DB2等、邮件系统Exchange等、业务进程状态等各个业务层次和环节;所有的监测器由统一平台调度;
2)对中间件的监控应能监控到中间件内部,包括线程等。
3)提供对各种网络设备(交换机、路由器、防火墙等)、小型机(IBM、HP等)、存储(IBM、HP、EMC、HITACHI磁盘阵列;EMC、NETAPP等NAS存储)、光纤交换机等的全方位监控。
4)系统管理平台应支持对业务系统自身关键性能点的自定义监测;
5)提供界面配置的简易方式,支持V Bscript、SHELL、java等方式扩展自定义的个性化监测器;
6)支持SNMP、Agent 、SSH等多种采集方式,避免采用 Telnet、RPC 等不安全的采集方式;
7)应能支持Agent方式并支持主流的Unix、Linux、Windows服务器平台;
8)Agent方式应采用单一模式,当主机服务器上的被监测应用项目发生变更或增加时,无需更换或添加额外Agent程序;
9)支持“自动发现”和手动输入两种方式配置被监测对象的配置参数;
10)支持分级部署,支持二级管理方式,并能提供全国分布式部署案例;
11)能支持3000台或更多IT设备的监测能力。
2.管理视图展现
1)提供集中登陆页面和整体状态视图,并支持以flash或其它动态图形方式显示;
2)支持业务管理视图。应能够建立业务管理目标到被监测设备和系统的纵向逻辑关联,建立从业务到监测数据的层次关联视图,为管理者展现多角度多层次的管理渠道;
3)业务视图支持动态展示业务下级层数和显示图形大小等控制;
4)可结合“用户和角色管理”模块,实现不同用户从管理不同角度和不同层次的视图;
5)管理视图可以动态配置修改,业务关联发生变化时,能够通过界面操作快速适应;
6)支持树形视图结构的逐层钻取;
7)支持三层拓扑和二层拓扑视图功能,支持全屏显示,支持多个子拓扑的动态刷新显示,设备间连线可以显示连线的状态,还可以根据流量变换连线的宽度,支持显示IP/设备名的切换,用户可以灵活设置拓扑的刷新时间;
3.界面模式和安全
1)全面支持B/S 结构,无需安装额外客户端;
2)支持https配置;支持全中文Web界面;
3)界面内容可以灵活定制显示内容,不同用户可以定制独立的显示风格;
4)支持多用户权限划分;不同用户管理不同操作和资源视图界面
4.告警管理
1)集中统一的界面显示来自不同平台和事件源的告警信息;
2)能够通过接收SNMP trap和syslog,集成来自不同系统、设备、第三方网管系统的事件告警。
3)提供机制保存和积累处理告警的专家建议;
4)告警能够通过声音、email、短信、弹出窗口等多种方式及时通知到管理员;
5)能够配置告警发生时自动触发的恢复操作;比如,执行一个自动脚本;
6)提供告警确认、反确认、清除等规范的告警处理机制;
7)对于每个告警从产生到确认、评注、清除的响应时间都能够记录、统计、查询,可以作为监控人员岗位考核的指标
8)可以将告警的清除、确认等动作按照告警级别通过短信、邮件、声音等方式通知不同级别的用户;
9)提供告警的过滤、合并、门限、根源性分析规则,以减少告警的误报;
10)当前告警清除后保存在历史告警;提供历史告警的分类查询和统计操作;
5.SLA管理
1)提供SLA管理能力,用户可以指定多个SLA计算规则,并提供按时间进行SLA计算数据的回滚展示
2)提供离线计划功能,用户可以指定一个周期或临时离线操作,并能准确的反应到SLA计算中。
6.报表管理
1)每个监测器都提供原始数据的性能报表,用户可以指定任意查询周期;
2)提供常用的网络、系统、通用、SLA等多种报表模板,用户可以灵活定义报表内容,能提供报表定时发送功能;
3)可分级别分权限推送事先定制好的不同报表。
7.诊断工具
1)至少包括以下几种工具:ping, telnet, nslookup,traceroute,SNMP Scan,SNMP Walk,MIB浏览器;
2)支持其他常用系统命令工具的自定义扩展机制;
8.易用性和可维护性
1)管理平台底层操作系统应具备安全性和可靠性,要求基于Linux/Unix 系统内核;
2)系统部署和使用具备易用性。采用软硬件一体化的集成方案,能够实现快速实施、快速培训、减少人员投入;
3)提供接入后即用的自动化配置。通过“自动发现”和“自动发现监测器”功能能够自动配置基础监测对象。
4)具备灵活扩展性,能快速适应管理需求变更、有效控制上线后需求变更/扩展的全周期性价比。
9.扩展功能
1)监控平台最少支持多个网口,可以接多个逻辑隔离的区域;
2)监控平台自身具有成熟的HA(高可用性)解决方案;
3)提供开放的接口,可以与机房环境动力、安全平台等无缝集成,并有成熟的案例;
4)与业界知名产品,如HP、IBM、BMC、CA等产品,有成熟接口;
5)支持与现有ITSM系统无缝对接,支持手动/自动上传告警生成工单,当ITSM完成处理后,需要与监控平台形成闭环;
6)支持根据客户环境不同,而产生的二次开发,包括与其它系统的接口;
7)可根据现场实施要求修改产品基础功能;
8)支持主机虚拟化,描述支持主机虚拟化监控的具体方案;
9)系统整体权限体系实现方案;