数据中心监控系统技术方案书

  • 格式:docx
  • 大小:12.37 MB
  • 文档页数:129

下载文档原格式

  / 129
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据中心监控系统技术方案书

方案技术背景

1.1背景概述

项目建设目标是结合数据中心现有的IT服务管理系统,直观地展现业务系统与基础设施之间的关系、有效地预警和监控、保证公司信息服务的可用性与持续性,将监控工作的“被动发现”转变为“主动预警”。

1.2典型需求描述

1.统一的性能监测采集

1)提供统一的监测管理平台,集中监控主机系如AIX/LINUX/WINDOWS 等、中间件WEBLOGIC/WEBSPHERE/IIS/APACHE等、数据库

ORACLE/SQLSERVER/DB2等、邮件系统Exchange等、业务进程状态等各个业务层次和环节;所有的监测器由统一平台调度;

2)对中间件的监控应能监控到中间件内部,包括线程等。

3)提供对各种网络设备(交换机、路由器、防火墙等)、小型机(IBM、HP等)、存储(IBM、HP、EMC、HITACHI磁盘阵列;EMC、NETAPP等NAS存储)、光纤交换机等的全方位监控。

4)系统管理平台应支持对业务系统自身关键性能点的自定义监测;

5)提供界面配置的简易方式,支持V Bscript、SHELL、java等方式扩展自定义的个性化监测器;

6)支持SNMP、Agent 、SSH等多种采集方式,避免采用 Telnet、RPC 等不安全的采集方式;

7)应能支持Agent方式并支持主流的Unix、Linux、Windows服务器平台;

8)Agent方式应采用单一模式,当主机服务器上的被监测应用项目发生变更或增加时,无需更换或添加额外Agent程序;

9)支持“自动发现”和手动输入两种方式配置被监测对象的配置参数;

10)支持分级部署,支持二级管理方式,并能提供全国分布式部署案例;

11)能支持3000台或更多IT设备的监测能力。

2.管理视图展现

1)提供集中登陆页面和整体状态视图,并支持以flash或其它动态图形方式显示;

2)支持业务管理视图。应能够建立业务管理目标到被监测设备和系统的纵向逻辑关联,建立从业务到监测数据的层次关联视图,为管理者展现多角度多层次的管理渠道;

3)业务视图支持动态展示业务下级层数和显示图形大小等控制;

4)可结合“用户和角色管理”模块,实现不同用户从管理不同角度和不同层次的视图;

5)管理视图可以动态配置修改,业务关联发生变化时,能够通过界面操作快速适应;

6)支持树形视图结构的逐层钻取;

7)支持三层拓扑和二层拓扑视图功能,支持全屏显示,支持多个子拓扑的动态刷新显示,设备间连线可以显示连线的状态,还可以根据流量变换连线的宽度,支持显示IP/设备名的切换,用户可以灵活设置拓扑的刷新时间;

3.界面模式和安全

1)全面支持B/S 结构,无需安装额外客户端;

2)支持https配置;支持全中文Web界面;

3)界面内容可以灵活定制显示内容,不同用户可以定制独立的显示风格;

4)支持多用户权限划分;不同用户管理不同操作和资源视图界面

4.告警管理

1)集中统一的界面显示来自不同平台和事件源的告警信息;

2)能够通过接收SNMP trap和syslog,集成来自不同系统、设备、第三方网管系统的事件告警。

3)提供机制保存和积累处理告警的专家建议;

4)告警能够通过声音、email、短信、弹出窗口等多种方式及时通知到管理员;

5)能够配置告警发生时自动触发的恢复操作;比如,执行一个自动脚本;

6)提供告警确认、反确认、清除等规范的告警处理机制;

7)对于每个告警从产生到确认、评注、清除的响应时间都能够记录、统计、查询,可以作为监控人员岗位考核的指标

8)可以将告警的清除、确认等动作按照告警级别通过短信、邮件、声音等方式通知不同级别的用户;

9)提供告警的过滤、合并、门限、根源性分析规则,以减少告警的误报;

10)当前告警清除后保存在历史告警;提供历史告警的分类查询和统计操作;

5.SLA管理

1)提供SLA管理能力,用户可以指定多个SLA计算规则,并提供按时间进行SLA计算数据的回滚展示

2)提供离线计划功能,用户可以指定一个周期或临时离线操作,并能准确的反应到SLA计算中。

6.报表管理

1)每个监测器都提供原始数据的性能报表,用户可以指定任意查询周期;

2)提供常用的网络、系统、通用、SLA等多种报表模板,用户可以灵活定义报表内容,能提供报表定时发送功能;

3)可分级别分权限推送事先定制好的不同报表。

7.诊断工具

1)至少包括以下几种工具:ping, telnet, nslookup,traceroute,SNMP Scan,SNMP Walk,MIB浏览器;

2)支持其他常用系统命令工具的自定义扩展机制;

8.易用性和可维护性

1)管理平台底层操作系统应具备安全性和可靠性,要求基于Linux/Unix 系统内核;

2)系统部署和使用具备易用性。采用软硬件一体化的集成方案,能够实现快速实施、快速培训、减少人员投入;

3)提供接入后即用的自动化配置。通过“自动发现”和“自动发现监测器”功能能够自动配置基础监测对象。

4)具备灵活扩展性,能快速适应管理需求变更、有效控制上线后需求变更/扩展的全周期性价比。

9.扩展功能

1)监控平台最少支持多个网口,可以接多个逻辑隔离的区域;

2)监控平台自身具有成熟的HA(高可用性)解决方案;

3)提供开放的接口,可以与机房环境动力、安全平台等无缝集成,并有成熟的案例;

4)与业界知名产品,如HP、IBM、BMC、CA等产品,有成熟接口;

5)支持与现有ITSM系统无缝对接,支持手动/自动上传告警生成工单,当ITSM完成处理后,需要与监控平台形成闭环;

6)支持根据客户环境不同,而产生的二次开发,包括与其它系统的接口;

7)可根据现场实施要求修改产品基础功能;

8)支持主机虚拟化,描述支持主机虚拟化监控的具体方案;

9)系统整体权限体系实现方案;