当前位置:文档之家› IT运维管理解决方案

IT运维管理解决方案

IT运维管理解决方案
IT运维管理解决方案

IT运维管理解决方案V3.0 IT运维管理解决方案

IT运维管理解决方案V3.0

目录

第1章项目概况 (10)

1.1. 项目总体背景 (10)

1.2. 项目的总体思路 (10)

1.2.1. 整体思路 (10)

1.2.2. 建设与管理范围 (10)

1.2.3. 达到的效果 (11)

1.3. 综合运维管理系统 (12)

1.3.1. 系统简述 (12)

1.3.2. 架构和功能 (13)

第2章需求分析 (14)

2.1. 总体要求 (14)

2.2. 需求分析 (14)

2.3. 建设目标 (15)

第3章整体架构设计 (15)

3.1. 实施范围 (16)

3.2. 网络系统管理模式 (16)

3.3. 统一的网络系统解决方案蓝图 (17)

3.3.1. 代理方式与无代理方式结合的设计 (17)

3.3.2. 数据库设计考虑 (17)

3.4. 平台总体设计 (18)

3.4.1. 设计要求 (18)

3.4.2. 结合IT运维的平台总体设计 (19)

3.4.3. 信息系统综合网管系统系统软件的选型 (19)

3.4.4. 设计要求 (20)

3.4.5. 数据采集层技术设计 (20)

3.5. 数据管理层技术设计 (21)

3.5.1. 设计要求 (21)

3.5.2. 数据管理层技术设计 (21)

3.6. 其他技术设计 (22)

3.6.1. 设计要求 (22)

3.6.2. 相关技术设计 (23)

3.7. 平台功能扩展设计(接口方面的设计) (25)

第4章综合管理系统功能 (27)

4.1. 综合网管系统架构图 (27)

4.2. 综合监控 (28)

4.2.1. 综合监控的优势和亮点 (28)

4.2.2. 管理监控与值班监控的功能 (28)

4.2.3. 设备运行的功能 (29)

4.2.4. 线路流量的功能 (29)

4.2.5. 峰值流量的功能 (29)

4.2.6. 环境监控的功能 (29)

4.2.7. 告警总览的功能 (29)

4.2.8. 服务总览的功能 (29)

4.3. 网络拓扑管理 (29)

4.3.1. 网络拓扑管理的优势和亮点 (30)

4.3.2. 自动发现生成网络物理拓扑图 (30)

4.3.3. 基于IE 的拓扑浏览 (32)

4.3.4. 拓扑图监视 (34)

4.3.5. 网络拓扑图编辑 (36)

4.3.6. 常用工具的集成 (37)

4.3.7. TOPN 性能排序 (38)

4.3.8. 图例管理 (40)

4.4. 网络监控管理 (41)

4.4.1. 网络监控管理的优势和亮点 (41)

4.4.2. 网络监控管理详细介绍 (41)

4.4.3. 设备负载一览的功能 (43)

4.4.4. 线路流量一览的功能 (43)

4.4.5. TOP N性能分析的功能 (44)

4.4.6. 端口流量分析的功能 (45)

4.4.7. 交换机用户连接信息的功能 (46)

4.4.8. 交换机VLAN分布表的功能 (46)

4.4.9. 其他网络监控功能 (46)

4.5. 设备面板管理 (46)

4.5.1. 设备面板图管理 (47)

4.5.2. 网元配置参数备份 (47)

4.5.3. 自动识别堆叠式设备 (47)

4.5.4. 关闭/打开端口 (47)

4.5.5. VLAN划分,VLAN自动辨识 (47)

4.5.6. 更改VLAN (48)

4.5.7. 端口状态 (48)

4.5.8. 端口下联设备 (48)

4.5.9. 设备支持 (48)

4.6. 接入管理管理 (49)

4.6.1. IP地址管理 (49)

4.6.2. IP安全管理 (52)

4.7. 数据流分析 (53)

4.7.1. 功能描述 (53)

4.7.2. 数据流分析的优势 (54)

4.7.3. 功能实现 (54)

4.7.4. 功能特点 (57)

4.8. 主机系统服务资源管理 (58)

4.8.1. 系统和通用应用数据采集 (58)

4.8.2. 主机管理 (61)

4.8.3. 数据库管理 (63)

4.8.4. 中间件管理 (67)

4.8.5. 应用管理 (70)

4.8.6. 系统和通用应用故障管理 (71)

4.8.7. 告警管理通知方式 (75)

4.8.8. 数据传输安全管理 (76)

4.9. 业务管理 (76)

4.9.1. 业务结构 (76)

4.9.2. 业务运行管理 (78)

4.9.3. 业务安全管理 (80)

4.9.4. 业务使用与流量分析 (81)

4.9.5. 根原因分析 (83)

4.9.6. 业务报表 (85)

4.9.7. 用户模拟体验功能 (85)

4.10. 存储管理 (87)

4.10.1. 存储管理的优势和亮点 (87)

4.10.2. 部署方式 (88)

4.10.3. 产品特性 (89)

4.11. 虚拟化管理 (93)

4.11.1. 虚拟化管理的优势和亮点 (93)

4.11.2. 部署方式 (93)

4.11.3. 产品特性 (94)

4.12. 故障告警管理 (98)

4.12.1. 故障管理的优势和亮点 (98)

4.12.2. IT运维故障管理详细介绍 (99)

4.12.3. 基线数据管理的功能 (102)

4.12.4. 告警日志查询的功能 (102)

4.12.5. 辅助查询的功能 (102)

4.12.6. ARP干扰设置的功能 (102)

4.12.7. 其他告警 (103)

4.13. 报表管理 (103)

4.13.1. 报表管理的优势和亮点 (103)

4.13.2. 报表内容说明 (103)

4.13.3. 报表展现类别说明 (104)

4.13.4. 报表提供方式 (104)

4.14. 机房管理 (107)

4.15. 统一监控平台 (108)

4.15.1. 服务拓扑展现功能说明 (108)

4.15.2. 运行展现功能说明 (109)

4.15.3. 告警展现功能说明 (111)

4.16. 系统管理 (112)

4.16.1. 系统管理的优势和亮点 (112)

4.16.2. 用户管理的功能 (112)

4.16.3. 用户操作审计的功能 (113)

4.16.4. 当前在线用户的功能 (113)

4.16.5. 当前用户编辑的功能 (114)

4.16.6. 网管邮件发送帐号的功能 (114)

第5章综合运维系统功能 (115)

5.1. 建设思路 (115)

5.2. 系统概述 (115)

5.3. 平台架构 (116)

5.4. 基于ITIL功能模块 (117)

5.4.1. 自助服务平台 (117)

5.4.2. 服务台 (117)

5.4.3. 事件管理 (118)

5.4.4. 问题管理 (118)

5.4.5. 变更管理 (118)

5.4.6. 发布管理 (119)

5.4.7. 资产配置管理 (119)

5.4.8. 作业管理 (120)

5.4.9. 知识管理 (120)

5.4.10. 服务级别管理 (120)

5.4.11. 排班管理 (121)

5.5. 运维系统功能 (121)

5.5.1. 门户平台 (121)

5.5.2. 接口管理 (121)

5.5.3. 流程设计 (121)

5.5.4. 报表设计 (122)

5.5.5. 流程监控 (122)

5.6. 硬件&基础软件 (122)

5.6.1. 硬件构成 (122)

5.6.2. 故障恢复 (123)

第6章项目管理与实施计划 (124)

6.1. 项目总则 (124)

6.2. 项目组织机构 (124)

6.2.1. 组织架构保证 (124)

6.2.2. 人员稳定 (125)

6.3. 项目进度计划 (125)

6.4. 项目范围内容 (126)

6.5. 项目实施地点 (126)

6.6. 项目进度管理 (126)

6.7. 项目合同变更管理 (126)

6.8. 项目质量管理 (127)

6.9. 服务内容 (128)

6.10. 项目管理 (128)

6.11. 项目交付成果 (129)

6.12. 实施准备 (131)

6.13. 实施人员清单........................................................................ 错误!未定义书签。

6.14. 实施工作进度计划................................................................ 错误!未定义书签。

6.15. 实施技术资料........................................................................ 错误!未定义书签。第7章培训方案.................................................................................... 错误!未定义书签。

7.1. 培训总论.................................................................................. 错误!未定义书签。

7.2. 培训内容.................................................................................. 错误!未定义书签。

7.2.1. 培训课程表................................................................... 错误!未定义书签。

7.2.2. 课程内容简介............................................................... 错误!未定义书签。

7.2.3. 培训资费....................................................................... 错误!未定义书签。第8章售后服务与日常运维方案........................................................ 错误!未定义书签。

8.1. 服务宗旨.................................................................................. 错误!未定义书签。

8.2. IT运维管理系统软件售后技术支持服务提供的内容.......... 错误!未定义书签。

8.3. IT运维管理系统软件售后服务网点...................................... 错误!未定义书签。

中国航天科技集团公司第六研究院IT综合运维管理系统技术方案

第1章项目概况

1.1.项目总体背景

随着某院信息化建设的快速发展,在新一代运载研保条件信息化项目完成后,拥有多台Windows服务器,多台用于高性能计算的Linux服务器、多个应用系统、多台网络路由交换设备以及近千台终端。

面对如此庞大数据量的应用系统和信息设备,依靠某院信息中心目前的运行维护队伍,进行服务器及网络系统的状态监控、配置管理、故障修复、应用维护,还要包括系统开发和后续系统建设,是根本无法完成的,将极大的影响信息化系统的稳定可靠运行能力。尤其是配置管理和状态监控完成依靠人格经验和手工记录完成,造成系统变更不受控制、故障无法预警等问题,严重的甚至影响应用系统的稳定运行,对科研生产带来严重的影响。

另一方面,自从开展新一轮军工一级保密资格认证工作,按照新标准保密工作工作量成倍增加,如涉密人员流动频繁;信息系统的普及产生多种形式涉密载体,涉密设备和载体如何账物相符管理难度较大,协作配套项目多,协作单位的交流保护核心技术;日常的保密管理制度落实程度等等。依靠传统两三个管理人员,纸质账本登记的方式难以为继,需要通过信息化的手段,提高保密日常管理工作效率和监督的检查的能力。

基于以上原因,需要部署信息系统运行维护管理系统,完成运维管理、效率评估、设备状态实时监控、配置变更统一受控、客户端信息集成管理和技术服务标准、流程化等功能。

1.2.项目的总体思路

1.2.1.整体思路

项目要在整体统一规划的基础上,采取分阶段、分步骤的策略对现有的信息系统综合网管系统进行建设,实现某院的网络设备的集中监管和维护,通过集中部署管理方式、实现对网络设备的集中监管,全面建成实现某院一体化统一信息系统综合网管系统平台,实现整个院所IT基础设施的集中监控、集中管理和集中维护,全面提高某院IT基础设施运行、管理和维护水平。

1.2.2.建设与管理范围

此次综合运维管理系统建设范围覆盖某院整体IT信息设备,系统部署在某院本部。

1.2.3.达到的效果

某院综合运维管理系统的全面建设,将为某院基于信息化系统的各项业务和工作的顺利开展提供坚实的技术支撑,为科研项目的生产和管理活动提供良好环境和坚实的基础保障,IT部门作为项目成果的使用者、管理者和直接受益者,将从不同角度和层面感受到项目所产生的变革,具体价值体现为:

给予IT部门一个全局化的管理视角,能够杜绝信息系统运转过程中的黑箱现象,避免管理死角的出现。通过简单直观的图形管控手段替代传统上不直观、不友好的管理界面,通过图形、动画、数据等多媒体手段的集成全方位展现整体信息系统动态运转情况,让管理人员对信息系统的运行情况做到全局掌握和实时了解,及时发现异常或问题,从而迅速介入和及时处理,做到问题早发现、早解决,提高对电力超高压检修信息系统运行管理质量和保障能力。

提供对多厂商、跨平台异构IT系统的统一管理支持,由管理平台屏蔽它们的底层差异性,采取统一的管理维护方式,从而简化管理、降低管理难度,避免重复投资导致的资金浪费,实现经济好省。

管理覆盖全面,实现对某院构成的各要素、各环节进行全面监控,主要是数据交换平台(网络)、安全,管理平台开放的体系架构和高度的可扩展性不但能够充分满足当前的管理需要,而且能够充分适应未来管理发展的变化,快速实现对新技术、产品的支持和适应,保护现有投资,实现向后兼容性。

提供丰富的展现和分析手段,资源使用、系统负荷压力分布一目了然,为有效评估和科学评价提供帮助,确保资源的分配与使用更加科学合理;

提高IT部门响应速度和支持保障能力,具备从容应对各种突发事件的能力,通过统一平台的主动检测监控,实现各种问题的及时发现、分析、定位并提供一系列管理手段帮助实现故障的快速诊断和精确定位,帮助管理维护人员迅速锁定故障根原因,从而采取正确的措施迅速排障,最大限度降低故障对业务运转的影响;

为多部门、多专业进行高效协同提供统一平台,使不同岗位和专业的管理人员,各司其职,相互协调,相互监督,运转流畅,使信息运维管理工作步入管理规范化、管理科学化和办公现代化的轨道;

详实的运行维护数据为推行量化的精细管理奠定了基础,解决了IT部门进行有效

绩效考评的困难,为上级部门和主管领导客观评价IT部门的工作成效提供了有力的论据,也有助于IT部门客观检查、审视自身工作,总结成绩、经验,发现不足,制定改进计划,持续改进、提高和优化信息管理维护工作;

准确掌握问题、故障的多发点,从设计、运行、管理等多环节切入寻找影响系统正常、稳定和可靠运转的关键因素,为深入优化、升级、改造提供有力的数据支持,从而确保信息管理和决策的科学性。

集成安全管理,统一管理监控入口,及时捕捉影响系统安全的各种风险因素,提高信息系统整体安全性和坚固性;

变被动的响应为主动监控;变事后修复为事前预防;变复杂操作维护为简单管理;变孤立分散管理为集中统一管理;全面扭转IT部门在运维工作中被动局面,借助于统一信息内网监管平台的有力支撑,有力推动某院IT部门朝着“全面实现以预防为主、修复为辅的主动式管理”的目标迈进。

该项目建设完成后,将会对某院运行维护和管理水平的整体提高发挥积极的推动和促进作用,做到故障早发现、早解决,确保计算机网络连续、可靠、安全运行,降低发生故障的可能性,提高信息运维部门的运行管理水平和服务保障能力,为信息运维综合监管系统的持续建设与深入应用提供强有力的支持与保障。

1.3.综合运维管理系统

基于对上面内容的理解,在充分沟通、仔细调研的基础上,我们本次为某院推荐上海IT运维管理系统公司的IT运维信息系统综合网管系统。

1.3.1.系统简述

IT运维为基于DOTNET平台运行的应用系统,采用了业界最新的DOTNET2.0框架及开发平台;系统采用B/S架构开发的应用系统,采用了业界最先进的WEB2.0技术,通过Ajax技术和Web Service技术,实现了在浏览器上页面的局部更新,提供更好的部署和使用体验;IT运维-IE客户端采用运行于IE7.0的jscript开发语言,大大提高IE客户端操作的响应速度;IT运维通过O/R Mapping技术和缓存技术,能够自动适用不同数据库之间差异性,优化数据访问速度。IT运维是一套全中文网络资源管理系统,是一套“基于网络平台、面向客户应用”的网络设备资源与应用服务资源、全中文、通用的管理软件,具有先进性、实用性、易用性和安全性的特点。

为了确保某院安全、高效、稳定地运行,提高管理水平,满足客户日益增长的服务需要,提供最安全最周到的服务保障,树立自己的行业形象,结合现今行业发展水平,利用先进技术,采用安全可靠的设计方案,将监控系统集成化,流程化。

1.3.

2.架构和功能

IT运维管理系统主要功能架构包括对象层、对象采集层、数据处理层、数据展现层、外部接口等。

IT运维管理系统框架图如下:

IT运维管理系统的管理对象包括:网络设备、安全设备、机房环境、主机系统、数据库系统、应用系统、其他等,IT运维管理系统数据采集的方式多种多样,支持分布式主动轮询或被动接受的方式采集数据,支持标准的SNMP、RMON、Syslog、WMI、Telnet 等协议的数据采集,支持数据库接口采集,支持应用API接口采集等多种方式,支持集成第三方管理平台组件进行数据采集,还可以根据用户的要求定制相应的接口,将相应系统的信息纳入网络管理系统中,形成统一管理。

IT运维管理系统采用开放的数据存储平台SQL server来进行网管系统的数据存储,能够保存半年以上的历史故障数据和性能数据以便生成相应的趋势分析报告。IT运维管理系统能够针对告警事件提供灵活的过滤,提供对告警级别、告警类别、告警消息等配置的能力,告警划分成几种颜色,提供多种工具和方法定位问题的根源。

IT运维管理系统的性能数据采集能够支持秒级单位的采样周期。IT运维能够提供原始采样频率的数据。IT运维管理系统经过一段时间的记录,能够通过对性能数据的对比,生成相应的阀值告警事件。

IT运维管理系统通过Web访问的方式为用户展示物理拓扑结构,并通过物理拓扑结构为用户提供全网的性能和状态信息,并通过颜色表现表示出来,帮助用户及时发现网络潜在的故障隐患点,从而为用户提供管理数据的分析、诊断机制和运维管理流程。

IT运维管理系统标准的Syslog、Telnet、API等接口,可以将安全管理系统、相关环境的管理数据,纳入IT运维管理系统中实现集中管理。

第2章需求分析

2.1.总体要求

结合项目特点综合运维管理系统要求如下:

实时掌握网络性能数据和故障信息,其中性能数据的获取时间不高于5分钟,告警数据的获取时间不高于30秒。按时间段(天/周/月/季度/年)统计分析网络运行情况,支持设备性能和链路性能图表。实现全园区系统汇总运行的统计分析,例如CPU平均使用情况、内存最大使用情况等。

分析数据可以层层下钻,看到各个网络设备相关指标的分析情况。也可以分析某段时间内不同区域不同指标的情况。实时监控、展现网络设备关键指标的变化情况。支持统一告警台视图展现,可将监控的所有的内容所产生的事件汇总到统一的展现界面,并可通过事件的点击追溯到事故资源的详细指标信息中。

核心网络实时监控和分析展现是对核心网络数据深入统计分析,更好地了解核心网络系统的运行状况、分析异常数据变动的原始数据原因。核心网络分析展现通过数据抽取对业务数据进行分析结果展现,同时提供分析所需要的细粒度数据和汇总数据。

网络实时监控和分析展现能按时间段(天/周/月/季度/年)统计分析网络指标的情况,分析数据可在时间维度逐层向下查看详细数据。

(1)系统需提供多种统计分析手段,如排序、同比、环比等而无需输入任何分析公式

(2)监控信息刷新频率可以按照用户的需要进行灵活调整

(3)满足实时抽取关键数据,按日批量和增量抽取明细数据

(4)监控信息刷新频率可以按照用户的需要进行灵活调整

2.2.需求分析

根据需求来看,实际运维工作中是有一些管理工具进行监控工作。但是从实际运维

管理工作需求角度出发,现有的管理工具存在较多的问题,这种问题体现在工具相互之间缺乏关联性,工具的非定制性导致采集数据和某院的实际运维工作存在较大的偏差,因此对于综合运维管理系统需求集中体现在以下几个方面:

1)所有IT设备均纳入综合运维管理系统管理

综合运维管理系统首先需要的是将某院所有IT设备均纳入管理,这是运维工作管理的基础和核心。只有当所有设备都在管理范围内,对其进行的监控、告警、统计、分析、报表才有实际意义。目前某院虽然有了一些监控工具,但从实际情况来看,并未将所有设备纳入监控范围,从监控本身角度存在较大的缺失。

2)全面增强的基础监控KPI

某院网络管理系统必须摆脱依赖于原有工具来开展运维工作的情况,需要根据某院自身运维管理工作特点,有目的有计划的展开各类管理对象的专题分析,比如网络设备监控、链路监控、服务器监控、数据库监控等,通过梳理现有的监控指标尤其是全国范围内用户对上述设备的管理指标,建立健全某院对基础监控的KPI库,将各类风险纳入到综合运维管理系统中,实现综合运维管理系统及时、快速、有效的对各类故障进行事前可知、事中可控、事后可查的目标。

2.3.建设目标

根据某院局现状和需求进行统筹规划,本着“从实际需要出发,保护已有投资”的原则,将目前已有的、针对网络的分散式监控管理系统,以及数据处理中心的动力集中到一个统一的监控系统,并以适当的形式进行集中展现,为运维人员进行系统、设备的监控、故障定位、故障诊断和解决等运维工作提供信息来源。实现集中统一的事件监控、集中统一的性能监控,从而实现综合运维管理系统的各项业务功能要求。

利用综合运维管理系统全面主动反映某院个业务系统的运行健康情况,通过多种分析手段为合理有效地分配各运维人员和值班人员的人员调度,为制定设备升级、扩容方案提供决策支持。通过综合运维管理系统对业务核心数据进行分析和实时监控,并实现丰富、科学、美观的展示。

第3章整体架构设计

本技术实施方案的目标是使用IT运维运维管理系统为某院建立一个统一的信息系统综合网管系统,具体来说包括:

1.建立起以IT运维为主体的网络运维管理系统:

最终的综合信息系统综合网管系统应能够很好的满足某院信息网络系统管理的实际需求,具备良好的实用性,能够提供强大的故障监测和故障信息处理平台。平台能够实现目前某院对全公司网络系统的管理原则,实现网络综合监测管理模式。能够根据各级管理运行管理范围和责任划分实际情况,灵活定义和界定检测管理的边界,根据实际需求选择和定义对相关检测信息的显示形式和统计方法。对网络核心环节能够实现全面的检测和状态管理。

对网络设备的跨厂家、跨平台的统一管理;网络产品管理进行监控,以及运行值班管理等功能;提供了较快速的故障告警信息;能针对各厂家产品提供统一的管理界面;提供了较丰富和实用的管理工具;提供了被监视设备的故障日志;操作方便,能够提供大量的网络设备的性能和状态的真实数据、方便实用的事件统计功能;能对这些系统提供的数据进行整理和分析,结合运行考核办法,制订应用于某院各级运行管理的数据集。

根据某院对网络综合管理与监控平台的要求,结合某院网络的实际情况及一些客观的因素:广域网带宽、设备性能、设备数量、管理策略(如设置历史记录、告警等)等,IT运维信息系统综合网管系统采用集中部署设计。

3.1.实施范围

本次IT运维信息系统综合网管系统总体技术实施方案范围为某院。在某院本部部署一套核心的IT运维运维管理系统,共3个逻辑组件(可以根据服务器的性能装在一台服务器上),包括:

●IT运维数据采集器及IT运维管理平台

●IT运维 Web-Server服务器

●IT运维数据库(SQL server),可以使用客户已有的数据库服务器

本方案采用统一的管理,我们以某院本部信息中心作为整个系统的网络中枢,管理某院的核心网络。

通过IT运维管理系统,可以实现跨厂商的网络产品管理、服务器管理、应用系统管理、告警事件管理、日志管理、用户管理、流量分析管理、报表分析管理、机房监控管理等。对于各种事件和日志,有收集、统计、告警、处理、分析等功能,管理数据采用安全的协议和方式在统一平台上实现共享。

所有功能实现均非互不相关的对立功能软件的堆砌,真正实现了某院建设信息系统综合网管系统的需求。

3.2.网络系统管理模式

在现实的IT组织中,运行维护的管理模式可能是以上四种基础模式形态中的一种或几种的组合方式。

对某院来讲,可以从以下几个方面来评估现状,或协助制定未来的管理模型:

控制(Control) - Where are decisions made?

单一控制或多点控制(Single or Multiple)

某院:采用单一控制方式,其优点是统一入口,集中管理。

执行(Execution)- Where the management function executed?

单一执行主体或多个执行主体(Single or Multiple)

某院:采用单一执行主体方式

3.3.统一的网络系统解决方案蓝图

企业信息化管理是一个多元化的工程体系。它不是一蹴而就的,而是一个循序渐进,不断完善、改进的过程。考虑到某院业务的扩展和网络管理系统、流程管理系统的不断完善,基于对系统管理需求和管理模式的分析,我们制定了如下的设计原则:集中管理。

基于集中管理系统的高效性,某院可以采用某院管理总控,统一制定并部署管理角色与职责、管理策略,考核指标由某院统一制定并强制执行。

3.3.1.代理方式与无代理方式结合的设计

针对某院这样一个大规模的网络系统管理平台,管理范围大,技术要求高,单独采用任何一种方式很难满足其架构设计的需要。考虑到代理方式和无代理方式的优缺点,建议采用两种方式结合的部署方式,大规模部署用无代理方式,深入监控需求用代理方式。通过SNMP协议能够获取详细信息的管理对象。

两种方式结合所带来的益处是:

1. 兼顾安全与效率

2. 兼顾深度与广度

3. 兼顾可靠性与安全性

3.3.2.数据库设计考虑

3.3.2.1.数据库宏观设计

在IT运维管理系统的方案中,建议某院采用SQL server数据库的来存储全公司的性能和告警数据,并作为日后进行流程管理的重要基础。

3.3.2.2.数据库详细设计

在统一数据库中,需要为告警事件、流程管理、资产和配置、可用性与性能等不同的系统监控信息分别分配一组表空间,以实现数据的物理隔离,并有助于提高应用的访问速度。

每一组表空间的大小可以根据某院采集点和采集频度进行估算。

从性能和灵活性角度考虑,可以将数据库中的各种监控数据所存储的表按月进行分区,每个分区分别占用不同的表空间。这样做的好处是向表中插入数据时索引的更新速度较快,且可以较快地生成跨月的报表,同时又能较快地摘除过期数据。

每一张表按照时间和最常用的一到两个监控维度字段建立索引,索引也按照表的分区分段存放在不同的表空间中,这样可以使最常生成的报表获得最快的查询速度,且生成的索引较小。

3.4.平台总体设计

3.4.1.设计要求

某院信息网络信息系统综合网管系统为总部集中式管理。以某院作为整个系统的管理中枢,能够实现对网络系统的状态检测,建立一个安全、高效、先进的监控体系。

●平台管理应具有企业级管理能力,管理平台能够对所有管理结点进行配置和监

测数据同步。所有管理工作以良好直观的界面实现,支持远程管理。

●管理功能集成于一个管理平台,统一于一个管理图形界面。可监测和管理网络,

形成一套统一的网络状态管理体系。

●对于各种事件和日志,有收集、统计、告警、处理、分析等功能,能够提供规

范的数据传输接口和API接口,能针对重要的应用进行二次开发。

●监测代理软件不应影响操作系统及应用程序的正常运行,对系统资源的消耗少。

●提供基于业务应用角度的监控,实现快速的故障诊断。

●能采用安全的协议和方式实现对不同安全等级区域中设备和应用系统的监测和

管理。

●具有自身安全性控制,包括用户访问权限、数据安全控制、通信协议安全等,

用户必须具有分权管理功能。

●有很好的可扩展性,可以随着应用规模和管理需求的增加而不断扩展,并保证

不同阶段实施的管理功能和结构的完整和统一,保护投资,并能够提供长期的

技术支持。

3.4.2.结合IT运维的平台总体设计

根据某院对网络综合管理与监控平台的要求,结合某院网络的实际情况及一些客观的因素:广域网带宽、设备性能、设备数量、管理策略(如设置历史记录、告警等)等,IT运维信息系统综合网管系统采用集中部署设计。

通过IT运维管理系统,可以实现跨厂商的网络产品管理、告警事件管理、日志管理、用户管理、流量分析管理、报表分析管理等。对于各种事件和日志,有收集、统计、告警、处理、分析等功能,管理数据采用安全的协议和方式在统一平台上实现共享,所有功能实现均非互不相关的对立功能软件的堆砌。IT运维层次化管理功能具有很强的安全性控制,包括用户访问权限、设备管理权限、功能管理权限、数据安全存储和传输等。同时提供基于业务应用角度的监控,配合强大的告警事件管理功能,实现快速的故障诊断和恢复处理。各平台有很好的可扩展性,提供规范的数据传输接口和API接口,针对重要的应用可以进行二次开发,可以随着某院的应用规模和管理需求的增加而不断扩展,并在不同阶段实施保持管理功能和结构的完整和统一。数据采集采取某院与下属单位分步取数,层层递进分析的方法。上述所有功能实现的基础是由IT运维管理系统自动生成的真实物理拓扑图,所有的操作都是以拓扑图为核心展开的,所有功能是统一系统平台上支持数据综合分析的统一管理,而非割裂的几个分产品的堆砌,实现了IT 运维统一网络运维管理的特性。

通过采用IT运维运维管理系统统一的管理,我们以某院本部信息中心作为整个系统的网络中枢,管理某院的核心网络设备。

信息系统综合网管系统模块配置设计

本方案中平台应用软件配置为IT运维运维管理系统

IT运维运维管理系统为分布式、多层架构的系统,支持部署多个数据采集器来进行信息系统综合网管系统的数据采集和处理。

3.4.3.信息系统综合网管系统系统软件的选型

操作系统:数据库服务器和应用服务器采用Windows2003 Server或Windows2008 Server操作系统,可分布部署的信息采集器则根据采集技术的要求选取操作系统,本项目使用Windows2003 Server或Windows2008 Server作为IT运维管理平台的操作系统和作为数据库的操作系统。

数据库系统:本项目采用SQL SERVER或ORACLE作为数据库管理软件。

数据采集层技术设计

3.4.4.设计要求

数据采集应考虑以下的性能因素:

●数据采集模块具有良好的健壮性和容错性,采集模块之间互相独立,网络异常

恢复后能自动恢复采样。

●数据采集不能对监测对象的性能有过多的影响。能在一定范围内根据系统运行

情况调整采样策略。

●数据采集、传输必须使用安全、可靠的技术手段,对现有的各类应用业务的安

全不产生影响。

●对网络设备最小数据采样周期不大于10S,对主机系统最小数据采样周期不大

于30S,对数据库和中间件最小数据采样周期不大于60S,要求提供各类采集指

标最小数据采样周期。(最大采样周期要求可参照平台监控管理范围与主要指标

要求中相关部分要求)

●要求平台能够根据适应应用系统状态监测的不同需求,支持采用代理、非代理

型二种采集模式对主机系统、应用系统和有关中间件状态进行监测。

数据采集应考虑以下安全因素:

●在进行数据采集时对于高权限用户账户信息应全部采用有效的加密方法进行传

输和存储,并对特定IP、MAC地址访问控制,以保障被测设备和系统的安全;

●对重要的设备和系统必须采用加密的登录过程(即SSH),保障远程登录的安全

性;数据采集、传输、存储、读取应支持HTTPS和SSH加密协议。用户登录系

统除通过不同的用户名和密码进行身份和权限控制外,还应可设定系统只允许

通过指定的IP地址进行远程登录。

●对网络系统的数据采集应依托网络进行,对专用设备的监控应通过现有传感设

备进行,最终通过网络传输和存储。

3.4.5.数据采集层技术设计

IT运维管理系统提供分布式的数据采集器,支持分散、多个安装在网络的不同位置,从IT运维管理平台下载数据采集和监视的规则,接受自动处理调度、上传采集数据、数据处理结果与告警策略监视,从而动态、全面地收集整个网络的信息。

网络管理人员可以在各网络合适的交换位置上安装IT运维分布式数据采集器,对全网信息进行不间断的收集和处理,即缓解了网络数据采集带来的压力,同时由于IT

相关主题
文本预览
相关文档 最新文档