应用平台管理系统技术白皮书
V1.0
版权信息
Transfar Escort APMS
版权所有(C) 1996-2009 创发科技有限责任公司(Hunan Transfar & Timeson Technology Co.,LTD.),保留所有权利。
transfar?、escort?均为创发科技有限责任公司的商标。对于本手册中出现的其它商标,由各自所有人拥有。
文档保证申明
本手册以提供信息为目的,所含信息可随时更改,恕不另行通知。由此情况引起的与之有关的直接或间接的损失,本公司均不负责。
联系方式
湖南公司:
地址:湖南省长沙市芙蓉区晚报大道297号创发科技大厦
电话:0731-******** 传真:0731-******** 邮编:410016
公司网站:https://www.doczj.com/doc/ba11366420.html,
南京公司:
地址:江苏省南京市珠江路88号新世界中心A座2803
电话:025-******** 传真:025-******** 邮编:210018 Essrot amps 专用官方网站:https://www.doczj.com/doc/ba11366420.html,
产品概述
如何保障IT网络中各种设备及应用的稳定运行,规范IT管理流程和组织架构提高工作效率从而进一步保证核心竞争力的效用已成为当前企业所密切关注的问题。我公司IT网管系统严格按照国际网络管理规范,结合业界优秀的网络管理平台和实际应用的经验,精心研制出的一套BSM产品。该产品能实现对被管设备和应用系统的故障发现、故障定位、故障报警,可确保告警发现的准确和及时;具有实时性能图表分析、丰富的历史数据报表和趋势分析报表功能,为企业提供了一个可控制、可预测的IT环境。
产品架构
监控管理实现对IT资源的运行状态的统一监控。监控对象包括企业内的各种主机、网络、数据库、中间件、存储、服务及进程等。
监控管理平台结构划分为三层,分别是数据采集层、数据处理层、数据应用展现层,被监控对象的网管数据通过三个层面的处理,统一展现给监控和维护人员。
数据采集层通过与被管系统的接口采集网管数据,送到数据处理层进行数据处理。
数据处理层一方面对告警、性能等数据进行格式化、转换等处理,并将数据录入监控数据库。
数据展现层可以展现各种监控视图,包括企业网络拓扑、各类主机告警展示、性能视图展示、配置数据展示等。
上述三层灵活架构,可视实际情况灵活部署,便于扩充和维护。
监控内容
监控范围
产品支持对企业IT环境中的主机、网络、数据库、中间件、磁阵等IT 基础设施及常用IT服务监控,具体如下:
系统支持各类主流路由器、交换机和防火墙等网络设备的接入和监控,包括Cisco、华为、中兴、Juniper等设备。
系统支持各类主流主机监控,包括WINDOWS、LINUX、AIX、HP UNIX 等。
系统支持各类主流数据库监控,包括ORALCE、SYBASE、DB2、SQL SERVER等。
系统支持各类主流中间件监控,包括WEBSPHERE、WEBLOGIC、MQ、TOMCAT、TUXEDO等。
系统支持对主流存储设备的监控,包括EMC、IBM、HP等系统产品。
系统支持对服务及特定进程监控,服务监控包括DNS、HTTP/HTTPS、SMTP、FTP、DHCP、IMAP和常用服务端口检测等。
监控方式
对于被监控的基础设施在技术上通过代理和无代理两种方式实现监控管理,可根据网管接口支持情况及监控粒度等因素来选择具体的监控方式。
1、代理方式
在每个被管理的服务器安装AGENT软件,可自动操作和发现被管理的服务器上所有已知的应用,数据库和系统部件,监测用基础设施运行指标;检测事件并使事件相互关联;初始化纠错操作;并提供事件通知和升级。由于这些代理是完全自动化的,所以它不需要控制台连接来进行日常操作,这使得它极端的有效和稳定。Agent的管理框架是易于扩充的,用户可以动态扩充监控插件。
这些Agent具有以下特点:
自主性,可根据监控对象的资源变化(如性能)进行自我调整
可自动发现监控对象的内容的变化
可定制的管理任务,并可根据需要定时执行
相关管理任务的的自动纠错操作
灵活的用户接口
易于安装,即插即用、与监控对象的平台无关等等。
2、无代理方式
通过标准协议远程获取被管设别运行情况,支持的协议有SNMP、TELNET、SSH、WMI等。
无代理方式具有以下的特点:
在被管设备支持的情况下,可获取监控主要指标
系统部署和实施方便快捷
由于采用无代理在工程实施和维护方面具备优势,我们建议优先选用无代理方式监控。
监控指标
网络指标
通过标准网管协议对各种类型的网络设备监控,采集常用的网络监控指标。
产品支持如下指标情况:
设备内存利用率
设备CPU利用率
端口利用率
端口丢包率
端口错包率
端口流出利用率
端口流入利用率
……
主机指标
通过对主机操作系统的性能监控,采集广泛的主机监控指标。
产品支持如下指标情况:
CPU/内存/磁盘/网络接口总体监控
CPU细化性能指标实时监控
CPU进程监控
内存利用率监控
虚拟内存监控
磁盘空间大小/磁盘可利用空间/磁盘利用率监控
磁盘I/O监控
磁盘总体报告
……
数据库
通过标准协议实现主流数据库监控,采集各种的数据库监控指标。
产品支持如下指标情况:
数据库状态
缓存区命中
用户SESSION数/使用百分比
连接用户数
表空间
锁
……
不同数据库产品监控指标存在一定差异,系统提供丰富的数据库监控指标,可满足用户需要。
中间件
通过标准协议实现主流中间件监控,采集各种的数据库监控指标。
产品支持如下指标情况:
JDBC连接状态
连接失败率/可用连接数/在用连接数
高速缓存命中率/高速缓存丢失率
JVM总内存/JVM剩余内存/JVM已使用内存/JVM使用内存百分比
活动线程数/线程池大小/线程最大百分比
服务平均响应时间/服务平均请求率
……
不同中间件产品监控指标存在一定差异,系统提供丰富的中间件监控指标,可满足用户需要。
存储
通过网管协议和特定指令实现对主流存储设备的监控,系统支持如下指标情况:
存储设备状态
大小及使用空间
通道状态
存储CACHE状态
……
服务及进程
通过相应协议实现对产用服务的监控,系统支持如下常用的服务包括:
DNS服务
HTTP/HTTPS服务
SMTP服务
FTP服务
DHCP服务
IMAP服务
……
产品还支持特定端口服务及特定进程监控,主要监控各服务及进程的运行状态等指标。
产品功能
产品主要功能包括拓扑管理、告警管理、性能管理、配置管理、报表管理、工具管理及系统管理等,具体如下:
拓扑管理
拓扑管理具有灵活的浏览、监视和编辑的功能。
拓扑浏览
拓扑图直观展示企业各IT节点及之间的连接关系,不同带宽链路及设备采用不同方式展示,方便浏览。
性能、告警、配置等信息可动态反映到拓扑图上,通过不同图标、颜色及声音提供丰富的监控展示,方便维护人员了解运行状态。
用户能够灵活的定义各个拓扑图之间的导航关系。通过拓扑图,可快捷的查询对象配置、告警、性能信息。支持细粒度拓扑权限,每个用户可以从不同的视角、不同的侧重层次来选择自己监视的视图范围。
网络拓扑示例
拓扑编辑
系统支持拓扑编辑,支持拖曳、自动倒入和图元分布等操作方式,可方便系统管理员灵活定义企业拓扑,减少维护工作量。
告警管理
告警规则
告警处理规则
包括事件告警的过滤、归并以及关联,可定义事件的级别、显示名称、描述信息等信息。
告警规则设置
告警派送
可灵活定义告警派送规则,支持发送短消息、MAIL等多中方式,一旦有告警发送,系统将根据预先设定的规则将告警自动发送给指定人员,及时提醒用户,发现问题和解决问题。
告警派送设置
告警监控
告警管理实现对IT基础设施的统一监控、集中展现。告警信息通过关联分析后,能够快速定位故障,方便故障分析,提高维护效率。
系统支持告警列表,不同级别的告警应用不同颜色表示其严重程度。若有多个告警,按最高级别显示颜色,操作员可以定制每一类告警的颜色,也就是它的严重性。
支持对告警进行相应的处理,包括系统派送、短信和邮件派送、告警删除等操作。
告警查询
支持按多条件查询告警当前和历史告警信息,可以按照时间、节点名称、告
警级别和告警内容等信息组合查询。
性能管理
性能规则
系统通过性能采集配置界面可对性能采集任务设置指标阀值,当采集到的性能指标越过该阀值时,系统产生性能告警,并把该告警送给故障处理模块。
性能监控
为了方便用户操作,系统提供集中的性能展示界面,被管对象各类关键指标和常用信息集成在同一界面展示,系统维护人员能一目了然的知道选择的被管对象运行情况。
系统自动生成不同监测参数组合的任意时间段的性能监测报告,供分析诊断系统状况,网络和系统规划提供必要的数据。
系统还提供各种监控指标的日图、周图、月图和年图。
性能分析
系统提供关键指标知识库,提供长效的IT基础设施服务支撑能力分析工具可以多资源、多指标的分析业务系统相关基础设施的整体运行情况,并且提供详尽的性能指标数据,为IT服务能力规划提供依据。
示例一:多资源多CPU性能分析
示例二:多W AS活动会话数分析
配置管理
系统支持多种方式来对配置数据的采集,包括资源自动发现和手工录入。
资源自动发现
通过各种发现引擎,自动发现IT环境中的网络、主机等基础设备。管理人员可以根据需要,确定发现的范围,如相关的IP网段和节点、COMMUNITY串等信息从而管理需要管理的设备。
手工编辑
对于主机、网络等各类IT信息,系统支持人工方式进行信息的配置,实现各类信息的增加、删除、修改操作。
报表管理
报表的展现主要可通过JSP页面实现,分三个部分:报表树、参数填报页面和报表数据展示页面。
系统支持的报表包括:
1、性能管理报表
分对象统计重复性能事件次数报表;
分对象统计重复次数最多、最少性能事件报表;
2、告警管理报表:
分对象统计重复告警报表;
分对象统计重复次数最多告警报表;
分对象统计超时告警报表;
分对象统计超时次数最多告警报表;
告警历时报表;
3、资产管理报表:
资产统计报表
系统支持将报表结果导出为Word、Excel、PDF文件的功能和打印功能,并实现报表图形展示,支持曲线图、饼图等图形转换功能。
工具管理
PING
PING工具可以实现网管服务器对目标地址发送数据包以获得其返回时间并判断网络速度,其返回时间以动态数据表及动态图形式来呈现。
图形界面,可设置icmp包的时间间隔,包的大小。
TRACERROUTE
TraceRoute工具通过从网管服务器发送icmp数据包到目标地址,来获得网管服务器到目的地址数据包所经历的路径(输出结果中包括每次返回的时间、设备域名及其设备IP地址,以动态数据表及动态图形式呈现图形界面,可设置hop 数,tracert次数。
TELNET
Telnet工具从网管服务器上发起操作,实现对网络设备进行远程登录操作。
IPBROWSER
IpBrowser工具提供给定一个IP地址段或IP组,能对其中的每一个IP地址进行测试,列出哪些IP地址当前处于活动状态;对于当前活动的IP,能够测试出设备类型、系统名称等基本信息。便于资产管理人员对网络资源在线状况信息的及时掌握。
系统管理
人员权限管理
系统支持灵活的权限分配,支持给不同的人员分配不同的功能权限和资源权限,可通过角色以及域组实现便捷的权限分配,也可以支持对单个用户权限的调整和修改。
日志管理
为了保证网络管理系统的正常安全运行,对系统中发生的重要事件进行详细的日志记录,包括:
1、用户操作信息
用户能对所有对系统进行的操作进行记录,包括用户对性能数据采集任务进行配置的操作,对资源的配置操作,故障处理操作,对数据进行的备份删除操作等等。
2、系统运行信息
系统运行日志对系统本身的运行情况进行记录,包括系统的启动、异常、关闭等信息。
3、安全日志管理
安全日志的主要内容包括:
用户登录,包括成功登录与非法登录;
用户退出,包括退出成功或退出失败;
重要的操作,包括增、删、改用户、管理域和操作权限等
产品特点
系统技术构架先进,系统基于J2EE技术架构,采用JAV A+XML技术、,利用jmx、snmp、syslog、trap、icmp等其它tcp和udp协议;
独特的监测技术,实现对应用系统、主机、中间件、数据库、网络设备的实时监控,方便扩充;
准确及时的告警关联分析,方便故障定位和分析。具备一定故障预警机制,比如阀值、性能趋势分析等,为企业提供一个可预测的IT环境;
实现全方位的IT监控,提供丰富的监控指标和直观的展示方式;
具备拓扑管理及资源信息自动发现功能,方便资源信息的获取以及企业网络运行状况全视图的呈现;
提供灵活丰富的报表,支持多种图形现实方式,并可方便进行排序、打印、保存EXCEL文件等;
集成ping、telnet、mibbrowser等各种网管工具,可以帮助管理人员在运维过程中快速的发现、分析和解决故障;
界面设计友好,产品提供集中化展示,单个资源各类重要信息集成在同一界