IT综合监控平台 技术白皮书
- 格式:docx
- 大小:1.56 MB
- 文档页数:14
IT运维监控系统白皮书哎呀,要说这IT 运维监控系统,那可真是个让人又爱又恨的家伙!先给您讲讲我之前碰到的一个事儿。
有一次,我们公司的网络突然变得奇慢无比,大家都急得像热锅上的蚂蚁。
我这个负责运维的,那压力山大呀!后来一查,原来是服务器负载过高,可之前居然没发现任何预警。
从那时候起,我就深刻意识到一个强大的 IT 运维监控系统有多么重要。
那到底啥是 IT 运维监控系统呢?简单来说,它就像是一个 24 小时不眨眼的超级保安,时刻盯着咱们的 IT 设备和系统,一旦有啥风吹草动,立马发出警报。
比如说,它能监控服务器的运行状态。
像 CPU 使用率、内存占用率、硬盘读写速度等等,这些数据它都能实时掌握。
一旦某个指标超过了设定的阈值,它就会“大声嚷嚷”,提醒我们赶紧采取措施,免得服务器崩溃,造成大麻烦。
再比如说网络设备,它能监控路由器、交换机的工作情况。
哪个端口出问题啦,网络流量突然异常啦,它都能第一时间发现,让我们能够迅速定位并解决问题,保障网络的畅通无阻。
还有应用程序,不管是网站、数据库还是各种软件,它都能监控它们的运行情况。
如果某个应用程序突然卡顿或者停止响应,它也能及时通知我们,避免影响业务的正常开展。
而且啊,这 IT 运维监控系统可不只是会报警,它还能帮我们收集和分析数据。
通过长期的数据积累,我们可以发现一些潜在的问题和趋势,提前做好预防和优化,就像给机器提前打预防针一样。
比如说,通过分析服务器的性能数据,我们可能会发现某个时间段服务器的负载总是特别高,那我们就可以提前增加资源或者优化程序,避免在这个时间段出现问题。
另外,一个好的IT 运维监控系统还得操作简单、界面友好。
毕竟,咱们运维人员可不想整天对着一堆复杂难懂的界面和参数发愁。
它得能让我们一目了然地看到关键信息,快速找到问题所在。
还有哦,它得有强大的扩展性。
随着公司业务的发展,IT 设备和系统会越来越多,如果监控系统不能方便地扩展,那可就跟不上节奏啦。
业务服务监控平台技术白皮书(V2.0)联想中望系统服务有限公司2008年7月1背景及现状随着企业IT技术的广泛应用,企业IT资源的拥有量越来越多,结构越来越复杂。
如何保障IT系统的正常运行,从而保障公司的核心业务,已经日益成为CIO(首席信息执行官)需要仔细思考的问题。
此外,由于各种法规(如SOX法案)对企业诚信经营以及企业自身内控管理的要求,IT治理已开始越来越为各企业重视,作为IT治理框架的关键环节,IT系统的监控也已成为各企业的当务之急。
1.1 被动监控、分散管理图1描述了支撑企业业务运营的典型IT资源结构图,其中包括硬件(主机、路由、存储等)、软件(系统软件、应用软件、数据库等)等多种IT资源。
图1 典型企业IT资源结构示意图日益复杂的IT环境给运营环境保障人员带来如下问题:1、监控劳动强度大,事故不易及时主动发现。
缺乏统一集中的监控手段,不能对所管理的IT资产进行及时有效的监控管理。
随着IT设施的不断扩大,整个IT环境的日趋复杂,系统监控人员巡视设备(IT资源)的间隔越来越短,花费大量的时间,来发现与解决问题。
2、监控数据没有集中存储,无法为系统运行情况提供量化的科学依据。
缺乏一整套集中的数据中心来记录、配置信息和历史记录,使在日常的监控管理工作中,不能及时获取相关的信息,严重影响排查故障的效率。
没有建立一个统一的监控平台,难于适应业务系统扩展时的监控需求扩展业务系统在不断地扩展,相应地监控需求也在不断地扩展。
缺少一个统一,高可扩展性的监控平台,使得新的监控需求难以被满足。
1.2 “自下而上”的模式不能有效保障业务可用性企业的基础IT环境为业务系统提供支撑。
传统的IT运维建设思路是“自下而上”的,即:从基础架构监控开始,到应用系统的监控,再到业务系统的监控。
自下而上的建设思路不能适用于高速增长下的中国企业。
一方面,基础IT 环境的高可用性不能代表业务系统的高可用性;另一方面,业务的快速增长,需要更加快速、直接、高效的监控手段,以保障业务的有效运行。
引言概述:IT运维监控系统是公司或组织中至关重要的一部分,它能够实时监测、管理和维护IT系统的性能和稳定性。
本白皮书将详细阐述IT运维监控系统的重要性,以及其中包括的五个主要方面:监控需求分析、监控策略定义、监控系统实施、监控系统集成和监控系统运维,以帮助读者更好地理解和应用IT运维监控系统。
正文内容:1.监控需求分析a.确定监控目标:了解业务需求,确定监控对象、监控级别和关键性能指标。
b.确定监控范围:评估现有系统及网络基础设施,并确定需要监控的硬件、软件和网络设备。
c.确定监控频率:根据业务需求和系统重要性,确定监控频率,平衡监控精度与系统开销。
d.确定告警机制:制定告警策略,包括告警级别、告警通知方式和告警处理流程。
2.监控策略定义a.数据采集与分析:选择合适的监控工具,采集关键性能指标,并通过数据分析找出潜在问题。
b.健康状态指标定义:定义合适的健康状态指标,用于判断系统和网络设备的工作状态。
c.容量规划与性能优化:通过监控系统,收集系统负载和性能数据,为容量规划和性能优化提供依据。
d.日志记录和归档:建立日志记录机制,保存关键事件与操作,以助于系统故障的排查和整改。
3.监控系统实施a.系统选型:通过评估不同监控系统的功能和性能,选择最适合企业需求的监控系统。
b.设备部署:根据监控需求分析结果,合理布置监控设备,确保全面覆盖和高效运行。
c.数据接口配置:与现有系统进行集成和接口配置,确保数据的准确性和实时性。
d.用户权限管理:建立合理的权限管理机制,限制用户访问和操作的范围,保护系统安全性。
4.监控系统集成a.与运维管理系统集成:将监控系统与运维管理系统集成,实现故障自动报修和工单处理。
b.与服务管理系统集成:将监控系统与服务管理系统集成,建立自动化的服务交付和运维流程。
c.与安全管理系统集成:将监控系统与安全管理系统集成,实现实时威胁检测和漏洞管理。
d.与设备管理系统集成:将监控系统与设备管理系统集成,实现设备信息的自动采集和管理。
IT综合监控平台技术白皮书IT综合监控平台– APEX IMAPEX IntegrationManager是一款以业务系统的综合监控为核心,全方位的IT综合监控平台,从业务系统视角出发,对IT基础设施(网络、服务器硬件、软件及服务)进行全面监控,保障业务系统正常稳定可靠运行,支持的监控类型超过数十种,支持的监控指标超过数千个。
IM的主要功能:●网络设备、链路监控支持交换机、路由器、防火墙等网络设备的监控、支持链路流量、链路带宽利用率、链路丢包率、链路错包率等指标的监控,可以帮助网络管理员实时监控各台网络设备的可用性和负载情况,以及各条链路的当前可用性、流量大小情况,并支持通过曲线图查看链路的历史流量情况。
●服务器监控支持Windows、AIX、Linux、Solaris、HP-UX等服务器的监控,能够监控服务器的CPU使用率、物理内存/虚拟内存使用率、磁盘分区使用情况、磁盘IO (包括平均每秒IO请求数、平均每秒读字节数、平均每秒写字节数、IO等待队列深度、平均IO完成时间等关键指标)、系统进程与服务的运行情况、系统日志(EventLog与Syslog)、服务器系统时间等。
服务器硬件状态监控支持IBM、DELL、HP服务器的硬件状态(服务器需支持IPMI协议),包括机箱温度、电源电源、风扇状态和转速虚拟化监控支持对Vmware vSphere虚拟机环境进行监控,对虚拟环境的监控方式是通过vCenter Server对ESX/ESXi宿主机间接进行监控,所有的数据均从vCenter Server上获取,不直接与ESX/ESXi宿主机进行通讯。
即APEX IT监控系统与vCenter Server通过SOAP/HTTP协议集成,对整个虚拟环境进行监控。
宿主机对于物理机,也就是宿主机,支持获取该物理机的硬件配置情况,包括:宿主机上安装的ESX/ESXi软件fullName、支持的SDK API的版本号。
广州中软信息技术有限公司目录1 概述 (3)2 解决方案 (3)2.1 技术架构 (3)2.1.1 总体逻辑架构 (3)2.1.2 系统部署架构 (5)2.2 功能设计 (6)2.2.1 数据采集及处理中心 (6)2.2.2 集中展现平台 (11)2.2.3 统一管理数据库 (20)2.2.4 系统外部接口 (24)3 运行环境 (24)3.1 硬件 (24)3.2 软件 (25)4 应用案例 (26)1 概述广州中软IT 集中运行监控管理系统(BHM )是一个能够促进企业的IT 运维管理与业务管理相融合的IT 运维综合性管理平台。
它通过透明化企业IT 基础架构和透明化企业IT 运维过程来满足IT 运维工作在操作层、管理层、决策层等不同层次的需求,达到延长企业服务的在线时间以及提高客户对业务服务的满意度的目的。
广州中软IT 集中运行监控管理系统(BHM )不仅仅是工具,结合了广州中软公司多年在各行业的运维经验,其主要特点是:订制能力强、扩展性好、覆盖范围广、可复用企业已有资源、跨平台,面向服务、支持多级部署集中展现、安全可靠、稳定高效。
广州中软IT 集中运行监控管理系统(BHM )经历过大型项目的洗礼,在各行业应用的口碑,完善的售后服务保障,高效、诚信且实力雄厚的实施服务团队,较之市场上类似产品的功能堆砌(简单的数据接入)模式,广州中软IT 集中运行监控管理系统(BHM )更强调的是对各领域监控数据的集中关联分析模式。
2 解决方案2.1 技术架构2.1.1 总体逻辑架构对系统逻辑架构的设计,广州中软建议采用多层设计,依据对IT 基础设施集中监控平台的建设需求,将系统分成监控对象层、数据采集及处理中心、集中展现平台以及统一管理数据库。
如下图所示:(1)数据采集及处理中心数据采集及处理中心包含了数据采集器、统一数据处理引擎、统一事件处理 引擎三个逻辑组件。
其中,数据采集器根据采集策略对所有IT 资源对象的资源配置数据、性能指标数据、日志数据、状态数据等进行采集,并将采集到的数据 推送给统一数据处理引擎进行处理。
一、系统概述系统背景近年来随着信息技术的迅速发展,IT网络的建设以高于30%的速度逐年递增。
通讯、金融、教育、交通、政府、企业等各个行业的迅猛发展都越来越密切的依赖于现代化的IT 信息网络平台。
但是高速发展的同时,各行业巨大的IT维护和管理成本也在与日俱增,IT 基础建设的健康性和可管理性越来越让人担忧。
企业现在普遍缺乏一个有效实用的综合监控系统来实现完整的IT架构监控和管理,即便现有各行业已经采用的IT管理工具也大都是从传统的IT网元监测出发,基于各自独立的管理模式,各管各的事:设备管理系统,不同的应用管理系统,各自只能维护自己的产品;系统间信息没有充分的交互,无法分析故障的根源;对IT网络的核心资源不能进行统一有效的管理;IT维护和系统的建设没有提升到面向服务和面向业务的层次。
企业缺乏统一集中综合监控系统的局面,使得企业IT运营人员不得不面临许多挑战:学习各种领域知识、学习各种管理系统、熟悉各种操作系统、熟悉各种设备仪器、处理故障时在各种工具间切换等。
产品概述ForceView IT运维监控系统是东华软件经过多年经验积累、维护实践、自主研发和技术创新的结晶。
该系统基于Web的集中管理模式,遵循面向对象的设计结构,具有高度集成化和先进性、安全性、开放性、可扩展性、高效性、高可靠性等系统特点;该系统融合了网络管理、主机系统管理、应用服务管理、业务管理等各种IT因素的统一监控管理平台,并从业务视角出发,实现上述各项管理数据的共享集中、互通互融,从而能够综合量化企业IT基础和企业业务的总体服务品质。
使用该系统,企业运维人员能实现对网络设备、服务器、数据库、应用软件、web服务等进行集中统一的管理,使得对企业IT基础架构管理从被动分散的维护转变为主动集中的控制和管理;使用该系统,企业运维人员能实现从业务角度来管理IT基础架构,使IT基础架构真正成为保障业务服务水平的、可管理、可控制的业务平台,从而构建业务人员和IT 管理人员的共同语言,搭建业务管理与IT运营的沟通桥梁。
IT综合监控平台– APEX IM
APEX IntegrationManager是一款以业务系统的综合监控为核心,全方位的IT综合监控平台,从业务系统视角出发,对IT基础设施(网络、服务器硬件、软件及服务)进行全面监控,保障业务系统正常稳定可靠运行,支持的监控类型超过数十种,支持的监控指标超过数千个。
IM的主要功能:
●网络设备、链路监控
支持交换机、路由器、防火墙等网络设备的监控、支持链路流量、链路带宽利用率、链路丢包率、链路错包率等指标的监控,可以帮助网络管理员实时监控各台网络设备的可用性和负载情况,以及各条链路的当前可用性、流量大小情况,并支持通过曲线图查看链路的历史流量情况。
●服务器监控
支持Windows、AIX、Linux、Solaris、HP-UX等服务器的监控,能够监控服务器的CPU使用率、物理内存/虚拟内存使用率、磁盘分区使用情况、磁盘IO (包括平均每秒IO请求数、平均每秒读字节数、平均每秒写字节数、IO等待队列深度、平均IO完成时间等关键指标)、系统进程与服务的运行情况、系统日志(EventLog与Syslog)、服务器系统时间等。
服务器硬件状态监控
支持IBM、DELL、HP服务器的硬件状态(服务器需支持IPMI协议),包括机箱温度、电源电源、风扇状态和转速
虚拟化监控
支持对Vmware vSphere虚拟机环境进行监控,对虚拟环境的监控方式是通过vCenter Server对ESX/ESXi宿主机间接进行监控,所有的数据均从vCenter Server上获取,不直接与ESX/ESXi宿主机进行通讯。
即APEX IT监控系统与vCenter Server通过SOAP/HTTP协议集成,对整个虚拟环境进行监控。
宿主机
对于物理机,也就是宿主机,支持获取该物理机的硬件配置情况,包括:宿主机上安装的ESX/ESXi软件fullName、支持的SDK API的版本号。
宿主机的硬件能力属性、宿主机的BIOS信息,包括biosVersion,和releaseDate。
CPU信息,包括CPU个数、CPU核心总数、每核心CPU频率、CPU并发线程数,CPU厂商、物理内存总大小。
网卡个数和网卡背板带宽;磁盘总大小、已使用容量、剩余容量、使用百分比。
自动发现该宿主机上当前已经创建的虚拟机的数量,当虚拟机的数量增加、减少时能够自动感知到这种变化,当虚拟机被删除或被迁移到其它宿主机时能够自动产生告警。
除了静态信息,还需要能够定时采集物理机的动态性能数据,当性能数据超过阈值时能够产生告警,包括:电源状态、可用性、CPU使用率、内存使用率、磁盘使用率、磁盘IO、网卡流量、响应时间。
虚拟机
自动发现每个宿主机中已经创建的虚拟机,包括基础信息与动态历史性能数据,基础数据包括:
创建虚拟机时给虚拟机分配的的硬件资源,包括虚拟机的名称、安装的客户操作系统类型、是否是模版虚拟机、是否支持CPU热插拔、是否支持内存热插拔、分配的物理内存大小、分配的CPU数量、每个CPU的核心数,虚拟机当前的运行状态(GuestInfo#guestState)、虚拟机的网卡信息(GuestInfo#net,包括网卡是否使能、配置的IP地址和掩码、)虚拟机的主IP地址、虚拟机的磁盘信息(GuestDiskInfo,包括磁盘名称、容量、剩余空间)动态历史性能数据包括:虚拟机的启动时间、电源状态、连接状态、CPU使用率、内存使用率、磁盘IO、网卡流量,这些数据需要以趋势图的形式显示,并可以支持自定义时间段。
当虚拟机的动态性能指标超过阈值时,能够产生告警提醒管理人员。
数据中心
能够查询到当前vSphere环境中已经创建的Datacenter,并发现它所包含的其它实体对象,比如Cluster、Folder、Host、VM、Datastore。
支持以树结构的方式展示Datacenter和其它物理/逻辑元素之间的父子关系。
集群
支持发现vCenter中配置的Clustor,包括发现Clustor与宿主机之间的一对多关系,支持在界面上以树结构的方式显示Clustor与Host之间的父子关系。
当Clustor发生变化时,如新增Clustor、删除Clustor,修改Clustor中包含的Host主机时,系统要能够感知到这种变化,并自动更新系统数据库中的相应模型数据,在用户刷新界面时自动反映这种变化,不需要操作人手工进行刷新操作。
数据仓库
支持当前VSphere环境下的Datastore,可能有多个,包括数据仓库的名称、剩余容量(字节为单位)、最大文件大小;支持自动发现Host主机与数据仓库之间的多对多关系。
告警管理
支持获取vSphere环境中的实时告警信息,通过AlarmManager接口实现。
vSphere定义的告警通过对象Alarm及AlarmInfo描述,包括creationEventId、key、lastModifiedTime、lastModifiedUser、description、name、systemName。
支持接收vCenter发送出来的SNMP Trap信息并产生告警、执行告警动作。
自动发现虚拟机
从vCenter Server中读取到宿主机信息的时候,要支持自动发现该宿主机上的虚拟机,当Host主机上的虚拟机发生新增、删除、修改变化时,系统能够自动感知到这种变化并同步更新APEX系统数据库中相应的模型数据。
集成vCenter
支持与vCenter集成,需要输入的参数包括:主机名称(也即运行vCenter Server的服务器的名称,只是为其取个名字,做个标识而已)、IP地址、端口、轮询周期。
添加成功后,需要自动发现vCenter Server中正在管理的宿主机、虚拟机、Datacenter、Datastore、Cluster、Folder信息,并能够发现他们之间的父子关系。
与vCenter Server同步
支持自动、手工两种方式与vCenter Server中的Virtual Component同步,当vCenter Server中添加了新的组件时(比如对Datacenter、Folder、Host、VM等的增删),通过同步的方式,监控系统就能够感知到这种变化,保持与vCenter Server中数据的同步;在自动同步的模式下,同步时间可以配置,比如每X天同步一次;默认的同步模式是手工同步。
存储监控
支持多厂商的存储区域网络(SAN)和网络附加存储(NAS)监控,能够监控HP、IBM、DELL、EMC、NETAPP、日立等主要厂商的Storage Array、光纤交换机、磁带库、HBA等存储设备。
支持多种监控协议实现对高中低端存储的监控,如命令行、 SNMP、SMI-S 协议,支持SNMP Agent或SMI Agent, APEX系统通过对SNMP和SMI-S协议的支持,尤其是SMI-S协议,实现了对存储的颗粒度更细的监控,可以得到更多细化的关键指标。
对于支持SNMP Trap的存储,APEX 存储监控模块通过支持接收和解析存储发送的Trap事件和告警,可提高对存储故障的监测实时性。
FC交换机监控:
●保证端口可用性
●监控端口性能和利用率
●监控区域、虚拟存储区域网络
存储阵列监控:
●监控物理组件(包括控制器、端口、驱动器)
●监控逻辑组件(包括LUN、卷、存储组)
●监控资源的健康状况、可用性和利用率
●监控传感器故障、电池、电源状态
磁带库监控:
●监控物理组件(包括磁带驱动、端口、磁带等)
●监控逻辑组件(包括分区、移动器)
●监控资源的健康状况、可用性和利用率
●监控传感器故障、电池、电源状态
●数据库监控
支持Oracle、MySQL、DB2、SQL Server、Sybase、Informix等数据库的监控,能够监控数据库的内存使用情况、会话、表空间和数据文件、数据库的访问连接时间、缓冲区命中率、共享池命中率、内存排序比、数据字典命中率、数据库Job作业执行、死锁等主要指标,方便数据库管理员深入了解数据库的运行情况,及时作出调整。
应用服务器监控
支持Tomcat、JBoss、Resin、WebLogic、WebSphere、MQ等应用服务器的监控
Web服务器监控
支持Apache、MS-IIS WEB服务器的监控,能够监控Web服务器的并发访问量、吞吐量、平均请求字节数、响应时间等关键指标,在大访问量的网站监控方面效果很好。
●支持MS-Exchange邮件服务器的监控
●支持HTTP URL监控
可监控任意Web应用系统的某些特定URL的可用性、响应时间,当URL访问失败或响应时间过长时,及时发出预警
IM的主要亮点及优势:
集中监控
在单套软件中实现了对网络设备、服务器、数据库、中间件等软硬件的监控,避免安装多套软件带来使用上和管理上的不便
无代理的监控
不需要在被管服务器上安装监控软件,是一种无侵入式的监控方式,大大减少了实施与后期维护的工作量
支持服务器硬件状态监控
包括服务器的电源、风扇转速、温度、磁盘坏道
支持业务拓扑图功能
可以从业务系统的角度建立业务拓扑图,并在拓扑图中构建各元素之间的业务,从业务可用性、健康状态、端到端性能等多个维度全面监控业务系统
IM的主要价值体现:
APEX IM综合管理平台,为用户提供了一个单一的集成的IT监控软件套件,将IT运维与业务运营紧密结合,提供运维服务质量,降低风险,为客户提供多重价值:。