当前位置:文档之家› 大数据运维平台建设方案

大数据运维平台建设方案

大数据运维平台建设方案

方案概述

1.1.项目背景

众所周知,科技是现代化建设的第一生产力,当今社会正在逐步向信息化、网络化、数字化发展。由于多系统、多业务、多厂商设备等原因导致IT网络管理环境复杂多变, IT维护难度成几何倍数增长, IT信息科技方面的风险及隐患也在不断的加大,如何保证整个IT系统稳定安全的运行也是本次项目建设的重点关注部分。如果没有一套先进的IT运维监控管理系统,会使得客户对业务系统的运维管理比较被动且滞后。当系统出现严重故障时才能发现该异常,导致故障处理速度较慢,有时甚至会影响业务系统的正常运行。所以,及时准确的了解设备性能、资源利用率、业务系统运行瓶颈等指标对于客户的信息化建设有不可或缺的参考价值。本次将建设一套功能先进、安全可靠的大数据运维平台势在必行。

1.2.需求分析

将运维模块变被动式为主动式运维,切实达到7*24小时不间断运维,进而保障客户的业务系统正常运转。因此具体要求如下:

?能够全面详细地监视系统中所有IT资源的运行情况,提供一致的系统管理风格

?能够实时监视网络和业务的性能状况,能够通过客观数据分析当前系统性能状况和长期系统性能变化规律和趋

势,为系统升级和扩容提供科学的依据。

?具有全面而深入的主机/服务器管理功能,保证主机/服务器的可靠和高性能运作。

?提供运营商级IT系统中所需要的各种功能,及集成化的管理模式,可降低系统管理的成本。

?实现业务可视化管理,分析深层次原因等问题。

?提供全面的WEB应用可用性进行全方位检测功能,提高业务可用性。

1.3.建设目标

1.3.1.建立统一运维门户

通过建设统一的运维门户Portal,作为整个大数据运维平台的统一入口,具备统一认证、单点登录、自定义首页工作界面、分权分域管理等功能,统一建立用户账号,实现简单化用户管理。大数据运维平台提供运维管理门户网站、移动APP、个人工作台、自助服务台等多种形式的服务窗口。

1.3.

2.建立IT异构资源的全面集中化管理

九寨沟景区本次信息化建设已达到相当规模,设备种类多且规模大(网络设备、服务器、存储等);涵盖不同厂家,各种型号的IT设备,涉及传统的物理设备和云计算平台。

通过大数据运维平台,以统一监控管理为中心,实现对数据中心信息化IT基础设施的集中监控管理,提供数据中心基础软硬件资源及各类应用的监控管理,包括对网络设备、安全设备、服务器、存储、数据库、中间件、WEB业务应用系统、虚拟化资源、网络服务等性能采集和事件处理,同时支持与第三方系统(如动环系统、安防系统、应急指挥系统等)对接,构建统一集成的系统资源监控平台,主动、及时地发现问题,解决被动服务的局面,提供集中的监控告警管理及监控性能数据展示。

此外,通过大数据运维平台的自动化运维功能,管理平台能够在故障发生时自动获取故障设备相关的各项指标数据及指标状态,确保相应告警和事件发生时的状态能够详细记录并关联,在必要时能够实现自动恢复、自动化巡检、批量操作作业等运维自动化场景。

1.3.3.建立全面准确的资产配置管理

要做好九寨沟景区智慧旅游大数据综合管理平台运维管理,首先必须对种类繁多、规模庞大的IT资源进行有效管理,以免信息的更新不及时,造成信息难以统计、查询、分析和利用。理清IT资产配置台账,梳理配置项之间的关联关系,做好资产生命周期管理,这是实现九寨沟景区智慧旅游大数据综合管理平台智能运维管理的基础。

通过统一的配置管理库(CMDB),实现对九寨沟景区智慧旅游大数据综合管理平台所有IT资源的配置信息管理,保证配置项的完整性和精准性,构建运维管理元数据,帮助用户建立统一的IT基础设施台帐。通过一系列配置建模、自动采集、调和、变更控制等手段,保证IT生产环境中配置项的完整性和精准性,为资源监控和服务流程提供数据支撑。

1.3.4.建立符合最佳实践的服务流程管理

大数据运维平台的流程管理提供了面向于最终用户的服务目录及服务级别管理,并提供规范的ITIL服务支撑流程及资产管理流程。通过流程管理系统进行IT运维服务的流程化、规范化管理;通过与底层统一监控系统的集成,实现了IT运维的自动化;通过完善知识库建设,实现知识库共享;从而提高信息服务效率,提高用户的满意度,帮助用户有效管理人员、信息、资产和知识库,为IT服务管理的规范化建立基础。

1.3.5.建立IT资源全面直观的可视化管理

通过大数据运维平台,用户可以实时查看管理对象的日常运行情况,操作简单,界面直观明了。在信息集成的基

础上,通过提供的各种运行分析和性能报告,形成全网统一管理数据视图,提供关键绩效指标体系所需数据基础,管理人员能根据这些数据准确评估整个IT环境运行情况,及时发现故障隐患和评估威胁。平台预留了符合国家信息技术服务标准(ITSS)的多种对外标准接口,能够实现和第三方系统的功能或数据集成对接,包括短信系统、邮件系统等,有效整合信息展示。

建设方案

2.1.系统设计原则

2.1.1.实用性和模块化原则

大数据运维平台应满足实用性和模块化原则,其提供的功能将保证满足九寨沟智慧游泳大数据平台的实际需求,具备良好的实用性,从根本上减轻系统管理人员的工作负担,提高工作效率。

同时采用灵活的模块化设计,可以方便系统管理人员对平台进行管理,实现灵活的管理权限分配,具备良好的系统访问权限控制策略。

2.1.2.一致性和开放性原则

大数据运维平台应满足一致性和开放性原则,支持目前业界开放标准协议,如CORBA、J2EE、DCOM等,支持标准网络传输、加密和网管协议,如TCP/IP、SNMP(V1,V2,V3)、RMON(1、2)、RPC、CMIP/CMIS等。采用开放式API 接口和高度模块化设计,方便用户进行二次开发以及与轨道集团数据中心其他系统进行无缝集成,从而实现管理资源整合,构建完善的一体化智能运维服务管理平台。

2.1.

3.安全性与可靠性原则

大数据运维平台应满足安全性与可靠性原则,保证系统的运行速度和数据可靠性,对现有的各类应用业务的正常运行不产生影响。

大数据运维平台安全体系架构主要包括以下内容:

?用户登陆过程中通过用户名、密码进行身份认证,可配置只允许固定IP地址访问;

?对于用户所作的任何配置信息应能够采用加密方法进行本地存储;

?采用加密的登录过程(即SSH),保障远程登录的安全性;

?能通过在主机安装防火墙和防病毒软件的方式来保证大数据运维平台的安全;

?系统具备分权分域功能。

2.2.系统技术路线

2.2.1.采用Java语言开发

系统采用JAVA和XML相结合的技术进行网站设计开发,由于Java的平台无关等特性,而在数据表示和传输方面,XML有着得天独厚的优势。Java与XML的组合提供了建立三层应用程序的最佳手段,开发的系统具有跨平台运行的能力,无论在windows环境下还是在其他主流操作系统环境下都能运行。主要特点:

?平台独立性

这是Java最吸引人的地方。由于它采用先编译成中间码(字节码),然后装载与校验,再解释成不同的机器码来执行,即“Java虚拟机”的思想,“屏蔽”了具体的“平台环境”特性要求,使得只要能支持Java虚拟机,就可运行各种Java程序。

?面向对象的技术

面向对象的技术是近年来软件开发中用得最为普遍的程序设计方法,它通过把客观事物进行分类组合、参数封装、用成员变量来描述对象的性质、状态,而用方法(成员函数)来实现其行为和功能。面向对象技术具有继承性、封装性、多态性等众多特点,Java在保留这些优点的基础上,又具有动态联编的特性,更能发挥出面向对象的优势。

?多线程

多线程机制使应用程序能并行执行,Java有一套成熟的同步原语,保证了对共享数据的正确操作。通过使用多线程,程序设计者可以分别用不同的线程完成特定的行为,而不需要采用全局的事件循环机制,这样就很容易实现网络上实时的交互行为。

?动态性

Java的设计使它适合于一个不断发展的环境。在类库中可以自由地加入新的方法和实例变量而不会影响用户程序的执行。并且Java通过接口来支持多重继承,使之比严格的类继承具有更灵活的方式和扩展性。

?安全性

Java有建立在公共密钥技术基础上的确认技术,指示器语义的改变将使应用程序不能再去访问以前的数据结构或是私有数据,大多数病毒也就无法破坏数据。因而用Java可以构造出无病毒、安全的系统。

?采用J2EE框架

考虑到系统的跨平台性和将来良好的移植性,并且考虑到系统能够将来很好地与其他业务子系统的集成,本系统采用J2EE平台,并且根据J2EE的中间件规范进行产品开发,本系统采用J2EE平台集成的标准中间件,并在数据交换和数据导出上支持XML标准。

平台优势

J2EE 是一种利用Java 2平台来简化诸多与多级企业解决方案的开发、部署和管理相关的复杂问题的体系结构。J2EE 技术的基础就是核心Java 平台或Java 2平台的标准版,J2EE 不仅巩固了标准版中的许多优点,例如“编写一次、到处运行”的特性、方便存取数据库的JDBC API 、CORBA 技术以及能够在Internet 应用中保护数据的安全模式等等,同时还提供了对 EJB (Enterprise JavaBeans )、Java Servlets API 、JSP (Java Server Pages )以及XML 技术的全面支持,可以更好地与其他的分布式应用系统集成。因此J2EE 是一种更理想的集成平台和规范。

2.2.2. 采用WebService 进行数据互连互通

Web 服务是一个或者一组应用程序,向外界提供一个能够通过Web 进行调用的API 。Web 服务的主要目标是在现有的各种异构平台的基础上构筑一个通用的与平台无关、语言无关的技术层,多种不同平台上的应用依靠这个技术层来实施彼此的连接和集成。

1.Web 服务模型

Web 服务体系结构是基于三种角色之间的交互,分别是服务提供者、服务注册中心和服务请求者。其中:(1)服务提供者:创建Web 服务实体,为能实现一组特定任务的软件提供服务接口;(2)服务请求者:发现和调用软件服务,请求者一般会调用服务提供者发布的远程方法,把参数数据发送给提供者并接收相应结果;(3)服务注册表:管理和发布服务。当服务请求者需要调用服务时,它首先到UDDI 注册中心搜索该服务,得到如何调用该服务的信息,然后根据这些信息去调用服务提供者发布的服务。在Web Service 服务体系中,使用WSDL 来描述服务,UDDI 来发布、查找服务,而SOAP 用来执行服务调用。下图显示了这些操作、提供这些操作的组件及它们之间的交互。 2.Web 服务的相关标准

发布WSDL , UDDI

服务注册

服务请求服务提供

服务描述

服务

服务描述

查找WSDL, UDDI 绑 定

在Web服务协议栈中,涉及了数据、消息、服务和注册库的描述定义,这些要用到具体的标准技术,包括XML、SOAP、WSDL、UDDI等。其中XML用来描述不同层次的数据,它使得不同平台、不同环境中的数据和消息得以互通;SOAP协议用来交换XML消息;WSDL用来统一描述服务;UDDI提供了统一的框架和编程接口,与WSDL、SOAP相互结合来管理Web服务,提供服务发布和服务发现能力。

(1)扩展标记语言(XML)

(2)简单对象访问协议(SOAP)

(3)Web服务描述语言(WSDL)

(4)统一描述、发现和集成协议(UDDI)

3.Web服务的协议栈

为了实现上述Web服务模型中的发布、查找、绑定等操作,需要定义一系列分层的协议规范。

服务发现:这一层用来发现Web服务,来满足自己的需求。由UDDI来处理的。

服务描述:对Web服务进行自我描述。它使用WSDL来进行服务描述。

服务调用:这一层的实质是基于XML的消息传递。当前基于XML消息传递的行业标准是SOAP。SOAP是一种简单的、轻量级的基于XML的机制,用于应用程序之间进行结构化数据交换。SOAP可以和各种网络协议相结合使用。当然我们可以使用其他的基于XML的消息如XML-RPC等。

传输层:用来传送客户端和服务器之间的消息。这一层使用的协议通常是HTTP协议。理论上,我们可以使用任何网络协议,如FTP,SMTP,IIOP等,但目前使用最广泛的是HTTP协议

2.2.

3.数据库技术

数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于距今五十年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。

在选择数据库时,成本因素是主要要考虑的问题。采用J2EE作为系统的开发平台,在开发上使用ORM(Object/Relation Mapping)技术和JDBC技术,尽力去缩小数据的差异性,实现跨数据库平台。系统数据库初步采用Oracle 11g。

2.2.4.性能控制

采用Jmeter做web系统压力测试,通过优化程序、优化数据库等方法实现系统性能要求。

2.2.5.开发、运行环境

操作系统支持:Linux、Window Server

浏览器支持:IE、Firefox、Chrome

开发平台及语言: J2EE平台、采用JAVA语言

设计工具: ProwerDesigner

开发工具: Eclipse、Maven

版本控制: SVN

项目管理: Microsoft Project

缺陷管理工具: Bugzilla

web测试工具: Jmeter、IETester

Web服务器支持: Weblogic、Tomcat、JBoos

2.3.应用接口总体设计

2.3.1.系统内部集成接口

(1)接口功能设计

本接口实现分级情况下支撑系统之间的告警、性能等数据交互。

(2)接口实现设计

1)接口服务:利用应用支撑层的数据交换接口服务来实现接口功能。

2)接口技术:Web Service、SOAP、文件、码流等。

2.3.2.与基础运维管理工具的集成接口

(1)接口功能设计

该接口对基础运维管理工具的网管、安管、主机管理、存储管理、机房动力环境监控等系统之间的事件、性能、告警等关键数据进行抽取、汇聚,以支持对监控数据的预警、统一展现。

(2)接口实现设计

1)接口服务:利用应用支撑层的数据交换接口服务来实现接口功能。

2)接口技术:Web Service、SOAP、文件、码流等。

2.3.3.与相关外部系统的统一身份认证与单点登录接口

本系统将对大数据运维平台与基础运维管理工具、ITSM系统、机房动力环境监控系统等相关外部系统进行门户集成,从而在统一门户中实现这些系统的统一身份认证和单点登录,形成统一的运维管理运行机制,从而有效集成并利用各类运维管理资源。

1)统一身份认证:对大数据运维平台与基础运维管理工具、ITSM系统、机房动力环境监控系统等相关外部系统的用户进行管理集成,纳入到统一运维管理门户访问控制体系中,实现对大数据运维平台用户的统一身份认证。

2)单点登录:对大数据运维平台的各模块,以及该系统与基础运维管理工具、ITSM系统、机房动力环境监控系统等相关外部系统在统一运维管理门户中的单点登录控制,使用户登录一次便可访问全部授权应用资源。

2.4.系统安全设计

2.4.1.用户安全机制

大数据运维平台的自身安全性是保证用户管理工作正常进行的基本因素,因此在进行产品架构设计时,充分考虑了管理系统的安全性,具体措施包括:

?系统支持https方式访问;

?用户登录失败次数限制;

?采用严格的权限控制机制,细划了每个用户的权限和管理范围;

?对用户的操作做详细的日志记录,满足安全审计要求;

?系统应经过权威的安全漏洞扫描测试,并提供测试证明;

?系统中所有涉及到的被管设备的连接信息采用密文存储。

2.4.2.SSO统一认证

大数据运维平台采用SSO(Single Sign On)单点登录方式,即对所有用户实现统一界面登录,支持与ActiveDirectory,LDAP的用户同步。

2.4.

3.权限分权分域

大数据运维平台可根据组织架构设置多用户管理权限;按照账户角色,实现资源分类、分级管理,可以实现多人同时操作,互不影响,并具有良好的审核和避免冲突的机制。大数据运维平台不仅可划分到具体的设备类型管理域,

也可以划分到具体某台设备,实现了完整的分权、分域管理目标。

2.4.4.输入检验

输入检验包括对来自外部数据源(非置信数据源)的数据进行语法检查,有时还要进行语义检查。根据应用的关键程度和其他因素,对输入检验结果采取的安全过滤处理。

2.4.5.GET请求和Cookie中的敏感数据

就像CGI协议所定义的,把请求数据从客户端传输到服务器端最简单的方法是GET请求方法。如果要在客户请求中传输敏感数据,我们应该使用POST方法,再加上一种合适的加密机制(例如,通过SSL连接)。

2.4.6.防通过嵌入标记实现的攻击

这种攻击通常包含一个由用户提交的病态脚本,或者包含恶意的HTML(或XML)标记,JSP引擎会把这些内容引入到动态生成的页面。这种攻击可能针对其他用户进行,也可能针对服务器。要防止出现这种问题要靠输入检查和输出过滤。

防口令猜测功能

当用户试图多次猜测时,系统会不断增加响应的时延,并最终拒绝为用户提供服务。另外,建议对系统口令长度加以限制,并且不能取特别熟悉的单词,进一步提高猜中的难度。

2.4.7.页面和字段级的权限控制

在建议的系统中,我们将在每一个页面中包含权限检查代码,检查用户是否有权限访问该页面。如果没有权限(如一般用户访问系统管理页面),则转到错误信息页面。如果没有登录,则转到系统登录界面,请求用户登录。

另外,还可以结合平台的安全控制能力,使系统的安全性进一步增强。对于某些复杂的页面,需施加字段级的安全控制,使得某些字段只有具有权限的人才能察看或修改,为应用程序提供更加细粒度的安全控制。

2.5.系统建设方法

2.5.1.体系架构

大数据运维平台分为三个层次,即数据采集层、数据分析和处理层、数据展示层。平台采用模块化设计,模块之间松耦合。新模块可以直接接入平台中,模块之间通过接口、消息队列等方式进行通信。

数据采集层是整个管理平台的基础,负责采集平台运行需要的数据。数据采集层通过多种网络协议,包括SNMP、SSH、TELNET、PING、JDBC、JMX、SMI-S等,从被管设备里获取需要的指标信息,将采集的数据放到缓存进行解析和运算,然后存入数据库,供上层平台进行分析和展示。平台内置可扩展的资源能力库模型,对于不满足的厂家、型号和指标,系统无需二次开发即可通过系统配置实现,支持通过SNMP方式、JDBC方式、JMX方式等方式实现监控指标的自定义扩展。

数据分析和处理层包括资源监控、服务流程管理、配置管理、资产管理、运维大数据分析等多个子系统,所有系统均为勤智运维自主研发,具有同一品牌软件著作权,拥有完全自主知识产权。各个子系统独立工作又数据联动,具备良好的兼容扩展性。

大数据运维平台资源监控,通过业务管理、资源管理、拓扑管理、巡检管理、报表管理、告警管理等功能对IT 资源环境进行全面的管理,提供了大量的统计和分析数据以及展示页面,满足用户日常工作的需要。

大数据运维平台具备与云平台、动力环境系统等其他平台集成的能力,提供多种数据集成方式,并可利用大数据平台构建运维指数评估分析模型,按照历史数据变化规律,挖掘业务、指标、故障等关联信息,帮助运维人员找到问题根源改进点。在平台中进行一体化的监控信息、告警信息的呈现,并进行业务关联分析、告警关联分析。

大数据运维平台服务流程遵循ITIL/ITSS等IT服务管理标准,建立以客户为中心的运维模式,将人、技术与流程进行有效地融合。通过流程管理平台,制定内部运维流程,将运维团队的服务产品化、标准化。大数据运维平台提供服务过程的设计、过程记录、监督与考核等事务的管理能力,及对IT的各项服务、能力进行整合的职能。

大数据运维平台通过数据中心3D可视化展示,从三维可视化的角度呈现机房及设备信息,提供美观形象的可视化展示平台,包括机房环境可视化、资产可视化、监控可视化、配线可视化、容量可视化、演示可视化,帮助运维管理人员准确掌握IT运行态势与运维服务水平。

最上层是B/S架构的展示层,是整个服务管理平台的统一门户,通过统一的用户认证、单点登录,用户可以按不通角色权限通过浏览器轻松访问监控运维系统,查看各个系统、功能模块以及统计数据。同时系统还提供大屏展示的汇总数据和页面,可以满足多元化的监控管理需求。统一门户通过数据及页面集成、页面自定义可以统一呈现网络设备、服务器、操作系统、数据库、中间件、视频摄像头、业务服务、日志、标准服务、集群的状态和信息,统一展现网络拓扑、业务管理、地图拓扑、流量分析、大数据分析结果、配置管理、巡检管理、工单管理、值班管理、巡检管理、知识库管理、我的工作、我的报表、3D机房、2D机房等。第三方系统所使用的菜单名称、菜单图标、呈现位置等可以在页面直接设置。

统一门户提供灵活的配置。监控对象的范围、支持的指标、业务流程、表单、报表、视图、首页呈现的内容、首页呈现的设备/告警/统计信息等都可以进行配置,以适应用户现场的不同需求。配置方式通过浏览器页面直接进行可视化配置,系统采用纯JS方式进行配置页面的开发,用户可以简单方便的进行配置,不需要进行软件修改和开发。资源能力库模型可以直接通过页面配置等方式进行扩展,对于不满足的厂家、型号和指标,系统无需二次开发即可实现。对应网络设备、服务器、操作系统、数据库、中间件、应用等都可以通过配置的方式支持。通过自定义OID的配置方式、自定义脚本、自定义SQL语句、自定义URL地址、自定义JMX内容等方式支持指标的扩展。

系统还提供第三方标准数据接口,提供开放的API接口,支持二次开发,可随需扩展开发所需功能,可以接收包括云计算平台在内的第三方系统的数据或者发送数据给第三方系统,进行一体化整合,实现IT资源的集中统一管理。同时也可以结合短信平台、邮件系统、桌面客户端等,进行故障、工单等信息的消息通知发送。系统提供数据整合、接口整合、页面整合等方式,可以集成第三方系统的告警、监控、流程、资产、动环、3D等数据,也可以集成页面,并可以通过接口调用完成告警集成、工单自动生成、3D机房集成、动环数据集成、云平台监控数据集成、云平台配置等操作集成等,有效复用已有系统,不用重复投资。提供与华为云平台、阿里云平台接口集成的方式,统一汇总云平台监控数据、告警数据,在大数据运维平台中进行一体化的监控信息、告警信息的呈现,并进行业务关联分析、告警关联分析。

系统提供多种提醒及通知方式,包括:短信、邮件、电话、告警客户端、RTX等方式。告警客户端用户本地安装即可使用,当有新告警、新工单产生时,自动弹出提示,并可以在客户端中查看告警情况、工单情况,并可以直接进行关联处理,不同告警级别提供不同的声音提示。

2.5.2.功能架构

大数据运维平台采用多层架构及模块化的设计模式,包括运维监控管理、运维流程管理、资产管理、运维自动化管理、运维大数据分析等多个子系统,各个子系统独立工作又数据联动,可根据不同客户需求自由组合。同时平台具备良好的扩展性,可以通过第三方数据接口、数据总线、大数据接入分析系统等方式接入第三方平台数据,并提供对数据的深入挖掘和对运维能力的整体评估。

2.5.

3.技术架构

大数据运维平台采用J2EE架构,全图形化B/S模式,可移植性强,可基于不同操作系统(Windows、Red Hat Linux、国产麒麟等)实现了跨平台部署。统一开放的监控管理平台支持多种数据库(MySql、Oracle、国产神州通用等),支持国产的中间件如TongWeb,支持OpenJDK,提供符合国家信息技术服务标准(ITSS)的第三方系统集成接口。

2.5.4.部署架构

大数据运维平台分为Portal服务层、DHS(信息处理)服务层、DCS(信息采集)服务层,每层可根据客户IT环境的实际情况部署在相同或不同的主机上;可以根据客户的管理对象规模,采用单个或多个DCS进行管理容量规划,通过集中式或分布式部署,实现内/外网、总部/分支等复杂结构的IT资源灵活管理。

功能概述

3.1.基础平台功能

3.1.1.统一视图

统一门户子系统作为大数据运维平台的统一入口,具备统一认证,单点登录,自定义首页工作界面等功能。统一运维门户包括资源监控管理,运维服务流程管理,资产配置管理等系统,快速呈现工作内容,提高工作效率;支持对云计算平台、动环监控等第三方系统的集成,实现对第三方系统的数据集中展示和告警统一推送。通过统一认证功能,用户能够在单一界面上对其他系统的用户账号进行管理,对不同角色权限进行修改和配置,并添加用户账号。

为了简化运维工作,聚焦工作核心事务,运维平台独创了极简模式运维,将复杂的操作与配置等功能隐藏在极简的设计中。系统根据管理者和运维工程师的日常工作内容提供两套完全不同的视图模式和操作体验及重点工作的便捷入口,让管理者和运维工程师更聚焦于核心业务。

1.工程师视图

工程师工作内容聚焦于发现问题、分析问题和解决问题的过程。极简模式工程师视角是聚焦资源故障解决的最佳实践,提供告警列表展现;支持基于资源的一键式全局检索,可根据资源名称、IP地址进行各个功能模块的详细信息检索,覆盖业务管理、拓扑管理、资源管理、配置文件管理、巡检管理、报表管理、告警管理、知识管理等功能;支持内置智能分析引擎,基于知识库对告警进行故障分析,并提供解决方案建议。

?门户针对不同的小组(如:网络、业务、安全等),展示不同的管理内容和操作配置界面,如网络维护人员

查看网络的web拓扑;业务系统维护人员查看业务系统的拓扑;安全管理员查看安全系统拓扑;机房管理人员查看机房方位图进行监控。监控图除了能够反映设备的状态外,还实时反映监控到的事件,在拓扑图上监控到的事件按照设备进行归类。

?各组维护人员可以查看自己类别的知识库记录,可以通过事件查看关联到的知识库记录,也可以直接通过搜

索关键字来查找知识库记录。

?在维护人员的登录界面,醒目的位置提供公告信息。

?维护人员处理事件时,展现维护界面,维护界面包括维护人、维护时间、维护设备、事件内容、维护过程、

维护结果、是否解决、转发给第三人处理等等,对事件处理完毕后能够对事件置状态,表示事件已经处理完毕,在维护人员的事件处理窗口,维护人员可以以灰色显示或不显示。

2.管理者视图

管理者工作内容聚焦于核心资源的管理和业务的把控,从人员、资源、技术等方面宏观调配,保障业务的可靠运行。极简模式管理者视角聚焦核心资源的管理和业务把控能力的分析视图;支持业务可用率的统计汇总数据呈现;支持关注的业务视图展现功能。

?运行维护统计报表,资源监控统计报表。

?重大故障信息、升级来的故障信息的展示。

?重要业务系统的拓扑展现。

?主管领导的其他展示需求。

3.其它用户

?提交设备、业务系统的服务请求,可以跟踪服务请求的处理进度。

?可以检索知识库,能够自助解决问题,查询知识库可以按照关键字进行查询,显示知识库的编码、主题、故

障现象、处理方法、联系人等内容。

?可以查询历史服务请求记录。

?在普通用户的登录界面,在醒目的位置提供系统公告信息。

3.1.2.移动运维

大数据运维平台提供运维移动APP,支持Andriod、IOS操作系统,支持通知公告发布、告警通知、工单提交与处理、配置数据查询、知识库查询及移动巡检,使IT运维人员不再受到地域限制,可以在任何地方通过移动或无线网络连接到平台进行运维工作,不会因为突发事件找不到人员处理或维护人员无法赶往现场而延误处理时间。运维移动APP具备以下功能:

?提供用户随时随地处理工单功能,包括服务台故障申报、服务查询、我的待办工作等;

?提供用户及时接收和处理告警功能,包括故障告警查询,手动派单操作等;

?提供移动式日常巡检功能,包括巡检报告填写、巡检报告查询,值班计划查询、我的工作日历等;

?提供掌中知识宝典功能,包括最热知识、最新知识、最有价值知识的查询;

?提供作业浏览和执行功能,可以查看作业执行情况、手动执行任务等。

3.1.3.故障管理

故障管理主要实现对IT资源故障的监视功能,包括对告警信息进行采集、配置、处理、呈现及相关的统计分析等功能。通过故障管理功能,用户可对网络中的告警进行实时的监控,对告警信息进行处理和查询统计等相关操作。系统提供了故障智能诊断功能,通过此功能,用户可以对网络中的故障进行实时的监控,提高故障发现、故障处理的效率,减小故障对网络造成的影响,更加有效的保障网络安全运行;在故障诊断的基础上,系统提供网络预警的功能,通过对现有网络进行性能分析,根据预先设定的门限值,以预警的形式进行提示,使网络的维护工作由被动转为主动,从而实现网络运行维护的高级管理功能。故障管理应包含以下功能。

另外,故障管理支持对Unix、liunx、Windows服务器、各种网络设备syslog关键字告警功能,能够自定义日志消息告警的关键字,一旦在日志消息中发现有自定义的关键字,如Interface Down、UP等关键字,可通过告警快速

通知运维人员进行处理。

3.1.

4.配置管理

IT运行监控系统提供参数化配置功能,如配置历史数据在系统中保存期限等,提供对系统资源的配置管理功能。

本系统的配置数据采集支持自动采集、手工采集和数据导入等三种方式。

配置数据管理主要包括:

配置基本信息:包括配置的内部标识、名称、类型、IP地址、物理地址、厂商等基本信息;

配置管理信息:包括配置的管理分类、用途分类、管理部门、管理人、安装位置、购买时间、终止使用时间等;

配置属性信息:配置的附加配置属性,不同类型的配置的配置属性有所不同,例如网络设备的固件版本、设备模块组成、端口种类、服务器的操作系统类型、硬件配置、存储设备、软件配置的Licence、服务端口、模块组成等;

配置维护信息:包括资产编号、资产的负责人,资产的集成商,以及产品支持厂商、当前质保期、历次故障记录、历次购保记录、历次维护记录,为资产维护提供数据的支持。对于即将过保的设备配置进行告警通知。

3.1.5.性能管理

对性能数据处理与分析功能,提供了用户及时发现关键点的异常情况,从而有效的保障系统正常运行,并为分析优化工作提供必要的依据。

本系统支持多种协议、标准和接口方式采集各种性能数据,如SNMP、Agent、Telnet、JDBC、FTP、CORBA等。性能数据采集处理可以支持以下2种方式:

定时模式:采用循环定时主动式采集,定时时间间隔可配置;系统对性能数据进行数据库保存,保留时间可定制;系统采集到的性能数据可以根据配置定义,以多种方式进行显示。实现对数据的定时采集和呈现。

实时模式:由使用者通过界面操作,有针对性地(选择对象、数据内容等)对被管对象的性能数据进行即时的主动采集,获得对象的当前性能数据,采集的数据马上送回用户界面,由用户界面处理。

3.2.全局搜索

平台提供全局搜索功能,可以搜索多种实体。在实体搜索框中搜索可以通过摁回车键或者点击搜索图标来开始搜索。

如果有一个以输入的字符串开头的主机,将显示一个下拉列表,列出包含关键字的主机。

3.2.1.实体搜索

可以搜索这些实体及其属性:

?主机

?主机名

?可见名

?IP地址

?DNS 名

?模板

?名称

?主机组

?名称

?指定父主机组间接地选择所有嵌套的主机组

在搜索结果中,可以折叠每个单独的块。每个块下面会,会有找到的实体数和显示的实体数,每个块中显示的条目数量限制为100。对于所有配置实体,找到的实体数会显示在实体名称的旁边。

3.2.2.可用链接

搜索结果可根据不同实体使用不同的快捷链接方式,对于找到的实体,包含以下链接:

?主机:监控、最新数据、触发器、异常、图、主机屏幕、Web场景

?配置:主机属性、应用、监控项、触发器、图、发现规则、Web场景

?主机组:监控、最新数据、触发器、异常、图、Web场景、配置、主机组属性、主机组成员

?模板:配置、模板属性、应用、监控项、触发器、图、模板屏幕、发现规则、Web场景

3.3.仪表盘工作台

大数据运维平台系统提供了便捷的直观的仪表盘设计器,用户可根据任意检索条件按字段进行计数统计,并以配置方式构建可视化面板进行实时查看,也支持通过任务方式定时生成仪表盘报告进行历史查看。

通过仪表盘可将不同图表展示到同一个屏幕上,通过不同的仪表形式来展示资源数据,例如,曲线图、数字图、TopN图表等,同时仪表盘支持全屏监控和全屏轮播功能,全面、深入地掌握监控数据。

例如,可将重要资源的关键指标添加到仪表盘中,从而实时地进行监控。还可将不同资源的同一指标展示到同一个图形界面上进行对比。另外,对于例行运维需要查看的指标,可添加到仪表盘中,以便再次打开平台时无需重新选择指标就可进行例行检查任务。

创建仪表盘前,请您先了解仪表盘中支持添加的图表类型,以便选择合适的图表,更精准地对资源进行监控。仪表盘中支持添加的图表如下:

3.3.1.全屏监控(补图)

仪表盘创建完成后,可使用仪表盘全屏模式进行监控。仪表盘全屏模式支持自定义在线时长和轮播功能。

全屏模式在线时长:全屏模式会随系统用户的退出而退出,无法实时进行监控。平台支持自定义全屏模式在线时长。

全屏模式下仪表盘轮播:日常巡检时,需同时全屏监控多个仪表盘。支持自定义轮播周期,在同一个显示屏上按照轮播周期对仪表盘进行定期切换。

保持在线:表示不限制,即全屏界面永远不会自动退出到登录界面,可持续在全屏模式下进行监控。

相关主题
文本预览
相关文档 最新文档