当前位置:文档之家› 统一运维大数据分析平台建设和应用综合解决方案

统一运维大数据分析平台建设和应用综合解决方案

统一运维大数据分析平台建设和应用综合解决方案
统一运维大数据分析平台建设和应用综合解决方案

统一运维大数据分析平台建设和应用综合解决方案2020年3月30

统一运维大数据分析管理平台

目录

第1章.方案概述 (4)

1.1.项目背景 (4)

1.2.需求分析 (5)

1.3.建设目标 (7)

1.3.1.建立统一运维门户 (7)

1.3.2.建立IT异构资源的全面集中化管理 (7)

1.3.3.建立全面准确的资产配置管理 (8)

1.3.4.建立符合最佳实践的服务流程管理 (9)

1.3.5.建立IT资源全面直观的可视化管理 (9)

第2章.解决方案 (10)

2.1.系统设计原则 (10)

2.1.1.实用性和模块化原则 (10)

2.1.2.一致性和开放性原则 (11)

2.1.3.安全性与可靠性原则 (11)

2.2.系统安全设计 (12)

2.2.1.用户安全机制 (12)

2.2.2.SSO统一认证 (12)

2.2.3.权限分权分域 (12)

2.3.系统建设方法 (13)

2.3.1.体系架构 (13)

2.3.2.功能架构 (17)

2.3.3.技术架构 (17)

2.3.4.部署架构 (18)

第3章.功能概述 (19)

3.1.运维监控系统 (19)

3.1.1.统一运维管理 (19)

3.1.2.资源监控管理 (23)

3.1.3.拓扑管理 (45)

3.1.4.IP地址管理 (59)

3.1.5.告警管理 (61)

3.1.6.业务管理 (66)

3.2.3D机房管理 (70)

3.2.1.监控可视化管理 (72)

3.2.2.资产管理可视化 (76)

3.2.3.机房3D图形化展示 (78)

3.2.4.配线可视化管理 (80)

3.2.5.容量可视化管理 (82)

3.2.6.资源分配情况管理 (84)

3.2.7.上下架可视化 (85)

3.2.8.自定义动画 (86)

3.2.9.交互式演示汇报 (87)

3.3.配置文件管理 (87)

3.3.1.巡检管理 (88)

3.3.2.机房虚拟现实展现 (91)

3.3.3.资产管理系统 (95)

3.3.4.供应商管理 (96)

3.3.5.配置建模管理 (97)

3.3.6.空间资源管理 (99)

3.3.7.配置项导入 (101)

3.3.8.配置项管理 (102)

3.3.9.配置项视图 (105)

3.4.运维流程管理系统 (107)

3.4.1.服务台 (107)

3.4.2.服务设计 (115)

3.4.3.服务产品设计向导 (116)

3.4.4.服务流程管理 (135)

3.4.5.服务量化管理 (169)

3.4.6.值班管理 (186)

3.4.7.任务管理 (192)

3.4.8.公告管理 (193)

3.4.9.移动终端运维 (194)

3.4.10.报表统计分析 (196)

3.4.11.第三方接口 (201)

3.4.12.运维知识库系统 (203)

3.5.统一运维大数据管理分析系统 (210)

3.5.1.统一运维大数据基础系统 (210)

3.5.2.统一运维数据分类管理 (210)

3.5.3.运维大数据检索与展现 (215)

3.5.4.海量日志文件分析 (219)

3.5.5.指标动态基线预测 (223)

3.5.6.运维支撑能力评估 (226)

第1章. 方案概述

1.1.项目背景

运维大数据分析系统是一套深度分析和挖掘多种异构数据源运维数据的大数据平台。通过对运维过程中每分每秒产生的亿万条海量数据进行挖掘,它可以提取和生成有价值的运维分析数据,帮助企事业单位用户找到问题根源和优化改进的关键点,从而对当前业务系统及运维系统多角度精准评估和把控。

随着运维精细化要求的日益提升,企事业单位需要积累更多的能力辅助智能化运维场景和策略,实现更多管理途径的扩展。异构化环境的复杂化,导致企事业单位用户对数据分析的要求越来越高。借助海量的运维数据优化改进当前工作方法,建立在大数据分析基础上的智能化运维时代已经来临。

将大数据技术与运维管理系统无缝结合,对运维过程中产生的大量数据进行关联挖掘、周期预测、行为学习、规律分析等,为用户提供更加精确且符合企业业务的解决方案,提前定位和预知各类故障,从而进行趋势预测、业务分析和多角度评估。

传统的运维,通过各类运维工具或网管软件来实现日常管理,数据格式各不相同,告警内容及规则各异。勤智ITBA运维大数据能够将各个独立分散的系统进行整合,并提供标准接口。运维整合,体现在数据的采集、分析、汇总、处理、总结、预案等几个层面。

运维以“让运维更智能,让业务更高效”为理念,在业界率先提

出基于运维大数据的智能化解决方案,通过OneCenter平台中的运维大数据分析系统,帮助运维人员预防故障发生和快速解决故障,也可为运维决策提供预测依据。

1.2.需求分析

通过对客户的信息化建设和运维管理现状的调研和深入分析后,了解到目前客户IT运维发展的现状:

?公司IT应用不断扩大,越来越多的应用和业务在网络上运

行,对网络的依赖越来越大,缺少一套针对IT软硬件的统一

监控系统,无法及时了解IT软硬件设备的运行趋势,无法快

速故障定位,故障处理效率低;

?业务服务的规模增大,规划、维护、安全、管理等分工更加细致,缺乏对业务系统健康状况和运行趋势的监测,无法判定

业务系统是否存在运行瓶颈、是否需要扩容或网络调优;

?无法对多种设备系统、业务系统的运行信息、告警信息进行集中管理,并对以上信息进行智能化分析、统计,得出有利于

网络管理和维护的数据,达到高效、快捷处理问题的目的;

?全网资产配置情况、使用状况和分布情况难以及时了解;

?缺乏对数据中心机房多样化资产可视化再现能力,不利于运维管理人员对机房资源的全面掌控;

?前端视频监控设备建设规模的不断扩大,缺乏有效的视频监控手段,无法诊断视频质量及内容,影响安全防护工作的开

展;

?面对复杂的IT环境,缺乏规范化、自动化的运维管理流

程,缺乏完善的故障处理和快速修复机制;

?管理人员不断增多,管理流程日益复杂,管理成本不断上

升,没有建立统一、规范、层次化的服务管理流程和技术管理

体系,同时缺乏对IT部门运维人员量化考核的依据;

?缺乏能够真实反映设备和业务运行情况与运行质量的统计分析报表,无法为决策层提供数据依据。

通过对客户信息化和运维管理现状的深入了解,其运维服务需要改变传统的运维管理模式,变被动式为主动式运维,切实达到7*24小时不间断运维,进而保障客户的业务系统正常运转。因此该客户的信息中心运维服务管理平台的具体要求如下:

?能够全面详细地监视系统中所有IT资源的运行情况,提供

一致的系统管理风格

?能够实时监视网络和业务的性能状况,能够通过客观数据分析当前系统性能状况和长期系统性能变化规律和趋势,为系统

升级和扩容提供科学的依据。

?具有全面而深入的数据库管理功能,保证数据库系统的可靠和高性能运作,从而使数据库变成最优的后台支撑系统。

?提供运营商级IT系统中所需要的各种功能,及集成化的管

理模式,可降低系统管理的成本

?实现业务可视化管理,分析深层次原因等问题

1.3.建设目标

根据轨道集团数据中心信息化现有的建设和运维管理现状,此次OneCenter一体化智能运维管理平台的建设目标有:

1.3.1.建立统一运维门户

通过建设统一的运维门户Portal,作为整个一体化智能运维管理平台的统一入口,具备统一认证、单点登录、自定义首页工作界面、分权分域管理等功能,统一建立用户账号,实现简单化用户管理。OneCenter一体化智能运维管理平台提供运维管理门户网站、移动APP、个人工作台、自助服务台等多种形式的服务窗口。

?向上对接上级轨道集团门户,实现从上级门户到运维门户的访问流程;

?向下对接集成展示动环监控、云平台监控、其他第三方系统等内容,并实现轨道集团信息系统的统一用户管理,实现统一认

证登录;

?平台提供资源监控管理,运维服务流程管理等功能,在一个统一界面上形成快速呈现工作内容,提高工作效率。

1.3.

2.建立IT异构资源的全面集中化管理

随着IT信息化规模的发展和信息化建设水平的提高,轨道集团信息化建设已达到相当规模,设备种类多且规模大(网络设备、服务器、存储等);涵盖不同厂家,各种型号的IT设备,涉及传统的物理设备和云计算平台。

通过OneCenter一体化智能运维管理平台,以统一监控管理为中

心,实现对数据中心信息化IT基础设施的集中监控管理,提供数据中心基础软硬件资源及各类应用的监控管理,包括对网络设备、安全设备、服务器、存储、数据库、中间件、业务应用系统、虚拟化资源、网络服务等性能采集和事件处理,同时支持与第三方系统(如动环系统、安防系统、应急指挥系统等)对接,构建统一集成的系统资源监控平台,主动、及时地发现问题,解决被动服务的局面,提供集中的监控告警管理及监控性能数据展示。

此外,通过OneCenter一体化智能运维管理平台的自动化运维功能,管理平台能够在故障发生时自动获取故障设备相关的各项指标数据及指标状态,确保相应告警和事件发生时的状态能够详细记录并关联,在必要时能够实现自动恢复、自动化巡检、批量操作作业等运维自动化场景。

1.3.3.建立全面准确的资产配置管理

做好数据中心的IT运维管理,首先必须对种类繁多、规模庞大的IT资源进行有效管理,以免信息的更新不及时,造成信息难以统计、查询、分析和利用。理清IT资产配置台账,梳理配置项之间的关联关系,做好资产生命周期管理,这是实现数据中心一体化运维管理的基础。

通过统一的配置管理库(CMDB),实现对云数据中心所有IT资源的配置信息管理,保证配置项的完整性和精准性,构建运维管理元数据,帮助用户建立统一的IT基础设施台帐。通过一系列配置建模、自动采集、调和、变更控制等手段,保证IT生产环境中配置项的完整性和精准性,为资源监控和服务流程提供数据支撑。

1.3.4.建立符合最佳实践的服务流程管理

OneCenter一体化智能运维管理平台的流程管理提供了面向于最终用户的服务目录及服务级别管理,并提供规范的ITIL服务支撑流程及资产管理流程。通过流程管理系统进行IT运维服务的流程化、规范化管理;通过与底层统一监控系统的集成,实现了IT运维的自动化;通过完善知识库建设,实现知识库共享;从而提高信息服务效率,提高用户的满意度,帮助用户有效管理人员、信息、资产和知识库,为IT服务管理的规范化建立基础。

1.3.5.建立IT资源全面直观的可视化管理

通过OneCenter一体化智能运维管理平台,用户可以实时查看管理对象的日常运行情况,操作简单,界面直观明了。在信息集成的基础上,通过提供的各种运行分析和性能报告,形成全网统一管理数据视图,提供关键绩效指标体系所需数据基础,管理人员能根据这些数据准确评估整个IT环境运行情况,及时发现故障隐患和评估威胁。平台预留了符合国家信息技术服务标准(ITSS)的多种对外标准接口,能够实现和第三方系统的功能或数据集成对接,包括短信系统、邮件系统等,有效整合信息展示。

通过3D可视化管理功能,能够以3D技术实现对数据中心的真实展现,实现基于三维环境对数据中心、机柜和各类设备的管理功能,构建数据中心环境、设备和管理信息的可视化平台,实现所有资产对象的管理及相关监控信息整合展示,让相关管理人员清晰直观的掌握IT运营中的有效信息,实现透明化与可视化的管理。

第2章. 解决方案

勤智运维通过多年来在电信、金融、政府等行业的应用开发与维护经验,在国内首创基于ITIL的企业级业务服务管理平台。针对企、事业单位的IT支持和管理部门,OneCenter一体化智能运维管理平台基于ITIL的IT服务管理思想,整合了系统监控、应用监控、网络监控、机房监控、虚拟化资源管理、工作流、ITIL式报表和门户等多种技术手段,帮助用户解决IT支持与管理过程中的难题,提高IT服务水平和工作效率。

OneCenter一体化智能运维解决方案是在基础架构管理、应用管理、业务服务管理的基础上,通过IT流程管理,帮助客户建立以ITIL流程为框架的一体化智能运维管理系统,实现自动化和规范化管理。

2.1.系统设计原则

本次一体化智能运维管理平台项目建设与实施方案遵循如下设计原则:

2.1.1.实用性和模块化原则

一体化智能运维管理平台应满足实用性和模块化原则,其提供的功能将保证满足轨道集团数据中心管理的实际需求,具备良好的实用性,从根本上减轻系统管理人员的工作负担,提高工作效率。

同时采用灵活的模块化设计,可以方便系统管理人员对平台进行管理,实现灵活的管理权限分配,具备良好的系统访问权限控制策

略。

2.1.2.一致性和开放性原则

一体化智能运维管理平台应满足一致性和开放性原则,支持目前业界开放标准协议,如CORBA、J2EE、DCOM等,支持标准网络传输、加密和网管协议,如TCP/IP、SNMP(V1,V2,V3)、RMON(1、2)、RPC、CMIP/CMIS等。采用开放式API接口和高度模块化设计,方便用户进行二次开发以及与轨道集团数据中心其他系统进行无缝集成,从而实现管理资源整合,构建完善的一体化智能运维服务管理平台。

2.1.

3.安全性与可靠性原则

一体化智能运维管理平台应满足安全性与可靠性原则,保证系统的运行速度和数据可靠性,对现有的各类应用业务的正常运行不产生影响。

一体化智能运维管理平台安全体系架构主要包括以下内容:

?用户登陆过程中通过用户名、密码进行身份认证,可配置只允许固定IP地址访问;

?对于用户所作的任何配置信息应能够采用加密方法进行本地存储;

?采用加密的登录过程(即SSH),保障远程登录的安全性;

?能通过在主机安装防火墙和防病毒软件的方式来保证一体化智能运维管理平台的安全;

?系统具备分权分域功能。

2.2.1.用户安全机制

OneCenter一体化智能运维管理平台的自身安全性是保证用户管理工作正常进行的基本因素,因此在进行产品架构设计时,充分考虑了管理系统的安全性,具体措施包括:

?系统支持https方式访问;

?用户登录失败次数限制;

?采用严格的权限控制机制,细划了每个用户的权限和管理范围;

?对用户的操作做详细的日志记录,满足安全审计要求;

?系统应经过权威的安全漏洞扫描测试,并提供测试证明;

?系统中所有涉及到的被管设备的连接信息采用密文存储。

2.2.2.SSO统一认证

OneCenter一体化智能运维管理平台采用SSO(Single Sign On)单点登录方式,即对所有用户实现统一界面登录,支持与ActiveDirectory,LDAP的用户同步。

2.2.

3.权限分权分域

OneCenter一体化智能运维管理平台可根据组织架构设置多用户管理权限;按照账户角色,实现资源分类、分级管理,可以实现多人同时操作,互不影响,并具有良好的审核和避免冲突的机制。一体化智能运维管理平台不仅可划分到具体的设备类型管理域,也可以划分到具体某台设备,实现了完整的分权、分域管理目标。

2.3.1.体系架构

一体化智能运维管理平台分为三个层次,即数据采集层、数据分析和处理层、数据展示层。平台采用模块化设计,模块之间松耦合。新模块可以直接接入平台中,模块之间通过接口、消息队列等方式进行通信。

数据采集层是整个管理平台的基础,负责采集平台运行需要的数据。数据采集层通过多种网络协议,包括SNMP、SSH、TELNET、PING、JDBC、JMX、SMI-S等,从被管设备里获取需要的指标信息,将采集的数据放到缓存进行解析和运算,然后存入数据库,供上层平台进行分析和展示。平台内置可扩展的资源能力库模型,对于不满足的厂家、型号和指标,系统无需二次开发即可通过系统配置实现,支持通过SNMP方式、JDBC方式、JMX方式等方式实现监控指标的自定义扩展。

数据分析和处理层包括资源监控、服务流程管理、配置管理、资产管理、运维大数据分析等多个子系统,所有系统均为勤智运维自主研发,具有同一品牌软件著作权,拥有完全自主知识产权。各个子系统独立工作又数据联动,具备良好的兼容扩展性。

?OneCenter一体化智能运维管理平台资源监控,通过业务管理、资源管理、拓扑管理、巡检管理、报表管理、告警管理等

功能对IT资源环境进行全面的管理,提供了大量的统计和分

析数据以及展示页面,满足用户日常工作的需要。

?OneCenter一体化智能运维管理平台具备与云平台、动力环境系统等其他平台集成的能力,提供多种数据集成方式,并可

利用大数据平台构建运维指数评估分析模型,按照历史数据变

化规律,挖掘业务、指标、故障等关联信息,帮助运维人员找

到问题根源改进点。在平台中进行一体化的监控信息、告警信

息的呈现,并进行业务关联分析、告警关联分析。

?OneCenter一体化智能运维管理平台服务流程遵循

ITIL/ITSS等IT服务管理标准,建立以客户为中心的运维模

式,将人、技术与流程进行有效地融合。通过流程管理平台,

制定内部运维流程,将运维团队的服务产品化、标准化。

OneCenter一体化智能运维管理平台提供服务过程的设计、过

程记录、监督与考核等事务的管理能力,及对IT的各项服

务、能力进行整合的职能。

?OneCenter一体化智能运维管理平台通过数据中心3D可视

化展示,从三维可视化的角度呈现机房及设备信息,提供美观

形象的可视化展示平台,包括机房环境可视化、资产可视化、

监控可视化、配线可视化、容量可视化、演示可视化,帮助运维管理人员准确掌握IT运行态势与运维服务水平。

最上层是B/S架构的展示层,是整个服务管理平台的统一门户,通过统一的用户认证、单点登录,用户可以按不通角色权限通过浏览器轻松访问监控运维系统,查看各个系统、功能模块以及统计数据。

同时系统还提供大屏展示的汇总数据和页面,可以满足多元化的监控管理需求。统一门户通过数据及页面集成、页面自定义可以统一呈现网络设备、服务器、操作系统、数据库、中间件、视频摄像头、业务服务、日志、标准服务、集群的状态和信息,统一展现网络拓扑、业务管理、地图拓扑、流量分析、大数据分析结果、配置管理、巡检管理、工单管理、值班管理、巡检管理、知识库管理、我的工作、我的报表、3D机房、2D机房等。第三方系统所使用的菜单名称、菜单图标、呈现位置等可以在页面直接设置。

统一门户提供灵活的配置。监控对象的范围、支持的指标、业务流程、表单、报表、视图、首页呈现的内容、首页呈现的设备/告警/统计信息等都可以进行配置,以适应用户现场的不同需求。配置方式通过浏览器页面直接进行可视化配置,系统采用纯JS方式进行配置页面的开发,用户可以简单方便的进行配置,不需要进行软件修改和开发。资源能力库模型可以直接通过页面配置等方式进行扩展,对于不满足的厂家、型号和指标,系统无需二次开发即可实现。对应网络设备、服务器、操作系统、数据库、中间件、应用等都可以通过配置的方式支持。通过自定义OID的配置方式、自定义脚本、自定义SQL 语句、自定义URL地址、自定义JMX内容等方式支持指标的扩展。

系统还提供第三方标准数据接口,提供开放的API接口,支持二次开发,可随需扩展开发所需功能,可以接收包括云计算平台在内的第三方系统的数据或者发送数据给第三方系统,进行一体化整合,实

现IT资源的集中统一管理。同时也可以结合短信平台、邮件系统、桌面客户端等,进行故障、工单等信息的消息通知发送。系统提供数据整合、接口整合、页面整合等方式,可以集成第三方系统的告警、监控、流程、资产、动环、3D等数据,也可以集成页面,并可以通过接口调用完成告警集成、工单自动生成、3D机房集成、动环数据集成、云平台监控数据集成、云平台配置等操作集成等,有效复用已有系统,不用重复投资。提供与华为云平台、阿里云平台接口集成的方式,统一汇总云平台监控数据、告警数据,在OneCenter 一体化智能运维管理平台中进行一体化的监控信息、告警信息的呈现,并进行业务关联分析、告警关联分析。

系统提供多种提醒及通知方式,包括:短信、邮件、电话、告警客户端、RTX等方式。告警客户端用户本地安装即可使用,当有新告警、新工单产生时,自动弹出提示,并可以在客户端中查看告警情况、工单情况,并可以直接进行关联处理,不同告警级别提供不同的声音提示。

图 2.3-1平台体系架构

2.3.2. 功能架构

OneCenter 一体化智能运维管理平台采用多层架构及模块化的设计模式,包括运维监控管理、运维流程管理、资产管理、运维自动化管理、运维大数据分析等多个子系统,所有系统均为勤智运维自主研发,具有同一品牌软件著作权,拥有完全自主知识产权。各个子系统独立工作又数据联动,可根据不同客户需求自由组合。同时

OneCenter 系统具备良好的扩展性,可以通过第三方数据接口、数据总线、大数据接入分析系统等方式接入第三方平台数据,并提供对数据的深入挖掘和对运维能力的整体评估。

图 2.3-2平台功能架构

2.3.3. 技术架构

OneCenter 一体化智能运维管理平台采用J2EE 架构,全图形化

B/S 模式,可移植性强,可基于不同操作系统(Windows 、Red Hat Linux

、国产麒麟等)实现了跨平台部署。统一开放的监控管理平台

支持多种数据库(MySql 、Oracle 、国产神州通用等),支持国产的中间件如TongWeb ,支持OpenJDK ,提供符合国家信息技术服务标准(ITSS )的第三方系统集成接口。

图2.3-3技术架构

2.3.4. 部署架构

OneCenter 一体化智能运维管理平台分为Portal 服务层、DHS

(信息处理)服务层、DCS (信息采集)服务层,每层可根据客户IT 环境的实际情况部署在相同或不同的主机上;可以根据客户的管理对象规模,采用单个或多个DCS 进行管理容量规划,通过集中式或分布式部署,实现对企业内/外网、总部/分支等复杂结构的IT 资源灵活管理。

图 2.3-4

部署架构

第3章. 功能概述

3.1.运维监控系统

3.1.1.统一运维管理

统一运维门户作为OneCenter一体化智能运维管理平台的统一入口,具备统一认证,单点登录,自定义首页工作界面等功能。统一运维门户包括资源监控管理,运维服务流程管理,资产配置管理等系统,快速呈现工作内容,提高工作效率;支持对云计算平台、动环监控等第三方系统的集成,实现对第三方系统的数据集中展示和告警统一推送。通过统一认证功能,用户能够在单一界面上对其他系统的用户账号进行管理,对不同角色权限进行修改和配置,并添加用户账号。

图 3.1-1首页统一门户

为了简化运维工作,聚焦工作核心事务,运维平台独创了极简模式运维,将复杂的操作与配置等功能隐藏在极简的设计中。系统根据

开展大数据量化分析 提升配电网运维精准性

开展大数据量化分析提升配电网运维精准性 摘要】针对配电网薄弱、智能化程度不高的问题,通过挖掘多个系统的数据, 深入挖掘数据价值,推动数据共享,为规划设计、电网建设、运维管理提供有效 支撑。 一、面临的形势 当前,特高压和配电网“两头薄弱”是制约供电能力提升的关键问题,尤其是 配电网薄弱、智能化程度不高,严重影响电网智能化、自愈化程度。发展配电网 是当务之急,要提高投入产出效率,集中解决突出问题。国家能源局制定的《配 电网建设改造行动计划2015-2020年》,提出“十三五”期间投资全国配电网建设改造投资不低于1.7万亿元。各级电力管理部门、电力企业持续加大资金投入, 对配电网规划、建设、运行、管理、标准等各环节提出了更高的要求,配电网运 行效率和投资效益显著提升。因为配电网面向用户、涉及环节多、数据海量,引 入大数据分析是提升配电网精准运维的必然选择。 二、解决的思路 针对配电网运营数据涉及范围广、设备数量巨大、数据频次要求高等特点, 使用大数据挖掘技术,构建配电网运行效率和供电能力模型,实现配电网运行效率、投资效益等方面的量化评价,为配电网从规划设计,到运行维护、线路改造 等多个专业部门提供量化分析支撑,有效提升投资精准化和管理精益化水平,推 动配电网发展方式由重视数量和质量逐步向关注效率和效益的转变,助力现代配 电网建设进程。通过结构化数据平台和海量数据平台,接入PMS、EMS、营销业务、用电信息采集等业务系统中配电网设备档案及运行类明细数据。基于业务明 细数据,构建配电网供电能力和运行效率的大数据评价模型,按照供电区、功能区,电压等级、设备类型开展供电能力、运行效率等内容的数据挖掘。打开各专 业系统的“信息孤岛”,推动系统间数据的融合和共享,实现配电网全量设备及系 统运行效率、供电能力的准实时计算与监测,为配电网管理提供量化分析支撑; 通过运用大数据挖掘技术,深入挖掘配电网运营精益化管理的相关影响因素,预 判配电网运行和发展趋势,为规划设计、采购建设、运行检修等业务提供辅助支持,促进配电网规划、建设及改造更加科学化和规范化。 三、采取的措施 大数据分析的核心是从海量数据中挖掘出隐含的、未知的、对决策有潜在价 值的信息,并用这些信息和规则构建模型,提供预测性决策支持的方法、工具和 过程。 (一)构建量化分析评价模型 针对配电网缺乏供电能力及运行效率量化分析的现状,构建统筹考虑安全性、可靠性、经济性的配电网供电能力和运行效率分析模型。将模型分为三个层次, 分别为单体设备的供电能力及运行效率、同层设备总体的供电能力及运行效率和 配电系统的供电能力及运行效率。以单个设备的配电网供电能力和运行效率评价 模型为基础,建立同层设备总体及配电系统整体的供电能力和运行效率评价模型,从而形成一套完整的配电网供电能力与运行效率评价指标体系。实现综合设备物 理属性、资产价值、电网结构、运行特性等,能够量化110千伏及以下配电网运 营效率和供电能力,反映投入产出水平;模型涵盖从单体设备、同层设备到整个 配电系统,能准确定位到存在问题的具体区域、具体层级、具体设备,涉及设备 容量、运行数据等业务系统字段,具有较强的系统性、针对性和可操作性。运营

大数据运维管理平台

点击文章中飘蓝词可直接进入官网查看 大数据运维管理平台 随着大数据技术的发展,在安全领域中信息系统的建设、规划、投资等决策将日益基于数据和分析而做出判断,而并非过去基于经验和直觉的模式。大数据运维管理平台能够更容易的采集、分析数据,提供定期的报表统计,直观展现信息系统的实时安全态势、为安全决策提供数据,大数据运维管理平台哪家好? 大数据运维管理平台,能够有效的安全事件监控和预警措施,能够在信息系统即将遭到攻击或已经遭到攻击时,快速、准确地发现攻击行为,并迅速启动处置和应急机制。同时可以对信息系统的安全事件进行综合分析,了解当前整体系统的安全态势,为整体网络与信息安全规划提供有效的数据支持。 南京风城云码软件公司(简称:风城云码)南京风城云码软件技术有限公司是获得国家工信部认定的“双软”企业,具有专业的软件开发与生产资质。多年来专业从事IT运维监控产品及大数据平台下网络安全审计产品研发。开发团队主要由留学归国软件开发人员及管理专家领衔组成,聚集了一批软件专家、技术专家和行业专家,依托海外技术优势,使开发的软件产品在技术创新及应用领域始终保持在领域上向前发展。 目前公司软件研发部门绝大部分为大学本科及以上学历;团队中拥有系统架构师、软件工程师、中级软件工程师、专业测试人员;服务项目覆盖用户需求分析、系统设计、代码开发、测试、系统实施、人员培训、运维整个信息化过程,并具有多个项目并行开发的能力。 自公司成立已来,本团队一直从事IT系统运维管理以及网络信息安全审计产品的开发,同时在电力、制造行业及政府部门的信息化、智能化系统的开发及信息安全系统的开发中有所建树;在企事业协同办公管理、各类异构系统的数据交换与集成(企业总线ESB)、电力行业软件系统架构设计、电网大数据量采集和数据分析、电能质量PQDF算法解析等应用方面拥有丰富开发的经验。特别在网络信息安全、IT应用系统的智能化安全监控领域具有独特的技术优势和深厚的技术储备。近年来随着企业的不断发展和技术的不断更新,公司的开发团队正在拓展更多业务范围和更新的技术应用。

大数据时代应运而生的智能运维管理平台

大数据时代应运而生的智能运维管理平台 序言:信息化建设至今,网络运维管理已经上升到一个全新的阶段,不仅仅局限于对服务器、设备的管理,更需要从设备到链路、从机房环境到应用服务直至网络全局的管理,智能运维大数据应运而生。 随着网络功能体系的完善与业务系统的不断增加,经常会出现业务系统运行太缓慢或影响工作效率,究竟是系统、操作、网络、服务器还是应用系统导致的问题呢,这个黑匣子里的数据、流向和峰值是否可以一目了然?而网络出现故障时,运维人员只能各个环节逐一排查,繁琐且耗时,且不符大数据时代的智能化趋势。 以上场景,国产运维厂商豪越创始人汪兆伟建议,可以引进一套智能运维大数据管理平台,帮助运维人员方便快捷地进行分析和管理,实时监控网络及设备性能,及时预警告警,在线查询数据报表,全面保障网络系统的稳定运行。智能运维大数据平台,至少需要满以下基本指标: 指标1:数据采集能力和设备兼容性 对于SNMP的支持程度可以体现平台的技术优良性,应支持市面上绝大多数设备的采集监控需求,无论面对怎样的网络环境,都能快速获取设备性能参数,进而有效管理;否则若数据采集都无法实现,管理就更无从下手。 指标2:故障及时告警及面板图可操作 当网络系统发生故障时,需第一时间发出告警,并通过性能分析发现当前异常设备,进而关联设备的物理拓扑图,并在物理拓扑图上确定其告警的重要等级;可直接对设备面板图进行操作,节省处理故障时间。

指标3:统一管理、智能运维 将所有网络管理要素纳入统一平台进行管理,可进行网络架构、设备、性能及应用的智能关联管理,避免出现分离、孤立的信息,帮助运维人员迅速定位问题根源。 目前以豪越HYDO为代表的智能运维大数据平台,采用国际工业标准,遵循IETF RFC 规范与被管对象进行标准化的、开放化的通信管理。 ●64位体系架构 采用主流的64 位CPU 架构,软件按照64 位操作系统特性进行专门设计,充分满足当前IT 环境需求。例如,网口流量数据指标采集支持64 位、存储,避免32位计数形式下,短时间内出现边界溢出的情况。 CPU 采用64 位架构时,操作系统可以直接管理更大的内存。进程地址空间更大,应用程序在进行大量数据采集,数据加工分析时,不会出现32 位计算时常见的内存空间不足情况。 ●采用Linux操作系统 采用工业界稳定的Linux 操作系统,相比Windows 操作系统具备高安全性、高稳定性、高性能、少病毒、少漏洞等特点,充分满足网管系统长时间连续性监控管理需求。 ●统一门户管理 统一门户(Portal)是一种Web应用,通常用来提供个性化、单点登录、聚集

大数据技术与应用专业人才需求分析和预测性调研报告

大数据技术与应用专业 人才需求分析和预测性调研报告 一、调研情况分析 (一)政府发展规划与政策动态 推动大数据产业持续健康发展,是党中央、国务院作出的重大战略部署,是实施国家大数据战略、实现我国从数据大国向数据强国转变的重要举措。日前,工业和信息化部正式印发了《大数据产业发展规划(2016-2020年)》(以下简称《规划》),全面部署“十三五”时期大数据产业发展工作,加快建设数据强国,为实现制造强国和网络强国提供强大的产业支撑。 2018年,贵州提出“万企融合”大行动,计划用五年时间,带动10000家企业通过应用大数据技术,提升企业数字化、网络化、智能化水平,实现发展新增长、服务升级。有预测称,这次行动将在贵州形成超过1200亿美元的市场。 (二)市场需求和行业发展趋势 1)大数据市场需求 大数据经过前几年的概念热炒之后,逐步走过了探索阶段、市场启动阶段,当前已经在接受度、技术、应用等各个方面趋于成熟,开始步入产业的快速发展阶段。大数据巨大的应用价值带动了大数据行业的迅速发展,行业规模增长迅速。截至 2014 年,全球大数据市场规模已经成长到300 亿美元的空间,预测到2017 年全球大数据技术和服务市场的2018 年的复合年增长率将达到26.4%,规模达到415 亿美元,是整个IT 市场增幅的6 倍。大数据市场规模在2020 年有望达到611.6 亿美元,符合年增长率将达到26%。 中国大数据产业起步晚,发展速度快。物联网、移动互联网的迅速发展,使数据产生速度加快、规模加大,迫切需要运用大数据手段进行分析处理,提炼其中的有效信息。“大数据”已成为一个热门词语高频出现在各种场合,其专门人才已不能满足市场需求。经过专门调研数据显示,大数据人才岗位缺口2018年高达150万,俱预测2025年中国大数据人才缺口达到200万,这给高校和人力资源企业的一个很大的优惠。未来几年人才需求将持续走俏。引进和培养1000

大数据平台运维手册

大数据平台运维手册

目录 1.简介 (1) 1.1.大数据平台介绍 (1) 1.2.大数据平台Manager介绍 (2) 2.使用前的准备 (3) 2.1.客户端硬件配置 (3) 2.2.软件环境要求 (3) 2.3.支持的浏览器 (3) 3.系统检查 (4) 3.1.管理员服务器IP,端口及账号权限检查 (4) 3.2.管理员服务器空间检查 (4) 4.开始集群管理 (5) 4.1.TDH Manager的基本操作 (5) 4.1.1.启动和停止TDH Manager (5) 4.1.2.终止TDH Manager进程 (6) 4.1.3.重启大数据平台-manager和agent (6) 4.1.4.TDH Manager登入和登出 (6) 4.1.5.TDH Manager语言选择 (7) 4.1.6.TDH Manager用户信息登记和更新 (8) 5.创建集群服务 (10) 5.1.创建集群 (10) 5.2.集群服务的添加、删除 (13) 6.管理菜单 (17) 6.1.节点管理 (17) 6.1.1.添加节点 (18) 6.2.用户管理 (22) 6.2.1.管理用户 (23) 6.2.2.管理用户组 (33) 6.2.3.管理用户角色 (35) 6.3.日志查询 (43) 6.4.审计查询 (44) 6.5.NTP管理 (45) 6.6.许可证管理 (46) 6.7.Guardian服务监控 (48) 6.7.1.Guardian服务的角色 (49) 6.7.2.Guardian服务的配置 (50) 6.7.3.Guardian服务操作的监控 (51) 6.8.备份与恢复 (51) 7.Zookeeper的运维 (53) 7.1.ZooKeeper服务的管理 (53) 7.1.1.启动、停止、删除Zookeeper服务 (53) 7.1.2.配置服务 (54) 7.2.ZooKeeper服务的监控 (54) 7.2.1.CPU使用监控 (54)

大数据运维管理平台有什么作用

大数据运维管理平台主要有两个作用,一个是批量部署;另一个是集群配置。 一、大数据运维管理平台批量部署 我们都知道大数据本身是一个分布式的系统,因此在安装时,需要对每一个节点进行组件的安装,并且由于是开源软件,其安装过程相对比较复杂,大数据每个组件都需要做很多的配置工作,这一点相信各位深有体会。DKH 提供了DKM 来自动化安装部署大数据。大大缩短了大数据的安装时间,同时也简化了安装大数据的过程。 自动化安装的过程如下: 1.安装环境准备,下载DKM 以及DKH 的安装文件,安装JDK,yum 等基本软件。 2.挑选一台节点,安装DKM ,用户只需要启动安装脚本即可,通常情况下几分钟就能够完成。 3.DKM 是一个web 应用,提供了基于浏览器的界面,用户可以通过浏览器可视化的进行DKH的安装部署。 4.通过DKM 界面,添加其他需要的安装的节点,选择要安装的大数据组件,以及每个节点承担的角色,选择安装,DKM 会自动地将需要安装的软件分发到对应的节点,并完成安装。 5.当所有节点的软件都安装完成之后,DKM 会启动所有的服务。从上述的安装过程可以看出DKH 的安装主要体现两个特点,批量化以及自动化。只需要在其中一个节点完成,

其他节点都可以进行批量化的自动安装。 二、大数据运维管理平台集群配置 1.可视化参数配置界面。大数据包含许多的组件,不同的组件都包含各种各样的配置,并且分布于不同的主机之上。DKM 针对这种情况提供了界面化的参数配置功能,并且能够自动的部署到每个节点。 2.高可靠配置。DKM 对关键的组件使用HA部署方案,避免单点失效的发生,同时DKH 对于组件的异常错误提供了自动恢复处理,最大限度的保证服务的可靠性。

基于大数据的智能运维管理系统研究与实现

2017年第11期 信息通信2017 (总第 179 期)INFORMATION&COMMUNICATIONS(Sum.No 179)基于大数据的智能运维管理系统研究与实现 花爱 (普夭信息工程设计服务有限公司,北京100088) 摘要:随着企业r r架构的不断扩展,服务器、存储设备的数量越来越多,网络也变得更加复杂,特别是分支机构众多的大 型企业或垂直层级较多的政府单位,这种情况更加突出明显。为了保障良好的用户体验和数据时效性,运维工作变得越 来越艰巨。虽然运维工作已经借助相应的自动化监控工具,但IT监控系统每分钟要进行上万个數据采集,对采集的海 量数据进行处理和分析才是对IT运维工作最大的挑战。 关键词:智能运维;大数据;自动化运维 中图分类号:TM76 文献标识码:A文章编号:1673-1131(2017 )11-0239^2 0引言 金融行业IT信息化建设领先于国内其它行业,随着IT信 息化的高速发展,国内金融行业IT己经成为重资产,更成为金 融行业经营命脉的重要保障。业务持续性无中断要求对IT管 理提出了更高的诉求?随着大数据概念的提出,I T的运维管 理己经从系统化、集约化、数据化向智能化发展?基于大数据 的一体化智能运维平台提供了从基础设施、数据库中间件、系 统应用进程到业务交易系统的一整套运维管理解决方案。布式结构部署,适用于大型网络环境下的系统监控。系统监 控软件简单易用,通过该系统可以监控数据中心各种资源的 使用情况,提供资源的性能数据,有效地帮助企业解决各种基 础设施的监视与管理难题。不但提供了丰富灵活的报表功能,帮助企业分析资源运行状况,预测系统性能瓶颈;同时提供多 种通知方式,当被监控资源出现异常,保证管理人员能随时、随地了解整个系统的运行状况;确保企业信息系统髙效稳定 的运行,从而保证了信息系统对业务的支撑,使企业良好运转。系统架构: 1传统运维与大数据运维优缺点 运维管理的主要目的是保障基础设施的可用性及降低风 险,提高资产的利用率,降低能耗消耗和运维成本,提高服务 水平以及数据中心的效率和效益。 (1) 传统运维存在的问题:日益增长的人力成本;运维标准 的管理诉求;运维服务效率低下;故障发现不及时、处理不到 位、事后无诊断。 (2) 大数据运维系统特点?海量存储:可以高效地存储、检 索、调用任一时间采集的IT资源数据和告螫;关联分析:可以 针对设备、指标、阈值等不同维度的数据进行关联性分析;阈 值分析:可以指定对任意指标进行阈值分析,査看我们设置的 管理策略是否合理,以及这些指标引起设备异常的概率;根源 分析:可以针对不同资源进行异常犾态的根源分析,査看引起 异常的指标类型及概率;健康评分:可以对海量数据进行综合 分析,给出每个资源的任一指标对于我们业务影响大小的量 化参考值,并对资源进行健康度评分。 (3) 运维管理发展趋势。经济性:资源如何有效利用,包 括网络、空间、动环资源:如何缩减运行费用,包括能源、维护 人员。灵活性:如何识别及降低过度部署和冗余;如何灵活扩 展容量(空间、制冷和供电);如何更快响应业务。可用性:如 何实现精细化管理;如何及时排除隐患,处理复杂故障;如何 实现动态资源管理和电子流管理。管理性:需要有效的数据 分析支撑决策和规划:如何实现系统一体化,统一协作、快速 响应;如何满足大客户服务等级协议和自服务管理。 建设“集中化运维、一体化管理、智能化分析、流程化控制” 的it支撑系统,才能实现智能化运维的管理目标,减少运维人■E歸襌涛H n n l n l n l C S29 ■QgglQggl CS3B tU 4^系统实现了对客户IT系统的使用状况进行统一综合的管 控和分析,将复杂化的运维管理工作变得简单化、人性化,规 范化、自动化。其强大的技术实力和严格的开发管理机制保 证了系统运行的稳定性、功能的全面性和扩展性,真正打造了 满足客户需求的I T运维管理平台。对客户的I T系统进行 7*24小时的全面监控,提供了 r r系统的性能监控、性能分析、 故障监控、故障分析及定位、资产及配置文件的管理、强大的 报表分析等功能,保证了客户日常运维工作的顺利开展,提升 了运维工程师的网络管控水平,降低了管理层的日常工作量, 为决策层提供了可靠的数据依据。 3系统功能架构 系统采用多层架构、模块化的设计模式,系统功能全面, 模块功能独立,可根据不同客户需求自由组合,同时服务运营 支撑系统具备良好的扩展性,通过第三方数据整合接口和数 据总线以及门户Protal,与第三方产品可进行无缝集成。 员和维护成本,优化资源管理,提升运维效率。4系统技术架构 2系统组织架构 —体化智能运维管理系统能够实现对数据中心IT基础设 施进行集中监控,包括存储、主机系统、网络服务、数据库、应 用服务器、中间件以及应用软件等。系统监控软件可采用分 采用J2EE架构,全图形化B/S模式,可移植性强,可运行 于不同操作系统(Windows、Red Hat Linux等),真正实现了跨 平台部署。统一开放的监控管理平台支持多数据库(MySql、Oracle等)、多操作系统,为第三方系统提供多种集成接口。 239

大数据中心运维服务方案设计

数据中心机房及信息化终端设备维护方案 一、概况 xxx客户数据中心机房于XX年投入使用,目前即将过保和需要续保运维的设备清单如下: 另外,全院网络交换机设备使用年限较长,已全部过保,存在一定的安全隐患。 二、维保的意义 通过机房设备维护保养可以提高设备的使用寿命,降低设备出现故障的概率,避免重特大事故发生,避免不必要的经济损失。设备故障时,可提供快速的备件供应,技术支持,故障处理等服务。

通过系统的维护可以提前发现问题,并解决问题。将故障消灭在萌芽状态,提高系统的安全性,做到为客户排忧解难,减少客户人力、物力投入的成本。为机房内各系统及设备的正常运行提供安全保障。可延迟客户设备的淘汰时间,使可用价值最大化。 通过引入专业的维护公司,可以将客户管理人员从日常需要完成专业性很强的维护保养工作中解放出来,提升客户的工作效率,更好的发挥信息或科技部门的自身职能。 通过专业的维护,将机房内各设备的运行数据进行整理,进行数据分析,给客户的机房基础设施建设、管理和投入提供依据。 三、维护范围 1、数据中心供配电系统 2、数据中心信息化系统 3、全院信息化终端设备 4、数据库及虚拟化系统 四、提供的服务 为更好的服务好客户,确实按质按量的对设备进行维护;我公司根据国家相关标准及厂商维护标准,结合自身多年经验积累和客户需求,制定了一套自有的服务内容: 1、我公司在本地储备相应设备的备品备件,确保在系统出现故障时,及时免费更换新的器件,保障设备使用安全。 2.我公司和客户建立24小时联络机制,同时指定一名负责人与使用方保持沟通,确保7*24小时都可靠联系到工程技术人员,所有节日都照此标准执行。 3.快速进行故障抢修:故障服务响应时间不多于30分钟,2小时内至少2人以上携带相关工具、仪器到达故障现场,直到设备恢复正常运行。

hydo智能运维大数据管理平台-宣传画册word

HYDO智能运维大数据管理平台 产品介绍 目录序列 关于豪越 七十载披荆斩棘,四十年翻天覆地。新时代的中国,在各行各业所取得的巨大创新成就,正深刻改变着社会,影响着世界。党的十九大报告指出,创新是引领发展的第一动力。 以“创新、品质、诚信、共赢”为经营理念的豪越科技有限公司,在万物互联、资源整合的大数据时代中应运而生,紧随国家发展战略,勇于创新、锐意进取,已取得50多项荣誉资质和120多项技术专利,立足中国,服务全球。豪越已在多个国家和地区开设有分公司和办事处,为政府、教育、军工、金融、医疗、电力等行业的信息化发展做出了卓越贡献。 秉承“让运维更简单,数据更安全”的初心,豪越在IT智能运维、视频运维、动力环境、IT资产管理、IT流程管理、3D可视化、数据资源池等领域,研发出了诸多引领行业发展的核心产品,并陆续推出数据中心建设与扩容、智慧园区、智慧校园、智慧营院、智慧城市等信息化整体解决方案。 以HYDO为代表的豪越自主研发的智能运维大数据管理平台,开创性实现了大规模数据中心的统一集中管理、实时监控、安全高效运行和自动化运维。HYDO涵盖网络、动力环境、IT基础设施、IT硬件、软件、业务系统、视频、云服务等;可实现多类型指标的精准管理和可视化呈现;具有故障自愈功能,开启全天候无人值守模式;开创移动运维解决

方案,大幅降低运维成本;基于大数据平台的分析与挖掘,构建Al平台助力用户实现智能化运维。 “为客户创造价值、助员工成就梦想”,600多位豪越人始终不忘初心、牢记使命,用艰苦奋斗与持续创新为全球65个国家16000多位客户创造了非凡的价值,也为自己的人生书写了绚烂的华章。面向未来,九万里风鹏正举、豪越人砥砺前行,用创新驱动发展、用匠心做好产品、用恒心做好服务,豪越将努力为广大客户创造更多的价值、为中华民族伟大复兴的中国梦做出更大的贡献、为人类社会的科技进步做出更高的成就! 护航大数据时代,引领全智能未来----豪越! HYDO产品系列 豪越陆续推出IT智能运维、视频运维、动力环境、IT资产管理、IT流程管理、3D可视化等核心产品, 各产品系列既可作为独立模块与豪越HYDO智能运维大数据管理平台相互耦合,又可作为独立系统单独运行。 1、HYDO智能运维大数据管理平台 2、视频监控运维系统 3、动力环境系统 4、IT资产管理系统 5、IT流程管理系统 6、3D可视化管理系统 产品技术架构

统一运维大数据分析平台建设和应用综合解决方案

统一运维大数据分析平台建设和应用综合解决方案2020年3月30 统一运维大数据分析管理平台 建 设 方 案

目录 第1章.方案概述 (4) 1.1.项目背景 (4) 1.2.需求分析 (5) 1.3.建设目标 (7) 1.3.1.建立统一运维门户 (7) 1.3.2.建立IT异构资源的全面集中化管理 (7) 1.3.3.建立全面准确的资产配置管理 (8) 1.3.4.建立符合最佳实践的服务流程管理 (9) 1.3.5.建立IT资源全面直观的可视化管理 (9) 第2章.解决方案 (10) 2.1.系统设计原则 (10) 2.1.1.实用性和模块化原则 (10) 2.1.2.一致性和开放性原则 (11) 2.1.3.安全性与可靠性原则 (11) 2.2.系统安全设计 (12) 2.2.1.用户安全机制 (12) 2.2.2.SSO统一认证 (12) 2.2.3.权限分权分域 (12) 2.3.系统建设方法 (13) 2.3.1.体系架构 (13) 2.3.2.功能架构 (17) 2.3.3.技术架构 (17) 2.3.4.部署架构 (18) 第3章.功能概述 (19) 3.1.运维监控系统 (19)

3.1.1.统一运维管理 (19) 3.1.2.资源监控管理 (23) 3.1.3.拓扑管理 (45) 3.1.4.IP地址管理 (59) 3.1.5.告警管理 (61) 3.1.6.业务管理 (66) 3.2.3D机房管理 (70) 3.2.1.监控可视化管理 (72) 3.2.2.资产管理可视化 (76) 3.2.3.机房3D图形化展示 (78) 3.2.4.配线可视化管理 (80) 3.2.5.容量可视化管理 (82) 3.2.6.资源分配情况管理 (84) 3.2.7.上下架可视化 (85) 3.2.8.自定义动画 (86) 3.2.9.交互式演示汇报 (87) 3.3.配置文件管理 (87) 3.3.1.巡检管理 (88) 3.3.2.机房虚拟现实展现 (91) 3.3.3.资产管理系统 (95) 3.3.4.供应商管理 (96) 3.3.5.配置建模管理 (97) 3.3.6.空间资源管理 (99) 3.3.7.配置项导入 (101) 3.3.8.配置项管理 (102) 3.3.9.配置项视图 (105) 3.4.运维流程管理系统 (107) 3.4.1.服务台 (107) 3.4.2.服务设计 (115)

大数据运维及综合分析系统(Orca)

目录 1、Orca-SCMDB (2) 1.1产品简介 (2) 1.2功能特点 (2) 1.3功能说明 (3) 2、ORCA-Radar (4) 2.1 产品简介 (4) 2.2隐患扫描指标 (5) 2.3扫描范围 (5) 2.4产品优势 (6) 2.5设备监控 (6) 2.6性能监控 (7) 3、IT运维大数据分析 (7) 3.1性能Top N (10) 3.2系统安全评测 (10) 3.3性能预测 (11) 3.4容量预测 (11) 3.5可靠性预测 (12)

智能维保Orca包括Orca-SCMDB(信息管理),Orca-Radar(隐患扫描),Orca-HHM (大数据分析),Orca-BSM(业务监控),Orca-ITSM(服务管理)等产品。 1、Orca-SCMDB 1.1产品简介 Orca-SCMDB(Super Configuration Management Database),IT运维管理系统是北京合力思腾结合近十余年的IT运维经验,以解决用户实际问题为根本目标,从实用性、易用性的角度出发,收集、索引和利用整个IT基础架构(服务器、存储、网络、数据库和中间件等)的所有数据,为运维和业务支撑提供精确的数据分析。 1.2功能特点 采用“动态建模”技术,支持资源库模型的自定义和灵活扩展,可统一管理各类IT资源目标 多维度、多视角管理整个IT架构,有效反映IT资源之间复杂的关联关系,帮助用户梳

理IT架构内部关联和相互影响 通过自主开发的数据采集引擎(Shell命令集库),经Telnet/SSH协议,完全实现IT 配置信息的自动采集和动态更新 提供精细的IT性能分析和趋势预测,为业务系统的优化、升级、扩容提供数据基础和理论依据 1.3功能说明 动态建模与数据采集 从用户自己的管理思路和管理流程出发,自定义资源库动态模型。从业务角度建立“业务部门>业务系统>基础架构”的业务数据模型,从维护角度建立“网络(或机房)>设备类型>设备>关联业务”的运维数据模型,以及其他任意角度建立数据模型。独立的数据采集引擎,支持Agent和非Agent两种采集方式,支持格式化数据的批量导入。 多视角视图

探索基于大数据分析技术的智能运维体系

技术 Special Technology D I G I T C W 专题 58DIGITCW 2019.09 整体而言,我国互联网金融的发展起步较晚,运维体系有很大的改进空间,将大数据技术融合到智能运维体系中,可以挖掘数据的潜在价值,并且实时进行监控,做好事前预测和事故处理工作。针对传统运维方式的不足之处,本文从新的角度对智能运维体系进行了研究,具有一定的积极意义。 1 大数据分析技术智能运维体系的构建 目前,IT 运维环境日益复杂,需要管控的对象日益庞大,传统的运维体系在应用过程中显得捉襟见肘,所以需要应用大数据分析技术构建智能运维体系。1.1 采集 本文以某工商银行的管理系统为例,并且采访了相关的专家,根据专家的意见,确定了模型的数据范围,比如登录日志、交易日志等,以2017年1~12月的数据为主要参考对象,在此基础上进行了加工处理,并且分为登录、登出、失败、交易和异常五大指标,然后对这些指标进行汇总,建立了相关的时间序列。1.2 探索 在对数据进行探索时,需要将数据进行分类,比如分为训练集、验证集等,并且对五大指标进行观察,可以选择10分钟为一个时间粒度。经过探索发现,工作日的上午和下午都会有两个波峰,趋势相似,但是幅度有所区别,而非工作日,比如周末、法定假日等,交易量明显减少。如果系统出现故障,那么交易量会急速下降,而当故障解除后,交易量会逐渐回到正常水平。因为系统日志记录存在一定的误差,也没有对出现异常的原因进行分析,加上登录失败可能是由于密码错误引起的,所以本文以登录、登出和交易这三大指标为主要研究对象。 2 大数据分析技术智能运维体系的拓展 2.1 开发 首先,要对数据进行预处理和预分析,可以通过数据的集合,观察系统亚健康状态时变量的情况和特征,找到规律。一般而言,系统发生故障时,系统变量会有所降低,而且在故障发生之前,这种降低已经出现,只是比较缓慢,需要经过多个周期。 其次,要建立参考区间,对历史数据进行全面的分析,确定不同时间段内变量的波动区间。为了保证序列能够进行对比,我们需要将数据进行统一的处理,形成标准数据。公式为Vit=Iit/ηit ,其中Iit 指的是t 时刻第i 个变量的输入值,而ηit 指的是标准化系数,也就是均值,而Vit 指的是经过处理后的变量值,也是频数相对率。 再次,因为变量标准化需要获取当日均值,而在进行实时监控时,要引入因子指标,计算出不同时刻频数占总频数的比值。一般而言,上班时间开始时,系统的变异系数相对较低,约等于0.2。 最后,在预警信号的产生方面,需要对变量的相对值和边界值进行加权计算,这样能够提高信号的准确性。对于一些突发式的故障或者是黑客的攻击等,该系统并不适用,所以在应用的过 程中,还要具体情况具体分析。2.2 检验 在对智能运维体系模型进行检验时,需要做好概念的分析工作,比如系统故障,假设15个工作日,其中有8次波形异常,而系统亚健康状态发生时间在波形异常之前,如果缺乏记录,就会影响频数最低点记录的真实性,而且会产生较大的误差。至于波形异常,包括波形显著上升、显著下降和平稳时间过长三类。经过检验,发现故障点共有13个,有10次识别成功并且进行了预警,而波形异常情况共有20次,有18次成功识别。在对信号进行统计后,发现智能运维体系的准确率为77%,漏报率为23%,而且预报的平均时间比故障时间提前了将近半小时,能够很好地保证系统运行的效果,并且为故障的及时解决争取到了宝贵的时间[1]。2.3 应用 大数据分析技术智能运维体系的流程如图1所示,在模型应用过程中,发现能够准确预测和判断系统的亚健康状态,尤其是在2017年10月份,系统运行出现高峰,在这一期间运维体系发挥了得天独厚的优势,对故障进行了多次预警,帮助和协调工作 人员顺利完成维护工作,减少了可能出现的损失。 图1 大数据分析技术智能运维体系 3 大数据分析技术智能运维体系的优化 为了保证智能运维体系达到最佳效果,对所有故障都能够进行准确的判断和预警,需要从以下三方面入手: 第一方面,扩大数据来源。在数据采集方面,要打破纵向和横向的局限,扩大数据的周期,比如选择十一五期间某银行的数据,这样可以减少系统用户行为受到季节或者是特殊日期的影响,从而保证结果的真实性。另外,可以对数据进行分类,分为管控数据、配置数据、作业数据、容器数据以及集成数据等,同时还要做好故障的定位工作。 第二方面,丰富算法规则。可以引入新的变量,然后结合关键指标的变化情况,建立决策树或者是使用神经网络算法,提高预测结果的精度,降低外界因素的干扰。如果输入和输出存在正相关的关系,那么就可以对向量进行分解,然后调节各个分量之和的参数,让最终结果能够接近真实结果,如图2所示。 第三方面,结合专业经验。在对数据进行定量分析和定性分析时,不能停留在表面,而是需要与大数据领域的专家进行沟通和交流,并且根据故障发生的场景,总结出故障的特点,然后形成模型,这样能够保证当再次发生同样的故障时,可以及时采取 探索基于大数据分析技术的智能运维体系 钟茂年 (中兴通信股份有限公司,深圳 518057) 摘要:新的时代背景下,大数据分析技术的价值日益凸显,在社会各领域发挥着积极的作用。本文以银行为例,探讨了基于大数据分析技术的智能运维体系,从构建、拓展、优化和保障四方面进行了分析,希望能够为相关的工作提供一定的参考,促进智能运维体系的良好发展。 关键词:大数据;智能运维;故障;信号doi :10.3969/J.ISSN.1672-7274.2019.09.039中图分类号:F832.2 文献标示码:A 文章编码:1672-7274(2019)09-0058-02

统一运维大数据分析平台建设方案 一体化智能运维管理平台解决方案

统一运维大数据分析平台建设方案 统一运维大数据分析平台 建 设 方 案

目录 第1章.方案概述 (4) 1.1.项目背景 (4) 1.2.需求分析 (5) 1.3.建设目标 (6) 1.3.1.建立统一运维门户 (7) 1.3.2.建立IT异构资源的全面集中化管理 (7) 1.3.3.建立全面准确的资产配置管理 (8) 1.3.4.建立符合最佳实践的服务流程管理 (8) 1.3.5.建立IT资源全面直观的可视化管理 (8) 第2章.解决方案 (10) 2.1.系统设计原则 (10) 2.1.1.实用性和模块化原则 (10) 2.1.2.一致性和开放性原则 (10) 2.1.3.安全性与可靠性原则 (11) 2.2.系统安全设计 (11) 2.2.1.用户安全机制 (11) 2.2.2.SSO统一认证 (12) 2.2.3.权限分权分域 (12) 2.3.系统建设方法 (12) 2.3.1.体系架构 (12) 2.3.2.功能架构 (15) 2.3.3.技术架构 (16) 2.3.4.部署架构 (17) 第3章.功能概述 (18) 3.1.运维监控系统 (18)

3.1.1.统一运维管理 (18) 3.1.2.资源监控管理 (22) 3.1.3.拓扑管理 (41) 3.1.4.IP地址管理 (52) 3.1.5.告警管理 (55) 3.1.6.业务管理 (59) 3.2.3D机房管理 (63) 3.2.1.监控可视化管理 (64) 3.2.2.资产管理可视化 (69) 3.2.3.机房3D图形化展示 (71) 3.2.4.配线可视化管理 (73) 3.2.5.容量可视化管理 (75) 3.2.6.资源分配情况管理 (77) 3.2.7.上下架可视化 (78) 3.2.8.自定义动画 (79) 3.2.9.交互式演示汇报 (79) 3.3.配置文件管理 (80) 3.3.1.巡检管理 (81) 3.3.2.机房虚拟现实展现 (83) 3.3.3.资产管理系统 (87) 3.3.4.供应商管理 (87) 3.3.5.配置建模管理 (88) 3.3.6.空间资源管理 (90) 3.3.7.配置项导入 (92) 3.3.8.配置项管理 (93) 3.3.9.配置项视图 (96) 3.4.运维流程管理系统 (98) 3.4.1.服务台 (98) 3.4.2.服务设计 (105)

统一运维大数据分析管理平台建设方案 智慧运维大数据分析平台建设方案

统一运维大数据分析管理平台建设方案 统一运维大数据分析管理平台 建 设 方 案

目录 第1章.方案概述 (4) 1.1.项目背景 (4) 1.2.需求分析 (5) 1.3.建设目标 (6) 1.3.1.建立统一运维门户 (6) 1.3.2.建立IT异构资源的全面集中化管理 (7) 1.3.3.建立全面准确的资产配置管理 (7) 1.3.4.建立符合最佳实践的服务流程管理 (8) 1.3.5.建立IT资源全面直观的可视化管理 (8) 第2章.解决方案 (10) 2.1.系统设计原则 (10) 2.1.1.实用性和模块化原则 (10) 2.1.2.一致性和开放性原则 (10) 2.1.3.安全性与可靠性原则 (11) 2.2.系统安全设计 (11) 2.2.1.用户安全机制 (11) 2.2.2.SSO统一认证 (12) 2.2.3.权限分权分域 (12) 2.3.系统建设方法 (12) 2.3.1.体系架构 (12) 2.3.2.功能架构 (15) 2.3.3.技术架构 (16) 2.3.4.部署架构 (17) 第3章.功能概述 (18) 3.1.运维监控系统 (18)

3.1.1.统一运维管理 (18) 3.1.2.资源监控管理 (22) 3.1.3.拓扑管理 (41) 3.1.4.IP地址管理 (52) 3.1.5.告警管理 (55) 3.1.6.业务管理 (59) 3.2.3D机房管理 (63) 3.2.1.监控可视化管理 (64) 3.2.2.资产管理可视化 (69) 3.2.3.机房3D图形化展示 (71) 3.2.4.配线可视化管理 (73) 3.2.5.容量可视化管理 (75) 3.2.6.资源分配情况管理 (77) 3.2.7.上下架可视化 (78) 3.2.8.自定义动画 (79) 3.2.9.交互式演示汇报 (79) 3.3.配置文件管理 (80) 3.3.1.巡检管理 (81) 3.3.2.机房虚拟现实展现 (83) 3.3.3.资产管理系统 (87) 3.3.4.供应商管理 (87) 3.3.5.配置建模管理 (88) 3.3.6.空间资源管理 (90) 3.3.7.配置项导入 (92) 3.3.8.配置项管理 (93) 3.3.9.配置项视图 (96) 3.4.运维流程管理系统 (98) 3.4.1.服务台 (98) 3.4.2.服务设计 (105)

大数据时代数据中心运维管理

大数据时代数据中心运维管理 立足数据中心运维管理的现状,顺应时代发展的潮流,充分利用信息技術的机遇,利用现有资源对数据中心的运维管理加强完善和创新,为行业的发展,国家的进步贡献力量。 1.大数据时代数据中心运维管理的现状 大数据时代作为时代发展的机遇出现在大众视野,但是也是作为挑战逐步渗透在行业的数据中心运维管理中。以计算机技术为依托的数据中心运维管理的显著特点就是大规模的数据流量,正在不断与原有的数据中心架构产生冲突。 目前,大数据时代的数据中心运维管理的先进意识已经深入人心,但是实际项目操作过程中会有众多的问题出现。因为在磨合期,所以现有设备不能满足大数据时代的数据中心管理要求;运维管理人员的没有经过大数据时代新的运维管理思路的熏陶,技术水平与之不匹配;还有就是数据中心的运维管理制度不都完善,相应的管理水平不高。 2.解决数据中心运维管理困境的策略 针对目前数据中心运维管理的困境,本文提出了相应的解决策略,以供业界参考。 2.1提升运维管理人员的整体能力 基于目前数据中心运维管理工作人员的实际能力,通过采取以下积极的措施来提升运维管理工作人员的综合能力水平。

2.1.1大数据背景下,强化数据中心运维管理人员的技术应用水平 通过多维度的检验途径,比如定期检查该技术的理论与实践水平确定工作人员的当前能力,在制定符合目前技术短板的相关培训,从而保证运维管理工作的顺利进行。 2.1.2加强管理方面的知识渗透 在加强数据中心运维管理人员的技术应用水平的前提下,可以加强管理学知识的渗透,为技术团队的整体语言表达能力的提升以及为管理层储备后续力量,既懂技术又懂管理的新世纪人才,有助于数据中心运维管理工作更加高质量的完成。 2.1.3加强工作人员执行力,更高效的完成工作 在数据中心运维管理的众多评价标准中,执行力是影响一个团队整体运作能力很重要的一个指标,良好的执行力可以保证时间段内的工作目标提前完成或者超量完成。 2.2强化业务管理工作和业务培训工作 现如今,科学技术的更新速度往往超出人们的接受速度,在数据中心运维管理这个领域也同样适用。所以使得运维管理人员刚刚熟练掌握新的运维既能并熟练应用,新的技术又刷新了行业应用领域。所以设立专门的培训机构,强化管理人员终身学习的意识,紧跟时代发展的脚步。 2.2.1制定合理的业务培训和业务管理培训计划

大数据运维管理平台说明书

碧茂大数据运维管理平台说明书 版本控制

目录 简介 (3) 功能详细介绍 (3) 配置管理 (6) 集群监控 (11) 告警系统 (17) 巡检 (20) 知识库 (24)

简介 碧茂运维管理平台是针对大数据分布式集群系统设计的自动化运维管理平台,核心功能包括集群资产管理,监控系统,告警系统,系统巡检和运维知识库系统等。详细如下: 一、资产管理 提供可视化界面实现对主机和集群资源的统一配置和管理,对各项监控管理任务进行调度配置、监控和管理。方便运维人员能随时掌握系统全貌,集群服务角色分布情况,硬件资源分配情况,能根据管理需求进行定制化定时任务调度。 二、监控系统 1、主机的健康性能的监控 2、集群服务的端口、健康性能指标的监控 3、集群参数的监控,并自动给出调优建议 4、集群日志的监控预警,自动化收集汇总集群进程和应用日志,并对错误日志进行预警 三、告警系统 1、选择任意监控的指标和阈值,进行邮件告警 四、系统巡检(特色功能) 对系统和集群进行健康和性能检查,自动化生成巡检报告。分为基础巡检和深度巡检。 基础巡检指的是根据需求可以灵活选择需要巡检的服务、指标、参数,自动化生成巡检报告。深度巡检指的是对不同服务的结构对象进行深入分析诊断。 五、知识库系统(特色功能) 一套高质量的集群管理运维相关的知识管理系统,包括运维工具箱、最佳实践和解决方案。知识库系统中的方案可以一键执行来实现复杂运维流程的自动化处理,包括: ?日常集群操作需求,包括服务启停、参数修改、备份恢复、集群扩容迁移、安全配置和升级 ?自动化故障处理 功能详细介绍 登录界面 用户首先需要获取license,激活产品后才能正常使用,提示如下:

相关主题
文本预览
相关文档 最新文档