当前位置:文档之家› 智能运维解决方案-

智能运维解决方案-

温度管理智能运维解决方案

上海**电子科技有限公司

目录

第一章项目背景 (3)

第二章基站系统现状 (5)

2.1:基站系统设备组成 (5)

2.2现有基站设备系统性影响 (5)

2.2.1建设的影响 (5)

2.2.2维护的影响 (6)

2.3其他问题 (7)

2.3.1维护费用 (7)

2.3.2批量事故 (7)

第三章用户需求 (8)

第四章解决方案 (9)

4.1总体原则 (9)

4.2智能运维系统的最后一米(FSU) (10)

4.2.1上海**基站FSU产品(微环境管理单元)功能介绍 (10)

4.2.2微环境管理单元功能结构图 (11)

4.3**基站温度管理解决方案 (12)

4.3.1产品简介 (12)

4.3.2系统组网 (12)

4.3.3方案阐述 (13)

4.3.4产品使用环境 (13)

4.3.5产品设计依据 (14)

4.3.6系统特点 (14)

4.3.7 系统功能 (15)

4.3.8监控中心基本功能(微环境管理单元系统功能) (15)

第六章价值收益 (19)

第七章成功案例.................................................................................................... 错误!未定义书签。第八章关于上海** ................................................................................................ 错误!未定义书签。

第一章项目背景

全面运维面临三大挑战

2016年是中国**全面承接运行维护的第一年,超过150万座**的维护工作将非常

艰巨和复杂。中国**自有运维人员七八千人,远比原来运营商少,平均下来每人要维护180多座**,而这仅是他们的部分工作职责。按照中国**与三家运营商签订的服务协议,

其服务标准以电信企业的最优标准为参考,品质保障向上看齐。最重要的,是运营商对中国**的维护品质有严格的量化考核,比如断电时长的考核,障碍修复时间的考核等,维护

标准由原来运营商内部要求变为运营对**公司的外部要求,这些考核与租金是有直接联系资产接收后,所有站点的服务都纳入考核,一些难以预见的问题会对中国**的维护工作带来挑战。并且,作为一家新成立的在IT支撑、管理模式等方面都致力于创新的公司,第一年承接全面运行维护任务,各方面能力存在一定不足是客观存在的。记者认为,中国**全面运维的挑战主要来自组织保障体系、IT系统支撑、人员队伍专业化素质等三个方面。

维护工单直派模式能否适应巨量基站维护?原来运营商处理故障通常是以省为单位向下派发故障工单,后来移动公司进行集中化故障管理改革,历经三年实现了工单直派到一线班组。现在,中国**采取的故障派单方式也是这样,通过一级架构的IT系统总部直接将维护工

单派发到维护一线,省级、市级分公司有相应的授权进行调度管理。分析人士认为,这样扁平化、穿透化的派单方式更有利于提升管理的透明度,提升服务管控能力。目前,中国** 对自建站点的故障工单直派,做得还是不错的。但上百万巨量站点接收后,维护工作量将呈裂变式增长,有的故障告警系统可以自动修复,有的故障需要派人前往查看。截至去年年底,中国**已在全国设置342个维护中心。公司现有的组织架构、组织形式能否支撑如此大规模的任务承接?故障能否及时处理?流程能否真正闭环?这些挑战是现实存在的。

动力环境监控系统建设不会一蹴而就,过渡期内如何进行有效监控?中国**的故障工单直派模式很大程度上依赖其一级架构的动力环境监控系统,而这套系统的关键设备是FSU。据中国**相关人士介绍,FSU是连接监控端局和监控中心的桥梁,其主要功能是对

端局采集器的原始数据进行采集,并将处理结果发送给监控业务台和数据服务器,同时接受业务台的控制命令对端局设备进行控制。要想对150多万个站点看得见、摸得着,必须对所有站点加装FSU设备。据记者了解,目前中国**自有新建基站的FSU覆盖率尚不到100%,存量基站中的监控改造和更新还需要一定时间。在过渡期内,中国**对动环系统没覆盖到的地方只能用运营商原来的监控系统,而运营商存量基站中的监控缺失率达31%以上,这更需要双方做好协调和对接。

维护队伍的专业能力能否达到高服务标准要求?运营商经过多年锤炼,有着具备强大技术能力的维护队伍,建立了技能培训和认证机制,每年组织大量专业技术培训和技能竞赛,据了解其维护人员平均培训覆盖率达70%以上。而新成立的中国**维护专业人员数量和能力都存在一定不足,技术培训机制尚未完善,相对而言中国**目前的技术能力储备和运营商相比是有一定差距的。目前,中国**已选定了新建代维队伍和存量代维队伍,但代维队伍的能力整合也需要一个过程。维护队伍的能力能否达到**公司承诺的高服务标准要求,让运营商认可?这是第三重挑战。

三管齐下应对维护大考

中国**在2016年工作会上已经将“确保维护品质达标”定为全年的主要任务目标,提

出要全面构建一级平台、三级管理的维护管理体系,做到责任清晰、流程顺畅、全面落地,实现100%客户响应,运维服务承诺达标率力争达到100%,让三家运营商满意放心。

针对维护工作存在的三重挑战,中国**表示,要按照体系建设、系统建设与队伍建设

三位一体的思路,集约高效地做好维护承接,让客户满意放心,打造良好的维护口碑。

构建常态化沟通对接机制,夯实基础数据,提升维护管理能力,让**公司的维护体系适应巨量基站维护工作,就应该提高维护工作的有效性和针对性。这就需要中国**将维护工作常态化落地,与运营商建立有效的对接机制,同时沟通摸清相关各站点的历史数据,做到心里有数。记者获悉,针对新维护模式的流程和组织保障问题,中国**正着力加强维护制度和流程建设,推进发电保障、故障处理、上站配合、日常巡检等维护全流程的优化贯通,构建常态化的维护对接、沟通协调、投诉反馈等机制,夯实维护基础管理。中国**要求各分公司要建立站址现场巡查制度,对标服务协议,以断电时长为重点,建立历史和过渡期数据库,分省地市与电信运营企业进行确认,确保“底数清、数据明”。中国**还将基于内外部

考核,建立全面覆盖运行质量及维护管理的指标考核体系,落实维护责任,实现管理精细化。全力加快动力环境监控系统建设,尽快提升系统支撑能力。动力环境监控系统是维护管理人员的“千里眼”,非常重要。记者获悉,中国**总部已要求相关部门积极协调厂家保证FSU

设备持续稳定供货,并要求各省分公司充分调动各方资源,设备到货一周内必须快速安装上线。按照中国**的计划,该系统将在上半年建成,实现全量数据采集。当然,所有IT系

统都不可能一下具备最完善的能力。中国**也表示,要不断优化运维监控系统功能,充分发挥一级平台优势,确保高效支撑维护工作。中国**将分阶段实施与各省运营商的运维系统对接,积极研究推进双向数据共享,满足客户要求,以及支撑企业内部关联分析与应用。内外兼修,蓄力借力,提升维护队伍能力。针对维护队伍专业能力尚存不足的现状,中国铁塔提出,对内构建精干高效的维护管理队伍,保障维护中心专岗人员、区域经理、项目经理等快速到位,结合岗位认证与专业化培训,提升人员素质与管理水平;对外强化代维队伍管理,依托系统平台,强化日常管理与考核。在资产交接过渡期结束后,中国**将对代维队伍进行整合,提升维护效率,进一步锻造专业化代维队伍。针对应急通信保障层面,中国铁塔正组建“自有人员+合作伙伴”的应急保障队伍,完善应急预案,通过加强与政府部门、电信企业的沟通协作和指挥联动,全面增强对突发事件的应急处理能力

第二章基站系统现状2.1:基站系统设备组成

一.基站主要设备、各类线缆

二.基站电源:交流、直流配电箱开关电源、远供电源、电池设备

三.基站设备:LTE等主要设备BBU-RRU、分组交换.6100.6200.6300.9800设备

四. **类型、天馈线和GPS系统

五. 附属设备光纤、ODF、DDF

2.2现有基站设备系统性影响

2.2.1建设的影响

2.2.2维护的影响

2.3其他问题

2.3.1维护费用

维护费用占据的比重过高,远远超过了建设费用的标准

2.3.2批量事故

因为基站环境温度相关引起的运维事件占总事件比例为40%以上。

第三章用户需求

1.提升运维管理效率,降低故障率,提升客户满意度

2.最大限度减少基站内因为高温引起的设备故障,做到事前预警,自动维护和人工维护相结合。

3.可远程监控管理,智能分析。

4.满足未来扩展需求

第四章解决方案

4.1总体原则

**公司的成立为整个中国通信行业的发展注入了新活力,也推动了整个运维体系的变革,在这一体系中的企业致力于将自己打造成为具有创新思维的“互联网+企业”.

如何在“互联网+”这一大背景下,构建智慧的下一代运维服务体系,在跨界融合、企业化网络引进以及提高资源利用率等方面提供保障,是**公司也是设备和服务提供厂商需要共同研究的话题。

过去经常说运维人员三件宝,牙签、改锥、万用表,而下一代运维的三件宝变成智能终端、无人机和APP。从更深层次分析下一代运维的发展方向,有三大特征:一是简洁化,第二是精准化,第三是聚焦价值创造。从复杂到简洁,利用便携式这种移动式的终端手段,可以打开现场运维管理的黑匣子,使得现场维护管理可视、可管、可控。

从粗放到精准,可以通过对资产、对数据的深入挖掘和分析来实现。通过对站电子与效率的分析,可以聚焦这种价值的最大化,资产价值的最大化。

基于这些特征的研究和运用,同时面向网络的运维方向转化,安全运维、智慧运维和价值运维是下一代运维的核心,也是基于过往实验总结出来的核心思想。

**公司希望代维企业将运维定义为三个阶段:安全运维(MS1.0)、智慧运维(MS2.0)和价值运维(MS3.0)。

安全运维是保障,需要对信息、生产的安全实施全方位的保障。智慧运维是抓手,它需要对运维过程中需要使用到的各类工具进行排列组合,寻找到最佳运维手段。价值运维是核心,来支撑整个运维的发展。

在MS1.0时期关注安全,通过人海战术来确保网络的安全。但到2.0时期,期望投入更多的技术力量、技术改造来增加对网络安全的保障。当然2.0时期更关注是智慧,如何更智慧的去运维。3.0关注如何体现运维的价值,比如说运维对市场的支撑,关注如何使资产实现最大化。

目前整个**产业正处于2.0时代,主要关注的是,寻找关键点,保障资源安全,自动排查隐患以及通过对日常工作数据分析,绘制资源数据画像,锁定安全漏洞,从而规避风险。

对于未来的MS3.0,目前针对价值运维的研究已经进入深水阶段。对于**来说,需要构建站点的画像,对站点资源进行分析,有业务画像和价值画像,而在以往这两个画像是三大运营商需要考虑的问题,而今**需要关注,只有了解了运营商的业务之后,才能更加清楚地指导**站点的运维工作重点在哪里。

价值运维当中一个最大的亮点是价值最大化,通过加减平衡实现价格递增,运维过程会提供实时海量数据的支撑,然后分析目前的资产。欧盟在今年的一份报告中也提出来,未来**包括运营的发展,需要通过构建自己的数据分析系统,而这个数据分析系统需要强有力的伙伴来支撑。通过全天候的合作伙伴,不仅在一线的运维服务方面,而且在资产规划、咨询等角度都能够给客户提供全方位的服务。

4.2智能运维系统的最后一米(FSU)

4.2.1上海**基站FSU产品(微环境管理单元)功能介绍

4.2.2微环境管理单元功能结构图

4.3**基站温度管理解决方案4.3.1产品简介

4.3.2系统组网

4.3.3方案阐述

系统采用分散式采集,集中式管理,设备部署实施简便,前置采集设备分散部署安装,数据采集包含整个基站设备所有环境温度信息,采集数据通过网络上传至监控管理平台服务器,管理人员通过动环平台完成集中分析和统一管控。

管理单元通过系统动环监控平台的FSU上联到中心端,管理单元通过自带和外部传感器侦测环境温度,管理单元同时可以作为插座给空调供电。通过动环中心端设定的温度阀值(区间)进行报警,如果有必要,通过动环中心端设定的风扇控制系统自动启动,确保基站主设备工作环境温度在正常工作范围。确保基站持续工作,自动维护。

4.3.4产品使用环境

●工作环境

工作温度:-40℃~+70℃;

相对湿度:5%-100%;

大气压力:70kPa~106kPa

海拔高度:≤2000m

抗风强度:≥60m/s

5.1.3.2储存环境

储存温度:-45℃~+85℃;

储存湿度:5%-95%;

存储期限:3年

●IP等级要求

满足IP20要求

●盐雾试验要求

中性盐雾PH值在6.5~7.2(35 2℃)之间,满足连续72小时要求,无腐蚀现象

4.3.5产品设计依据

4.3.6系统特点

系统对前端集成设备的数据进行采集和监控,采用分布式采集、集中式管理进行管理与分析。实时监控设备的温度状态,实现各个无人值守网点的智能化,自动化管理。系统主要特点如下:

1.全面细致的数据监测与管理

设备的监控完全符合行业监控规范要求,涵盖了前端集成设备的监控需求。

2.实时可靠的告警分析与管理

实时采集各个监控点状态,并对监控点分析与判断,状态改变或超过设定阀值即触发告警,告警反应时间10s以内,及时有效预期故障发生。

3.全面有效的自动化管理

系统根据实时监测的设备运行数据,实现相关的联动控制策略,实现资源的整合与优化,提高设备利用率,真正实现各个网点的智能化、自动化管理。

4.灵活方便的操作模式

●系统采用C/S和B/S模式,实现图形化的人机管理界面,提供多元化、多维度的报

表分析功能,为维护管理及扩容扩展提供了客观、可靠、全面的辅助决策依据。

●通过智能接口无缝整合到客户现有的动环平台,稳定可靠的被管理和被控制(平台

发送控制指令到微环境管理单元)。

4.3.7 系统功能

4.3.7.1数据采集基本功能

现场监控数据采集器是监控系统的基本单元,通过它实现数据的采集、处理与传输。

4.3.7.2数据接入功能

采集器通过I/O输入输出完成设备的模拟量、数字量采集和控制;具有RS485透传通道和以太网接口。

4.3.7.3数据处理控制功能

采集器完成对监控对象的数据采集,把这些数据上行传送给监控中心。采集器接收监控中心下行传送过来控制命令,实现远程控制功能。

4.3.7.4断电后监控管理,自动重起功能

系统具有电源状态监控,来电自动重合功能,后台管理中心可以及时研判前端设备状态,减少不必要的现场维护。

通过本系统可实现机箱(柜)内的动力环境的实时监测和远程维护。

当系统中有箱(柜)内的微断因环境、干扰等因素导致跳闸时,微断复位控制器会依复位时序进行复位控制(无需系统干预)。如果能够复位,则系统可以马上恢复正常工作;如果仍然跳闸,说明负载侧有故障没有恢复,则控制器等候下一个复位节点再进行复位。15分钟内共计复位六次。如果六次复位均不成功,则复位器不再自动复位。

如果系统通信链路工作正常,则在维护人员去现场维护之前也可进行远程控制复位操作,以减少可恢复性故障的抢修工作量和工作时间。

4.3.8监控中心基本功能(微环境管理单元系统功能)

4.3.8.1监控功能

监控中心能够接收现场监控单元上行的数据,动态显示监视对象的当前状态及参数。

监控平台通过各种人机接口方式,接受管理维护人员发出(或预先设置)的设备控制、参数设置命令,能够下行向现场监控单元发送的设备控制、参数设置命令,来实现对设备的控制及参数设置功能。并根据要求,可保存设备控制、参数设置命令的历史操作记录。

监控平台具备监控系统的基本功能:遥信、遥测、遥控和遥调功能、告警管理、配置功能、安全管理功能、报表功能、通信管理功能、显示功能和打印功能。具有查询各种操作日志的功能。

监控平台中的告警数据、操作数据和监测数据等能够保存一年以上。并可对每一个测点的保存策略进行设置;系统应能对数据库按一定周期进行自动备份。能够按每小时、每日、每月保存每个测点的最大值、最小值、平均值、整点值及最大、最小值产生的时间。

监控平台提供登录用户的管理功能,包括增加、删除、修改、级别定义和密码修改。密码应采用暗码,定期提示修改,超期禁用。可以根据实际情况分片区、局站类型、设备类型进行分类处理。

4.3.8.2告警管理功能

1)告警等级及管理

系统告警分为四级,各级告警的说明如下

一级告警:引起系统退出服务导致所服务的核心业务退服的告警定义为一级告警。

二级告警:可能对系统造成整体退出服务或运行性能下降的告警定义为二级告警。

三级告警:系统中发生的设备部件故障但不影响设备整体运行性能的告警定义为三级告警。

四级告警:系统中设备发送的维护提示性告警信息定义为四级告警。

其中,一级告警以红色标识,二级告警以浅红色标识,三级告警以黄色标示,四级告警以浅蓝色标识。

告警产生条件、告警等级及告警门限值可在线配置和修改并可分别定义到每一个信号量。

当系统的容量超出系统的限制后,发出预警提示,如服务器性能无法满足现有组网要求时发出预警提示。

2)告警预处理

告警过滤功能:系统能对不需要做出反应的告警进行相应的过滤,过滤条件可以根据局站、设备、监控信号量等由用户进行设置。

告警屏蔽功能:系统能自动屏蔽由其它告警引起的非主要告警的功能,只呈现主要告警;当局站或设备处于工程状态时,设定屏蔽后告警信息不上传;当多地点、多设备、多事件并发时,不应丢失告警信息,告警信息准确率必须为100%。。

告警延时设定功能:系统具有当告警在延时的范围内消除时,将不上送告警,告警延时时间可由用户设定。

告警自动升级功能:系统具有当告警产生后,在指定的时间内没有消除,可以设置升级到更高级的告警,如由一般告警升级到重要告警等,以便提醒值班人员的注意。

3)告警处理

告警优先呈现功能:无论监控系统业务台处于任何界面,当告警发生时均可及时自动提示

告警,显示告警信息,并提供告警信息的打印功能。所有告警均可以设置为可视、可闻声光、语音告警等方式提醒或通知,对于不同级别的告警可以发出不同的提示声音。

告警确认功能:发生告警时,由值班人员进行告警确认。如果在规定时间内未确认,可根据设定条件通过短信、语音等形式通知相关人员。(语音及短信告警属于系统扩展功能,设计时需要配置相应的语音卡、短信modem及管理程序)

告警自动清除功能:告警发生后一段时间内又自动恢复,系统自动清除告警窗内的显示并保存告警记录。

告警统计分析功能:系统能对各种历史告警按区域、局站类型、设备类型、信号类型、告警等级、发生时间、确认人员、确认时间等关键字段进行查询、统计和打印,同时能够查询与告警相关的遥测量及遥信量数据。

告警信息不能在任何地方通过监控系统进行更改或删除。

系统本身的故障应能自诊断并发出告警,能直观地显示故障内容。

系统具有联动操作性。即当监控系统中某一条件成立后,立即执行相应的动作。例如,当环境温度过高时,自动开启风扇;当环境温度过低时,自动关闭风扇。

4.3.8.3配置管理功能

1) 系统数据的配置

配置管理功能用于监控对象、监控系统自身的增加、修改和删除的管理。配置管理操作简单、方便、扩容性好;在增加新的配置数据或修改配置数据时不影响系统正常运行。

2) 配置数据的查询

提供方便、快捷的配置数据查询功能,能够按照区域(县市分公司或其它用户定义的区域)、局站类型、设备类型、信号类型、告警级别、配置数据变更时间等条件进行筛选、查询,并能以EXCEL表格形式导出。

4.3.8.4统计分析功能

1) 标准报表

系统能生成并输出告警记录报表、告警统计表、操作记录报表等用户已定义的标准报表;同时能够查询各类测点历史曲线,以及不同测点组合后的多条曲线,供用户进行分析比较。

历史数据的统计功能:系统能够根据片区、局站类型、设备类型、告警等级、时间段(周、月、季、年、任意时间段)等条件生成的告警统计报表、遥测量统计表。

操作记录统计功能:系统具有查询各种操作日志的功能并生成操作记录表输出。

4.3.8.5数据库管理功能

告警数据、操作数据能保存一年以上,监测数据能保存两年以上。系统能对数据库按一定周期进行备份。系统提供开放式数据库接口,采用标准的数据库SQL Server。

4.3.8.6安全管理

1) 应用安全

系统具有完善的安全防范措施,对不同的操作人员(系统管理员、操作管理员、一般操作人员)赋予不同的操作权限,并有完善的密码管理功能,能够定期自动提示用户进行密码更

改,以保证系统及数据的安全。

系统能保存设备操作记录信息,设备操作记录包括操作人员工号、被操作设备名称、操作内容、操作时间等。

系统提供登录用户的管理功能,包括增加、删除、修改、级别定义和密码修改等。密码应采用暗码,定期提示修改,超期禁用。

系统具有操作人员登录及退出时间记录。

系统具有容错能力,对于外界的各种干扰,监控系统不产生误告警、混乱甚至死机,不因用户误操作等原因使系统出错、退出或死机。

系统具有对本身硬件故障(监控主机、服务器等)、监控系统通信故障、软件运行故障等自诊断功能,并给出告警提示。

系统具有来电自启动功能。

2) 系统安全

在监控系统所在的服务器和计算机上安装操作系统补丁更新服务,并及时更新操作系统补丁,防止病毒或非法入侵者通过操作系统漏洞进行感染或攻击。在监控系统所在服务器和计算机上安装防病毒软件,并及时更新病毒库及杀毒引擎。

4.3.8.7维护管理功能

监控中心具备以片区、以设备类等管理功能,可结合用户权限功能,实现分片区维护和设备类维护的代维管理模式。通过分片区维护和设备类维护将告警分类,提交不同用户,实现对代维业务的支撑。

第六章价值收益

一、领导机构(政府部委办局):

1、保障重大投资的有效性

2、降低维护性开支

3、推动系统建设的规范化

二、使用方(**公司):

1、提升系统可靠性

2、减少故障历时

3、保障投资的有效性

4、避免报障和追踪

5、避免偶发事件设备失效的问责、

三、建设方:

1、提升客户满意度降低投诉

2、提升投资回报率

3、保障资金安全

4、简化管理、避免部门间冲突

5、节省人力、把握更多市场机会

四、维护单位:

1、降低现场工作量

2、减少施工过程的人为错误

3、设备一致性强,易于理解,维护轻松高效

4、简化维护人力配置

5、由被动维护转为预防性维护

相关主题
文本预览
相关文档 最新文档