京信告警定义及处理方法
- 格式:xls
- 大小:24.50 KB
- 文档页数:4
告警治理技术方案随着信息化建设的不断发展,各类业务系统被广泛应用于各行各业,数据量的快速增长和业务系统的复杂性,使得系统日常运维、异常排查和问题处理等工作变得更加繁琐和困难。
如何高效地处理告警信息,快速定位问题,成为系统运维工程师急需解决的问题。
告警治理技术是指通过对告警信息采集、过滤、分析、收敛、合并以及可视化等环节的处理,实现对各类系统的告警信息进行规范化、标准化和自动化处理,帮助运维工程师快速定位问题、诊断异常原因,进而提高系统的稳定性和可靠性。
以下是告警治理技术方案的具体内容。
1. 告警采集告警采集是指对系统各个组件、服务的错误信息、异常信息及性能指标信息进行收集,是告警治理的第一步。
告警采集主要有两种方式:单一采集和多维采集。
单一采集一般使用agent或agentless的方式进行,适用于采集单一组件的告警信息。
多维采集则是基于多个组件的告警信息,综合出全局的告警情况。
针对单一采集,目前常用的方案有Nagios、Zabbix、Open-Falcon等开源工具,也有一些商业化的解决方案,如 SolarWinds、AppDynamics、Datadog等。
而针对多维采集,ELK、Influxdb等监控平台,则是比较流行的选择。
告警过滤是指对采集到的告警信息进行过滤处理,去掉无用信息,只保留有意义的告警。
告警过滤可以采用多种方式,比如基于规则、基于白名单、基于黑名单、基于异常检测等。
在过滤时需要根据业务场景进行规则的制定,以确保过滤掉的信息对业务不会产生影响。
常用的过滤工具包括 New Relic、Loggly、Splunk等,可以根据系统实际需求选择合适的工具。
3. 告警分析告警分析是指对过滤后的告警信息进行分析处理,确定告警的来源和产生原因,为问题的排查提供依据。
常见的告警分析技术包括:故障树分析、因果分析、多维数据关联分析等。
告警分析需要根据不同的业务场景和需求,选择适合的技术进行处理。
针对京信GRRU告警以及故障判断说明:
告警分析:
近端告警分析
掉电高警说明设备电源被断开
主从链路告警近端和远端之间不同步
光收发告警近端和远端不同步,远端机掉电或光缆断
输入过功率告警近端机输入信号过强
远端告警分析
掉电高警说明设备电源被断开
主从链路告警近端和远端之间不同步
光收发告警近端和远端不同步,远端机掉电或光缆断
输出过功率告警设备输出功率超过最高门限
输出欠功率告警设备输出功率小于最底门限
驻波告警天馈系统或接头有问题
通过告警现场处理故障
掉电告警检查设备供电系统,如供电没有问题,说明设备损坏,进行返修
近端出现光收发告警或是主从链路告警首先查看远端设备是否供电正常,如设备没有电,给社备送电,查看远端同步指示灯是否常亮,如不亮,检查光路,通过用光功率测试近端发光是否正常,如近端测不到光,找线路代维检查光缆,如果都没有问题,可能为设备坏。
远端输出过功率告警因为近端功入功率过强,通过增加近、远端机衰减,来消除告警
输出欠功率告警检查远端机功放是否打开,近远端设置频点和基站频点是否一致。
KPI 及性能相关告警KPI的定义:KPI的counter:考虑与KPI及性能相关的告警,如果只关注平时正常运维的情况,不外乎两类:1. 硬件类告警,导致基站或小区退服2. 传输类告警,导致S1或X2连接中断下面讨论一些比较常见的告警类型。
1. RP3告警对于eNB 而言,只要cell不是OnAir 的状态,那么该小区均无法处理呼叫,而所有导致小区退服的告警都属于这一类,由于基站或小区退服了,所以该类告警会影响所有KPI及性能指标,区别只在市整个基站的指标还是某小区的指标。
一般而言,该类告警有两种7650 BASE STATION FAULTY和7653 CELL FAULTY这两类告警通常是硬件告警,如BBU, RRU, Antenna,以及他们之间的链路出现硬件故障,最典型的当数RP3告警,Failure in optical RP3 interface,相比较RP3告警,模块的硬件故障从比例上来说要相对少很多所谓RP3即BBU与RRU的接口。
这种告警也是最常见的告警,告警内容多为光路告警。
目前这类告警常见的fault有0010、4064和2004。
其中0010和4064严重时会导致小区退服、基站退服。
但是2004一般只是小区性能下降,不会引起小区退服。
1.1 Fault 0010:No connection to unit1.2 Fault 4064:Missing RP3-01 link伴随告警号7653、7654(其中7653会引起小区退服)问题描述RRU可以识别到,但小区不能on air。
此告警一般为硬件告警处理方法1、 Telnet到有问题的RRU。
3个RRU的地址依次为:192.168.253.196;192.168.253.212;192.168.253.220(RRU的地址可能会随着软件版本的不同而变化)。
命令为telnet 192.168.253.xxx 23232、进入RRU之后输入命令:routersh –stat查看此RRU的两条光路状态。
ML-XX16-02系列PDH数字微波通信设备系统用户手册(06/07/08/13/15/18/23GHz系列适用)文件编号:ML-XX1602-1001YH编制张孙豪审核标准化批准京信通信系统(广州)有限公司2007年12月文件历史记录-1-ML-XX16-02系列PDH数字微波通信设备系统用户手册京信通信系统(广州)有限公司2007年12月A版前言本手册描述了ML-XX16-02系列PDH数字微波通信设备系统的工程安装、操作和维护。
由于设备会不断更新,软件会不断升级,本手册中的参数、规格、尺寸及其它如有变更,恕不另行通知。
目录1安全 (1)1.1安全须知 (1)1.2警告标识 (1)2设备介绍 (2)2.1概述 (2)2.2设备特点 (2)2.3设备配置 (2)2.4技术参数一览表 (3)2.5射频收发信机(ODU) (5)2.5.1ODU外形及端口 (5)2.5.2ODU的组成与原理 (6)2.6调制解调单元(IDU) (7)2.6.1IDU外形及端口 (7)2.6.2IDU的组成与原理 (8)2.6.3IDU的接口特性 (9)2.7设备系统介绍 (10)2.7.1系统基本工作原理 (10)2.7.2系统基本功能 (10)2.7.3监控网管功能 (12)3设备安装 (13)3.1安装方式 (13)3.2安装环境要求 (13)3.2.1温度和湿度要求 (13)3.2.2电源要求 (13)3.3安装工程准备 (13)3.3.1施工技术资料 (13)3.3.2工具仪表 (13)3.4开箱检查 (14)3.5天线及ODU的安装 (15)3.5.18GH Z以下频段ODU及天线的安装 (15)3.5.213GH Z以上ODU及天线的安装 (25)3.6IDU的安装 (31)3.6.1机架上安装IDU (32)3.6.2接地线连接 (32)3.6.3中频电缆连接 (32)3.6.4电源线的连接 (34)3.6.5监控网口的连接 (35)3.6.6CIT本地调测电缆的连接 (35)3.6.7AUX辅助数据口电缆连接 (35)3.6.8业务电缆的连接 (36)3.7天线对调 (36)3.7.1通电 (36)3.7.2天线的调对 (36)3.7.3天线方位的校对 (36)3.7.4天线仰俯角的校对 (38)3.7.5天线校对需要注意的问题 (39)3.8系统开通测试 (42)4设备操作说明 (44)4.1操作方式 (44)4.2操作软件说明 (44)4.3文本终端操作说明 (44)4.3.1运行超级终端和设置通信参数 (44)4.3.2文本终端菜单层次和结构 (46)4.3.3菜单命令的操作方法 (49)4.3.4菜单说明 (50)4.3.5参数的读取和设置 (59)5设备维护及故障处理 (62)5.1日常维护保养 (62)5.2故障分析处理 (62)5.3维修注意事项 (62)6包装、标志、运输、贮存 (63)附录A 连接电缆的装配 (64)图目录图 1 系统配置图 (3)图 2 6/7/8GHz ODU的外形图 (5)图 3 13GHz以上频段ODU外形及端口示意图 (6)图4 ODU原理框图 (7)图 5 IDU外形图(BNC业务接口) (7)图 6 IDU E1调制解调单元原理方框图 (8)图7 IDU Ethernet型调制解调单元原理框图 (9)图8 本端环回测试示意图 (11)图 9 本机远端环回测试示意图 (12)图10 本机中频环回测试示意图 (12)图11 设备开箱流程图 (14)图12 8GHz以下频段ODU及天线的安装示意图 (15)图13 天线固定架示意图 (16)图 14 天线支撑架示意图 (17)图15 天线安装固定架整体示意图 (17)图 16 天线示意图 (18)图 17 天线安装图一 (18)图 18 天线安装图二 (19)图 19 天线安装图三 (19)图20 天线安装图四 (19)图21 天线安装图五 (20)图22 天线极化方式更改示意图 (20)图 23 天线安装图 (21)图24 波同变换器的安装示意图 (22)图25 ODU的安装图 (22)图 26 ODU的安装图二 (23)图 27 已经固定的ODU (23)图 28 ODU机壳接地与防雷器的安装 (24)图 29 将地线与中频电缆固定在抱杆上 (24)图 30 1+0系统室外单元安装整体示意图 (25)图 31 天线及ODU的安装示意图 (25)图 32 天线固定架示意图 (26)图33 天线示意图 (27)图 34 安装配件示意图 (27)图 35 天线安装图一 (28)图 36 天线安装图二 (28)图 37 天线安装图三 (28)图 38 天线安装图四 (29)图 39 天线安装图五 (29)图 40 天线安装图六 (29)图 41 天线极化调整示意图 (30)图 42 ODU安装图一 (30)图 43 ODU安装图二 (31)图 44 ODU安装图三 (31)图 45 IDU接地端子 (32)图 46 ODU端的中频电缆与防雷器的安装一 (33)图 47 ODU端的中频电缆与防雷器的安装二 (33)图 48 中频电缆安装示意图 (34)图 49 电源线的连接 (34)图 50 监控网口的连接 (35)图 51 CIT本地调测电缆的连接 (35)图 52 AUX辅助数据口电缆连接 (35)图53 RSSI测试电缆 (36)图 54 天线方位调整图 (37)图55 天线方位角粗调图 (37)图56 表头读数变化示意图 (37)图 57 天线方位角细调图 (38)图 58 天线仰俯角调整图 (38)图 59 天线俯仰角粗调图 (39)图 60 天线俯仰角细调图 (39)图 61 天线方向图 (40)图62 与天线方向图对应的RSSI显示图 (40)图 63 704乳白胶将中频电缆接头密封 (41)图 64 防水胶布将接头缠绕密封示意图 (41)图 65 中频电缆正确密封示意图 (41)图66 系统单向测试连接图 (42)图 67 系统双向测试连接图 (42)图68 新建超级终端连接 (44)图69 选择连接的串口 (45)图70 串口属性配置 (45)图71 超级终端属性 (46)图72 超级终端属性设置 (46)图73 CIT登陆界面 (49)图74 CIT主菜单 (50)图75 Alarm Status界面 (50)图76 Alarm Mask界面 (51)图77 Network配置界面 (52)图 78 IP Route界面 (52)图 79 IP Route界面 (53)图 80 ODU界面 (54)图 81 功率设置界面 (54)图 82 频率设置界面 (55)图 83 IDU界面 (55)图 84 Link界面 (56)图 85 ATPC触发电平设置界面 (57)图 86 Remote界面 (57)图 87 System界面 (58)图 88 Test界面 (59)图 89 只读参数界面(例子) (60)图 90 只写参数界面(例子) (60)图 91 可读写参数界面(例子) (61)图 92 可读写参数界面(例子) (61)表目录表 1 设备配置情况 (2)表2 系统设备配置表 (3)表3 环境工作条件 (3)表 4 主要技术指标 (4)表 5 ODU端口说明 (6)表 6 IDU端口说明 (8)表7 NMS1的DB9管脚定义 (9)表8 AUX辅助数据接口定义 (10)表9 温度和湿度要求 (13)表10 电源要求 (13)表11 安装工具及仪表清单 (14)表12设备开箱检查的项目及要求 (15)表13 8GHz以下频段ODU及天线的安装材料清单 (16)表14天线及ODU的安装清单 (26)表15 IDU安装配件列表 (32)表16 RSSI电压与收信电平对照表 (40)表17 CIT终端的菜单结构 (47)表 18 CIT操作的键盘定义 (49)表 19 告警说明 (51)1安全1.1安全须知在安装和操作本公司数字微波通信设备之前,任何涉及到安装、操作和维护的人员请务必仔细通读本安全须知,并认真遵守下列安全事项:京信公司并不对因违反这些规则所造成的后果负责。
目录第4章告警处理ALM_CHCSALM_E1AISALM_GFP_dLFDALM_IMA_LIFALM_IMA_LINK_LCDALM_IMA_LODSALM_IMA_RFIALM_IMA_RE_RX_UNUSABLEALM_IMA_RE_TX_UNUSABLEALM_LCDALM_MSALM_OCDALM_SUBCARD_ABNALM_UHCSAPS_IS_STOPPEDAPS_FAILAPS_INDIAPS_PARA_ERRAPS_TYPE_ERRA_LOCA_LO_J1AU_AISAU_AIS_CAU_CMMAU_LOPAU_LOP_CB1B_OVERB1_OVERB2_OVERB3_EXC_VC3B3_EXC_VC4B3_OVERB1_SDB2_SDB3_SDB3_SD_VC3B3_SD_VC4BD_BUS_COREBD_STATUSBIP_OVERBIP_SDBUS_LOCC4_R_LAISDC4_T_LAISDCC_LOCCFG_OVFLOWCFG_PARA_APPLY COMMUN_FAILCOOL_CUR_OVERCFG_DATA_DIFFER CTSDBMS_ERRORDBMS_PROTECT_MODE DCDDDN_AISDDN_ALOSDDN_LFADDN_LMFADDN_LOOP_ALMDDN_RFADDN_RMFAD_LO_J1DOWN_E1_AISDSRDTRETH_LOSEXER_FAILEXT_LOSEXT_SYNC_LOSFAN_FAILFCS_ERRFI_FAILFPGA_ABNHARD_BADHARD_ NOSUPHCSHPAD_CROSSTRHP_CROSSTRHP_D_J1_LOSHP_LOM_CHP_LOMHP_J1_LOLHP_RDIHP_REIHP_R_LOPHP_SLMHP_TIMHP_UATEVENTHP_UNEQILL_MFIILL_MFI_VC12ILL_MFI_VC3ILL_MFI_VC4ILL_SQILL_SQ_VC12ILL_SQ_VC3ILL_SQ_VC4IN_PWR_ABNIN_PWR_FAILJ0_MMK1_K2_MK2_MLASER_MOD_ERR_EX LASER_SHUTLCAS_FOPTLCAS_FOPRLCAS_PLCTLCAS_TLCTLCAS_PLCRLCAS_TLCRLFALMFALOCK_CUR_FAIL LOOP_ALMLP_AISLP_CROSSTRLP_RDILP_RDI_VC12LP_RDI_VC3LP_REILP_REI_VC12LP_REI_VC3LP_RFILP_R_FIFOLP_SIZE_ERRLP_SLMLP_SLM_VC12LP_SLM_VC3LP_TIMLP_TIM_VC12LP_TIM_VC3LP_T_FIFOLP_UATEVENTLP_UNEQLP_UNEQ_VC12LP_UNEQ_VC3LSR_NO_FITEDLSR_WILL_DIELTIMAIL_ERRMEM_ERRMP_LOOP_ALMMP_PSMSAD_CROSSTRMSP_INFO_LOSSMS_AISMS_CROSSTRMS_RDIMS_REIMS_UATEVENTN1_AISNESTATE_INSTALLNE_SF_LOSTNO_BD_PARANO_BD_SOFTOUT_PWR_ABN PASSTHROUGH_REPORT PATH_MON_FAILPDU_ALMPOWER_ALMPOWER_FAIL PROTOCOL_MMPSPWR_MAJ_ALMPWR_MIN_ALMP_AISP_LOSRECEIVE_ERRRELAY_ALARMRFARMFARP_LOCRR_LOCRS_CROSSTRRS_UATEVENTRTSR_FIFO_ER_F_RSTR_LOFR_LOSR_LOSYNCR_OOFS1_CHANGES1_SYN_CHANGESECU_ALMSTM_ERRSUBCARD_ABN SYNC_C_LOSSYN_BADTEMP_ALARM TEMP_OVERTEM_HATEM_LATFTHUNDER_ALMTP_LOCTPS_ALMTR_LOCTU_AISTU_AIS_VC12TU_AIS_VC3TU_LOPTU_LOP_VC12TU_LOP_VC3TX_E1LOCT_ALOST_FIFO_ET_LOCT_LOST_LOTCT_TDMUP_E1_AISVC_AISVC_DELAY_TLVC_RDIVCG_MM_EX VCXO_LOCVER_MISMATCH VP_AISVP_RDIVPG_MM_EX WORK_CUR_OVER WRG_BD_TYPEW_R_FAIL第4章告警处理在OptiX 2500+(Metro3000)设备维护工作中,会遇到很多告警,对告警的有效分析,是解决问题的关键。
3、系统故障和告警处理3.1、典型硬件故障处理3.1.1、CPS硬件故障处理当CP出现硬件故障导致CP FAULT告警出现时,我们首先察看CP的状态,若状态为<DPWSP;CP STATEMAU SB SBSTATENRM B WO为正常状态,则留到晚上低话务量时处理;其余均为不正常状态,必须马上根据OPI:CP FAULT的ACTIONS进行处理:<REPCI;诊断。
同时出现O1告警:SYSTEM STATE REPAIR OF CP OR MAU。
诊断结果有两种情况:1.无怀疑板块列出。
<RECCI;检修,将告警消掉。
2.有怀疑板块列出。
a.错误类型为Permanent(永久性)。
我们根据提示选择最怀疑板块,准备更换。
<REMCI:MAG= ,PCB= ;此刻系统将所需换的板子隔离出来,我们根据提示,按顺序关电,换板,再开电。
<RECCI;检修。
成功,则CP FAULT告警消失,O1告警消失,CP状态恢复正常。
若不成功,则CP FAULT告警仍在,O1告警仍在。
此时最好再次进行诊断。
注意,在再次诊断之前,只要有O1告警在,就须先将上次诊断进程结束:<REPCE;O1告警消失。
<REPCI;再次诊断。
<REMCI:MAG= ,PCB= ;选择最怀疑板块关电换板。
<RECCI;检修。
成功,OK。
不成功,则重复上述四步。
b.错误类型为Temporary(临时性)。
若所有的最怀疑板块在最近30天内都换过,则用:<DIRCP;<DIRRP;收好报告,留待爱立信专家分析。
<REPCE;将诊断进程结束。
若尚有板块可以更换,则参照错误类型为Permanent进行。
3.1.2、RPS硬件故障处理当RP FAULT告警出现时,如闭解RP无效,则根据流程得出要更换的硬件,进行替换。
若无告警,而又想直接换板,则需用SARPI使RP BUS不再交替,再将RP闭掉替换,结束后用SARPE使RP BUS恢复交替控制。
各类故障原因分析各类故障告警归类:1)设备、板卡故障:2M头子故障、控制面板、GPS暂时不能锁星,20DB耦合器坏、4G,熔丝烧了2)停电引起:设备供电恢复、空开跳闸、该点业主电力检修引起,现来电后恢复。
学校放假,POP已改停用3)环境原因:微波故障,天气恶劣引起4)不明原因、误告警:闪断告警、瞬断告警、嘉兴信产产生的告警(假告警)、接口无业务、用户频繁注册引起、轮巡后恢复、直放站版本过低。
5)隐性故障重启后恢复:网优重启设备引起、平台刷新后恢复、重新插拔监控卡、拉起后恢复、传输重新倒换电路后恢复正常。
6)工程原因、割接设备:下挂RRU退服引起,现已恢复。
施工队施工引起、电力改造断电、设备拆除、扇区不在使用、电力施工引起停电、离线测试、与联通共站,准备搬迁,POP停用, 设备测试7)室内分布故障:低噪过高引起设备离线8)升级、割接其他工程原因:设备例测引起、TM设备下电退网引起、省公司已删除HSTP到杭州TSH1的信令路由,因此有告警、已不用9)本地光缆的设备、板卡故障:更换整流模块,更换尾纤。
10)接头接触不良:头子松动、2M虚焊、7/8馈线头子故障引起11)2M出租,传输线路故障:2M线断了、传输故障12)13)光缆故障:光缆改道14)光功率异常:光路衰耗告警已恢复正常、经过光路部门处理后到设备尾纤处衰耗为-11db,设备已恢复正常。
15)站点还未开通、工程调测中:站未投点、此站为闭站状态、扇区人工闭塞状态,网优在调整。
16)固网软交换:系统负荷高、系统性能告警故障:话务量承载过高,性能QoS轻微告警,信令负荷性能门限阀值告警,不影响业务,无需处理。
18 系统数据出错:同步当前告警恢复、数据表CRC校验错误,重新校验后正常。
19) 天线问题:GPS蘑菇头松动20)市政、业主:21)(交换)非本端故障:用户关设备引起、参数配置错误引起,对端设备故障。
一、SCTP偶联重传超过阈值——承载网导致的瞬间重传比例增大。