华为故障处理案例
- 格式:ppt
- 大小:4.00 MB
- 文档页数:72
华为OLT故障处理经典案例分析作者:严娟来源:《硅谷》2012年第24期摘要:在OLT日常维护工作中,用户系统的故障所占比重最高,引起用户系统的故障原因有很多,现象也不尽相同。
本文通过案例详细介绍了OLT的故障原因和处理流程。
关键词:华为OLT、故障处理、忙音2012年9月,武广OLT下挂的ONU广州北站发生了一次故障,此故障的处理过程几乎囊括了OLT故障处理的所有手段,是OLT故障处理的一个典型案例。
现象描述:广州北站ONU第一条电路PCM告警,本室做2M环回,OLT侧正常。
打直2M后,告警消失。
第二天,又发生相同告警,检查发现2M头虚焊,重做2M头告警消失。
PCM告警消失后,工区反映所有电话呼入呼出都忙音。
对于OLT单个用户故障,一般从三个方面入手:1、外线故障。
在机房MDF架甩开外线,插上话机听是否正常,如正常便是外线原因。
2、硬件故障。
ASL板故障、PV4板故障、PWX板故障、时钟问题以及用户话机故障。
因为是单个用户出现问题,所以一般不可能是整块板及时钟问题,大都是ASL板上相应的端口问题或话机问题。
3、数据设置错误。
用户数据由交换机侧设置,检查用户数据即可。
大面积用户故障,主要有三种:1、网管维护系统中,半框或整框单板呈现为红色故障态。
故障原因包括:数据设置错误,传输问题,PV4板硬件故障。
2、半框或整框用户板故障,但PV4板正常。
故障原因包括: 2M收发接反,或把到其它框的2M接到了故障框。
3、忙音现象。
故障原因有四种:(1)用户过多,话路不够分配。
一个ONU两条2M,可以满足60个用户同时提机通话,按照收敛比1:4,可以安装240个用户。
超过240个用户,可能会有忙音现象出现。
这个问题通过扩容便可以解决。
(2)2M链路硬件故障。
由于2M链路连接不好,引起2M链路物理层的故障。
观察网管是否有线路告警,通过逐段环回等操作定位。
(3)2M链路正常,但是呼叫时隙分配到该链路时不能通话。
可能是由于2M链路连接交叉错位引起(俗称鸳鸯线),通过维护台发起链路身份标识,便可验证是否鸳鸯线。
华为设备隐性故障处理方法一、简述:在日常网优中经常碰到一些无显性告警,但又用户投诉或是小区性能指标较差现象,在华为设备维护中有个较好的工具可以协助我们进行定位---载波级测量(信道占有测量、测量报告上下行平衡测量、其他测量中的干扰带测量、测量报告接收质量分布测量、测量报告无线链路异常测量、TA 等),由于都是载波级的测量,我们可以根据在M2000中根据各个测量中提取需求的指标定制成一个模板,作为隐性故障排查如下表:(最好将干扰带测量也定制进去,由于窗口限制没将干扰带附加到上面)二、问题分析定位:通过常规小区性能监控表,查找小区性能较差的小区或是用户投诉现象结合上表进行隐性故障分析定位,进行分析定位:1)、小区是否存在干扰:个别载波干扰还是整体干扰继而进行干扰定位2)、其他小区性能指标可以根据上表对应进行如下分析定位:载波问题:是否个别载波指标特别差影响整个小区性能指标1>、干扰定位2>、配置数据是否错误检查3>、闭载波观察,更换载波DDPU/DFCU问题:是否指标较差的载波都集中在某个DDPU/DFCU整体性能问题:1>、干扰定位(外部、内部)2>、小区重LOAD(开关跳频等)3>、是否带外设(直放站、干放、延伸系统等)2>、天馈系统是否有问题三、案例简析:1、数据配置错误导致TRX出现下行弱信号现象1)、现象描述:日常DT测试时发现占用26号频点时信号极弱,信号强度只有-104,占用该频点时起呼失败:2、问题分析:分析该小区话务统计指标,基本无明显异常现象,进而取该小区的载波测量,上下行平衡测量,发现该小区有个载波号611存在明显上下行不平衡现象:3)、问题处理:出现上下严重不平衡,主要从以下几个方面入手检查:1)、检查数据配置;2)、从硬件故障方面入手,主要是从载频到天馈主意排查,顺序如下:(1)载频;(2)DD PU/DFCU合路器;(3)天馈系统;(4)该小区是否外接室内分布系统,直放站等。
华为波分设备OSN6800多波丢失故障故障现象:华为6800城域波分系统(图1)#241-佛山综合楼出现多个波道丢失故障,告警信息如下:网元:华为OSN6800 #243-佛山综合楼,华为OSN6800 #245-第二机楼软件版本:5.51.03.25#243-佛山综合楼0子架8槽位的MCA8单板9月28日凌晨1点板左右上报CHAN_ADD告警,同时部分OTU单板上报TEM_HA、TEM_LA告警,随后自动消除。
中午11点左右,#243-佛山综合楼3子架5槽位的WMU单板上报WAVELEN_OVER 告警,共涉及8个波道,第12、24、28、34、36、42、80;该方向的下游站点#245-第二机楼MCA8单板相应波道上报CHAN_LOS告警。
图1原因分析:流程图:分析判断可能原因:1、上游站点传递下来的波道频偏。
2、本端OTU单板发光频偏。
3、WMU板故障或网管逻辑连纤错误,导致WMU板误调波道频率。
原因排查:1、上游站点传递下来的波道有频偏。
从告警判断,上报相关告警的波道波长发生了变化。
#243-佛山综合楼的上游站点为#242-顺德全球通,通过在#243-佛山综合楼0子架8槽位的MCA8单板查询收#242-顺德全球通的光谱,发现光谱完整,上文所述的8个波道都正常,因此不是上游站点传递下来的波道频偏导致的故障。
2、本端OTU单板发光出现严重频偏。
观察故障的8个波道,在#243-佛山综合楼都有OTU板收发,因此极有可能是本站OTU单板发光频偏导致。
通过在#243-佛山综合楼0子架8槽位的MCA8单板查询发#242-顺德全球通的光谱,发现已经检查不到相关波道;对产生告警的波道进行分析,#241-佛山综合楼本身没有上报CHAN_LOS告警;而#243-佛山综合楼3子架5槽位的WMU 单板上报WAVELEN_OVER告警。
通过现场挂接光谱分析仪,发现上告警的八个波长的OTU单板都出现了严重频偏,最终导致MCA8板看不到相关波道。
1 业务中断的处理1.1 更换光板类型错误导致对端收光不正常【系统概述】某传输组网如图1所示,4个OptiX 2500+设备组成双向复用段保护环;1号站为业务中心点,连接网管。
其中,3号站和2号站之间距离较长,使用了BPA光放板。
图1 系统组网图【故障现象】某日机房维护人员发现2号站接收3号站方向的S16有R-LOS告警,全网正常倒换,业务未受影响,用网管查询2号站的告警,PA有IP-FAIL(无输入光)告警,3号站的BA有IP-FAIL告警。
【故障分析及排除】BPA板光口1对应的是BA(功放,将S16的输出光信号放大14或17dBm);光口2为PA(前放,当输入光功率在-22dBm ~-32dBm 之间时,光口OUT2输出光功率变化范围在-7dBm~-21dBm)。
光信号经过BPA的尾纤连接及信号流向如图2所示:图2 BPA光信号流向(1) 根据光信号经过BPA的信号流可以看出,由于3号站光放板的BA未收到光信号,导致了2号站的PA、S16报收无光。
可以判断故障点在3号站;(2) 维护人员带S16、BPA、尾纤、光功率计到3号站;(3) 在3号站测试S16板的输出光功率值,光功率计显示无光信号。
可以判断是S16板故障;(4) 将带的S16板插上,测试S16输出光功率为0dBm,恢复尾纤连接;(5) BA板告警消失,但S16仍有红灯一闪告警,查询为MS-RDI;(6) 查询2号站S16,仍有R-LOS告警;(7) 在3号站,将换上去的S16板发光功率衰减到-15dBm做自环,告警消失。
判断新换上去的S16并没有损坏;(8) 为什么仍有告警呢?分析原因是3号站的S16板使用有错,SS62S1605与SS62S1604波长是一样的,而色散受限距离不同,可能是色散过大导致对端收光不正常。
(9) 查看3号站原来使用的S16的光板类型,为SS62S1605;刚换上去的S16类型为SS62S1604;(10) 更换同类型的S16,故障消除。
华为典型故障处理1 告警介绍:1.1告警分类:由于上报告警的网元不同,为告警规划的ID也不同,具体可分为:BSC控制器告警:20***~22***3900基站告警:25***、26***、28***自定义告警:65033~65040(门禁、烟感、水浸、交流断电、稳压器防盗等)从告警需要关注的程度不同可以分为故障、事件、工程告警:故障告警又分为:紧急告警、重要告警、次要告警、提示告警告警与事件的区别:事件是指被管对象发生的任何情况的通称。
例如对象的增加、删除、修改、状态改变等。
考虑到和原有系统的兼容,故障子系统中的事件专指:系统正常运行状态下产生且需要提示用户的通知。
工程告警:对设备在特定状态下上报的告警进行特殊处理,以达到降低告警数量、减轻维护人员工作量的目的。
设置方法:M2000菜单栏依次点击:“监控”、“告警设置”、“工程告警过滤”、“设置”从网管分类不同可以分为:电源系统、硬件系统、环境系统、通信系统、运行系统、业务质量、信令系统、中继系统2 告警查看方法2.1 查看当前未恢复告警未恢复告警就是设备当前存在的告警,需要重点关注和处理,监控未恢复告警是发现故障最直接最快速的手段。
2.1.1M2000操作方法(OMC级别)1、点击菜单栏监控/浏览告警列表2、在出现的过滤菜单栏中将状态为已清除的选项去掉,点击右下角的确认,就会弹出当前未恢复告警的列表。
2.1.2WEBLMT 操作方法(BSC 级别)在WEBLMT 界面依次点击“告警”、“浏览活动告警”、“故障”即可查询当前BSC 以及下挂基站的所有活动告警。
2.2 查询告警日志(历史告警)的方法查看告警日志是故障定位的常用方法,操作与查看未恢复告警类似,M2000对历史告警进行了优化,对同一网元同一告警多次上报进行了归一化处理,在告警信息中多了频次首次发生时间、最近发生时间等字段,如果需要逐条列出历史告警,请到WEBLMT 中进行查询。
2.2.1 M2000操作方法(3 a E H 浏览告警列表回 ilanager12000移动网元管理系^(10.228.192.10)-[主拓扑]监控①维护勉拓扑◎性能(E )安全㈢配置©软件®报表®窗口迴)帮助®系统㈤ 昭卩區册I 邂理A 蟲工作¥查询爭件日志㈢ 当前观團 性能监控日监控國值管理(H )…I 室内分布万冰蒔谷II.--2bJ■11JU :-1■:IaJ^::查询告警日志Q2.2.2WEBLMT操作方法在WEBLMT页面点击告警/查询告警日志,就可以进入到查询历史告警的界面:1、可以对查询的告警类型、告警时间、告警级别等进行设置;2、可以通过基站过滤进行单站点告警过滤;3、返回数目最大可以设置为4000,请修改为4000,防止出现因告警条数超过设置值导致部分告警无法显示的问题;3 性能结果统计统计的三要素:测量对象、指标名称、测量周期测量对象:指测量的网元实体,比如BSC、基站、小区、载频等;指标名称:测量统计的具体名称,比如:“DPUCPU占用率平均值”测量周期:BSC6900目前支持:5分钟、15分钟、60分钟、24小时测量3.1 性能结果统计开启方法BSC6900默认全指标登记,并上传至M2000数据库,但是M2000并不对没有开启的指标进行解析,如果要查询某些指标的结果,进行就必须先在策略设置中开启,具体操作如下:1、点击菜单栏性能/测量管理/测量设置國值管理⑤ 自定艮指标管理側 性能对象集管理回2、弹出的菜单中选择网元、功能级、功能子集、测量周期、测量对象后,单击右下角的“应用”,测量任务就开启了,M2000会对网元下一周期上传的统计结果进行解析,到时就可以查询到对应的统计结果。
BTS故障案例分析案例1:TRX单板反复加载1.现象描述某地基站进行预调,先后有3个基站出现上电后TRX单板反复加载现象,现象具体表现:∙基站上电后TMU板启动、运行正常,全部TRX单板由初始状态(4个灯全亮)进入数据加载阶段(RCP/RDP灯0.25秒闪)∙接着TRX单板进入启动阶段(RCP/RDP灯快闪,FAIL灯间断闪)∙然后又回到初始状态,如此循环。
∙操作维护终端可看到TRX单板软件加载进度指示条反复出现,TRX无法正常工作。
2.告警信息:∙TRX主时钟告警∙TRX单板通信告警∙TRX时钟严重告警∙TRX处理器运行告警3.处理方法:(1)检查基站背面数据总线连线:∙从TMU的背板CMB板与数据总线连接插座处查起,直到TRX的背板TRB板与数据总线连接插座处∙接下来检查TRB板上的trx-ID拨码开关设置正常并且没有虚焊∙无数据及控制方面的告警,数据加载正常,可排除数据总线硬件方面的原因。
(2)检查基站时钟系统:∙检查时钟源,基站近端维护查看TMU板状态,重点看时钟模式:♦正常情况下,鉴相器读数与晶振DA值都应为1500左右♦无特殊情况下:设定工作模式和当前工作模式都为外时钟♦有条件测量TMU板的T13M输出的频率是否在正常范围内?∙检查背面时钟总线连线:♦检查TMU的背板CMB板与时钟总线连接插座及与TDU的连接♦检查TDU板工作状态:若TDU板上的绿色和红色指示灯同时亮,至少说明TDU加电正常♦查看TDU的拨码开关♦检查TDU板至各载频之间的时钟总线♦检查机柜时钟总线两端的时钟总线匹配头。
4.三基站处理过程:∙基站1:♦查看TMU单板信息:♣鉴相器读数:0♣晶振DA值:2048♣时钟模式:内时钟。
♦重新设置时钟工作模式:♣时钟模式:外时钟♣晶振DA值:1500♣鉴相器读数始终为0♦复位TMU♣故障不变♦判断TMU板时钟锁相环出了问题♣更换TMU板,故障排除∙基站2:♦判断TMU板无问题♦机柜顶部的时钟分配板TDU板上的两个指示灯都不亮♣ TDU板电源线插头松动♣重新连接后,故障排除。
华为时钟参考源异常处理案例
一、ALM–4708 时钟参考源异常告警解释
当基站时钟无法锁定上级时钟时,上报该告警。
告警属性
告警参数
对系统的影响
告警发生时,基站时钟与其他基站时钟之间可能出现偏差,导致手机在切换、选网和重选时可能出现异常。
系统自处理过程
系统对此告警不做任何处理。
可能原因
时钟模块故障;
传输线路时钟异常;
上级时钟源异常。
处理步骤
1.根据告警定位信息,查看其他相关告警。
说明:
该告警恢复时间视传输情况需40分钟到3小时不等。
a.执行MML命令:LST ALMAF,ALM-4714 E1/T1本地告警或ALM-4716 E1/T1远端
告警。
Y=>同时上报此告警,转b;
N=>未上报此告警,转2。
b.参照ALM-4714 E1/T1本地告警或ALM-4716 E1/T1远端告警处理告警,观察告
警是否恢复。
Y=>告警已恢复,告警处理结束;
N=>告警未恢复,转2。
2.检查基站传输线路时钟。
a.。
b.排除基站到BSC的传输线路问题后,检查告警是否恢复。
Y=>告警已恢复,告警处理结束;
N=>告警未恢复,转b;
c.用频率计测试基站传输线路时钟的频偏,观察频偏是否大于2Hz。
Y=>频偏不小于2Hz,说明传输时钟异常,转c;
N=>频偏小于2Hz,说明传输时钟正常,转4。
d.进行基站到BSC的传输检查,用误码仪进行测试有无误码现象。