APG典型故障处理小结
- 格式:doc
- 大小:52.00 KB
- 文档页数:7
APG紧急恢复1、概述当遇到APG紧急故障时,也许因为未能找到适合的文档或者OPI,或者因为OPI 过于繁琐而影响了处理故障的效率。
以下文档主要根据一些常见的OPI资料和一些处理经验总结而成,用以处理一些简单的APG紧急故障。
根据当前GMCC的网络结构,本文主要覆盖了基于APG40C/2硬件的Windows NT系统的R10APG2、发生在AP1上的紧急故障以下故障基于Windows NT系统能够正常被引导启动的故障。
2.1、AP1 UndefinedAP Undefined 故障表现为:<prcstateUndefined这表明Cluster Server未被或着正在被启动。
首先我们需知道系统重启对于修故AP 系统上的错误是很有帮助的,它能修复系统盘Windows NT上的许多问题(数据盘上的问题除外,处理数据盘问题时需特别小心),所以必要时要多重启 :P查找以确定Cluster Server是否已经启动,使用指令:net start |find "Cluster Server"C:\>net start |find "Cluster Server"Cluster Server如果找到Cluster Server,表明Cluster Server正在或已被启动。
如果Cluster Server未被启动,可手工启动Cluster ServerManual Starting of Cluster--------------------------net start clussvcnet start ACS_FCH_Server等待一到两分钟,Cluster Server应该能被启动。
但启动Cluster Server时,您有可能经常得到的FaultCode 有:1722 The RPC server is unavailable1717 The interface is unknown70 The remote server has been paused or is in the process of beingstarted1069 The service did not start due to a logon failure.2813717FC 70和1717表明Cluster Server 正在启动,但未完全起来,这是可能Cluster Server启动前的中间状态,请耐心等待几分钟如果长时间得到类似FC70 的错误,可尝试双边AP node同时重启动的方法,正常的话,AP nodeB会先完成重启,并成为Active nodeFC1069表明AP应用所使用的系统帐号失效了,对于这种情况:一般可使用指令:SetupservicesNet start Clussvc如果依旧有Fault Code 1069在NodeA使用,nbtstat -RR ## on PDC to reset WINS cache 在NodeB使用,netdom BDC /RESET ## on BDC only然后在要起Cluster Server的node上执行Setupservices –rNet start ClussvcCluster Server 有可能因为系统Quorum Log的损坏而无法启动,即使使用前面提到的方法,此时AP两边node都是undefined的,在这种情况下,我们能够采用以下方法处理问题:首先在MKTR的Eventlog中,你能找到以下Event:Event 1019 :the quorum logfile for the cluster was found to be corruptEvent 1069 :resource "Disks J: K:" failed这时你可确认Cluster Server问题是由Quorum Log引起了。
AP NODE DUMP掉的故障处理一、故障描述1.网管出现以下告警:其中一个NODE down掉的告警: ap not redumdant ap apname node nodename 1 dgg13b1ap1c a dgg13b1ap1a node not available dgg13b1ap1b cause date time node is down 20050202 210457 对故障NODE 无法ping通。
2.在机房现场使用显示器连上APG,发现故障NODE提示operating system not found 使用Ctrl + Alt +Del重启后故障二、故障原因APG系统实际已经类似PC,在长期使用的过程中,由于系统硬盘的电气特性,出现了吊死的情况(询问爱立信,有可能为磁头吊死);使用软启动是无法解决该故障,必须进行断电重启。
一般来说,断电重启后可以恢复正常;在恢复正常后,对该局需要做进一步观察,如果发现该交换局频繁出现该故障,则可断定该NODE存在硬件问题,需要更换APG-NODE。
三、故障处理步骤断电重启步骤:1、在正常NODE,AP模式下,键入:fcc_save_to_remove other出现提示,键入y进行确认指令说明:该指令命令CLUSTER停止对另外一个NODE的控制。
必须要键入该指令才能对另外一个NODE进行断电,否则会造成CLUSTER 和RAID的损坏。
在指令完成后,另外的一个NODE工作灯熄灭,同时MIA灯闪烁。
2、对故障NODE断电(拔出-48V电源线),等待2分钟后,插好电源线。
故障NODE 在通电后开始自行启动。
3、待故障NODE重启后,在正常的NODE键入:fcc_integrate other出现提示,键入y进行确认指令说明:带动另外NODE投入工作。
4、一般情况下,故障NODE恢复正常。
检查进程状态cluster res所有进程工作正常,此时可以消除reboot和General fault 的告警,此时应残留mirror disks not redundant 的告警。
APG故障处理经验积累APG故障处理经验积累:APG 进程重启故障表现:WINNT状态正常,可以正常TELNET;但是有告警中有“NODE DOWN”,TELNET 上该NODE,敲入PRCSTATE,提示THE NODE UNDEFIND。
首先,检查进程运行情况net start一般这种表现,多为CLUSTER MASTER没有正常启动。
在确认没有发现CLUSTER MASTER没有正常工作后启动该进程:net start “Cluster Master”(R9)net start “Cluster Server” (R10)重启APG步骤:一、先看一下A/B NODE的RAID状态(指令raidutil -L all),ACTIVE边所有的都是optima状态,PASSIVE边都是drive failed状态。
二、再看一下A/B NODE的RESOURCE状态是否都为ONLINE(指令cluster res)三、在B-NODE边敲指令prcboot,将active状态倒换为passive。
可能需要好几分钟。
四、重复第二步,所有RESOURCE都为ONLINE,且A-NODE为ACTIVE,B-NODE为PASSIVE,则成功。
否则继续进行以下步骤。
五、在A-NODE重复第三步操作。
六、重复第二步,所有RESOURCE都为ONLINE,且B-NODE为ACTIVE,A-NODE为PASSIVE。
七、在A/B NODE分别敲指令mktryymmdd-hhmm为防止文件损坏,在unix提取文件的使用,请首先使用bin 这条指令!检查APG与CP 的联系是否正常OCINP:IPN=all; (cp command)定义外部告警查看定义:exalls -l exalls定义数据:exaldef -s "MAINS FAILURE" -c 0 -C 8 -o no -S Power exal-1-4修改数据:exalch -s "MAINS FAILURE" -c 0 -C 15 -o no exal-1-4解开设备:exaldeblk -b exal-1-4 -e exal-1-8 (如果闭使用exalblk)3、APG网元备份后,SYTUC出Fault Code:54Fault Code 54 表示:Not permitted. File in exclusive use.(Name rotation is not initiated.)故障定位为APG执行边吊死,在确定了备用边工作正常后,对APG执行边做重启后,故障排除。
06年变送器、流量显示类烧结车间故障现象:2006年,监控画面无流量显示故障排查:一混水流量调节电动执行器跳电,电磁流量计也失电,后将电源送上,主机不工作,显示屏无流量,电脑上也无流量显示。
因主机不工作,怀疑为电源供电问题及保险丝。
查电流供电正常,220V,查看主机保险丝,正常。
后将二混电磁流量计主机与一混主机对换,显示流量正常,判断流量计探头完好。
故判断此次故障应是电磁流量计内部损坏引起的。
总结:多学习仪器仪表知识,做好仪器仪表的保养工作。
经常检查仪器仪表的供电状况,防止断电引起的仪器仪表的损坏。
5#烧结煤气总管压力无显示故障故障现象:2006年,4月9号早上6点多,5#烧结煤气总管压力在上位机上显示为零,此时煤气快速切断阀关闭。
故障排查:首先检查煤气总管压力变送器的24V电源,发现没有4~20mA信号输出,然后检查煤气总管压力的配电隔离器,发现隔离器上有24V电源,这说明隔离器没有提供24V电源给压力变送器,后更换配电隔离器后就恢复正常,故障排除。
总结:加强检修力度,排除隐患,把故障减小到最低,保证设备正常运行。
6#烧结B线煤气流量跑最大故障现象:2006年,6#烧结B线煤气流量一直跑最大。
故障排查:一开始怀疑是差压变送器的问题,所以用FLUKE压力校准器再次校准,但是所显示的压力值和电流值很吻合,就断定差压变送器不存在问题;后又检查孔板的正负是否安装反,经检查,也没有问题;最后怀疑负管堵塞或是程序上有错误,在排除程序错误这个可能性后检查出负管内有大量的积水,将该管内的积水排出后有气体排出,现在煤气流量显示准确。
总结:差压变送器负管堵塞是常见的问题,很多情况都是负管内有大量的积水,所以要定期排污,保证管道通畅。
6#烧结一混进水电磁流量计画面显示断路故障现象:2006年,6#烧结一混进水电磁流量计画面显示断路,没有显示。
故障排查:一开始估计是电磁流量计的接线有松动或未接,但是现场检查后发现接线正常;后用万用表测量电源,为AC220V,也正常,量信号输出为40多毫安,用电压档量有DC24V的电源,到配电室检查,发现经过220V电源再连接到PLC,正确接法是直接连接到PLC。
分子筛纯化系统常见故障分析与处理2009-12-03酒泉钢铁(集团)有限公司(以下简称:酒钢)于2003年秋季开始筹建3套21000m3/h空分设备,现结合设备调试中分子筛纯化系统出现的几次故障,以及国内同行在日常工作和设备调试、安装中出现的同类故障,对分子筛纯化系统常见故障及其处理经验作一总结,供参考。
1 21000m3/h空分设备分子筛纯化系统简介酒钢21000m0/11空分设备分子筛纯化系统设计处理空气量150000m3/h,空气进口温度17℃,出口温度24℃,分子筛再生温度170℃,切换周期为4小时。
分子筛吸附器采用活性氧化铝和分子筛双层床结构,延长了分子筛的使用寿命,同时使床层阻力减少。
内装13X-APG条形分子筛22t,活性氧化铝11t。
每套空分设备配有630kW功率的电加热器3台,2用1备。
酒钢21000m3/h空分设备分子筛纯化系统流程如图1所示。
2分子筛纯化系统常见故障分析和处理2.1 操作不当使分子筛纯化系统发生故障2005年冬季,按照酒钢计划,1#21000m3/h空分设备配合生产主线进行停机检修。
空分设备停机后,进行疏通氧压机冷却器的工作。
其间,发现空压机放空阀法兰处大量渗水。
技术人员当时就意识到可能是空冷塔返水。
后来经过仔细检查,发现常温水泵的进出口阀门没有关严,系统冷却水通过水泵进入空冷塔,水位逐渐上升,进入空气管道后经放空阀法兰处渗出。
随后立即打开分子筛吸附器进口处排水阀V1262进行检查,没有水流出。
证明水没有进入分子筛纯化系统。
如果有水进入分子筛纯化系统,则必须进行处理后才能继续工作。
后来在空分设备正常运行时,两个分子筛吸附器的冷吹峰值分别为115℃和118℃,说明分子筛纯化系统运行正常。
酒钢空分设备曾发生过因操作不当导致水分进入分子筛纯化系统的故障。
3#6000m3/h空分设备临时停车,操作工关闭空冷塔进出口阀门后发现排水阀V1262处流出大量水。
检查发现,由于空冷塔回水阀V1164没有完全关闭,加之止回阀V1165存在故障,导致有压回水经回水管道进入空冷塔,最后水位上升,导致水进入分子筛纯化系统。
全国爱⽴信GSM设备典型案例分析与维护经验汇总全国爱⽴信GSM设备典型案例分析与维护经验汇总⼀、交换⽹ (2)1.1 APG40容量过⼩的处理 (2)1.2 关于告警板问题经常需插拨ALCPU板问题报告 (5)1.3 APG40计费冗余实现⽅案 (12)1.4 各种Forlopp吊死 (12)1.5 ⼿机激活CLIR(主叫隐藏)功能导致主叫失败的说明 (13)1.6 APG40历史告警 (13)1.7 Infinite⽂件虚假告警 (14)1.8 功能块ALA产⽣⼤量FORLOPP的调查研究 (14)1.9 APG系统告警较多、帐号管理不⽅便问题 (18)1.10 AP node故障和SCSI RAID磁盘故障 (19)1.11 省际彩铃呼叫提⽰号码不完整或⽆法听彩铃问题 (20)1.12关于串话、单通问题的专题分析 (21)1.13漏话故障处理 (25)1.14外省拨叫⼴东彩铃⽤户听到“未能接通”的通知⾳ (28)1.15例⾏⼩启引起CP FAULT原因分析 (29)1.16爱⽴信端局G17覆盖下的⼤量⽤户出现被叫不通分析 (35)1.17爱⽴信⽹元TCP/IP连接中断故障分析 (37)1.18关于⽤户取消来电显⽰后⽆法正常做被叫的案例分析 (39)1.19爱⽴信HLR21 CP内存故障处理经验 (41)1.20交换机A接⼝信令中断处理 (46)1.21移动客户话单中位置⼩区号和交换机代码不符合问题分析 (49)1.22爱⽴信端局短信延迟的处理 (55)1.23市话拨打移动⼿机回声有严重回声问题解决 (57)1.24SYMSC12神州⾏⽤户查询亲情号码时播报次序号混乱 (60)1.25爱⽴信交换机软件故障处理报告 (68)⼆、⽆线⽹ (70)2.1 CZBS6&7 时隙闭塞问题 (70)2.1 爱⽴信设备串短信问题分析 (71)⼀、交换⽹1.1 APG40容量过⼩的处理●来源:江苏●问题描述:C盘的空间配置太⼩,经常出现磁盘空间不够的告警;K:L:设计空间过⼩,有时也会出现关于容量太⼩的告警。
关于爱立信APG网元统计无法正常生成的隐患分析背景增强网络的服务质量,提高客户感知,是我们一直努力的方向。
而提高网络质量,首先必须要采集及分析网元的统计数据,准确的数据统计是网维和网优部门掌握交换机运行状况、网络质量评估和网络资源优化配置的前提。
本案以爱立信APG网元统计系统组成及其工作原理为基础,分析当前关于爱立信统计常见故障,并给出解决方法。
问题(任务)描述在日产维护工作中,时常会发生:(1)网优无法取到MRR、RIR等统计文件;(2)话务四期的统计数据不全或者无法取到统计数据;(3)打印15分钟的话务,STMFO -i -z SCREEN -b 201204111030 -s 201204111045 CELTCHF -p 15提示stmmp:error connecting to server(4)打印MP信息,STMMP -L -l提示stmmp:error connecting to server下面将从Recording和STS系统组成及工作原理出发,分析这些故障原因,给出解决方法。
分析与对策爱立信APG存在两种类型的统计,Recording类型和STS类型统计。
一、Recording类型Recording类型统计使用的是CP文件系统。
在BSC或者MSC中配置统计,结果保存在APG的L:\FMS\data\CPF\EXCHVOLUME目录对应文件夹。
在BSC中Recording类型统计文件一共有七类:BA-List Recording (BAR)Channel Event Recording (CER)Measurement Result Recording (MRR)Radio Interference Recording (RIR)Cell Traffic Recording (CTR)BTS configuration data collection (BCDC)Mobile Traffic Recording (MTR)(在BSC中生成统计文件,但需在MSC中配置统计)每一类型文件都对应着10到64个记录文件,如MRRFIL00,MRRFIL08及MTRFIL63。
APG40常见问题分析处理1. 概述最近全省的APG40都已经打完AGM018的补丁,相比以前APG40稳定性了很多,但是也有着一些相对共性的故障。
应山东移动省公司要求,从操作维护的角度分析一下这一些故障问题,总结一下解决的方法。
以提高大家APG40的操作维护水平。
这一段时间以来APG40最为常出的故障主要有两种,Raid硬盘的故障和Active Directory(活动目录)同步异常。
下面分别对这两个问题就故障现象和处理过程中所需要注意的问题进行一些分析。
2. Raid硬盘故障Raid是标准化的工业标准,并不是爱立信开发的标准。
APG40在硬件上分为C2和C4两种,这两种硬件的Raid机制不同,所以在故障分析和处理上也完全不同。
下面就这两种硬件分别来进行一下分析。
2.1.A PG40C/2APG40C/2一共有6块硬盘,每一边各有三块,每边一块组成一对作为一加一的冗余备份。
主用边来同时控制两边的硬盘,读写都是同步进行。
APG40C/2的node是DPT manager来控制raid硬盘的,查看的以及操作的命令都是以raidutil 开头。
下面就分别的讲述和分析一下这些命令。
➢raidutil –K该命令是用来查看raid的firmware版本以及是否支持cluster 。
在AGM018版本以后firmware的版本都应该是FT0A的,而且Cluster Support都应该是Enabled的。
➢raidutil –L physical该命令是用来查看raid物理盘状态,查看的命令以主用边为准。
Raidutil –L physical能看到物理上的6块硬盘,每一边各三块。
正常工作的情况下状态都应该是Optimal的,硬盘出现故障的时候状态可能变成failed、missing或着不够6块硬盘,刚刚更换完硬件进行重建raid的时候状态为Replaced Drive。
命令显示的前三块(也就是d0b0开头的)为所下命令测,后三块(也就是d0b1开头的)为另一边。
故障及其应对措施小结不同设备常见故障及其应对措施1、喷淋塔1.1常见故障及其产生原因1.1.1喷淋液量不足提升泵在使用过程中会磨损,不仅造成供液量不足,还会造成机组噪声及振动。
1.1.2填料堵塞废气处理过程中填料容易受到气体中体积较大的杂物堵塞,并且在运行过程中会产生结晶,进一步加剧填料堵塞现象,造成风阻增大,处理效果降低的影响。
1.2常用应对措施1.2.1水泵维护定期对提升泵进行维护保养,通过拆机检查各部件损坏情况以便及时更换;电机轴承应一年更换一次。
保证进口管道在运行期间充满液体,禁止泵在气蚀的状态下运行。
1.2.2填料堵塞定期清洗、更换滤料;定期更换滤液。
2、酸雾喷淋塔2.1常见故障及其产生原因2.1.1设备壳体壁厚减薄设备长时间经受酸性气体和液体的冲刷,壳体壁厚会逐渐变薄,当壁厚大量变薄后设备会存在安全隐患,失去利用价值。
2.1.2设备壳体产生裂缝此类故障主要发生在焊缝两侧或铆钉孔附近,没穿透的裂缝会对设备造成隐患;穿透了的裂缝会导致泄露,造成壳体外部损坏。
2.2常用应对措施2.2.1壳体减薄常用的方法是钻孔测量法。
当检查工作量很大时可以使用如超声波无损测厚仪等的仪器进行测量,了解实际测量的壁厚确定该设备是否应该继续使用,或者进行维修更换。
2.2.2壳体裂缝对于未穿透的裂缝,修理时先沿裂缝铲出50°~60°的坡口,坡口深度应比裂缝稍深一点,然后采用分段倒退法进行堆焊,堆焊高度应高出壳体外壁少许。
对于穿透的裂缝,可用氧-乙炔火焰切割掉包含裂缝的一块钢板,被切割的钢板长度应比裂缝长50mm~100mm,宽度应在250mm以上,然后在切口边沿加工出坡口并按照切口形状和大小制作补板,最后将补板与壳体上的切口对接并用电弧焊焊接。
3、碱雾喷淋塔3.1常见故障及其产生原因3.1.1塔内壁工作表面积垢塔内壁积垢会使塔内部有效容积和孔道流通截面积减小,使流体流动阻力增加、流量降低。
此类积垢的产生与喷淋液中含有的微溶物质有关,当其含量较高,经过较长时间的冲刷后会附着在塔壁或管道壁上,影响处理效率。
ASGS5 APG备份失败故障现象:使用burbackup指令来对网元做备份,系统给出提示“WARNING! Burserver is not running as the designated service user. See the event log for more information”。
随后提示A侧Node无法创建DDI文件,出现.ddi Failed 提示。
原因分析:流程图:分析判断可能原因:1、未正常生成ddi文件2、C盘到D盘备份文件失败3、D盘到M盘/K盘备份失败原因排查:1.APG40 WINDOWS 2003系统可以通过BURBACKUP –O自动在两侧NODE C盘下生成ddi的文件。
2.C盘无法产生相关的ddi文件,但是在执行burbackup –o后在K盘有相应的备份输出,并出现下图的错误。
使用burbackup指令来对网元做备份,系统给出提示“WARNING!Burserver is not running as the designated service user. Seethe event log for more information”。
随后提示A侧Node无法创建DDI文件,出现.ddi Failed提示。
3.查看两侧Node burserver服务配置信息,发现A/B两侧burserver配置中,A侧Node SERVICE_START_NAME项配置由ASGS5AP1D\xxxxxxx 形式变为LocalSystem,由于某种错误导致其配置出现问题。
在NODE A上查看在NODE B上查看解决措施:通过setupservices来修正B侧burServer服务配置。
查看B侧的sc qc burserver发现已有正确的数据:●在修改完配置后使用prcboot对B边进行启动操作,然后再使用burbackup –o,能够正常生成备份,没有错误。
●在该问题出现的时候还有另外的现象是在A侧做备份时候出现B侧无法在K盘产生输出,而倒换到B侧出现上述的现象。
设备故障处理工作总结在过去的一段时间里,设备故障处理工作成为了我们日常生产运营中的一项重要任务。
设备的稳定运行对于企业的生产效率、产品质量以及成本控制都有着至关重要的影响。
因此,及时、有效地处理设备故障,确保设备的正常运转,是我们维护部门工作的核心目标之一。
一、故障类型及频率在这段时间内,我们所遇到的设备故障主要可以分为机械故障、电气故障和控制系统故障三大类。
机械故障是最为常见的类型,占总故障数的X%。
其中,零部件磨损、断裂以及传动部件的卡死等问题较为突出。
例如,在具体设备名称的运行过程中,由于长期高负荷运转,其传动轴出现了严重的磨损,导致设备无法正常工作。
电气故障的发生频率次之,约占总故障数的X%。
主要表现为电路短路、断路、电机烧毁等。
如在另一设备名称的一次故障中,由于电机过载运行,内部绕组短路,造成电机无法启动。
控制系统故障相对较少,占总故障数的X%,但这类故障往往排查难度较大。
常见的有传感器失灵、控制器程序错误等。
比如,某设备的温度传感器出现故障,导致控制系统误判,影响了设备的正常运行温度控制。
二、故障处理措施针对不同类型的故障,我们采取了相应的处理措施。
对于机械故障,我们首先进行了详细的检查和诊断,确定故障部位和原因。
在零部件磨损或断裂的情况下,及时更换了新的部件,并对相关部位进行了润滑和调试。
对于传动部件的卡死问题,我们则对传动系统进行了清理和调整,确保其运转顺畅。
在处理电气故障时,我们运用专业的电气检测工具,如万用表、示波器等,对电路进行了仔细的检测。
对于短路和断路问题,迅速查找并修复了故障点。
对于电机烧毁的情况,更换了新的电机,并对电机的运行参数进行了重新设置和调试。
对于控制系统故障,我们首先对传感器进行了校准和更换,以确保其准确性。
对于控制器程序错误,我们与厂家技术人员进行了沟通,重新编写和优化了控制程序,使其能够更好地适应设备的运行需求。
三、故障处理的时间和成本在故障处理过程中,时间和成本是两个重要的考量因素。
APG典型故障处理小结第一篇:APG典型故障处理小结APG典型故障处理小结1、故障:intelligent networks management interface分析:此告警表明文件系统在处理intelligent networks management interface(INM)接口连接时出错。
此时有两种情况:1、ACTIVE CONNECTION FILE BUFFER表明缓冲区文件有误;2、INM LOG FILE 表明INM的LOG文件处理时出错,此种情况比较常见,LOG FILE因为某些偶然原因被删除后就会出现这种情况,例如有时LARGE RESTART或是RELOAD后丢失此子文件。
处理: 用指令ssmpi:sfn=n+1其中SFN:SUBFILE NAME。
n为最后一个INMLOG中的子文件的数目,出现这种情况。
APG40中可以用CPFLS-S指令直接查看INMLOG 中的子文件情况。
2、故障:APG40系统中文件无法传到OSSDESTx的问题。
分析:多数此类告警都可以用指令CDHLS-L 查看所有路径的OSSDESTx的传输类型和参数定义有否正确。
大多数都不会有参数丢失的情况,然后用CDHVER 查看告警制定的OSS路径的状态是否OK,否则用指令CDHVER-M 人工修正使状态变为正常,消除告警。
但是有的告警比较特殊例如:AP FILE PROCESSING FAULTCAUSE FILE TRANSFER FAILED TRANSFER QUEUE ALOG DESTINATION SET OSSDESTALOG Problem Data Transfer error 分析处理过程:先试着用以上常规的处理方法即以上指令来设法消除此告警:1、用acease无法消除告警2、cdhls-l OSSDESTALOG查看此路径的所有传输参数,一切均正确。
3、用cdhver OSSDESTALOG看其状态,结果显示STATUS OK。
APG40故障处理小结从维护APG40以来,对APG40故障做了大概的统计,从统计结果看出有以下这些APG故障,下面我将对这些故障进行大概的分析及给出解决的方法:●AP LOG STATISTICS引起故障的原因:1、AP VIRUS:APG感染病毒。
处理方法:人工DOWNLOAD更新病毒库后扫描清除病毒(如果是AP2的话,将AP2的ETRUST设置为从AP1更新病毒库),成功后用指令ACEASE手工删除告警。
2、LOGFILE/SECURITY LOGON:多次登陆AP错误告警。
处理方法:因为多次登陆输入帐号密码错误而导致,用acease消除即可.(如因帐户过期引起多次登陆输入帐号密码错误,那应通知交换室对该帐户重新定义帐户、密码,才能真正解决该故障。
)●AP SYSTEM ANALYSIS引起故障的原因:1、The object is LogicalDisk and the counter is % Free Space:硬盘空闲空间低过门限值。
处理方法:检查引起该故障的硬盘的文件,删除该硬盘的临时文件、较旧的备份文件等,并清空回收站。
如删除了这些无关重要的文件后,仍无消除故障,此时可能需扩大硬盘空间(或压缩文件)来消除些故障,可打TR提交爱立信,提供解决方案。
* C盘空间不足可删C:\TEMP可删C:\TEST可删C:\WINNT\SYSTEM32\LOGFILES\MSFTPSVC1(2、3)(保留一个月的文件)* K盘空间不足可删K:\IMAGES\NODEA (保留最新一个备份文件)可删K:\IMAGES\NODEB (保留最新一个备份文件)可删K:\ACS\LOGS\ALOG\LOGFILE (保留7天的文件)可删K:\MCS\LOGS\PDS (保留7天的文件)K盘主要文件是的网优统计文件,K盘空间不足多是网优统计文件过多所致。
建议出K盘空间不足告警时,先联系网优室删除统计文件。
几则APG40故障浅析摘要:本文主要介绍了几则APG40网元故障的解决方法,并做经验总结。
关键词:APG40网元OSS联机CLUSTER前言从9A3工程开始,爱立信交换机采用了新的输入输出平台APG40,CPU为Intel Pentium Ⅲ处理器,操作系统为Windows NT 4.0,采用PDC和BDC的方式实现冗余。
APG40与IOG的工作原理和硬件差异很大,维护方法也不同,缺少维护经验。
新实物的认识总是一个循序渐进的过程,维护工作也不例外,本文针对东莞公司APG40网元的一些故障进行分析,以便给大家作参考。
终端OSS服务器APG网元图1 APG40网元连接图案例1:OSS连接网元失败【故障现象】在终端PING该网元IP,正常;尝试用TELNET方式登录,成功,用PC Anywhere登录成功。
【故障解决方法】查看进程状态,发现MCS_MTS_ADM这个进程的状OFFLINE。
人工BRING ONLINE后,进程状态变为ONLINE。
网元连接正常,TELNET成功,如图2所示。
【总结】MCS_MTS_ADM是控制通过TELNET方式登录到APG的进程WINDOW NT允许通过TELNET 方式登录,但通过这种方式登录,会占用一定的系统资源,如果登录的用户比较多,会造成系统资源的浪费。
爱立信使用MCS_MTS_ADM进程,统一对所有TELNET 方式登录管理,使得对系统资源的占用只相当于一个TELNET 方式登录占用的资源,减少了系统资源的浪费,加快了处理速度。
因此,该进程的DOWN掉直接导致通过TELNET方式登录无法成功。
因为OSS连接APG网元,本质上也是通过TELNET 方式。
只不过普通的TELNET是通过23端口,而OSS是通过5000端口,所以OSS也无法连接网元。
图2案例2:某个APG网元的AP2无法联机【故障现象】无法TELNET登录,PC Anywhere登录不成功,PING网元IP 地址,发现时通时断。
APG故障处理经验积累APG故障处理经验积累:APG 进程重启故障表现:WINNT状态正常,可以正常TELNET;但是有告警中有“NODE DOWN”,TELNET 上该NODE,敲入PRCSTATE,提示THE NODE UNDEFIND。
首先,检查进程运行情况net start一般这种表现,多为CLUSTER MASTER没有正常启动。
在确认没有发现CLUSTER MASTER没有正常工作后启动该进程:net start “Cluster Master”(R9)net start “Cluster Server” (R10)重启APG步骤:一、先看一下A/B NODE的RAID状态(指令raidutil -L all),ACTIVE边所有的都是optima状态,PASSIVE边都是drive failed状态。
二、再看一下A/B NODE的RESOURCE状态是否都为ONLINE(指令cluster res)三、在B-NODE边敲指令prcboot,将active状态倒换为passive。
可能需要好几分钟。
四、重复第二步,所有RESOURCE都为ONLINE,且A-NODE为ACTIVE,B-NODE为PASSIVE,则成功。
否则继续进行以下步骤。
五、在A-NODE重复第三步操作。
六、重复第二步,所有RESOURCE都为ONLINE,且B-NODE为ACTIVE,A-NODE为PASSIVE。
七、在A/B NODE分别敲指令mktryymmdd-hhmm为防止文件损坏,在unix提取文件的使用,请首先使用bin 这条指令!检查APG与CP 的联系是否正常OCINP:IPN=all; (cp command)定义外部告警查看定义:exalls -l exalls定义数据:exaldef -s "MAINS FAILURE" -c 0 -C 8 -o no -S Power exal-1-4修改数据:exalch -s "MAINS FAILURE" -c 0 -C 15 -o no exal-1-4解开设备:exaldeblk -b exal-1-4 -e exal-1-8 (如果闭使用exalblk)3、APG网元备份后,SYTUC出Fault Code:54Fault Code 54 表示:Not permitted. File in exclusive use.(Name rotation is not initiated.)故障定位为APG执行边吊死,在确定了备用边工作正常后,对APG执行边做重启后,故障排除。
APG计费停止应急处理方案1目标在话单缓冲区用满导致话务中断前,及时将计费数据输出到AP1,再进行故障的进一步处理。
2启动条件当AP2因硬件或软件错误引起计费数据无法输出时(SAE500,CHOP的NIU持续增长),系统出现以下严重告警:COMMON CHARGING OUTPUT ADJUNCT PROCESSOR INTERFACE CONGESTION可能同时伴随告警:SIZE ALTERATION OF DATA FILES SIZE CHANGE REQUIRED,此时应该启动APG计费停止应急处理方案。
3关键处理步骤描述1. 当故障发生时将AP2的CHS计费倒换至AP1的CHSTEMP,使计费可以正常进行。
2. 当AP2的故障处理完毕后,可将AP1计费倒换会AP2的计费。
3. 将故障期间AP1中产生了计费文件,传送到计费中心。
4应急措施(应急方法)4.1改变计费输出到AP11. 关闭到AP2的输出。
CHOPE;(或CHOFE:FORCE;)CHOPP;2. 改变计费输出到AP1。
CHOPI: MSNAME= CHSTEMP;! <CHS_AP1>CHOPP;关闭到AP2的输出是,如果指令CHOPE;运行结果出FAULT CODE,无法关闭计费输出的路径,可在后面加一参数;CHOPE:FORCE;4.2启动效果检查计费倒换到AP1上后,查看计费文件是否正常生成:5.4.1 Y: \ ACS\Data\RTR\CHSTEMP_cp0ex\dataFiles\Reported> msdls –m chstemp –s cp0exCommon part:firstMessNo: {0000000000, 0000000001}lastMessNo: {0000000000, 0000000548}lastAckMess: {0000000000, 0000000529}in file: Q:\ACS\Data\ACA\CHSTEMP\cp0ex\dataFiles\1_0firstFile: 00000, lastFile: 00000, noOfFiles: 00001maxNoOfMess: 06000, maxMessSize: 04096, maxNoOfFiles: 00040File part:00000: fileName: Q:\ACS\Data\ACA\CHSTEMP\cp0ex\dataFiles\1_0firstMessInFile: {0000000000, 0000000001}, noOfMess: 00548Unlinked: No, MTAPFileNo: 000‘msdls指令中的红色数字不断增大,表示计费数据成功传送AP1的MESSAGE STORE5.4.2 Y:\ACS\Data\RTR\CHSTEMP_cp0ex\dataFiles\Reported>dirVolume in drive Y is Disk YVolume Serial Number is 289F-3635Directory of Y:\ACS\Data\RTR\CHSTEMP_cp0ex\dataFiles\Reported11/19/04 12:34a <DIR> .11/19/04 12:34a <DIR> ..11/19/04 12:34a 2,095,878 TTFILE.2004111900345200003 File(s) 2,095,878 bytes14,672,801,792 bytes freeY:\ACS\Data\RTR\CHSTMP_cp0ex\dataFiles\Reported存储产生的TTFILE子文件不断产生。
APG典型故障处理小结1、故障:intelligent networks management interface分析:此告警表明文件系统在处理intelligent networks management interface (INM)接口连接时出错。
此时有两种情况:1、ACTIVE CONNECTION FILE BUFFER表明缓冲区文件有误;2、INM LOG FILE表明INM的LOG文件处理时出错,此种情况比较常见,LOG FILE因为某些偶然原因被删除后就会出现这种情况,例如有时LARGE RESTART或是RELOAD后丢失此子文件。
处理: 用指令ssmpi:sfn=n+1其中SFN:SUBFILE NAME。
n为最后一个INMLOG中的子文件的数目,出现这种情况。
APG40中可以用CPFLS -S指令直接查看INMLOG 中的子文件情况。
2、故障:APG40系统中文件无法传到OSSDESTx的问题。
分析:多数此类告警都可以用指令CDHLS -L 查看所有路径的OSSDESTx 的传输类型和参数定义有否正确。
大多数都不会有参数丢失的情况,然后用CDHVER 查看告警制定的OSS路径的状态是否OK,否则用指令CDHVER -M 人工修正使状态变为正常,消除告警。
但是有的告警比较特殊例如:AP FILE PROCESSING FAULTCAUSEFILE TRANSFER FAILEDTRANSFER QUEUEALOGDESTINA TION SETOSSDEST ALOGProblem DataTransfer error分析处理过程:先试着用以上常规的处理方法即以上指令来设法消除此告警:1、用acease无法消除告警2、cdhls -l OSSDESTALOG查看此路径的所有传输参数,一切均正确。
3、用cdhver OSSDESTALOG看其状态,结果显示STATUS OK。
4、于是确认了本地交换机的设置没有问题,怀疑是到OSS的网络不通但用指令ping 对端oss的IP, 显示网络路径完全正常;后来注意到A3级的一个告警,是由于刚才那个A2级告警引起的:DA TA OUTPUT, AP COMMON DESTINA TION HANDLING, DESTINA TION FAULTDESTINA TIOOSSDEST ALOGCAUSEWRITE FAILUREProblem DataThe connection to the remote host lost or write access denied再分析上面的告警要确认了是因为AP 文件没有写到OSS的权限。
综上分析可以确定是对端网管的设置问题,导致ALOG文件无法正常传送。
所以联系对端协助处理。
总结:此类问题可以从三方面来分析1、本地设置和定义的参数。
2、网络是否畅通。
3、对端的参数设置问题。
3.故障:APG40中CLUSTER 无法正常启动的问题分析:APG40中经常出现AP1边的CLUSTER服务无法正常加载启动的问题,一般是当管理员改过普通用户的帐号或者密码时,或者系统升级的遗留问题时会出现。
因为启动CLUSTER需要帐号密码的认证。
处理:在AP 模式下,用指令CLUSTER RES 查看具体服务ONLINE /OFFLINE 的情况。
一般情况下,可以用指令cluster res <resource name> /on /wait将某些服务人工ONLINE上;如果告警中涉及到磁盘阵列的问题还要用两条非常有用的指令raidutil -L all 和raidutil -L logical/physical查看逻辑磁盘和物理磁盘的状态。
如果整个CLUSTER无法加载,则查看ACTIVE或是PASSIVE边NODE 的状态就为UNDEFINED。
在控制面板中的服务,找到CLUSTER查看属性,把MANUAL改为AUTO加载,然后在ACCOUNT项中改为正确的帐号和密码,然后PRCBOOT后,CLUSTER可以正常启动,解决故障。
4.故障:告警AP SYSTEM ANAL YSIS详细描述:A2/APZ "GZMMSC63/JB/0/0" 804 041127 0011AP SYSTEM ANALYSISAP APNAME NODE NODENAME1 GZG13MAP1C A GZG13MAP1AOBJECT COUNTER INSTANCE LIMIT VALUELogicalDisk % Free Space C: <16 15.955分析:这是一个由于磁盘空间不够引起的告警,此时我们通过LOCAL IPPORT/PCANYWHERE进入AP1 NODE A查看C盘的属性,发现C盘的剩余空间小于16%。
处理办法:C盘空间不足时可删除的文件1、C:\acs\data\Ftp\mktrbuild该目录存储的是爱立信TR需要的logfile,可以完全删除(一般可在提交给爱立信后即刻删除)。
2、C:\Temp该目录存储的是windows NT系统的临时文件,可以完全删除。
3、C:\WINNT\system32\logfiles\MSFTPSVC1C:\WINNT\system32\logfiles\MSFTPSVC2C:\WINNT\system32\logfiles\MSFTPSVC3该目录存储的是windows NT系统记录的用户登录信息、安全事件信息等logfiles,可删除较旧的文件,建议至少保留一周之内的文件,如实在空间不足,也可全部删除。
4、C:\acs\logs\fch该目录下如果有扩展名为.old的文件,形似:acs_fch_activity.old,为系统自动保留的旧版本文件,可删除该.old文件。
C:\acs\logs\prc该目录下如果有扩展名为.old的文件,形似:ACS_PRC_error.old,为系统自动保留的旧版本文件,可删除该.old文件。
C:\acs\logs\usa该目录下如果有扩展名为.old的文件,形似:usa.tmp.old,为系统自动保留的旧版本文件,可删除该.old文件。
C:\acs\logs\core该目录下如果有扩展名为.unknown.x(其中x为一阿拉伯数字)的文件,形似:core.unknown.x,可删除该文件。
5、清空C盘回收站通过以上方法一般可以消除该告警,如果不能消除的话,在确定C盘空间大于16%情况下,可以用指令ACEASE -O ID号消除.5.故障:告警AP ANTIVIRUS FUNCTION FAUL T详细描述:Alarm Identifier Class Category Time8796:0 A2 APZ Sun Nov 21 07:17:42 2004Object of ReferenceLOGFILE/APPLICATION-VIRUSAlarm TextAP ANTIVIRUS FUNCTION FAULTSIGNATURE FILE DOWNLOAD FAILEDProblem DataSun Nov 21 07:17:41 2004 3004 GZG33MAP2A 2 264 InoculateIT EVENTLOG_W ARNING_TYPE 07:16:11 11/21/04 176 gzg33map2a 07:17:41 11/21/04 The automatic download has run 4 times unsuccessfully.The next attempt will occur at the regularly scheduled download time.解决方法:在ap1设置eTrust软件,记住沟选Redistribution Server选项,然后APG2(计费专用)就可以通过“Redistribution Server”的方式从APG1更新病毒库。
6.故障:AP LOG STATISTICS详细描述:Alarm Identifier Class Category Time8799:0 A2 APZ Mon Nov 29 08:53:45 2004Object of ReferenceLOGFILE/SECURITY-LOGONAlarm TextAP LOG STATISTICSSECURITY VIOLATION A TTEMPTProblem DataMon Nov 29 08:53:45 2004 29697 GZG33MAP1A 644 196 SecurityEVENTLOG_AUDIT_SUCCESS GZ9912 GZG33MAP1AS-1-5-21-1586019725-754599781-3438223002-1051 SYSTEM NTAUTHORITY (0x0,0x3E7) -解决方法:因为多次登陆输入帐号密码错误而导致,用acease消除即可.7、故障:AP PROCESS REINITIATED详细描述:AP PROCESS REINITIATEDAP APNAME NODE NODENAME1 ZCCBSC1AP1C B ZCCBSC1AP1B分析:这是进程重新启动引起的。
解决办法:当进程起来后,此类故障都可以用APLOC进入AP模式,然后直接用ACEASE ID消除。
8、故障:AP FAULT详细描述:AP FAULTAP APNAME NODE NODENAME1 ZCZ40AP1C B ZCZ40AP1BPROBLEMGENERAL ERROR&AP-AP ETHERNET LINK&MIRRORED DISKS NOT REDUNDANT分析:此类故障是由于APG40 DOWN掉后而引发的一系列告警。
解决办法:当APG40 PRBOOT 或RESET时启会出现此类的告警,当重启成功后(大概五分钟)故障会自动消除。
如果没有自动消除可以用APLOC进入AP 模式,然后直接用ACEASE ID消除。
9、故障:AP PROCESS STOPPED详细描述:AP PROCESS STOPPEDAP APNAME NODE NODENAME1 ZCCBSC1AP1C B ZCCBSC1AP1B分析:此类故障是由于这是进程吊死引起的。
解决办法:此类故障都可以用APLOC进入AP模式,然后用ACEASE ID消除10、故障:OSS无法收集到告警分析:此故障是由于AD-X吊死引起,解决办法:可以在APG40 ACTIVE NODE 做PRCBOOT后,OSS能正常联机11、故障:DIRECT FILE OUTPUT FAULT详细描述:DIRECT FILE OUTPUT FAULTAP APNAME NODE NODENAME1 ZCCMSCAP1C A ZCCMSCAP1ACAUSEBLOCK TRANSFER FAILEDFILENAMERCEFILE1分析:此故障是文件传送失败引起。