PTN运行维护知识介绍
- 格式:doc
- 大小:156.00 KB
- 文档页数:10
PTN(分组传送网)的简单高效运维之道大规模的PTN网络建设之后,如何高效维护成为摆在各分公司眼前的主要问题之一。
中国移动海南分公司在PTN网络的维护领域深入挖掘,通过对业务配置及调整、告警抑制及各类故障情况下业务快速恢复等不同场景的深入分析,和PTN厂商一起运维创新,独辟蹊径,在LTE 时代到来之前率先走出了一条PTN高效简单运维的道路。
一、PTN运维难点分析PTN作为IP化的传输设备,具有IP网络固有的运维复杂性,随着PTN网络规模的激增及承载业务的多样化,网络运维人员的维护工作量大幅度增加,“如何简化运维?”成为PTN维护人员的关注重点。
从中国移动海南公司(以下简称海南移动)PTN运维经验来看,主要存在如下图所示的三大难点:第一、告警多,故障定位定界困难;第二、基站业务调整场景多,调整过程要求快速可靠;第三、业务种类多,参数多,需要简化管理;二、运维创新,实现运维高效简单为了有效的应对PTN网络带来的运维复杂度,海南移动通过和华为等主要设备厂商定期进行PTN运维专项需求讨论等措施,聚焦PTN的运维难点,确保更好的提升运维效率,主要聚焦在以下几个方面:1、业务可视化管理电信级的IP网络运维需要可视化的维护方式,将“软”管道和维护指标图形化呈现出来,有预见性地维护承载网络:1)业务及其关联的主备Tunnel路径通过层次化路径拓扑关联呈现;2)以业务为中心的告警监控。
当网络出现故障,影响到业务开通的时候,相关告警会直接反应到端到端业务管理界面;3)以业务为中心的性能监控。
通过基于不同场景的模板化指标采集,满足不同场景的管理需求;4)全网时钟可视化展现,清晰时钟信令方向,清晰时钟跟踪关系;2、智能电路割接随着PTN业务数量的增长,频繁的网络业务调整不可避免,需要通过系统化的管理流程和专业的割接工具实现高效、准确、安全的业务调整,并参考如下的操作步骤:1)对单条电路和批量电路提前制定割接方案,割接前进行割接演习,校验资源是否冲突;2)执行人工方式和自动方式的割接计划,将割接设置和管理的时间从晚上调整到白天,释放夜晚加班人力;3)割接后可保留原有工作电路资源,以便返回割接后的业务;3、工程告警抑制为抑制PTN网络日常单板拔插、网元调测等工程施工产生的大量工程告警,与正常网络告警有效区分,需要在EMS实现对工程告警的有效过滤:1)网元、单板、端口等多粒度工程告警标识批量化配置;2)自动过滤工程告警不上报上层综合网管;3)依据告警工程态标识过滤,分开浏览常态告警和工程告警;4)工程告警自动结束机制:自由定义工程告警状态标识的开始、结束时间;4、离线网元快速隔离PTN扩容部署阶段,接入侧设备机房环境复杂,经常出现机房掉电导致网元离线的情况,此时业务得不到及时的修复,维护人员需要通过EMS隔离离线网元后再进行业务发放:1)对故障网元快速隔离,不影响网络业务正常发放;2)离线网元上线后,EMS提供离线网元恢复功能,重新入环/链,且离线网元的业务自动恢复无需在离线网元上线后手工配置业务。
PTN运行维护篇目录1.1网络故障处理基本思路和方法 (3)1.1.1PTN与MSTP告警对比 (3)1.1.2常见告警故障处理方法 (5)1.1.3以太网业务丢包类故障处理方法 (7)1.1.4OAM/PING调试法 (7)1.1.5环回逐段定位法 (10)1.2PTN网络例行监控 (11)1.1 网络故障处理基本思路和方法PTN的组网、业务配置愈发复杂,需分组厂商网管尽快做好SDH-Like功能。
为尽快恢复业务,将检测的故障点最小化,需了解SDH原理、IP网络原理知识、告警信号流及告警产生机理、PTN设备和网管基本操作、常用仪表的基本操作,了解网络拓扑,业务配置,设备运行状态。
✓告警、性能分析法✓OAM/PING调试法✓环回法PTN对于Tunnel的故障可用MPLS OAM来检测,MPLS OAM包括CV/FFD、Ping和Traceroute。
通过CV(Connectivity Verification)/FFD(Fast Failure Detection)检测可以检测LSP的连通性。
CV检测和FFD检测的过程基本一致,其不同在于CV检测发送CV报文的频率固定为1帧/s并且不可设置,而FFD检测发送FFD报文的频率是可以自行定义的。
MPLS Ping/Traceroute为用户提供了发现LSP错误、并及时定位失效节点的机制。
MPLS Ping/Traceroute使用MPLS Echo Request和MPLS Echo Reply检测LSP的可用性。
MPLS Echo Request中携带需要检测的FEC(Forwarding Equivalence Class)信息,和其他属于此FEC的报文一样沿LSP发送,从而实现对LSP的检测。
为了更好的理解PTN,我们就把PTN与熟悉的SDH的业务层面告警类比一下,与大家共享。
1.1.1 PTN与MSTP告警对比对应于业务模型,PTN的告警分为物理层、数据链路层、Tunnel层、PW层、仿真业务层五个层次。
目录
1.1网络故障处理基本思路和方法 (2)
1.1.1PTN与MSTP告警对比 (2)
1.1.2常见告警故障处理方法 (4)
1.1.3以太网业务丢包类故障处理方法 (6)
1.1.4OAM/PING调试法 (6)
1.1.5环回逐段定位法 (9)
1.2PTN网络例行监控 (10)
1.1 网络故障处理基本思路和方法
PTN的组网、业务配置愈发复杂,需分组厂商网管尽快做好SDH-Like功能。
为尽快恢复业务,将检测的故障点最小化,需了解SDH原理、IP网络原理知识、告警信号流及告警产生机理、PTN设备和网管基本操作、常用仪表的基本操作,了解网络拓扑,业务配置,设备运行状态。
✓告警、性能分析法
✓OAM/PING调试法
✓环回法
PTN对于Tunnel的故障可用MPLS OAM来检测,MPLS OAM包括CV/FFD、Ping和Traceroute。
通过CV(Connectivity Verification)/FFD(Fast Failure Detection)检测可以检测LSP的连通性。
CV检测和FFD检测的过程基本一致,其不同在于CV检测发送CV报文的频率固定为1帧/s并且不可设置,而FFD检测发送FFD报文的频率是可以自行定义的。
MPLS Ping/Traceroute为用户提供了发现LSP错误、并及时定位失效节点的机制。
MPLS Ping/Traceroute使用MPLS Echo Request和MPLS Echo Reply检测LSP的可用性。
MPLS Echo Request中携带需要检测的FEC(Forwarding Equivalence Class)信息,和其他属于此FEC的报文一样沿LSP发送,从而实现对LSP的检测。
为了更好的理解PTN,我们就把PTN与熟悉的SDH的业务层面告警类比一下,与大家共享。
1.1.1 PTN与MSTP告警对比
对应于业务模型,PTN的告警分为物理层、数据链路层、Tunnel层、PW层、仿真业务层五个层次。
对应SDH的物理层、再生段复用段层、服务层、路径层。
上层功能的实现依赖于相邻下层提供的服务。
低层与高层同时有故障产生时,低层故障的消除是处理高层故障的基础,物理层故障引发的告警屏蔽其它层故障引发的告警。
SDH的告警与PTN的最根本的区别在于SDH的告警都是由字节承载上报的,而PTN告警则是由协议控制上报的;但都有其相似之处,如下图:
业务模型中,PW可类比VC12、Tunnel类比VC4管道,CES即电路仿真业务就是传统的E1;告警可划E1/E CES/ATM/Etherne
1.1.2 常见告警故障处理方法
✓CES业务常见告警故障处理方法:
护业务配置数据有误。
应急处理时优先恢复业务,排除外部设备的问题,将业务倒换到备用通道,复位单板、单站重启、重新下发配置等。
✓以太网业务常见告警故障处理方法:
置。
可通过查看光功率、RMON、丢包率等性能事件解决。
MPLS保护倒换类告警排除:
1.1.3 以太网业务丢包类故障处理方法
1.1.4 OAM/PING 调试法
常用场景:数据业务通断判断
维护中,工作难点主要在于如何能够快速有效地排除故障。
在众多的故障中,以“业务不通”最为常见。
应该如何着手解决呢?首先我们将PTN 专线业务做成下图所示的分段。
PTN 网络关于OAM 的规划主要涉及:MPLS OAM 、以太网端口的OAM 。
适用于故障定位到单站,主要用于检查网络连接是否可达,以及分析网络什么地方发生了故障。
⏹ 常用OAM 排障步骤1—Tunnel OAM
业务丢包、错包的可能原因
✓ 端口光功率异常或光功率不稳定,这是最常见的丢包原因 ✓ 时钟未跟踪,或跟踪源不稳定,会导致周期性丢包
✓ Tunnel 下一跳端口IP 设置错误(如设置为本端端口,扩容或调整业务时)可能
会导致丢包
✓ 网络侧发生拥塞,由于现网基本是轻载状态,拥塞可能性较小 排查业务丢包、错包的思路:
✓ 找出与“有问题的业务”走相近链路的业务,看是否有类似问题,以此缩小范
围
业务A
业务B
如果业务A 有丢包,业务B 不丢,则问题应该在网元A 与网元C 之间
⏹ 排障步骤2—LSP 故障位置分析
Tunnel 配置 PW 配置 PW 配置
业务配置 业务配置
红色标识部分是维护关键区域, 因为这一区域的网元多,外部因素多(光缆,光模块,波分设备等) , 需考虑业务扩容,业务归属关系调整 排障的主要工具: Tunnel OAM
使用方法:到两侧(接入侧、核心侧)网元查看Tunnel OAM 状态 结果分析:
✓ 两侧Tunnel OAM 状态都是“远、近端可用” ----- 该区域基本没有问题 ✓ Tunnel OAM 检测有任何缺陷上报----- 根据“LSP 缺陷位置”可锁定故障位置 ✓ 查MPLS_TUNNEL_LOCV 告警: 含义:Tunnel 链路中断 解决措施:需要检
查Tunnel 链路的连通性,发起LSP Ping 确认故障节点/链路,并观察Tunnel 链路中其它节点的相关告警信息,需启动OAM 功能。
红框内的LSP缺陷位置指示了问题网元的LSR ID (GCP NODE ID)
在LSP缺陷位置及相邻网元范围内, 进一步排障步骤:
检查光纤原因
检查业务告警
✓ETH_LINK_DOWN, ETH_LOS, R_LOS等链路异常告警
✓IN_PWR_ABN等光功率异常告警
✓HARD_BAD、BUS_ERR、BD STATUS等硬件异常告警
检查配置
✓源\宿节点是否正确
✓相邻网元的出\入标签是否一致
✓下一条端口IP是否正确
其它可能原因:
✓源\宿节点是否正确
✓相邻网元的出\入标签是否一致
✓下一条端口IP是否正确
查看各端口收光功率的当前/历史性能是否过低或过高:
✓有可能端口收光功率接近但未超过阈值,导致无告警上报,所以需要查性能✓有可能端口收光功率不稳定,导致当前性能值正常,所以需要查历史性能✓下一条端口IP是否正确
查看各NNI端口的设置:
1.1.5 环回逐段定位法
常用场景:CES 业务、SDH 业务出现故障时,在支路或线路环回,定位故障原因到单站,环回操作会导致业务中断。
仅在SDH 类业务使用;注意:数据类定位的方法,为避免环回造成的网络风暴,使用ETH OAM 功能,维护过程中不使用环回。
SDH 接口在维护中使用内环回和外环回。
PDH 接口使用内环回和外环回两种环回方式。
ETH OAM 的简易操作步骤:
注:只须输入对端UNI 端口MAC 地址就可以启动测试了,其他参数可用默认
A.两端网元发起LB 测试,用于命令触发的连通性检查,对以太网业务执行不中断业务环回检测(LB ),可以检验业务的连通性情况,以便定位和修复故障。
网管中环回界面与SDH近似。
1.2 PTN网络例行监控
网络维护工程师在维护PTN网络时,比MSTP网络更关注RMON性能等数据
T2000网管上日常维护项目表:
务方法是数据库下载恢复。
网管数据库备份工具中,可设置定期任务,自动定期上载网元数据库到网管电脑中。
另外在每次大业务量配置(包括单站配置以及全网配置)修改后,都要进行一次网元数据库的备份操作,保证备份数据库最大限度的与网元一致。
备件单板更换:SDH设备的备件单板,需定期拿出来,随现网进行升级更新,而PTN的单板,插入到子架中,能够自动向主控软件包申请,更新自身的单板软件,节省了备件单板维护的工作。