告警显示功能
- 格式:pdf
- 大小:87.14 KB
- 文档页数:4
grafana 告警规则condition -回复如何使用Grafana 的告警规则条件。
简介Grafana 是一款流行的开源数据可视化工具,可以与各种不同的数据源集成,如Prometheus、Elasticsearch、InfluxDB 等。
除了数据可视化之外,Grafana 还提供了强大的告警功能,可以通过自定义的告警规则条件来实现实时监控和通知,保证系统的可用性和稳定性。
在本文章中,我们将重点介绍Grafana 的告警规则条件,包括如何创建和配置条件,以及如何优化告警配置。
一、Grafana 告警规则基础在了解告警规则条件之前,我们需要先了解Grafana 告警规则的基础概念。
Grafana 的告警规则由三个主要组件组成:数据源(Data Source)、面板(Panel)和告警通知(Alert Notification)。
数据源:数据源指向实际存储数据的数据库或平台,可以是Prometheus、InfluxDB、Elasticsearch 等。
告警规则的条件将根据数据源来计算,并基于计算结果进行判断。
面板:面板是Grafana 中的一个可视化组件,用于展示数据。
告警规则需要基于特定的面板来定义条件,并在面板中显示告警信息。
告警通知:告警通知定义了告警触发后的通知方式,例如电子邮件、短信、Slack等。
您可以根据需要选择合适的通知方式。
二、告警规则条件告警规则条件决定了什么时候触发告警,并定义了告警通知的设置。
Grafana 提供了多种告警规则条件类型,可用于满足不同的监控需求,下面是一些常用的条件类型:1. Threshold(阈值):当监控指标超过或低于指定的阈值时触发告警。
例如,在监控服务器负载时,当平均负载超过1.0 时触发告警。
2. Delta(波动):当监控指标的变化速率超过指定的波动范围时触发告警。
这在监控网络流量、磁盘读写速度等变化频繁的指标时非常有用。
3. No value(无值):当监控指标在一定时间内没有值时触发告警。
1.0 目的规范火警报警系统操作,确保消防系统正常运行。
2.0 适用范围本规范适用于公司管辖区域的火警报警系统的规范操作。
3.0 职责3.1 项目处总监/主任负责监督检查本规范的执行情况。
3.2 项目处工程主管负责本规范的培训、日常管理与考核。
3.3 工程强弱电人员依照本规范负责进行火警报警系统进行指导、操作及技术故障的处理。
3.4 消防中心值班人员依照本规范对消防系统进行规范操作。
4.0 工作要点4.1 火灾报警系统的内容和功能4.1.1火灾自动报警系统分为控制中心报警系统和区域报警系统。
控制中心报警系统包括CRT上位监视器、总线制广播系统、火灾报警和消防控制主机柜。
区域报警系统由区域火灾报警控制器和火灾探测器等组成,或由火灾报警控制器和火灾探测器等组成。
4.1.2系统功能:接受保护区探测器触发的报警信号,自动或手动启动相关消防设备、显示其状态并联动其它相关的设备。
4.2 自动气体消防灭火系统的内容和功能自动气体消防灭火系统分为自动和手动两种方式。
在系统运行在“自动允许”的情况下才能起作用,当气体保护区设置的烟感探测器和温感探测器同时或相继发生报警并经过30秒的延时后将启动钢瓶电磁阀实施灭火。
手动方式分为电气手动和机械手动两种,电气手动为按下气体控制盘的“启动”键后将启动钢瓶电磁阀实施灭火,还可以直接启动灭火区门口的“紧急终止/释放手钮”经延时30秒实施灭火,“紧急终止/释放手钮”上方的红色按钮每按一次再延时30秒,长按将中断灭火, “紧急终止/释放手钮”拉下后,需及时用专用钥匙进行复位;当自动或电气手动失控的情况下,可以到钢瓶间手动按下启动瓶上安装的“手动启动器”插销并向下按,实施机械手动灭火。
4.3 自动水消防灭火系统的内容和功能4.3.1自动水喷淋灭火系统按操作方式分为自动和手动两种方式,自动方式为在现场控制盘在“自动”的情况下才能起作用,当探测器报警时,通过报警主机启动现场控制盘,现场控制盘发出启动指令打开雨淋阀组;手动方式为直接启动现场控制盘上的启动按钮即可启动对应雨淋阀灭火。
目录一.No Contact 无连接告警 (4)二.NTP System Time Sync Fault (NTP系统时钟同步错误) (6)三.NumberOfHwEntitiesMismatch (实际硬件数量不匹配) (6)四. PasswordFileFault (密码文件故障) (8)五.Plug-InUnitGeneralProblem 插入单元故障 (8)六.Plug-In Unit HW Failure (插入单元硬件故障) (8)七.PowerFailure (供电故障) (9)八.SystemClockQualityDegradation 系统时钟质量降级 (9)九.TemperatureExceptionalTakenOutOfService特殊温度导致服务停止 (12)十.TemperatureAbnormalPerformanceDegraded温度异常导致性能降级 (13)十一.TemperatureSensorFailure 温度传感器故障 (14)十二.TimingSyncFault定时同步故障 (15)十三.TUHardwareFault时钟单元硬件故障 (16)十四.Upgrade Package Corrupt升级包损坏 (16)十五.VswrOverThreshold 天馈驻波超限 (17)十六.LicenseKeyFileFault :License文件错误或缺失 (18)十七.LicenseKeyMissing:许可证密钥丢失 (19)十八.LinkFailure:链路故障 (19)十九.LinkStability:链路稳定性故障 (20)二十.LossofSynchReferenceRedundancy:同步引用冗余丢失 (20)二十一.LossofTracking:失去同步 (21)二十二.NetworkSynchTimefromGPSMissing:从GPS获取的网络时钟同步丢失 (21)二十三.功能资源丢失 (21)二十四.常规硬件错误 (22)二十五.常规软件错误 (22)二十六.Giga以太网链路故障 (22)二十七.心跳失败 (23)二十八.硬件故障 (23)二十九.配置不一致 (24)三十.告警Disk Volume D Full (24)三十一.告警FanFailure (25)三十二.告警CurrentTooHigh (26)三十三.告警ExternalLinkFailure (27)三十四.告警Disconnected (27)三十五.告警ClockCalibrationExpirySoon (27)三十六.RemoteIPAddressUnreachable (28)三十七.ResourceAllocationFailure (28)三十八.ResourceConfigurationFailure (30)三十九.RetFailure (30)四十.SecurityLevelFault (31)四十一.ServiceDegraded (32)四十二.ServiceUnavailable (32)一. No Contact 无连接告警此系列告警是由电调故障引起,具体情况如下:告警描述:Contact lost with resource object 或 Timeout: Failed to get anuConnectIndication 或 Contact lost with resource object。
UP_E1_AIS告警UP_E1_AIS告警表示上行方向2Mbit/s信号告警指示。
如果支路板检测到上行E1信号全“1”时,上报此告警。
告警属性告警参数在网管中浏览告警时,选中该告警,在“告警详细信息”中会显示该告警的相关参数。
告警参数的格式为“告警参数(16 进制):参数1 参数2…参数n”。
每个参数的含义说明参见下表。
对系统的影响该告警会造成E1信号不可用。
常见故障现象告警UP_E1_AIS产生的常见故障现象如表所示。
可能原因告警UP_E1_AIS产生的可能原因如下:∙原因1:与本端支路单板对接的支路单板存在TU_LOP、TU_AIS、DOWN_E1_AIS 等告警。
如图1所示,网元NE1的支路单元2与网元NE2的支路单元3对接。
支路单元2检测到TU_LOP告警,向下级电路插全“1”信号。
经过传输网络,支路单元3接入该PDH业务,检测并上报UP_E1_AIS告警。
图1 UP_E1_AIS告警的检测1∙原因2:对接端接入2Mbit/s信号的支路单板存在T_ALOS告警。
如图1所示,网元NE1的支路单元1接入2Mbit/s信号,并检测到T_ALOS 告警,同时向下级电路插全“1”信号。
经过传输网络,支路单元3接入该PDH业务,检测并上报UP_E1_AIS告警。
∙原因3:与本端支路单板对接的支路单板存在PLL_FAIL、CHIP_FAIL等硬件故障告警。
图3 UP_E1_AIS告警的检测3∙原因4:对端E1端口设置了内环回。
图4 UP_E1_AIS告警的检测4∙原因5:上报告警的单板故障。
处理步骤1.在网管上查看该告警,确定产生该告警的单板。
2.原因1:与本端支路单板对接的支路单板存在TU_LOP、TU_AIS、DOWN_E1_AIS等告警。
a.查询与本端支路单板对接的支路单板是否存在低阶信号告警。
3.原因2:对接端接入2Mbit/s信号的支路单板存在T_ALOS告警。
a.查询对接端接入2Mbit/s信号的支路单元是否存在接入信号丢失告警。
通用的grafana告警message templating消息模板-回复Grafana是一款用于监控和数据可视化的开源工具。
它支持各种数据源,并提供了丰富的数据展示和告警功能。
其中一个重要的功能就是通过消息模板来创建告警通知。
本文将详细介绍通用的Grafana告警消息模板,并解释如何使用它们来创建自定义的告警通知。
告警消息模板是Grafana中用于生成告警通知的文本模板。
它使用一种简单而灵活的语言来允许用户动态地插入变量和表达式。
这样做的好处是可以根据实际情况定制告警通知的内容,使其更具可读性和可操作性。
在Grafana中,消息模板可以在告警规则的配置中定义。
在定义模板时,可以使用一系列的内置变量和函数来访问有关告警的详细信息。
下面是一些常见的变量和函数示例:1. 变量:- `alert_name`:告警规则的名称。
- `alert_message`:告警规则的详细描述。
- `alert_state`:告警的状态("ok"、"pending"或"firing")。
- `alert_value`:导致告警触发的指标或事件的值。
- `alert_threshold`:告警规则中定义的阈值。
2. 函数:- `timeNow()`:返回当前时间。
- `formatTime()`:格式化时间戳,可接受时间戳和格式字符串作为参数。
- `regexReplace()`:正则表达式替换函数,可接受原始字符串、正则表达式和替换字符串作为参数。
- `exec()`:执行外部命令,可接受命令字符串作为参数。
通过组合使用这些变量和函数,用户可以根据具体需求创建各种类型的告警通知。
下面是一个示例:[{{ alert_state }}] {{ alert_name }} - {{ alert_message }}Time: {{ formatTime(timeNow(), "YYYY-MM-DD HH:mm:ss") }} Current value: {{ alert_value }}Threshold: {{ alert_threshold }}在上面的示例中,我们使用了`alert_state`、`alert_name`、`alert_message`等变量来显示告警的状态、名称和描述。
一些常见告警BSC侧的告警显示,及一般处理建议1,天馈(7601 7604)通话质量2,掉话(7743 7745)掉话3,切换(7838 7839)掉话时钟偏移告警4,干扰(7744)掉话5,域升级失败(3273)倒PCU6,时隙配置错误(2993)重启对应告警字段载频,如果不行派单上站重做时隙表处理建议:一般出现在DE34基站,有可能为载频或载频连线的问题。
处理建议:为ULTRA站型天馈主分收电平相差较大告警,7604单独出现一般为某块载频或某个小区引起,7601,7604同时出现为整个机柜告警,可用BTS MANAGER 定位,一般处理过程为测试天馈线驻波比,检查合路器与各载频之间的连线,如定位到某个单元可通过调换该单元来排查故障,该告警比较难处理,需要很大的耐心。
处理建议:为DE34站型天馈主分收电平相差较大告警,一般处理过程为测试天馈线驻波比,检查合路器与各载频之间的连线,如只有一块载频有此告警,可更换该载频,如整个小区载频有告警则需更换合路器,该告警比较难处理,需要很大的耐心。
处理建议:主时钟告警,7601为ULTRA站型,7838,7839为DE34 ,一般上站检查主控板主时钟频率是否偏移,传输板同步设置是否正确,如设置正确,检查该站是否有误码,如前面都正常,更换该机柜的主控板,一般告警能消失。
处理建议:硬件数据库不匹配告警,一般到站重做硬件数据和本调可消失。
处理建议:风扇告警,更换风扇,检查载频背板上风扇插槽是否故障。
处理建议:载频退服告警,需要看英文补充说明,第一个一般为载频,载频连线,BB2导致,第二个一般为载频,载频连线,合路器导致,第三个为FLEXI站告警,一般为载频,合路器,天馈导致,还有其他类型的告警,在PPT文档中有说明。
处理建议:TCH信道激活失败告警,此告警可先重启该载频时隙和载频,如告警仍然存在,则需要更换该载频。
处理建议:小区无话务告警,一般重启小区或基站可恢复,如仍然占不上用户,需上站掉电重启基站,检查该扇区合路器,连线,主控板等。
自动化告警一、引言随着信息技术的快速发展,企业对自动化的需求越来越强烈,而自动化告警系统作为一种重要的自动化工具,可以有效地提高企业的运营效率和生产能力。
本文将深入探讨自动化告警系统的优势、组成、技术选型、实施步骤、最佳实践以及展望,旨在为企业提供有关自动化告警系统的全面了解和指导。
二、自动化告警系统的优势实时监控:自动化告警系统能够实时监控关键设备和应用程序的状态,一旦出现异常,可以立即触发告警。
减少人工干预:人工监控需要大量的人力资源,而自动化告警系统可以自动处理大多数告警,减轻了人工负担。
提高响应速度:自动化告警系统可以快速响应异常事件,避免了对生产造成的影响。
增强数据可靠性:自动化的数据收集和处理减少了人为错误和遗漏,提高了数据的可靠性。
优化资源配置:通过实时监控和预测分析,企业可以更有效地分配资源。
三、告警系统的组成监控设备:负责收集和传输数据。
数据处理中心:负责对收集到的数据进行处理和判断,生成告警信息。
告警发送模块:负责将告警信息发送给相关人员。
存储模块:负责存储告警信息和相关数据。
管理模块:负责管理整个系统。
四、技术选型选择合适的监控技术:根据企业需求选择适合的监控技术,如网络监控、硬件监控等。
选择数据处理技术:根据数据量、实时性等要求选择合适的数据处理技术,如云计算、分布式计算等。
选择告警发送技术:根据接收告警的人员数量和需求选择合适的告警发送技术,如短信、邮件、APP推送等。
考虑可扩展性和可维护性:在选型时需要考虑系统的可扩展性和可维护性,以便未来对系统进行升级和维护。
安全性考虑:确保所选技术能够提供必要的安全保障,包括数据加密、用户认证等。
五、实施步骤需求分析:深入了解企业需求,明确告警系统的目标和功能。
方案设计:根据需求分析结果,设计合适的告警系统方案,包括系统架构、模块组成等。
技术选型和开发:根据方案选择合适的技术和开发工具进行系统开发。
测试与优化:对开发完成的系统进行全面测试,并进行必要的优化和调整。
欧洲猫自动化系统视觉告警及听觉告警处理浅析摘要:随着航班量的不断增加,管制量的不断增加,空管自动化系统在整个空管系统中的地位越来越突出。
上海自动化系统主要采用的是Thales公司的欧洲猫系统。
欧洲猫系统能提供雷达处理,记录与回放,飞行计划处理,告警等服务。
其中,告警处理避免操作的盲目性,确保飞机安全飞行。
本文主要研究各类告警产生时如何在界面上显示以及如何提供语音告警等相关问题。
关键词:欧洲猫系统、视觉告警、听觉告警、显示优先级1 系统中告警简介作为空域最为繁忙的地区,上海空管自动化系统采用的是Thales公司的欧洲猫(Eurocat-X)系统。
欧洲猫(Eurocat-X)系统拥有优化的人机工作界面,方便的自动化数据处理和有效的预警功能,可谓功能强大,大大便利了管制工作的进行,系统主要的告警有:监视紧急情况(EM,HJ,RF):当相关航迹发生劫持、无线电故障或紧急编码时发生。
短期冲突告警(STCA):主用或旁路安全网及监控辅助处理功能报告冲突立刻发生时。
危险区侵入警告(DAIW):当监视航迹或接近激活的危险区时发生。
最低安全高度警告(MSAW):当一个监视航迹开始低于预定义的安全高度时发生。
ACAS 紧急情况(RA):当相关航迹发生 ACAS 紧急情况时。
重复告警(DUPE):当发现多个监视航迹可能会相关到同一飞行计划时发生,当发现多个飞行计划可能会相关到同一监视航迹时发生或当两个或多个监视航迹具有相同的24位目地址。
非侵入区警告(NTZ):当符合 NTZ 处理的相关的飞行计划预计侵犯或已经侵犯了激活的NTZ区域时发生。
进近路径监控警告(APMW):当一个监视航迹在进近航道外时发生。
许可高度一致性监测(CLAM):当监测到航路中预测的高度层与已相关的监视航迹的实际高度层有差异时发生。
航路一致性监测(RAM):当监测到预测的航路与已相关的监视航迹的实际位置有差异时发生。
中期冲突探测警告(MTCD):当检测到一对 MSTS 航迹有冲突时发生。
(2).告警显示功能
①.告警级别
根据故障的严重程度,网元管理层一般可设置四种告警级别。
A).紧急告警
是指使业务中断并需要立即进行检修的告警,如信号丢失、帧丢失、指针(AU、TU)丢失、发送机失效、电源故障等。
B).主要告警
是指影响业务并需要立即进行检修的告警,如误码率越限、定时信号劣化、接收光功率过低等。
C).次要告警
是指不影响现有业务但需要进行检修以防止恶化的告警,如信号劣化、告警指示信号(AIS)、净负荷失配、远端缺陷指示等。
D).提示告警
是指不影响现有业务但有可能发展成为影响业务的告警,可视情况进行检修。
②.告警类型
根据告警的不同性质,告警可以分为5种类型。
A).通信告警
该类告警和传输状态有关,如信号丢失、帧丢失、缺陷指示、信号劣化等。
B).服务质量告警
这类告警可反映传输的性能质量,如响应时间过长、突破门限值、信号劣化等。
C).设备告警
这是与设备硬件有关的告警,如电源故障、定时端口故障、发送或接收故障等。
D).处理失败告警
这是与软件有关的告警,如内存溢出、程序非法中断、版本不匹配等。
E).环境告警
这是与环境状态有关的告警,如机房的温度、湿度、火警、通风与冷却系统等。
③.告警显示
所有告警应该有可闻(声响)、可视(图形与文本)的告警显示。
A).图标显示
— 应能用不同颜色的图标表示各种级别的告警,如:
[url=/]魔兽sf[/url]红色-紧急告警,橙色-主要告
警,黄色-次要告警,紫色-提示告警,绿色-正常等;
对于同一个网元,当有多个告警发生时,图标应显示级别最高的告警,较高级别的告警消除后,应顺序显示较低级别的告警。
B).文本显示
—文本显示的告警应分为当前告警与历史告警;
当前告警是指现存于网络中未被清除的告警,而历史告警是指以被清除、但被记
录下来的告警。
C).以文本显示的告警应给出以下相关信息:
—告警类型;
—告警级别;
—告警状态:未确认、确认、清除;
—告警发生时间、告警确认时间、告警清除时间;
—告警原因,即给出导致告警的可能原因描述;
—告警源:应定位于局站、机架、子架、单元盘、盘位、端口、AU、TU、VC、定
时;用户数据,如NE的物理位置、段与通道的起止点等。
(3).告警的锁定功能
告警的锁定功能是指处于清除状态、但未确认的告警应有图标指示,并仍保留在当前告警的文本列表之中,以便于对告警的分析与研究。
(4).告警的确认功能
告警确认功能应能:
—一次确认指定NE的某个或所有新出现的告警;
—在图形与告警列表中确认新出现的告警。
(5).告警等级分配功能
在网元管理系统上,用户应能对告警等级进行分配,
[url=/]魔兽私服[/url]有二种分配操作模式:
—出厂缺省值;
—用户对指定告警事件的等级重新设置。
(6).告警的核对功能
告警的核对功能是指把EM显示的告警与实际的告警状态进行核对,可适用于以下情况:
—当EM与NE出现通信失败并又恢复之后;
—当EM出现故障并恢复之后;
—当手持终端退出对NE的控制之后;
—当操作者对EM显示的告警与NE的实际告警状态有疑问时。
(7).告警的过滤功能
告警的过滤功能是指根据用户设置的条件,有选择地显示当前告警事件。
①.基本过滤功能
—对指定或全部的NE;
—告警级别;
—告警类型。
②.可选过滤功能
—管理区域;
—告警状态;
—告警事件与状态事件的区分。
(8).告警的屏蔽功能
告警的屏蔽功能是指根据设定的条件,允许/禁止NE上报某些告警事件。
A).基于告警优先级的屏蔽
EM可分配告警的优先级,并允许NE上报满足某一优先级的告警事件。
B).对指定告警的屏蔽
允许/禁止指定的告警事件上报;
允许/禁止指定的告警源的告警事件上报;
NE对指定的告警源不进行监测。
(9).告警的统计功能
告警统计功能是指EM对当前告警事件的计数功能,并给出当前的告警状态。
A).基本的告警统计功能
根据告警级别统计,统计告警总数、已确认的告警数、未确认的告警数。
B).可选的告警统计功能
根据告警源进行统计,统计最高级别的告警、已确认的告警数、未确认的告警数。
(10).告警日志管理功能
告警日志管理的对象是告警记录。
它包括以下功能:
①.告警报告的生成
—告警记录应以列表形式显示;
—能按时间范围查询并打印某一告警记录、某一类型的告警记录、全部告警记录;
—能按时间范围查询并打印某一告警源的告警记录;
—能按时间范围查询并打印某一段(复用段或再生段)、某个系统的告警记录;
能按各单元盘、NE、站、段、系统、或整个管理域产生故障的月报表或季度报 表。
②.告警报告的输出
告警报告能以ASCII码的形式输出给外围存储设备。
③.存储容量
— NE的告警日志至少应能存储最近400个告警事件;
— EM的告警日志至少应能存储6个月的告警事件。
④.存储容量管理
存储告警日志、性能日志、操作日志及其他与日常维护有关的日志存储容量应足够大,并设有门限预告警设置,一旦突破门限便产生告警或越限报告;
—可查询告警日志的存储容量;
—应能删除指定的告警事件与状态事件;
—当告警日志满时能自动删除最老的记录。
(11).故障定位功能
EM通过告警监视与界面显示,应能作出如下故障定位:
以图形显示的告警应能把故障定位在子架、单元盘;以文本显示的告警应能把故障定位在局站、机架、子架、单元盘、功能块。
—当光缆被切断时,应能把故障点定位在断点的二局站之间。
(12).其他功能
①.误码率告警门限的设置
应能对段、通道的误码率门限进行设置(1×10-3~1×10-9);一旦突破门限应产生越限告警。