一起DCS控制系统网络异常的分析与处理
摘要本文叙述了一起DCS控制系统网络异常事件,应急处理对策及性能优化措施,提高了DCS控制系统的性能可靠性,为今后处理DCS控制系统类似事件提供了很好的经验借鉴。
关键词DCS控制系统;网络异常;应急处理与性能优化
1案例描述
某电厂DCS控制系统2011年4月18日下午5点10左右,运行人员发现1机组所有操作站中数据丢失,画面显示为“???”,但现场设备运行正常。维护人员到达后去电子设备间检查,发现部分控制器退出同步,维护人员试图手动同步,发现42控制器出现X灯常亮故障。去机柜中检查发现网络中原先设定为master状态交换机(IP:19216811211)指示灯显示异常,master灯从常亮变为闪烁。而同机柜的另一台交换机(IP:19216811212)master灯由不亮变化为闪烁状态。维护人员对服务器做重起,但无效果;对IP:19216811212的交换机做重新上电处理,网络恢复了一小段时间运行后再次出现上述情况。经电话咨询DCS厂家技术人员,确定把此台交换机换下,并拨出42控制器后,网络恢复正常。5月31日下午13:37前后,1机组所有操作员站中再次出现部分数据变成“???”,但约一分钟后自动恢复。
2原因分析
214月18日网络异常的分析
网络出现数据采集中断时,设定为master状态交换机(IP:19216811211)指示灯显示异常,master灯从常亮变为闪烁,而同机柜的另一台交换机(IP:19216811212)master灯由不亮变化为闪烁状态。
通常,常态下的环网的状态是:网络中有一台交换机设置为master,在网络构建成环时,此台交换机上的master灯常亮,并且在web页面中也可以观察到。环网中的其他交换机master灯都不亮,web页面观察到的都是slave状态。一般,master灯变为闪烁状态只有在环网处于开环状态时才会出现。而同时出现两台交换机master灯闪烁,有两种可能性:1)网络中有两台交换机人为设置成了两个master。(这个可以排除);2)网络中出现异常的数据包,或交换机出现了硬件故障时,网络拓扑发成了改变。从交换机的日志文件中可以看到,在出现问题的时间点,交换机在短时间内记录了多次拓扑更改信息。从部分控制器保存的事件日志文件能提取到如下记录:“!18041111:01:54(0x5C004A16)81F6E
teri
gEther
etrateProtectio
UDPbroadcaststorm”,可以看出网络确实产生UDP数据包广播风暴!
从交换机和控制器的这些记录信息,可以发现在数据采集异常时,环网在频
f繁的切换状态,网络中在那个时间段很有可能存在着很大的数据流量,即发生了r