一、组网图
不涉及
二、问题描述
双控产品,无异常打印的情况下,某个 SP 连续 20 秒检测不到对端心跳,接管对端,接管后恢复正常。
三、过程分析
说明:
此处查看接管端的 messages 信息,例如若 SP2 被接管重启,则查看 SP1 端的 messages 信息;
需要同时满足下面 1 、 2 、 3 点才可以参考此案例处理,若任意一条不满足,请联系研发接口人处理。
1、查看messages时搜索“Heartbeat lost..., poweroff peer spu”,找到检测心跳丢接管的时间点,并查看时间点往前20秒的messages打印,确认没有NT down、PCIE心跳丢失、inner0 down的打印, 例如
Dec 14 10:42:26 00:B3:42:02:52:70 axis2_http_server: ODSP:MSG:(null): Query auto pwron acdown cfg successfully.
Dec 14 17:14:39 00:B3:42:02:52:70 hbd: ODSP:MSG:HA: Heartbeat lost first time.
Dec 14 17:14:55 00:B3:42:02:52:70 hbd: ODSP:MSG:HA: Heartbeat lost..., poweroff peer spu[786ea8c0]
2 、搜索关键字”bugon magic =”,确认 = 后面的数字为 21618 ,例如:
Dec 14 17:15:01 00:B3:42:02:52:70 ha_brd: ODSP:MSG:HA: bugon flags = 10053, bugon magic = 21618
Dec 14 17:15:01 00:B3:42:02:52:70 kernel: ODSP:MSG:NT_FLASHDOWN: Odsp nt flashdown cmd 0.
Dec 14 17:15:01 00:B3:42:02:52:70 kernel: ODSP:MSG:NT_FLASHDOWN: Set nt flashdown spstate is 2
Dec 14 17:15:01 00:B3:42:02:52:70 kernel: ODSP:MSG:DLOCK: kernel bugon flags 10053, bugon magic 21618
3 、查看被接管端 ( 即重启端 ) 的 var/crash 路径下的文件,确认没有 crash 文件。
如果同时满足以上三点, 低端产品的 CPU 处理能力弱,概率性出现心跳丢被接管
四、解决方法
1、如果正常心跳丢被接管次数不超过 3 次的,建议持续观察。
2、如果正常心跳丢被接管次数超过 3 次及以上的,用服可以根据客户的重要程度自行评估是修改心跳检测策略后再持续观察还是更换控制器;
3、如果修改心跳检测策略后,还是经常心跳丢被接管,建议更换控制器,故障控制器返回供应链;
4、如果不符合心跳丢接管的情况,请勿参考此案例处理,请联系研发接口人确认处理;
五、风险提示
该问题仅涉及到MS2500 、 MS3000 、 MS5000 、 MS5500 、 MS2500G2 、 MS3000G2 标准版。
六、关键字
控制器接管,重启