24  
   0
低端设备控制器异常重启问题分析
作者:李星伟于 2023年07月11日 发布在分类 / 经验案例 / 经验案例 下,并于 2023年07月11日 编辑
重启 接管 心跳丢失

一、组网图

不涉及

二、问题描述

双控产品,无异常打印的情况下,某个 SP 连续 20 秒检测不到对端心跳,接管对端,接管后恢复正常。

三、过程分析

说明:

此处查看接管端的 messages 信息,例如若 SP2 被接管重启,则查看 SP1 端的 messages 信息;

需要同时满足下面 1 2 3 点才可以参考此案例处理,若任意一条不满足,请联系研发接口人处理。


1、查看messages时搜索“Heartbeat lost..., poweroff peer spu”,找到检测心跳丢接管的时间点,并查看时间点往前20秒的messages打印,确认没有NT down、PCIE心跳丢失、inner0 down的打印, 例如

Dec 14 10:42:26 00:B3:42:02:52:70 axis2_http_server: ODSP:MSG:(null): Query auto pwron acdown cfg successfully.

Dec 14 17:14:39 00:B3:42:02:52:70 hbd: ODSP:MSG:HA: Heartbeat lost first time.

Dec 14 17:14:55 00:B3:42:02:52:70 hbd: ODSP:MSG:HA: Heartbeat lost..., poweroff peer spu[786ea8c0]

2 、搜索关键字bugon magic =,确认 = 后面的数字为 21618 ,例如:

Dec 14 17:15:01 00:B3:42:02:52:70 ha_brd: ODSP:MSG:HA: bugon flags = 10053, bugon magic = 21618

Dec 14 17:15:01 00:B3:42:02:52:70 kernel: ODSP:MSG:NT_FLASHDOWN: Odsp nt flashdown cmd 0.

Dec 14 17:15:01 00:B3:42:02:52:70 kernel: ODSP:MSG:NT_FLASHDOWN: Set nt flashdown spstate is 2

Dec 14 17:15:01 00:B3:42:02:52:70 kernel: ODSP:MSG:DLOCK: kernel bugon flags 10053, bugon magic 21618

3 、查看被接管端 ( 即重启端 ) var/crash 路径下的文件,确认没有 crash 文件。

如果同时满足以上三点, 低端产品的 CPU 处理能力弱,概率性出现心跳丢被接管

四、解决方法

1、如果正常心跳丢被接管次数不超过 3 次的,建议持续观察。

2、如果正常心跳丢被接管次数超过 3 次及以上的,用服可以根据客户的重要程度自行评估是修改心跳检测策略后再持续观察还是更换控制器;

3、如果修改心跳检测策略后,还是经常心跳丢被接管,建议更换控制器,故障控制器返回供应链;

4、如果不符合心跳丢接管的情况请勿参考此案例处理,请联系研发接口人确认处理;

五、风险提示

该问题仅涉及到MS2500 MS3000 MS5000 MS5500 MS2500G2 MS3000G2 标准版。

六、关键字

控制器接管,重启



 知识评论当前评论数0

 推荐知识


 访问权限

创建人 李星伟
工作小组 宏杉成员
文档编辑权限 创建者私有
文档阅读权限 来自分类
分类阅读权限 所有人
分类编辑权限 技术服务部  : 机构     渠道合作伙伴  : 机构     系统管理员 : 人员     
分类审核权限 审核小组  : 岗位    
分类预览权限 审核小组 : 岗位    
分类下载权限 技术服务部  : 机构    
 历史版本

修改日期 修改人 备注
2023-07-11 10:14:09[当前版本] 李星伟 CREAT

 目录
    宏杉案例知识库-V4.0.1