一、组网图
二、问题描述
现场一台MSBK24D设备(SAN:V3.0.6T05P02,Dataark:42181),GUI界面可以正常登录访问,作业均能备份正常。nod1节点可以正常ping通,但nod2显示网络无法ping通。登录底层使用pcs status查看,nod1显示online,nod2显示offline,如下图所示:
三、过程分析
1、控制器SP2异常关机,导致节点nod2 offline
2、报错信息显示fonce awm nod1 start @ on nod! "OCF TIMEOUT" ,初步判断集群之间通信超时。
四、解决方法
1、查看双控状态为single-single,确认控制器无异常。
2、查看MSBK24D设备背面存在心跳网线,SP1连接GE1口,但SP2连接GE2口,经询问知,客户前期挪动机柜,设备链路被拔插过,因客户不专业导致线缆连接错误,重新连接SP2至GE1端口,使用pcs resource cleanup命令清除错误计数,再次查看集群状态正常。
五、风险提示
无
六、关键字
dataark集群状态,OCF TIMEOUT