作者:张奎呈于 2017年12月22日 发布在分类 / 经验案例 / 经验案例 下,并于 2018年02月05日 编辑
2018-02-05 17:33:12版本: 存储启动异常且串口提示双端内存容量不一致的排查过程及解决方法
 历史版本

修改日期 修改人 备注
2019-03-07 11:22:45[当前版本] 张奎呈 移动知识到知识小组
2018-02-05 17:33:12 系统管理员 移动知识到知识小组

一、组网图

不涉及。

二、问题描述

存储关机后,在启动过程中,两个控制器的定位指示灯频闪(蓝灯闪),后自动关机。

三、过程分析

查看SP1端串口信息,日志打印显示与对端内存不一致,无法启动:

NTNEGLOAD:Critical Error: Failed to boot SP, because the capacity of physical memory (32GB)                is not equal to the peer's physical memory (24GB).

drvdaemon:abnormal AC power down ,shut down system

查看SP2端串口信息,日志中有类似的打印:

N0: Detect DIMM Config

N0: channel:0 dimm:1 is not found,try again!

N0: channel:0 dimm:2 is not found,try again!

N0: channel:1 dimm:1 is not found,try again!

N0: channel:1 dimm:2 is not found,try again!

N0: channel:2 dimm:1 is not found,try again!

N0: channel:2 dimm:2 is not found,try again!

N0: channel:3 dimm:0 is not found,try again!

N0: channel:3 dimm:1 is not found,try again!

N0: channel:3 dimm:2 is not found,try again!

……

NTNEGLOAD:Critical Error: Failed to boot SP, because the capacity of physical memory (24GB)                is not equal to the peer's physical memory (32GB).

drvdaemon:abnormal AC power down ,shut down system

后单独启动SP1可以正常启动,检查内存大小为32G,导出日志,关闭SP1,单独启动SP2也可以正常启动,检查内存大小为24G;确认项目发货信息为每控制器32G内存;由于双端内存大小不一致,启动过程中HA互相检查对端配置不一致,存储自动关机;分析SP2的message日志发现,D1通道的内存条无法识别:


说明:

1、为了便于识别,我司存储设备的SP上标记丝印信息如下:

内存通道(Channel)分别是A、B、C、D,对应OS底层系统打印信息为0、1、2、3。

2、内存槽位(DIMM)分别是1、2、3,对应OS底层系统打印信息为0、1、2。

如MS 7000设备打印内存错误示例“Socket = 0 Channel = 2 DIMM = 0 Rank = 0”,对应的是CPU0的C通道的第1个内存本位,即C1。

四、解决方法

方式一:现场不具备拆开控制器的条件,则直接申请控制器备件更换。

方式二:如现场有条件拆开控制器,则按如下步骤执行:

步骤一:拆开SP1,拔插D1通道的内存条,看存储能否正常识别该内存条;

步骤二:如仍无法识别,则交叉D1通道与C1通道内存条位置,看存储能否识别该内存条;

步骤三:如仍无法识别,问题随通道走,则申请控制器备件更换;如问题随内存条走,则申请内存条更换;

五、风险提示

1、必须由宏杉原厂工程师或具有原厂认证资质的工程师执行拆卸控制器的操作。

2、在拔插内存条之前,需要先记录各内存条对应的位置,以便恢复原状。


 附件

附件类型

PNGPNG

历史版本-目录  [回到顶端]
    宏杉案例知识库-V4.0.1