一、组网图
前端约250台客户端,后端MS7020G2-HG存储使用了16个Target提供业务。
二、问题描述
设备版本V3.0.X,划zone后,在原有映射域的host组中添加新主机时,发现映射域中的I_T_L数量无法拓扑完整,
1、添加 host 组后,检查拓扑关系发现只关联了 SP1 的 8 个 target ,未与 SP2 的 8 个 target 进行关联,这里预期关联正常的的 target 应该为 16 个,如图 2 。
3、检查底层messages,在I_T_L mapping过程中,频繁出现 FC failed打印:
Mar 14 10:11:48 00-b3-42-04-f4-17 axis2_http_server[19375]: ODSP:MSG:FCPORT: Fc port cmd peer handle failed, cmd[8], errno[0x47200002], peer_sp_id[0]
Mar 14 10:11:48 00-b3-42-04-f4-17 kernel: ODSP:MSG:DUPCMD: Dupcmd response length is bigger than expected!, mod[71], cmd[8],slot[0]rsp_len[35392],exp_len[32768]
三、过程分析
经研发分析,3.0.X版本中I_T连接数存在规格限制,具体限制为initiator * target数量不能超过4096,当前环境的IT连接总数超过了软件传输限制。
<item id="it_maxnum" value="4096"/>
四、解决方法
1、调整zone
(1)减少每个target发现initiator的数量。
例:当前端有200台主机,400个initiator,存储使用16个target提供业务时,每个target发现200个initiator,则设备I_T连接数为3200。
调整zone,在主机数、initiaor数不变的情况下,将存储16个target分为两组提供业务,每组8个target。前100台主机关联第一组target,后100台主机关联第二组target,则每个target发现100个initiator。此时设备I_T连接总数为1600。
当实际I_T连接恢复至规格以下时,观察双端打印情况,类似的打印将自动终止,同时存储双端IT连接显示将同步。
Mar 14 10:11:48 00-b3-42-04-f4-17 axis2_http_server[19375]: ODSP:MSG:FCPORT: Fc port cmd peer handle failed, cmd[8], errno[0x47200002], peer_sp_id[0]
Mar 14 10:11:48 00-b3-42-04-f4-17 kernel: ODSP:MSG:DUPCMD: Dupcmd response length is bigger than expected!, mod[71], cmd[8],slot[0]rsp_len[35392],exp_len[32768]
(2)实施前规划好I_T连接数,特别是前端几百台客户端且提供业务的target数量多时,尽量通过zone 规划好提供业务的target,将target进行细分隔离,减少target发现initiator的数量。
五、风险提示
1、带业务调整zone时,请务必确认好交叉组网情况以及前端多路径情况。
2、带业务调整zone后,因target发现initiator实际减少少,设备将会出现大量的I_T未连接告警,变更后,必须确认ITL路径满足预期,及时清理未连接的ITL,消除告警。
六、关键字
Fc port cmd peer handle failed,I_T连接数规格,双端I_T连接状态不同步,zone,ITL路径拓扑不全