作者:刘渊于 2019年06月20日 发布在分类 / 经验案例 / 经验案例 下,并于 2019年06月20日 编辑
2019-06-20 12:13:49版本: FC链路异常恢复后ESXi主机与存储未自动恢复建立连接问题
 历史版本

修改日期 修改人 备注
2019-09-27 14:30:07[当前版本] 刘渊 字体及格式调整
2019-06-20 12:13:49 刘渊 CREAT

一、组网图


二、问题描述

FC-SW异常重启导致主机和存储FC单边链路中断,FC-SW恢复正常后1台ESXi6.0主机与MS5520存储无法建立连接,但与EMC Unity连接正常,其他ESXi6.0主机和MS5520存储/Unity存储连接正常。


三、过程分析

(1)FC-SW端检查 主机FC端口(角色/Initiator)、和存储FC端口(角色/Target)端口状态已恢复正常,FCID/WWPN/WWNN均已可正常识别,说明FLOGI/PLOGI阶段已完成。

(2)存储诊断日志信息显示,主机和存储FC端口在 Target State Authenticate阶段异常终止,导致PRLI(ProcessLogin)异常终止。

May 22 11:43:00 00:B3:42:01:35:5A eventd: ODSP:MSG:EVENT: event..., event<fc_link_status_change> is: 0.000000 seconds 
May 22 11:43:00 00:B3:42:01:35:5A kernel: ==fiPlogiHandler,lgnGetInfoState is 3,rPort=140100,rWWPN=               0
May 22 11:43:00 00:B3:42:01:35:5A kernel: ==fiFc2StateLogin,lgnGetInfoState is 1,rPort=140100,rWWPN=10000000c9b8a120
May 22 11:43:00 00:B3:42:01:35:5A kernel: ==fcLgnOpen,hpLgnScsiFcpTarget,lgnGetInfoState is 3,rPort=140100,rWWPN=               0
May 22 11:43:00 00:B3:42:01:35:5A kernel: ==fiFc4TimerEvent,lgnGetInfoState is 3,rPort=140100,rWWPN=               0
May 22 11:43:00 00:B3:42:01:35:5A kernel: ==PRLI.fcLgn4 rWWPN4=10000000c9b8a120,rPort=140100
May 22 11:43:00 00:B3:42:01:35:5A kernel: ==come into ft_prli function
May 22 11:43:00 00:B3:42:01:35:5A kernel: ==It will apply session
May 22 11:43:00 00:B3:42:01:35:5A kernel: ==FC session connected,Target port:500b342001355a04,Initiator:10000000c9b8a120

May 22 11:43:00 00:B3:42:01:35:5A kernel: ==fiFc4TgtStateLogin,lgnGetInfoState is 1,rPort=140100,rWWPN=10000000c9b8a120
May 22 11:43:01 00:B3:42:01:35:5A kernel: ==fiFc2StateAuthenticate,lgnGetInfoState is 2,rPort=140100,rWWPN=10000000c9b8a120
May 22 11:43:01 00:B3:42:01:35:5A kernel: ==fiFc4TgtStateAuth,lgnGetInfoState is 2,rPort=140100,rWWPN=10000000c9b8a120
May 22 11:43:01 00:B3:42:01:35:5A kernel: ==fiFc2StateOpen,lgnGetInfoState is 3,rPort=140100,rWWPN=10000000c9b8a120
May 22 11:43:01 00:B3:42:01:35:5A kernel: ==fiFc2StateClosing,lgnGetInfoState is 4,rPort=140100,rWWPN=10000000c9b8a120
May 22 11:43:01 00:B3:42:01:35:5A kernel: ==fiFc4TgtStateClosing,lgnGetInfoState is 4,rPort=140100,rWWPN=10000000c9b8a120
May 22 11:43:01 00:B3:42:01:35:5A kernel: ==fiXchgProcessLogindown,prli_count=1
May 22 11:43:01 00:B3:42:01:35:5A kernel: ==Logindown,busyXchgList=3
May 22 11:43:01 00:B3:42:01:35:5A kernel: ==FC session disconnected,Target port:500b342001355a04,Initiator:10000000c9b8a120
(3)存储诊断日志信息显示,主机和存储FC端口在 Target State Authenticate阶段异常终止,导致PRLI(ProcessLogin)异常终止。

(4)FC协议出于数据安全考虑,允许在PRLI登录阶段加入端口信息认证环节(可选项),需要确保端口的端口Port名称/Node名称和FCID信息与FLOGI/PLOGI阶段获取的信息要全部核对正确。


(5)FC交换机重启后链路震荡恢复正常过程中,有大量的端口要同时并发进行交互登录,异常链路因出现端口信息认证失败导致未正常恢复。

(6)存储Target端口是被动响应者, 主机端Initiator作为主动发起者,在链路异常恢复过程中应当具备充分的容错和可靠机制,对PRLI登录成功负责。

(7)FC链路建立过程中,芯片和FW已分别完成速率协商和链路初始化,FLOGI/PLOGI/PRLI/IO处理应该有驱动层实现,将问题范围进一步缩小至FC HBA驱动层。

(8)Emulex(被Broadcom收购)官网(https://docs.broadcom.com/docs/13357189)有公布驱动bug会导致PRLI登录异常,引导客户升级驱动版本解决。



四、解决方法

(1)如果条件允许,建议拔插链路存在异常的主机端FC端口光纤重新触发PRLI。

(2)客户为防止FC光纤拔插导致较多数量RSCN,不允许拔插光纤,可通过FC-SW端将主机端口从异常链路对应的ZONE中移除再重新添加方式恢复。

(3)宏杉存储正式发布的1.2.27T05之后版本,取消PRLI登录阶段端口信息认证环节,在FC链路震荡等异常情况,增加PRLI阶段端口互联的成功率,可协调升级存储版本解决。


五、风险提示

无。


六、关键字

FC PRLI Linkdown,Emulex




 附件

附件类型

PNGPNG

历史版本-目录  [回到顶端]
    宏杉案例知识库-V4.0.1