微码版本: V1.5.12T04P08
型号: MS7040G2-AF ( 800T 容量)
高级功能:精简 / 重删 / 压缩
2023年2月20日,下午14:30左右,接到桌面云团队反馈前端业务与存储MS7040G2-AF-1关联的多个30TB大小LUN I/O访问延时过高(达到300-1000ms),造成约50台CNA、2000余个云桌面用户访问卡顿,无法正常办公。
( 1 ) GUI 检查存储、 LUN 各项性能参数情况,发现对应的 LUN 和存储延时正常。
( 2 )检查设备无告警、但 GUI 日志出现大量 initiator 与 SP1/SP2 的 4 个 target 连接 unstable warning 打印。
(3)确认打印 unstable 的客户端主机与受影响主机为同批设备。
(4)GUI 检查“物理资源”—“控制器”—“ FC 端口列表”,对应 target 的“误码信息”和“光模块诊断信息”一切正常。
(5)上述操作后,发现异常的只有 I_T 连接 unstable 打印,基本排除我司设备软硬件故障,排查思路转向至数据交换交换层设备。(博科光纤交换机)
(6)登录与 unstable Target 相关的交换机,检查交换机侧的 port 状态,使用 porterrshow 命令检查相关的 port 误码状态,发现各个 port 都存在大量 c3 disc 丢帧。
(7)使用 switchshow 检查全部端口速率状态,发现交换机其中一个级联端口( slot2 port31 E-port Trunk port )速率自协商为 8GB ,本应为 16GB 。
(8)使用 errdump 2/31 命令排查相关端口的日志,发现 2/31 级联模块自 2023 年 2 月 19 日 15 : 22 左右,出现了“ Sever latency bottlencek detceted at E-port 3/21 ”。
(9)根据博科交换机维护手册,问题初步定位为级联模块速率异常,导致出现了 “ Sever latency bottlencek detceted at E-port 3/21”,该打印代表慢速设备长时间占用Buffer Credit从而影响了整个Fabric传输性能下架,并使交换机上的端口出现C3 disc丢包现象。相关误码持续积累至2月20日下午14:30左右,最终影响了整个交换机的传输效果,从而导致云桌面出现LUN I/O延时访问高的问题。
( 10)在博科工程师同步判断下,更换速率异常的级联光模块,故障解决,云桌面侧监控LUN延时恢复正常。
更换速率异常的级联光模块,并观察速率恢复至 16GB 。
(1 )非我司设备只能协助排查定位,尽量不要直接操作友商设备。
( 2 )拔插 SAN 交换机级联端口,可能导致业务中断,需要谨慎处理。
( 3 )相关 LUN 延时问题,客户普遍第一印象容易直观的认为是我司存储自身原因,及时排除我司设备问题,有利于后续推动网络部门协助排查。
慢速设备,c3 disc丢帧,LUN延时高,博科交换机,Sever latency bottlencek detceted,