172  
   0
博科交换机慢速设备导致前端IO延时过高
作者:黄骏豪于 2023年02月21日 发布在分类 / 经验案例 / 经验案例 下,并于 2023年02月21日 编辑
慢速设备 c3 disc IO延时高 博科交换机 Sever latency bottlencek detceted

一、组网图

微码版本: V1.5.12T04P08

型号: MS7040G2-AF 800T 容量)

高级功能:精简 / 重删 / 压缩

二、问题描述

2023年2月20日,下午14:30左右,接到桌面云团队反馈前端业务与存储MS7040G2-AF-1关联的多个30TB大小LUN I/O访问延时过高(达到300-1000ms),造成约50台CNA、2000余个云桌面用户访问卡顿,无法正常办公。



三、过程分析


1 GUI 检查存储、 LUN 各项性能参数情况,发现对应的 LUN 和存储延时正常。

2 )检查设备无告警、但 GUI 日志出现大量 initiator SP1/SP2 4 target 连接 unstable warning 打印。



(3)确认打印 unstable 的客户端主机与受影响主机为同批设备。

(4)GUI 检查“物理资源”—“控制器”—“ FC 端口列表”,对应 target 的“误码信息”和“光模块诊断信息”一切正常。

(5)上述操作后,发现异常的只有 I_T 连接 unstable 打印,基本排除我司设备软硬件故障,排查思路转向至数据交换交换层设备。(博科光纤交换机)

(6)登录与 unstable Target 相关的交换机,检查交换机侧的 port 状态,使用 porterrshow 命令检查相关的 port 误码状态,发现各个 port 都存在大量 c3 disc 丢帧。

(7)使用 switchshow 检查全部端口速率状态,发现交换机其中一个级联端口( slot2 port31 E-port Trunk port )速率自协商为 8GB ,本应为 16GB

(8)使用 errdump 2/31 命令排查相关端口的日志,发现 2/31 级联模块自 2023 2 19 15 22 左右,出现了“ Sever latency bottlencek detceted at E-port 3/21 ”。



(9)根据博科交换机维护手册,问题初步定位为级联模块速率异常,导致出现了 “ Sever latency bottlencek detceted at E-port 3/21”,该打印代表慢速设备长时间占用Buffer Credit从而影响了整个Fabric传输性能下架,并使交换机上的端口出现C3 disc丢包现象。相关误码持续积累至2月20日下午14:30左右,最终影响了整个交换机的传输效果,从而导致云桌面出现LUN I/O延时访问高的问题。

10)在博科工程师同步判断下,更换速率异常的级联光模块,故障解决,云桌面侧监控LUN延时恢复正常。

 


四、解决方法


更换速率异常的级联光模块,并观察速率恢复至 16GB



五、风险提示


1 )非我司设备只能协助排查定位,尽量不要直接操作友商设备。

2 )拔插 SAN 交换机级联端口,可能导致业务中断,需要谨慎处理。

3 )相关 LUN 延时问题,客户普遍第一印象容易直观的认为是我司存储自身原因,及时排除我司设备问题,有利于后续推动网络部门协助排查。


六、关键字

慢速设备,c3 disc丢帧,LUN延时高,博科交换机,Sever latency bottlencek detceted,


 知识评论当前评论数0

 推荐知识


 访问权限

创建人 黄骏豪
工作小组 宏杉成员
文档编辑权限 创建者私有
文档阅读权限 来自分类
分类阅读权限 所有人
分类编辑权限 技术服务部  : 机构     渠道合作伙伴  : 机构     系统管理员 : 人员     
分类审核权限 审核小组  : 岗位    
分类预览权限 审核小组 : 岗位    
分类下载权限 技术服务部  : 机构    
 历史版本

修改日期 修改人 备注
2023-02-21 12:21:40[当前版本] 黄骏豪 CREAT

 附件

附件类型

JPEGJPEG PNGPNG

 目录
     关联知识
    1. 博科交换机接入波分设备是否需要配置trunk口?
    2. 存储16G FC光模块与8G 博科交换机相连兼容性问题解决方案
    3. 怎么排查一个LUN的性能突然变差,延时增高
    宏杉案例知识库-V4.0.1