39  
   0
双活链路性能分析.docx
作者:李永飞于 2024年01月30日 发布在分类 / 经验案例 / 经验案例 下,并于 2024年01月30日 编辑
双活私有网络 交换机组网 LUN延时 sar

双活私有链路故障排查


一、问题背景

某局点配置了两套MS9040G2存储,配置双活,由于跨不同机房,双活组网使用交换机组网方式(万兆以太网交换机),复用客户业务交换机,组网方式如下图所示,在使用过程中遇到性能问题,由于LUN延时高,导致Oracle数据库宕机,SAN_NAS业务也收到影响,经过具体排查后发现是由于双活私有链路出现丢包导致重传,从而导致LUN超时严重,影响到业务。

补充:左边为调整前环境,右边为调整后环境。

双活组网图

二、排查方法

1、在研发协助下,通过sar命令检查双活私有链路质量,具体命令为:sar -n ETCP 1(查看TCP网络相关信息,1表示每隔1s统计一次)。

2、其中重点查看了第四列(retrans/s),其表示TCP数据包重传次数,该值越大,越表示当前网络质量有问题,存在的网络问题导致出现丢包,丢包后便会重传,重传便导致了超时,对于我司双活私有链路,延时不能超过5ms,而在客户监控可以看到延时最高到600ms,导致问题触发,所以问题是由于网络导致。


三、解决方案

既然排查到了是网络问题导致双活链路丢包和重传,那么建议直接更换目前的网络拓扑,不在复用客户业务交换机,而直接将两台交换机做级联(如双活组网图右侧所示),更换了交换机拓扑后再次检查,双活私有链路不在出现重传现象,网络稳定,在存储性能统计侧查看,所有数据LUN的延时均下降,业务恢复正常。

四、项目总结

1、对于跨机房做存储双活,双活私有链路要使用交换机方式组网,建议不用复用客户业务交换机,尤其涉及到接入汇聚交换机的情况,最好将交换机直接级联,网络质量有保障。

2、不管使用以太网作为双活私有网络,还是作为前端业务网路,遇到网络故障问题,可以参考使用sar命令去排查(sar -n ETCP 1只是其中一种方法)。


 知识评论当前评论数0

 推荐知识


 访问权限

创建人 李永飞
工作小组 宏杉及合作伙伴
文档编辑权限 创建者私有
文档阅读权限 来自分类
分类阅读权限 所有人
分类编辑权限 技术服务部  : 机构     渠道合作伙伴  : 机构     系统管理员 : 人员     
分类审核权限 审核小组  : 岗位    
分类预览权限 审核小组 : 岗位    
分类下载权限 技术服务部  : 机构    
 历史版本

修改日期 修改人 备注
2024-01-30 22:29:29[当前版本] 李永飞 CREAT

 附件

附件类型

JPEGJPEG PNGPNG

 目录
    宏杉案例知识库-V4.0.1