某局点配置了两套MS9040G2存储,配置双活,由于跨不同机房,双活组网使用交换机组网方式(万兆以太网交换机),复用客户业务交换机,组网方式如下图所示,在使用过程中遇到性能问题,由于LUN延时高,导致Oracle数据库宕机,SAN_NAS业务也收到影响,经过具体排查后发现是由于双活私有链路出现丢包导致重传,从而导致LUN超时严重,影响到业务。
补充:左边为调整前环境,右边为调整后环境。
双活组网图
1、在研发协助下,通过sar命令检查双活私有链路质量,具体命令为:sar -n ETCP 1(查看TCP网络相关信息,1表示每隔1s统计一次)。
2、其中重点查看了第四列(retrans/s),其表示TCP数据包重传次数,该值越大,越表示当前网络质量有问题,存在的网络问题导致出现丢包,丢包后便会重传,重传便导致了超时,对于我司双活私有链路,延时不能超过5ms,而在客户监控可以看到延时最高到600ms,导致问题触发,所以问题是由于网络导致。
既然排查到了是网络问题导致双活链路丢包和重传,那么建议直接更换目前的网络拓扑,不在复用客户业务交换机,而直接将两台交换机做级联(如双活组网图右侧所示),更换了交换机拓扑后再次检查,双活私有链路不在出现重传现象,网络稳定,在存储性能统计侧查看,所有数据LUN的延时均下降,业务恢复正常。
1、对于跨机房做存储双活,双活私有链路要使用交换机方式组网,建议不用复用客户业务交换机,尤其涉及到接入汇聚交换机的情况,最好将交换机直接级联,网络质量有保障。
2、不管使用以太网作为双活私有网络,还是作为前端业务网路,遇到网络故障问题,可以参考使用sar命令去排查(sar -n ETCP 1只是其中一种方法)。