一、组网图
二、问题描述
MS7040G2-AFT-HG设备挂载8个1T LUN(SLUA)到麒麟V10服务器,配置我司自研多路径(V1.0.15),服务器端使用Orion工具对挂载LUN模拟IO读写测试,通过disable交换机端口模拟单控制器故障,IO跌0 1s
Orion脚本如下: ./orion_linux_x86-64 -run advanced -type rand -simulate raid0 -num_small 100 -size_small 8 -write 0 -duration 360 -matrix col -testname mytest
三、过程分析
1.查询自研多路径下挂载LUN状态,状态正常
2.查询多路径策略:
Path Select Mode设置为Load Balance Between Storage
FC Link Down Timeout 值设置为 1(默认最小值为1,手动设置timeout值为0后报错)
3.收集多路径日志:
/usr/macropath/bin/macropath-cli下输入diaginfo export
在/usr/macropath_log/下收集日志压缩包
四、解决方法
经研发分析 修改自研多路径linkdown值为0s,可以解决均衡slua lun IO跌0问题
解决步骤如下:
2、登陆服务器SSH,替换/usr/macropath/config目录下的global_conf.xml,替换完成后校验MD5值,MD5值为:1c9791f58d146c0b1ad93939be2c24ee global_conf.xml ,global_conf.xml 文件内容如下
<?xml version="1.0"?> <global_conf> <version>MacroPath 1.0</version> <bsc_info> <item id="work_mode" value="2"/> <!--0 : load balance in SP; 1 : Load Balance Between SP; 2 : Load Balance Between Storage;--> <item id="faulty_path_check_interval" value="5"/> <item id="normal_path_check_interval" value="40"/> <item id="path_select_mode" value="2"/> <!--0 : round-robin; 1 : min-queue-depth; 2 : min-task;--> <item id="no_path_tmo" value="180s"/> <item id="io_delay_no_path" value="30s"/> <item id="link_down_time_out_fc" value="0"/> <item id="link_down_time_out_iscsi" value="0"/> <item id="path_transform_switch" value="0"/> <!--0 : off; 1 : on;--> <item id="path_checkerr_intel" value="1"/> <item id="path_checkerr_times" value="2"/> <item id="path_checktmo_tmo" value="3"/> <item id="path_checktmo_intel" value="5"/> <item id="path_checktmo_num" value="2"/> <item id="path_checkresume_tm" value="1"/> <item id="path_degraded_multiple" value="2"/> <item id="path_degraded_maxrsptime" value="8"/> <item id="path_degradedshake_num" value="5"/> <item id="path_degradedshake_time" value="3"/> <item id="path_choose_policy" value="0"/> <!--0 : Optimal; 1 : Available; 2 : Intelligent;--> </bsc_info> </global_conf>
五、风险提示
无
六、关键字
自研多路径,FC Link Down Timeout