669  
   0
存储控制器端口IO计数错误而影响性能解决案例
作者:蒋子豪于 2021年08月18日 发布在分类 / 经典配置 / 经典配置 下,并于 2021年08月18日 编辑
控制器 延时高 流控

一、问题描述

问题发现:

现场客户反馈前端数据库查询数据卡顿,底层查看 数据lun iostat延时过高,不正常;

项目名称:

江西省医疗保障局原核心业务系统存储项目

存储环境:

MS7020G2(V1.5.3T01_DTDC.15P09_G02)

前端环境:

服务器

6 台浪潮TS860、2 I BM P780

交换机

2台博科光纤交换机

操作 系统

R edhat  6.5/AIX6.1

数据

Oracle11.0.2.4. 0

组网拓扑:

现场收集诊断信息,与后端二、三线同事一同排除了链路问题;



二、过程分析


如上图,通过监测前端服务器发现部分lun  await达到20ms,通过控制变量 排除磁盘硬件导致;

与研发分析,尝试从存储ODSP系统角度找原因;


创建测试卷,并进行dd打流,同样的读写模型,SP1和SP2延时相差很大;


仔细排查,测试lun都再同一个RAID下,而高延时lun均归属在控制器SP1上;

尝试将 问题lun  的所属控制器切换为SP2,切换后可见延时明显降低;


故我们可将问题大致定位在控制器及其端口下;

底层确认控制器和端口配置文件,现场排查端口物理硬件问题;


三、解决方法

通过研发底层诊断确认,SP2端 端口IO计数没有达到阈值,流控没有生效,SP1端 端口IO计数有误,导致流控生效了;

登陆底层按照模块参数执行命令关闭后,查看服务器端,问题lun的延时恢复正常;

延时高,问题已解决;

(相应流控关闭脚本需与二线确认后使用)

四、风险提示

该问题解决办法为将控制器流控模块永久关闭。(该操作需经研发确认)

六、关键字

控制器,延时高,流控




 知识评论当前评论数0

 推荐知识


 访问权限

创建人 蒋子豪
文档编辑权限 创建者私有
文档阅读权限 来自分类
分类阅读权限 所有人
分类编辑权限 技术服务部  : 机构     渠道合作伙伴  : 机构     系统管理员 : 人员     
分类审核权限 审核小组  : 岗位    
分类预览权限 审核小组 : 岗位    
分类下载权限 技术服务部  : 机构    
 历史版本

修改日期 修改人 备注
2021-08-18 13:59:42[当前版本] 蒋子豪 CREAT

 附件

附件类型

JPGJPG

 目录
    宏杉案例知识库-V4.0.1