一、问题描述
问题发现:
现场客户反馈前端数据库查询数据卡顿,底层查看 数据lun iostat延时过高,不正常;
项目名称:
江西省医疗保障局原核心业务系统存储项目
存储环境:
MS7020G2(V1.5.3T01_DTDC.15P09_G02)
前端环境:服务器 |
6 台浪潮TS860、2 台 I BM P780 |
交换机 |
2台博科光纤交换机 |
操作 系统 |
R edhat 6.5/AIX6.1 |
数据 库 |
Oracle11.0.2.4. 0 |
组网拓扑:
现场收集诊断信息,与后端二、三线同事一同排除了链路问题;
二、过程分析
如上图,通过监测前端服务器发现部分lun await达到20ms,通过控制变量 排除磁盘硬件导致;
与研发分析,尝试从存储ODSP系统角度找原因;
创建测试卷,并进行dd打流,同样的读写模型,SP1和SP2延时相差很大;
仔细排查,测试lun都再同一个RAID下,而高延时lun均归属在控制器SP1上;
尝试将 问题lun 的所属控制器切换为SP2,切换后可见延时明显降低;
故我们可将问题大致定位在控制器及其端口下;
底层确认控制器和端口配置文件,现场排查端口物理硬件问题;
三、解决方法
通过研发底层诊断确认,SP2端 端口IO计数没有达到阈值,流控没有生效,SP1端 端口IO计数有误,导致流控生效了;
登陆底层按照模块参数执行命令关闭后,查看服务器端,问题lun的延时恢复正常;
延时高,问题已解决;
(相应流控关闭脚本需与二线确认后使用)
四、风险提示
该问题解决办法为将控制器流控模块永久关闭。(该操作需经研发确认)
六、关键字
控制器,延时高,流控
创建人 | 蒋子豪 |
文档编辑权限 | 创建者私有 |
文档阅读权限 | 来自分类 |
分类阅读权限 | 所有人 |
分类编辑权限 | 技术服务部 : 机构 渠道合作伙伴 : 机构 系统管理员 : 人员 |
分类审核权限 | 审核小组 : 岗位 |
分类预览权限 | 审核小组 : 岗位 |
分类下载权限 | 技术服务部 : 机构 |
修改日期 | 修改人 | 备注 |
2021-08-18 13:59:42[当前版本] | 蒋子豪 | CREAT |
附件类型 | JPG |
|