作者:李劲松于 2024年07月11日 发布在分类 / 经验案例 / 经验案例 下,并于 2024年07月11日 编辑
2024-07-11 11:07:34版本: fd文件泄露导致GUI无法登录
 历史版本

修改日期 修改人 备注
2024-07-11 11:18:32[当前版本] 李劲松 格式调整
2024-07-11 11:07:34 李劲松 CREAT

1 问题描述

产品信息: MS7040G2-AF-HG

软件信息: V3.0.6T06P20

故障现象:出现 SNMP cpu 利用率高的 告警 ,同时 GUI 无法登录

2 原因分析

2.1 日志分析

1、fd文件打开次数查询为1010次,超过1000则异常,fd文件泄露。

查询命令为:

   ps -aux | grep snmpd

   lsof | grep PID | grep upgrademod | wc -l

   2 Webservice 虚拟内存正常,未超过 1572864 ,所以并非造成无法登录的原因。

   查询命令为:

   ps aux |grep axis |grep -v vir |grep -v grep


3 分析结论

3.1 问题原因 及影响

1 snmp 进程会调用 webservice 接口, snmp 调用接口的 fd 文件泄漏的时候占用 webservice 资源 导致 GUI 无法 登陆。 案例中 fd 文件打开次数为 1010 次, fd 文件已经泄露。

2 升级后出现 SNMP CPU 利用率告警原因为 V3.0.6T06P20 合入进程的 CPU 利用率超过 85% 打印到 odsp.log message 中,为了避免出现 CPU 波动导致误判, CPU 利用率告警做了告警防抖处理,即一分钟检测一次, 10 次当中有 8 次告警,告警中心才会出现 CPU 利用率告警

3.2 解决方案

    1 SNMP CPU 利用率高的那端重启 SNMP 服务就能临时解决 SNMP CPU 利用率高和 GUI 登陆 失败 问题,重启 snmp 进程命令:

    ps -aux | grep snmpd | grep -v grep

    kill -9 PID (以实际为准)

4 影响范围

1 涉及 软件版本: V3.0.6T06P20

2 涉及 硬件型号: 所有升级至 V3.0.6T06P20 的设备

5 处理意见

1 如果 SNMP 每天获取次数不超过 1000 ,则升级 V3.0.6Tx B11 补丁,该补丁适用于源版本为 V3.0.6X 合入每天凌晨零点定时重启 SNMP 进程, SMP 设备也可升级 B11

\\172.153.254.4\Software_Tmp\02- 受限使用版本 \ 基于 V3.0.6 的受限使用版本 \V3.0.6Tx_B11

2 如果 SNMP 每天获取次数超过 1000 ,则升级 V3.0.6Tx B14 补丁,该补丁适用于源版本为 V3.0.6X 合入每天中午 12 点和凌晨零点定时重启 SNMP 进程, SMP 设备也可升级 B14

\\172.153.254.4\Software_Tmp\02- 受限使用版本 \ 基于 V3.0.6 的受限使用版本 \\ V3.0.6Tx_B1 4

3 fd 文件泄漏彻底解决方法:待 2024 Q3 研发合入新版本后,升级解决;

6 风险点

该问题不影响设备的正常运行 只影响 GUI 登录及 SNMP GET 获取信息功能。


 附件

附件类型

PNGPNG

历史版本-目录  [回到顶端]
    宏杉案例知识库-V4.0.1