记一次线上bug处理

早上刚刚来,突然接到一个电话,说线上出bug了,看一下,说是某个文件创建失败,根据错误提示,去代码里面grep,再根据域名,很快定位了错误,

是要在一个文件里面,fwrite,但是之前已经 is_writable 进行 判断了,也就是可以写,有权限,但是真正写的时候,却还是不行,初步判断是系统问题,猜测是磁盘满了。

通过 df -lh 判断,果然/data0的使用率已经是100%了,再根据du  -hc /data0判断,发现才使用65mb,也就是说,其实不是磁盘真正满了,而是没有释放而已

命令  lsof |grep delete 查找 已经删除了,但是却还没有关闭的系统文件,果然有一个bf_tennis.log 的文件极大,并且尚未关闭,找到对应的pid,也即是第二列的数字,发现pid是一个2014年开始在跑的进程,目前源代码都已经被删除了,但却没有关闭的进程,果断kill掉,再次df -hl ,ok, /data0 使用率已经降到了48%,再kill两个,/data0使用率变成了2%,问题顺利解决

Leave a comment

Your email address will not be published.

*