腾讯云 Ubuntu 开机重启特别慢,要十几二十分钟
今天腾讯云上某台 Ubuntu 20.04 服务器突然卡死。
CPU 占用不高(大概 60~70%),但是负载很高(load average),见下图:
既然是 CPU 占用高,那首先就是用 top 看看是哪个线程出现了问题。但是系统太卡了,SSH 打字都能卡几十秒,根本没法用。
无奈只能通过腾讯云后台重启服务器,通过 VNC 观察重启过程,发现本来应该几秒钟就闪过的启动信息,居然一行一行慢慢刷新,我就等他刷完,感觉有几百行吧,反正等了 10 分钟还没刷完。整个启动过程用了 20 分钟还没启动完成。
现在最重要的是赶紧进系统用 top 查看究竟是那个进程占用 CPU,是不是被挖矿了。
又等了很久才勉强进系统,刚进系统就收到提示:
System information disabled due to load higher than 1.0
我就赶紧用 TOP,看了一下,虽然腾讯后台显示 CPU 一直 100%,但是 TOP 显示才 60~70%,只是 load average 很高。
更奇怪的是,从图片中我们可以看到两个占用 CPU 最多的 barad_agent 和 YDService 居然是腾讯自带的服务,合达到了 35% 左右,所以我就赶紧提交工单找售后工程师。
售后工程师登机后,给我的建议是先安装新版试试。
就按他说的做,折腾了一晚上也没啥效果。
结果第二天收到了腾讯云的站内信,如下:
平台事件告警恢复
尊敬的腾讯云客户:xxx,后台监控到您的云服务器所在宿主机异常宕机,目前云服务器已经快速重新拉起恢复。
您的腾讯云账号:abc***** 影响主机内网 IP:xxx.xxx.xxx.xxx 机器别名:abc-host1 项目:默认项目 恢复时间:2022-12-08 00:34:24
麻烦您确认下业务是否正常。感谢您的理解和支持。
额,现在已经恢复了,跟腾讯云监控没关系。又恢复纵享丝滑了。
如果遇到同样问题的小伙伴,不一定是自己被挖矿了。
可以先找腾讯售后看看是不是自己的宿主机坏了。
如果您需要更新云监控组件,可以按照如下步骤进行更新:
1. 先按照这个文档卸载组件:https://cloud.tencent.com/document/product/248/53584
2. 再根据这个安装文档安装组件即可,默认就是最新版:https://cloud.tencent.com/document/product/248/6211
欢迎转载,但请勿用于任何商业用途,谢谢你!请标注以下信息『 原文出处:腾讯云 Ubuntu 开机重启特别慢,要十几二十分钟 - 张林海博客 http://zhanglinhai.com/archives/1458 』