V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Wdafff
V2EX  ›  问与答

请问各位大佬, Linux 在空闲时期时不时死机该怎么排查?

  •  
  •   Wdafff · 2023-02-21 09:14:59 +08:00 · 1921 次点击
    这是一个创建于 674 天前的主题,其中的信息可能已经有所发展或是发生改变。

    1.服务器运行快一年了,最近一个月内,空闲时 CPU 突然飙升,然后死机。

    2.添加了 crash log ,死机重启后并没有日志。

    3.系统是 CentOS Linux 7 ,Kernel: Linux 3.10.0-1160.71.1.el7.x86_64 。

    4.服务器是一台 CDH6.3.2 数据节点,配置 24C128G 。

    第 1 条附言  ·  2023-02-21 11:34:19 +08:00
    现在加了每分钟记录 top ,等下次死机出现看看。。。
    19 条回复    2023-02-21 14:27:03 +08:00
    msclelo
        1
    msclelo  
       2023-02-21 09:26:54 +08:00 via iPhone
    1. 开启 coredump ,必要时 gdb 分析日志,对技术要求高一点
    2. 检查下系统日志,看能不能找到些蛛丝马迹
    3. 通过脚本获取 cpu 、内存占用信息,排查下是不是哪个进程导致(这种不一定有效,特别是突发情况,很难捕捉和定位到具体根因)
    4. 重装大法
    wuruxu
        2
    wuruxu  
       2023-02-21 09:31:37 +08:00
    整个监控脚本,CPU 飙升时,运行 top 看看是那个软件搞事情,然后对症下药
    Wdafff
        3
    Wdafff  
    OP
       2023-02-21 09:35:17 +08:00
    @msclelo #1 2 、3 都排查过了,看不出问题,现在试试开启 coredump ,实在不行再重装了
    pupboss
        4
    pupboss  
       2023-02-21 09:39:27 +08:00
    CPU 飙升有时候是磁盘 IO 等待导致的,你这个情况可以重点排查磁盘
    Wdafff
        5
    Wdafff  
    OP
       2023-02-21 09:40:11 +08:00
    @wuruxu #2 CPU 开始上升时就已经死机了,所有的监控都断了,脚本还会运行吗
    tlxxzj
        6
    tlxxzj  
       2023-02-21 09:44:45 +08:00
    对网络流量监控看看,可能是被挖矿了
    Wdafff
        7
    Wdafff  
    OP
       2023-02-21 09:45:08 +08:00
    @pupboss #4 空闲时也有可能死机,看历史监控磁盘 IO 并不高,单独压测服务器又没有问题
    neoacj1
        8
    neoacj1  
       2023-02-21 09:45:53 +08:00
    找块新硬盘 dd 过去,排除硬盘问题
    Wdafff
        9
    Wdafff  
    OP
       2023-02-21 09:46:27 +08:00
    @tlxxzj #6 内网服务器也不安装其他软件,应该不会吧,流量看着和其他正常服务器差别不大
    duzhor
        10
    duzhor  
       2023-02-21 09:54:02 +08:00
    你都说是 hadoop 节点了。cpu 、内存、磁盘,不外乎这几个导致的,大部分情况可能是内存频繁 OOM 、磁盘读写过高而引起,写个脚本记录 top10 进程,总能找到蛛丝马迹
    Eytoyes
        11
    Eytoyes  
       2023-02-21 09:56:20 +08:00   ❤️ 1
    物理服务器可以跑硬件诊断看看,排除硬件问题

    遇到过一个问题和你类似,也是不定期卡死,高负载、低负载都会死,后来跑诊断到 cpu 直接卡死,400 来换了个 CPU 之后故障消失
    Wdafff
        12
    Wdafff  
    OP
       2023-02-21 09:59:14 +08:00
    @Eytoyes #11 就是跑一遍压测吗
    fengfisher3
        13
    fengfisher3  
       2023-02-21 10:06:10 +08:00
    如果进程占用系统层面的问题都排查了。那就可能是操作系统(重装系统)或硬件的问题大概率是磁盘。Eytoyes 说得对。
    fengfisher3
        14
    fengfisher3  
       2023-02-21 10:08:17 +08:00
    不过,如果你是最近一个月才出现的问题,按理不应该是系统和硬件的呢。出问题前有没有做过什么调整,包括搬动位置,或者是修改过什么配置等,先从有变动的地方去定位问题。
    Wdafff
        15
    Wdafff  
    OP
       2023-02-21 10:13:33 +08:00
    @fengfisher3 #14 硬件、系统没有改动,唯一改动的就是任务代码,但是代码有问题也不应该就影响一台服务器
    Eytoyes
        16
    Eytoyes  
       2023-02-21 10:18:09 +08:00
    @Wdafff #12 服务器 boot 时选择 Hardware Diagnostics 功能,全面检测耗时较长,建议在允许服务器长时间下线的情况下再去操作
    bitdepth
        17
    bitdepth  
       2023-02-21 11:38:43 +08:00
    如果是 hardware 問題,你這個 server 沒有 BMC 嗎?
    LXGMAX
        18
    LXGMAX  
       2023-02-21 14:19:01 +08:00
    遇到过硬盘坏块导致系统动不了的,可以扫磁盘看看
    la2la
        19
    la2la  
       2023-02-21 14:27:03 +08:00
    CDH 数据节点,直接下线重做系统
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5730 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 02:53 · PVG 10:53 · LAX 18:53 · JFK 21:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.