V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Lunrry
V2EX  ›  服务器

Linux 多主机监控方案

  •  
  •   Lunrry · 2023-10-16 11:19:21 +08:00 · 2343 次点击
    这是一个创建于 430 天前的主题,其中的信息可能已经有所发展或是发生改变。

    本人刚入职运维不久,现在公司内部有几十台服务器,同时不同客户单位也平均每家有两三台服务器需要运维管理。想要寻求一个方案,能够实时监控每台服务器的健康状态,我公司部署的服务健康状态,发生异常能够及时报警通知。目前想到的是利用 zabbix 进行监控,还请各位指点一下。

    26 条回复    2023-10-17 10:42:02 +08:00
    jstony
        1
    jstony  
       2023-10-16 11:31:43 +08:00
    公司之前没有服务器监控?先问问前任怎么管理这些机器的。
    zhhmax
        2
    zhhmax  
       2023-10-16 11:34:15 +08:00
    prometheus+grafana ,也挺好用的,我自己的几台服务器就用的这个.
    Lunrry
        3
    Lunrry  
    OP
       2023-10-16 11:34:35 +08:00
    @jstony #1 以前的运维溜了,我是来接盘的,就我一个运维,我在 SVN 里面没看到有啥监控方案,感觉应该是手搓的
    libook
        4
    libook  
       2023-10-16 11:35:43 +08:00
    先看是不是服务器上有现有的满足需要的监控方案,如果没有再考虑加监控。

    在满足监控需求的基础上,哪个顺手就用哪个,比如你对 zabbix 熟悉就用 zabbix ,如果对 prometheus 熟悉就用 prometheus 。
    Lunrry
        5
    Lunrry  
    OP
       2023-10-16 11:35:58 +08:00
    @zhhmax #2 我去了解下,可以适应这种不同网络环境下的情况吗
    greenskinmonster
        6
    greenskinmonster  
       2023-10-16 11:37:25 +08:00
    zabbix 没啥问题,很好用
    Lunrry
        7
    Lunrry  
    OP
       2023-10-16 11:41:09 +08:00
    @libook #4 zabbix 会简单的安装配置,prometheus 完全没接触过,哪种方案入门容易呢
    libook
        8
    libook  
       2023-10-16 11:46:10 +08:00
    @Lunrry #7 没有更容易的,都是在满足需求的基础上先入为主。比如你 zabbix 熟悉一些,相比来说可能就比 prometheus 少一些学习成本。
    Lunrry
        9
    Lunrry  
    OP
       2023-10-16 11:50:53 +08:00
    @libook #8 我觉得主要的难点是服务器位于不同地区,有的客户服务器没有公网 IP ,通过堡垒机连上的
    libook
        10
    libook  
       2023-10-16 12:07:27 +08:00
    @Lunrry #9 多个网络的情况,比较理想的做法是做专用的通道来将监控数据集中收集。比如数据从每个网络以加密的方式推送到中心监控服务器。

    你可以看看 Zabbix 的官方文档,看是否可以在每个网络内使用 Zabbix Proxy 来收集网络内的监控信息,然后再让 Zabbix Proxy 主动推送信息到网络外的中心 Zabbix 服务器。
    internelp
        11
    internelp  
       2023-10-16 12:08:34 +08:00
    @Lunrry zabbix 可以拉可推,配置推数据就可以了。
    Lunrry
        12
    Lunrry  
    OP
       2023-10-16 13:15:51 +08:00
    @libook #10 好的 多谢了,我去研究研究
    Martin123123
        13
    Martin123123  
       2023-10-16 15:31:47 +08:00
    还可以尝试类似于 哪吒监控 的方式,顺便可以做一下探针
    Aumujun
        14
    Aumujun  
       2023-10-16 15:34:06 +08:00
    单纯只是主机监控的话 推荐 zabbix ,有上 k8s ,可以 prometheus ,生态比较好。
    tool2d
        15
    tool2d  
       2023-10-16 15:34:41 +08:00
    写点脚本,写个循环 ping ,ping 每一个服务器。

    ping 不通超过几次就邮件报警。
    Lunrry
        16
    Lunrry  
    OP
       2023-10-16 15:48:59 +08:00
    @tool2d #15 这个只能监控服务器是否在线吧,而且别人单位的服务器有的在内网,有的禁止 ping
    Foxkeh
        17
    Foxkeh  
       2023-10-16 16:07:20 +08:00
    十几台机器, 我是用的 zabbix, 告警是 Email+企业微信机器人
    楼上说的 prometheus+grafana 方案听过好多次了, 等有空我也打算学习下
    kumago
        18
    kumago  
       2023-10-16 16:27:07 +08:00
    Uptime Kuma 简单
    lifekevin
        19
    lifekevin  
       2023-10-16 16:51:32 +08:00
    我现在用的方式是 prometheus+grafana ,不在同个网络的内网机器使用 vpn 通道来传输数据。
    vpn 通道是用 wireguard 部署的,只要有一端有公网 IP 就可以了。
    部署之前啥方案都不熟,所以选了当下比较多人推荐的方案,自己看文档慢慢测试就行。
    bohai
        20
    bohai  
       2023-10-16 20:07:53 +08:00 via iPhone
    建议 op 直接选用熟悉的 zabbix 来监控,不同地区使用 proxy 来完成数据采集。
    devopsdogdog
        21
    devopsdogdog  
       2023-10-16 23:00:15 +08:00
    zabbix 简单易用,监控 url 和 主机状态够了,自定义脚本也灵活

    客户的服务器状态就别管了,除非你们是 包括运维,否则 挂了再说吧,机器不在你这,一般就是代表客户自己管理吧。
    user100saysth
        22
    user100saysth  
       2023-10-17 07:49:19 +08:00 via iPhone
    @lifekevin 客户的机器上装组网?
    你是认真的吗
    Lunrry
        23
    Lunrry  
    OP
       2023-10-17 09:07:08 +08:00
    @devopsdogdog #21 基本上就是客户将几台服务器交给我们,我负责公司平台的私有化部署,服务出问题以及服务升级需要去处理。连接方式有通过向日葵等连接内网 Windows 前置机再 ssh 进服务器;堡垒机登陆; vpn 登陆。这种情况下可以通过 zabbix proxy 收集状态与 zabbix server 通信告警吗
    devopsdogdog
        24
    devopsdogdog  
       2023-10-17 09:37:44 +08:00
    @Lunrry 有内网要求的,一般都不会允许,除非客户提出,否则别搞。你想想人家为啥要搞 vpn 搞堡垒机,你搞个监控在人家机子上,你们算啥。
    Lunrry
        25
    Lunrry  
    OP
       2023-10-17 10:11:34 +08:00
    @devopsdogdog #24 这个确实安全方面是个问题,不要稍微有点事就得背锅
    jstony
        26
    jstony  
       2023-10-17 10:42:02 +08:00
    @Lunrry 看你描述的环境,你可以考虑了解一下公司的系统维护策略,是不是确实需要做提前预警介入。会不会本身规划的就是等待客户报障,分配工单,接单处理。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3348 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 11:26 · PVG 19:26 · LAX 03:26 · JFK 06:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.