V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
课程减减-极客时间优惠返现
极客时间 400+ 门体系课,大量最新 AI 课程,百万程序员的进阶课程库。与极客时间官方合作,购买课程后归还返现红包,买课更优惠。
Promoted by windliang
annoygaga
V2EX  ›  程序员

你们都是怎么做大规模的 prometheus 服务方案的?

  •  1
     
  •   annoygaga · 2024-05-23 00:54:37 +08:00 · 3015 次点击
    这是一个创建于 410 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题,小弟想咨询一下大规模的 prometheus 的方案

    规模主要体现在:

    • 数据量较大
    • 查询量也比较多

    但目前 prometheus 主要是单机的方式,想问问分布式的扩展方法

    28 条回复    2024-05-28 09:51:59 +08:00
    duanzhanling
        1
    duanzhanling  
       2024-05-23 07:23:17 +08:00
    可以使用 vm 平滑替换 prometheus
    seers
        2
    seers  
       2024-05-23 07:44:47 +08:00 via Android
    k8s operator 直接放集群里面
    chankay
        3
    chankay  
       2024-05-23 08:43:29 +08:00
    vm 集群版
    F7TsdQL45E0jmoiG
        4
    F7TsdQL45E0jmoiG  
       2024-05-23 09:03:52 +08:00   ❤️ 1
    联邦,分层聚合
    DAPTX4869
        5
    DAPTX4869  
       2024-05-23 09:13:24 +08:00
    @duanzhanling #1 vm 的全称是?
    standchan
        6
    standchan  
       2024-05-23 09:25:06 +08:00   ❤️ 1
    @DAPTX4869 #5 VictoriaMetrics
    nicholasxuu
        7
    nicholasxuu  
       2024-05-23 09:27:53 +08:00
    thanos
    qW7bo2FbzbC0
        8
    qW7bo2FbzbC0  
       2024-05-23 09:28:34 +08:00
    VictoriaMetrics
    coyove
        9
    coyove  
       2024-05-23 09:34:24 +08:00
    关于数据量和 qps ,可以在 prometheus 或 influxdb 前做一层代理,在那里聚合 metrics 每 30s 上报一次
    yph007595
        10
    yph007595  
       2024-05-23 09:57:30 +08:00   ❤️ 1
    @DAPTX4869 #5 VictoriaMetrics
    ounxnpz
        11
    ounxnpz  
       2024-05-23 10:00:16 +08:00
    thanos ,长期数据存对象存储
    realpg
        12
    realpg  
    PRO
       2024-05-23 10:06:01 +08:00
    prometheus
    没必要搞很大规模的集群
    拆解开就完事 拆解成多个 prometheus 也不集群化 各自独立采集 每个 exporter 采集至少两份就好
    在可视化层, 比如 grafana 进行数据展现时带逻辑
    tramm
        13
    tramm  
       2024-05-23 10:12:46 +08:00
    数据量多大?
    说不定根本用不到集群...
    chesha1
        14
    chesha1  
       2024-05-23 11:53:24 +08:00
    首先对于 Prometheus 的前后,最好有一个 mq (比如 kafka )和持久化组件(比如 mimir )

    对于 Prometheus 本身,比较简单的方法就是在不同的机器(集群)上手动多建几个 Prometheus 实例,反正都是放到同一个远程的存储里

    如果单个集群就已经大到超过单 Prometheus 实例的抓取能力了,Prometheus 支持联邦: https://prometheus.io/docs/prometheus/latest/federation/,相当于有多个 Prometheus ,后面的 Prometheus 从前面的 Prometheus 抓取数据
    liuliancao
        15
    liuliancao  
       2024-05-23 13:37:57 +08:00
    目前我们是这样
    prometheus 1 抓取 federate1 federate2
    prometheus 2 抓取 federate1 federate2
    proemtheus 用负载均衡去读 alertmanager 配置成 cluster 的方式

    你也可以使用 remote_write 功能 这样你的 remote write 配置成 influxdb 两个 prometheus 用同一个数据源就可以了
    sampeng
        16
    sampeng  
       2024-05-23 18:06:40 +08:00
    唯一解 thanos

    prometheus 自带的联邦集群就是个玩具。。。。运维成本其实极其高。thanos 反正一个集群扔一个。反正都是汇总在 s3 的。查询就看你要求了。随便横向扩容。
    我以前线上 2000 多个 pod 。查 1 年随便查
    annoygaga
        17
    annoygaga  
    OP
       2024-05-24 00:37:35 +08:00
    @duanzhanling VM 本地存储,是不是很折腾?
    annoygaga
        18
    annoygaga  
    OP
       2024-05-24 00:37:55 +08:00
    @chankay VM 看上去是单机器存储,是不是很折腾?在 k8s
    annoygaga
        19
    annoygaga  
    OP
       2024-05-24 00:38:11 +08:00
    @nicholasxuu thanos 看上去不错,性能如何?多租户好做么?
    annoygaga
        20
    annoygaga  
    OP
       2024-05-24 00:38:19 +08:00
    @qW7bo2FbzbC0 VM 多租户如何?
    annoygaga
        21
    annoygaga  
    OP
       2024-05-24 00:38:37 +08:00
    @bluicezhen thanos 性能如何?多租户好做么?
    annoygaga
        22
    annoygaga  
    OP
       2024-05-24 00:38:50 +08:00
    @tramm 蛮大的。。。而且可能被滥用
    annoygaga
        23
    annoygaga  
    OP
       2024-05-24 00:39:07 +08:00
    @sampeng thanos 性能如何?以及多租户好做么?
    annoygaga
        24
    annoygaga  
    OP
       2024-05-24 00:39:28 +08:00
    @coyove 多租户的话呢?
    duanzhanling
        25
    duanzhanling  
       2024-05-24 07:32:51 +08:00
    @DAPTX4869 VictoriaMetrics
    duanzhanling
        26
    duanzhanling  
       2024-05-24 07:33:41 +08:00
    @annoygaga 没有吧,现在单节点 vm ,运行非常 OK
    sampeng
        27
    sampeng  
       2024-05-27 14:47:58 +08:00
    @annoygaga 性能尚可,解决 90%问题。多租户就是在每个集群的数据自动追加 label 。一目了然
    xueling
        28
    xueling  
       2024-05-28 09:51:59 +08:00
    了解一下我的开源项目,https://github.com/xl-xueling/xl-lighthouse ,定位不是纯粹的监控系统,统计计算方面的功能远超过 prometheus ,远算性能更强和支持的数据量级也更大。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2237 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 16:07 · PVG 00:07 · LAX 09:07 · JFK 12:07
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.