目前公司业务都使用 docker 部署,全部加起来 20 来个服务
数据库服务 tdengine ,使用 rest 连接,近期这个服务一直挂,其他服务都没问题,之前 32 核 128g 的时候就挂,扩容到 64c256g 也挂,进容器里面看连接数,大概有 3000 来个
请教一下,这种问题怎么排查,目前看物理机 cpu 负载 40%左右,业务最高峰是下午四点,很疑惑
1
seers 107 天前 via iPhone
上普罗米修斯监控啊
|
2
piero66 107 天前 via Android
描述太模糊,不会就贴 log
|
3
Int100 107 天前
tracing ,logging 和 monitoring 总要提供一个,大伙才好判断呀
|
4
xuanbg 107 天前
同样 20 来个服务,我的资源是 8 核 16G ,硬盘空间更是只有可怜的 40G 。服务器目前平均 qps 约 20 ,峰值也有 100+,cpu 大约 4%,内存在 10G 上下。
唯一和 OP 不同的是,我的数据库是独立的,服务是容器化的。所以,建议 OP 把数据库分出去或者装 docker 里面看一下。另外,硬盘几十个 T 是不是为了存储上传的文件?大文件上传没写对方法非常吃内存,值得重点关注。 |
5
Curiosity777 OP @xuanbg 第一次崩以为是内存和 cpu 问题,cpu 负载 80 以上,内存 100g 空余 20g ,后来扩容后,还蹦,没有大文件,3000 个链接,平均每个链接读 1000 条数据这样,数据就是基础的时序数据
|
6
Curiosity777 OP @xuanbg 主要是不理解,从系统资源看,没有达到瓶颈,仅 3000 连接服务就挂了,平均每个连接 1m 内存也是够的
|