我在使用 k8s 私有云的过程中,由于 jvm 和 docker 内存限定问题,总是触发内核的 OOM。但是触发了内核的 OOM 之后,dockerd 就有可能死掉,完全无反应。
操作系统 CentOS Linux release 7.4.1708 (Core) Linux x 3.10.0-693.2.2.el7.x86_64 #1 SMP Tue Sep 12 22:26:13 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux
Docker
Client:
Version: 18.06.1-ce
API version: 1.38
Go version: go1.10.3
Git commit: e68fc7a
Built: Tue Aug 21 17:23:03 2018
OS/Arch: linux/amd64
Experimental: false
Server:
Engine:
Version: 18.06.1-ce
API version: 1.38 (minimum version 1.12)
Go version: go1.10.3
Git commit: e68fc7a
Built: Tue Aug 21 17:25:29 2018
OS/Arch: linux/amd64
Experimental: false
我曾尝试关掉内核的 OOM kill 机制,但是没有生效。
sysctl -p
net.ipv6.conf.all.disable_ipv6 = 1
net.ipv6.conf.default.disable_ipv6 = 1
net.ipv6.conf.lo.disable_ipv6 = 1
vm.swappiness = 0
net.ipv4.neigh.default.gc_stale_time = 120
net.ipv4.conf.all.rp_filter = 0
net.ipv4.conf.default.rp_filter = 0
net.ipv4.conf.default.arp_announce = 2
net.ipv4.conf.lo.arp_announce = 2
net.ipv4.conf.all.arp_announce = 2
net.ipv4.tcp_max_tw_buckets = 5000
net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_max_syn_backlog = 1024
net.ipv4.tcp_synack_retries = 2
kernel.sysrq = 1
vm.overcommit_memory = 2
1
cheneydog OP 基于容器的云应该很多的吧,不会因为客户的 jvm 参数不对就卡死吧。
|
2
Vogan 2018-12-27 10:46:11 +08:00 1
1.内核版本太低
2.限制单个容器的内存和 CPU |
3
denghongcai 2018-12-27 12:09:42 +08:00
oom killer 杀了除 Dockerd 之外的其他进程后,Docker 无法正常工作了?这个感觉比较奇怪
建议 GitHub 上提个 issue |
4
ooeyunarika 2018-12-27 13:02:36 +08:00
docker ps 能用但不能 docker run 有点奇怪,dockerd 没有抛出相关日志么?或者看一下 docker golang 的堆栈,github 提 issue 也会要求附上 golang 内存堆栈的
之前我遇到过 docker ps 都不行的死锁情况,是因为 container 在被 kill 的时候会加锁,禁止所有对 container 的 crud 操作,多个锁一起就很容易引起死锁.lz 遇到的问题很可能也是 container 上的死锁导致的 另外也可以试着提高 dockerd 的优先级,系统的 OOM Kill 会优先杀优先级比较低的进程 |
5
cheneydog OP @ooeyunarika 卡住之后 dockerd 的日志是完全停止的。docker golang 的堆栈没看过,我去找下看。
|