如果只是重启服务器也就罢了,居然杀进程。 导致服务崩溃。
关服务器我都没意见,杀进程是什么鬼?数据库里的用户数据我都担心无法保密。
已经出现 2 次了,朋友的也出现同样现象。
1
myliyifei 2017-12-06 11:46:50 +08:00 via Android 1
能否具体一点
|
2
kkhu2004 OP 系统里有一个进程,是和其他服务器同步的,带宽占用一直恒定在 100K。
cpu 偶尔会飙到 100%。 每次都是这个进程消失,其他家的服务器这个进程一直很稳定。只有阿里的出现过这问题。 上次还以为偶然。 今天是朋友的也出现了同样问题。我再一查,我的又来了。 |
3
kkhu2004 OP 设置了自动重启时服务会自己启动。机器重启都行,
下面还得再写个自动监控进程重启的。恶心 |
4
cloudzhou 2017-12-06 11:58:34 +08:00 1
从服务端角度来看,很合理。如果一个进程死循环,难道要影响所有的同一台实体机器虚拟机么
|
5
3dwelcome 2017-12-06 12:01:28 +08:00 via iPhone 1
进程被杀是会收到 signal 信号的、口说无凭、最好有证据。
|
6
deadEgg 2017-12-06 12:15:35 +08:00 1
@cloudzhou
不合理吧,虚拟化的东西是保证环境内稳定。 除非一些越界行为影响到本身实体机的,否则虚拟化环境的东西不应该被外部强制杀死。 合理的管控我认为应该是合理的分配限制虚拟化资源,而不是暴力去 kill |
7
jixiangqd 2017-12-06 12:21:41 +08:00 1
看看 oom killer 日志里有没有杀你进程的行为?
|
8
inroading 2017-12-06 12:23:38 +08:00 1
阿里云
[Wed Dec 06 09:59:01 2017] [notice] child pid 1928 exit signal Bus error (7) [Wed Dec 06 10:02:03 2017] [notice] child pid 1959 exit signal Bus error (7) [Wed Dec 06 10:06:28 2017] [notice] child pid 2280 exit signal Bus error (7) [Wed Dec 06 10:08:04 2017] [notice] child pid 2289 exit signal Bus error (7) [Wed Dec 06 10:12:29 2017] [notice] child pid 2745 exit signal Bus error (7) [Wed Dec 06 10:17:19 2017] [notice] child pid 2202 exit signal Bus error (7) [Wed Dec 06 10:27:46 2017] [notice] child pid 2686 exit signal Bus error (7) [Wed Dec 06 10:35:29 2017] [notice] child pid 3030 exit signal Bus error (7) [Wed Dec 06 10:50:41 2017] [notice] child pid 1499 exit signal Bus error (7) [Wed Dec 06 10:54:42 2017] [notice] child pid 3862 exit signal Bus error (7) [Wed Dec 06 11:01:08 2017] [notice] child pid 3874 exit signal Bus error (7) [Wed Dec 06 11:12:09 2017] [notice] child pid 3864 exit signal Bus error (7) [Wed Dec 06 11:23:17 2017] [notice] child pid 4282 exit signal Bus error (7) [Wed Dec 06 11:24:10 2017] [notice] child pid 4589 exit signal Bus error (7) [Wed Dec 06 11:24:29 2017] [notice] child pid 3870 exit signal Bus error (7) [Wed Dec 06 11:32:22 2017] [notice] child pid 4603 exit signal Bus error (7) [Wed Dec 06 11:34:19 2017] [notice] child pid 3782 exit signal Bus error (7) [Wed Dec 06 11:36:22 2017] [notice] child pid 4604 exit signal Bus error (7) [Wed Dec 06 11:40:08 2017] [notice] child pid 4584 exit signal Bus error (7) [Wed Dec 06 11:55:19 2017] [notice] child pid 4927 exit signal Bus error (7) [Wed Dec 06 11:59:50 2017] [notice] child pid 4592 exit signal Bus error (7) [Wed Dec 06 12:07:54 2017] [notice] child pid 3875 exit signal Bus error (7) [Wed Dec 06 12:12:26 2017] [notice] child pid 5480 exit signal Bus error (7) |
9
thetast 2017-12-06 12:26:26 +08:00 via Android 1
的确第一次听说,确定不是因为其他问题?要 kill 是怎么 kill 的?如果是这样,问题很严重。
|
10
just1 2017-12-06 12:28:34 +08:00 via Android 1
系统资源不够,系统 kill 的吧
|
11
AntonChen 2017-12-06 12:48:08 +08:00 1
是不是 OOM 被杀了,看看系统日志有没有相关信息
|
12
l57t7q 2017-12-06 12:48:12 +08:00 via Android 1
遇到过,redis 实例被 kill,原因就是内存资源不足
|
13
kkhu2004 OP |
15
swulling 2017-12-06 12:55:42 +08:00 via iPhone 1
想知道怎么做到只重启服务器,但是进程不收影响的
|
16
ivmm 2017-12-06 12:57:54 +08:00 1
拿出详细的日志记录出来,谁都逃不了
最好还是不要凭空臆测 |
17
wzw 2017-12-06 13:02:39 +08:00 via Android 1
我也遇到过,楼主是不是独享的机器类型
|
18
liuminghao233 2017-12-06 13:06:29 +08:00 via iPhone 2
东西直接放人家服务器上还谈隐私
这不是搞笑吗 另外感觉是程序本身的问题 写个 while(1)挂一天应该都不会杀你 要不试一试 |
20
doubleflower 2017-12-06 13:16:40 +08:00 via Android 1
我没碰到过,ali 应该不会这么无聊
|
21
lxy 2017-12-06 13:57:14 +08:00 1
遇到过,不需要死循环,编译打包的时候,CPU 100%,5~10 分钟后可以稳定重现杀进程。
但是阿里这种处理方式不好。我有另一台国外 VPS,由于代码缺陷,触发了一个死循环,一段时间后面板会提示已限制 CPU 使用,但是进程还是在运行的。 |
22
wzw 2017-12-06 14:10:12 +08:00 1
|
23
tomoya92 2017-12-06 14:14:13 +08:00 1
碰到过
当时是 1G 的内存,1G 的 CPU,tomcat 启动了两个项目,然后运行一段时间就会莫名的挂掉,去阿里云看,进程没了 估计是内存用超了,系统检测到了,就给关了 |
24
kkhu2004 OP |
25
flynaj 2017-12-06 14:43:26 +08:00 via Android 1
gcp,cpu 占用 100%只会提示你升级,进程不会被杀
|
26
asdwddd 2017-12-06 15:03:13 +08:00 1
@kkhu2004 @liuminghao233 vps 里面的数据库,密码和重要信息,服务商是可以随时导出和查看的,难道这不是常识吗?
|
27
kimqcn 2017-12-06 16:51:31 +08:00 1
感觉正常,记得以前用过其他的免费虚拟主机,装个 tomcat 启动时自动被杀。
|
28
kkhu2004 OP |
29
FindHao 2017-12-06 17:12:29 +08:00 via Android 1
阿里云国际我觉得还是挺良心的。之前因为我的一个错误配置,cpu 100%跑了一个月,,啥问题没有。。
|
30
kkhu2004 OP @FindHao 我刚刚看了,可能还是内存原因,有几个峰值达到 1G 的上限。其他都正常
不过即使这样也不能杀进程啊。 |
31
maro 2017-12-06 19:13:07 +08:00 1
我估计阿里认为你中了病毒在发包 然后杀掉发包进程
|
32
shiny 2017-12-06 19:30:00 +08:00 1
这不是操作系统自身的特性吗?我也目睹过,直接显示 killed
|
33
codehz 2017-12-06 20:00:36 +08:00 via Android 1
@kkhu2004 内存突然太高被杀很正常。。。。。OOM 模块杀进程就是取占内存最大的那个。。。。前面有人提到了。。
|
34
aveline 2017-12-06 20:10:23 +08:00 3
OOM Kill 是内核干的啊,楼主你是不是傻逼
|
35
ericFork 2017-12-06 20:21:20 +08:00 2
你是不是没有配 SWAP ……看看 dmesg 或者 kernel log 是不是被 OOM Killer 杀了吧,这锅你要硬让阿里云背的话,记不记得阿里云有个诨号叫千万云
|
36
kingcc 2017-12-06 20:40:24 +08:00 via Android 1
呵…我之前差不多一个情况 ,cpu 基本跑满,跑了两天阿里云的人就给我打电话了,问我需不需要帮助 23333
|
38
kkhu2004 OP 日志 /var/log/messages 里没发现 Out of Memory: Kill process 的条目
暂时不管它了。 多谢各位的帮助。 |
39
xierch 2017-12-07 01:24:50 +08:00 1
> 东西直接放人家服务器上还谈隐私
> 这不是搞笑吗 什么鬼话。 |
40
Quaintjade 2017-12-07 08:46:28 +08:00 via Android 1
npm 装 Wikibook 遇到过 CPU 飙高约 2 分钟然后 Killed,不过自己加了 swap 之后就好了。
我至今遇到所有 Killed 都是因为内存不足。 |
42
d0n910u 2018-09-14 11:55:08 +08:00 1
oom 可以是被 Alihids invoked, 然后杀掉你的 mysqld, 但这是早前版本里才看到的,最近没看到过这样的字眼了
|