1
ScotGu 2018-08-06 13:10:22 +08:00 1
1.当 SLA 是什么?
2.安全又不代表 100%。 3.墨菲定律 |
2
abcbuzhiming 2018-08-06 13:12:04 +08:00
楼主你没坏过硬盘吗,云上说白了不就是一堆物理主机装个虚拟机,凭什么更安全?
所有的安全都是建立在冗余备份上的,云要是不备份,凭什么更安全呢? |
3
kulove 2018-08-06 13:14:28 +08:00
什么都不安全。。
但是,这些云不都有异地灾备的么? |
4
leokino 2018-08-06 13:17:31 +08:00
看文章似乎并没有异地容灾。
|
5
kera0a 2018-08-06 13:22:27 +08:00 via iPhone
期待云服务器能把备份也做好。
云服务应该算一整套解决方案吧,这种基础性工作还得用户单独来做有点麻烦了 这个例子就算用户备份好像数据也会丢,写进去后读出来是错的,自然备份也是错的吧 |
6
opengps 2018-08-06 13:22:49 +08:00 2
楼上别说远了,异地容灾似乎跟这个事件毫无关系。这家数控应该只是买台虚拟机而已,这么低的成本哪里包含异地容灾服务了
|
7
coldear 2018-08-06 13:25:06 +08:00
云服务条款里面 durability SLA 是多少?
比如亚麻 s3 durability: "Amazon S3 Standard, S3 Standard – IA, S3 One Zone-IA, and Amazon Glacier are all designed to provide 99.999999999% durability of objects over a given year. This durability level corresponds to an average annual expected loss of 0.000000001% of objects. For example, if you store 10,000,000 objects with Amazon S3, you can on average expect to incur a loss of a single object once every 10,000 years. In addition, Amazon S3 Standard, S3 Standard-IA, and Amazon Glacier are all designed to sustain data in the event of an entire S3 Availability Zone loss." 没有达到就告呗 |
8
coldear 2018-08-06 13:25:26 +08:00
云服务条款里面 durability SLA 是多少?
比如亚麻 s3 durability: "Amazon S3 Standard, S3 Standard – IA, S3 One Zone-IA, and Amazon Glacier are all designed to provide 99.999999999% durability of objects over a given year. This durability level corresponds to an average annual expected loss of 0.000000001% of objects. For example, if you store 10,000,000 objects with Amazon S3, you can on average expect to incur a loss of a single object once every 10,000 years. In addition, Amazon S3 Standard, S3 Standard-IA, and Amazon Glacier are all designed to sustain data in the event of an entire S3 Availability Zone loss." 没有达到就 gao 呗 |
10
kulove 2018-08-06 13:29:40 +08:00 3
@opengps 云硬盘( Cloud Block Storage,CBS )为您提供用于 CVM 的持久性数据块级存储服务。云硬盘中的数据自动地在可用区内以多副本冗余方式存储,避免数据的单点故障风险,提供高达 99.9999999% 的数据可靠性。
这是官方的介绍,“云硬盘中的数据自动地在可用区内以多副本冗余方式存储”,这有什么好洗地的? |
11
nciyuan 2018-08-06 13:34:29 +08:00 via Android 1
插个队
........腾讯云可特么奇葩呢 网络质量奇葩的一比,白天的时候就在现在,刚才从 GitHub 上 clone,速度为数 KB/s。前几天从 Apache 基金会的 SVN 服务器 checkout,是大量的小文件,白天速度 10-20KB/s,还有从 IETF 的 rsync 服务器同步一些东西,小文件还行,感官比较快。大文件 30-40KB/s。 你们有见过 8 个小时才下 1GB ?最后我终于熬到了夜里一点半,忍痛 Control + C,接着重新输入指令 然后我感到的无形之中的风,非常凉爽 Σ>―(〃°ω°〃)♡→ 网速好到不行,连连脱口而出-----爽 看着 SSH 的网速每秒 100+KB/s,Grafana 监控(存在延迟)到服务器的带宽保持在 10+MB/s,百十 KB 级别小文件仍然能保持 3-7MB/s 的速度。 在不到一个小时的时间内,近 20GB 左右的数据下载完了,内心 (/≧▽≦)/~┴┴ |
12
Felldeadbird OP @abcbuzhiming 云 不是表示 数据都有多重备份么。如果只是一组备份,那就不应该叫云了。我是这样理解的。
|
13
Nobitasean 2018-08-06 13:59:10 +08:00 2
@Felldeadbird 云没有表示数据有多重备份,云的解释比较模糊
|
14
gam2046 2018-08-06 14:05:34 +08:00 1
这个故事更说明了,不要什么东西老想着自己做。
给别人做,出了问题能甩锅。自建,出了故障,到时候你怎么办?锅都没法甩啊。 |
15
mhycy 2018-08-06 14:06:52 +08:00 1
吹归吹,好好了解下云平台的架构(特指云服务器平台)就会知道,那东西本质上就是一个虚拟机。
问题来了:虚拟机的安全性与可靠性由什么来决定? 归根结底还是对技术的不了解,对数据的不负责。 |
16
maichael 2018-08-06 14:07:35 +08:00
云再靠谱也不是 100%,何况还是不靠谱的居多。
|
17
abcbuzhiming 2018-08-06 14:08:27 +08:00 3
@Felldeadbird 云从来没表示过有这种说法
|
19
imdong 2018-08-06 14:41:53 +08:00
不要相信任何人与任何机构的承诺。
真正重要的东西,就应该多重备份。 在云上,丢了,云赔钱,数据没了。 有些东西不是钱能买来的。 |
22
bhaltair 2018-08-06 15:01:32 +08:00
本地备份+1
|
23
jadec0der 2018-08-06 15:03:14 +08:00
@kulove 我看了一下腾讯云控制台,确实没有做区分,把系统盘和弹性盘都放在云硬盘里,但是我猜应该不是一样的东西。
弹性盘是同可用区内都可以挂载的,机器和系统运行的机器不一定是同一台,可能是通过网络访问硬盘的。系统盘显然没有通过网络访问的道理。 |
24
opengps 2018-08-06 15:04:59 +08:00
@kulove 仔细看下,云硬盘在可用地多副本,不是异地,异地容灾说的至少是跨城市级别,腾讯这个三副本只是同机房里存三份数据。类似于 raid1,至不过数量是 3,这三份是同时进行读写的
|
26
liprais 2018-08-06 15:08:21 +08:00
说明以后不做备份的运维直接开除就行了
|
27
opengps 2018-08-06 15:09:15 +08:00 2
借楼解读下:(我也是被人问烦了,技术服务中,总有人问我阿里云有没有 vps,答案是没有!)
VPS:单个物理服务器里的虚拟机(虚拟机硬盘往往用的是母鸡的硬件) 云服务器:物理机集群里的虚拟机(虚拟机硬盘用的往往是共享存储的硬盘) 假设物理机遇到硬盘故障,VPS 跟着母鸡一起死。云服务器可以自动漂移到其他母鸡上继续运行。所以云服务器的可用性就是高于 VPS 的 |
28
kulove 2018-08-06 15:09:43 +08:00
|
29
MrCurly 2018-08-06 15:13:53 +08:00 via iPhone
同意二楼,安全建立在冗余上,而云这个概念显然不包括冗余,冗余应该是为了云安全而使用的手段。
|
30
YvesX 2018-08-06 15:20:39 +08:00 3
我就是冲着这些基础建设的服务购买各种云计算产品的。
连容灾都要我自己做,怎么不让我自己部署机房备用网络呢? |
31
opengps 2018-08-06 15:21:15 +08:00
@kulove 我也觉得不应该。按照目前腾讯给出的解释,是硬盘的写入读出不同,这个描述其实有点模糊,三副本毕竟都还是虚拟磁盘文件。
虽然三个副本,正常情况下写入内容相同,但是底层存储由于是不同的物理底层,按理物理磁道说不会相同,可以排除掉是同一批硬盘同时触发这么一个极端情况。 既然事实是同时坏三个副本的数据,那么问题应该归结于镜像存储的软件(软 raid 之类的底层软件),而不是归结给物理硬盘 有存储届的朋友提过,这种情况不会是单个案例,应该还有其他同类情况出现没有被发现,可能是由于这样的原因,腾讯选择下架整个同批次硬盘 |
32
lshero 2018-08-06 15:31:34 +08:00 2
只能说明一些公司的产品经常进行虚假宣传
https://azure.microsoft.com/zh-cn/features/resiliency/ 这样详细教育客户怎么构建高可用的业务才敢宣称 99.99% 不知道某些云 99.9999999% 的数据可靠性是怎么算出来的 |
33
ladypxy 2018-08-06 15:32:55 +08:00
@YvesX 云只是给你一台虚拟机。。。和容灾没有关系啊。。像我们现在公司上云,所有的服务器全是 aws 一份,azure 一份,互相备份。。
|
34
msg7086 2018-08-06 15:58:20 +08:00
云计算原本的定义是利用资源池有效地分配资源,方便地伸缩架构,可以用微小的工作( API 脚本等)完成资源的申请和释放。
云这个概念本身就没有涉及到数据安全性,而且恰恰相反,云是利用伸缩架构来降低对可用性的要求的。 比如 AWS 上,多个 EC2 节点,多个 LB 节点,分布在多个机房的多个可用区里,其中任何一个节点离线、重启,都不会影响业务正常运行,因为会自动 Failover 到其他节点去。所以对云计算来说,单个虚拟服务器挂掉是很寻常的事情。 我司之前有一个 VPS 放在 AWS EC2 上,结果某一天登录上去发现机器被重启过了。也没有警报也没有通知什么的,他就给你重启了。道理很简单,厂家默认你有几十几百台机器一起跑,重启一台根本不会影响系统正常运行。至于你只有一台,那是你选错了产品罢了。 之前看过一篇说 AWS 的文章,开头上来就是一句:如果你每个服务只开一台机器跑,那就别用 AWS (云计算)! 最后再说一句,云计算是个市场营销术语,强行区分 VPS 和云服务器是没有意义的。VPS 是虚拟专用服务器的缩写。每一台云计算服务器本质上都是「虚拟的」「专用的」「服务器」,也就是 VPS。 |
35
ryd994 2018-08-06 16:18:25 +08:00 via Android 1
|
36
ryd994 2018-08-06 16:29:06 +08:00 via Android
@opengps “云服务器可以自动漂移到其他母鸡上继续运行”
你说的是 live migration 么? 技术上可行,实际上直接给你在另一台 host 上重启比较快 你说的 host 硬盘故障问题不存在。因为计算节点和储存节点是分离的。计算节点不储存用户数据,通过网络挂载。本地 SSD 是有,但是本地 SSD 不保数据 计算节点能故障啥?要么网络要么 CPU,这都不是可以热迁移的情况。唯一有用的就是如果要维护节点,可以把虚拟机迁移走再维护。但是其实现在都有在线升级的能力,必须关机维护的情况非常少(比如去年的 spectre 就是一例)。完全可以等用户自己业务需要关机的时候,逐步退役,最后再把剩下的全部重启一遍。反正 sla 只保 uptime,不保证不重启 |
37
opengps 2018-08-06 16:48:03 +08:00
@ryd994 live migration 没听过。
用过 VMware Vsphere 虚拟化平台的知道这个热迁移的意思。可能的故障太多,在小概率也是概率。比如你说计算节点故障不会有,但我轻松可以举反例说主机掉电。计算节点用的任何组件,电容可能击穿,电阻可能变化等等很多不太可能出现但是却一定有的反例。 A 一般故障自动热迁移,(管理员经常手动热迁移下架某台物理服务器) B 部分无法实现热迁移的故障,会自动迁移后自动重启(为了保证业务不断,这里需要软件设计成跟随系统重启) C 极少数故障,迁移 cpu 内存资源之后不能重启(灾难级故障,普通人员遇到了无解,手动使用万能重启法解决) 用我的分类 ABC,可以看出,可用性(用时长计算): A 足够解决时候是 100%(业务无中断)。 B 方案解决时候是重启和恢复业务压力所需要的时间(业务中断几分钟)。 C 类别则是人工排除掉故障所用的时间(往往是几小时到几天) |
38
night98 2018-08-06 17:46:44 +08:00
自动快照,应该是可以挽救大部分数据的。
但是按照腾讯云给的说明,消费才 3K 多,应该是只有单服务器的价格消费,这样丢了所有数据,也是运气有点好。。 |
40
huanxianghao 2018-08-06 18:40:27 +08:00
|
41
woshipanghu 2018-08-06 18:52:47 +08:00
快照是最基础的服务
能出这种事故技术多么的不成熟 |
42
woshipanghu 2018-08-06 18:54:00 +08:00
丢个一两天的数据还能理解 全丢 这是什么骚操作
|
43
princeofwales 2018-08-06 18:55:10 +08:00
很简单,很多所谓的云,都是假云
为什么很多大厂的磁盘 I/O 也只有 30、40MB/S,不是他们用不起 SSD,是因为你看到的盘,基本都是网络挂载的,多份冗余 很多云的概念都被一些廉价的 VPS 混淆了,比如测速脚本里的 I/O 测试,好几百 M 好牛逼啊。人家只是一台物理机的物理硬盘,能做个 RAID10 已经是业界良心了,哪里搞得了商用级别的分布式存储。 |
46
byuc 2018-08-07 10:19:44 +08:00
出事情指责用户不备份,和指责被 qj 受害者穿着暴露其实是同一个概念。
我花那么多钱上云,数据说没就没了。还不如自建。 |
47
jusalun 2018-08-07 10:43:10 +08:00
并不是,主要是前沿数控买的是基础版 2G CDB,单节点+hadoop 备份( 3 副本就是这么来的)
而腾讯的备份是物理备份,XtraBackup 压完后并不会进行有效性检测,如果出问题的就是这个节点磁盘,那么这时候备份实际上以及被污染了,副本备份系统 hadoop 拖走的全是无效备份。 因此才出现了 3 备份同时 GG 的奇特场景 图贴不上来 https://www.zhihu.com/question/288640327/answer/462001581 |
48
ucanuup 2018-08-07 11:47:57 +08:00
这个样子,还不如搬瓦工咯。
|
49
Admstor 2018-08-07 11:55:01 +08:00
以当事公司的技术能力,如果他们自建服务器,即使采用 RAID 阵列,也可能因为没有注意到警告信息,直到服务器彻底挂了才反应过来
所以结果上来说大概也没啥差别 不是给腾讯洗地 腾讯这次的故障真是极为低级和优质,架构上肯定存在问题 |
50
stevenhawking 2018-08-07 12:59:12 +08:00
当年盛大云因为不对用户负责就凉凉了
|
51
jmk92 2018-08-07 13:00:23 +08:00
类似于阿里、腾讯的灾备,许多人相信,某一个地方出现故障了,自动就切换了。
殊不知,其实是手动切 |
52
qiuqiuer 2018-08-07 14:49:43 +08:00 via Android
Raid+固定 ip,+不间断电源,弄个源码改改,5 年了,表示没处过事。
|
53
ZE3kr 2018-08-07 15:40:36 +08:00 via iPhone 2
@lshero 可用率和数据可靠性不一样。比如 AWS S3 可用率为 99.9%,数据可靠性为 99.999999999%
|
55
webjin1 2018-08-08 08:25:36 +08:00 via Android
哈哈,便宜,快,安全。那是不可能的
|
56
CommandZi 2018-08-08 16:40:20 +08:00
|
57
levenmode 2018-08-08 19:51:27 +08:00
最近我们也准备上云,挺想用腾讯云的,出了这个事情有点犹豫啊。有种之前一直裸奔的感觉,看来还是得给业务备份。完全靠云厂商的服务器不靠谱。
|