[图文]Google SRE 出书了，简单总结目前已看的一些内容

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3191 天前的主题，其中的信息可能已经有所发展或是发生改变。

原文发在公众号，图文并茂，这里貌似弄个图都很麻烦

Google 出了一本 Site Reliability Engineering 的书。这本书讲的是 How Google Runs Production Systems 。

回顾了上一家公司(阿里技术保障部 DBA 团队)的 5 年，经历了天猫多次双十一，还在支付宝 DBA 团队待过大半年的时间。深刻的理解到一个庞大的网站的稳定性，需要一支身经百战的运维技术团队来操盘。

Google 作为互联网公司的前排兵，能出这样一本书，对于运维人员来说，真的非常值得一读。

这本书的中心思想

1.建设和运维分布式系统是大规模生产基础设施根本，在这里面增加这几个要求:可扩展，可靠，高效.要达到这些要求，需要大量的优秀的设计和试错。

2.这本书收集了很多论文和文章，由谷歌的网站可靠性小组的主要成员讲解，在过去的十年如何成功从这些深水走过。

3.从这本书，将学习如何谷歌持续监控并部署在世界上一些最大的软件系统，它的网站可靠性工程师团队如何学习和中断后可改善，以及他们如何平衡冒险 VS 可靠性，错误的预算。

回到这本书，主要分了四个部分

1.网站可靠性保证是神马？和传统 IT 行业惯例的有哪些不同？

2.检测模式，行为和关切的领域，影响着一个网站可靠性工程师的工作

3.既要理解原理，又能实际操作，这就是 SRE 工程师的工作:构建和操作大型分布式计算系统？

4.探索谷歌的最佳实践培训,沟通,和会议,或许有适合您的团队可以借鉴的

前面几章的总结

第五章，消除苦逼的活，这里真是写到我心坎里头了。我相信做过运维的人苦逼的活没少干。苦逼的活其实是挑战个人的能力的地方，可否化繁为简，可否从一堆屎一样的事情里面做出一朵花来。

先写着这么多

2 条回复 • 2016-03-31 16:57:26 +08:00

strwei

2016-03-31 16:24:07 +08:00

为什么壳子做得那么丑

yangdehua

2016-03-31 16:57:26 +08:00

@strwei 什么壳子？