原文发在公众号,图文并茂,这里貌似弄个图都很麻烦
Google 出了一本 Site Reliability Engineering 的书。这本书讲的是 How Google Runs Production Systems 。
回顾了上一家公司(阿里技术保障部 DBA 团队)的 5 年,经历了天猫多次双十一,还在支付宝 DBA 团队待过大半年的时间。深刻的理解到一个庞大的网站的稳定性,需要一支身经百战的运维技术团队来操盘。
Google 作为互联网公司的前排兵,能出这样一本书,对于运维人员来说,真的非常值得一读。
这本书的中心思想
1.建设和运维分布式系统是大规模生产基础设施根本,在这里面增加这几个要求:可扩展,可靠,高效.要达到这些要求,需要大量的优秀的设计和试错。
2.这本书收集了很多论文和文章,由谷歌的网站可靠性小组的主要成员讲解,在过去的十年如何成功从这些深水走过。
3.从这本书,将学习如何谷歌持续监控并部署在世界上一些最大的软件系统,它的网站可靠性工程师团队如何学习和中断后可改善,以及他们如何平衡冒险 VS 可靠性,错误的预算。
回到这本书,主要分了四个部分
1.网站可靠性保证是神马?和传统 IT 行业惯例的有哪些不同?
2.检测模式,行为和关切的领域,影响着一个网站可靠性工程师的工作
3.既要理解原理,又能实际操作,这就是 SRE 工程师的工作:构建和操作大型分布式计算系统?
4.探索谷歌的最佳实践培训,沟通,和会议,或许有适合您的团队可以借鉴的
前面几章的总结
第五章 ,消除苦逼的活,这里真是写到我心坎里头了。我相信做过运维的人苦逼的活没少干。 苦逼的活其实是挑战个人的能力的地方,可否化繁为简,可否从一堆屎一样的事情里面做出一朵花来。
先写着这么多
1
strwei 2016-03-31 16:24:07 +08:00
为什么壳子做得那么丑
|