SRE：Google运维解密电子书免费在线阅读,免费在线试读,作者：[美] 贝特西·拜尔（Betsy Beyer） -琅嬛苑

书名
SRE：Google运维解密
作者[美] 贝特西·拜尔（Betsy Beyer）
出版社电子工业出版社 / 2016-10
ISBN书号9787121297267
字数约 327,000 字
全本定价￥27.00

作品简介

大型软件系统生命周期的绝大部分都处于“使用”阶段，而非“设计”或“实现”阶段。那么为什么我们却总是认为软件工程应该首要关注设计和实现呢？在《SRE：Google运维解密》中，Google SRE的关键成员解释了他们是如何对软件进行生命周期的整体性关注的，以及为什么这样做能够帮助Google成功地构建、部署、监控和运维世界上现存最大的软件系统。通过阅读《SRE：Google运维解密》，读者可以学习到Google工程师在提高系统部署规模、改进可靠性和资源利用效率方面的指导思想与具体实践——这些都是可以立即直接应用的宝贵经验。

任何一个想要创建、扩展大规模集成系统的人都应该阅读《SRE：Google运维解密》。《SRE：Google运维解密》针对如何构建一个可长期维护的系统提供了非常宝贵的实践经验。

（美）贝特西·拜尔（Betsy Beyer）是Google纽约负责SRE的一名技术文档作家。她之前曾为遍布全球的Google数据中心与Mountain View硬件运维团队编写文档。在搬到纽约之前，Betsy是Stanford大学技术性写作课程的讲师。她曾经学习国际关系与英文文学，并在Stanford和Tulane获得学历。

作品目录

O'Reilly Media,Inc.介绍
赞誉
译者序
前言
序言
第Ⅰ部分概览
第1章介绍
第2章 Google 生产环境：SRE视角
第Ⅱ部分指导思想
第3章拥抱风险
第4章服务质量目标
第5章减少琐事
第6章分布式系统的监控
第7章 Google 的自动化系统的演进
第8章发布工程
第9章简单化
第Ⅲ部分具体实践
第10章基于时间序列数据进行有效报警
第11章 on-call轮值
第12章有效的故障排查手段
第13章紧急事件响应
第14章紧急事故管理
第15章事后总结：从失败中学习
第16章跟踪故障
第17章测试可靠性
第18章 SRE部门中的软件工程实践
第19章前端服务器的负载均衡
第20章数据中心内部的负载均衡系统
第21章应对过载
第22章处理连锁故障
第23章管理关键状态：利用分布式共识来提高可靠性
第24章分布式周期性任务系统
第25章数据处理流水线
第26章数据完整性：读写一致
第27章可靠地进行产品的大规模发布
第Ⅳ部分管理
第28章迅速培养SRE加入on-call
第29章处理中断性任务
第30章通过嵌入SRE的方式帮助团队从运维过载中恢复
第31章 SRE与其他团队的沟通与协作
第32章 SRE参与模式的演进历程
第Ⅴ部分结束语
第33章其他行业的实践经验
第34章结语
附录A 系统可用性
附录B 生产环境运维过程中的最佳实践
附录C 事故状态文档示范
附录D 事后总结示范
附录E 发布协调检查列表
附录F 生产环境会议记录示范
参考文献
索引
关于编著者
封面介绍

展开全部