作品简介

大型软件系统生命周期的绝大部分都处于“使用”阶段,而非“设计”或“实现”阶段。那么为什么我们却总是认为软件工程应该首要关注设计和实现呢?在《SRE:Google运维解密》中,Google SRE的关键成员解释了他们是如何对软件进行生命周期的整体性关注的,以及为什么这样做能够帮助Google成功地构建、部署、监控和运维世界上现存最大的软件系统。通过阅读《SRE:Google运维解密》,读者可以学习到Google工程师在提高系统部署规模、改进可靠性和资源利用效率方面的指导思想与具体实践——这些都是可以立即直接应用的宝贵经验。

任何一个想要创建、扩展大规模集成系统的人都应该阅读《SRE:Google运维解密》。《SRE:Google运维解密》针对如何构建一个可长期维护的系统提供了非常宝贵的实践经验。

(美)贝特西·拜尔(Betsy Beyer)是Google纽约负责SRE的一名技术文档作家。她之前曾为遍布全球的Google数据中心与Mountain View硬件运维团队编写文档。在搬到纽约之前,Betsy是Stanford大学技术性写作课程的讲师。她曾经学习国际关系与英文文学,并在Stanford和Tulane获得学历。

作品目录

  • O'Reilly Media,Inc.介绍
  • 赞誉
  • 译者序
  • 前言
  • 序言
  • 第Ⅰ部分 概览
  • 第1章 介绍
  • 第2章 Google 生产环境:SRE视角
  • 第Ⅱ部分 指导思想
  • 第3章 拥抱风险
  • 第4章 服务质量目标
  • 第5章 减少琐事
  • 第6章 分布式系统的监控
  • 第7章 Google 的自动化系统的演进
  • 第8章 发布工程
  • 第9章 简单化
  • 第Ⅲ部分 具体实践
  • 第10章 基于时间序列数据进行有效报警
  • 第11章 on-call轮值
  • 第12章 有效的故障排查手段
  • 第13章 紧急事件响应
  • 第14章 紧急事故管理
  • 第15章 事后总结:从失败中学习
  • 第16章 跟踪故障
  • 第17章 测试可靠性
  • 第18章 SRE部门中的软件工程实践
  • 第19章 前端服务器的负载均衡
  • 第20章 数据中心内部的负载均衡系统
  • 第21章 应对过载
  • 第22章 处理连锁故障
  • 第23章 管理关键状态:利用分布式共识来提高可靠性
  • 第24章 分布式周期性任务系统
  • 第25章 数据处理流水线
  • 第26章 数据完整性:读写一致
  • 第27章 可靠地进行产品的大规模发布
  • 第Ⅳ部分 管理
  • 第28章 迅速培养SRE加入on-call
  • 第29章 处理中断性任务
  • 第30章 通过嵌入SRE的方式帮助团队从运维过载中恢复
  • 第31章 SRE与其他团队的沟通与协作
  • 第32章 SRE参与模式的演进历程
  • 第Ⅴ部分 结束语
  • 第33章 其他行业的实践经验
  • 第34章 结语
  • 附录A 系统可用性
  • 附录B 生产环境运维过程中的最佳实践
  • 附录C 事故状态文档示范
  • 附录D 事后总结示范
  • 附录E 发布协调检查列表
  • 附录F 生产环境会议记录示范
  • 参考文献
  • 索引
  • 关于编著者
  • 封面介绍
展开全部