SREサイトリライアビリティエンジニアリングを読み始めた
点検読書
全体として何に関する本か?何がどのように詳しく述べられているか?
- 世界最大規模のソフトウェアシステムを支えるシステム管理とサービス運用について述べられている
- Googleのサイトリライアビリティエンジニアリング部門のメンバーによる小論文集
- Googleが物事を行う方法を説明しようとする試みであり、以下の2つを目的としている
- Googleが学んだことを他の組織でも利用できるようにすること
- SREという言葉が意味する役割と意味をもっとうまく定義すること
著者はどのような構成で概念や知識を展開しているか?
- 第1部:イントロダクション
- 1.イントロダクション
- 2.SREの観点から見たGoogleのプロダクション環境
- 第2部:原則
- 3.リスクの受容
- 4.サービスレベル目標
- 5.トイルの撲滅
- 6.分散システムのモニタリング
- 7.Googleにおける自動化の進化
- 8.リリースエンジニアリング
- 9.単純さ
- 第3部:実践
- 10.時系列データからの実践的なアラート
- 11.オンコール対応
- 12.効率的なトラブルシューティング
- 13.緊急対応
- 14.インシデント管理
- 15.ポストモーテムの文化:失敗からの学び
- 16.サービス障害の追跡
- 17.信頼性のためのテスト
- 18.SREにおけるソフトウェアエンジニアリング
- 19.フロントエンドにおけるロードバランシング
- 20.データセンターでのロードバランシング
- 21.過負荷への対応
- 22.カスケード障害への対応
- 23.クリティカルな状態の管理:信頼性のための分散合意
- 24.cronによる分散定期スケジューリング
- 25.データ処理のパイプライン
- 26.データの完全性:What You Read Is What You Wrote
- 27.大規模なプロダクトのローンチにおける信頼性
- 第4部:管理
- 28.SREの成長を加速する方法:新人からオンコール担当、そしてその先へ
- 29.割り込みへの対処
- 30.SREの投入による運用過負荷からのリカバリ
- 31.SREにおけるコミュニケーションとコラボレーション
- 32.進化するSREのエンゲージメントモデル
- 第5部:まとめ
- 33.他の業界からの教訓
- 34.まとめ
2,3章でGoogleのプロダクション環境を説明し、SRE流のりクスへのアプローチ方法の概念を説明している。各章はテーマごとにまとめられている。
この本を読んで達成したいことはなにか
- 大規模システムを支えるSREの原則と実践について理解すること