技術メモ

技術メモ

ラフなメモ

SREサイトリライアビリティエンジニアリングを読み始めた

点検読書

全体として何に関する本か?何がどのように詳しく述べられているか?

  • 世界最大規模のソフトウェアシステムを支えるシステム管理とサービス運用について述べられている
  • Googleのサイトリライアビリティエンジニアリング部門のメンバーによる小論文集
  • Googleが物事を行う方法を説明しようとする試みであり、以下の2つを目的としている
    • Googleが学んだことを他の組織でも利用できるようにすること
    • SREという言葉が意味する役割と意味をもっとうまく定義すること

著者はどのような構成で概念や知識を展開しているか?

  • 第1部:イントロダクション
    • 1.イントロダクション
    • 2.SREの観点から見たGoogleのプロダクション環境
  • 第2部:原則
    • 3.リスクの受容
    • 4.サービスレベル目標
    • 5.トイルの撲滅
    • 6.分散システムのモニタリング
    • 7.Googleにおける自動化の進化
    • 8.リリースエンジニアリング
    • 9.単純さ
  • 第3部:実践
    • 10.時系列データからの実践的なアラート
    • 11.オンコール対応
    • 12.効率的なトラブルシューティング
    • 13.緊急対応
    • 14.インシデント管理
    • 15.ポストモーテムの文化:失敗からの学び
    • 16.サービス障害の追跡
    • 17.信頼性のためのテスト
    • 18.SREにおけるソフトウェアエンジニアリング
    • 19.フロントエンドにおけるロードバランシング
    • 20.データセンターでのロードバランシング
    • 21.過負荷への対応
    • 22.カスケード障害への対応
    • 23.クリティカルな状態の管理:信頼性のための分散合意
    • 24.cronによる分散定期スケジューリング
    • 25.データ処理のパイプライン
    • 26.データの完全性:What You Read Is What You Wrote
    • 27.大規模なプロダクトのローンチにおける信頼性
  • 第4部:管理
    • 28.SREの成長を加速する方法:新人からオンコール担当、そしてその先へ
    • 29.割り込みへの対処
    • 30.SREの投入による運用過負荷からのリカバリ
    • 31.SREにおけるコミュニケーションとコラボレーション
    • 32.進化するSREのエンゲージメントモデル
  • 第5部:まとめ
    • 33.他の業界からの教訓
    • 34.まとめ

2,3章でGoogleのプロダクション環境を説明し、SRE流のりクスへのアプローチ方法の概念を説明している。各章はテーマごとにまとめられている。

この本を読んで達成したいことはなにか

  • 大規模システムを支えるSREの原則と実践について理解すること