SREの探求 ―様々な企業におけるサイトリライアビリティエンジニアリングの導入と実践

本日読了。

600ページに渡る大著。GoogleのSRE本が一般認知され、さまざまな企業で工夫がされてきていることを、著者を分けてオムニバス的に紹介。

  • SREとチケット制のケースオープンは相容れない。リーンにより技術的負債を減らして、セルフサービスを徹底することで、チーム間の引き継ぎを減らす。管理会計にも気を使うべきでOpExが原資となるSREチームは皺寄せをされやすい。
  • DevOpsとSREは両立する。開発にウエイトがあるか運用にウエイトがあるかの違いでしかない。
  • Netflixのカオスエンジニアリング。常にどこかで障害を疑似発生させる。リージョン1つダウンさせることもある。
  • SREチームのフェーズ(成熟度)。フェーズ1: 消化活動/事後対応。フェーズ2: 門番。フェーズ3: 支持者/パートナー。開発サイクルの早い段階から関与して最適化。フェーズ4: 触媒。ライフサイクルで適切なツールを提案。
  • アンチパターン。トラブルの根本原因をヒューマンエラーであるとすること。「善意の人間でも壊すことができるのなら、それはすでに壊れていたのです」
  • イミュータブルインフラストラクチャ(変更は更新ではなくゼロからインストールされる)は、運用を劇的に改善できる可能性あり。DBには使えないのと、デプロイ時間が長くなる点は欠点。
  • スクリプタブルロードバランサーは、運用を劇的に改善できる可能性あり。