こんにちは、AI・機械学習チーム(AIチーム)の農見(@rookzeno)です。みなさんAWS GameDayというものをご存知でしょうか。AWS GameDayとはゲーム化されたリスクのない環境で現実世界の問題を解決するためのスキルを学ぶ演習です。
今回はそれをAIチーム内でやってみようということで、開発環境でわざと障害を起こして、それを担当者以外が解決できるかというGameDayをやりました。そして開発環境のGoogle Kubernetes Engine(GKE)のNode Pool*1を吹き飛ばしました😇
Node Poolが吹き飛ぶと、APIやバッチが全て落ちるのでおしまいです。
なぜGameDayを行ったのか
AIチームではマイクロサービスを少人数で沢山作るという方針でプロダクトを作っており*2、レビューはしてるものの担当プロダクト以外の障害対応は少し手間がかかるというのが現状です。
そこで担当者が休みの時に障害が起こるとヤバいプロダクトで擬似的な障害対応をして、担当プロダクト以外でも障害対応力を上げていこうということでGameDayを行いました。
GameDayの目的
実際にありそうな障害を再現し、担当者以外が対応することで次の効果を期待しました。
- チーム全体のシステムの理解度を上げる
- 落ちたら困るAPIの復旧などの暗黙知をチームに広げる
- なぜGameDayを行ったのか
- GameDayの目的
- GameDayの流れ
- CronJobが動いてない事件
- やったこと
- どうしてこうなってしまったか
- 想定解
- 1. コミュニケーションが最初
- 2. Podを調べる
- 3. Node Poolの上限を増やす
- 他チームの課題についても軽く
- 成果報告会
- 感想
- We’re hiring !
- エンジニア採用ページ
- AI・機械学習チーム紹介資料
続きを読む