こんにちは。エンジニアリングGでSREチームのチームリーダーを務めている池田(@progrhyme)です。
以前のエンジニアリングG内には、システムインフラの構築・運用を主に担当する「インフラチーム」が存在していましたが、今年の7月から改称して「SREチーム」と名乗ることにしました。
以降では、SREチーム設立の経緯や、その役割、ミッション等について記します。
SREとは
SREは「Site Reliability Engineering」の略で、2003年にGoogleで誕生したSREチームが実践してきたプラクティスに基づくシステム運用の新しい形です。
2016年にO'Reillyから同名の書籍が出版されたことで、IT業界を中心にその考え方やメソッドが広く普及していったと思います。
SRE(= Site Reliability Engineer)が単なる運用チームと異なるのは、彼らがソフトウェアエンジニアだということです。
言い換えれば、同じ作業の繰り返しや人手による管理を良しとせず、それを自動化するソフトウェアを設計・実装する能力を持つ、ということです。
エムスリーのSREチームにおいても、このようなSREの在り方を追求していく方針です。
チーム改称のねらい
インフラチーム時代にも、チーム内にSREが所属しており、SREの取り組みも業務に含まれていました。
が、チーム内に肩書上SREでないメンバーも属しており、業務範囲とジョブタイトルの区分が明確でない状態でした。
その辺りを明確にすることと、チームとしてSite Reliability Engineeringを推進していく姿勢を打ち出すことを目的として、「SREチーム」と改称することを私が提案しました。
その提案がメンバーやマネージャー陣に快く受け入れられ、改称に至りました。
インフラチームがこれまでやってきたこと
エムスリーのインフラチームが従来、主に担当していた業務は次のようなところでした。
- システム構築や改修における基礎部分の対応:
- オンプレミスの場合、ハードウェアの調達や設置を伴うことも。
- OS, ミドルウェア、アプリケーション実行環境のセットアップと構成管理
- ログの収集と可視化
- システム監視やアラート対応
- セキュリティの維持
- 開発・QA環境の整備
SREチームとしてこれからやっていくこと
SREチームになったからといって、インフラチームが担っていた業務をなくせるわけではありません。
従って、上記の業務は基本的にSREチームが引き続き担当しています。
加えて、以下についても(より積極的に)取り組んでいきます:
- 各サービスのSLI/SLOの管理
- トイルの削減
- ソフトウェアエンジニアリング(〜コードを書くこと)による問題解決の推進
この内、「SLI/SLOの管理」については、メンバーの高橋が先日記事を書いてくれました。
また、チームのミッションも定めましたので、紹介します。
SREチームミッション
- エムスリーが提供するサービスのシステム基盤について、現在から将来に渡って高い信頼性やセキュリティを保った管理・運用を行うことで、顧客が安心して快適にサービスを利用できるようにする。
- ビジネス要求や環境の変化に素早く柔軟に対応できるようなシステム基盤を実現し、スケール可能なチームづくりとその維持を行う。
これらのミッションを果たし続けられるように、頑張っていきます。
まとめ
エムスリーにおけるSREチーム発足の経緯と、その役割やミッションについて記しました。
今後もこのテックブログ等を通じて、SREの活動を紹介していければと思います。
SREを募集しています!
エムスリーでは私たちと一緒にソフトウェアの力でサービスの信頼性を守るSREを大募集しています!
ご興味のある方は是非、下のフォームからご連絡下さい。
なお、SREの募集要項はこちらです。