コアSREチームからサービスチーム側に落下傘してみてた話

皆さんこんにちは、エンジニアリンググループの高橋(@tshohe1)です。
この記事はエムスリーSREがお届けするブログリレーの15日目です。

他の記事でも何度か説明されていますが、エムスリーでは2019年頃からチーム横断的なシステムを管理する「コアSRE」とは別に、サービスチーム内にて各サービスのインフラを重点的に見る「チームSRE」というポジションを新たに設けています（チームSRE化の流れの詳細については下記ブログリレー最初の記事*1を御覧ください）。

私は入社時点ではコアSRE（当時はまだインフラチーム*2）として働いていましたが、2019年頃からサービスチーム側SREと兼務したりコアSREに戻ったりまたチーム側SREに移動したりとふらふらしている謎の存在になっていました。
現時点ではコア/チーム側両方に所属していた者はいないはずなので、本記事ではコアSRE側の視点/チームSRE側の視点でどのような差があったのか、これまでの経験から得たものを簡単にまとめてみたいと思います。

f:id:tshohe:20210201130411p:plain — 本文とあまり関係はないですが"木星の衛星エウロパの海に生息するといわれる魚のような生物"の画像です（余談ですがチームSRE推進は最初SREサテライト計画と言われていました）

サービスチーム側へ参加するまで
コアSREの視点
- サービス数が多く管理が難しい
- ビジネス側との距離がある
チームSREの視点
- より良い SLI/SLO 監視の設定が可能になった
- ポストモーテムをより集中して実施することが出来た
まとめ
We are Hiring!

サービスチーム側へ参加するまで

元々はコアSREチームのメンバーとして、各チームのインフラ環境を横断的に見ていたのですが、チームSRE化及びクラウド化が進むにつれて各サービスの実行環境はサービスチーム側で管理することが増えてきました。

共通のインフラ環境の整備はインパクトも大きくとてもやりがいはあるのですが、個人的には各事業側のサービス運用の方に強い興味があったこともあり、可能な限りサービス側に近いSREとして働けるようにチームリーダーと相談をしながら段階的に移動していきました。

以下で両環境で感じたことをまとめていきます。

コアSREの視点

コアSREとして働いていた際（チームSRE推進前）に思っていたこととしては下記が挙げられます。

サービス数が多く管理が難しい

チームSRE化が推進されるまではオンプレに数多くあるサービスのインフラに関わる変更を一手に引き受けていたこともあり、見るべきものがかなり多く混乱しやすい状況でした。

またサービス全体に関わる修正（脆弱性、インシデント対応など）も一手に引き受ける都合上、何かあったときに急激に負荷が上がりやすい状況でもありました。

ビジネス側との距離がある

あとはやはりコアSRE側と各サービス側のビジネスサイドだと流石に距離が遠いなと思うことが多くありました。過去の SLI / SLO*3 に関する取り組みの際のルールでは下記のように 各ビジネス側 <---> 各チームエンジニア <---> コアSRE という経路でやりとりするようにしていたのですが、実際にビジネスサイドとチーム側のエンジニア間でどのようなやり取りがあり、どのような改善がなされているのかが非常に見えにくかったです（SRE 文化が十分に浸透していれば別にいちいち見る必要も無いとは思いますが）。

www.m3tech.blog

かといってコアSRE側で全チームのビジネスサイドと相談して進めていくのはリソース的に現実的ではないのでチーム内に監視を切り出すのは非常に良かったと思います。