パソラーです

https://twitter.com/pasora

ポストモーテム

今春(平たく言えば) SRE の部署に異動したのでもろもろ勉強中なのだが、
マネージャーが
cloudplatform-jp.googleblog.com を指して
「この会社に最も足りないのは『非難を伴わない障害報告書を記録するカルチャー』だ」
と言っていた。

社内に障害報告を行うためのツールはあるのだが、
エンジニアがビジネスサイドに説明するためのツールにもなっているという側面があるために
サービスへの影響がどの程度だったか、再発防止策は何かというところに重点が寄っている。

思い返すと、鉄道業界はこのあたりのカルチャーがしっかりしていると感じる。

トラブルが起こるとマネージャーがエンジニアから聞き取りを行ってレポートを作成するが、
当時オペレーターが持っていた知識と経験から何を考えて何を行ったのか、
使っていたツールなどの挙動/反応を限りなく細かく記録していくことが重視される。
場合によっては作業者の睡眠時間、健康状態、精神状況までも記録対象だ。
作業ログが残っている場合はそれらも全て引用した上で、
非難されるというよりは正直に全てを話すように言われる。
「必ずミスは起こる」ということを全員が常識として持っているので、
その記録から可能な限り学ぼうとするのだ。

他チームを含めて全てのエンジニアが学ぶべきと判断された場合は
報告書の概要と再発防止策が1枚の紙にまとめられ、
各チーム執務エリアの壁にしばらく貼られることになる。
エンジニアが出勤したときには読むことが必須で、
内容を確認したら捺印することになっている。
捺印した数日後にマネージャーその内容を抜き打ちで
確認されることもあるため流し読みでは済まない。

重いインシデントに関しては月に1度行われる全体会議で振り返りが行われるが、
時には自チームや自社にとどまらず他社の事例も取り上げられる。
ヒヤリハット」程度の事案でもエンジニア内の
ローカル SNS のようなもので雑談と共に共有される。

以上単語を無理やり IT 業界っぽく置き換えたので伝わりづらいかもしれないが、
とにかく日常のコミュニケーションに占める事故に関する割合が多い。
常に KYT を行う文化があり、起こった事故に対して後ろ向きではない。
事故を起こした本人は落ち込むが、周囲が「今回たまたま君が引いただけだ」
「昔自分もやった」「誰だってミスを起こす」とフォローに入る。

さすが一歩間違えれば人命に関わる社会インフラを支える企業、と言うのは楽だが、
実際ここまでのチームを作っていくのは人材の入れ替わりの激しい IT 業界ではなおさら難しい。

せっかく事故防止に関して強いカルチャーを持つ組織を経験したので
なんとか今後の仕組み作りに活かせないかと考えている。