After an Incident

重大な障害(インシデント)の後に何をすべきかに関する情報。フォローアップと事後レビュー手続き。

役割ごとのフォローアップアクション#

インシデントから生成された直接的なフォローアップ項目に加えて、私たちの各対応役割にはいくつかの標準的なフォローアップタスクがあります。これらは一般的に軽量なアクションであり、情報を整理し、顧客に適切にフォローアップすることを保証します。

インシデント統率者の手順#

  1. インシデントをPagerDutyで更新する。

    • 関連するインシデントをすべて主要なインシデントの下にまとめてください。
    • インシデントの最終的な重大度を設定します。
    • インシデントを解決する。
  2. ポストモーテムを作成し、インシデントのポストモーテムのオーナーを割り当てます。

  3. 関連する利害関係者に内部メールを送信し、インシデントが発生したことを説明し、事後分析へのリンクを提供します。

  4. 時々、進捗状況を確認して、希望する時間枠内に完了するようにしてください。

代理の手順#

インシデントが解決された後に追加の手順はありません。しかし、ICは彼らのステップであなたの助けを求めるかもしれません。

スクライブの手順#

  1. チャット通信を確認し、重要なイベントから関連する項目を抽出します。

  2. すべてのTODO項目を収集し、それらを事後分析に追加します。

事象の専門家のためのステップ#

  1. ポストモーテムに関連すると思われるメモを追加してください。

顧客連絡の手順#

  1. インシデントに関して受け取った顧客からの問い合わせに返信してください。

  2. ポストモーテムの進捗を追跡し、外部メッセージが利用可能になったらステータスページを更新してください。

内部連絡の手順#

インシデントが解決された後に追加の手順はありません。ただし、ICは内部関係者からの質問に答える際にあなたの助けを求めることがあります。

インシデントのレビュー#

今回のインシデントがどのようにして起こったのか、なぜ起こったのか、そして再発を防ぐために何ができるのかを詳しく検討することが重要です。これらは多くの名称があります。事後レビュー、インシデントレビュー、フォローアップレビューなど。ポストモーテムという用語を使用します。

私たちの事後分析プロセスについて詳しく読むことができます。これについてさらに詳しく説明しています。

プロセスのレビュー#

インシデントをレビューするだけでなく、プロセスを見直すことも重要です。インシデントをうまく処理できましたか、それとも改善できる点がありましたか?

このレビューはまだあまり正式ではなく、通常は数人のインシデントコマンダーが集まって、どのようにすれば違ったことができたか、またはインシデント対応プロセスに何か調整を加えることができるかどうかを話し合うことが含まれます。

これらの会議に参加したい場合は、統率者の一人に知らせてください。必ず招待します。