During an Incident

重大インシデント発生時の対処方法に関する情報。重大インシデントの構成については、重大度レベルの説明を参照してください。

!!! note "資料"独自の内部ドキュメントについては、このページに必要な情報がすべて網羅されていることを確認してください。たとえば、電話会議の番号、Slackチャンネル、重要なチャットコマンドなどです。次に例を示します。

<table class="custom-table" id="contact-summary">
  <thead>
  </thead>
  <tbody>
    <tr>
      <td><a href="#">#incident-chat</a></td>
      <td><a href="#">https://a-voip-provider.com/incident-call</a></td>
      <td><a href="#">+1 555 BIG FIRE</a> (+1 555 244 3473) / PIN:123456</td>
    </tr>
    <tr>
      <td colspan="3" class="centered">インシデントコマンダーに連絡しますか?こちらのコマンドを <code>!ic page</code> Slack上で実行してください</td>
    </tr>
    <tr>
      &quot= "3"<><em>エグゼクティブサマリー更新のみ、join<hra="#">#エグゼクティブサマリー更新</a>/em></td>/td>/
    </tr>
  </tbody>
</table>

!!! 警告 "セキュリティインシデント?"これがセキュリティインシデントである場合、Security Incident Responseプロセスに従う必要があります。

落ち着いて!#

  1. インシデントコールとチャットに参加します(上記のリンクを参照)。

    • だれでも、電話やチャットに参加して、インシデントを観察し、フォローすることができます。
    • しかし、積極関与を希望する場合は、両方に参加する必要があります。何らかの理由でコールに参加できない場合は、専属の代理人が必要です。チャットルームでの分裂した話し合いは、最終的にはまとまりがなくなることがほとんどです。
  2. 通話/チャットと一緒にフォローし、適切と感じるコメントを追加しますが、問題に関連する議論は手元に残しておきます。

    • 中小企業でない場合は、サービスの主要な中小企業を通じて、議論を絞り込んでみてください。一度に話し合う人が多すぎると、収拾がつかなくなる可能性があるので、可能であれば、呼び出しの階層構造を維持するようにする必要があります。
  3. インシデントコマンダー(* IC)の指示に従います。

    • 通話中のインシデントコマンダーはありませんか?
      • Slackコマンド!ic page を使用して、Slack 経由で手動でページ化します。これにより、プライマリIC とバックアップIC が同時に呼び出されます。
      • 決してインシデントコマンダーのページを見ないでください。持っているが実際にはそれを必要としない方が、他の方法よりはるかにましです。

インシデントコマンダーの手順#

できるだけ早く、できるだけ安全に、インシデントを解決し、副担当者を使って支援してください。貴社の裁量により、関連する各担当者にタスクを委任します。

  1. 電話とSlackで、あなたが事件の司令塔であり、あなたが代理(通常はバックアップIC)に指定し、書記をしていることをお知らせします。

  2. 事件の明らかな原因(最近の展開、トラフィックの急増など)があるかどうかを特定し、関連する専門家に調査を委託する。

    • コールのサービスエキスパートを使用して、分析を支援します。彼らは原因の確認を迅速に提供できるはずだが、必ずしもそうではない。原因が明確に分からない場合の進め方については、インシデントコマンダーに尋ねましょう。知見を持っているサービスオーナーの助けを借りましょう。
  3. 調査&修理アクション(ロールバック、レートリミットサービスなど)を特定し、アクションを関連サービス担当者に委任します。典型的にはこのようなもの(明らかに完全なリストではない)で、

    • デプロイメント不良: ロールバックします。
    • Web アプリケーションのスタック/クラッシュ: ローリング再起動を実行します。
    • イベントフラッド: 自動スロットリングで十分であることを確認し、十分でない場合は手動で調整します。
    • データセンターの停止: 自動化により、不良なデータセンターがされたことを確認します。そうでない場合は、強制的に停止します。
    • 負荷なしのサービス水準低下: フォレンジックデータ(ヒープダンプなど) を収集し、ローリング再起動を検討します。
  4. 重要度のエスカレーションに関する副担当者からのプロンプトを聞き、公に発表する必要があるかどうかを判断し、それに応じてカスタマーリエゾンに指示します。

    • 公表はインシデントコマンダーとして貴社の裁量で行う。不明な場合は、一般に公表します("不明な場合は、tweet out")。
  5. 制御範囲を追跡します。応答が大きくなり始めたり、インシデントが複雑になったりする場合は、より効果的な応答を得るために、サブチームを分割することを検討してください

  6. インシデントが復旧したか、アクティブに復旧したら、インシデントが終了し、コールが終了したことを通知できます。これは、通常、インシデントに対して現在実行すべき作業がないことを示しています。

    • 急を要さない議論はSlack に移動します。
    • 顧客のリエゾンがインシデントを公開するようにフォローアップする。
    • インシデント後のクリーンアップ作業を特定します。
    • 根底にある要因について、振り返り/分析を行う必要があるかもしれない。
  7. コールが終了したら、インシデントの後からステップを開始できます。

代理人の手順#

インシデントコマンダーをサポートする必要があるものは何でもあります。

  1. インシデントのステータスを監視し、インシデントが重大度レベルでエスカレートした場合は、インシデントコマンダーに通知します。

  2. インシデントコマンダーの指示に従います。

  3. コールが終了したら、インシデントの後からステップを開始できます。

スクライブ(書記官)の手順#

Slack にあるインシデントからの重要な情報を文書化する必要があります。

  1. Slack room を、インシデントコマンダーが誰で、Deputy が誰で、あなたがスクライブであるかで更新します(まだ行われていない場合)。

    • 例"インシデントコマンダー:ボブ・ボバーソン副会長 代理人:副社長:記録者 McWriterson"
  2. すべてのレスポンダが現在の状態を確認できるように、ステータス監視ボットを起動します。

    • OfficerURL は、Slack のステータスを監視するのに役立ちます。
      • !status - 現在のステータスを表示します。
      • !status stalk - 継続的にステータスを監視し、30 秒ごとに部屋に報告します。
  3. 重要なアクションが実行された場合、または結果が決定された場合は、Slack にメモを追加する必要があります。インシデントコマンダーがこれを指示するのを待つ必要はありません。独自の判断を使用してください。

    • また、Slack ルームにTODO のメモを追加して、後で予定されているフォローアップを示す必要があります。
  4. インシデントコマンダーの指示に従います。

  5. コールが終了したら、インシデントの後からステップを開始できます。

事象の主担当者のためのステップ#

あなたの使命は、インシデントの原因を特定し、修理処置を提案し、評価し、修理処置をフォローする際に、インシデントコマンダーを支援することです。

  1. 任意のグラフまたはログを分析して、インシデントを調査します。すべての知見をインシデントコマンダーに発表する。

    • 原因がわからない場合は、それでも構いません。調査中であることを示し、インシデントコマンダーに定期的なアップデートを提供してください。
  2. インシデントコマンダーへの解決のためのすべての提案を発表する。それは、どのように進めるかについての彼らの決断であり、そうするように指示されない限り、いかなる行動にも従わない!

  3. インシデントコマンダーの指示に従います。

  4. コールが終了したら、インシデントの後からステップを開始できます。

顧客連絡の手順#

インシデントに関する公的なメッセージを投稿するために、待機してください。

  1. 通常は、ステータスページを更新し、通話中の特定の時間にさまざまなアカウントからツイートを送信する必要があります。

  2. インシデントコマンダーの指示に従います。

  3. コールが終了したら、インシデントの後からステップを開始できます。

リエゾンの手順#

内部の利害関係者にアップデートを提供し、必要に応じて追加の内部対応者を動員することができます。

  1. インシデントコマンダーの指示に従い、他の人物を呼び出す準備をする。

  2. 必要に応じて内部の利害関係者に通知し、PagerDuty インシデントにサブスクライバー(購読者)を追加します。私たちは、"SEV-1 Stakeholders"および"SEV-2 Stakeholders"という定義済みのチームを使用できます。

  3. エグゼクティブチームにSlack(およそ30分ごと)で定期的なステータスアップデートを提供し、現在のステータスのエグゼクティブサマリーを提供します。なるべく簡潔にして、@here を使用します。

  4. インシデントコマンダーの指示に従います。

  5. コールが終了したら、インシデントの後からステップを開始できます。