Alerting Principles

私たちは、単純な原則に基づいて、どのようにアラートを受けるかを管理します。アラートは、人間がアクションを実行する必要があるものです。それ以外は通知であり、それは私たちがコントロールできないものであり、私たちがそれらに影響を与える行動を取ることができないものです。通知は役に立ちますが、全ての通知が人を叩き起こすべきものではありません。

アラート優先度#

優先度の高いアラート

夜中に人間を起こすものは即座に人間がアクションを取れるようなものでなければなりません。該当しない場合には、その時点で通知が行われないようにアラートを調整する必要があります。

優先度 アラート 応答
PagerDuty Alert 24/7/365. 即時の人間の行動が必要.
優先度の高いPagerDuty Alert 営業時間のみ. 24時間以内の人間の行動が必要
優先度の低いPagerDuty Alert 24/7/365 ある時点での人間の行動が必要
通知 抑制されたPagerDuty イベント 応答不要。情報提供のみ。

新しいアラート/通知を設定する場合は、上記のチャートを考慮して、ユーザーにアラートを送信する方法を確認します。たとえば、すぐに対応する必要がない場合は、優先度の高い新しいアラートを作成しないように注意してください。

優先度の例#

"プロダクションサービスがリクエストの75%で失敗し、自動化では解決できません。"_#

これは、High priority ページになり、解決するためにすぐに人間のアクションが必要になります。

緊急性が高い

"プロダクション・サーバーのディスク領域がいっぱいになり、48時間でいっぱいになると予想されます。ログのローテーションでは解決できません。"#

これはMedium priorityとなり、いずれ人間の行動が必要になりますが、直ちに今すぐというほどではありません。

中程度の緊急度

"SSL証明書の有効期限が1週間後に迫っています。"#

これは、Low priorityになり、いずれ人間の行動が必要になりますが緊急性は低いです。

低緊急度

"デプロイが成功しました。"#

これはNotificationとなり、抑制されたイベントとして送信されます。これは、インシデントが発生した場合に有用な情報を提供しますが、人間に通知する必要はありません。

通知

アラートの内容#

アラートには、問題を迅速に特定し、可能性のある修復手順を特定するのに十分な有用な情報が含まれていることを確認する必要があります。一般的なタイトルまたは説明を含むアラートは有用ではなく、混乱を引き起こす可能性があります。私たちは、すべてのアラートが従うべき、アラートの内容に関する一連のガイドラインを持っています。

タイトル/要約をわかりやすく簡潔にする。#

アラートをトリガーしたメトリクスを、アラートの内容に含めるようにしましょう。#

アラートの内容には、実際どのような問題なのか、そしてなぜ問題なのかについての説明も含めましょう。#

問題を解決するための明確な手順、または手順書へのリンクを提供します。これらのいずれもないアラートは有用ではありません。#

アラートのテスト#

テストは超重要

事前にテストされていないアラートは、アラートをまったく持たないことと同等です。いざという時に、アラートが期待通りに届く保証はありません。アラートが実際に機能するかどうかをテストすることは、しかるべきサービスの健全性にとって重要であり、リリースの計画/デプロイメントの取り組みに含める必要があります。

新しいアラートと変更されたアラートをすべてテストするようにしてください。これは通常、新しいサービスのFailure Friday の一部として扱われますが、より迅速に必要な場合は手動でテストする必要があります。テストすべき事項は以下のとおりです: