「StatusCheckFailed_Instance」のアラームを複数用意することで、段階的なアラームアクションを実行する

クラウド

2023.04.07

シナリオ

現在、以下のような異常復旧策を考えています。

上記シナリオを実現するために、CloudWatch Alarm にて以下のように２つのアラームを作成しました。
監視メトリクスは両方とも「StatusCheckFailed_Instance」です。

エラー発生で再起動を実施するアラーム
- ３分以内に３回「StatusCheckFailed_Instance」となった場合、アラーム条件成立
  （監視間隔は１分毎）
エラー発生でメール通知するアラーム
- １０分以内に２回「StatusCheckFailed_Instance」となった場合、アラーム条件成立
  （監視間隔は５分毎）

それぞれ、アラームの成立条件をずらすことで、「1.先に再起動を実施」し、「2.それでもだめならメール通知」というようにします。

前回の記事の通り、「StatusCheckFailed_Instance」の発生による再起動後も「StatusCheckFailed_Instance」が発生し続けるようにしてテストしてみると、上記のシナリオ通りの動作となりました。

具体的には以下の画像の通りです。

まず 16:13:20 の時点で再起動が実行されていますが、再起動後もそれが継続することで 16:16:47 にメール通知が実行されています。