インシデント対応訓練をする際のポイントまとめ
はじめに
前回に引き続き、NEXCO中日本の事例を例に出したいと思います。 障害内容を詳しく分析するというよりは、障害対応を円滑にするためには何をするべきかを議題にします。2024年に発生したNEXCO中日本の障害では、システム障害の発生の際に、現場を含めて多くの混乱が発生しました。そして、今後の再発防止として、いくつか再発防止策が出されていました。 今回は、実際の再発防止策を機能させるための、障害発生時の訓練、特にインシデント対応訓練で実施することについて議論を進めたいと思います。
インシデント対応訓練で実施すること
この章では、訓練計画の実施内容について議論をしたいと思います。
実際に障害が起きて、右往左往して何もできない状態は避けるべきです。 実際の緊急時における緊張やプレッシャーから発生するミス、何らかのイレギュラーが発生する可能性があります。 そのため、訓練計画を作成して実際に訓練をしてみる必要があります。この章では訓練計画での作成項目について項目を挙げます。
訓練計画を作成するにあたり以下の項目に沿って作成してみてください。
1. 訓練前提条件の確認(どこまで訓練対象とするか)
シナリオ設定 想定故障例
- DB障害
- ネットワーク障害
- 認証基盤障害
- 外部サービス停止
- ランサムウェア想定
- 単一障害か複合障害か
- 想定被害範囲
- 業務影響レベル
ここで、重要なことはあくまで訓練作成側の情報としてとどめておく必要があります。実際の障害と同様に、どこに障害原因があるのかわかっている状態だと訓練になりませんので、留意する必要があります。
障害訓練の観点も多岐に渡ります。作成したBCPの妥当性について。SLAが達成できるか。製品由来の障害や、セキュリティ関連の障害などが挙げられます。
2. 障害検知フェーズ
確認項目
- 現在の監視項目で障害検知できるか
- 誤検知との切り分け
- 検知からエスカレーションまでの時間
- MTTD(平均検知時間)
- アラートの有効性
- 監視閾値の妥当性
実際の障害とは違い、障害訓練には始まりがありますので、障害が発生したと分かります。ただ、障害発生した際に、実際の死活監視ができているか、想定されるエラーメッセージが出力されるか、または基盤関連の閾値が許容範囲内なのか否かを見極める必要があります。
3. 初動対応フェーズ と指揮命令・危機管理体制発動
確認項目
- 障害重大度判定のスキーム
- 影響範囲切り分け
- 手順書の有無
- 手順書の品質
- 誰が指揮官か
- 意思決定権限
- 役割分担
- 指揮所/本部の運営

特に、初期対応のフェーズで見極めたいところは一次解析の品質とコミュニケーション品質に着目してください。一次解析の品質とは、用意されていた手順書で被疑箇所を特定できるか。またそれに付随して、障害報告が本部にできているかを確認する必要があります。また、障害対策本部を事務環境で置ける場所があるのか?例:大きめの会議室であったり、資料の投影をするケーブル類が揃っている、またはホワイトボードなどがあるか。加えて十分な人数を収容できる椅子とテーブルがあるのか。本番解析室で実際指揮系統をとる予定は誰なのか?解析をするマシンや椅子とテーブルが十分にあるのかを改めて確認してください。ホワイトボードに記入するペンのインクが全て切れていた、、、HDMIの変換ケーブルがなかった、、、などということがないように、細かい観点から確認をすることで全体の障害対策の質が上げられるでしょう。
4. サービス継続フェーズ ~代替手段での運用継続有無の判断と切替~
確認項目
- 手動運用移行
- 業務縮退運転
- 優先に動かす業務の維持
- 代替手順の実効性
- 手作業での対処
- 優先的に動かす業務のやその業務のジョブネットの確認
仮に障害対策訓練で計画したBCPが機能するのかを観点にするのか見る場合この項目は重要です。BCP計画では全ての業務を一斉に復旧する訳ではないので優先的に復旧する業務が決められているはずです。決められた優先度が高い業務を復旧できるかが鍵になります。
業務が復旧するまでに、手動で業務を継続するのか。継続する対象の業務であったり手順書を準備する必要があります。また、顧客を巻き込んだ訓練ができるのであれば、顧客のオペレータとも連携して、BCP発動時の手順書の品質確認を実施できたら良いでしょう。
5. 振り返りと改善
以下が主な確認観点です。
- BCP改訂
- 監視項目改善
- SLA改訂
- 教育計画反映
訓練は「やって終わり」にしないことが重要です。 振り返りを実施して、計画した障害シナリオ通りに実施できたのかを測定する必要があります。
例えば、BCP計画で定義された最低限動作させる業務について機能するのかを障害訓練として実施した場合、最低限動作させるジョブネットが動作するのか?縮退運転が機能するのか?災対機能への切り替えができるのかなど?手順書の記載内容から格納場所、解析室の環境やリソース、コミュニケーションが円滑に取れていたのかを観点に振り返りを実施します。
振り返りを実施した結果、完璧に実施できれば問題ないですが、何かしらの課題が出てくる場合が多いです。その際に、実際のシステムのBCP計画の充足度、監視項目の網羅性、SLAの妥当性や提案を必要に応じて実施してください。また、障害対応のスキルマップをこの際に作成してください。スキルマップには、要員で誰がどの障害シナリオに対処できたのか?業務系・基盤系・NW系に詳しいなどマッピングをします。このスキルマップが充足していると実際の障害体制を組むときに、要員のスキルが均一になるように体制を決めることができます。
6. その他留意すること(コミュニケーションなど)
・復旧だけでなく継続運用を検証しているか
・意思決定訓練になっているか。
・顧客説明訓練を含むか。
・ベンダー含め訓練しているか。
・机上演習だけでなく実動演習しているか。
意思決定訓練になっているかに関してですが、顧客説明やベンダーを含めての訓練とも密接に関係しています。 実際の障害では、顧客への対処の説明であったり、ベンダーへ詳細技術について調査依頼をします。その際の報告内容であったり、コミュニケーションルートなど複数のコミュニケーションが錯綜します。
誰から報告をうけるのか、誰に調査を依頼するのか、シミュレーションすることで実際の混乱した現場でもスムーズにコミュニケーションを取ることができます。
また、実際の訓練事例を紹介します。
Freee社が毎年実施している、障害訓練のひとつです。ランサムウェアが自社の環境に入り込み、DBを破壊したのちにCEOに身代金要求をする、障害シナリオです。
詳細は、参考文献に記載のURLをご参照いただきたいのですが、こちらの障害訓練のシナリオは昨今のランサムウェア被害に類似するようなかなりリアルなシナリオです。ライサムウェアに感染し、DB障害が発生している中に、実際に身代金がCEOに請求されるものでした。*かつ身代金の金額も詳細の額を会計上計上しなくても良い額なので、この障害をCEO判断で揉み消しすることができる額になっています。
実際の障害訓練では、身代金の金額をここまでリアルに設定できれば吉ですが、見える観点としては、障害発生時のコミュニケーション・基礎的なリソース(有識者の有無・手順書がしっかりアップデートされているかなど)など、準備されているBCPシナリオが十分に機能するのかを確認することが主な目的となります。
最後に
前回の記事に引き続き、NEXCO中日本の障害事例を引き合いに障害に強い組織を作るために、インシデント対応訓練の実施を推奨します。インシデント訓練の実施するべきこととして、検討事項になることをまとめさせていただきました。障害は100%防ぐことは難しいです。ですので、起きてしまった時のことを考えて、エンドユーザーに価値を提供し続ける。そのために障害訓練を実施して、障害に強い組織を構築していただければと思います。
参考文献
高橋睦美 ITmedia (2022-03-18公開).
自社のDB破壊しCEOに身代金要求、freeeが本当にやったクラウド障害訓練の舞台裏 「従業員はトラウマに」.
https://www.itmedia.co.jp/news/articles/2203/17/news038.html
(参照2026-05-01)
NEXCO中日本(2025).
広域的なETCシステム障害発生時の危機管理検討委員会.
https://www.c-nexco.co.jp/corporate/pressroom/2025_crisis-management_etc
,(参照2026-05-01)
東日本高速道路株式会社,中日本高速道路株式会社,西日本高速道路株式会社(2025).
再発防止策.
https://www.c-nexco.co.jp/corporate/pressroom/2025_crisis-management_etc/pdf/2025_crisis-management_etc08.pdf (参照2026-05-01)