システム障害対応を一歩改善するポイントとは?株式会社インゲート様の社内勉強会に弊社野村が登壇しました
株式会社インシデントテックでは「エンドユーザーがシステムインシデントで困らない世界へ変える」ことを目的として、企業への勉強会を行っています。今後も定期的に開催していきます。
今回は人材紹介・採用支援・キャリアカウンセリング事業、ITソリューション事業を手掛ける株式会社インゲート様にて、システム障害対応やポストモーテムの進め方に関する社内勉強会が開催され、弊社代表・野村が登壇いたしました。
本レポートでは、ご参加いただいた皆様の積極的なご意見に触れながら勉強会で紹介した大量エラーメッセージの改善事例を抜粋してご紹介します。
改善事例
システム障害対応を改善するには、「組織間の役割分担の観点」が必要です。
組織間の役割分担が不適切で責任・実行・権限・専門性の役割がバラバラだと組織が動かないため、役割分担の統一を目指すことが重要です。
運用担当者が100名、保守担当者が500名(1チーム20名×25チーム)いる大規模な金融サービスで、月間数万件のエラーメッセージを改善した事例で「組織間の役割分担の統一」について解説します。
このシステムでは、運用担当者がアラートを基に対処を行っており、1日100回以上保守担当にエスカレーションの電話を行っていました。
しかし、100回のアラートのうち7~8割は不要なアラートで、保守担当にエスカレーションをしても「対処不要」という回答をもらうという状況でした。
運用担当は「不要なアラートを消してほしい」と要望するが、保守担当はシステムを改修して不要アラートを止めるよりも「対処不要」と回答する方が手間が少ないため、5年以上も改善が放置されていました。
この課題の根本的な原因は、運用担当と保守担当の役割分担のズレにありました。
運用担当はアラートが出た際の実行に責任を持っており、保守担当はアラートの対処が必要か不要か判断する専門性を持ち、アラートを出す権限を持っていました。
そのため、役割分担を変更し全て保守担当にまとめることで、保守担当自身が楽になるために改善が続く組織に変更しました。
まず行ったことは業務の改善で、
これまで運用担当者が行っていたエスカレーションの電話を自動化し、更に不要アラートを簡単に設定できるようにしました。
これらは、業務を自動化・削減するだけが目的ではなく、保守担当に役割をまとめることを見据えて実施しました。
最初は各部署から反発がありましたが、保守担当の全25チームと5回の対話を続け、業務が楽になることについて理解を進めていったことで、9割以上のアラートの削減に成功しました。
特筆すべきは、最初は数十件しかなかったアラートの設定が今では1万件を超えて、今でも毎月100件アラートが設定され続けており、改善が進み続ける組織を作ることができたという点です。
改善事例のまとめ
- 役割分担がバラバラで組織間で思惑が異なっていると、改善は進まない
- システム障害の改善に向けて、組織の役割分担が適切になっているか確認することが重要
参加者の声
講演後のアンケートでは、なんと98%の方からポジティブな評価をいただきました!誠にありがとうございます。
- 普段は聞かないようなお話もあり、とても良い機会でした。保守と運用の間に壁があることや事前に定義をはっきりさせておくなど、自分にはなかった観点でした。
- 多くの実際のデータ(1000件)から分析された内容であり、勉強になりました。実話に基づくお話だったので頷ける点もあり、有意義な時間だったと感じています。
- 講演会を視聴し、自身の現場で障害対応を行うことも多々あり、その際の注意点や優先すべき事項など有益な学びを得ることができた。自身の中で考えてみても、特に大きな障害では適切な行動が取れていなかったと思うので今回の講演会の経験を活かして今後の対応に繋げていきたい。
- 短い時間でしたが勉強になりました。自分は設計構築フェーズに携わっておりますが、システムに向き合う根本的な考え方の根幹は同じように感じました。こういった講演は引き続き開催いただけると大変勉強になると思いました。
インシデントテックはシステム障害対応の改善を支援するパートナーとして、今後も勉強会や交流会を開催していく予定です。
もし勉強会や登壇依頼についてご興味のある方は、問い合わせフォームよりお気軽にご連絡ください。