「協同」で変えるシステム障害対応とは?

2024/04/12
今野貴大

目次

  1. ・自己紹介
  2. ・協同で変えるシステム障害対応とは?
  3. ・システム障害対応の課題への取り組み予定
  4. ・ミッション・ビジョン

1.自己紹介

野村 浩司(のむら こうじ)
 金融システムの開発保守運用と改善を12年担当。1日6回アラート電話を受け、週2回夜中に駆け付ける生活を6年送りました。この経験を通して、この状況の改善をしたい!と思い、その後6年間、特にシステム障害対応を中心に保守運用の改善をしてきました。
 合計約1000件の障害事例を分析。システム障害対応の改善では、アラートを9割削減等を実現してきました。
 現在、エンドユーザーの影響極小化を目指したインシデントレスポンスサービス「XonOps(エクソンオプス)」の企画運営を担う。社内外100チーム以上のシステム障害対応の改善に取り組んでいます。

<著書>

『3カ月で改善!システム障害対応 実践ガイド インシデントの洗い出しから障害訓練まで、開発チームとユーザー企業の「協同」で現場を変える』(翔泳社)

2.「協同」で変えるシステム障害対応とは?

「協同」とは、開発チームとユーザー企業が助け合いながら、システム障害対応にあたること。です。

もちろん、うちはそんなの無理だ、とか、お客様がそんな風に接してくれない、など様々な事情がおありだと思います。それでもなお、私たちは、協同と助け合いをシステム障害対応のスタンダードにしていきたいと考えています。

 システム障害対応は、様々な関係者と協同し、助け合いながら切り抜けていくことで、エンドユーザーへの影響を最小化できると信じているからです。
 ITサービスを構築するときは、会社の内外問わず、多くの関係者で開発されますし、他のITサービスと連携しながら、1つのプロダクトとして成り立っていることがほとんどです。
 なので、そうやってでき上がったITサービスで障害が起きるのであれば、構築時と同様に、多くの関係者で乗り越えていくのが自然かつ合理的なのではないでしょうか。

3.システム障害対応の課題への取り組み予定

  • 改善が進まない
  • アラートが大量/複雑
  • 障害対応が属人的

 3-1.改善が進まない

 システム障害対応の改善が必要だけど、一歩目をどのように踏み出せばいいかわからないという課題に対して、システム障害は改善ノウハウが少ないので、書籍・メディア・コミュニティを構築してノウハウを共有できる場を構築していこうと考えています。またITILや総務省の出しているガイドラインなどの紹介・解説などをしつつ、ゆくゆくは皆様と共にシステム障害対応にまつわる悩み相談ができる場を目指していきたいと考えています。

 3-2.アラートが大量/複雑

 アラートが大量に発生して電話が来て寝れない、パトランプが鳴りっぱなし、メールが1日何十通も来る、、、アラート内容が複雑で、ベテラン社員に頼り切ってしまう、、、などアラートで、困っている方へ改善活動を行います。

 3-3.障害対応が属人的

システム障害対応時に「人の招集・タスクの管理ができない」「システム障害対応が属人化」という課題に対して、整理方法を体系化しました。今後は、ワークショップ形式やもくもく会のような形式で皆様と実践していく計画があります。そして、それを支援するITサービスの紹介や、新たな構築もしていく予定です。

4.ミッション・ビジョン

私たちのミッション・ビジョンを説明します。
・ミッション:困ったときに助け合える世界へ変える
・ビジョン:エンドユーザーがシステムインシデントで困らない世界へ変える

 大学・大学院時代の地震の研究をしていて、卒業直前東日本大震災が発生、津波に押し流された街に絶望しましたが、れだけでなく、私財を投げ打って日本全国・全世界から集まるボランティアの方々に感動しました。

 その後、大手SIerに入って大規模障害が発生した時、多くの方に助けてもらいましたが、さらに自然災害のように日本全国・全世界が助け合えば、システムインシデントによるエンドユーザーへの影響が減ると考えています。障害の発生を抑えるための、品質管理を始めとした対応は十分に研究されている一方、システム障害発生後はまだまだ改善の余地が大きく、緊急時に助け合うことで更によりよくなっていくと考えています。