国内外の障害対応事例まとめを読みやすいようにざっくりとまとめてみた①(2025年8月)
– はじめに
こんにちは!今回の記事では2025年8月に日本国内外で起きたシステム障害、対応、復旧事例をざっくりと5つ、筆者の考察とともに紹介します。
また今回の記事では生成AIを部分的に使用しています。
1:PayPal グローバル障害(8月1日)
- 概要:
2025年8月1日、世界最大の決済サービスの一つであるPayPalの決済プラットフォームでシステム全体が一時的に利用不可となる障害が発生しました。特にオンラインショッピングや各種サービスでの取引処理が停止し、その間ユーザーは支払いを完了できない状況に陥りました。障害は米国時間の朝に発生し、ユーザーのログインや決済処理ができなくなるなど、重要な時間帯に金融取引が中断する深刻な影響を及ぼしました。
- 原因:
サーバー内のメモリ管理に問題が発生し、データベースアクセスが遅延。特に、トランザクションの承認やアカウント管理システムが相互に依存しているため、一箇所の遅延が全体に影響を残したためプラットフォーム全体のパフォーマンスが著しく低下しました。
- 復旧対応:
問題の発生したサーバーの再起動とキャッシュクリアを行い、併せて負荷分散(ロードバランシング)を実施してトラフィックを他のサーバーに切り替え、一部機能停止の影響を最小限に抑える措置が取られました。その後、通常運転に戻りました。
- ダウンタイム:
約1時間20分。
- 特筆すべき点:
PayPalは世界中で約4億3800万ものユーザーおよび加盟店を抱える非常に重要な決済基盤であり 、その障害は影響範囲の極めて広い重大な事案となりました。特にこの障害が発生したタイミングは月初であり、家賃支払いや給与振込など定期的な送金が集中する日でもあったため、影響は一層深刻であったとも言えます。
考察
PayPalは安全性の高い決済サービスとして定評があり、筆者自身も日常的に利用しています。信頼性を持ちグローバルに利用されている決済サービスとして定評がある中で今回のシステム障害は大変大きな影響をもたらしたと考えます。月初めなどビジネス上重要なタイミングに備えサービスに高負荷がかかるであろうシナリオテストを事前に行うなどして対策を行う必要が見られるのではないかと感じます。
2:United Airlines システム障害(8月6日)
- 概要:
2025年8月6日、米国で最大の航空会社の一つであるユナイテッド航空で米国のネットワーク全体に重大なシステム障害が発生し、全米の主要空港(デンバー,ヒューストン,シカゴなど)でフライトの遅延やキャンセルが相次ぎました。特に、航空機の重量計算やフライト時間追跡を担当するシステムに障害が発生し、1,000便以上の遅延や数十便のキャンセルが報告されました。
- 原因:
ユナイテッド航空の「Unimatic」システムに障害が発生し、航空機の重量計算やフライト追跡に必要な情報が他のシステムに正しく伝達されなくなったことが原因です。
- 復旧対応:
障害発生後、ユナイテッド航空はシステムの復旧作業を行い、約4時間後に通常運航を再開しました。復旧作業には、手動での航空機調整やフライト確認が含まれていました。
- ダウンタイム:
約4時間。
- 特筆すべき点:
障害が起きたのはユナイテッド航空特有のシステムに対してのみであり、航空管制システムとは無関係でした。数週間前にアラスカ航空でも同様の障害が発生しておりこの一年で2度目となりました。
- 出典:
The Guardian
考察
米国に限らず、世界でトップクラスのシェアを誇るユナイテッド航空でシステム障害が発生したことは人だけではなく物流にも大きく影響を及ぼしたと考えられます。自社特有のシステムという依存性の極めて高い箇所に問題が生じたことにより航空会社のシステム全体の脆弱性が露呈されました。同様の障害がアラスカ航空でも発生したということに対して業界全体にシステム依存のリスクが潜在的にあると考えられます。
3: Cloudflare アクセス障害(8月21日)
- 概要:
2025年8月21日、米国に本社を置くインターネットサービスインフラを提供するCloudflareのネットワークでクライアントへのトラフィックの急増が原因で、特定のAWS地域(us-east-1)との接続に問題が発生しました。この障害により、Cloudflareを経由するウェブサイトやAPIが遅延したり、アクセスできなくなったりする事例が多発しました。
- 原因:
特定の顧客からのトラフィック増加が、AWSとの接続に過負荷をかけたことが原因です。予想外のトラフィックの増加により、既存のネットワークの帯域幅を超えてしまいました。
- 復旧対応:
Cloudflareは、トラフィックを他のリージョンに分散し、手動でのルーティング調整とリソース配分を行うことで、遅延を最小限に抑えました。さらに、監視ツールを強化し、トラフィック管理の改善策を講じました。
- ダウンタイム:
約3時間。
- 特筆すべき点:
大規模なクラウドサービス提供者同士の接続におけるボトルネックが露呈した事例です。これにより、トラフィック管理の重要性が改めて認識されました。
考察
Cloudfareは世界中のアプリケーションやウェブサイトをの通信を中継するインターネット柱とも言える存在です。そのため一部地域の障害であったとしても数多くのサービスに影響を与えました。特に今回はAWSとの間で問題が発生したため、異なる大手クラウド事業者間の依存関係が表面化したと言えます。
4:ヨメテルの通話障害(8月22日)
- 概要:
2025年8月22日、聴覚障害者向けの通話支援アプリ「ヨメテル」において、iPhone端末での着信が受けられない障害が発生しました。これにより、通話支援が必要なユーザーにとって、重要な機能が利用できない状態となりました。
- 原因:
アプリの設定やiOSのアップデートによる互換性の問題が原因とされています。
- 復旧対応:
アプリの再インストールやiOSの設定変更により、ユーザー側に生ずる問題は解決されました。ユーザーには障害に伴う不便をお詫びし、再発防止のための対応策が講じられました。
- ダウンタイム:
約1時間。
- 特筆すべき点:
アクセシビリティに関するアプリケーションの障害が、特定のユーザー層に与える影響の大きさを示す事例となりました。
考察
今回の障害は約1時間ほどで復旧しましたが、サービスの対象が聴覚障がい者向けの通話支援アプリであったため、影響の重さは利用者の生活に直結するものでした。再インストールや設定変更で復旧できた点は比較的軽度ですが、利用者にとっては技術的にハードルが高い対応であった可能性があります。
5:eemoカーシェアサービスの施錠機能障害(8月27日)
- 概要:
2025年8月27日、電気自動車に特化したカーシェアリングサービスを提供するeemoにおいて、車両施錠機能に障害が発生し、ユーザーが車両返却時に施錠できない状況が発生しました。この障害により、カスタマーサポートを通じての遠隔施錠が必要となり、ユーザーに不便を強いる結果となりました。
- 原因:
IoTベースの車両管理システムとアプリの通信に不具合が生じ、施錠指示が車両に届かない状態が続きました。通信の遅延とサーバーの不具合が主な原因です。
- 復旧対応:
アプリの再起動および車両側の再設定が行われ、問題が解決しました。ユーザーには障害に伴う遅延料金が返金され、再発防止のためのシステム改修が行われました。
- ダウンタイム:
数時間(詳細な時間は非公開)。
- 特筆すべき点:
IoT技術を活用したサービスにおける通信障害が、ユーザーの利便性に直接影響を与える事例の一つとして注目されました。
考察
今回の障害は車が施錠できないという一見シンプルな不具合でしたが、カーシェアサービスにおいては利用者離れにつながりかねない深刻なインシデントでした。アプリ再起動や車両側の再設定といった比較的単純な方法で解決できたことは幸いでした。また、ユーザーへの返金対応を行った点は顧客満足度維持に寄与しました。ただし、復旧まで数時間かかったことや、ユーザー自身の操作で解決が難しかった点を考えると、即時性に欠けるサポート体制が浮き彫りになっています。