2025年2月7日
OneLogin ご契約の皆様
ペンティオ株式会社
IDaaS事業部
OneLogin Engineer&Support Group
平素、お世話になっております。
ペンティオ株式会社 OneLoginサポートチームです。
2025年2月7日(金)午後3時31分から午後7時03分までの212分間、OneLoginにアクセスできない不具合が発生いたしました。影響を受けられたお客様には多大なるご不便・ご迷惑をおかけいたしましたことを深くお詫び申し上げます。
→ 米国One Identityの復旧措置により、2025年2月7日(金曜日)午後7時03分頃にシステムが正常に復旧し、障害解消が宣言されました。
以下、障害内容についてメーカーからRCAレポートが公開されましたので速報版を修正し、以下ご報告いたします。
目次
本記事の更新履歴
- 2025年2月7日(金曜日)15:40 頃 本記事を公開しました
- 2025年2月7日(金曜日)15:55 頃 現在までの状況を更新しました
- 2025年2月7日(金曜日)16:00 頃 現在までの状況を更新しました
- 2025年2月7日(金曜日)16:30 頃 現在までの状況を更新しました
- 2025年2月7日(金曜日)16:40 頃 現在までの状況を更新しました
- 2025年2月7日(金曜日)16:50 頃 現在までの状況を更新しました
- 2025年2月7日(金曜日)17:00 頃 現在までの状況を更新しました
- 2025年2月7日(金曜日)17:30 頃 現在までの状況を更新しました
- 2025年2月7日(金曜日)17:45 頃 現在までの状況を更新しました
- 2025年2月7日(金曜日)17:55 頃 現在までの状況を更新しました
- 2025年2月7日(金曜日)18:10 頃 現在までの状況を更新しました
- 2025年2月7日(金曜日)18:25 頃 現在までの状況を更新しました
- 2025年2月7日(金曜日)18:30 頃 現在までの状況および解消状況について追記しました
- 2025年2月7日(金曜日)18:50 頃 現在までの状況を更新しました
- 2025年2月7日(金曜日)19:10 頃 現在までの状況を更新しました
- 2025年2月10日(月曜日)10:30 頃 障害のステータス, 障害発生時間, 現在までの状況, 根本原因, 回復措置, 再発防止策を更新しました
- 2025年2月10日(月曜日)11:00頃 障害発生時間にペンティオ確認時間を追記しました
- 2025年2月10日(月曜日)11:30頃 発生事象を追記しました
- 2025年2月13日(木曜日)11:30頃 RCAレポートを添付し、内容を追記しました
- 2025年2月13日(木曜日)12:15頃 ペンティオによる概要説明を追記しました
- 2025年2月13日(木曜日)12:30頃 現在までの状況を更新しました
- 2025年2月25日(火曜日)14:30頃 RCAレポートを更新し、障害影響サービスを追記しました
障害概要
- 障害種別
- Service Disruption(サービス停止)
- 障害発生時間
- 212分(3時間32分)
米国OneIdentity社の障害情報
米国OneLoginのステータスページ
米国OneLoginの障害報告書(RCAレポート)
※ 日本語版はDeepLによる機械翻訳処理となります
ペンティオによる概要説明
今回のOneLoginのログイン障害は、データベースのメンテナンス作業によってSQLのセッションロックが発生し、新しい処理が受け付けられなくなったことが原因でした。
具体的には、2月6日に発生したユーザープロビジョニングの遅延を解決するために、データベース内の不要なデータ領域(テーブルの肥大化)を整理する処理を実施しました。しかし、このメンテナンス作業がデータベースのコピー(レプリカ)にも適用された際、データの整理が完了するまで、既存の処理がロックされてしまうという問題が発生しました。その結果、OneLoginのログイン処理やMFA認証などの重要な機能が動作しなくなり、ユーザーがシステムにアクセスできない状態となりました。
この問題を解決するため、データベースの各ノードを順番にオフラインにして処理を完了させた後、再起動してシステムを正常な状態に戻しました。
今後は、データベースのメンテナンス手順を見直し、セッションロックを発生させないように最適化するとともに、データベース自体をAuroraに移行することで、同様の問題が発生しにくい環境を整える予定です。
詳細は後述する詳細情報を御覧ください。
障害影響範囲
- USシャードの顧客
※ 日本のお客様は原則USシャードです
障害影響サービス
下記サービスが影響を受けました
- MFA
- Portal
- RADIUS Service
- Single Sign-On Service
- Virtual LDAP(LDAP)Service
発生事象
Provisioningサービスにて継続的に発生していたパフォーマンス大幅低下の問題を解決するためにデータベースの更新を行ったのち、USシャードのOneLoginサービスが応答しない障害が発生いたしました。
ペンティオでは障害発生中、下記のようにHTTP504エラーなどが発生し、OneLoginのログイン画面に接続ができない事象が発生いたしました。すでにログイン済みのセッションであっても、画面の遷移を行うことができず、OneLoginからアプリケーションへのSSOに失敗いたしました。
- ペンティオにて確認済みのエラーメッセージ
- 504 Gateway Time-out
- An unexpected error seems to have occurred
- Service Unavailable
- Received unsupported auth state
- Bad Gateway
根本原因
サードパーティディレクトリへのパスワード同期などを、Provisioningサービスの全機能を復旧するための緊急作業の一環として、テーブルの肥大化を修正するための緊急メンテナンスが実行されました。テーブルの肥大化に対するメンテナンスが下流のレプリカノードに同期されたため、既存のSQLセッションがロックされ、新しいクエリが作成できなくなったことで、OneLogin プロキシー, ユーザーポータル, 管理画面などが使用するデータベースへの新規接続が行えない状況となりました。
テーブルの肥大化は、USシャードにおける特定顧客で行われたユーザープロビジョニングリクエストによるDBへのアクセス滞留によって発生いたしました。
OneLoginでは、ほかのテナントに影響がでないようこの特定顧客からのユーザープロビジョニングリクエストを選別してリクエストの破棄を行う作業に着手しておりましたが、特定の顧客のリクエスト判別に時間がかかったことからリクエストの増大に対処できず事象が発生しました。
回復措置
データベースノードは、テーブルの肥大化処理が完了するように順次オフラインにされました。その後、フロントエンドサービスとのアクティブな接続を再確立をするために再起動いたしました。
再発防止策
セッションロックの回避を行うため、緊急メンテナンス手順を更新いたします。また、テーブルの肥大化につながるProvisioningサービスの根本的な原因に対するコードの最適化を行います。
具体的には、ユーザープロビジョニングのリクエストにより発生するデッドロックの影響をほかのサービスが受けないよう、プロビジョニングリクエストが消費するデータベースリソースを他のサービスを分離いたします。また、仮に今後プロビジョニングがデータベースにロックを発生させた場合も、データ読み取り専用の接続プールを確保することで、ポータルや管理画面の操作に影響を与えないようにいたします。
さらに、根本原因である特定顧客の特定アプリケーションにおけるユーザープロビジョニングリクエスト判別を容易にするためのインデックスが追加いたします。今後、上記インデックスを使用した特定顧客の特定アプリケーションにおけるスロットリング機能の実装が予定されております。当面の間はOneLoginのサポートが負荷増大の際には手動で特定したユーザープロビジョニングの抑制を行ってまいります。
また、現在継続的に取り組んでおりますAmazon Auroraへのデータベース移行を完了することで、データベースのパフォーマンスを向上いたします。この移行作業は、2025年Q1(米国One Identity社基準では2025年2月~4月)に完了する予定です。
回避措置
本障害へのお客様側で実施可能な回避措置はございませんでした。
現在までの状況(ペンティオ確認含む)
- 2025年2月7日(金曜日)午後3時06分 OneLoginのUSW2リージョンにてエラーの増加が確認され障害が発生しました
- 2025年2月7日(金曜日)午後3時20分 弊社のお客様よりOneLoginにログインできない事象が報告されました
- 2025年2月7日(金曜日)午後3時31分 インシデントが宣言されました
- 2025年2月7日(金曜日)午後3時32分 USW2へのトラフィックをUSE2リージョンにリダイレクトし、USW2のサービスを停止しました
- 2025年2月7日(金曜日)午後3時35分 USE2リージョンでも同様のエラーが発生していることを確認しました
- 2025年2月7日(金曜日)午後3時31分 OneLoginのエンジニアは、シングルサインオン(SSO)サービスに関する問題を特定しました。お客様にサービスの障害が発生している可能性があります。現在、迅速な復旧に向けて対応しております
- 2025年2月7日(金曜日)午後3時50分
- ペンティオにてOneLoginにログインできないことを確認しております。現在至急米国One Identity社に確認を行なっております
- OneLoginのUSW2リージョンのサービスを再開しました
- 2025年2月7日(金曜日)午後4時9分 OneLoginのログイン画面が一部ユーザーで表示されますが、Gateway Timeout が発生しログインは失敗することを確認しております
- 2025年2月7日(金曜日)午後4時18分 OneLoginのエンジニアは、シングルサインオンサービスに影響を与える問題の調査を続けています。 お客様にサービスの中断が発生している可能性があります。現在、サービスの迅速な復旧に努めています
- 2025年2月7日(金曜日)午後4時30分 OneLoginのデータベースにてアラートが発生していることを確認しております。現在解消に向けて、OneLoginのエンジニアが対応を行なっております
- 2025年2月7日(金曜日)午後4時40分 Provisioning Service のステータスがDegraded Performance に変更されました
- 2025年2月7日(金曜日)午後4時50分 OneLoginのログイン画面が一部ユーザーで表示されますが、Gateway Timeout が発生しログインは失敗することを確認しております
- 2025年2月7日(金曜日)午後4時55分 OneLoginのエンジニアは、シングルサインオンサービスに影響を与える問題の調査を続けています。 お客様にサービスの中断が発生している可能性があります。現在、サービスの迅速な復旧に努めています
- 2025年2月7日(金曜日)午後5時00分 Provisioning Service のステータスがService Disruption に変更されました
- 2025年2月7日(金曜日)午後5時20分 エンジニアは、障害の原因が最近のデータベースメンテナンスにあることを特定し、データベースの各レプリカをサービスから削除後再起動して同期を復元する作業を進めました。この作業は、単一のリージョン内の各インスタンスに対して実施され、トラフィックをそのリージョンにリダイレクトした後、別のリージョンでも各レプリカを再起動して再同期し、最終的にそのリージョンにもトラフィックをルーティングしました
- 2025年2月7日(金曜日)午後5時30分 OneLoginのデータベースを再起動していることを確認しております
- 2025年2月7日(金曜日)午後5時45分 一部のユーザーにおいてOneLoginログイン済みのセッションからアプリケーションへのSSOができることを確認いたしました
- 2025年2月7日(金曜日)午後5時50分 OneLoginのエンジニアは、シングルサインオンサービスに影響を与える問題の調査を続けています。 お客様にサービスの中断が発生している可能性があります。現在、サービスの迅速な復旧に努めています
- 2025年2月7日(金曜日)午後6時10分 OneLoginのユーザーポリシーにてMFAを要求しない場合にOneLoginにログインできることを確認しております。OneLoginのエンジニアは引き続き、シングルサインオンサービスに影響を与える問題の調査を続けており、サービスの迅速な復旧に努めています
- 2025年2月7日(金曜日)午後6時25分 MFAを要求している場合にもログインできる件数が増加していることを確認しております
- 2025年2月7日(金曜日)午後6時30分 ユーザープロビジョニングが正常に動作することを確認しております
- 2025年2月7日(金曜日)午後6時44分 USW2リージョンおよびUSE2リージョンの両地域でエラーが収まったことを確認しました
- 2025年2月7日(金曜日)午後6時46分 OneLoginのエンジニアがサービスの中断を緩和し、すべてのサービスが通常オペレーションに戻りました。 すべてのサービスが完全に機能するよう、引き続き監視してまいります
- 2025年2月7日(金曜日)午後7時00分 ユーザープロビジョニングサービスのステータスがNormalになっていることを確認いたしました
- 2025年2月7日(金曜日)午後7時03分 インシデントがクローズされました
- 2025年2月8日(土曜日)午前0時49分 全てのOneLoginサービスが正常に動作していることを確認しました
- 2025年2月10日(月曜日)午前9時30分時点のステータス(解消済)
- 2025年2月7日(金曜日)午後6時50分時点のステータス(サービス停止)
以上