全本空輸の国内線旅客システムの構成図全本空輸や本ユニシスの資料を基に編集部が作成 [ 画像のクリックで拡表 ] 4 台の DB サーバーはオラクルの Oracle RAC(Real Application Clusters) を使ってクラスタリングして可性と性能を向上させていた分散し

記者の眼判明 ANA システム障害の真相 2016/04/12 井上英明 = 経コンピュータ型のシステム障害の詳細がえてきた全本空輸 (ANA) が 2016 年 3 22 に起こした国内線旅客システム ANACore( エーエヌエーコア ) のシステム障害では全国 49 の空港で搭乗続きができなくなり ANA と提携航空会社 5 社の合計で 719 便 7 万 2100 以上に影響を及ぼしたインターネットや予約センターでの予約などもできなかった搭乗続きなどでごった返す全本空輸のカウンター (3 22 午前 11 時 40 分ころ新千歳空港 ) [ 画像のクリックで拡表 ] ANA は障害発から 8 後の 3 30 に経緯や原因を公表さらに 4 11 に弊誌のメール取材に応じ段詳しい真相が判明した 4 台の Superdome を RAC でクラスタリング今回のシステム障害の中は 3 20 のニュースで報じた通り 4 台のデータベース (DB) サーバーが停したというもの ( 関連記事 :ANA システム障害の原因判明シスコ製スイッチの世界初のバグで DB サーバーがダウン ) 今回弊誌の取材でシステム構成が明らかになった DB サーバーはヒューレットパッカードエンタープライズ (HPE) の UNIX HP-UX 11i B.11 を搭載する HP Integrity Superdome を使いデータベース管理システム (DBMS) はオラクルの Oracle Database 11g を使っていた ANA が使う Superdome は 1.66GHz の Itanium2 を 12 個と 64G バイトのメモリーを搭載する

全本空輸の国内線旅客システムの構成図全本空輸や本ユニシスの資料を基に編集部が作成 [ 画像のクリックで拡表 ] 4 台の DB サーバーはオラクルの Oracle RAC(Real Application Clusters) を使ってクラスタリングして可性と性能を向上させていた分散した DB サーバーが協調して処理を進める場合ストレージ上のデータを共有するシェアードエブリシング ( 共有ディスクシェアードオールとも呼ぶことがある ) やそれぞれの DB サーバーにのみデータを持つシェアードナッシングと呼ぶアーキテクチャーを採る RAC の場合は前者のシェアードエブリシングである ANACore ではストレージは 2 台のミラー構成を使っている 4 台の DB サーバーはそれぞれに同時に書き込むこの時ストレージ上のデータが貫性を保って参照更新されるように 4 台の DB サーバーは速な専ネットワーク ( インターコネクト ) を通してメモリー上に展開したデータなどを転送し合う今回インターコネクトで使っていたシスコのスイッチ Catalyst 4948E が故障し最終的に DB サーバーの 4 台停につながった 1 時間で縮退運転開始 ANA が 3 20 に公表した資料と取材の回答結果本ユニシスが ANACore 稼働後に公表した技術論集ユニシス技法の通巻 118 号特集 : エアラインリザベーションを基に改めてシステムダウンと復旧の経緯を時系列でみていくなおユニシス技法の内容は ANA も確認済みでシステム構成も基本的には変わっていないが部で機器を増設しているという最初の DB サーバーが停したのは 3 22 の午前 3 時 44 分ここから 1 台また 1 台と停し約 4 時間 40 分後の午前 8 時 22 分には 4 台とも停した始発便はとうに出発している時間帯で全国の空港で搭乗続きに遅れがじていた最初に航したのは空港を午前 9 時 55 分に出発する秋空港き 403 便だった

空港ではその後航便が相次いだ ANA 広報は航の判断については ( 空港など ) 代替交通機関を利しやすい ( 空港にいる ) お客様に対して早めに情報を提供しお客様の時間ロスを最限にするという点も考慮していると話すただ航を判断する際の主目的は最初は機材繰りによってダイヤの乱れが引くのを防ぐためでありその後は空港にお客様が滞留するのを防ぐためにやむを得ず決定すると話す不具合発と対処の経緯全本空輸の資料を基に編集部が作成 [ 画像のクリックで拡表 ] DB サーバーの停は 2 パターンあって両とも仕様通りと ANA は取材で答えたまず最初の 3 台が停したのは RAC の管理通信がタイムアウトで異常終了した (ANA) ためだデータの同期処理が正常に進んでいないと判断して DB サーバーを動停する機能が働いた最後の 1 台が停したのは Oracle DB を監視しておりタイムアウトが発した ( 同 ) ためこれも Oracle DB が正常に動作していないとして動停機能が働いたという ANACore は冗化を徹底さらに HPE のクラスタリングソフト HP Serviceguard で RAC のクラスタリングを監視構成し製作所の運管理ソフト JP1/Integrated Management でシステム全体の機器を監視していたようだ今回の障害時具体的にどのソフトでどういったアラートが出ていたかは明らかではない 4 台停から約 40 分後の午前 8 時 59 分 ANA は DB サーバーを 1 台再起動しただが複数台起動すると不安定になる状態が変わらなかったそこで ANA は 4 台停から約 1 時間後の午前 9 時 27 分 DB サーバー 1 台での縮退運転を決めた ANACore はもともと 1 台の DB サーバーでシステムの全機能を使える設計にしてあったというただし動かす機能を搭乗続きに絞りご迷惑をお掛けしているお客様への対応を最優先にした (ANA 広報 ) 予約や販売 Web サービス他社連携といった各種機能は起動させなかった縮退運転後動チェックイン機や係員が使う端末が少ない規模空港では搭乗続き機能がすぐに復活したという空港など端末台数の多い空港でも端末の再起動を順次進めたカウンターでの混乱は続いていたが午前 11 時 30 分にシステム的には搭乗続きが復旧した

1 でシステム復旧 2 で再発防縮退運転後 ANA は原因の特定を急いだ監視システムのログなどから DB サーバーアプリケーションサーバーと順に障害を疑い異常がないと判断した残ったのがインターコネクトのスイッチ Catalyst 4948E だった本番環境と同等の作りにしてあるテスト環境にスイッチを持ち込んでテストしたところ不具合が再現した (ANA 広報 ) スイッチも冗構成を採っていた本来はスイッチが故障すると故障シグナルを発信し予備機に動的に切り替わる設計だった (ANA) だが今回は故障しているにも関わらず故障シグナルを発信しなかった故障シグナルとは ANA によれば SNMP(Simple Network Management Protocol) によるメッセージ通知というこれを運監視システムで受け取っていた故障内容は厄介だった完全に停したわけでなく動作が不安定になった (ANA 広報 ) という半死の状態だったのだ稼働開始から約 3 年スイッチが故障により動的に切り替わったことは度もないというスイッチの故障が分かった時点で ANA はすぐにシスコに連絡代替機を取り寄せた故障機と予備機代替機は同型番同ファームウエア (ANA) だったという代替機を取り寄せた理由を ANA は念のためスイッチの健全性を確認するためと説明する予備機はオンライン状態で稼働しており事前 ( の健全性の ) 確認ができない状況だった (ANA) 午後 0 時 46 分には予約発券業務を午後 8 時 10 分には Web 予約や Web サービスを復旧させつつ並して代替機の健全性を確認し翌 3 23 午前 1 時 14 分に故障機と代替機を交換午前 3 時 5 分には DB サーバーを 4 台構成に戻し午前 4 時 14 分には他社接続など全サービスを復旧した障害検知から全復旧まで 24 時間 30 分で済ませただけでなくその翌 3 24 には再発防策を打つスイッチが故障シグナルを出さない場合でも DB サーバーからスイッチ故障を検知できるよう改善した (ANA) 1 年に及ぶ製品のバグ出しテストをすり抜ける ANACore で使っていた Catalyst 4948E はなぜ故障シグナルを発信しなかったのか ANA 広報によれば 4 11 時点でもシスコで検証中という世界初の事象であり機器固有の問題である可能性がいという報告を受けていると明かす同スイッチは 2010 年 6 の発売開始以降世界で 4 万 3000 台うち本で 8700 台を販売しているという

今回の障害は 2013 年 2 に ANACore を稼働して以来初めてのきなトラブル ANACore の開発ベンダーは本ユニシスである ANA は国内旅客システムを 1978 年稼働の RESANA 1988 年稼働の able-d とユニシスのメインフレーム上で Fortran で構築したシステムで稼働させ本ユニシスが構築を担当してきた ANACore の構築プロジェクトが始まったのは 10 年前 2006 年 4 のことオープンシステムプラットフォームの環境でメインフレームと同等のサービスレベルを実現すること ( 本ユニシス ) をゴールとした ANACore のプロジェクトが始まった翌年の 2007 年と翌々年の 2008 年規模なシステム障害が起こる 2007 年 5 には約 7 万 9300 に 2008 年 9 には約 6 万 8000 に影響が及んだ 2007 年 5 に発した規模なシステム障害時もシスコのスイッチ不具合が原因だった ( 関連記事 : 会詳報 ANA 障害の原因判明世界 4 例のスイッチ故障がきっかけ対応も遅れた ) 本来のゴールと発した障害を踏まえ ANA と本ユニシスは ANACore 構築に当たり製品に潜む不具合のたたき出しに注していたインフラ部分の製品テストを 1 年にわたって実施し複数製品から 30 個以上の潜在的な不具合を発したという ANA によればこの製品テスト時には今回故障した Catalyst 4948E を使っておりスイッチは 15 項目にわたってテストしたというさらに Catalyst 4948E の保守サポートは 2018 年に終わることもあり既に機器の更新計画もてていた実は Catalyst 4948E は当初想定の機器では無かった設計時は Catalyst 4948E と同じく 1000Mbps の処理性能を持つ下位機の Catalyst 2960 を使う予定だった本ユニシスはベンチマークでインターコネクトのトラフィックが最で数百 Mbps になると分かったためこれを最 100Mbps に抑えるよう便名や操作端末などによって処理する DB サーバーを事前に指定する夫を施していただが事前テストで DB サーバーの起動時に遅延する事象がられたというそこで Catalyst 2960 に加え Catalyst 3750 と Catalyst 4948E で DB サーバーの台数を増やしながら性能テストした結果 Catalyst 2960 は DB サーバーが 3 台以上になるとインターコネクトで使う UDP パケットの処理能が極端に低下することが分かったこれにより ANACore で使うスイッチを Catalyst 4948E に決めた単位時間のパケット処理能はメーカーが公表していない機器選定の検証段階で確認する重要性が分かった ( 本ユニシス ) ANA はよくやったのか ANA ホールディングスの野坂真哉社は 2016 年 4 1 ANA グループの社式でこう話した全ての関係する役職員が全で

対応と復旧にあたりましたが多くのお客様にご迷惑をおかけし厳しいお叱りをたくさん頂戴しました原因を究明し再発防策をとりましたがお客様の揺らいだ信頼を回復するため引き続き全を挙げていきます野は今回のシステムトラブルで 1 カ 20% の報酬を主返上している今回のトラブルで ANA は 3 億 6000 万円の逸失収が発した (ANA 広報 ) 本ユニシスに対し損害賠償請求を検討している ( 関連記事 :ANA システム障害で本ユニシスへの損害賠償検討 ) ANACore の瑕疵担保責任期間は稼働後 1 年であり既に期間は過ぎているとした上で ANA 広報は 4 11 時点で損害賠償の根拠は本ユニシスとの契約に基づくものであり結論を出す時期も含めて現在検討中と話す 3 20 に ANA が障害原因を公表したニュースには多くの反響があった記者には ANA の障害対応は称賛に値するという識者からのメールが届きニュースに対するソーシャルメディアの反応をても障害の原因究明の早さや復旧までの早さに驚き称賛する声が多かったように思えたスイッチの世界初のバグを踏み抜いた ANA の不運に同情する声や作業で搭乗券を発できる訓練を積んでいるという BCP ( 事業継続計画 ) の出来の良さを褒める声もあった年 1 回の e ラーニングや着任時の座学などを通して全空港の旅客係員全員がシステムを使わずに対応する訓練を最低 1 回は受講することを義務付けている (ANA 広報 ) 記者も障害当に取材しながら復旧の早さに驚き原因公表が早かったことにも驚いた ANACore のプロジェクトはコストで決して順風満帆ではなかった記者は過去に本ユニシス幹部に聞いたことがあるものの現場ではミッションクリティカルなシステムを運営する責任をステークホルダーが分認識しかつ過去の障害を踏まえて障害対応順を分整備していたことがうかがえたで信頼システムとしては仕組みがりないと指摘するアーキテクトもいた本有数のミッションクリティカルシステムをいくつも掛けてきたこのアーキテクトはネットワーク機器の間故障は確かに厄介で頭が痛いと認めつつ規模システムであれば何度か経験する問題であり信頼性を追求するのであれば複数段での検知や切り替え段場合によっては動での切り替え順を持つべきだとしたミッションクリティカルであれば製品の潜在バグをつけるテストを当然実施すべきだしいくら製品を叩いても故障シグナルの機能だけに死活監視を依存する限りその機能体が SPOF (Single Point of Failure: 単障害点 ) になる今回 DB サーバーからの監視を加えた再発防策は複数経路での監視に当たる

とこのアーキテクトは話す間障害の検知には業務部門の利者と同じ経路同じ操作でシステムの稼働状況を常時監視するような仕組みも有効と指摘している障害対策障害復旧で ANA はよくやったのかそうでないのかどの程度のコストを掛けてどの程度の信頼性をどういったアーキテクチャーで実現するのか同じケースはつとしてないが分の現場だったらどう振る舞えるのか読者の皆さんはどう考えるだろうか