全 本空輸の国内線旅客システムの構成図 全 本空輸や 本ユニシスの資料を基に編集部が作成 [ 画像のクリックで拡 表 ] 4 台の DB サーバーはオラクルの Oracle RAC(Real Application Clusters) を使ってクラスタリングして 可 性と性能を向上させていた 分散し

Similar documents
2010年2月3日


Oracle Database 監視製品の使い分け 2017 年 10 月日本電気株式会社クラウドプラットフォーム事業部 CLUSTERPROグループ

PowerPoint プレゼンテーション

CLUSTERPRO MC ProcessSaver 1.2 for Windows 導入ガイド 第 4 版 2014 年 3 月 日本電気株式会社

ダンプ取得機能強化サポートオプション Enterprise Edition

CLUSTERPRO MC ProcessSaver 2.3 for Windows 導入ガイド 第 5 版 2018 年 6 月 日本電気株式会社

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

日立製作所と日本オラクル、Linux 環境における

ライフサイクル管理 Systemwalker Centric Manager カタログ

HPE Integrity NonStop NS2300 サーバー

Microsoft Word - 01-RAC11gR2_for_HPUX-overview.doc

1. サービス影響の概要 事象 1 (1) サービス au 携帯電話サービス E メール送受信サービス (E メールリアルタイム受信設定 ) (2) 発生時間 2013 年 4 月 16 日 00 時 35 分 ~01 時 41 分 (1 時間 06 分 ) (3) 影響事象サービスが利用不可影響

【Cosminexus V9】クラウドサービスプラットフォーム Cosminexus

Slide 1

シナリオ6:自動再起動(ServerView ASR&R)

FUJITSU Software Systemwalker for ERPパッケージ ジョブ連携 V16.0 紹介資料

FUJITSU Software Systemwalker Centric Manager Lite Edition V13.5 機能紹介資料

富士通製PRIMEQUEST420とAPC Smart-UPS RT5000, APC Power Chute Network Shutdown v2.2.1との連携動作検証

HyConnect/ オープンパブリックトライアルサービスサービス仕様書 2016 年 1 月 13 日 本トライアルサービスは全て無料で利用可能です 1. リージョンについて本トライアルサービスでは 仮想システムを東日本リージョン 1 東日本リージョン 2 西日本リージョン 1 の 3 リージョン

EM10gR3記者発表

Oracle Real Application Clusters 10g: 第4世代

KARTE セキュリティホワイトペーパー KARTE セキュリティホワイトペーパー 2.1 版 株式会社プレイド 1

スライド 1

f-secure 2006 インストールガイド

<4D F736F F D2081A F815B A838A815B83588CB48E862E646F63>

Silk Central Connect 15.5 リリースノート

NarSuS アプリの UPS 対応 クラウド状態管理サービス NarSuS LAN DISK Z シリーズに接続された 対応 UPS のステータス情報を NarSuS で確認 することができます 本機能をご利用いただく際には 以下の UPS 用自動シャットダウンソフトとの併用を推 奨します 以下の

仮想化基礎演習テキスト Ⅰ 第 1.0 版 演習で学ぶ仮想化基礎 ( クライアント仮想化編 ) 九州ラーニングネット株式会社 特定非営利活動法人パソコン整備士協会

PowerPoint プレゼンテーション

Windows Server 2003 Service Pack 適用手順書

7 PIN 番号入力後 以下のアプレットエラーが表示されます 署名検証が失敗しました 署名検証が行なわれませんでした 8 PIN 番号入力後 以下のアプレットエラーが表示されます APPLET-ERROR APPLET-ERROR APPL

【NEM】発表資料(web掲載用).pptx

ストレージ・サーバー接続情報

5. オープンソースWAF「ModSecurity」導入事例 ~ IPA はこう考えた ~

アジェンダ はクラウド上でも十分使えます 1. の概要 とは の導入事例 で利用される構成 2. をクラウドで使う クラウドサービスの分類 Amazon Web Services による構成例 2

国土技術政策総合研究所 研究資料

PC にソフトをインストールすることによって OpenVPN でセキュア SAMBA へ接続することができます 注意 OpenVPN 接続は仮想 IP を使用します ローカル環境にて IP 設定が被らない事をご確認下さい 万が一仮想 IP とローカル環境 IP が被るとローカル環境内接続が行えなくな

Solar Link ARCH ソーラーリンクアーク Step 1 ログインと ID パスワードの変更 施工の際 一括監視画面に計測値が正常に表示されるかを施工ご担当者様にて確認する必要があります そのため まずは 設定メニュー画面 にログインして頂き 施工ご担当者様へ開示可能な ID パスワードに

<4D F736F F F696E74202D AD955C A91E F B F91CE8FA48ED C81458B5A8F F A8893AE95F18D90>

サポートニュース お知らせ Linux ゲートウェイ および Linux セキュリティのス キャナ (fsavd) が停止してしまう問題について ( 解決 ) 2015 年 01 月 26 日 12: 年 01 月 26 日 15:00 ( 更新 ) 2015 年 01 月 26 日

日立ディスクアレイサブシステム環境強化サポートオプション

AccuRaQ コレクティブプラン サーバ切替に伴うメールソフト設定手順

<4D F736F F F696E74202D B836F90D891D682C994BA82A B838B90DD92E88EE88F878F916D E B8CDD8AB B83685D>

TFTP serverの実装

Solar Link ARCH ソーラーリンクアーク Step 1 ログイン ログイン方法 1. Web ブラウザを立ち上げて 一括監視画面 URL にアクセスします 2. ログイン画面が表示されます 3. マスター ID とマスターパスワードを入力し ログイン状態を保持する に必ずチェックを入れて

(Microsoft PowerPoint - More Sys Q&A.\213\244\230a2018.ppt [\214\335\212\267\203\202\201[\203h])

PowerPoint Presentation

平成 30 年度需要家側エネルギーリソースを活用したバーチャルパワープラント構築実証事業 (A 事業 ) 東京電力パワーグリッド株式会社関西電力株式会社 2019 年 3 月

次 1. デバイスコントロールの概要 デバイスを制限する 法 ユーザー毎に設定可能なデバイスの種類と権限 USBデバイスのシリアルIDについて デバイスのモデル名について iosに関す

今 働き方改革 への取り組みが始まっています その推進に必要となるのが テレワーク 環境の整備です が テレワーク の実現を支援します 2

FUJITSU Cloud Service ヘルプデスクサービス仕様書

OS バージョンアップ実行後のご注意 OS バージョンアップ後 更新完了通知が自動的にNECカシオモバイルコミュニケーションズ株式会社の運用するサーバへ送信されます なお NECカシオモバイルコミュニケーションズ株式会社は送信された情報を OS バージョンアップ以外の目的には利用いたしません また

Microsoft Word - 01_LS研IT白書原稿_2012年度_統合版__ _v1 2.doc

変更履歴 版数変更日変更内容 /11/1 初版設定 /9/1 名称変更

目次 はじめに Page. 3 1 ログイン方法 4 2 監視設定 5 3 監視設定の変更 削除 18 4 性能情報確認 24 5 問い合わせ先 27 ご参考 動作環境について 28 改版履歴 29 Page 2 NEC Corporation 2014

LAN DISK NarSuSの登録方法

PowerPoint プレゼンテーション

Microsoft Word - CygwinでPython.docx

Oracle Data Pumpのパラレル機能

対応OS一覧表

ソフト改善ファイル

変更履歴 項番版数内容更新日 版新規作成 2013 年 11 月 18 日 1

PowerPoint プレゼンテーション

SHOFU SureFile for DentalX Manual

/ COMBINATION 入出力の状態 バッテリ状態などをリアルタイムで確認できます 停電などのイベント発生時および一定時間ごとの の状態を履歴として記録し表示できます Webブラウザ またはTelnet 端末を使用して, 遠隔からの状態確認や設定変更ができます Java Web Start また

KDDI ペーパーレスFAXサービス

incidentcase_0507

OS バージョンアップ実行後のご注意 OS バージョンアップ後 更新完了通知が自動的にNECカシオモバイルコミュニケーションズ株式会社の運用するサーバへ送信されます なお NECカシオモバイルコミュニケーションズ株式会社は送信された情報を OS バージョンアップ以外の目的には利用いたしません また

InfiniDB最小推奨仕様ガイド

Cisco Prime LAN Management Solution 4.2 紹介資料

ストレージ・サーバー接続情報

生産ライン・設備機器メーカー双方の課題をIoTで解決!

2. ファイル 情報 アカウントの追加 をクリック 3. 自分で電子メールやその他サービスを使うための設定をする ( 手動設定 ) にチェックを入れ 次 へ をクリック 4. インターネット電子メール にチェックを入れ 次へ をクリック 5. 電子メールの設定を入力していきます 設定を入力したら 詳

CLUSTERPROXSingleServerSafe SingleServerSafe ご紹介 2007 年 10 月

Notesアプリが iPadで動くDomino Mobile Apps ご紹介

SAMBA Stunnel(Windows) 編 1. インストール 1 セキュア SAMBA の URL にアクセスし ログインを行います xxx 部分は会社様によって異なります xxxxx 2 Windows 版ダウンロード ボ

お客様からの依頼内容とその現状

PostgreSQL による クラスタ構成の可能性 SRA OSS, Inc. 日本支社 取締役支社長 石井達夫

スライド 1

UPS管理システムSAN GUARD IV

Copyrig ht 著作権所有 2015 Colasoft LLC. すべての権利を留保する 本書の内容は 予告なしに変更されることがあります 本書の全ての内容は Colasoft の書面による明確な許可無しに いずれの目的のためにも 複写を含む電子または機械によるいかなる形式または手段によっても

Microsoft Word - TestReport_PRIMEPOWER250_ doc

FUJITSU Software Systemwalker for Oracle V15 (15.1) 紹介資料

サーバに関するヘドニック回帰式(再推計結果)

OS バージョンアップ実行中のご注意 OS バージョンアップ中は 故障の原因になりますので 絶対に N-03E 本体の電源を切ったり 電池パックを外したりしないでください OS バージョンアップ中は 電話の発着信を含めすべての機能がご利用になれません OS バージョンアップ中は 他のアプリケーション

利用約款別紙 SkyCDP for AWS 基本サービス仕様書 この仕様書は SkyCDP for AWS の基本サービスに関する内容 方法について記述したものです 尚 SkyCDP for AWS オプションサービスをご利用のお客様は各 SkyCDP for AWS オプションサービスのご契約内容

また IS12T はアップデート以外の動作もできませんので アラームも動作しません IS12T のバージョンによりソフトウェアアップデート所要時間は異なります また インターネットの接続速度や パソコンの性能といったお客様の利用環境により 時間が延びることがあります 本アップデートについて 本ソフト

システムインテグレータのIPv6対応

<4D F736F F F696E74202D20838A B E AC888D D836A B81698A7790B691CE899E

SAMBA Stunnel(Mac) 編 1. インストール 1 セキュア SAMBA の URL にアクセスし ログインを行います xxxxx 部分は会社様によって異なります xxxxx 2 Mac OS 版ダウンロー

富士通 UNIX サーバ SPARC Enterprise M4000 とAPC PowerChute Network Shutdown v2.2.3 との連携動作検証

1.POP3S および SMTP 認証 1 Outlook2016 を起動します 2 Outlook2016 へようこそ ウィンドウが表示されますので 次へ ボタンを クリックします メールアカウントの追加を行う場合や Outlook2016 へようこそ ウィンドウが表示されない場合は 以下の手順を

資料安作 13-3 品質の低下についての考え方 総務省総合通信基盤局 電気通信技術システム課 平成 21 年 5 月 13 日

記憶域スペースダイレクト (S2D) を活用したハイパーコンバージドインフラ技術解説ガイド 概要本ドキュメントは Windows Server 2016 で構築したハイパーコンバージドインフラ (Hyper-Converged Infrastructure:HCI) を技術的な観点から解説したガイド

Microsoft Word - MOBO

アルファメール 移行設定の手引き Outlook2016

Android用 印刷プラグイン Canon Print Service マニュアル

2018年3月26日~6月30日ご搭乗分 運賃表「たす得」「いま得」「乗継運賃」「U21直前割」「シニアメイト1」「普通運賃」「身体障がい者割」「SKYビジネス」

Transcription:

記者の眼 判明 ANA システム障害の真相 2016/04/12 井上英明 = 経コンピュータ 型のシステム障害の詳細が えてきた 全 本空輸 (ANA) が 2016 年 3 22 に起こした国内線旅客システム ANACore( エーエヌエーコア ) のシステム障害では全国 49 の空港で搭乗 続きができなくなり ANA と提携航空会社 5 社の合計で 719 便 7 万 2100 以上に影響を及ぼした インターネットや予約センターでの予約などもできなかった 搭乗 続きなどでごった返す全 本空輸のカウンター (3 22 午前 11 時 40 分ころ 新千歳空港 ) [ 画像のクリックで拡 表 ] ANA は障害発 から 8 後の 3 30 に経緯や原因を公表 さらに 4 11 に弊誌のメール取材に応じ 段詳しい真相が判明した 4 台の Superdome を RAC でクラスタリング 今回のシステム障害の中 は 3 20 のニュースで報じた通り 4 台のデータベース (DB) サーバーが停 したというもの ( 関連記事 :ANA システム障害の原因判明 シスコ製スイッチの 世界初のバグ で DB サーバーがダウン ) 今回 弊誌の取材でシステム構成が明らかになった DB サーバーは ヒューレット パッカード エンタープライズ (HPE) の UNIX HP-UX 11i B.11 を搭載する HP Integrity Superdome を使い データベース管理システム (DBMS) は オラクルの Oracle Database 11g を使っていた ANA が使う Superdome は 1.66GHz の Itanium2 を 12 個と 64G バイトのメモリーを搭載する

全 本空輸の国内線旅客システムの構成図 全 本空輸や 本ユニシスの資料を基に編集部が作成 [ 画像のクリックで拡 表 ] 4 台の DB サーバーはオラクルの Oracle RAC(Real Application Clusters) を使ってクラスタリングして 可 性と性能を向上させていた 分散した DB サーバーが協調して処理を進める場合 ストレージ上のデータを共有する シェアードエブリシング ( 共有ディスク シェアードオールとも呼ぶことがある ) や それぞれの DB サーバーにのみデータを持つ シェアードナッシング と呼ぶアーキテクチャーを採る RAC の場合は前者の シェアードエブリシング である ANACore ではストレージは 2 台のミラー構成を使っている 4 台の DB サーバーはそれぞれに同時に書き込む この時 ストレージ上のデータが 貫性を保って参照 更新されるように 4 台の DB サーバーは 速な専 ネットワーク ( インターコネクト ) を通して メモリー上に展開したデータなどを転送し合う 今回 インターコネクトで使っていた シスコのスイッチ Catalyst 4948E が故障し 最終的に DB サーバーの 4 台停 につながった 1 時間で縮退運転開始 ANA が 3 20 に公表した資料と取材の回答結果 本ユニシスが ANACore 稼働後に公表した技術論 集 ユニシス技法 の通巻 118 号 特集 : エアラインリザベーション を基に 改めてシステムダウンと復旧の経緯を時系列でみていく なおユニシス技法の内容は ANA も確認済みで システム構成も基本的には変わっていないが 部で機器を増設しているという 最初の DB サーバーが停 したのは 3 22 の午前 3 時 44 分 ここから 1 台 また 1 台と停 し 約 4 時間 40 分後の午前 8 時 22 分には 4 台とも停 した 始発便はとうに出発している時間帯で 全国の空港で搭乗 続きに遅れが じていた 最初に 航したのは 空港を午前 9 時 55 分に出発する秋 空港 き 403 便だった

空港ではその後 航便が相次いだ ANA 広報は 航の判断については ( 空港など ) 代替交通機関を利 しやすい ( 空港にいる ) お客様に対して早めに情報を提供し お客様の時間ロスを最 限にするという点も考慮している と話す ただ 航を判断する際の主目的は 最初は機材繰りによってダイヤの乱れが 引くのを防ぐためであり その後は空港にお客様が滞留するのを防ぐためにやむを得ず決定する と話す 不具合発 と対処の経緯 全 本空輸の資料を基に編集部が作成 [ 画像のクリックで拡 表 ] DB サーバーの停 は 2 パターンあって 両 とも仕様通り と ANA は取材で答えた まず最初の 3 台が停 したのは RAC の管理通信がタイムアウトで異常終了した (ANA) ためだ データの同期処理が正常に進んでいないと判断して DB サーバーを 動停 する機能が働いた 最後の 1 台が停 したのは Oracle DB を監視しており タイムアウトが発 した ( 同 ) ため これも Oracle DB が正常に動作していないとして 動停 機能が働いたという ANACore は冗 化を徹底 さらに HPE のクラスタリングソフト HP Serviceguard で RAC のクラスタリングを監視 構成し 製作所の運 管理ソフト JP1/Integrated Management でシステム全体の機器を監視していたようだ 今回の障害時 具体的にどのソフトでどういったアラートが出ていたかは明らかではない 4 台停 から約 40 分後の午前 8 時 59 分 ANA は DB サーバーを 1 台再起動した だが複数台起動すると不安定になる状態が変わらなかった そこで ANA は 4 台停 から約 1 時間後の午前 9 時 27 分 DB サーバー 1 台での縮退運転を決めた ANACore はもともと 1 台の DB サーバーでシステムの全機能を使える設計にしてあったという ただし動かす機能を搭乗 続きに絞り ご迷惑をお掛けしているお客様への対応を最優先にした (ANA 広報 ) 予約や販売 Web サービス 他社連携といった各種機能は起動させなかった 縮退運転後 動チェックイン機や係員が使う端末が少ない 規模空港では搭乗 続き機能がすぐに復活したという 空港など端末台数の多い空港でも端末の再起動を順次進めた カウンターでの混乱は続いていたが 午前 11 時 30 分にシステム的には搭乗 続きが復旧した

1 でシステム復旧 2 で再発防 縮退運転後 ANA は原因の特定を急いだ 監視システムのログなどから DB サーバー アプリケーションサーバーと順に障害を疑い 異常がないと判断した 残ったのがインターコネクトのスイッチ Catalyst 4948E だった 本番環境と同等の作りにしてあるテスト環境にスイッチを持ち込んでテストしたところ 不具合が再現した (ANA 広報 ) スイッチも冗 構成を採っていた 本来は スイッチが故障すると 故障シグナル を発信し 予備機に 動的に切り替わる設計だった (ANA) だが 今回は故障しているにも関わらず 故障シグナルを発信しなかった 故障シグナルとは ANA によれば SNMP(Simple Network Management Protocol) によるメッセージ通知 という これを運 監視システムで受け取っていた 故障内容は厄介だった 完全に停 したわけでなく 動作が不安定になった (ANA 広報 ) という 半死 の状態だったのだ 稼働開始から約 3 年 スイッチが故障により 動的に切り替わったことは 度もないという スイッチの故障が分かった時点で ANA はすぐにシスコに連絡 代替機を取り寄せた 故障機と予備機 代替機は 同 型番 同 ファームウエア (ANA) だったという 代替機を取り寄せた理由を ANA は 念のためスイッチの健全性を確認するため と説明する 予備機はオンライン状態で稼働しており 事前 ( の健全性の ) 確認ができない状況だった (ANA) 午後 0 時 46 分には予約発券業務を 午後 8 時 10 分には Web 予約や Web サービスを復旧させつつ 並 して代替機の健全性を確認し 翌 3 23 午前 1 時 14 分に故障機と代替機を交換 午前 3 時 5 分には DB サーバーを 4 台構成に戻し 午前 4 時 14 分には他社接続など全サービスを復旧した 障害検知から全復旧まで 24 時間 30 分で済ませただけでなく その翌 3 24 には再発防 策を打つ スイッチが故障シグナルを出さない場合でも DB サーバーからスイッチ故障を検知できるよう改善した (ANA) 1 年に及ぶ製品のバグ出しテストをすり抜ける ANACore で使っていた Catalyst 4948E はなぜ 故障シグナル を発信しなかったのか ANA 広報によれば 4 11 時点でもシスコで検証中という 世界初の事象であり 機器固有の問題である可能性が いという報告を受けている と明かす 同スイッチは 2010 年 6 の発売開始以降 世界で 4 万 3000 台 うち 本で 8700 台を販売しているという

今回の障害は 2013 年 2 に ANACore を稼働して以来 初めての きなトラブル ANACore の開発ベンダーは 本ユニシスである ANA は国内旅客システムを 1978 年稼働の RESANA 1988 年稼働の able-d と ユニシスのメインフレーム上で Fortran で構築したシステムで稼働させ 本ユニシスが構築を担当してきた ANACore の構築プロジェクトが始まったのは 10 年前 2006 年 4 のこと オープンシステムプラットフォームの環境でメインフレームと同等のサービスレベルを実現すること ( 本ユニシス ) をゴールとした ANACore のプロジェクトが始まった翌年の 2007 年と翌々年の 2008 年 規模なシステム障害が起こる 2007 年 5 には約 7 万 9300 に 2008 年 9 には約 6 万 8000 に影響が及んだ 2007 年 5 に発 した 規模なシステム障害時もシスコのスイッチ不具合が原因だった ( 関連記事 : 会 詳報 ANA 障害の原因判明 世界 4 例のスイッチ故障がきっかけ 対応も遅れた ) 本来のゴールと発 した障害を踏まえ ANA と 本ユニシスは ANACore 構築に当たり 製品に潜む不具合のたたき出しに注 していた インフラ部分の製品テストを 1 年にわたって実施し 複数製品から 30 個以上の潜在的な不具合を発 したという ANA によればこの製品テスト時には今回故障した Catalyst 4948E を使っており スイッチは 15 項目にわたってテストした という さらに Catalyst 4948E の保守サポートは 2018 年に終わることもあり 既に機器の更新計画も てていた 実は Catalyst 4948E は当初想定の機器では無かった 設計時は Catalyst 4948E と同じく 1000Mbps の処理性能を持つ下位機の Catalyst 2960 を使う予定だった 本ユニシスはベンチマークでインターコネクトのトラフィックが最 で数百 Mbps になると分かったため これを最 100Mbps に抑えるよう 便名や操作端末などによって処理する DB サーバーを事前に指定する 夫を施していた だが 事前テストで DB サーバーの起動時に遅延する事象が られたという そこで Catalyst 2960 に加え Catalyst 3750 と Catalyst 4948E で DB サーバーの台数を増やしながら性能テストした結果 Catalyst 2960 は DB サーバーが 3 台以上になるとインターコネクトで使う UDP パケットの処理能 が極端に低下することが分かった これにより ANACore で使うスイッチを Catalyst 4948E に決めた 単位時間のパケット処理能 はメーカーが公表していない 機器選定の検証段階で確認する重要性が分かった ( 本ユニシス ) ANA は よくやった のか ANA ホールディングスの 野坂真哉社 は 2016 年 4 1 ANA グループの 社式でこう話した 全ての関係する役職員が全 で

対応と復旧にあたりましたが 多くのお客様にご迷惑をおかけし 厳しいお叱りをたくさん頂戴しました 原因を究明し 再発防 策をとりましたが お客様の揺らいだ信頼を回復するため 引き続き全 を挙げていきます 野 は今回のシステムトラブルで 1 カ 20% の報酬を 主返上している 今回のトラブルで ANA は 3 億 6000 万円の逸失収 が発 した (ANA 広報 ) 本ユニシスに対し 損害賠償請求を検討している ( 関連記事 :ANA システム障害で 本ユニシスへの損害賠償検討 ) ANACore の瑕疵担保責任期間は 稼働後 1 年であり 既に期間は過ぎている とした上で ANA 広報は 4 11 時点で 損害賠償の根拠は 本ユニシスとの契約に基づくものであり 結論を出す時期も含めて現在検討中 と話す 3 20 に ANA が障害原因を公表したニュースには多くの反響があった 記者には ANA の障害対応は称賛に値する という識者からのメールが届き ニュースに対するソーシャルメディアの反応を ても障害の原因究明の早さや復旧までの早さに驚き 称賛する声が多かったように思えた スイッチの 世界初のバグ を 踏み抜いた ANA の不運に同情する声や 作業で搭乗券を発 できる訓練を積んでいるという BCP ( 事業継続計画 ) の出来の良さを褒める声もあった 年 1 回の e ラーニングや着任時の座学などを通して 全空港の旅客係員全員がシステムを使わずに対応する訓練を最低 1 回は受講することを義務付けている (ANA 広報 ) 記者も障害当 に取材しながら復旧の早さに驚き 原因公表が早かったことにも驚いた ANACore のプロジェクトはコスト で決して順風満帆ではなかった 記者は過去に 本ユニシス幹部に聞いたことがあるものの 現場ではミッションクリティカルなシステムを運営する責任をステークホルダーが 分認識し かつ過去の障害を踏まえて 障害対応 順を 分整備していたことがうかがえた で 信頼システムとしては仕組みが りない と指摘するアーキテクトもいた 本有数のミッションクリティカルシステムをいくつも 掛けてきたこのアーキテクトは ネットワーク機器の間 故障は確かに厄介で頭が痛い と認めつつ 規模システムであれば何度か経験する問題であり 信頼性を追求するのであれば 複数 段での検知や切り替え 段 場合によっては 動での切り替え 順を持つべきだ とした ミッションクリティカルであれば製品の潜在バグを つけるテストを当然実施すべきだし いくら製品を 叩い ても 故障シグナル の機能だけに死活監視を依存する限り その機能 体が SPOF (Single Point of Failure: 単 障害点 ) になる 今回 DB サーバーからの監視を加えた再発防 策は 複数経路での監視に当たる

とこのアーキテクトは話す 間 障害の検知には 業務部門の利 者と同じ経路 同じ操作でシステムの稼働状況を常時監視するような仕組みも有効と指摘している 障害対策 障害復旧で ANA はよくやったのかそうでないのか どの程度のコストを掛けて どの程度の信頼性を どういったアーキテクチャーで実現するのか 同じケースは つとしてないが 分の現場だったらどう振る舞えるのか 読者の皆さんはどう考えるだろうか