資料安作 3-3 設備障害発生状況と品質向上へ向けた取り組み状況 平成 18 年 11 月 1 日 株式会社ケイ オプティコム
目次 1. 設備障害発生状況について 2 ~ 4 2. 光ファイハ ーサーヒ スの品質向上に向けた取り組み 5 ~ 11 3. 今後の課題 12 1
12/3 設備障害の概要 発生日時 : 平成 17 年 12 月 3 日 ( 土 )15 時 02 分 ~22 時 35 分 支障サービスと影響範囲 : サービス : 約 146 千ユーザ インターネット接続サーヒ ス : 最大 23 千ユー サ ー (3) 音声自動応答装置からの 応答が遅延 (3) (4) 一時記憶領域が消費され続け 枯渇 (5) 通話要求やVA 登録処理を拒否 交換サーバ 音声自動応答装置 (2) 音声自動応答装置に接続 発生原因 : 自動応答装置の輻輳を起因とする交換サーバの呼処理障害 (1)12 月 3 日 15:00 から 15:04 にかけて 投票を行う特定番号への接続要求が大量に発生 (2) 該当番号は eo 光からの接続サービス未提供の番号であったため 交換サーバーは この接続要求を音声自動応答装置に接続 (3) 接続要求の集中により 音声自動応答装置での処理が輻輳したため 交換サーバーへの応答が遅延 交換サーバーの一時記憶領域が消費され続けたことにより枯渇し 以降の処理が行えなくなった (4) これにより通話要求や光アダプタ (VA) からの登録処理が受け付けられない状態となった 認証サーバ VA VA (1) 接続未提供先への接続要求が大量に発生 VA: 光アダプタ PC 暫定措置 1 一時記憶領域枯渇防止のための管理 制御機能追加 2 接続サービス未提供の番号への接続要求時自動応答装置からお知らせを行わない設定へ変更 恒久的対策 1 自動応答装置の処理能力増強 2 運用保全体制の強化 ( 復旧時間短縮化 + お客様周知の迅速化 ) 2
5/7 設備障害の概要 発生日時 : 平成 18 年 5 月 7 日 ( 日 ) 12 時 14 分 ~17 時 35 分支障サービスと影響範囲 サービスをご利用の一部のお客様 ( 最大 226 千ユーザ ) インターネット接続サーヒ ス メールサーヒ スご利用の一部のお客様 ( 新規接続要求の内 最大で約 6 割 ) 発生原因 : ネットワーク設備のハート ウェア故障 (1) サーバ用ネットワーク機器の設備障害により機器の動作が不安定になり 当該設備を通る通信が困難な状態が発生した (2) この結果 下記の事象が発生した ボイスアダプターと交換サーバ間の通信が困難となり が繋がりにくい状況になった パソコンと認証サーバとの通信が困難となり インターネットが繋がりにくい状況になった パソコンとメールサーバとの通信が困難となり メールが繋がりにくい状況になった (3) サーバ用ネットワーク機器の切替により 復旧した 対 策 : 故障基板の交換 3 サーバ用ネットワーク機器の切替により復旧 交換サーバ 認証サーバ サーバ用ネットワーク機器 メールサーバ 1 設備障害により動作が不安定となり 通信がしにくい状態が発生 Internet eo サービスネットワーク VA 2 が繋がりにくい 2 インターネットが繋がりにくい PC 2 メールが繋がりにくい 3
5/10 設備障害の概要 発生日時 : 平成 18 年 5 月 10 日 ( 水 )8 時 03 分 ~11 時 04 分支障サービスと影響範囲サービス : 最大約 226,000 ユーザー 発生原因 : 中継系交換サーバのソフトウェア障害 (1) 中継系交換サーバの現用機に障害が発生 (2) 現用機より予備機に切替を行うも障害が復旧せず (3) このため 待機系に系統切替を実施し 復旧した 他社 IP 網 NTT 他網 稼働系 中継系交換サーバ中継系予備機交換サーバ現用機 3 待機系に系統切替 復旧 待機系 中継系交換サーバ中継系交換サーバ予備機現用機 1 障害発生 2 予備機に切替 復旧せず 加入者系加入者系交換サーバ交換サーバ予備機現用機 対策 1 不具合のあった交換サーバのソフトウェアの改修 2 弊社 メーカと一体となった品質保証体制の強化 4
2. 光ファイハ ーサーヒ スの品質向上に向けた取り組み 社長をトップとする 光ファイハ ーサーヒ ス障害対策委員会 を設置 障害発生の抑制 を第一とし 万が一障害が発生した場合には 影響範囲の極小化 と 迅速な復旧 へ向けて取り組んでいる 現在までの取り組み状況 (1) 開発体制の強化 ネットワークの開発機能を 1 チームに集約 サーヒ ス専任マネーシ ャーの配置 (2) 設備信頼度向上 (3) 監視システムの強化 (4) 弊社保守体制ならびにメーカー連携の強化 6 ~ 7 8 9 (5) お客様への情報提供方法の改善 10 ~ 11 5
設備信頼度の向上 ( 交換サーバの増設等 ) 交換サーバの増設による処理の分散化を行うとともに 音声自動応答装置の処理能力増強を行いました 中継系交換サーバ 中継系交換サーバ 音声自動応答装置 1 中継系交換サーバを増設 3 音声自動応答装置の処理能力増強 音声自動応答装置を更新し 従来の 2 倍まで処理能力を増強 加入者系交換サーバ 加入者系交換サーバ 加入者系交換サーバ トラフィック負荷分散及び信頼度向上のため 中継系交換サーバを増設し 並行運用を実施 機能増強 増設 2 加入者系交換サーバを増設 加入者系交換サーバの 1 台あたりの収容加入者数の適正化に向けた増設 サーバ設備は全て冗長構成 6
設備信頼度の向上 ( とインターネットのネットワーク (NW) 分離 ) eo 光と eo 光ネットの同時障害の防止を図るため とインターネットのネットワーク (NW) 分離をいたします なお 認証サーバにつきましては設備分離を完了しており 今後は中継網も分離していく予定です 障害発生時 現対策後在 網 インターネット網 網 インターネット網 交換サーバ IX 等 認証サーバの分離 交換サーバ IX 等 K-OPT 網 ( とインターネットの共用 NW) 認証サーバ 用認証サーバ 用中継網 中継網の分離 2 インターネット用中継網 インターネット用認証サーバ 加入者伝送路 1 VA:eo 光ボイスアダプタ VA 1 VA 1 2 中継網の分離は 平成 19 年 3 月末実施予定 パソコン パソコン 7
監視システムの強化 サービス復旧時間の短縮化を図るため 異常の早期検知機能 ならびに障害部位の早期特定機能の強化を行いました 1 交換サーバがアラームを検出しない 障害についても K-OPT 網内のパケット内容を常時監視 ( モニタリング ) し 異常を早期に検出できるようにしました 1 交換サーバ 2 地域ごとの監視端末に対して 定期的に稼動監視を実施し 障害時のサービス支障範囲を迅速に特定するようにしました また サービス毎の通信経路情報 ( 経由区間 ) を自動収集し 迅速に障害機器を特定するようにしました 監視システム K-OPT 網 2 障害発生 A エリア B エリア C エリア パソコン パソコン障害発生エリア パソコン 8
具体的な取組内容 弊社保守体制ならびにメーカー連携の強化 サービス復旧時間の短縮化やサービス品質の向上に向けて 弊社保守体制ならびにメーカー連携の強化を図りました ( 弊社保守体制の強化 ) ネットワーク監視にかかる当直要員の増強障害発生時の迅速な復旧対応を行うため 当直要員を増員しました マニュアル類の整備 故障部位特定マニュアル ならびに 障害発生に対する復旧操作マニュアル の再整備を行いました 障害復旧訓練の実施障害復旧スキル向上のために 光ファイバーサービス障害対策委員会 のもとで 平成 17 年 12 月より毎月障害復旧訓練を実施しております 工事評価会議の実施工事実施箇所とネットワーク運用箇所との連携強化のため 工事の実施にあたっては 工事手順や工事体制などについて検討する役員を含めた工事評価会議を 平成 18 年 5 月より実施しております ( メーカー連携の強化 ) メーカーとの情報交換会の実施設備に対する要望 課題などの意見交換や新たな設備情報の共有化などを図っていくため メーカーと定期的な情報交換会を実施しております 新規設備に対する品質確認試験項目の充実サービス開始前の設備に対する品質確認試験の項目を充実しました 9
お客様への情報提供方法の改善 ( ホームページ掲載方法の改善 ) ク弊社のホームページのトップ画面に 障害情報の掲載箇所へのテキストリンクをご用意いたしました < 弊社ホームページトップ画面 > その他の弊社ホームページ内からもテキストリンクをご用意し 検索性の向上に努めています リッククリッククク< 障害情報の掲載箇所 > クリック10
お客様への情報提供方法の改善 ( 携帯メールへの障害情報送信 ) 障害内容や復旧状況の情報を希望されるお客様に対して 予めご登録いただいた携帯へメールを送信しております 平成 18 年 10 月 10 日から運用開始 ご送付するメールには 弊社ホームページ ( ユーザーサポートにおける障害情報 ) に掲載したものと同内容のものを記載しております 11
今後の課題 1. 過去の知見を含めて 品質を左右する項目と維持確認を行うための方法集約 2. 上記知見を定期的に更新する場の社内共有 12