稼 働 率 100%を 目 指 す Oacl OracleDB 予 兆 監 視 日 本 エクセム 株 式 会 社 1
始 めに 提 案 の 背 景 予 兆 監 視 運 用 予 兆 監 視 の 概 要 と 効 果 トラブル 事 例 と 兆 候 分 析 予 兆 監 視 運 用 の 実 践 予 兆 監 視 運 用 の 導 入 事 例 + 安. 定. 運. 用. 2
提 案 の 背 景 : 現 状 の 運 用 状 況 は? Oracleの 運 用 状 況 について 死 活 監 視 CPU メモリ 利 用 状 況 の 監 視 程 度 にとどまっている 性 能 測 定 / 検 証 といえば アプリケーションからの レスポンスタイムでの 判 断 など 感 覚 的 なものが 多 い トラブルが 発 生 してからその 対 応 に 追 われることが 多 い 3
提 案 の 背 景 : 現 状 の 問 題 点 トラブルが 本 当 に 発 生 してからでないと 認 知 ができない トラブル 発 生 後 にはリカバリが 最 優 先 となり 情 報 収 集 を 綿 密 に 正 確 に 行 う 時 間 等 が 取 れない トラブル 発 生 後 の 調 査 が 手 探 りとなってしまう 情 報 収 集 が 乏 しいため 原 因 追 求 に 非 常 に 時 間 がかかる または 原 因 追 求 が 出 来 ないケースが 多 々ある トラブル 対 処 が 優 先 となり 他 の 業 務 に 多 大 な 影 響 を 与 える 類 似 のトラブルが 起 きても 初 期 調 査 から 別 対 応 になってしまう 4
提 案 の 背 景 :イメージ 5
予 兆 監 視 とは? トラブルの 未 然 防 止 と 潜 在 リスクの 解 消 を 目 的 に 事 前 に 適 切 な 処 置 を 取 らないと 発 生 するトラブルの 前 兆 認 知 と 将 来 ある 時 点 にトラブル 発 生 に 繋 がる 状 態 の 早 期 発 見 を 行 う 監 視 活 動 をいいます 予 兆 監 視 トラブル 回 避 リスク 解 消 / 管 理 トラブル 前 兆 の 事 前 認 知 潜 在 リスクの 早 期 発 見 6
AS-IS(なぜ 予 兆 監 視 が 行 われなかったのか?) トラブルは 後 対 処 の 問 題 だという 認 識 の 常 識 化 原 因 究 明 まで 追 跡 できる 履 歴 データの 不 在 - Oracleの 稼 動 情 報 を 収 集 するのに 手 間 がかかる - Oracleの 稼 動 情 報 を 収 集 するのにOracleに 負 荷 がかかる 潜 在 リスクに 対 する 認 識 不 足 予 兆 監 視 効 果 に 対 する 認 識 不 足 7
予 兆 監 視 運 用 とは? 予 兆 監 視 を 目 的 に 行 う アラートの 定 義 / 設 定 / 調 整 運 用 データの 収 集 前 兆 現 象 の 点 検 / 診 断 / 分 析 事 例 蓄 積 運 用 状 況 の 監 視 をひっくるめた 活 動 全 般 を 示 します 定 期 点 検 / 診 断 / 分 析 データ 収 集 運 用 モニタリング トラブル 分 析 事 例 蓄 積 アラート 設 定 / 調 整 8
リスク 管 理 面 で システム 運 用 の 進 化 方 向 IT 技 術 の 進 化 と 共 に ITシステムの 品 質 向 上 と サービスの 安 定 提 供 に 関 する 要 求 も 厳 しくなる 一 方 だが... トラブル 検 知 容 量 分 析 性 能 低 下 検 知 トラブル 検 知 容 量 分 析 2000 年 代 前 半 性 能 向 上 監 査 性 能 低 下 検 知 トラブル 検 知 容 量 分 析 2000 年 代 中 盤 容 量 分 析 1990 年 代 後 半 1990 年 代 前 半 9
TO-BE: 予 兆 監 視 運 用 の 効 果 運 用 コスト トラブル 発 生 件 数 トラブル 対 応 コスト (データ 自 動 収 集 自 動 グラフ 化 素 早 い 分 析 ) トラブル 性 能 稼 働 率 迅 速 な 対 応 データに 基 づくサポート 改 善 案 の 提 案 が 可 能 サービス 品 質 サポート 力 予 兆 監 視 現 リソースを 最 大 活 用 正 確 な 判 断 で 無 駄 な 投 資 運 用 スキル 運 用 状 況 の 分 析 力 ( 単 純 作 業 からの 開 放 ) 設 備 コスト 人 的 品 質 10
予 兆 監 視 運 用 の 効 果 : 比 較 イメージ AS-IS : 予 兆 監 視 運 用 を 行 わない 場 合 トラブル データ 収 集 分 析 再 現 待 ち 運 用 n 回? TO-BE : 予 兆 監 視 運 用 を 行 う 場 合 正 常 運 用 中 前 兆 分 析 / 監 視 トラブル 処 置 正 常 運 用 中 トラブル トラブル 定 期 兆 候 分 析 潜 在 リスクの 解 除 トラブル 11
予 兆 監 視 運 用 が 必 要 なシステム 品 質 改 善 が 求 められる システム トラブルが 多 発 するシステム トラブル 発 生 時 のシステム 状 況 が 分 からない トラブルの 事 例 集 を 作 成 したい トラブルの 再 発 防 止 策 の 仕 組 みを 確 実 に 立 ち 上 げたい とりあえず トラ ブルの 後 追 跡 が 出 来 るような 仕 組 みが 必 要 インターネット ポータル サイト 接 続 数 が 多 い(>1000)OLTPシステム SQL 単 体 では 早 いのに 実 運 用 環 境 ではレスポンスタイムが 遅 い 正 常 運 用 から2~3 分 の 間 で 急 にスローダウン 現 象 に 落 ちる 事 がある 性 能 のバラツキが 激 しくて 原 因 が 不 明! 幅 広 いかつ 細 かいレベルの 運 用 データの 収 集 アラートシステ ムのセットアッ プ ERP システム ミッションクリティカルなシステム ITシステムの 停 止 は 業 務 全 体 の 停 止 を 意 味 する 月 末 の 決 済 処 理 が ロック 待 ちで3 分 以 上 遅 れたら 困 る 予 期 せぬシステム 停 止 の 場 合 多 大 な 損 害 が 発 生 する トラブルに 対 す る 徹 底 的 な 追 跡 / 原 因 究 明 / 再 発 防 止 12
予 兆 監 視 運 用 が 必 要 なシステム トラブル 知 識 データベース トラブルの 発 生 パターンが 既 知 のシステム トラブルのパターンを 既 に 把 握 している データによる 事 例 ベースで トラブルを 切 り 分 けたい リアルタイムでトラブル 防 止 処 置 を 取 りたい トラブルパター ン 毎 のアラート システムが 必 要 生 産 系 システム 24 時 間 無 停 止 システム 常 に 運 用 データ システムダウンタイムを 最 小 限 に 抑 える 必 要 がある リカバリ 作 業 は 出 来 るだけ 早 急 に 行 う 必 要 がある システム 停 止 = コスト に 直 結 収 集 を 行 って すぐさまリカバリ 作 業 に 取 り 掛 かれるようにす る AP 改 修 やサー ビスの 追 加 が 多 い 運 用 リスクを 図 りたいシステム 負 荷 テストで 本 番 運 用 の 問 題 点 を 予 め 把 握 / 対 応 しておきたい 新 しいサービスが 比 較 的 頻 繁 にリリースされる 一 定 期 間 リアルタイムで システム 運 用 状 況 をモニタリングしたい 測 定 対 象 の 運 用 指 標 をデータ として 記 録 する 13
トラブル 事 例 と 兆 候 分 析 RAC 環 境 不 適 切 なセグメント 設 定 によるスローダウン 現 象 RAC 構 成 環 境 のノード1で5 分 間 スローダウン 現 象 が 発 生 兆 候 分 析 & 前 兆 認 識 のため 収 集 &モニタリングすべき 項 目 は? トレンドとあわせて その 時 点 のセッション SQL 確 認 該 当 テーブルの FREELIST GROUPS = 2 (ノード 数 )に 設 定 で 解 消 兆 候 分 析 で 類 似 テーブルに 対 する 同 一 設 定 変 更 で 潜 在 トラブルの 解 消 global cache cr blocks received = 200 のアラート 監 視 で 類 似 現 象 に 対 する 事 前 認 知 可 能 14
トラブル 事 例 と 兆 候 分 析 RAC 環 境 でネットワーク 設 定 ミスによる スローダウン 現 象 ネットワーク 設 定 のミスによる 急 激 なよるスローダウン 現 象 発 生 兆 候 分 析 & 前 兆 認 識 のため 収 集 &モニタリングすべき 項 目 は? トラブル 分 析 による ネットワーク 設 定 の 変 更 で 解 消 gc blocks lost = 1 のアラート 監 視 で 主 にハードウェアの 設 定 問 題 によるブロック 損 失 問 題 を 検 知 15
トラブル 事 例 と 兆 候 分 析 OS 空 きメモリー 不 足 とハードパース 急 増 による ORA-04031エラー 空 きメモリーの 不 足 と 共 有 プールの 断 片 化 現 象 で エラー 発 生 兆 候 分 析 & 前 兆 認 識 のため 収 集 &モニタリングすべき 項 目 は? トラブル 分 析 の 結 果 該 当 のリテラルSQLをバインド 変 数 化 して 解 消 他 の 時 間 帯 でも 類 似 トレンドから 兆 候 分 析 を 行 って 同 一 対 処 が 可 能 parse count (hard)=50 logons current=1000 のアラート 監 視 で 類 似 問 題 を 事 前 検 知 & 対 処 16
トラブル 事 例 と 兆 候 分 析 共 有 メモリのスワピング 現 象 による スローダウン 現 象 メモリ( 共 有 プール)のスワピング 現 象 によるスローダウン 現 象 発 生 兆 候 分 析 & 前 兆 認 識 のため 収 集 &モニタリングすべき 項 目 は? トラブル 分 析 の 結 果 LOCK_SGA=TRUE パラメータ 設 定 変 更 で 解 消 他 の 時 間 帯 でも 類 似 トレンドから 兆 候 分 析 が 可 能 latch free=10 parse time elapsed=100 のアラート 監 視 で SQL 解 析 スローダウン 現 象 を 事 前 検 知 17
トラブル 事 例 と 兆 候 分 析 データのロックによる 処 理 待 ち 現 象 行 ロックによって 10 分 間 データ 処 理 が 進 まずに 待 ち 状 態 が 続 く 兆 候 分 析 & 前 兆 認 識 のため 収 集 &モニタリングすべき 項 目 は? 兆 候 分 析 の 結 果 APのトランザクション 制 御 を 変 更 して 解 消 他 の 時 間 帯 でも 類 似 トレンドから 兆 候 分 析 を 行 って 同 一 対 処 が 可 能 lock waiting session=5 enqueue=5 のアラート 監 視 で 類 似 問 題 を 事 前 検 知 & 対 処 18
トラブル 事 例 と 兆 候 分 析 セグメントの 格 納 効 率 の 劣 化 による 慢 性 的 な 性 能 低 下 現 象 昼 間 の 運 用 時 間 帯 に 慢 性 的 なスローダウン 現 象 兆 候 分 析 & 前 兆 認 識 のため 収 集 &モニタリングすべき 項 目 は? 兆 候 分 析 の 結 果 該 当 索 引 のパーティション 化 & 再 作 成 で 解 消 他 の 時 間 帯 でも 類 似 トレンドから 兆 候 分 析 を 行 って 同 一 対 処 が 可 能 db file sequential read=10 physical reads=5000 のアラート 監 視 で 今 後 の 類 似 問 題 を 事 前 検 知 & 対 処 19
トラブル 事 例 と 兆 候 分 析 I/Oデバイスの 性 能 劣 化 による 性 能 低 下 現 象 I/O CPUのボトルネックによる 性 能 低 下 現 象 発 生 兆 候 分 析 & 前 兆 認 識 のため 収 集 &モニタリングすべき 項 目 は? 兆 候 分 析 の 結 果 I/Oデバイスの 構 成 変 更 で 解 消 db file sequential read=10 active sessions=50 のアラート 監 視 と 兆 候 分 析 で 今 後 の 再 発 を 検 知 20
トラブル 事 例 と 兆 候 分 析 不 適 切 なシーケンス 設 定 による 応 答 無 し( 接 続 待 機 ) 現 象 短 時 間 で 急 激 な 接 続 数 の 増 加 による 応 答 無 し 現 象 発 生 兆 候 分 析 & 前 兆 認 識 のため 収 集 &モニタリングすべき 項 目 は? トラブル 分 析 の 結 果 sys.audses$ の 属 性 変 更 (cache=10000 で 解 消 他 の 時 間 帯 でも 類 似 トレンドから 兆 候 分 析 を 行 って 同 一 対 処 が 可 能 db file sequential read=10 physical reads=5000 のアラート 監 視 で 今 後 の 類 似 問 題 を 事 前 検 知 & 対 処 21
トラブル 事 例 と 兆 候 分 析 効 率 の 悪 いSQLによる 急 激 なスローダウン 現 象 広 範 囲 のデータアクセスによる スローダウン 現 象 発 生 兆 候 分 析 & 前 兆 認 識 のため 収 集 &モニタリングすべき 項 目 は? トラブル 分 析 の 結 果 索 引 構 成 の 変 更 で 解 消 他 の 時 間 帯 でも 類 似 トレンドから 兆 候 分 析 を 行 って 同 一 対 処 が 可 能 latch free=5 buffer busy waits=5 のアラート 監 視 で 今 後 の 類 似 問 題 を 事 前 検 知 & 対 処 22
主 要 予 兆 監 視 項 目 A : トラブルが 多 発 するシステム B : 接 続 数 が 多 い(>1000)OLTPシステム C : ミッションクリティカルなシステム D : トラブルの 発 生 パターンが 既 知 のシステム E : 24 時 間 無 停 止 システム F : 運 用 リスクを 図 りたいシステム A B C D E F Oracleアラートログ アクティブ セッション 数 ロック 待 ちのセッションの 数 SQL 実 行 所 要 時 間 セッションの 接 続 時 間 OS 指 標 CPU 空 きメモリー ディスク 使 用 率 表 領 域 使 用 率 凡 例 : 必 須 : 有 効 活 用 : 出 来 れば 良 い : 出 来 なくても 良 い 23
主 要 予 兆 監 視 項 目 A : トラブルが 多 発 するシステム B : 接 続 数 が 多 い(>1000)OLTPシステム C : ミッションクリティカルなシステム D : トラブルの 発 生 パターンが 既 知 のシステム E : 24 時 間 無 停 止 システム F : 運 用 リスクを 図 りたいシステム A B C D E F 接 続 数 論 理 読 取 ブロック 数 性 能 統 計 物 理 読 取 ブロック 数 SQL 実 行 回 数 SQL 解 析 所 要 時 間 ハードパース 回 数 ロック 待 ち 時 間 待 機 時 間 ディスクI/Oによる 待 機 時 間 メモリ 競 合 による 待 機 時 間 バッファーキャッシュ 共 有 率 比 率 指 標 行 移 動 連 鎖 の 割 合 ディスクソート 比 率 凡 例 : 必 須 : 有 効 活 用 : 出 来 れば 良 い : 出 来 なくても 良 い 24
予 兆 監 視 運 用 のため 必 要 な 機 能 要 件 A : トラブルが 多 発 するシステム B : 接 続 数 が 多 い(>1000)OLTPシステム C : ミッションクリティカルなシステム D : トラブルの 発 生 パターンが 既 知 のシステム E : 24 時 間 無 停 止 システム F : 運 用 リスクを 図 りたいシステム A B C D E F 1 幅 広 いかつ 細 かい 運 用 データの 収 集 2 前 後 の 状 況 が 把 握 出 来 る 時 系 列 データ 収 集 3 リアルタイム アラート システム 4 その 場 で 対 処 できる 仕 組 み 5セッション 単 位 でモニタリング& 追 跡 機 能 6 短 期 / 長 期 のトレンド 分 析 技 術 7 監 視 項 目 の 柔 軟 性 8 自 動 化 :モニタリング 通 知 レポート 9 直 感 的 なインタフェース:グラフ 見 える 化 10 総 合 監 視 システムとの 連 携 凡 例 : 必 須 : 有 効 活 用 : 出 来 れば 良 い : 出 来 なくても 良 い 25
予 兆 監 視 運 用 サイクル 監 視 項 目 の 調 査 / 定 義 経 験 事 例 トラブル 報 告 書 状 況 分 析 推 測 感 覚 定 常 的 な 稼 動 情 報 収 集 定 期 的 な 稼 働 状 況 の 分 析 障 害 発 生 時 の 確 実 な 原 因 追 求 アラート 監 視 / 分 析 監 視 項 目 の 見 直 し 及 び 適 正 値 設 定 + 監 視 項 目 分 析 トラブル 分 析 26
時 系 列 で 見 る 予 兆 監 視 運 用 イメージ アラート 調 整 の 推 奨 タイミング 運 用 サイクル 9:30 前 日 ログ 分 析 :アラート 兆 候 分 析 10:00 1 年 長 期 トレンド 分 析 9:30 前 日 ログ 分 析 :アラート ト 兆 候 分 析 17:25 トラブル 分 析......... 3/2 3/5 3/6 3/7 3/8 3/9 3/10 3/11 3/12 3/25 1/10 データ 収 集 アラート 監 視 9:30 前 日 ログ 分 析 :アラート 兆 候 分 析 10:00 7 日 間 ログ 分 析 9:30 前 日 ログ 分 析 :アラート 兆 候 分 析 9:30 前 日 ログ 分 析 :アラート 兆 候 分 析 9:30 前 日 ログ 分 析 :アラート 兆 候 分 析 9:30 前 日 ログ 分 析 :アラート 兆 候 分 析 9:30 前 日 ログ 分 析 :アラート 兆 候 分 析 9:30 前 日 ログ 分 析 :アラート 兆 候 分 析 初 期 閾 値 設 定 9:30 前 日 ログ 分 析 :アラート 兆 候 分 析 メール 通 知 設 定 総 合 監 視 システムと 連 携 設 定 27
予 兆 監 視 運 用 サポートツール:MaxGauge 統 計 指 標 待 機 指 標 OS 指 標 など1200 種 類 のインディケータに 対 するリアルタイム 監 視 とアラート 機 能 トレンドによる 相 互 連 携 分 析 細 かいデータ 収 集 による 徹 底 的 な 兆 候 分 析 をサポートします 28
予 兆 監 視 運 用 の 導 入 事 例 24 365 のITリソース 統 合 監 視 センター(COMMAND CENTER) 構 築 により 安 定 した 経 営 生 産 体 制 を 実 現 世 界 トップを 走 り 続 ける ワールドワイド 鉄 鋼 会 社 17 社 のうち 総 合 競 争 力 トップの 鉄 鋼 会 社 である (2002 年 6 月 : WSD: 世 界 鉄 鋼 業 界 分 析 機 関 発 表 より) この 評 価 は 同 社 が 全 社 的 に 推 進 したデジタル 経 営 のためのプロジェクト:PI(Process Innovation)により キャッシュ 運 用 コスト 管 理 資 金 調 達 環 境 安 全 度 などの 管 理 から 収 益 性 と 市 場 支 配 力 従 業 員 熟 練 度 でトップとなった COMMAND CENTER 構 築 の 背 景 : 約 70 台 のOracleデータベース(ミッションクリティカルなデータベース26 台 )の 運 用 費 の 増 大 システムのトラブル ダウンが 頻 発 サイト 毎 に 異 なる 運 用 による 品 質 のばらつき 導 入 効 果 : リアルタイム 監 視 でのトラブル 予 兆 発 見 や 予 防 措 置 によりトラブル 発 生 率 が50% 減 少 トラブル 時 のシステムダウンタイムが30% 減 少 統 合 管 理 履 歴 データベース 構 築 によりトラブルへの1 次 対 処 率 95%を 実 現 29
予 兆 監 視 運 用 の 導 入 事 例 ボトルネック = 競 合 負 荷 増 加 による ( 自 然 ) 性 能 低 下 低 負 荷 時 の システム 性 能 事 前 対 処 による システム 性 能 維 持 CPU 使 用 率 のトレンド 改 善 時 点 30
まとめ 運 用 コスト サービス 品 質 サポート 力 予 兆 監 視 運 用 設 備 コスト 人 的 品 質 31
予 兆 監 視 運 用 安. 定 +. 運. 用. 32