MaxGauge_診断分析プロセス

Similar documents
~~~~~~~~~~~~~~~~~~ wait Call CPU time 1, latch: library cache 7, latch: library cache lock 4, job scheduler co

OWI(Oracle Wait Interface)の概要

稼働率100%を目指す、OracleDB予兆監視

OWI(Oracle Wait Interface)のコンセプトと実用ツールMaxGaugeの紹介

データベース暗号化ツール「D’Amo」性能検証

今さら聞けない!? Oracle入門 ~後編~

Oracle Database In-Memory 高可用性ベスト・プラクティス

OracleDBA(パフォーマンスチューニング(SQL編) - コピー

スライド 1

はじめに コース概要と目的 Oracle データベースのパフォーマンス問題の分析方法 解決方法を説明します 受講対象者 データベース管理者の方を対象としています 前提条件 データベース アーキテクチャ データベース マネジメント を受講された方 もしくは同等の知識 をお持ちの方 テキスト内の記述につ

untitled

第 7 章 ユーザー データ用表領域の管理 この章では 表や索引を格納するユーザー データ用表領域の作成や 作成後のメンテナンスに ついて解説します 1. ユーザー データ用表領域の管理概要 2. ユーザー データ用表領域作成時の考慮事項 3. ユーザー データ用表領域の作成 4. ユーザー データ

これは何? ORACLE の内部状態を示す情報の一つである 待機イベントについて解説します 待機イベントを知ることで 一歩進んだパフォーマンスチューニングが出来ます また 待機イベントという切り口を通して ORACLE のアーキテクチャに対する理解を深めていきます なお ORACLE のバージョンは


データセンターの効率的な資源活用のためのデータ収集・照会システムの設計

PA4

スライド 1

【Cosminexus V9】クラウドサービスプラットフォーム Cosminexus

サポートエンジニアが語るパフォーマンス問題の原因調査とチューニング 日本オラクル株式会社データベーステクノロジーサポート本部 Principal Technical Support Engineer 田島教子

Oracle Database 監視製品の使い分け 2017 年 10 月日本電気株式会社クラウドプラットフォーム事業部 CLUSTERPROグループ

Enterprise Manager 10gによるデータベース・パフォーマンスチューニング

OracleDBA(パフォーマンスチューニング(SQL編) - コピー

データベース マネジメント ~ 研修受講後のスキルアップ サポート ~ 対応バージョン :Oracle 10gR1 ~ 12cR2 本資料は アシスト Oracle 研修をご受講いただいたお客様からのご質問や 研修ではご案内できなかった情報などをまとめたものです 研修受講後のスキルアップの一助として

第 3 章 メディア障害とバックアップ リカバリ この章では メディア障害の発生に備えたバックアップ方法と 障害時の基本的なリカバリ方法につい て説明します 1. メディア リカバリ概要 2. ファイルの多重化 3. アーカイブ モードの設定 4. バックアップ概要 5. 一貫性バックアップ ( オ

今さら聞けない!? Oracle入門 ~前編~

How to Use the PowerPoint Template


OWI(Oracle Wait Interface)の概要

CLUSTERPRO MC ProcessSaver 2.3 for Windows 導入ガイド 第 5 版 2018 年 6 月 日本電気株式会社

PowerPoint Presentation

Web 環境におけるレイヤー別負荷の 2 違い DB サーバ AP サーバ 後ろのレイヤーほど負荷が高く ボトルネックになりやすい

バッチ処理にバインド変数はもうやめません? バッチ処理にバインド変数はもうやめません?

アジェンダ Oracle サーバの見える化はなぜ必要? WebSAMApplicationNavigator で簡単 安心に監視を実現 Oracle 監視の導入コスト 2 NEC Corporation 2009

ORACLEデータベース10G データ・ポンプ: 超高速データ移動ユーティリティの基盤

PowerPoint プレゼンテーション

ESMCommonService 本サービスは 複数の監視サービスで構成されています ESMCommonService サービス本体で検出するイベントを処理します 通報時のイベントログのソース名は "ESMCommonService" で登録されます CPU 負荷監視定期的にシステムのパフォーマンス

Oracle Real Application Clusters 10g: 第4世代

Microsoft Word - nvsi_050090jp_oracle10g_vlm.doc

自己紹介 1982 年 4 月に日商エレクトロニクス株式会社入社 Sybase を使った銀行系システムの開発 保守を担当 Oracle データベースを使ったアプリケーション設計 開発 保守 およびパフォーマンス チューニングなどのコンサルティング業務を担当 Oracle データベースのデータ移行 再

第 3 章代表的なチューニングポイント 3 Q. ストアド プロシージャを使用した SQL 共有率の向上 A. ストアド プロシージャを使用した場合 同じストアド プロシージャを実行する複数のユーザーが 同じ共有 PL/SQL 領域を使用します また ストアド プロシージャは解析済みで格納されている

平成20年度成果報告書

顧客名

Oracle Data Pumpのパラレル機能

プレポスト【問題】

Slide 1

PowerPoint Presentation

インストーラー 管理番号 内容 対象バージョン 230 HULFT がすでにインストールされているパスに対してサイレントインストールを実行すると インストールされていた HULFT の動作環境が不正な状態になる 7.3.0~7.3.1 ユーティリティ 管理番号 内容 対象バージョン 231 管理情報

Null

PowerPoint Presentation

1. サービス影響の概要 事象 1 (1) サービス au 携帯電話サービス E メール送受信サービス (E メールリアルタイム受信設定 ) (2) 発生時間 2013 年 4 月 16 日 00 時 35 分 ~01 時 41 分 (1 時間 06 分 ) (3) 影響事象サービスが利用不可影響

今週の進捗

F VMware vsphere 5 以降の vsphere Client で RAID システムを監視する際の注意事項 この度は弊社製品をお買い上げいただき 誠にありがとうございます 本製品のご使用において ご注意いただくことがあります 誠に恐れ入りますが ご使用前

CLUSTERPRO MC ProcessSaver 1.2 for Windows 導入ガイド 第 4 版 2014 年 3 月 日本電気株式会社

CLUSTERPRO MC ApplicationMonitor 1.1 for Linux を 5 ノード以上の RAC 構成で 使用する場合の補足事項 2013(Oct) NEC Corporation 多ノード RAC 構成用の設定

Null

PassSureExam Best Exam Questions & Valid Exam Torrent & Pass for Sure

MiniTool Partition Wizard Free Edition の使い方 起動画面の右側にある Launch Application のボタンをクリックする Unallocated パーティションの拡張 1. E:(NTFS) のパーティションを選択し ツールバー

BOM for Windows Ver

FUJITSU Software Systemwalker for Oracle V15 (15.1) 紹介資料

Slide 1

SRA OSS, Inc. のご紹介 1999 年より PostgreSQL サポートを中心に OSS ビジネスを開始 2005 年に現在の形に至る 主なビジネス PostgreSQL, Zabbix などの OSS のサポート コンサルティング 導入構築 PowerGres ファミリーの開発 販売

Oracle Business Intelligence Standard Edition One のインストール

Enterprise Cloud + 紹介資料

CLUSTERPRO MC (HA シリーズ ) のご紹介 2013/4/1 NEC システムソフトウェア事業部 CLUSTERPRO グループ

改版履歴 版数改版履歴改版年月日 1 新規作成 2013/3/29 2 TESTIO_MODE を追加 OVER_ACTION VG_STALL_ACTION の設定値を変更 2013/9/30 3 CLUSTERPRO MC StorageSaver for BootDisk (for Linux

CLUSTERPRO MC StorageSaver 2.0 for Windows 導入ガイド 第 1 版 2015 年 3 月 日本電気株式会社

pg_monz 監視アイテム一覧 :Template App PostgreSQL Template App PostgreSQL アプリケーション LLD アイテムトリガー監視タイプ更新間隔ヒストリトレンドデフォルト説明ステータス pg.get pgsql.get.pg.bgwriter Zabb

< 写真欄 > 11g R2 Real Application Clusters スキルチェック ポイント解説

Oracle Database Connect 2017 JPOUG

リレーショナルデータベース入門 SRA OSS, Inc. 日本支社 Copyright 2008 SRA OSS, Inc. Japan All rights reserved. 1

g g Oracle 10g g C C C C C C C g g g C C C C C C C C 2 3

Oracle9i Application Server for Windows NT/2000 リリース・ノート追加情報 リリース

Oracle 入門 ~ 研修受講後のスキルアップサポート ~ 対応バージョン :Oracle 10gR1 ~ 12cR1 本資料は アシスト Oracle 研修をご受講いただいたお客様からのご質問や 研修ではご案内できなかった情報などを FAQ にまとめたものです 研修受講後のスキルアップの一助とし

スライド 1

ライフサイクル管理 Systemwalker Centric Manager カタログ

InfiniDB最小推奨仕様ガイド

Microsoft PowerPoint - OSS運用管理勉強会資料_ a.pptx

はじめに コースの概要と目的 Oracle をより効率的に使用するための SQL のチューニング方法について説明します また 索引の有無 SQL の 記述方法がパフォーマンスにどのように影響するのかを実習を通して理解します 受講対象者 アプリケーション開発者 / データベース管理者の方 前提条件 S

V-Client for Android ユーザーズガイド

ESMPRO/ServerManager Ver. 6 変更履歴

( ハイブリット型データベース環境 ) プロトタイプ検証結果 第二版 有限会社ツインズ Twinz Co., Ltd 年 7 月 3 日 /15

目次 概要 S/4HANAの導入方式 NECがご提供するサービス S/4HANA 導入ロードマップ策定支援サービス

障害管理テンプレート仕様書

クラスタ構築手順書

KTest

2 目次 1 はじめに 2 システム 3 ユーザインタフェース 4 評価 5 まとめと課題 参考文献

PowePoint Free Design Template

2010年4月~6月 協業実績報告

BOM for Windows Ver.6.0 リリースノート

SSC3.2にアップグレードするためのWindows Server 2008環境からWindows Server 2008 R2環境への移行手順

以下の事項は 弊社の一般的な製品の方向性に関する概要を説明するものです また 情報提供を唯一の目的とするものであり いかなる契約にも組み込むことはできません 以下の事項は マテリアルやコード 機能を提供することをコミットメント ( 確約 ) するものではないため 購買決定を行う際の判断材料になさらな

Agenda はじめに 目的とゴール Part1の振り返り AWRを使用した性能分析 AWR 概要 AWRに格納される情報 AWR レポートにおける分析アプローチ AWR 確認ポイント Case Study AWRとアーキテクチャの関係 まとめ Part2のポイント まとめ Copyright 20

imt_817_tuning_11_1822.PDF

10年オンプレで運用したmixiをAWSに移行した10の理由

Microsoft Word - J-jdev_dba_db_developers.doc


Microsoft PowerPoint - J-S301167_idx_comp.ppt [互換モード]

RTC_STM32F4 の説明 2013/10/20 STM32F4 内蔵 RTC の日付 時刻の設定および読み込みを行うプログラムです UART2( 非同期シリアル通信ポート 2) を使用して RTC の設定および読み込みを行います 無料の開発ツール Atollic TrueSTUDIO for

Oracleセキュア・エンタープライズ・サーチ

V8_教育テキスト.dot

Transcription:

Easy Use -1- MaxGauge 診断 / 分析プロセス

Easy Use -2- システム性能低下認識 システムレベル分析 : トレンド アラート等 診断 / 分析対象の時間帯を特定 トップダウンアプローチ 概要分析 : アクティブセッション / 滞留 /CPU 詳細領域分析 :I/O メモリー ロック 上位 ロック 上位 SQL... セッション診断 / 分析 SQL 診断 / 分析 必要時 正常時との比較分析 ログ外部情報確認

Easy Use -3- 原因不明の (OS) データベース再起動問題の解決 ( 原因トリガーの追跡と対応 ) 事象 RAC 環境において 突然 Oracleクラスタウェアが データベース停止状況であると判断し データベデタベースの再起動をかけてしまっていた 解決策 MaxGauge のログより 再起動時点でのデータベース内処理状況より 同一ブロックへの大量な DELETE INSERT 処理が CPU を 100% を使い切って 滞留が急増していることを確認 そのため システムが過負荷状態 Oracle クラスタウェアの処理 ( ハートビート送信 ) が完了出来ない データベース停止 ( ハング ) と認識 OS 再起動 発生 対象 SQL のチューニングにより データベース負荷を軽減 データベース再起動の事象の発生を抑えた 効果 MaxGauge のログ調査以前 システム開発担当者 およびオラクルサポート担当にて原因調査を約 2 週間行っていたが 原因がつかめなかった MaxGaugeのログの参照により 約 2 時間で障害時の状況の把握と対象 SQLのピックアップを行い 顧客へレポート ( クラスタウェアが データベースを再起動させてしまう事象については 製品仕様の確認のため オラクルサポート担当とのやり取りは継続 )

Easy Use -4- 現象 Oracle clsomon failed with fatal status 13. Oracle CRS failure. Rebooting for cluster integrity. システムレベル診断 / 分析 15:30 前後で CPU 使用率が100% ほど使用されている 同時間帯で アクティブセッションが30 前後から150まで急増した 同時間帯で 数秒程度の滞留が 100 秒以上まで急増した

Easy Use -5- 特定 ( 異常現象発生 ) 時間帯の詳細分析 15:20~15:30 間で 接続数が 411 432 増加 同時間帯で アクティブセッションが 30 153 増加 15:28ピーク CPU 使用率は 15:28 で 100% になり 続いて過負荷状態

Easy Use -6- 特定 ( 異常現象発生 ) 時間帯の詳細分析 15:20~15:40 間で 上位滞留は buffer busy waits row cache lock latch:shard pool.. 順で比較的に多数の滞留が発生 buffer busy waits は同じブロックに対する競合現象で 全体の 42% 以上の滞留を占めている

Easy Use -7- 特定 ( 異常現象発生 ) 時間帯の詳細分析 最初に buffer busy waits 滞留が現れ 他の滞留はその後の性能低下の悪循環で現れたようにみえる

Easy Use -8- 特定 ( 異常現象発生 ) 時間帯のセッション分析 アクティブセッションの中 108 セッションが HISTTBL 表に対する DELETE INSERT 作業を行っている

Easy Use -9- 特定 ( 異常現象発生 ) 時間帯のセッション分析 HISTTBL 表に対する DELETE INSERT を実施しているセッションの履歴( 詳細 ) を確認すると DELETE=6:36 後 INSERT=1:17 を発行している

Easy Use -10- 特定 SQL 分析 DELETE FROM HISTTBL... は終日発行されているが 15:20:00 ~ 15:30:00 で集中して発行されている

Easy Use -11- 特定 SQL 分析 INSERT INTO HISTTBL... も終日発行されているが 15:20:00 ~ 15:30:00 で集中して発行されている

Easy Use -12- 特定 SQL 分析 CPU 使用率が高い SQL の検索結果 15:20:00 ~ 15:30:00 時間帯で集中している

Easy Use -13- 診断 / 分析サマリー 15:26 頃からデータベースへ接続が増え 既存のセッションと合わせて HISTTBL 表に対する集中的なデータ削除 追加作業を実施した 作業量の増加と同じデータ ( ブロック ) に対する大量の同時変更作業で滞留が急増で CPU が限界に達した このようなシステムの過負荷によって Oracle クラスタウェアの定期的な死活監視活動のハートビートト (1 回 /1 秒 ) 送信が 決まった時間内に正常の応答を得られなくなった ノード障害 ( データベース停止 ハングなど ) と判断し Oracle クラスタウェアが OS の再起動を実施した 改善 ( チューニング ) 案 HISTTBL 表に対するデータ削除 追加作業が集中しないようにロードバランスを行う 実施時間帯の分散 他ノードへの接続分散 同じブロックに対する競合が発生しないように HISTTBL 表のデータを分散する パーティション化 1 ブロックサイズの調整 1 ブロック当りの格納データ件数の調整 CPU 使用率 アクティブセッション数 滞留 DB 接続数に対する予兆監視を行う

Easy Use -14- 原因不明の接続エラーの解決 ( 原因トリガーの追跡と対応 ) 事象 1 日 /1 ヶ月程度の頻度で接続エラーが続出する 解決策 MaxGaugeのログより 当日のエラー発生時刻で DB 接続数が最大設定値まで達してたことがエラ ーの原因になったことが確認された 続きで 接続の急増現象は激しい I/O 滞留に起因することが 確認され I/O 滞留を削減するため対策を適用することで接続エラーはなくなった 効果 MaxGauge のログの調査以前 システム開発担当者および DB エキスパートにて原因調査を行って いたが エラー発生時の稼働状況が分からなく 約 1ヶ月間原因が掴めなかったため 一部のサ ービスを止めることで対応してきた MaxGauge のログの参照により 接続数の傾向から約 1 時間 で直接的な原因が分かって 続きの分析で DB 負荷のボトルネックとなっている AP(SQL) を特定し て 関連対策を講じれるようになった

Easy Use -15- 現象 1 日 /1 ヶ月 の頻度でユーザー I/F のブラウザで接続エラーが続出する システムレベル診断 / 分析 : 以下接続エラー発生当日のログ 接続エラー発生時間帯 9:00 ~ 11:00 前後で 40% ~ 60% のCPUが使われている 同時間帯で 40 秒以上まで滞留 (wait events) が急増した 同時間帯のDB 接続数が 200 近くまで達している 同時間帯で 40~60 のアクティブセッションが活動している

Easy Use -16- 特定 ( 異常現象発生 ) 時間帯の詳細分析 : 9:00~11:00 時間帯 最大 DB 接続数 (processes) は 200 と設定されている 当時間帯で 197 まで接続(1 分後とにサンプリング ) されている アクティブセッションの50% 以上の時間が滞留で所要されている : 例 ) 33.96 秒 (logons current)/45 個 (active sessions)

Easy Use -17- 特定 ( 異常現象発生 ) 時間帯の詳細分析 全体滞留の 91.1% が物理 I/O 読取の滞留で発生している db file parallel read db file sequential read read by other session db file scattered read

Easy Use -18- 特定 ( 異常現象発生 ) 時間帯の詳細分析 滞留関連 SQL リストから 特定 SQL が上位を占めていることが確認される SELECT COUNT(*) FROM ( select * from (SELECT DISTINCT select * from (SELECT DISTINCT

Easy Use -19- 特定 ( 異常現象発生 ) 時間帯のセッション分析 43 のユーザーアクティブセッションのうち 30 セッションが特定 SQL を実行している

Easy Use -20- 特定 SQL 分析 Physical Reads 逆順の SQL リストから 特定 SQL が上位を占めていることが確認される SELECT COUNT(*) FROM ( select * from (SELECT select * from (SELECT DISTINCT

Easy Use -21- 特定 SQL 分析 特定 SQL は DB 全体処理時間の 71.8% =140,458.1 / 195,520.4 DB 全体物理読取の 36% =10,529,115, / 290,09,230, を占めている 当 SQLを改善できると DB 全体で最大 71.8% の改善効果が予想される 物理読取 I/Oの競合による処理時間の急増現象が見られる

Easy Use -22- 接続数に対する特定 SQL の影響 時間帯 インスタンス 接続エラー発生時間帯 特定 SQL 平均接続数平均待機時間 ( 平均 ) 処理時間実行回数 ( 合計 ) 処理時間 ( 合計 ) 待機時間 6/2 09:00-12:00 120.47 24.76 28.54 5,090.00 145,290.90 144,069.70 6/2 12:00-18:00 51.47 4.35 3.22 4,951.00 15,944.70 15,002.05 6/26 09:00-12:00 61.46 4.84 3.83 3,440.00 13,169.10 12,515.95 6/26 12:00-18:00 49.25 3.48 2.10 4,177.00 8,766.10 8,126.60 60 6/30 09:00-12:00 134.24 27.91 26.89 6,879.00 184,987.40 182,983.55 6/30 12:00-18:00 42.03 4.34 3.66 4,788.00 17,545.35 16,591.60 7/2 09:00-12:00 58.65 4.40 3.78 3,253.00 12,280.70 11,650.60 7/2 12:00-18:00 49.51 3.50 2.30 3,893.00 8,963.05 8,307.20 接続エラーが発生しなかった時間帯は 平均待機時間が 3.50~4.84 秒 平均接続数が 42.03~61.46 特定 SQLの平均処理時間は 2.10~3.83 接続エラーが発生した時間帯は 平均待機時間が 24.76~27.91 秒 平均接続数が 120.47~134.24 24 特定 SQL の平均処理時間は 26.89~28.54 で 正常時の 10 倍前後

Easy Use -23- 改善案 改善案作業コストリスク改善効果適用推奨順 1 索引の見直し中中大 A 2 パーティション化中中中 N/A 3 特定 SQL のチューニング小小大 A 4 バッファプールの拡張小小中 B 5マルチバッファプールの活用中中小 C 6 processes パラメータの調整小小大 B 1~5 は I/O 滞留を減らす効果が 6 は接続エラーの閾値を高くする効果がある その中 改善効果などを考慮し 3 特定 SQL チューニング 1 索引の見直し 4 バッファプールの拡張 6 processes パラメータの調整 5 マルチバッファプールの活用 の順で 改善案の適用を推奨する

Easy Use -24- SQL 改善例 SELECT * FROM ( SELECT DISTINCT... FROM table1 b, table2 a WHERE a.col1 = 0120' AND a.col2 < SYSDATE AND NVL( a.col3, '9999/12/31' ) > SYSDATE AND a.col1 = b.col1 AND a.col4 = b.col4... AND TO_CHAR( a.col5, YYYYMMDD ) >= TO_CHAR( SYSDATE - 7, 'YYYYMMDD' ) AND a.col4 = ABC' ) create index i4_table1 on table1 (col1, col4, col5, NVL( col3, '9999/12/31' )); SELECT /*+ ORDERED INDEX(a i4_table1) */ DISTINCT... FROM table1 a, table2 b WHERE a.col1 = 0120' AND a.col2 < SYSDATE AND NVL( a.col3, '9999/12/31' ) > SYSDATE AND a.col1 = b.col1 AND a.col4 = b.col4... AND a.col5 >= TRUNCATE( SYSDATE - 7 ) AND a.col4 = ABC' ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ elapsed time 00:00:11.50 physical reads 28171 logical reads 29417 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ elapsed time 00:00:00.59 physical reads 87 logical reads 3905

Easy Use -25- 診断 / 分析サマリー 接続エラーは 最大接続設定のOracle 初期化パラメータ processes=200 に引っかかって発生した 接続数が 200 まで増加した原因は 接続数の増加 普段流れるSQLの並列実行による滞留の急増 接続時間の延長 継続的な新規接続と既存接続で接続数の急増 の悪循環と推論される 改善 ( チューニング ) 案 接続集中時滞留時間への影響が高い SQL に対する個別チューニングを行う バッファーキャッシュを調整 ( ) して 物理読取を削減する 最大接続パラメータ processes を調整 200 300 する