HiRDB稼働監視のポイント - PDF 無料ダウンロード

HiRDB 技術解説 HiRDB 稼働監視のポイント 2012/12 株式会社日立製作所情報通信システム社 IT プラットフォーム事業本部開発統括本部 DB 設計部

Contents 1. はじめに 2. HiRDBシステムの稼働状況の確認方法 3. HiRDBのリソース監視 4. HiRDBの性能監視 5. おわりに 1

1. はじめに 2

1-1 信頼性を追及してきたデータベース止めない設計思想を貫く高信頼ノンストップデータベース社会基盤を支えるために日立が自社開発にこだわり続ける純国産 RDBMS ハイアールディービー Highly Scalable Relational DataBase 今まで培った信頼性をベースにクラウド時代を支えるワンランク上の高性能高信頼データベースを目指します 3

住民基本台帳カード 1-2 ロードマップ高度サポートが求められる社会基盤を支えるために今後も自製 DBMS にこだわり続けます HiRDB V9.4(2013 年 1 月予定 ) ORACLE からの移行性向上 (SQL 互換対応 ) セキュリティ ( 監査証跡 ) の強化性能向上構築運用容易性向上他 2006 年 V8 XML 対応 HiRDB V9.3 (2012 年 6 月 ) ORACLE からの移行性向上 ( 一時表対応 ) コストの削減 ( データ圧縮対応 ) 大規模 DB のサイクリック運用への対応強化性能向上チューニング容易性向上他 2010 年 V9 グリッドバッチ仮想化対応 2003 年 V7 耐障害性の強化 2001 年 V6 24 7Day 対応ノンストップデータベース 1994 年 V1 並列 RDBMS 本資料で紹介している内容は 2012 年 11 月時点での計画であり今後予告無く変更させていただく場合がございます 4

1-3 本資料の概要解説本資料では HiRDB を使用して構築したデータベースシステムを安定して稼働できるように HiRDB の稼働状況を監視する方法や問題を発生させないための対処について解説します本資料の内容 HiRDB が稼働中に出力する情報とその用途について解説します 2 章 : HiRDB システムの稼働状況確認 HiRDB のリソースと性能の監視ポイントについて解説します 3 章 : HiRDB のリソース監視 4 章 : HiRDB の性能監視 5

2.HiRDB システムの稼働状況の確認方法 6

2.HiRDB システムの稼働状況の確認方法 2.1 概要 2.2 HiRDB が正常稼働しているかを確認する 2.3 安定稼働の阻害要因を監視する 2.4 HiRDB が出力するメッセージ 7

2-1-1 概要解説この章では HiRDB の稼働中にどんな情報をどこへ出力しているかその情報から何がわかり何をする必要があるかを説明します HiRDB 管理者は HiRDBが出力する稼働情報からUAP( 業務プログラム ) やHiRDBの稼働状況を確認しますシステムにトラブルが発生していないかまたはトラブルが発生しそうな状態になっていないかを次に示す方法で確認する必要があります OSまたはHiRDBから出力されるメッセージを参照してHiRDBの稼働状況を確認するコマンドまたはユティリティを使用してHiRDBの稼働状況を確認する 8

2.HiRDB システムの稼働状況の確認方法 2.1 概要 2.2 HiRDB が正常稼働しているかを確認する 2.3 安定稼働の阻害要因を監視する 2.4 HiRDB が出力するメッセージ 9

2-2-1 HiRDB が正常稼働しているかを確認するには解説 HiRDB が正常に稼働しているかを確認する方法を以下に示します次に示す作業を行って HiRDBが正常に稼働しているかを確認してください 1 pdlsコマンドでhirdbの稼働状況を確認する詳細は 2-2-2 項 2 HiRDBサーバで障害が起きていないかメッセージログを確認する 3 HiRDBまたはSQLの実行で障害が起きていないかHiRDBクライアントのエラーログで確認する HiRDB が正常に稼働しているかを確認する方法 10

2-2-2 pdls コマンドでの確認方法解説 pdls コマンドで HiRDB のユニットおよびサーバが稼働しているかを確認しますコマンドの指定 pdls -d svr コマンドの実行結果 (HiRDB/ パラレルサーバの表示例 ) ホスト名ユニット識別子サーバ名ユニットまたはサーバのステータス情報ユニットまたはサーバの起動時刻 HOSTNAME(110201) UNITID SVID STATUS STARTTIME TOTSUKA15 pu02 ******** ACTIVE 110016 TOTSUKA15 pu02 fes ACTIVE 110012 TOTSUKA15 pu02 bes2 ACTIVE 110016 TOTSUKA15 pu02 bes1 ACTIVE 110016 TOTSUKA15 pu02 dic ACTIVE 110008 HOSTNAME(110045) UNITID SVID STATUS STARTTIME TOTSUKA14 ******** は pu01 ******** ACTIVE 105902 TOTSUKA14 ユニットコントローラを pu01 bes4 ACTIVE 105902 TOTSUKA14 示しています pu01 bes3 ACTIVE 105902 確認方法 STATUS 欄がすべてACTIVEになっていることを確認しますすべてACTIVEになっている場合は HiRDBが正常に稼働していると考えられます STATUS 欄がSTOP(A) の場合はトラブルが発生していますこの場合 syslogfile(windowsの場合はイベントログ ) を参照して要因を取り除いてください 11

2.HiRDB システムの稼働状況の確認方法 2.1 概要 2.2 HiRDB が正常稼働しているかを確認する 2.3 安定稼働の阻害要因を監視する 2.4 HiRDB が出力するメッセージ 12

2-3-1 安定稼働の阻害要因解説以下に示すような現象が発生すると HiRDB の安定稼働が損なわれます DB 容量不足が発生する UAP やユティリティの実行時間が長いリソース (CPU メモリプロセス数など ) 不足が発生する排他制御による待ち状態が発生するシステムログの満杯状態が発生するディスク障害ネットワーク障害が発生するこのような現象が発生した場合速やかに対処する必要があるため HiRDB 管理者はリソースの使用状況をメッセージまたはコマンドを使用して監視する必要があります 13

2-3-2 リソースの使用状況の監視方法解説リソースの使用状況の監視方法を以下に示します HiRDB のリソースの使用状況を HiRDB のコマンドで確認します具体的な監視方法については 3 章以降で説明しますシステム全体のリソースの使用状況については OS の機能で確認します詳細は 2-3-3 を参照してください 14

2-3-3 システム監視に使用する OS の機能解説システム全体の CPU 使用率やメモリネットワークの使用状況については OS のコマンドまたは機能で確認してくださいシステム監視に使用する OS のコマンドまたは機能を以下の表に示します監視項目 AIX HP-UX Solaris Linux Windows システム関連 (CPU 使用率ディスク使用率など ) sar sar sar sar PM 仮想メモリ vmstat vmstat vmstat vmstat PM ネットワークの状況 netstat netstat netstat netstat PM ディスクの使用状況 df df df df PM プロセスの状態 ps ps ps ps PM システム統計情報 (CPU メモリプロセス情報 ) topas top prstat top PM PM はパフォーマンスモニタ ( タスクマネージャなどを含む ) を示しています 15

2.HiRDB システムの稼働状況の確認方法 2.1 概要 2.2 HiRDB が正常稼働しているかを確認する 2.3 安定稼働の阻害要因を監視する 2.4 HiRDB が出力するメッセージ 16

2-4-1 HiRDB のメッセージの出力先 (1) 解説 HiRDB のメッセージの出力先を次に示します 1 syslogfile (Windows 版の場合はイベントログ ) 2 メッセージログファイル 3 標準出力標準エラー出力 4 メッセージダイアログ 5 HiRDB クライアントのクライアントエラーログファイル 6 UAP の SQL 連絡領域 (SQLCA) 7 SQL エラーレポートファイル一つのメッセージが 1 か所に出力されるとは限りません複数の場所に出力されるメッセージもありますメッセージごとの出力先についてはメッセージマニュアルに記載しています図中の丸付き数字の番号は 2-4-2 項 2-4-4 項の表の項番に対応しています 17

2-4-2 HiRDB のメッセージの出力先 (2) # 出力先内容または出力先の説明参照方法 1 2 3 syslogfile 1 (Windows 版の場合はイベントログ 2 ) メッセージログファイルまずはこれを見ます標準エラー出力または標準出力 4 メッセージダイアログ HiRDB のメッセージだけでなく OS のメッセージなども出力されますシステム全体を監視するのに適しています HiRDB のメッセージだけが出力されます出力先のファイルは次の通りです $PDDIR/spool/pdlog1 または pdlog2 HiRDB のコマンドの実行結果またはエラーメッセージが出力されます GUI で操作する HiRDB SQL Executer や HiRDB Control Manager などの応答メッセージが出力されますテキストエディタで表示できます pdcat コマンドで標準出力に表示できますまたはテキストエディタで表示できますコマンドを入力した画面に表示されますー ( 凡例 )-: 該当しません 1 OS(UNIX) のシステムログを syslogfile と表記します syslogfile は /etc/syslog.conf でログ出力先に指定しているファイルです一般的には次のファイルが syslogfile となります OS HP-UX Solaris AIX Linux ファイル /var/adm/syslog/syslog.log /var/adm/messagesまたは/var/log/syslog /var/adm/ras/syslog.out /var/log/messages 18

2-4-3 アプリケーションログの表示例 2 Windows のイベントビューアで表示されるアプリケーションログをイベントログと表記しますアプリケーションログの中でソース ( 出力元 ) 欄が HiRDBSingleServer または HiRDBParallelServer となっているログが HiRDB から出力されたメッセージですアプリケーションログの表示例を以下に示します 19

2-4-4 HiRDB のメッセージの出力先 (3) # 出力先内容または出力先の説明参照方法 5 クライアントエラーログファイル 3 HiRDB クライアントでエラーを検知した場合にエラー情報をクライアント側の PC にクライアントエラーログとして出力しますテキストエディタで表示できます 6 SQLCA(SQL 連絡領域 ) HiRDB から UAP へのリターンメッセージが出力されます UAP 内で参照します 7 SQL エラーレポートファイル 4 サーバ側に全クライアントの SQL エラー情報をまとめて出力しますテキストエディタで表示できます 3 クライアント環境定義の PDCLTPATH オペランドおよび PDUAPERLOG オペランドで出力先のディレクトリとファイル容量を指定しますファイル名は pderr1.trc および pderr2.trc です pderrxxxxx-1.trc および pderrxxxxx-2. trc となることもあります (xxxxx はプロセス ID) 4 拡張 SQL エラー情報出力機能を使用した場合です 20

3.HiRDB のリソース監視 21

3.HiRDB のリソース監視 3.1 概要 3.2 RD エリアの監視 3.3 作業表ファイルの使用状況の監視 3.4 システムログファイルの状態の監視 3.5 メモリ不足の監視 3.6 メモリ使用状況の監視 3.7 排他資源管理テーブルの使用状況の監視 3.8 HiRDB 運用ディレクトリの容量の監視 3.9 リソースの使用率の監視 22

3-1-1 概要 (1) 解説この章では RD エリアシステムファイルバッファなどの HiRDB が使用するリソースの使用状況を監視する方法について説明します監視する項目と監視方法一覧 # 監視する項目監視方法 1 RD エリアの使用状況 2 RD エリアの状態 3 作業表ファイルの使用状況 4 システムログファイルの使用状況 5 メモリ不足以下のメッセージが出力されていないか監視する KFPAA12300-I または KFPH00211-I KFPH00212-I KFPH22017-I KFPH26010-I 以下のメッセージが出力されていないか監視する KFPH00306-E KFPH00307-E pdfstatfs -d HiRDB ファイルシステム領域名を実行して作業表用ファイルの HiRDB ファイルシステム領域のピーク使用量を監視する set pd_log_remain_space_check = warn safe を指定して監視する以下のメッセージが出力されていないか監視する KFPD00021-E KFPD01104-E KFPH20003-E KFPH21001-E KFPH22002-E KFPS00350-W KFPS00460-E 23

3-1-2 概要 (2) # 監視する項目監視方法 6 メモリ使用状況 7 8 排他資源管理テーブルの使用状況 HiRDB 運用ディレクトリの容量 9 リソースの使用率監視する項目と監視方法一覧共用メモリの場合 pdls -d mem で共用メモリサイズを監視するシステムの稼働に関する統計情報を取得 (4-2-6 節参照 ) し pdstedit -k sys -i アンロード統計ログファイル名で共用メモリサイズを監視するプロセス固有メモリの場合 OS の top コマンドや Windows のタスクマネージャなどで監視する以下のメッセージが出力されていないか監視する KFPS00443-I KFPS00447-I pdls -d lck -p で排他資源管理テーブル使用率を監視するシステムの稼働に関する統計情報を取得 (4-2-6 節参照 ) し pdstedit -k sys -i アンロード統計ログファイル名で排他資源管理テーブルの使用率を監視する OS の機能で HiRDB 運用ディリクトリの容量を監視する set pd_watch_resource = AUTO を指定して以下のメッセージが出力されていないか監視する KFPS05123-W KFPH22023-W 24

3-1-3 HiRDB の構成要素解説 HiRDB はプロセスメモリファイルから構成されておりこれらをまとめて HiRDB システムといいます HiRDB システム AP サーバプロセスメモリグローバルバッファファイルクライアントマシンプロセスディクショナリバッファ排他制御プール HiRDB ファイル AP サーバプロセス SQL オブジェクトバッファログバッファバックグラウンドプロセスシステムファイルクライアントマシンデーファードライトプロセスシステム回復プロセス作業表ファイルログライトプロセストランザクション回復プロセスシステム定義ファイルサーバマシン 25

3-1-4 ファイル解説 OS のファイルシステム上やディスクの RAW パーティションに HiRDB ファイルシステム領域を作成しその中に HiRDB ファイルシステムファイル作業表ファイルを作成します : 監視するリソース UNIX/Windows のファイルシステム HiRDB ファイルシステム領域 [RD エリア用 ] 論理的なエリア HiRDB 自身で独自のファイルシステムを実現 RD エリアファイル 1 HiRDB ファイル 1 HiRDB ファイル 2 HiRDB ファイル 3 ファイルシステムファイル 2 [ 作業表用 ] ファイル n 作業表ファイル作業表ファイル RAW パーティション [ システムファイル用 ] 用途ごとに HiRDB ファイルシステム領域を作成システムログファイルシンクポイントダンプファイルステータスファイル物理 ( ディスク ) 層 OS 層 HiRDB 層 26

3-1-5 メモリ解説 SQL の解析と実行に必要となるデータは一時的にメモリ上に格納されます HiRDB が使用するメモリの種類を次の表に示しますグローバルバッファディクショナリバッファ SQL オブジェクトバッファ : 監視するリソースメモリ排他制御プールログバッファプロセスグローバルバッファディクショナリバッファ SQL オブジェクトバッファ排他制御プールログバッファ説明データ入出力時にデータを格納します SQL の解析時に必要な定義や情報を格納します解析した SQL オブジェクトを格納します排他情報 ( 対象となる排他資源排他モードなど ) を格納しますシステムログを一時的に格納します 27

3-1-6 プロセス解説プロセスはアプリケーションからの要求を処理したりシステムを稼働するために実行されるプログラムです HiRDB にはサーバプロセスとバックグラウンドプロセスがあります HiRDB システムサーバプロセスプロセスサーバプロセス説明アプリケーションから SQL を受け付けて実行します 1 つのアプリケーションに対して 1 つのサーバプロセスが起動しますプロセスサーバプロセスバックグラウンドプロセスバックグラウンドプロセスデーファードライトプロセス次のような処理をするプロセス群ですデータベースの更新内容をファイルに出力するシステムログをファイルに出力するシステム障害からデータベースを回復するトランザクション障害からデータベースを回復するシステム回復プロセス : 監視するリソースログライトプロセストランザクション回復プロセス 28

3.HiRDB のリソース監視 3.1 概要 3.2 RD エリアの監視 3.3 作業表ファイルの使用状況の監視 3.4 システムログファイルの状態の監視 3.5 メモリ不足の監視 3.6 メモリ使用状況の監視 3.7 排他資源管理テーブルの使用状況の監視 3.8 HiRDB 運用ディレクトリの容量の監視 3.9 リソースの使用率の監視 29

3-2-1 RD エリアの概要解説表やインデクスを格納する領域を管理するために論理的な記憶単位を使用します論理単位は RD エリアセグメントページから構成されますこれらは物理的には HiRDB ファイルに格納されます本節では RD エリアの使用状況と RD エリアの状態の監視について解説しますディレクトリ部セグメントセグメント RD エリア論理単位説明 RD エリアセグメント 1 つ以上の表インデックスを格納するための論理的な記憶単位 1~16 個の HiRDB ファイルで構成します連続した複数のページからなる表インデクス格納領域の割当単位 1 つのセグメントには同じ表インデクスしか格納しません HiRDB ファイルディレクトリ部ページデータやインデクスキー値を格納する単位で最小 I/O 単位になります大きさは 4~30KB を指定することができますセグメントページ管理情報 1 行データ1 行データ2 行データ3 管理情報 2 30

3-2-2 RD エリアの使用状況の監視なぜ監視するの? データの更新追加や削除を繰り返すと RD エリアの空き領域が減ります RD エリアの空き領域が少なくなると格納効率が悪くなって性能が劣化したり RD エリアの領域が不足してデータが格納できなくなったりしますしたがって定期的に RD エリアの使用状況を監視する必要があります 31

3-2-3 RD エリアの使用状況の監視方法どうやって監視するの? 以下のメッセージが出力されていないか監視してください KFPA12300-I または KFPH00211-I KFPH00212-I KFPH22017-I KFPH26010-I 3-2-5 項 3-2-6 項 3-2-7 項 3-2-4 項 32

RD エリアの使用状況の監視 3-2-4 KFPA12300-I または KFPH00211-I の監視監視するメッセージ KFPA12300-I KFPH00211-I KFPA12300-I または KFPH00211-I メッセージの説明 & 出力例 RD エリアの使用率が特定の値に達した時点で KFPA12300-I または KFPH00211-I メッセージが出力されます通常このメッセージは 3 回出力されますデフォルトでは RD エリアの使用率が 80% 90% 100% になったときです KFPH00211-I メッセージの出力例 HiRDB システム定義 pd_rdarea_warning_point で出力契機となる使用率の比率を変更できます KFPH00211-I HiR1 pu20 RDAREA usage 80%, RDAREA = "R1", 5 segment unused KFPH00211-I HiR1 pu20 RDAREA usage 90%, RDAREA = "R1", 2 segment unused KFPH00211-I HiR1 pu20 RDAREA usage 100%, RDAREA = "R1", 0 segment unused RD エリアの使用率該当する RD エリアの名称なにを確認するの? pddbls コマンド (3-2-9 項参照 ) やデータベース状態解析ユティリティ (pddbst) (3-2-10~3-2 -15 項参照 ) を使用して RD エリア単位の状態解析をし状態解析の結果を確認してくださいどう対処すれば良いの? 状態解析の結果から表の再編成空きページ解放または RD エリアの拡張のどれを実施するか判断してください 33

RD エリアの使用状況の監視 3-2-5 KFPH00212-I の監視監視するメッセージ KFPH00212-I KFPH00212-I メッセージの説明 & 出力例 RD エリアや表の格納効率やアクセス効率が低下すると KFPH00212-I メッセージが出力されます KFPH00212-I メッセージの出力例 KFPH00212-I HiR1 pu20 Table should be reorganized, RDAREA = "R1", AUTHID = user123, TABLE = TT1 RD エリア (R1) に格納されている表 (TT1) の格納効率が悪くなっていますなにを確認するの? データベース状態解析ユティリティ (pddbst) を使用して表単位の状態解析をし状態解析の結果を確認してくださいどう対処すれば良いの? 状態解析の結果から表の再編成または空きページ解放を実施するか判断してくださいただし次に示す場合はRD エリアの容量を拡張する必要があります同一のRDエリア内の表に対してこのメッセージが頻繁に出力される場合表の再編成中または表の再編成直後にこのメッセージが出力される場合 34

RD エリアの使用状況の監視 3-2-6 KFPH22017-I の監視監視するメッセージ KFPH22017-I KFPH22017-I メッセージの説明 & 出力例 BLOB データの格納効率やアクセス効率が低下すると KFPH22017-I メッセージが出力されます KFPH22017-I メッセージの出力例 KFPH22017-I HiR1 PU02 Table should be reorganized, RDAREA = "R1", AUTHID = user123, TABLE = TT1 because disordered LOB DIRECTORY なにを確認するの? データベース状態解析ユティリティ (pddbst) を使用して表単位の状態解析をし状態解析の結果を確認してくださいどう対処すれば良いの? 状態解析の結果から表の再編成を実施するか判断してください該当するRDエリアに応じて次に示す表を再編成するかを確認しますユーザLOB 用 RDエリアの場合 : ユーザLOB 用 RDエリアに格納された表データディクショナリLOB 用 RDエリアの場合 : ストアドプロシジャおよびストアドファンクションに関するディクショナリ表レジストリLOB 用 RDエリアの場合 : レジストリ表 35

RD エリアの使用状況の監視 3-2-7 KFPH26010-I の監視監視するメッセージ KFPH26010-I KFPH26010-I メッセージの説明 & 出力例表へのデータロード中に RD エリア内の未使用ページを使い切り使用中ページの未使用領域にデータの格納を開始した場合に KFPH26010-I メッセージが出力されます KFPH26010-I メッセージの出力例 KFPH26010-I HiR1 PU02 Start to assign used page, because pdload used up new pages in RDAREA "R1", table_id = 16654 説明 table_id が 16654 の表へのデータロード中に RD エリア R1 内の新規ページを使い切ったため未使用領域にデータを格納します table_id に対応する表名はディクショナリ表 SQL_TABLES を検索して確認してくださいどう対処すれば良いの? 表のデータ件数から RD エリアの容量を見直して表の再編成を実施してください 36

RD エリアの使用状況の監視 3-2-8 RD エリアの使用状況の確認方法以下の方法で RD エリアの使用状況を調べますデータベースの状態表示コマンド (pddbls) データベース状態解析ユティリティ (pddbst) 3-2-9 項 3-2-10~3-2-15 項 37

RD エリアの使用状況の監視 3-2-9 pddbls コマンド解説 RD エリア名およびセグメントの大まかな使用状況を pddbls コマンドで監視しますさらに詳細な情報が必要な場合はデータベース状態解析ユティリティ (pddbst) を実行してください pddbls コマンドの特徴としてコマンドの実行時間が短いことが挙げられますコマンドの実行例 pddbls -r RDエリア名 -a --a : RD エリアに関するすべての情報を表示しますコマンド実行結果から RD エリア名およびセグメントの使用状況を確認してください pddbls コマンドの実行結果表示例 ( セグメントの使用状況 ) 38

RD エリアの使用状況の監視 3-2-10 データベース状態解析ユティリティ (pddbst)(1) 解説 RD エリア名およびセグメントの詳細な使用状況をデータベース状態解析ユティリティ (pddbst) で監視しますまずデータベース状態解析ユティリティ (pddbst コマンド ) で RD エリア単位の論理的状態解析を行い RD エリア内の表およびインデクスに対するセグメントおよびページの格納状態を解析します RD エリア単位の論理的状態解析を行う場合のコマンドの指定方法は以下の通りです表示例は 3-2-11 項 3-2-13 項を参照してくださいコマンドの指定 pddbst -r RDエリア名 -k logi -r: 解析対象とする RD エリア名を指定しますすべての RD エリアについて表示する場合は ALL を指定します -k logi:rd エリア単位の論理的状態解析をする場合に指定します ( 省略可 ) 39

RD エリアの使用状況の監視 3-2-11 データベース状態解析ユティリティ (pddbst)(2) RD エリア単位の論理的状態解析の表示例 ( 満杯状態のセグメントとページが多い場合 ) この例では使用中セグメントはほとんど満杯状態であり格納エリアが不足していることがわかります 40

RD エリアの使用状況の監視 3-2-12 データベース状態解析ユティリティ (pddbst)(3) 解説前ページの RD エリア単位の論理的状態解析では使用中セグメントがほぼ満杯状態ですこのあと RD エリア単位の物理的状態解析を実施して格納エリアが不足しているかどうかを確認しますコマンドの指定 pddbst -r RDエリア名 -k phys --k phys:rd エリア単位の物理的状態解析をする場合に指定します RD エリア単位の物理的状態解析では表やインデクス以外の部分も含め RD エリア内のセグメントおよびページの格納状態を解析します格納エリアが不足していれば RD エリアを拡張して対処します RD エリアを拡張するには次に示す方法がありますデータベース構成変更ユティリティ (pdmod) で RD エリアを拡張する RD エリアの自動増分機能を使用する RD エリア単位の物理的状態解析を行う場合のコマンドの指定方法は以下の通りです注意事項 LOB 用 RD エリアの場合 RD エリア単位の物理的状態解析をすると最終セグメント位置が表示されます最終セグメントと使用セグメント数の値の差が大きいときは表の再編成が必要です LOB 用 RD エリアへのデータ格納時は常に新しいセグメントが確保されるためデータ更新時に最終セグメントと使用セグメント数が異なります 41

RD エリアの使用状況の監視 3-2-13 データベース状態解析ユティリティ (pddbst)(4) RD エリア単位の論理的状態解析の表示例 ( セグメントとページの使用率が高いが満杯状態ではない場合 ) この例では使用中セグメントと使用中ページの比率は高くなっていますが満杯状態にはなっていません 42

RD エリアの使用状況の監視 3-2-14 データベース状態解析ユティリティ (pddbst)(5) 解説前ページの RD エリア単位の論理的状態解析では使用中セグメントと使用中ページの比率が高くても満杯状態ではありませんセグメント内の空きページ比率 (CREATE TABLE の PCTFREE オプション ) の設定によって満杯状態となっていないこともあるため空き領域の設定を確認してくださいこの空き領域 (PCTFREE) の設定値をふまえてデータの格納効率が低下しているかデータ量に応じた使用率となっているかを確認してくださいまたデータの格納効率が低下している場合にはさらに空きページ解放 (pdreclaim) を行うか表の再編成 (pdrorg) を行うか判断します使用中空きページが多い場合は空きページ解放によって対処することができます前ページの結果ではページ内のデータ格納比率や使用中空きページがどれだけ含まれているかを確認することができませんこのような場合は pddbst コマンドの -d オプションでページの詳細情報を表示して内訳を確認してくださいページの詳細情報を含む RD エリア単位の論理的状態解析の表示例を 3-2-15 項に示しますコマンドの指定 pddbst -r RDエリア名 k logi -d --d: ページの詳細情報を表示する場合に指定します 43

RD エリアの使用状況の監視 3-2-15 データベース状態解析ユティリティ (pddbst)(6) ページの詳細情報を含むエリア単位の論理的状態解析の表示例説明ページの詳細情報の見方と対処方法を説明します Used Page Ratio( 使用率 ) はページ内でデータが格納されている領域の比率です使用率が 0% のページ 2 が多い場合使用中空きページのページ数 1 を確認して総ページ数 4 の 30% 以上になる場合は pdreclaim による使用中空きページの解放が必要です使用率が低いページ 3 が多い場合データの削除や更新で一度割り当てられた領域が未解放のまま空き領域として残っており再使用できない状態になっているため再編成が必要です 44

RD エリアの使用状況の監視 3-2-16 RD エリアの使用状況の確認解説確認した情報から次に示す作業が必要かどうかを判断してください確認した情報から次に示す作業が必要かどうかを判断してください表の再編成使用中空きページおよび使用中空きセグメントの解放不要な行の削除表の分割格納条件の変更ハッシュ関数の変更インデクスの再作成または再編成 RD エリアの拡張再初期化追加または削除インデクスページスプリット発生回数の削減インデクス構成列中のデータ重複度の高い列を除いてクラスタキーを指定した表の再定義インデクス定義の列構成の見直し各項目の詳細についてはマニュアルを参照してください 45

3-2-17 再編成時期予測の利用解説前項までの手順で pddbls コマンドや pddbst コマンドの実行結果から表やインデクスの再編成 /RD エリアの拡張の要否や実施時期などを判断するのは経験が必要であり難しい作業ですこれらの運用を簡単にしたい場合は再編成時期予測機能を利用することができます再編成時期予測機能を利用することで RD エリアの容量不足に対するメンテナンス方法やメンテナンス時期の通知表やインデクスの格納効率やアクセス効率の低下に対するメンテナンス方法やメンテナンス時期を通知できますデータベース再編成を実施する目的 1 RDエリアの容量不足を防ぐ容量が満杯 2 無駄なリソースを消費することを防ぐ無駄な空き領域が多い 3 DB アクセス効率の低下を防ぐデータの格納状態が乱れているメンテナンス情報例 pddbst 09-01 ***** Analysis Item Data ***** No : 1 Date : 2011/05/25 メンテナンス予定日が早い順に表示 Method : ReclaimS Type : T Name : "k1234567"."table01" ("RDUSER01") StateDate : 2011/05/19 00:10:32 ------------------------------------------------------------------------------------ Information Value Method Date ---------------------------------------- ----------- -------------------- ---------- Empty Page Ratio 17 ( 30) * ReclaimS 2011/05/25 Unused Page Ratio (50) 59 ( 50) Number of Branch Row 0 ( 50) ==================================================================================== No : 2 メンテナンス方法を Date : 2011/06/01 Method : Reorganize 表示 Type : T* Name : "k1234567"."table02" ("RDUSER01") StateDate : 2011/05/19 00:10:32 ------------------------------------------------------------------------------------ Information Value Method Date ---------------------------------------- ----------- -------------------- ---------- Empty Page Ratio 0 ( 30) Unused Page Ratio (50) 100 ( 50) * Reorganize 2011/05/25 Number of Branch Row 0 ( 50) ==================================================================================== 46

3-2-18 再編成時期予測の運用手順解説再編時期予測を行うためには予測データを蓄積する表の格納 RD エリアを準備し予測データの蓄積と予測データの解析を以下の手順で行います解析情報表及び運用履歴表を格納するデータディクショナリ用 RD エリアの作成 1. 準備 $ pdmod a 制御文ファイル制御文ファイル : create rdarea rddbm for datadictionary of dbmanagement ~ システム共通定義の pd_rorg_predict オペランドに Y を指定予測データ更新のためのシステムログファイルの容量見積もり pddbst k logi SQL or コマンド 2. 予測データ蓄積データベースを解析して再編成時期の予測データを解析情報表に蓄積 $ pddbst k logi r ALL e 1 ( 予測レベル1の実行例 ) 予測の精度を高めるために定期的に ( 毎日 ) 実行してください蓄積解析情報表 3. 予測データ解析 4. メンテナンス方法解析予測データを解析して DB メンテナンス予定日が近い RD エリアと予測日を取得 $ pddbst -k pred -r ALL -e 1 ( 予測レベル1の実行例 ) DBメンテナンス時期の見落としがないように定期的に実行してください DBメンテナンス予定日が近いRDエリアがある場合更にメンテナンスが必要な表インデクス及びRDエリアとそのメンテナンス方法を調査します $ pddbst -k pred -r ALL -e 1 m ( 予測レベル1の実行例 ) 解析運用履歴表データディクショナリ用 RD エリア pddbst k pred 5. メンテナンス表示されたメンテナンス方法に従って表を再編成インデクスを再編成 RD エリアを拡張 RD エリアを再初期化します pddbst k pred -m 通常は予測レベル1だけ実施します予測レベル2 は RDエリアの容量不足のほかにデータ格納効率の劣化によるオンライン性能への影響を監視する場合に使用します予測レベル2 は予測レベル1に比べて解析に時間を要しますので使用にあたってはマニュアルシステム運用ガイド - 表の再編成時期を予測する方法( 再編成時期予測機能 ) を参照してください 47

3-2-19 RD エリアの状態の監視なぜ監視するの? RD エリアに障害が発生すると対象となる RD エリアを閉塞しアクセスできなくなるため定期的に RD エリアの状態を監視する必要があります表 1 と表 3 の RD エリア 1 に格納分はアクセス不可表 2 と表 3 の RD エリア 2 に格納分はアクセス可能以下は閉塞する主な要因ですディスク装置が壊れたログレス UAP が異常終了したディスク装置の電源が入っていない障害発生表 1 表 2 表 3 RD エリア 1 RD エリア 2 48

3-2-20 RD エリアの状態の監視方法 (1) どうやって監視するの? 以下のエラーメッセージが出力されていないか監視してください KFPH00306-E KFPH00307-E 監視するメッセージ KFPH00306-E KFPH00306-E KFPH00307-E メッセージの説明 & 出力例 RD エリアが障害閉塞した場合に出力されます障害閉塞とは RD エリアに入出力障害などの障害が発生しデータの整合性が保たれていない状態です KFPH00306-E メッセージの出力例 KFPH00306-E HiR1 PU02 RDAREA "RL4" held due to i/o error occurred KFPH00307-E RD エリアがコマンド閉塞した場合に出力されますコマンド閉塞とは UAP やユティリティからの RD エリアのアクセスを制限しているがデータの整合性は保たれている状態です KFPH00307-E メッセージの出力例 KFPH00307-E HiR1 PU02 RDAREA "RL4" HELD(CMD) due to i/o error occurred 49

3-2-21 RD エリアの状態の監視方法 (2) なにを確認するの? まずは以下の切り分けを行ってください KFPH00306-E と KFPH00307-E が両方出力されているこの場合は RD エリアの回復が必要です KFPH00307-E が出力されていて KFPH00306-E が出力されていないこの場合は RD エリアの回復は不要です KFPH00306-E メッセージや KFPH00307-E メッセージが出力された場合 pddbls コマンドで閉塞している RD エリアを全て確認したあと HiRDB 管理者が当該メッセージ以前に出力されているメッセージを参照して原因を調べてくださいコマンドの指定 pddbls -r ALL -b -b オプションを指定すると閉塞状態の RD エリアの情報を表示します pddbls コマンドの実行結果表示例 ( セグメントの使用状況 ) HOLD HOLD RD エリアの状態を確認します HOLD は障害閉塞を表します HOLD 50

3-2-22 RD エリアの状態の監視方法 (3) どう対処すれば良いの? RD エリアの回復の必要がない場合はエラーの要因 ( ディスク装置の電源が入っていないなど ) を取り除いて pdrels コマンド (pdrels -r RD エリア名,RD エリア名 -o ) で閉塞を解除し業務を再開してください RD エリアの回復が必要な場合はエラーの要因 ( ディスク装置の物理エラー RD エリアの入出力エラーなど ) を取り除いて以下の手順で業務を再開してください 1 RD エリアがクローズ状態になっていない場合は以下のコマンドでクローズします pdhold -r RD エリア名,RD エリア名 -c 2 RD エリアをデータベース回復ユティリティ (pdrstr) で回復 1 します関連する RD エリア 2 がある場合はそれも回復します 3 以下のコマンドで RD エリアの閉塞を解除します pdrels -r RD エリア名,RD エリア名 -o 1 HiRDB では以下の 3 つの状態にデータベースを回復できますどの状態に回復できるはユーザの運用形態によって変わります最新の状態に回復 ( 障害発生直前の最新の同期点に回復 ) 指定した時刻の状態に回復 ( バックアップ取得時点以降の任意の同期点に回復 ) バックアップ取得時点に回復リカバリ可能なデータベース状態状態説明必要な情報障害が発生する直前の同期点まで回復します指定した時刻の直前の同期点まで回復しますオペレーションミスによりデータを削除してしまった場合などに適用しますバックアップ取得時点に回復します参照業務が主体のシステムに適用しますバックアップとシステムログバックアップとシステムログバックアップ 2 関連するRDエリアとはデータの整合性を守る必要があるRDエリアのことです例えば表格納用 RDエリアとインデクス用 RDエリア横分割表を格納しているすべてのRDエリアなどです詳細はマニュアルシステム運用ガイド - 同時にバックアップを取得する必要があるRDエリアを参照してください 51

3.HiRDB のリソース監視 3.1 概要 3.2 RD エリアの監視 3.3 作業表ファイルの使用状況の監視 3.4 システムログファイルの状態の監視 3.5 メモリ不足の監視 3.6 メモリ使用状況の監視 3.7 排他資源管理テーブルの使用状況の監視 3.8 HiRDB 運用ディレクトリの容量の監視 3.9 リソースの使用率の監視 52

3-3-1 作業表ファイルの使用状況の監視なぜ監視するの? 作業表用ファイルは表の結合やインデクスの再作成時に HiRDB が自動的に使用します容量不足によって SQL エラーになりますこれを防ぐためには作業表用ファイル容量が必要なだけ確保されなければなりませんこのために作業表用ファイル用の HiRDB ファイルシステム領域のピーク使用量を監視しますここが無くなると SQL エラー 53

3-3-2 作業表ファイルの使用状況の監視方法 (1) どうやって監視するの? 作業表用ファイル用の HiRDB ファイルシステム領域のピーク使用量は pdfstatfs コマンドで監視しますコマンドの指定 pdfstatfs -d HiRDBファイルシステム領域名 pdfstatfs コマンドの表示例 pdfstatfs -c HiRDB ファイルシステム領域名の指定でピークの値はリセットされます $ pdfstatfs -d /HiRDBFILE/S1/W これを確認します 54

3-3-3 作業表ファイルの使用状況の監視方法 (2) なにを確認するの? peak capacity を参照して作業表用ファイル用の HiRDB ファイルシステム領域の最大使用量を確認してください peak capacity はその時点までの最大使用量を示しています業務開始未使用状態 peak capacity 60% HiRDB ファイルシステム領域 peak capacity 90% どう対処すれば良いの? 作業表用ファイル用の HiRDB ファイルシステム領域の最大使用量が総容量に近い場合は沢山の作業表を同時に使う業務があれば時間をずらせないか検討してください時間をずらせない場合は HiRDB ファイルシステム領域サイズ (-n オプション ) を大きくして pdfmkfs コマンドによる初期設定を再度実行してください 55

3.HiRDB のリソース監視 3.1 概要 3.2 RD エリアの監視 3.3 作業表ファイルの使用状況の監視 3.4 システムログファイルの状態の監視 3.5 メモリ不足の監視 3.6 メモリ使用状況の監視 3.7 排他資源管理テーブルの使用状況の監視 3.8 HiRDB 運用ディレクトリの容量の監視 3.9 リソースの使用率の監視 56

3-4-1 システムログファイルの概要解説 1 解説 2 システムログファイルは DB の更新履歴情報が格納され一つのシステムログファイルが満杯になったら次のシステムログファイルにスワップします満杯になりスワップされるとアンロード待ち状態となりますこの状態のシステムログファイルをアンロードすることでシステムログの内容を保管しますアンロードすることによりそのシステムログファイルは再び現用割当可能な状態となりますこの運用を繰り返すことでシステムログファイルは循環利用されます時間トランザクション 1 トランザクション 2 トランザクション 3 スワップシステムログファイル log1 ( 満杯 ) log2 log3 log1 log2 log3 log1 log2 log3 現用待機現用割当可能システムログはデータベースの更新履歴情報でロールバックや障害後の回復に用います待機現用割当可能待機現用割当不可 ( アンロード待ち ) 現用待機現用割当可能メディア障害時の回復に使用するシステムログはアンロードログファイルにて保管します待機現用割当可能アンロードログファイルアンロード現用待機現用割当可能 57

3-4-2 システムログファイルの状態の監視 (1) なぜ監視するの? HiRDB 管理者はスワップ先にできる状態のファイルが常にあるようにシステムログファイルを運用する必要がありますスワップ先にできる状態のファイルがないときにシステムログファイルが満杯になると HiRDB が異常終了するためシステムログファイルの状態を監視することは非常に重要です現用割当可能なシステムログファイルがないとスワップできず HiRDB が異常終了するスワップスワップスワップ log1 待機現用割当不可 ( アンロード待ち ) log2 待機現用割当不可 ( アンロード待ち ) log3 ( 満杯 ) 現用 58

3-4-3 システムログファイルの状態の監視 (2) 監視しなくても大丈夫! HiRDBが自動的にアンロード処理を実行する自動ログアンロード機能 ( 適用推奨 ) をサポートしていますこの機能を使用すればシステムログファイルの状態監視が不要になります詳細は 3-4-4 項またシステムログファイルの空き容量を監視する機能 ( システムログファイルの空き容量監視機能 ) もサポートしています詳細は 3-4-5 項 59

システムログファイルの状態の監視 3-4-4 自動ログアンロード機能解説システムログファイルの状態を監視してもアンロード待ち状態のシステムログファイルのアンロード操作 (pdlogunld コマンド ) を忘れてしまっては意味がありません HiRDB ではシステムログファイルがスワップしアンロード待ち状態になった時点で HiRDB が自動的にアンロード処理を実行する自動ログアンロード機能をサポートしています自動ログアンロード機能の適用を推奨します設定するパラメタパラメタアンロード種別 pd_log_unload_check pd_log_auto_unload_path 自動ログアンロード Y( デフォルト値 ) アンロードログファイルを格納するディレクトリ名アンロードログファイルの格納先に関する注意事項指定が無い場合は自動ログアンロードは行いませんアンロードログファイル出力先ディレクトリの容量不足が発生した場合は自動ログアンロード機能は停止しますディスク容量が不足しないようにしてくださいディスク障害発生時に回復できるよう RD エリアを格納するディスクとは異なるディスクに配置して下さいトランザクション1 トランザクション2 トランザクション3 スワップ時間システムログファイル log1 ( 満杯 ) 現用 log2 log3 log1 log2 log3 log1 log2 log3 待機現用割当可能待機現用割当可能待機現用割当不可 ( アンロード待ち ) 現用待機現用割当可能待機現用割当可能現用自動ログアンロード待機現用割当可能アンロードログファイル名は HiRDB が決定しますアンロードログファイルの出力先ディレクトリ bes1_..._log2 bes1_..._log3 bes1_..._log1 60

システムログファイルの使用状況の監視 3-4-5 システムログファイルの空き容量監視機能解説 HiRDB ではシステムログファイルの空き容量を監視する機能 ( システムログファイルの空き容量監視機能 ) をサポートしています HiRDB の運用を続けるとデータベースの更新ログがシステムログファイルに蓄積されていきますすべてのシステムログファイルが満杯になるとデータベースの更新ログが出力できなくなり HiRDB の運用が続行できなくなるため HiRDB は異常終了しますこの異常終了によるサービス停止を回避するために HiRDB 管理者はシステムログファイルの使用状況を常に監視する必要があります HiRDB システム定義の指定 set pd_log_remain_space_check = warn safe 説明システムログファイルの全容量に対する空き容量が警告値未満になった場合デフォルトで警告メッセージ KFPS01162-W を出力しますさらに safe を指定するとサーバ内のトランザクションを強制終了してエラーメッセージを出力します warn を指定 ( または省略 ): 警告メッセージ KFPS01162-W を出力します safe を指定 : 新規トランザクションのスケジューリングを抑止してサーバ内の全トランザクションを強制終了し KFPS01160-E メッセージを出力しますこれによりシステムログファイルの空き容量を確保しますシステム構築およびテスト段階では safe を指定し業務テストを行うことを推奨します実行中のトランザクションが頻繁に強制終了されるようであればシステムログファイルの総容量を拡張してくださいシステムログファイルの空き容量監視機能でうまく監視できない場合は warn を指定してください HiRDB/ シングルサーバの場合 67% HiRDB/ パラレルサーバの場合フロントエンドサーバは 30% ディクショナリサーバとバックエンドサーバは 67% です 61

3.HiRDB のリソース監視 3.1 概要 3.2 RD エリアの監視 3.3 作業表ファイルの使用状況の監視 3.4 システムログファイルの状態の監視 3.5 メモリ不足の監視 3.6 メモリ使用状況の監視 3.7 排他資源管理テーブルの使用状況の監視 3.8 HiRDB 運用ディレクトリの容量の監視 3.9 リソースの使用率の監視 62

3-5-1 メモリ不足の監視なぜ監視するの? メモリ不足が発生すると HiRDB を開始できない UAP またはユティリティが実行できないなどの事象が発生するためメモリ不足を監視しますユニットコントローラ用共用メモリグローバルバッファ用共用メモリ共用メモリ HiRDB サーバのメモリの構成ユティリティ用共用メモリプロセス間メモリ通信用共用メモリユニットコントローラプロセスのプロセス固有メモリプロセス固有メモリサーバプロセスのプロセス固有メモリ主なメモリリソースメモリ共用メモリユニットコントローラ用排他制御用プール定義キャッシュグローバルバッファ用グローバルバッファプロセス固有メモリ作業表用バッファ最大同時接続数 63

3-5-2 メモリ不足の監視方法 (1) どうやって監視するの? 以下のメッセージが出力されていないか監視してください共用メモリまたはプロセス固有メモリが不足している場合 KFPD00021-E KFPH20003-E KFPS00350-W KFPS00460-E プロセス固有メモリが不足している場合 KFPD01104-E KFPH21001-E KFPH22002-E なにを確認するの? メッセージの出力内容から共用メモリプロセス固有メモリどちらが不足しているか確認してください 64

3-5-3 メモリ不足の監視方法 (2) どう対処すれば良いの? 共用メモリが不足している場合次に示すオペランドの値を大きくして該当するサーバの共用メモリサイズを見直してください pd_sds_shmpool_size オペランドの指定値を大きくする (HiRDB/ シングルサーバ ) pd_dic_shmpool_size オペランドの指定値を大きくする (HiRDB/ パラレルサーバ ) pd_bes_shmpool_size オペランドの指定を大きくする (HiRDB/ パラレルサーバ ) グローバルバッファの大きさまたは面数を縮小できないか検討してくださいプロセス固有メモリが不足している場合次に示すことをしてください最大同時接続数 (pd_max_users オペランド ) に余裕がある場合は減らしてください each: 個々の作業表ごとにバッファを確保 pool: サーバプロセス単位にバッファプールとして一括して確保 pd_work_buff_modeオペランド ( HiRDBが作業表を作成するときのバッファの確保方式 ) を参照して eachが指定されている場合は poolに変更する変更できない場合は作業表用バッファ長 (pd_work_buff_sizeオペランド) を減らしてくださいサーバ常駐プロセス数 (pd_process_countオペランド) を減らしてくださいただし接続ユーザが増えると性能が劣化します上記の対処をしてもまだプロセス固有メモリが不足している場合はさらに次に示す対処をしてくださいスワップ領域を増やしてください実メモリを増やしてください 65

3.HiRDB のリソース監視 3.1 概要 3.2 RD エリアの監視 3.3 作業表ファイルの使用状況の監視 3.4 システムログファイルの状態の監視 3.5 メモリ不足の監視 3.6 メモリ使用状況の監視 3.7 排他資源管理テーブルの使用状況の監視 3.8 HiRDB 運用ディレクトリの容量の監視 3.9 リソースの使用率の監視 66

3-6-1 メモリ使用状況の監視方法 (1) なぜ監視するの? サーバの共用メモリの不足 HiRDB のプロセスが使用するメモリの不足が発生すると性能劣化や各種エラー事象が発生するため監視を行いますどうやって監視するの? 共用メモリの場合以下のどちらかの方法で共用メモリの状態表示をして監視してください 1.pdls -d mem コマンドによる共用メモリの状態表示使用中の共用メモリサイズをユニットごとに表示しますコマンドの指定 pdls -d mem 2. 統計解析ユティリティ (pdstedit) による共用メモリの状態表示システムの稼働に関する統計情報を取得します各情報の表示例は 3-6-2 項プロセス固有メモリの場合 OSのtopコマンドや Windowsのタスクマネージャなどで HiRDBの各プロセスのメモリ使用量を確認して合計を求め監視してください 67

3-6-2 表示例メモリ使用状況の監視方法 pdls -d mem コマンドの表示例システムの稼働に関する統計情報 ( 共用メモリ情報 ) 表示例 1 確保サイズ ( バイト ) 2 使用目的 MANAGER: ユニットコントローラ用サーバ名 :HiRDB の各サーバが使用するグローバルバッファプール用 UTILITY: ユティリティ用 1 各項目の発生回数 2 各項目の最大値 3 各項目の最小値 4 各項目の平均値 5 共用メモリ情報 6サーバ用に確保した共用メモリのサイズ 7 静的共用メモリ確保サイズ 8 動的共用メモリ確保サイズ 9グローバルバッファプール用共用メモリ確保サイズ 68

3-6-3 メモリ使用状況の監視方法 (2) なにを確認するの? 観測した値が想定した値 ( 見積もりした値 ) となっているか確認してくださいどう対処すれば良いの? 3-5-3 項の対処を行ってくださいまたサーバプロセスのメモリサイズ監視機能を使用すればサーバプロセスのメモリサイズを監視することができますサーバプロセスのメモリサイズ監視機能概要一つのサーバプロセスが使用した作業用メモリサイズがある値を超えた場合に UAP の切り離し時またはトランザクション決着時にプロセスを終了させる機能です詳細についてはマニュアルシステム運用ガイドを参照してください HiRDBシステム定義の指定 set pd_svr_castoff_size =サーバプロセス一つあたりが使用するメモリサイズの上限値留意事項サーバプロセスのメモリサイズ監視機能は Linux 版および Windows 版では使用する必要はありません UNIX 互換のオペレーティングシステム (Linux を除く ) の場合はプログラムがメモリを解放しても領域自体は当該プロセス内のメモリ管理機構で保持されたままでプロセス終了までシステムに対して返却されないため当機能が有用となります 69

3.HiRDB のリソース監視 3.1 概要 3.2 RD エリアの監視 3.3 作業表ファイルの使用状況の監視 3.4 システムログファイルの状態の監視 3.5 メモリ不足の監視 3.6 メモリ使用状況の監視 3.7 排他資源管理テーブルの使用状況の監視 3.8 HiRDB 運用ディレクトリの容量の監視 3.9 リソースの使用率の監視 70

3-7-1 排他資源管理テーブルの使用状況の監視なぜ監視するの? 排他資源管理テーブルは HiRDB が排他制御をするために使用します大量のデータを参照更新する UAP では排他資源が不足すると SQL エラーとなるため排他資源管理テーブルの使用状況を監視してください以下に示す方法で排他資源管理テーブルの使用状況を監視してくださいインフォメーションメッセージで監視する 3-7-2~3-7-3 項 pdls -d lck コマンドで監視する 3-7-4 項統計解析ユティリティ (pdstedit) で監視する 3-7-5~3-7-6 項 71

排他資源管理テーブルの使用状況の監視 3-7-2 KFPS00443-I または KFPS00447-I の監視 (1) どうやって監視するの? 以下のメッセージが出力されていないか監視してください KFPS00443-I KFPS00447-I 監視するメッセージ KFPS00443-I または KFPS00447-I メッセージの説明 & 出力例排他資源管理テーブル不足が発生するとこれらのメッセージが出力されますこのとき排他資源管理テーブル不足が発生したサーバマシンのディレクトリ ($PDDIR/spool/pdlckinf) 下に排他資源管理テーブル情報が出力されますこの情報は OS のエディタで参照できます KFPS00443-I KFPS00447-I メッセージの出力例 KFPS00443-I KFPS00447-I なにを確認するの? 排他資源管理テーブル情報から各ユーザが使用している排他資源数が妥当かどうかを確認してください詳細は 3-7-3 を参照してくださいどう対処すれば良いの? KFPS00443-I メッセージの説明の中にエラーコードごとの対処方法が説明されていますそれに従って対策してください 72

排他資源管理テーブルの使用状況の監視 3-7-3 KFPS00443-I または KFPS00447-I の監視 (2) 排他資源管理テーブル情報の出力例 2UAP 識別情報 3 サーバ名 5 クライアントの IP アドレス A B 1 不足した排他資源管理テーブルの種別 RESOURCE: 使用する資源名称を管理するときに使用するテーブル OCP/WAIT: 共有待ちの状態を管理するときに使用するテーブル 4 プロセス ID 6 クライアントのプロセス ID 7 排他資源管理テーブルの使用率が 10% 未満のユーザ数排他資源管理テーブル情報の次に示す情報を参照してください使用できる排他資源管理テーブルの総数 (number of resources) A 現在使用している排他資源管理テーブル数 (using resources) B どのUAP がどれだけ排他資源管理テーブルを使用しているかがわかります排他資源管理テーブルの使用数は UAP の排他要求数と一致します現在使用しているテーブル数の値が大きいUAP は不当に多くの排他要求をしている可能性があります排他資源管理テーブル情報ファイルは増加するため調査が終了したファイルや調査する必要がないファイルは pdcspool コマンドか OS の機能で削除してください 73

排他資源管理テーブルの使用状況の監視 3-7-4 pdls -d lck コマンドで監視どうやって監視するの? サーバごとの排他資源管理テーブル使用率を pdls -d lck コマンドで表示しますコマンドの指定 pdls -d lck -p 1 サーバ名 -d lck: サーバの排他制御の状態を表示します -p: 各サーバの排他資源管理テーブルの使用率を表示します pdls -d lck -p コマンドの表示例 3 使用できる最大排他資源管理テーブル数 (10 進数 ) 4 現在使用中の排他資源管理テーブル数 (10 進数 ) 5 排他資源管理テーブルの使用率 (%) 2 排他資源管理テーブルの種別 RESOURCE: 使用する資源名称を管理するときに使用するテーブルなにを確認するの? サーバごとの排他資源管理テーブル使用率を確認してくださいどう対処すれば良いの? 使用率が高く不足しそうな場合は次に示す HiRDB システム定義のオペランドを見直してくださいフロントエンドサーバの場合 :pd_fes_lck_pool_size オペランドそのほかのサーバの場合 :pd_lck_pool_size オペランド 74

排他資源管理テーブルの使用状況の監視 3-7-5 統計解析ユティリティ (pdstedit) で監視 (1) どうやって監視するの? 統計解析ユティリティ (pdstedit) でシステムの稼働に関する統計情報を取得してくださいコマンドの指定 pdstedit -k sys -i アンロード統計ログファイル名 -k sys: システムの稼働に関する統計情報を出力します -i: アンロード統計ログファイルの名称を指定しますアンロード統計ログファイルを配置したディレクトリや HiRDB ファイルシステム領域の名称を指定することもできます pdstedit の表示例 5 排他制御情報 1 各項目の発生回数 2 各項目の最大値 3 各項目の最小値 4 各項目の平均値 6 排他待ち時間 ( ミリ秒 ) 7 排他待ち行列数 ( ユーザ数 ) 8 デッドロック件数 9 排他資源管理テーブルの使用率 (%) 75

排他資源管理テーブルの使用状況の監視 3-7-6 統計解析ユティリティ (pdstedit) で監視 (2) なにを確認するの? 排他資源管理テーブルの使用率を確認してくださいどう対処すれば良いの? 使用率の最大値が 10% 以下の場合節約のために排他資源管理テーブル数を小さくすることを検討してください使用率の最大値が 80% 以上や排他資源管理テーブル不足が発生している場合排他資源管理テーブル数を大きくすることを検討してください多重実行をしている場合実行時間を変えられないか検討してください 76

3.HiRDB のリソース監視 3.1 概要 3.2 RD エリアの監視 3.3 作業表ファイルの使用状況の監視 3.4 システムログファイルの状態の監視 3.5 メモリ不足の監視 3.6 メモリ使用状況の監視 3.7 排他資源管理テーブルの使用状況の監視 3.8 HiRDB 運用ディレクトリの容量の監視 3.9 リソースの使用率の監視 77

3-8-1 HiRDB 運用ディレクトリの容量の監視なぜ監視するの? トラブルシュート情報及び作業用一時ファイルを残しておくと HiRDB 運用ディレクトリがあるディスクの容量を圧迫する原因になります HiRDB 運用ディレクトリがあるディスクの容量が不足すると HiRDB が異常終了することがあるため HiRDB 運用ディレクトリの容量を監視してください運用ディレクトリ下で容量が増えていくファイルトラブルシュート情報 $PDDIR/spool 下作業用一時ファイル $PDDIR/tmp 下通常は24 時間通常は24 時間ごとに週間ごとに1 週間以以上古いファ上古いファイルを削除するイルを削除する 78

3-8-2 HiRDB 運用ディレクトリの容量の監視方法どうやって監視するの? OS の機能で HiRDB 運用ディリクトリの容量を監視してくださいなにを確認するの? HiRDB 運用ディリクトリの空き容量が十分か確認してくださいどう対処すれば良いの? HiRDB 運用ディリクトリの空き容量が十分でない場合は要因としてトラブルシュート情報が大量に出力されたことが考えられますこの場合は pdcspoolコマンドで不要なトラブルシュート情報を削除してください作業用一時ファイル ($PDDIR/tmp 下のファイル ) とシステム定義のpd_tmp_ditrectoryに指定したディレクトリ下のファイルも削除の対象になりますコマンドの指定 pdcspool -d 日数 -k 種別また次に示すオペランドの指定も検討してください HiRDBシステム定義解説 pd_spool_cleanup_interval トラブルシュート情報の削除間隔を変更できる pd_spool_cleanup_interval_level 指定した日より前に出力したトラブルシュート情報を削除できる pd_spool_cleanup HiRDBの開始時に自動的にトラブルシュート情報を削除できる pd_spool_cleanup_level HiRDBの開始時に指定した日より前に出力したトラブルシュート情報を削除できる 79

3.HiRDB のリソース監視 3.1 概要 3.2 RD エリアの監視 3.3 作業表ファイルの使用状況の監視 3.4 システムログファイルの状態の監視 3.5 メモリ不足の監視 3.6 メモリ使用状況の監視 3.7 排他資源管理テーブルの使用状況の監視 3.8 HiRDB 運用ディレクトリの容量の監視 3.9 リソースの使用率の監視 80

3-9-1 リソースの使用率の監視 (1) なぜ監視するの? 主要なリソースが不足すると SQL 実行エラーや DB 領域不足が発生するためリソースの使用率がある一定の値に達した場合に警告メッセージを出力する機能を使って一律に監視を行います HiRDBシステム定義の指定 AUTOを指定してください set pd_watch_resource = MANUAL AUTO 説明リソースの使用率が80% 以上になった場合に警告メッセージを出力するかどうかを指定します MANUAL: 警告メッセージを出力しません AUTO: 警告メッセージを出力します監視対象のリソース出力されるメッセージ pd_max_users オペランドで指定した最大同時接続 KFPS05123-W pd_max_access_tables オペランドで指定した同時アクセス可能実表数 pd_max_rdarea_no オペランドで指定したRDエリアの最大数 pd_max_file_no オペランドで指定したRDエリアを構成するHiRDBファイルの最大数 pdwork オペランドで指定した作業表用ファイル用のHiRDBファイルシステム領域 pd_max_list_users で指定したリスト作成ユーザ数 pd_max_list_count で指定した1ユーザ当たりのリスト作成数スワップ先にできない監査証跡ファイル数サーバ内のリスト作成数 KFPH22023-W 81

3-9-2 リソースの使用率の監視 (2) 通常はリソースの使用率が 80% 以上になった場合に警告メッセージが出力されますがこのパーセンテージを以下に示すオペランドで変更できます ( しきい値を変更できます ) HiRDBシステム定義の指定 set pd_max_users_wrn_pnt = HiRDBサーバへの接続数に関する警告メッセージの出力契機 set pd_max_access_tables_wrn_pnt = 同時アクセス可能実表数に関する警告メッセージの出力契機 set pd_max_rdarea_no_wrn_pnt = RDエリア数に関する警告メッセージの出力契機 set pd_max_file_no_wrn_pnt = HiRDBファイル数に関する警告メッセージの出力契機 set pdwork_wrn_pnt = 作業表用ファイルに関する警告メッセージの出力契機 set pd_max_list_users_wrn_pnt = リスト作成ユーザ数に関する警告メッセージの出力契機 set pd_max_list_count_wrn_pnt = 1ユーザ当たりのリスト作成数に関する警告メッセージの出力契機 set pd_aud_file_wrn_pnt = 警告メッセージの出力契機 set pd_rdarea_list_no_wrn_pnt = サーバ内のリスト作成数に関する警告メッセージの出力契機 82

3-9-3 リソース使用率の監視方法 (1) どうやって監視するの? 以下のメッセージが出力されていないか監視してください KFPS05123-W KFPH22023-W 監視するメッセージ KFPS05123-W メッセージの出力例 RD エリア数が最大 RD エリア数の 80% を超えた場合に出力する例を以下に示します KFPS05123-W の出力例 (RD エリア数に関する警告メッセージ ) KFPS05123-W 83

3-9-4 リソース使用率の監視方法 (2) なにを確認するの? KFPS05123-W または KFPH22023-W メッセージの出力内容から警告値を超えたリソースと付加情報を確認してくださいどう対処すれば良いの? 不足しそうな場合は各オペランドの値を見直してください不足するには時間が掛かると思われる場合はしきい値を見直してください 84

4.HiRDB の性能監視 85

4.HiRDB の性能監視 4.1 概要 4.2 グローバルバッファの使用状況の監視 4.3 サーバプロセスの異常終了回数の監視 4.4 サーバプロセスの沈み込みの監視 4.5 アプリケーションの実行時間の監視 4.6 長時間動作しキャンセルされたアプリケーションの監視 4.7 HiRDB 全体のパフォーマンスの監視 86

4-1-1 概要 (1) 解説この章では HiRDB サーバおよび HiRDB クライアントの処理状況を監視する方法について説明します監視する項目と監視方法一覧 # 監視する項目監視方法 pdbufls でグローバルバッファの使用状況を監視する 1 グローバルバッファの使用状況グローバルバッファプールに関する統計情報を取得し pdstedit -k buf i アンロード統計ログファイル名でグローバルバッファの使用状況を監視する 2 サーバプロセスの異常終了回数 set pd_down_watch_proc = サーバプロセスの異常終了回数の上限値 [, 監視間隔 ] を指定して以下のメッセージが出力されていないか監視する KFPS01821-E KFPS00729-E 3 サーバプロセスの沈み込み set pd_queue_watch_time = メッセージキュー監視時間を指定して以下のメッセージが出力されていないか監視する KFPS00888-W および KFPS00889-E 87

4-1-2 概要 (2) 監視する項目と監視方法一覧 # 監視する項目監視方法 4 アプリケーションの実行時間各タイマー (4-5-3 項参照 ) に値を設定して以下のメッセージが出力されていないか監視する KFPA11732-E KFPS00450-W KFPA20009-W KFPS01820-E state=c200 KFPS01820-E state=c400 5 長時間動作しキャンセルされたアプリケーション set pd_spd_syncpoint_skip_limit = シンクポイントダンプ有効化処理のスキップ回数上限値を指定して以下のメッセージが出力されていないか監視する KFPS02179-I KFPS00993-I(REQUEST=abnormal_tran_end) 6 HiRDB 全体のパフォーマンスシステムの稼働グローバルバッファプールデファードライト処理に関する統計情報を取得 (4-2-6 節参照 ) し pdstedit -k sys,svr,buf,dfw -m 時間間隔 -i アンロード統計ログファイル名で監視する 88

4.HiRDB の性能監視 4.1 概要 4.2 グローバルバッファの使用状況の監視 4.3 サーバプロセスの異常終了回数の監視 4.4 サーバプロセスの沈み込みの監視 4.5 アプリケーションの実行時間の監視 4.6 長時間動作しキャンセルされたアプリケーションの監視 4.7 HiRDB 全体のパフォーマンスの監視 89

4-2-1 グローバルバッファとは解説グローバルバッファとは RD エリアに格納されているデータの入出力に使用されるメモリ領域ですグローバルバッファはバッファページ ( 面 ) という入出力の単位で構成されています DB 処理プロセス 1. 参照要求発生 1. 更新要求発生 2. バッファ上を参照グローバルバッファ ( メモリ領域 ) グローバルグローバルバッファプール1 バッファプール2 2. バッファ上を参照 4. グローバルバッファ上で更新 3. 対象データがバッファ上に存在しない場合はディスクから読み込む (READ) 3. 対象データがバッファ上に存在しない場合はディスクから読み込む ( 物理 READ 発生 ) RD エリア 1 RD エリア 2 HiRDB ではグローバルバッファの管理方法として LRU 方式を採用している LRU 方式とはバッファ上に存在するページのうち最も長い間参照されなかったものから順にページアウトする方法である 5. シンクポイント発生時にバッファ上の更新後データをディスクに書き込む ( 物理 WRITE 発生 ) 通常はトランサクション実行とは非同期に WRITE 90

4-2-2 グローバルバッファの使用状況の監視なぜ監視するの? グローバルバッファの割り当てはディスクに対するデータの入出力性能に大きな影響を及ぼすためグローバルバッファの使用状況を監視してください DB 処理プロセスグローバルバッファ ( メモリ領域 ) グローバルグローバルバッファプール1 バッファプール2 対象データがバッファ上に存在しない割合が高い ( ヒット率が低い ) とディスク I/O が増え性能に影響! RD エリア 1 RD エリア 2 91

4-2-3 グローバルバッファの使用状況の監視方法 (1) どうやって監視するの? 次に示す方法でグローバルバッファの情報を定期的に取得してください pdbufls コマンドでグローバルバッファの使用状況を監視する表示例は短期間内の統計情報を簡易的に取得できますコマンドの指定 pdbufls -d -d:hirdb 開始時点からのグローバルバッファの統計情報を表示します 4-2-4 項統計解析ユティリティ (pdstedit) でグローバルバッファの使用状況を監視する表示例は 4-2-5 項 pdbuflsで問題が解決しない場合はグローバルバッファプールに関する統計情報を取得してください pdbuflsコマンドでは表示されない入力待ち発生回数出力待ち発生回数などが出力されますまた DAT 形式で情報を出力すると表計算ソフトなどで扱えるため見やすくなります情報の取得範囲は任意に選択できますコマンドの指定 pdstedit -k buf i アンロード統計ログファイル名 [-o DAT 形式ファイル出力先ディレクトリ名 -e sec b] -k buf: グローバルバッファに関する統計情報を出力します -i: 統計ログファイルをアンロードしたファイルの名称を指定します -o:dat 形式ファイルにも統計情報を出力する場合は DAT 形式ファイルを出力するディレクトリの名称を指定します -e sec: 統計ログ取得時刻を秒単位で出力します (-o オプション指定時だけ有効 ) -b:dat 形式ファイルにタイトルバーを出力する場合に指定します統計情報の取得詳細は 4-2-6 項他にUAP 統計レポートやUAPに関する統計情報でもグローバルバッファの使用状況を知ることができます主に確認する情報はグローバルバッファ全体の参照要求回数更新要求回数ヒット回数フラッシュ回数実 READ 回数実 WRITE 回数です 92

4-2-4 pdbufls コマンドの表示例 pdbufls コマンドの表示例 7 8 7 8 7 8 7 8 1グローバルバッファ名 2サーバ名 3グローバルバッファプールのヒット率 4 実 READ 回数 5 実 WRITE 回数 6バッファ不足発生回数 7 参照バッファフラッシュ回数 8 更新バッファフラッシュ回数 93

4-2-5 統計解析ユティリティ (pdstedit) の表示例統計解析ユティリティ (pdstedit) の表示例 ( グローバルバッファプールに関する統計情報 ) 9 9 10 10 1グローバルバッファのヒット率 2 実 READ 回数 3 実 WRITE 回数 4バッファ不足発生回数 5サーバ名 6グローバルバッファ名 7グローバルバッファのバッファ面数 8 合計値 9 更新バッファフラッシュ回数 10 参照バッファフラッシュ回数 9 10 94

4-2-6 統計情報の取得方法解説統計情報の取得方法について解説します統計情報をファイルに出力する手順統計ログの取得 pdstbegin コマンドの実行 (*1) pdstbegin -k sys,buf,dfw[,uap] -m 1 シンクポイントを発生させる (pdlogsync コマンド (*2) ) システム稼働統計ログの収集ファイルへの出力統計ログファイルシンクポイントを発生させる (pdlogsync コマンド (*2) ) 生成先 :$PDDIR/spool/ ファイル名 :pdstj1,pdstj2 pdstend コマンドの実行 pdstend 統計情報の取得分析 pdstedit コマンドの実行統計情報の取得分析標準出力 pdstedit -k sys,svr,buf,dfw[,uap] -m1 - i $PDDIR/spool/pdstj1 -o /tmp/statisticsu b -e sec -b > pdstj1.out pdstj2 を編集する前に /tmp/statisticsu に出力された DAT 形式ファイルをリネームしてください同じ名前で上書きされます (*1): システム共通定義 (pdsys) にpdstbeginオペランドを指定しておくと pdstbeginコマンドの投入が不要になります (*2): グローバルバッファ (buf) データベース操作(fil) デファードライト(dfw) インデクス(idx) の場合に必要です 95

4-2-7 グローバルバッファの使用状況の監視方法 (2) なにを確認するの? 定期的に取得している過去の統計情報と比較し現在問題がないか? あるいはこの先問題にならないか確認してください以下は代表的な確認項目ですバッファヒット率が低下していないかバッファフラッシュが発生していないか I/O 回数が増加していないかどう対処すれば良いの? 現在問題がある場合またはこの先問題になる恐れがある場合はグローバルバッファプールのチューニングを行ってください詳細はマニュアルシステム運用ガイドのグローバルバッファプールのチューニングを参照してください 96

4.HiRDB の性能監視 4.1 概要 4.2 グローバルバッファの使用状況の監視 4.3 サーバプロセスの異常終了回数の監視 4.4 サーバプロセスの沈み込みの監視 4.5 アプリケーションの実行時間の監視 4.6 長時間動作しキャンセルされたアプリケーションの監視 4.7 HiRDB 全体のパフォーマンスの監視 97

4-3-1 サーバプロセスの異常終了回数の監視なぜ監視するの? サーバプロセスの異常終了が多発すると新たなサービスを受け付けられないことがありますしかしサーバプロセスの異常終了では HiRDB を異常終了しないため実質オンライン停止状態になりますこの実質オンライン停止状態の長期化を防ぐためにプロセスの異常終了回数監視機能でプロセスの異常終了回数を監視しますプロセスの異常終了回数監視機能概要サーバプロセスの異常終了回数が一定時間内に pd_down_watch_proc オペランドの値を超えた場合 HiRDB(HiRDB/ パラレルサーバの場合は該当するユニット ) を異常終了しますこれをプロセスの異常終了回数監視機能といいます HiRDBシステム定義の指定 set pd_down_watch_proc = サーバプロセスの異常終了回数の上限値 [, 監視間隔 ] デフォルトは 0 0 を指定するとサーバプロセスの異常終了回数を監視しませんデフォルトは 600 秒 98

4-3-2 サーバプロセスの異常終了回数の監視方法 (1) どうやって監視するの? 以下のメッセージが出力されていないか監視してください監視方法詳細は 4-3-3 項を参照してください KFPS01821-E KFPS00729-E なにを確認するの? このメッセージの前に出力されているメッセージの内容を確認してくださいどう対処すれば良いの? メッセージに従ってエラー要因を取り除いて HiRDB を再開始してください 99

4-3-3 サーバプロセスの異常終了回数の監視方法 (2) サーバプロセスの異常終了回数の監視方法 ( プロセスの異常終了回数監視機能使用時 ) メッセージログを見て KFPS00729 が出力されている場合このケースに該当します 100

4.HiRDB の性能監視 4.1 概要 4.2 グローバルバッファの使用状況の監視 4.3 サーバプロセスの異常終了回数の監視 4.4 サーバプロセスの沈み込みの監視 4.5 アプリケーションの実行時間の監視 4.6 長時間動作しキャンセルされたアプリケーションの監視 4.7 HiRDB 全体のパフォーマンスの監視 101

4-4-1 サーバプロセスの沈み込みの監視なぜ監視するの? CPU 負荷による処理性能低下または入出力障害による入出力遅延によってサーバプロセスが処理されない状態をプロセスの沈み込み状態といいますサーバプロセスの沈み込みが発生したサーバでは UAP のレスポンスの低下やシステムのハングアップなどが起こることがあるためメッセージキュー監視機能を使用してサーバプロセスの沈み込みを監視しますメッセージキュー監視機能 HiRDBではサーバプロセスの割り当て処理でメッセージキューを使用していますサーバプロセスの沈み込みが発生するとメッセージキューからメッセージを取り出せなくなります HiRDBではある一定時間 ( これをメッセージキュー監視時間といいます ) を超えてもメッセージキューからメッセージを取り出せない場合警告メッセージまたはエラーメッセージ (KFPS00888-Wまたは KFPS00889-E) を出力しますこのメッセージが出力されるとサーバプロセスが沈み込んでいる可能性があります HiRDBシステム定義の指定 set pd_queue_watch_time = メッセージキュー監視時間メッセージキュー監視時間はデフォルトは600 秒間 (10 分間 ) ですこの監視時間をpd_queue_watch_time オペランドで変更できます pd_queue_watch_timeover_actionオペランドの指定がstopの場合 HiRDBは警告メッセージおよびエラーメッセージを出力して沈み込みが発生したユニットを異常終了させます continueの場合は警告メッセージを出力しユニットを異常終了しません 102

4-4-2 サーバプロセスの沈み込みの監視方法 (1) どうやって監視するの? 以下のメッセージが出力されていないか監視してください監視方法詳細は 4-4-3 項を参照してください KFPS00888-W および KFPS00889-E なにを確認するの? メッセージの内容から現象が発生したサーバを確認してくださいどう対処すれば良いの? pd_queue_watch_timeover_action オペランドの指定が continue の場合警告メッセージのみが出力された場合次に示すどちらかの方法で対処してください (a) ユニットを再開始するサーバプロセスの沈み込みが発生したユニットを再開始するとサーバプロセスの沈み込みを解決できることがあります (b) トランザクションをキャンセルする (a) の方法で対処しない場合 ( できない場合も含む ) サーバプロセスの沈み込みが発生したサーバで実行中のトランザクションを pdcancel コマンドなどで終了させてくださいサーバプロセスの沈み込みの対策方法についてはマニュアルシステム運用ガイド - サーバプロセスの状態監視 ( メッセージキュー監視機能 ) を参照してください pdls コマンドで以下を確認できます pdls -d scd( メッセージキューから最後に取り出したメッセージの取り出し時間 ) pdls -d trn -a( プロセスで処理しているトランザクションの状況を知る ) pdls -d prc( ある時点のプロセス実行状況 ) 103

4-4-3 サーバプロセスの沈み込みの監視方法 (2) メッセージキュー監視機能の概要 104

4.HiRDB の性能監視 4.1 概要 4.2 グローバルバッファの使用状況の監視 4.3 サーバプロセスの異常終了回数の監視 4.4 サーバプロセスの沈み込みの監視 4.5 アプリケーションの実行時間の監視 4.6 長時間動作しキャンセルされたアプリケーションの監視 4.7 HiRDB 全体のパフォーマンスの監視 105

4-5-1 アプリケーションの実行時間の監視なぜ監視するの? アプリケーションの長時間実行によるリソースの圧迫 HiRDB 接続数の枯渇を防ぐためにアプリケーションの実行時間を監視しますアプリケーションの実行時間を監視するには SQL の実行時間と HiRDB クライアントの処理時間をタイマー監視します実行時間を監視しなかったことによる代表的なトラブル例サーバ側でのトラブル現象 : データ量の増加により SQL 処理時間が間延び問題 : 想定時間内に SQL が終了せず次の処理が行なえないサーバ CPU を大量に消費し他の業務のスループット低下クライアント側でのトラブル現象 : 検索結果データの加工処理中に無限ループ問題 : クライアント CPU を大量に消費するサーバコネクションを占有したままとなり他の業務でのコネクション利用を妨げるクライアント側サーバ側ともにタイマー監視を検討する必要があります 106

4-5-2 アプリケーションの実行時間の監視方法どうやって監視するの? 各タイマーに値を設定しておき次に示すメッセージが出力されていないか監視してくださいタイマー監視する項目とそれらの関係について 4-5-3 項に示します SQL の実行時間監視の場合 UAP に対して処理打ち切りメッセージ KFPA11732-E が返されているか排他待ち時間のタイムアウトが発生したという KFPS00450-W メッセージが出力されているかまた SQL 実行時間警告出力機能を使用すればデータ量の増加などで HiRDB のサーバプロセスからの応答時間が長くなる UAP について PDCWAITTIME オーバが発生するおそれがあることを事前に検知したり SQL 応答待ち時間が一定時間以上の SQL に関する情報を取得してチューニングの資料にすることができます SQL 実行時間警告出力機能使用時は以下のメッセージも監視してください警告メッセージ (KFPA20009-W) HiRDB クライアントの処理時間監視の場合 SQL 実行時間警告情報ファイルも出力します KFPS01820-E state=c200( トランザクション処理中の場合 ) KFPS01820-E state=c400( トランザクション処理以外の場合 ) どう対処すれば良いの? SQL の実行時間監視の場合チューニングに必要な SQL オブジェクト用バッファの統計情報システムの稼働に関する統計情報や UAP 統計レポート等を取得し取得した情報から原因を見つけ対策してくださいチューニングの詳細についてはマニュアルシステム運用ガイドを参照してください HiRDB クライアントの処理時間監視の場合 UAP の処理の見直しクライアント環境定義の見直しを行ってください 107

4-5-3 タイマー監視する項目間の関係 < 監視時間の説明 > PDCONNECTWAITTIME: HiRDB クライアント側での監視 HiRDB サーバとの接続時サーバから応答が帰ってくるまでの時間を監視します監視時間超過時には UAP にエラーを返します PDCWAITTIME: HiRDB クライアント側での監視 AP(Client) が SQL 処理要求を HiRDB サーバ (DB 処理プロセス ) に送信してから SQL 処理結果を HiRDB サーバから受け取るまでの時間を監視します監視時間超過時には DB 処理プロセスを終了します PDSWAITTIME: HiRDB サーバ側での監視 SQL 処理結果を AP(Client) に返してから次の SQL 処理要求を AP(Client) から受けるまでの時間を監視します監時間超過時には DB 処理プロセスを終了します PDSWATCHTIME: HiRDB サーバ側での監視トランザクションの完了を AP(Client) に返してから次の新規トランザクションとしての SQL 処理要求を AP(Client) から受けるまでの時間を監視します監視時間超過時には DB 処理プロセスを終了します PDLCKWAITTIME pd_lck_wait_timeout: HiRDB サーバ側での監視排他待ち時間を監視します監視時間超過時には UAP にエラーを返します PDCWAITTIMEWRNPNT pd_cwaittime_wrn_pnt: HiRDB サーバ側での監視 SQL 実行時間警告出力機能を使用する場合にこのオペランドを指定します SQL の実行時間を監視し設定した時間の超過時や PDCWAITTIME に設定した時間に対する比率を超過した場合にその SQL に対して警告情報を出力します HiRDB クライアント CONNECT PDCONNECTWAITTIME SQL(1) PDCWAITTIME COMMIT PDCWAITTIME SQL(2) PDCWAITTIME SQL(3) PDCWAITTIME COMMIT PDCWAITTIME DISCONNECT PDCWAITTIMEWRNP NT または pd_cwaittime_wrn_pnt PDCWAITTIMEWRNP NT または pd_cwaittime_wrn_pnt PDCWAITTIMEWRNP NT または pd_cwaittime_wrn_pnt PDCWAITTIMEWRNP NT または pd_cwaittime_wrn_pnt PDCWAITTIMEWRNP NT または pd_cwaittime_wrn_pnt HiRDB サーバ CONNECT 処理 PDSWATCHTIME SQL 処理 (1) PDSWAITTIME COMMIT 処理 PDSWATCHTIME SQL 処理 (2) PDSWAITTIME SQL 処理 (3) PDSWAITTIME COMMIT 処理 PDLCKWAITTIME または pd_lck_wait_timeout PDLCKWAITTIME または pd_lck_wait_timeout 時間の流れトランザクション 1 トランザクション 2 108

4.HiRDB の性能監視 4.1 概要 4.2 グローバルバッファの使用状況の監視 4.3 サーバプロセスの異常終了回数の監視 4.4 サーバプロセスの沈み込みの監視 4.5 アプリケーションの実行時間の監視 4.6 長時間動作しキャンセルされたアプリケーションの監視 4.7 HiRDB 全体のパフォーマンスの監視 109

4-6-1 長時間動作しキャンセルされたアプリケーションの監視なぜ監視するの? システムログファイルに格納された DB の更新内容はシンクポイントが有効化されるとアンロードが可能となりますしかし UAP が無限ループした場合など更新をし続けているトランザクションが存在するとシンクポイントが有効化出来ませんこのような場合使用中のシステムログファイルが増えていき全システムログファイルを使い切ると HiRDB が異常終了します HiRDB ではシンクポイントが有効化出来ない原因となっている UAP を強制的に終了する機能 ( シンクポイントダンプ有効化のスキップ回数監視機能 ) を提供しています HiRDB システム定義の指定 set pd_spd_syncpoint_skip_limit = シンクポイントダンプ有効化処理のスキップ回数上限値通常は pd_spd_syncpoint_skip_limit オペランドに 0 を指定してください 0 を指定するとスキップ回数の上限値を HiRDB が自動計算します自動計算だと意図しないトランザクションがキャンセルされることがあります詳細についてはマニュアルシステム運用ガイドの UAP の状態監視 ( シンクポイントダンプ有効化のスキップ回数監視機能 ) を参照してください 110

4-6-2 長時間動作しキャンセルされたアプリケーションの監視方法どうやって監視するの? 以下のメッセージが出力されていないか監視してくださいシンクポイントダンプの取得契機を迎えたが前のシンクポイントダンプ取得処理が完了していないため取得契機を無視したという KFPS02179-I メッセージ KFPS00993-I(REQUEST=abnormal_tran_end) も出力されるとシンクポイントダンプ有効化処理のスキップ回数が上限を超えたためにアプリケーションが異常終了していますどう対処すれば良いの? システムログ容量 pd_spd_syncpoint_skip_limit オペランドの指定値およびトランザクション時期を運用に合わせて総合的に見直してくださいまたはトランザクションの commit 文の発行間隔を短くしてください 111

4.HiRDB の性能監視 4.1 概要 4.2 グローバルバッファの使用状況の監視 4.3 サーバプロセスの異常終了回数の監視 4.4 サーバプロセスの沈み込みの監視 4.5 アプリケーションの実行時間の監視 4.6 長時間動作しキャンセルされたアプリケーションの監視 4.7 HiRDB 全体のパフォーマンスの監視 112

4-7-1 HiRDB 全体のパフォーマンスの監視 (1) 解説システムの稼働に関する統計情報グローバルバッファプールに関する統計情報デファードライト処理に関する統計情報は有益なので常に取得しておいてくださいまた問題発生時に HiRDB の情報だけでは解析が難しい場合がありますので OS のパフォーマンス情報も常に取得しておいてください取得方法統計情報の取得方法は 4-2-6 項を参照してください実際によく使用されている方法長時間にわたりシステムの状態を監視する平日通常業務休日業務週末月末等ピーク時業務の情報を取得して CPU バッファ等の資源が妥当であるかを検討しますこの場合 10 分間隔程度で統計ログを取得します取得情報は sys( システムの稼働に関する統計情報 ) buf( グローバルバッファプールに関する統計情報 ) dfw( デファードライト処理に関する統計情報 ) の場合が多いです同時に sar 等 OS の情報も取得しておきます ( 例 )pdstbegin k sys, buf, dfw m 10 -m は sys 情報の取得間隔です分単位で指定し最低 1 分デフォルト 10 分ですまた統計ログファイル (pdstj1 および pdstj2) はデフォルトの 1M では少ない場合があるので 10M 以上にすることを推奨します正確に見積もりたい場合は統計ログファイル (pd_stj_file_size) の見積もり式を使用してください編集解析通常の出力では時系列的な解析が難しいので DAT 形式 (csv ファイル ) で出力しますこの csv ファイルを入力として EXCEL 等で編集し解析を行います ( 例 )pdstedit -k sys,svr,buf,dfw -m 10 -i $PDDIR/pdstj1 -o /tmp/statisticsu/ -b > pdstj1.out /tmp/statisticsu/ は csv での編集結果出力先です適当なディレクトリを指定してください 113

4-7-2 HiRDB 全体のパフォーマンスの監視 (2) 解説確認項目と対処方法について説明しますグローバルバッファプールに関する統計情報 (buf) の場合 4-2 節グローバルバッファの使用状況を参照してくださいデファードライトに関する統計情報 (dfw) の場合次の項目を確認してくださいディスクボリューム単位の並列度 (PMAX,PMIN) トリガ出力プレシンク出力シンクポイントダンプ出力データベースのシンクポイントダンプ出力 RD エリアのシンクポイントダンプ出力の平均値 (AVG) 確認項目詳細対処方法はマニュアルシステム運用ガイドを参照してくださいシステムの稼働に関する統計情報 (sys) の場合代表的な確認項目を以下に示しますプロセス個数の最大最小トランザクションのコミットロールバック回数排他待ち発生件数時間その他の確認項目対処方法はマニュアルシステム運用ガイドを参照してください 114

5. おわりに 115

5-1 周辺製品を使った HiRDB 稼働監視解説周辺製品を使用して HiRDB の稼働を監視することができます OpenTP1 から HiRDB を監視する OpenTP1 と連携している場合 OpenTP1 のリソースマネジャモニタ (TP1/Resource Manager Monitor) を使用して OpenTP1 と一緒に HiRDB の状態を監視できますまた OpenTP1 のリソースマネジャとして HiRDB を使用する場合リソースマネジャモニタを使用して HiRDB の開始および終了を制御できます詳細についてはマニュアルシステム導入設計ガイドおよび分散トランザクション処理機能 OpenTP1 運用と操作を参照してください JP1 から HiRDB を監視する次に示す製品を使用して HiRDB の状態を監視できます JP1/Performance Management - Agent Option for HiRDB JP1/Performance Management - Agent Option for HiRDB を使用すると HiRDB のパフォーマンスを監視できます排他資源テーブルの使用率やサーバプロセス数などのパフォーマンスデータを収集および集計しその傾向や推移を図示することで HiRDB の稼働状況を分析できますまた運用上の問題点を早期に発見し原因を調査する資料を作成できます JP1/Performance Management - Agent Option for HiRDB についてはマニュアル JP1/Performance Management - Agent Option for HiRDB を参照してください 116

HITACHI Net Shopping 5-2 JP1 システム監視サービス日立が 24 時間お客様システムをしっかり見守り安定稼働を支えますお客様専用ポータル監視装置障害時のお問合せ専用ポータルで状況確認日立監視センタ連携製品サポート ( 日立サポート 360) 診断障害予兆の通報対処策ナビゲーション定期診断日立ソリューションサポートセンタ特長 24 時間監視予兆検知対処策ナビゲーション障害リスク予測障害や予兆を検知し迅速に通報業務への影響を最小限に抑えます製品サポート連携での原因究明により迅速で的確な対策を提案します障害リカバリーの対処手順を提示します経験の浅い担当者もあわてず確実に障害をリカバリーできます継続取得した監視データから障害リスクを予測定期的に診断します予防策とシステム計画を提示安定稼働とシステム最適化に役立ちます 117

5-3 おわりにこれからも HiRDB にご期待ください! 118

END HiRDB 稼働監視のポイント 2012/12 株式会社日立製作所情報通信システム社 IT プラットフォーム事業本部開発統括本部 DB 設計部 119

他社所有名称に対する表示 AIX は, 米国およびその他の国における International Business Machines Corporation の商標です BSAFE は,EMC Corporation の米国およびその他の国における登録商標または商標です DataStage, MetaBroker, MetaStage および QualityStage は,IBM Corporation の商標です DLT と DLTtape は,Quantum 社の商標です ER/Studio は, 米国 Embarcadero Technologies, Inc. の登録商標です HP-UX は,Hewlett-Packard Development Company, L.P. のオペレーティングシステムの名称です IBM および Cognos は, 米国およびその他の国における International Business Machines Corporation の商標です Internet Explorer は米国 Microsoft Corporation の米国およびその他の国における登録商標または商標です Linux は,Linus Torvalds 氏の日本およびその他の国における登録商標または商標です LTO, Linear Tape-Open, および Ultrium は,Hewlett-Packard Development Company, L.P., 米国 Quantum Corporation, および米国 International Business Machines Corporation の米国およびその他の国における商標です Microsoft は, 米国 Microsoft Corporation の米国およびその他の国における登録商標または商標です Microsoft Access は, 米国 Microsoft Corporation の米国およびその他の国における登録商標または商標です Microsoft Office Excel は, 米国 Microsoft Corporation の商品名称です ODBC は, 米国 Microsoft Corporation が提唱するデータベースアクセス機構です OLE は, 米国 Microsoft Corporation が開発したソフトウェア名称です Oracle と Java は,Oracle Corporation 及びその子会社, 関連会社の米国及びその他の国における登録商標です QlikView は,QlikTech International AB. の登録商標です Red Hat は, 米国およびその他の国で Red Hat, Inc. の登録商標もしくは商標です RSA は,EMC Corporation の米国およびその他の国における登録商標または商標です SAP は,SAP AG のドイツ及びその他の国における登録商標または商標です SI Object Browser,SI Object Browser ER は, 株式会社システムインテグレータの登録商標です SQLWays は,Ispirer Systems Ltd. の商標または登録商標です UNIX は,The Open Group の米国ならびに他の国における登録商標です VERITAS および NetBackup は,Symantec Corporation の米国およびその他の国における商標または登録商標です Visual Basic は, 米国 Microsoft Corporation の米国およびその他の国における登録商標または商標です Windows Server は, 米国 Microsoft Corporation の米国およびその他の国における登録商標または商標です Windows Vista は, 米国 Microsoft Corporation の米国およびその他の国における登録商標または商標です Windows は, 米国 Microsoft Corporation の米国およびその他の国における登録商標または商標です X/Open は,The Open Group の英国ならびに他の国における登録商標ですその他記載の会社名, 製品名は, それぞれの会社の商標もしくは登録商標です 120