Oracle Data Pumpのパラレル機能

Oracle Data Pump のパラレル機能 Carol Palmer オラクル社 Principal Product Manager はじめに Oracle Database 10g 上の Oracle Data Pump により異なるデータベース間のデータとメタデータを高速で移動できます Data Pump の最も便利な機能の 1 つはエクスポートジョブとインポートジョブをパラレルに実行しパフォーマンスを高める機能ですこのホワイトペーパーでは PARALLEL パラメータが動作する仕組みおよびこの機能を最適に実行するためのユーザー処理について説明します PARALLEL パラメータ Data Pump Export および Import(expdp および impdp) の PARALLEL パラメータは Oracle Database 10g の Enterprise Edition においてのみ 1 より大きい値に設定できますこのパラメータを 1 より大きい値で使用するにはユーザー権限が必要です (Standard Edition では PARALLEL パラメータは 1 に限定されます ) この機能はメタデータに比べてデータ量が多い大きなジョブで最も便利です小さなジョブや大量のメタデータを扱うジョブでは速度の大幅な向上は期待できません特記しないかぎりこのホワイトペーパーではメタデータではなくデータのパラレル化と移動について説明しますメタデータはパラレルにアンロードされることはありませんがパラレルにロードされる場合がありますメタデータがパラレルにロードされる状況は次の 2 つです複数のワーカーがパラレルにパッケージ本体をロードする場合ワーカーが索引をすべて作成しパラレル実行プロセス (PX プロセス ) を使用して作業を高速化する場合パラレル実行プロセスは大きな索引の場合に経過時間を大幅に削減できます Data Pump に関連する用語では表データオブジェクトが保存の基本単位です表がパーティション化されていない場合表そのものが表データオブジェクトとなります表がパーティション化されているがサブパーティション化されていない場合パーティションごとに 1 つの表データオブジェクトが存在しますサブパーティションがある場合はサブパーティションごとに 1 つの表データオブジェクトが存在します Data Pump はマルチプロセスアーキテクチャを使用しておりマスター制御プロセスがジョブ項目を 1 つ以上のワーカープロセスに対してディスパッチしますワーカープロセスは PX プロセスを使用してデータを移動できますここでのパラレル化とはパラレルに処理できるアクティブなワーカープロセスと PX プロセスの合計数を意味しますデフォルト PARALLEL 値は 1 です Data Pump が PX プロセスを使用して表のロードまたはアンロードを行う場合 PX プロセスは Data Pump により使用されるパラレル度として扱われますが PX プロセスを開始するワーカープロセスは PX プロセスが問合せを実行している間はアイドル状態のためカウントされませんまたワーカープロセスが開始されていてもアイドル状態の場合 PARALLEL パラメータにより指定される制限としては考慮されません Oracle Data Pump のパラレル機能 1

マスター制御プロセス / ワーカープロセス Data Pump の各エクスポートジョブまたはインポートジョブに対し 1 つのマスター制御プロセス (MCP) が作成されます MCP はクライアントと通信してジョブ全体を制御しワーカープロセスのプールの開始と制御ロギング処理の実行などを行いますマスター制御プロセスはアクティブなワーカープロセスのプールを作成しパラレル数に達するまで必要に応じて作業項目を処理しますマスター制御プロセスはパラレル数としては考慮されませんパラレル度はジョブの処理中に動的に増減できますこれは対話式コマンドモードを介してユーザーにより行われますパラレル度を縮小してもそのジョブと関連付けられたワーカープロセス数は減りませんある時点で実行中のアクティブなワーカープロセスの数が削減されるだけです進行中の作業が通常どおり完了後パラレル度が実際に減少しますしたがってパラレル値の減少には時間がかかりますアイドル状態のワーカーはジョブが終了するまで削除されませんパラレル度の増加はワーカーまたは PX プロセスによりパラレルに実行できる作業がある場合はすぐに効果を表しますパラレルに実行できる作業がない場合追加のワーカーを必要とする作業ができるまで新規のワーカープロセスは作成されません Oracle 10g RAC 環境ではワーカープロセスはジョブが最初にスケジュールされたインスタンス ( マスター制御プロセスが稼動しているインスタンス ) でのみ開始されますワーカーが PX プロセスを配置する場合プロセスは透過的に RAC の別のインスタンスで実行される場合もありますファイルのダンプ Data Pump Export では PARALLEL パラメータに対して指定する値はダンプファイルセットにあるファイル数以下である必要があります各ワーカーまたはパラレル実行プロセスはダンプファイルに対して排他的にアクセスする必要があるためダンプファイル数がパラレル度より少ない場合ワーカーまたは PX プロセスの一部はエクスポートする情報を書き込むことができなくなりますこの場合ワーカープロセスはアイドル状態になりジョブにファイルが追加されるまで作業は実行されません Data Pump エクスポートジョブのために複数のダンプファイルを指定する方法の詳細はデータベースユーティリティガイドの DUMPFILE パラメータの説明を参照してください Data Pump Import の場合ワーカーと PX プロセスは同じファイルから読取りを実行できますただし十分な数のダンプファイルがない場合複数の実行スレッドが同じダンプファイルにアクセスしようとするためパフォーマンスが低下することがありますダンプファイルを共有するプロセスが複数ある場合のパフォーマンスへの影響はダンプファイルが入っている I/O サブシステムにより異なりますこの理由から Data Pump Import では PARALLEL パラメータの値をダンプファイルセットにあるファイル数より大きくしないことをお薦めします Oracle Data Pump のパラレル機能 2

アクセス方法 : ダイレクトパスと外部表 Data Pump は表の行データのロードおよびアンロードにダイレクトパスと外部表の 2 通りのアクセス方法を提供しています適用可能なパラレル度はアクセス方法により異なりますどちらの方法も同じ外部データ表現をサポートするため一方の方法でアンロードしたデータをもう一方の方法でロードすることもできます Data Pump はそれぞれの表データオブジェクトに対して適切な方法を自動的に選択します Data Pump はファイルを読み書きする外部表アクセスドライバを提供していますファイルのフォーマットはダイレクトパス法で使用されるものと同様のフォーマットですしたがってダイレクトパスの代替としてデータベース表の高速なロードおよびアンロードにこれを使用できます外部表の単一ストリームのパフォーマンスはダイレクトパスほど速くはありませんが Direct Path API が使用できない非常に大きな表やパーティションには Oracle パラレル実行エンジンを使用できます Data Pump がデータアクセスのために外部表を使用する一般的な状況をいくつか示しますパラレル SQL を使用できパラレル Data Pump 処理が要求された状況での非常に大きな表とパーティションをロードおよびアンロードする場合タイプ BFILE または opaque の列が 1 つ以上入っている表または opaque 列の入っているオブジェクトタイプをロードおよびアンロードする場合暗号化された列を持つ表をロードおよびアンロードする場合 QUERY パラメータを使用しての表をアンロードする場合アクティブなトリガーを持つ表をロードする場合クラスタ表をロードする場合挿入に対してファイングレインなアクセス制御を使用する表をロードする場合パーティション表にグローバル索引を持つ表をロードする場合 Data Pump が外部表を使用する場合の完全なリストは OTN にある次のテクニカルノート ( 英語 ) を参照してください http://www.oracle.com/technology/pub/notes/technote_pathvsext.html エクスポート処理で PARALLEL パラメータが動作する仕組みこの項で説明するエクスポート処理では Oracle Database Enterprise Edition を使用し DUMPFILE パラメータを持つワイルドカードオプションを使用していることを前提としていますデータとメタデータの両方を含む一般的なエクスポートでは最初のワーカープロセスはメタデータ ( 表領域スキーマ権限ロール索引など ) をアンロードしますこの単一ワーカーがメタデータをアンロードし残りのワーカーが同時にすべてのデータをアンロードしますメタデータワーカーが終了した際アンロードするデータオブジェクトがまだ残っている場合メタデータワーカーはデータのアンロードを開始しますこのドキュメントの例では 1 つのワーカーが常にメタデータのアンロード中であり残りのワーカーが表データオブジェクトをアンロードしているとします Data Pump はエクスポート処理ごとにエクスポートジョブの各表データオブジェクトがどの程度のディスク領域を消費するかを予測します ( バイト数 ) これは ESTIMATE パラメータが使用されているかどうかにかかわらず実行されますこの予測はログファイルに印刷されてクライアントの標準出力装置に表示されます Oracle Data Pump のパラレル機能 3

この予測は表の行データのみの予測でメタデータは含みませんこの予測は何個の PX プロセスを表データオブジェクトに適用するかの判断に使用されます表の列を調べてダイレクトパスまたは外部表のどちらを使用できるかまたは両方を使用できるかを決定しますダイレクトパスの場合表データオブジェクトのパラレルアンロードはサポートしていないため表データオブジェクトに対するパラレル数は常に 1 です PX プロセスは外部表でのみ使用されます外部表による方法が選択された場合 Data Pump は表データオブジェクトを処理できる PX プロセスの最大数を判断します最大数は表データオブジェクトの予測サイズを 250MB で割り結果の端数を切り捨てることで算出されます結果がゼロまたは 1 の場合表のアンロードに PX プロセスは使用されませんたとえば表サイズが 600MB である場合予測サイズを 250MB( パラレルしきい値 ) で割り端数を切り捨てることにより 2 つのパラレル実行プロセスを使用するものと判断しますこの場合メタデータについて 1 つデータについて 1 つ合計 2 つのワーカープロセスも存在しますデータのワーカープロセスは PX プロセスのコーディネータとして機能しパラレル数としては考慮されませんしたがってこの場合エクスポートジョブにより使用されるパラレル度はメタデータワーカーについての 1 と PX プロセスについて 2 の合計 3 ですユーザーがログファイルを調べる場合あるいは対話的 STATUS コマンドを使用してワーカーの動作を監視した場合 expdp と impdp での PX プロセスは可視的でないため 2 つのワーカープロセスしか見えません表サイズが 400MB の別の例を検討しますこの場合パラレル実行プロセスはありません 400 MB を 250 MB で割ると結果のパラレル値は 1 ですワーカーはパラレル化なしでダイレクトパスまたは外部表のいずれかを使用してデータをアンロードします最大パラレル数を使用するほどジョブが大きくない場合アクティブワーカーとパラレル実行プロセスの数が最大に達することはありませんたとえば 800MB の表があり外部表を使用する場合メタデータに対し 1 つのワーカーデータに対し 1 つのワーカーおよび 3 つの PX プロセスが使用されます前述したとおりデータのワーカープロセスは PX プロセスのコーディネータとして機能しパラレル数としては考慮されませんしたがって PARALLEL = 10 と指定されている場合実際のパラレル度は 4 です STATUS 表示には 1 つのアクティブワーカーしか表示されません指定されたパラレル度に比べてジョブが小さすぎるだけで Data Pump は最適に機能していますより大きなジョブがあり PARALLEL = 4 の場合はどうでしょう必要に応じてマスター制御プロセスは自動的にワーカーを追加できるでしょうかいいえ PARALLEL パラメータ数はユーザーが指定した最大数までです表のパラレル度によりジョブが PARALLEL パラメータにより指定された制限を超える場合パラレル実行プロセスの数はその制限に合うよう削減されますただしユーザーは対話的コマンドラインによりジョブのパラレル度を増やすことができます Real Application Clusters(RAC) 環境ではパラレル実行プロセスを他のインスタンスで実行できます Data Pump ジョブが実行されているインスタンスでパラレル実行プロセスが実行されているとはかぎりませんしたがって Data Pump が最適に実行しているかどうかはさらに不明確になります Oracle Data Pump のパラレル機能 4

インポート処理で PARALLEL パラメータが動作する仕組み PARALLEL パラメータの動作は Import では Export と異なりますインポートの際にオブジェクトを作成する場合様々な依存性が生じるためすべてを順序どおりに行う必要があります Import の場合まだ存在しない表にデータをロードできないため当然表が作成されるまではデータをロードできません Data Pump Import は次の順序でデータベースオブジェクトを処理します 1. 最初のワーカーはすべての表が作成されるまですべてのメタデータ ( 表領域スキーマなど ) のロードを行います 2 表が作成されると最初のワーカーはメタデータのかわりにデータをロードし残りのワーカーもデータのロードを開始します 3. 表データのロードが終わると最初のワーカーは再度メタデータのロードに戻ります残りのワーカーは最初のワーカーがパッケージ本体までのすべてのメタデータをロードするまでアイドル状態になります 4. 複数のワーカーがパラレルにパッケージ本体をロードします 5. 1 つのワーカーがセカンダリ表までのメタデータをロードします 6. 複数のワーカーがセカンダリ表データをロードします 7. 1 つのワーカーが残りのメタデータをロードします注意 : 1 つのワーカーがすべての索引を作成しますが PARALLEL 値までの PX プロセスを使用するので索引は高速で作成されますしたがってインポートジョブは PARALLEL = 10 で開始できユーザーにはジョブ実行中の特定の時点で 1 つのワーカーしか使用していないように見えます他のワーカーやパラレル実行プロセスは表がすべて作成されるまで機能しません表が作成されるとすべてのワーカーと場合によっては PX プロセスはデータがロードされるまでパラレルに実行されその後ワーカープロセスはアイドル状態になります表データオブジェクトをロードする場合 Data Pump はダンプファイルのデータのサイズを 250MB で割ってデータをロードするために使用できる潜在的 PX プロセスの数を予測しますこの数が 1 より大きい場合パラレル度が十分であれば Data Pump は PX プロセスを使用してデータをロードできます大きな表データオブジェクトは 1 つのワーカーによりアンロードされた場合でもパラレルにロードできます PARALLEL パラメータの最大限の活用法 PARALLEL パラメータを使用する場合に考慮すべき一般的ガイドラインを次に示します - パラレル度は CPU 数の 2 倍に設定しそこからチューニングを開始してください - Data Pump Export の場合 PARALLEL パラメータ値はダンプファイルの数以下に設定してください - Data Pump Import の場合 PARALLEL パラメータ値はダンプファイルセットのファイル数と比べ大きすぎない値に設定してください - 1 より大きい PARALLEL 値は Oracle Database Enterprise Edition のみで使用できます Oracle Data Pump のパラレル機能 5

結論ユーザーは Data Pump のパラレル機能の使用を最適化してエクスポートジョブとインポートジョブをできるかぎり効率的に実行したいと考えます PARALLEL パラメータとワイルドカードダンプファイルテンプレートが使用されジョブに大量のデータ ( メタデータではなく ) が存在する場合 Export と Import のパフォーマンスは向上します Data Pump はジョブに対して適用できる最大のパラレル度として PARALLEL パラメータを使用するためどの時点でも最大数のアクティブワーカーとパラレル実行プロセスを使用できますユーザーによるワーカーの監視ではワーカーがビジーである場合と一部のワーカーがアイドル状態である時間が存在しますこれは Data Pump が正しく動作していることを表しています Oracle Data Pump のパラレル機能 6