スイッチオーバーとフェイルオーバーのベスト・プラクティス Oracle Data Guard 10g Release 2

スイッチオーバーとフェイルオーバーのベストプラクティス :Oracle Data Guard 10g Release 2 Oracle の最大可用性アーキテクチャのホワイトペーパー 2007 年 1 月 Maximum Availability Architecture Oracle Best Practices For High Availability

スイッチオーバーとフェイルオーバーのベストプラクティス Oracle Data Guard 10g Release 2 概要... 3 所見およびベストプラクティス概要... 4 フェイルオーバーのベストプラクティス... 5 スイッチオーバーのベストプラクティス... 6 DATA GUARD ロールの推移概要... 7 フェイルオーバー... 8 手動フェイルオーバー... 8 フィジカルスタンバイデータベースに対する手動フェイルオーバー... 8 ロジカルスタンバイデータベースに対する手動フェイルオーバー... 9 ファストスタートフェイルオーバー... 10 フィジカルまたはロジカルスタンバイデータベースに対するファストスタートフェイルオーバー... 11 手動フェイルオーバーとファストスタートフェイルオーバーのテスト結果... 12 単一インスタンスデータベース... 13 複数インスタンス Real Application Clusters... 13 スイッチオーバー... 14 SQL*Plus およびフィジカルスタンバイデータベースの使用... 14 SQL*Plus およびロジカルスタンバイデータベースの使用... 15 スイッチオーバーのテスト結果... 16 単一インスタンスデータベース... 16 複数インスタンス Real Application Clusters... 17 アプリケーションとクライアントのフェイルオーバー... 18 まとめ... 18 参考資料... 19 スイッチオーバーとフェイルオーバーのベストプラクティス :Oracle Data Guard 10g Release 2 2

スイッチオーバーとフェイルオーバーのベストプラクティス Oracle Data Guard 10g Release 2 概要 Oracle Data Guard [1] は現在提供されている企業データのデータ保護および障害時リカバリソリューションの中で最も効率的かつ包括的なソリューションの 1 つです Oracle Databaseを保護し最も重要な資産の 1 つである企業のオンライン情報を保護する機能を提供します Data Guardのフェイルオーバーおよびスイッチオーバー操作によりネットワーク停止や本番データベース障害などの計画外停止後またはソフトウェアのアップグレードや他の定期メンテナンスなどの計画的停止後もオンライン情報は使用可能です Oracle Database 10g Release 2 では Data Guard のファストスタートフェイルオーバー機能が導入されましたそのため従来のフェイルオーバーおよびスイッチオーバー機能が大きく改善されて Data Guard のロール推移の実行に必要な時間が短縮されましたこのホワイトペーパーでは Oracle Database 10g Release 2 を使用した最速のData Guardスイッチオーバーとフェイルオーバーを実現する Maximum Availability Architecture (MAA) [2] ベストプラクティスについて説明しますまた様々な構成設定でのスイッチオーバーとフェイルオーバーのタイミングの予測も提供しますさらにファストスタートフェイルオーバー特有の説明は補足的なホワイトペーパー Oracle Data Guard 10g Release 2 Fast-Start Failover Best Practices [3] を参照してくださいこの 2 つのホワイトペーパーを参照すると Oracle Data Guard 環境でロール推移を実行するためのベストプラクティスについての実用的なアドバイスが得られますこれらのホワイトペーパーの最新版は Oracle Technology Network(OTN)[2] ウェブサイトのMAAのページを参照してください Data Guard 10g Release 2ロール推移を使用した MAA テストにはスイッチオーバー手動フェイルオーバーおよびファストスタートフェイルオーバーのテストが含まれていましたすべてのテストは Oracle Enterprise Manager と Data Guard Broker のコマンドラインインタフェース (DGMGRL) と SQL*Plus 文を使用して実行されましたスイッチオーバーとフェイルオーバーのベストプラクティス :Oracle Data Guard 10g Release 2 3

所見およびベストプラクティス概要適切に計画し実行した場合 Data Guard のロール推移によりダウンタイムが最小限に抑えられビジネスへの影響を最小にしたうえでデータベース環境がリストアされますフィジカルスタンバイデータベースまたはロジカルスタンバイデータベースの使用とは関係なく MAA テストでは Oracle Data Guard 10g Release 2 を使用したスイッチオーバー時間とフェイルオーバー時間が秒単位に短縮されることが確認されましたサイト障害およびデータベース障害に対する秒単位の自動フェイルオーバーデータ破損に対する秒単位の自動フェイルオーバーシステムハードウェアまたはサイト変更のための計画的なダウンタイムを短縮する秒単位の手動スイッチオーバー Data Guard および関連するソリューションを使用して様々な停止に対して実現できるソリューションとリカバリ時間を表 1 に示します表 1: 計画外停止と計画的停止に対する Oracle のソリューション停止のタイプ Oracle のソリューションリカバリ時間コンピュータ障害ストレージ障害データ破損サイト障害システムとクラスタのアップグレードすべてのパッチセットとデータベースのアップグレード 4 ファストスタートフェイルオーバーと Fast-Application Notification (FAN) [8] ファストスタートフェイルオーバーと Fast-Application Notification Data Guard と Automatic Storage Management (ASM) [9] REDO ブロックの適用前にそれらを自動的に検証し本番データベースが破損した場合破損していないスタンバイデータベースへ迅速にフェイルオーバーする Data Guard と Hardware Assisted Resilient Data (HARD) Initiative [10] ファストスタートフェイルオーバーと Fast-Application Notification (FAN) [8] RAC ローリングアップグレードを使用したアップグレードが不可能なシステムアップグレードの場合 ( 例 : ダウンタイムが必要なシステム制限またはクラスタファームウェアのアップグレード ) フィジカルまたはロジカルスタンバイデータベースにスイッチオーバー Data Guard SQL Apply およびロジカルスタンバイデータベースを使用して Oracle データベースをアップグレード 30 秒未満 30 秒未満ダウンタイムなし 1 30 秒未満ダウンタイムなし 2 30 秒未満 3 数秒から数分数秒から数分 1 2 3 4 ミラー化および自動的なバランスの再調整機能を持つAutomatic Storage Management(ASM) を使用するとストレージ障害を回避できますストレージベンダーが実装したHARD Initiativeによってデータ損失を防止する場合ダウンタイムはありませんリカバリ時間の対象となるのはデータベースおよび既存のデータベース接続障害ですネットワーク接続の変更や他のサイト固有のアクティビティによってはリカバリにかかる合計時間が長くなる場合があります Oracle Database Release 10.1.0.3 以降専用にサポートされていますまた SQL Applyにデータ型の制限があることに注意してください詳細は Oracle Data Guard Concepts and Administration [5] でリストを参照してくださいスイッチオーバーとフェイルオーバーのベストプラクティス :Oracle Data Guard 10g Release 2 4

Oracle の高可用性ソリューションおよび高速化された Data Guard フェイルオーバーとスイッチオーバーのメリットの詳細は Oracle Database High Availability Overview [4] を参照してくださいフェイルオーバーのベストプラクティスフェイルオーバー処理を最適化するには次のベストプラクティスを実行しますファストスタートフェイルオーバーの使用 Oracle Database 10g Release 2 を実行するMAAテストでは Data Guard Brokerとファストスタートフェイルオーバーを使用して実行したフェイルオーバーにより可用性が大幅に強化されることを示していますオラクル社では MAA Webサイトで入手可能なホワイトペーパー Oracle Data Guard 10g Release 2 Fast-Start Failover Best Practices [3] に記載された Oracleのベストプラクティスの包括的な概説を読むことをお薦めします障害時のリカバリのためにファストスタートフェイルオーバーオブザーバは本番およびスタンバイデータセンターから離れた場所にインストールするのが理想的ですオブザーバはデータセンターから独立している必要があり可能であればエンドユーザーのクライアントと同じネットワークで本番およびスタンバイデータベースに接続している必要もあります指定されたオブザーバに障害が発生した場合 Enterprise Manager はそれを検出できますそのために同一のホスト上でオブザーバを自動的に再起動するように Enterprise Manager を設定できます独立した場所にオブザーバを配置できない場合はスタンバイデータセンターに配置してくださいただしホストはできるかぎりスタンバイデータベースの障害から影響を受けないように別に配置してくださいフェイルオーバー処理の完了後フラッシュバックデータベースを有効にして本番データベースを復元しますフラッシュバックデータベースは必要に応じて高速な Point-in-Time リカバリを実現するという 2 番目に重要な機能を提供します Data Guard のリアルタイム適用機能により REDO データ受信後ただちにスタンバイデータベースに適用します Real Application Clusters に関連する手動フェイルオーバーの場合フェイルオーバーを実行する前にすべての RAC セカンダリインスタンスで SHUTDOWN ABORT 文を発行しますロジカルスタンバイデータベースの場合 MAAのホワイトペーパー Oracle 10g SQL Apply Best Practices [6] を参照して最適なSQL Apply 速度を取得してくださいスイッチオーバーとフェイルオーバーのベストプラクティス :Oracle Data Guard 10g Release 2 5

フィジカルスタンバイデータベースの場合 MAAのホワイトペーパー Oracle Database 10g Best Practices: Data Guard Redo Apply and Media Recovery [7] を参照して REDO Applyに対しメディアリカバリを最適化してくださいスタンバイデータベースを再起動せずに MOUNT 状態から直接 OPEN 状態に進みます読取り専用モードから REDO APPLY( リカバリ ) モードに推移するときはデータベースを再起動します LOG_FILE_NAME_CONVERT パラメータを設定しますフェイルオーバーの一部として新規の本番データベースとして開く前にスタンバイデータベースのスタンバイオンラインログを消去する必要がありますこの I/O の処理に必要な時間によりファイルオーバーに必要な合計時間が大幅に増えます LOG_FILE_NAME_CONVERT パラメータを設定すると MRP が最初に開始されたときにスタンバイオンライン REDO ログを事前に消去することができますスイッチオーバーのベストプラクティス可能なセッションすべてを切断しジョブの処理を停止しますスイッチオーバーを実行する前に NODELAY キーワードを使用して指定された任意の適用遅延をキャンセルします例を示します SQL> ALTER DATABASE RECOVER MANAGED STANDBY DATABASE NODELAY; またスタンバイデータベースの REDO にギャップがないことを確認してくださいロジカルスタンバイデータベースの場合 1. ホワイトペーパー Oracle 10g SQL Apply Best Practices [6] を参照して最適なSQL Apply 速度を取得してください 2. 実際にスイッチオーバーを実行する前に SQL 文 ALTER DATABASE PREPARE TO SWITCHOVERを発行することにより構築されたLogMiner Multi-versioned Data Dictionaryを実行します詳細な手順は Oracle Data Guard Concepts and Administration [5] の Switchovers Involving a Logical Standby Database を参照してくださいフィジカルスタンバイデータベースの場合ホワイトペーパー Oracle 10g Redo Apply and Media Recovery Best Practices [7] を参照して最適なRedo Apply 速度を取得してください読み取り専用モードからREDO APPLY( リカバリ ) モードに推移するときにデータベースを再起動します REDO データが受信直後にスタンバイデータベースに適用されるよう Data Guard のリアルタイム適用を使用しますこれによってスタンバイデータベースはスイッチオーバー時間を最小限に抑えるため処理前に本番データベースと同期化されますスイッチオーバーとフェイルオーバーのベストプラクティス :Oracle Data Guard 10g Release 2 6

スイッチオーバー時に障害が発生した場合処理を簡単に取り消せるようにフラッシュバックデータベースを有効にしますスイッチオーバーを実行する前にローカルおよびリモートのアーカイブに必要な ARCH のプロセス回数を必要最小限にします ARCH のプロセス数が増えると停止までの時間が長くなるためスイッチオーバーに必要な合計時間が増えますスイッチオーバー完了後 ARCH の追加処理が可能です LOG_FILE_NAME_CONVERT パラメータを設定しますスイッチオーバーの一部として新規の本番データベースとして開く前にスタンバイオンラインログを消去する必要がありますこの I/O の処理に必要な時間によりスイッチオーバーに必要な合計時間が大幅に増えます LOG_FILE_NAME_CONVERT パラメータを設定すると MRP が最初に開始されたときにスタンバイオンライン REDO ログを事前に消去することができます DATA GUARD ロールの推移概要 Data Guard の構成は本番ロールで機能する 1 つのデータベースとスタンバイロールで機能する 1 つ以上のデータベースで構成されていますこれらのスタンバイデータベースは本番データベースの同期化されたコピーとして保存されますこれらのスタンバイデータベースは本番データセンターから遠く離れた障害時リカバリサイトに配置することも同じ都市構内またはビルに配置することもできます計画外または計画的停止が発生した場合 Data Guard は最小のダウンタイムで迅速にスタンバイデータベースの 1 つを本番ロールに変更できます 1 つのサーバーが使用できない場合でもサイト全体が使用できない場合でも Data Guard は効果的で迅速なリカバリのためにスイッチオーバーとフェイルオーバーを提供しビジネスを継続させますスイッチオーバーとは本番データベースと 1 つのスタンバイデータベース間の計画的なロールリバーサルのことで本番システムの定期メンテナンス時のシステム停止を防ぐためまたは今後ロール推移を実施するにあたり準備状況を確認するために行われますスイッチオーバーではデータ消失は発生しませんスイッチオーバー時本番データベースはスタンバイロールに切り替わりスタンバイデータベースは本番ロールに切り替わりますこの切替えではいずれのデータベースも再起動する必要はありませんスイッチオーバーは Enterprise Manager または Data Guard Broker のコマンドラインインタフェースを介してあるいは SQL*Plus コマンドを発行して管理者が実行しますフェイルオーバーは本番データベース (RAC 本番データベースのすべてのインスタンス ) に障害が発生しスタンバイデータベースの 1 つが本番ロールを引き継ぐために切り替えられた場合に実行されビジネスを継続させますフェイルオーバーが完了しアプリケーションが再開した後管理スタッフはシステムの問題解決に戻ることができますフェイルオーバーの結果データが消失するかどうかはフェイルオーバー時に有効になっている Data Guard 保護モードによりますスイッチオーバーとフェイルオーバーのベストプラクティス :Oracle Data Guard 10g Release 2 7

Oracle Database 10g Release 2 以降フェイルオーバーには手動フェイルオーバーとファストスタートフェイルオーバーの 2 種類あります手動フェイルオーバーは本番データベースに障害が発生した場合に管理者が実行しますこれに対し Data Guard Broker は本番データベースが一定期間 ( ファストスタートフェイルオーバーのしきい値 ) 使用不可能になると自動的にファストスタートフェイルオーバーを開始します注意 : 可用性の高いアーキテクチャは高速なデータベースフェイルオーバーを実行できるだけではなくアプリケーションがビジネスに利用可能なように高速なクライアントフェイルオーバーを実行できる必要がありますクライアントフェイルオーバーに対するData Guard 構成のMAAのベストプラクティスは MAAのホワイトペーパー Oracle Data Guard 10g Release 2 Client Failover Best Practices [12] で説明していますフェイルオーバー Data Guard 構成でフェイルオーバーを実行するとスタンバイデータベースが本番データベースに変換されます後述のセクションでは手動フェイルオーバーとファストスタートフェイルオーバーについて詳しく説明します手動フェイルオーバー手動フェイルオーバーは Enterprise Manager のグラフィカルユーザーインタフェース Data Guard Broker のコマンドラインインタフェース (DGMGRL) からまたは SQL*Plus 文を発行して管理者が直接実行します次のセクションでは関連する SQL*Plus のコマンドついて説明しますフィジカルスタンバイデータベースに対する手動フェイルオーバー次のコマンドを使用してフィジカルスタンバイデータベースの手動フェイルオーバーを実行します 1. Real Application Clusters 環境での手動フェイルオーバーの場合フェイルオーバーを実行する前にセカンダリスタンバイデータベースのすべての RAC インスタンスで SHUTDOWN ABORT 文を発行します 2. ターゲットスタンバイデータベースで次の文を発行しフェイルオーバーを開始します SQL> ALTER DATABASE RECOVER MANAGED STANDBY DATABASE FINISH FORCE; 注意 : FORCE キーワードを組み込んでスタンバイデータベース上の RFS プロセスが必ずネットワーク接続の停止前に通常の TCP タイムアウト処理でタイムアウトするのを待たずにフェイルオーバーするようにします 3. フィジカルスタンバイデータベースを本番ロールに変換します ALTER DATABASE COMMIT TO SWITCHOVER TO PRIMARY; スイッチオーバーとフェイルオーバーのベストプラクティス :Oracle Data Guard 10g Release 2 8

4. スタンバイデータベースが最後に起動されてから一度も読取り専用として開かれていない場合次の文を発行して新しい本番データベースを開きます ALTER DATABASE OPEN; フィジカルスタンバイデータベースが最後に起動されてから読取り専用として開かれた場合はターゲットスタンバイデータベースを停止し再起動します SQL> SHUTDOWN IMMEDIATE; SQL> STARTUP; 注意 : まれにフェイルオーバーの実行前に現在のスタンバイ REDO ログファイルの REDO が適用されるまで待機したくない場合があります ( 注意 : Data Guard のリアルタイム適用を使用してスタンバイデータベースを最新の状態に保つことにより遅延を回避できます ) その場合は ALTER DATABASE ACTIVATE STANDBY DATABASE 文を発行しフェイルオーバーをただちに実行しますこの文はスタンバイデータベースを本番データベースに変換し新しい resetlogs ブランチを作成しデータベースを開きますただしこの文はスタンバイ REDO ログファイルの適用されない REDO のデータ消失の原因になることがあるためオラクル社では前述の手順で説明したフェイルオーバー手順とコマンドを使用してフェイルオーバーを実行することをお薦めします Oracle Data Guard 概要および管理 [5] で次のセクションを参照してください順を踏んだフェイルオーバー手順は物理スタンバイデータベースを必要とするフェイルオーバーで新しいresetlogsブランチに対するフィジカルスタンバイデータベースの反応は OPEN RESETLOGS 文によるリカバリ方法で説明していますロジカルスタンバイデータベースに対する手動フェイルオーバー次のコマンドを使用してロジカルスタンバイデータベースの手動フェイルオーバーを実行します 1. Real Application Clusters 環境での手動フェイルオーバーの場合フェイルオーバーを実行する前に全スタンバイデータベースのすべての RAC インスタンスで SHUTDOWN ABORT 文を発行します 2. ターゲットスタンバイデータベースで次の文を発行しフェイルオーバーを開始します ALTER DATABASE ACTIVATE LOGICAL STANDBY DATABASE FINISH APPLY; この文は RFS 処理の停止残りの REDO データの適用 SQL Apply の停止本番ロールのロジカルスタンバイデータベースのアクティブ化を実行しますスイッチオーバーとフェイルオーバーのベストプラクティス :Oracle Data Guard 10g Release 2 9

注意 : フェイルオーバーの実行前にスタンバイ REDO ログファイルの REDO が適用されるまで待機しないようにするにはこの文の FINISH APPLY 句を除外します FINISH APPLY 句の省略によりフェイルオーバーは加速しますがスタンバイ REDO ログが適用されていない REDO データは消失します消失する REDO の量を測定するには V$LOGSTDBY_PROGRESS ビューに対して問合せを実行します LATEST_SCN 列の値は本番データベースから受信した最後の SCN をまた APPLIED_SCN 列の値はスタンバイデータベースに適用された最後の SCN を示します 2 つの値の間のすべての SCN は消失します Oracle Data Guard Concepts and Administration [5] で次のセクションを参照してください順を踏んだフェイルオーバー手順はロジカルスタンバイデータベースを必要とするフェイルオーバーで新しいresetlogsブランチに対するフィジカルスタンバイデータベースの反応は OPEN RESETLOGS 文によるリカバリ方法で説明していますファストスタートフェイルオーバーファストスタートフェイルオーバーは Oracle Data Guard 10g Release 2 の機能の1つです迅速かつ確実にターゲットスタンバイデータベースを本番データベースロールにフェイルオーバーします管理者は手動でフェイルオーバーを実行する必要がなくデータが消失することもありませんファストスタートフェイルオーバーを実行するには Data Guard 構成と Data Guard Broker を事前に設定する必要があります設定が有効の場合オブザーバは Data Guard 構成を年中無休で監視し本番データベースが一定期間使用不可能になるたびに指定されたターゲットスタンバイデータベースのファストスタートフェイルオーバーを自動的に開始します自動フェイルオーバーが開始されるためにはファストスタートフェイルオーバーの 3 つのメンバー ( 本番データベースターゲットスタンバイデータベースオブザーバ ) のうち少なくとも 2 つについて必須条件がすべて満たされている必要がありますこれにより 1 つの本番データベースのみがトランザクションを受け入れることが保証され一般にスプリットブレインと呼ばれるシナリオが回避されます Broker のクライアントであるオブザーバは Data Guard 構成を監視し Data Guard が本番データベースに確実に接続できるようにしますオブザーバとスタンバイデータベースが共に本番データベースから切断されるとオブザーバは管理者が定義した一定時間本番データベースへの再接続を試みますがオブザーバとスタンバイデータベースが本番データベースに接続できない場合はフェイルオーバーが開始されますスイッチオーバーとフェイルオーバーのベストプラクティス :Oracle Data Guard 10g Release 2 10

またフェイルオーバー後データベースが再起動されると ( データベースが再起動可能でオブザーバへの接続を確立できると仮定して ) Broker は障害を起こした本番データベースを新しいターゲットスタンバイとして自動的に復元しますこれにより Data Guard は古い本番データベースを新しい本番データベースに迅速かつ自動的に再同期化でき障害を起こした ( 古い本番 ) データベースを新しい本番データベースのバックアップからリストアする必要がなくなりますそのため Data Guard 構成に対する高可用性のリストア時間が向上しますフィジカルまたはロジカルスタンバイデータベースに対するファストスタートフェイルオーバーファストスタートフェイルオーバーは Data Guard Broker のコントロール下の Data Guard 構成内で使用されます Data Guard Broker は Data Guard 構成内ですべてのリソースを集中管理しますコマンドラインインタフェース (DGMGRL) またはEnterprise Manager 5 を使用して Data Guard Brokerは単一のコマンドで複数のSQL*Plus 文と同等の作業を実行しData Guard 構成の管理を大幅に簡素化しますファストスタートフェイルオーバーを有効にするには次の前提条件を満たす必要があります本番データベースとターゲットスタンバイデータベースでフラッシュバックデータベースを有効にする本番データベースとターゲットスタンバイデータベースでフラッシュリカバリ領域を構成する Data Guard Broker 構成を有効にする LGWR SYNC モードで REDO 転送サービスを構成する最大可用性モードで Data Guard 構成を実行するオブザーバがスタンバイデータベースと本番データベースにネットワーク接続していることを確認する Broker を使用してファストスタートフェイルオーバーを構成すると構成内で重要な次の 3 つの要素が設定されます ( 図 1) 本番データベースターゲット ( フィジカルまたはロジカル ) スタンバイデータベースファストスタートフェイルオーバーオブザーバ 5 Enterprise Manager はファストスタートフェイルオーバーに推奨されるインタフェースですその理由は次のとおりですオブザーバは Enterprise Manager を介して起動するとバックグラウンドプロセスとして起動します Enterprise Manager メトリックを使用し DBA はオブザーバを監視できオブザーバが停止すると通知を受け取りますオブザーバが動作していたホストが再起動されると Enterprise Manager はオブザーバを自動的に再起動しますオブザーバに障害が発生した場合 Enterprise Manager はそれを検出できるため同一のホスト上でオブザーバを自動的に再起動するように Enterprise Manager を設定できますスイッチオーバーとフェイルオーバーのベストプラクティス :Oracle Data Guard 10g Release 2 11

ファストスタートフェイルオーバーの詳細な構成情報は OTN MAA [2] Web サイトにあるホワイトペーパー Oracle Data Guard 10g Release 2 Fast-Start Failover Best Practices [3] および Oracle Data Guard Broker [14] を参照してくださいまたフラッシュバックデータベースおよびフラッシュリカバリ領域の設定に関する情報は Oracle Database Backup and Recovery Basics [13] の Setup and Maintenance for Oracle Flashback Database と Oracle Data Guard Concepts and Administration [5] の Setting Up Flash Recovery Areas を参照してくださいオブザーバプライマリサイトスタンバイサイト図 1 ファストスタートフェイルオーバー構成手動フェイルオーバーとファストスタートフェイルオーバーのテスト結果このホワイトペーパーと Oracle Data Guard Release 2 で説明するベストプラクティスを使用してフェイルオーバー時間を測定するために多くのテストが実行されましたテストデータベースはそれぞれ 100GB で Gigabit Network に接続しました異なるネットワーク待機時間をシミュレートしましたが待機時間はフェイルオーバーおよびスイッチオーバー時間の最適化の要因ではありませんでした本番データベースのワークロードは REDO を 3MB/ 秒の速度で生成しましたシングルインスタンスデータベースと RAC 構成のテストではフィジカルスタンバイデータベース (Redo Apply) およびロジカルスタンバイデータベース (SQL Apply) へのフェイルオーバーをテストしましたテスト中にフェイルオーバーを起動するために本番データベースで SHUTDOWN ABORT を発行して障害をシミュレートしフェイルオーバーの主要な各セクションに要する時間は Data Guard Broker とデータベースアラートログを使用して測定しましたすべてのケースでユーザーが構成できるフェイルオーバーしきい値 ( 障害を検出する時間 ) はフェイルオーバー時間の計算に含まれていませんテストでは実際のデータベースフェイルオーバーを完了するために必要な時間のみが測定されましたフェイルオーバーを完了する合計時間は構成により異なり 10~25 秒でしたスイッチオーバーとフェイルオーバーのベストプラクティス :Oracle Data Guard 10g Release 2 12

単一インスタンスデータベースこのホワイトペーパーのセクションフェイルオーバーのベストプラクティスで説明したベストプラクティスを使用した場合単一インスタンスデータベースの平均フェイルオーバー時間は次のようになりました手動フェイルオーバー SQL*Plus 文 DGMGRL または Enterprise Manager フィジカルスタンバイ 17 秒 18 秒 17 秒ロジカルスタンバイ 10 秒 12 秒 14 秒複数インスタンス Real Application Clusters このホワイトペーパーのセクションフェイルオーバーのベストプラクティスで説明したベストプラクティスを使用した場合複数インスタンスデータベースの平均フェイルオーバー時間は次のようになりました手動フェイルオーバーファストスタートフェイルオーバーファストスタートフェイルオーバー SQL*Plus 文 DGMGRL または Enterprise Manager フィジカルスタンバイ 22 秒 25 秒 25 秒ロジカルスタンバイ 14 秒 17 秒 16 秒表示された RAC のフェイルオーバーの結果を得るにはバージョン 10.2.0.2.0 以降の Oracle Database が必要ですこのリリースではすべてのセカンダリインスタンスでの SHUTDOWN ABORT が最適化されているためフェイルオーバー合計時間が大幅に短縮されますバージョン 10.2.0.1 でこれらの時間を実現するにはフェイルオーバー前に各セカンダリスタンバイインスタンスで SHUTDOWN ABORT を発行します注意 : テスト中すべてのインスタンスは最悪の事態をシミュレートするよう起動されましたただしベストプラクティスとしてフェイルオーバーに必要な合計時間を更に短縮するためフェイルオーバーの実行前にすべてのセカンダリスタンバイインスタンスを (SHUTDOWN ABORT を使用して ) 閉じる必要がありますファストスタートフェイルオーバーの詳細な構成情報は OTN MAA [2] Web サイトにあるホワイトペーパー Fast-Start Failover: Oracle Database 10g Release 2 [3] および Oracle Data Guard Broker [14] を参照してください手動フェイルオーバー情報は Oracle Data Guard 概要および管理 [5] のロール推移の章で提供されていますスイッチオーバーとフェイルオーバーのベストプラクティス :Oracle Data Guard 10g Release 2 13

スイッチオーバー Data Guard のスイッチオーバー機能は高レベルの可用性を維持しながらシステムのダウンタイムを短縮する必要がある場合重要なソリューションですスイッチオーバーは本番データベースをスタンバイロールに切り替えスタンバイデータベースと本番ロールに切り替える手段を管理者に提供することによってこれを実現しますロール推移ではデータ消失は発生しません本番ロールが切り替えられるとオペレーティングシステムやハードウェアのアップグレードなどのメンテナンス作業をアプリケーション処理に影響を与えることなく実行できますメンテナンス作業が完了すると管理者は本番ロールを元のサイトに簡単に切り替えることができます同様にスイッチオーバーは Oracle データベースソフトウェアのローリングアップグレードおよび障害時リカバリ対策のテストに使用できますスイッチオーバーは Oracle Enterprise Manager Data Guard Broker コマンドラインインタフェースまたは SQL*Plus 文を使用して実行できますスイッチオーバーの一部としてすべてのユーザーセッションが本番データベースから切断されますすべてのセッションが切断されると本番データベースはスタンバイロールに変換されその後スタンバイデータベースが本番ロールに切り替えられます元の本番データベースにまだアクセスできる状態でロール推移を実行するにはフェイルオーバーではなく Data Guard スイッチオーバーを使用してください Data Guard スイッチオーバー機能は高レベルの可用性を維持しながらシステムのダウンタイムを短縮する必要がある場合最適のソリューションです SQL*Plus およびフィジカルスタンバイデータベースの使用このセクションで示す手順ではフィジカルスタンバイデータベースの最適なスイッチオーバー処理を説明しますフィジカルスタンバイデータベースが最後に起動されてから一度も読取り専用として開かれたことがなく (Oracle Database 10g Release 2 ではスイッチオーバー後データベースを再起動する必要がないため ) 管理者が SQL*Plus 文を使用してスイッチオーバーを実行する場合にスイッチオーバーの実行に必要な合計時間を短縮できますフィジカルスタンバイデータベースが必要な手動スイッチオーバーを実行する場合次の手順を実行して処理を最適化します 1. 可能な場合ユーザーセッションを切断しアプリケーション処理を無効にするか停止します 2. 本番およびスタンバイデータベースが RAC 構成の場合 1つの本番インスタンスを除くすべてのインスタンスを完全に停止し適用インスタンスを除くすべてのスタンバイインスタンスを停止します ( これは各クラスタで単一インスタンスが実行している状態です ) この操作を加速するにはセカンダリ RAC インスタンスで SHUTDOWN ABORT を発行しますスイッチオーバーとフェイルオーバーのベストプラクティス :Oracle Data Guard 10g Release 2 14

3. 本番データベースで次の文を発行して本番データベースをスタンバイデータベースに変換します ALTER DATABASE COMMIT TO SWITCHOVER TO STANDBY WITH SESSION SHUTDOWN; 4. 手順 3 の文が完了したら a. 古いスタンバイデータベースで次の文を発行します ALTER DATABASE COMMIT TO SWITCHOVER TO PRIMARY; b. 前述の COMMIT TO SWITCHOVER TO PRIMARY 文の発行直後に古い本番データベースを新しいスタンバイデータベースとして起動し MOUNT 状態にします SQL> SHUTDOWN IMMEDIATE; SQL> STARTUP MOUNT; 5. 手順 4 のスイッチオーバーコマンドが完了すると新しい本番データベースで ALTER DATABASE OPEN 文を発行して OPEN 状態にします注意 : Oracle Database 10g Release 2 以降本番データベースが最後に起動されてから読取り専用として開かれなかった場合新しい本番データベースを MOUNT 状態から直接開くことができますデータベースが読取り専用として開かれた場合は再起動する必要があります 6. 本番およびスタンバイデータベースが RAC で構成されている場合はすべてのインスタンスを起動します 7. ユーザーセッションとアプリケーション処理を再起動します SQL*Plus およびロジカルスタンバイデータベースの使用 SQL*Plus 文を使用してスイッチオーバーを実行する場合は実際のスイッチオ- バーの前に新しい本番データベースになるスタンバイデータベースが LogMiner ディクショナリを構築して現在の本番データベース ( 新しいスタンバイデータベース ) に転送することが可能ですこれによりスイッチオーバーの実行に必要な合計時間が短縮されます次の手順でこの最適化された方法の実行の仕方を説明します 1. 本番データベースで次の文を発行して現在のスタンバイデータベースから REDO を受信できるようにします ALTER DATABASE PREPARE TO SWITCHOVER TO LOGICAL STANDBY; 2. 現在のロジカルスタンバイデータベースで LogMiner ディクショナリを構築してこのディクショナリを現在の本番データベースに転送します ALTER DATABASE PREPARE TO SWITCHOVER TO PRIMARY; 実行する作業とデータベースのサイズにより文の実行に時間がかかる場合があります 3. 本番データベースの V$DATABASE 固定ビューの SWITCHOVER_STATUS 列に対して問合せを実行し LogMiner Multiversioned Data Dictionary が本番データベースに受信されたことを確認しますスイッチオーバーとフェイルオーバーのベストプラクティス :Oracle Data Guard 10g Release 2 15

最初は SWITCHOVER_STATUS 列に PREPARING DICTIONARY が表示され LogMiner Multiversioned Data Dictionary は REDO ストリームに記録されますこれが正常に終了すると列に PREPARING SWITCHOVER が表示されます問合せによって TO LOGICAL STANDBY 値が戻されたら次の手順に進みます 4. 可能な場合ユーザーセッションを切断しアプリケーション処理を無効にするか停止します 5. 本番およびスタンバイデータベースが RAC 構成の場合 1つの本番インスタンスを除くすべてのインスタンスを完全に停止し適用インスタンスを除くすべてのスタンバイインスタンスを停止します ( これは各クラスタで単一インスタンスが実行している状態です ) 停止操作を最適化するには SHUTDOWN ABORT を使用します停止したすべての本番インスタンスおよびスタンバイインスタンスのスレッドを無効にしますスイッチオーバー完了後スレッドを再度有効化しインスタンスを開始できます 6. V$DATABASE ビューの SWITCHOVER_STATUS 列によって TO LOGICAL STANDBY が返されたら次の文を発行して本番データベースをスタンバイデータベースに変換します ALTER DATABASE COMMIT TO SWITCHOVER TO LOGICAL STANDBY WITH SESSION SHUTDOWN; 7. 古いスタンバイデータベースで次の文を発行します ALTER DATABASE COMMIT TO SWITCHOVER TO PRIMARY; 8. 本番およびスタンバイデータベースが RAC で構成されている場合はすべてのインスタンスを起動します 9. ユーザーセッションとアプリケーション処理を再起動しますスイッチオーバーのテスト結果シングルインスタンスデータベースと RAC 構成のテストではフィジカルスタンバイデータベース (Redo Apply) およびロジカルスタンバイデータベース (SQL Apply) へのスイッチオーバーをテストしました SQL*Plus を使用したスイッチオーバーの完了にかかった合計時間は構成によって異なり 50~55 秒でした単一インスタンスデータベースこのホワイトペーパーのセクションスイッチオーバーのベストプラクティスで説明したベストプラクティスを使用したテストの結果単一インスタンスデータベースのスイッチオーバー時間は 50 秒 ~2 分 49 秒でした次の表に単一インスタンスの本番データベースおよびロジカルスタンバイデータベースでスイッチオーバーの実行に必要な合計時間を示しますスイッチオーバーとフェイルオーバーのベストプラクティス :Oracle Data Guard 10g Release 2 16

SQL*Plus を使用したスイッチオーバー DGMGRL または Enterprise Manager を使用したスイッチオーバーフィジカルスタンバイ 0:52 2:49 ロジカルスタンバイ 0:50 1:48 これらのスイッチオーバー時間は SQL*Plus 文を使用して前述した最適なスイッチオーバーの方法により達成されましたこの方法では古いスタンバイ ( 新しい本番 ) データベースの変換と同時に新しいスタンバイ ( 古い本番 ) データベースが再起動されましたまた新しい本番データベースは MOUNT 状態から OPEN 状態に直接切り替えられるためデータベースを再起動する必要はありません Enterprise Manager を使用してスイッチオーバーを実行すると SQL*Plus の場合より時間がかかりますそれはスイッチオーバー時にインスタンスが再起動される順序のためまた新しい本番データベースが再起動されるためですさらに Data Guard Broker 処理時間によりスイッチオーバーに必要な合計時間が長くなりました複数インスタンス Real Application Clusters このホワイトペーパーのセクションスイッチオーバーのベストプラクティスで説明したベストプラクティスを使用したテストの結果 RACデータベースのスイッチオーバー時間は 53 秒 ~2 分 56 秒でした SQL*Plus を使用したスイッチオーバー DGMGRL または Enterprise Manager を使用したスイッチオーバーフィジカルスタンバイ 0:55 2:56 ロジカルスタンバイ 0:53 1:54 RAC スイッチオーバーのテストはすべての本番およびスタンバイインスタンスを起動して実行されました表に示した時間はスタンバイデータベースから本番データベースへのロール推移および新しいスタンバイデータベースの起動に必要な時間ですセカンダリ本番およびスタンバイデータベースインスタンスの再起動に必要な時間は示していません Broker ベースのロジカルスタンバイスイッチオーバーにはさらに時間がかかりますそれは SQL*Plus を使用したスイッチオーバーはスイッチオーバー前に完全に準備されているにもかかわらず (ALTER DATABASE PREPARE TO SWITCHOVER 文を使用して ) Broker が管理するスイッチオーバーではこの機能が使用されないためですスイッチオーバーとフェイルオーバーのベストプラクティス :Oracle Data Guard 10g Release 2 17

アプリケーションとクライアントのフェイルオーバーユーザーの可用性要件に最適なアーキテクチャを選択し実装するのは困難な作業になる場合があります可用性の高いアーキテクチャは高速なデータベースフェイルオーバーを実行できるだけではなくあらゆるタイプの障害に対するクライアントフェイルオーバーに対応できる必要があります新しい Data Guard 10g Release 2 では自動データベースフェイルオーバーをフェイルオーバープロシージャと中間層で統合してクライアントとアプリケーションをスタンバイロケーションの新しい本番データベースに自動的にリダイレクトする追加機能を提供しますこれによりビジネスの継続性を達成するエンドツーエンドなソリューションが提供されますクライアントフェイルオーバーに対するData Guard 構成のベストプラクティスは MAAのホワイトペーパー Oracle Data Guard 10g Release 2 Client Failover Best Practices [12] で説明していますまとめ Data Guard 10g Release 2 の拡張機能およびこのホワイトペーパーで説明したベストプラクティスにより次のような一般的な問題を克服してロール推移の高速化を実現できますフェイルオーバーの検出と対応は遅いため時間がかかります障害発生場所の特定管理者への通知に時間がかかる場合もあります Data Guard のファストスタートフェイルオーバーは自動で障害を検出し必要に応じてフェイルオーバーを実行します問題の評価には時間がかかります障害にフェイルオーバーを実行する正当な理由があるかを判定するためにはさらに時間がかかります Data Guard のファストスタートフェイルオーバーは確立された基準を基に判断を行い基準を満たす場合にフェイルオーバーを自動で実行しますデータ消失の量を抑えるにはフェイルオーバーの正確なプロシージャを実行する必要があります Data Guard のファストスタートフェイルオーバーはフェイルオーバーのプロシージャに影響をあたえる人的エラー発生の可能性を排除しますフェイルオーバー後古い本番データベースを再構築するには時間とリソースが必要でビジネスはプロセスが完了するまで二次的な障害の危険にさらされますファストスタートフェイルオーバー後オブザーバは古い本番データベースへの接続を定期的に試行します古い本番データベースに再接続されるとオブザーバは古い本番データベースを復元しますこれによって古い本番データベースは新しい本番データベースに対するスタンバイデータベースになりますこれらの機能により Data Guard 構成の高可用性が迅速に回復されますスイッチオーバーとフェイルオーバーのベストプラクティス :Oracle Data Guard 10g Release 2 18

スイッチオーバーまたはフェイルオーバー後データベースをリストアするには時間がかかります Oracle Database 10g Release 2 以降では以前はフィジカルスタンバイデータベースであったデータベースが最後に起動されてから読取り専用として開かれなかった場合新しい本番データベースを MOUNT 状態から開くことができます手動のデータベースフェイルオーバーは本質的にストレスの多い作業であるためエラーが発生しやすく様々な問題を抱えていますファストスタートフェイルオーバーを有効にすると本番データベースが消失した場合 Data Guard は事前に選択され同期化されたスタンバイデータベースにフェイルオーバーしますデータ消失は発生せず手動の介入も必要ありませんこのため手動管理のフェイルオーバーで発生する可能性があるエラーを最小限に抑えることができます参考資料 1. Oracle Data Guard http://otndnld.oracle.co.jp/products/database/oracle10g/availability/htdocs/availabilit y/dataguardoverview.html 2. Oracle Maximum Availability Architecture http://otn.oracle.co.jp/products/availability/htdocs/maa.html 3. Oracle Data Guard 10g Release 2 Fast-Start Failover Best Practices( 英語 ): http://www.oracle.com/technology/deploy/availability/htdocs/maa.htm 4. Oracle Database 高可用性概要 http://otndnld.oracle.co.jp/document/products/oracle10g/102/doc_cd/nav/portal_4.ht m 5. Oracle Data Guard 概要および管理 http://otndnld.oracle.co.jp/document/products/oracle10g/102/doc_cd/nav/portal_4.ht m 6. Oracle 10g SQL Apply Best Practices (for logical standby databases)( 英語 ) http://www.oracle.com/technology/deploy/availability/pdf/maa_wp_10gr2_sqla pplybestpractices.pdf 7. Oracle 10g Redo Apply and Media Recovery Best Practices (for physical standby databases)( 英語 ) http://www.oracle.com/technology/deploy/availability/pdf/maa_wp_10grecovery BestPractices.pdf 8. Fast-Application Notification(FAN) 参考資料 Oracle Clusterware および Oracle Real Application Clusters 管理およびデプロイメントガイド http://otndnld.oracle.co.jp/document/products/oracle10g/102/doc_cd/nav/portal_ 4.htm スイッチオーバーとフェイルオーバーのベストプラクティス :Oracle Data Guard 10g Release 2 19

Oracle Database High Availability Overview (Part #B14210-01) http://download-west.oracle.com/docs/cd/b19306_01/server.102/b14210/hafeatu res.htm#sthref54 9. Automatic Storage Management(ASM) 参考資料 Oracle Database Administrator s Guide (Part #B14231-01) http://download-west.oracle.com/docs/cd/b19306_01/server.102/b14231/storem an.htm#i1021337 Oracle Database High Availability Overview (Part #B14210-01) http://download-west.oracle.com/docs/cd/b19306_01/server.102/b14210/hafeatu res.htm#sthref43 10. Hardware Assisted Resilient Data (HARD) Initiative: Oracle Clusterware and Oracle Real Application Clusters Administration and Deployment Guide http://download-west.oracle.com/docs/cd/b19306_01/rac.102/b14197/hafeats.ht m#sthref428 Oracle Database High Availability Overview http://download-west.oracle.com/docs/cd/b19306_01/server.102/b14210/hafeatu res.htm#sthref54 11. Transparent Application Failover(TAF) 参考資料 Oracle Clusterware and Oracle Real Application Clusters Administration and Deployment Guide http://download-west.oracle.com/docs/cd/b19306_01/rac.102/b14197/hafeats.ht m#sthref428 12. Oracle Data Guard 10g Release 2 Client Failover Best Practices http://www.oracle.com/technology/deploy/availability/htdocs/maa.htm 10gR2 バージョンのホワイトペーパーはまもなく発行されます 13. Oracle Database Backup and Recovery Basics (Part # B14192-02) http://download-west.oracle.com/docs/cd/b19306_01/backup.102/b14192/toc.htm 14. Oracle Data Guard Broker (Part #B14230-01) http://download-west.oracle.com/docs/cd/b19306_01/server.102/b14230/toc.htm スイッチオーバーとフェイルオーバーのベストプラクティス :Oracle Data Guard 10g Release 2 20

スイッチオーバーとフェイルオーバーのベストプラクティス Oracle Data Guard 10g Release 2 2007 年 1 月著者 : Mike Smith, Lawrence To, and Viv Schupmann 寄稿者 : Joseph Meeks and Ashish Ray Oracle Corporation World Headquarters 500 Oracle Parkway Redwood Shores, CA 94065 U.S.A. 海外からのお問合せ窓口 : 電話 : +1.650.506.7000 ファックス : +1.650.506.7200 www.oracle.com Copyright 2007, Oracle. 無断転載を禁ずこの文書はあくまで参考資料であり掲載されている情報は予告なしに変更されることがありますオラクル社は本ドキュメントの無謬性を保証しませんまた本ドキュメントは法律で明示的または暗黙的に記載されているかどうかに関係なく商品性または特定の目的に対する適合性に関する暗黙の保証や条件を含む一切の保証または条件に制約されませんオラクル社は本書の内容に関していかなる保証もいたしませんまた本書により契約上の直接的および間接的義務も発生しません本書は事前の書面による承諾を得ることなく電子的または物理的にいかなる形式や方法によっても再生または伝送することはできません Oracle JD Edwards PeopleSoft は Oracle Corporation および関連会社の登録商標です他の製品名はそれぞれの所有者の商標です