HAクラスタで PostgreSQLを高可用化 (後編) ～レプリケーション編～

HA クラスタで PostgreSQL を高可用化 ( 後編 ) ~ レプリケーション編 ~ 2012 年 9 月 29 日しくみ + アプリケーション勉強会松尾隆利 NTT OSS センタ

はじめに今回は HA クラスタで PostgreSQL を高可用化の後編ですストリーミングレプリケーション構成のクラスタリングのお話がメインです前編の入門編を復習されているのを前提にお話します http://linux-ha.sourceforge.jp/wp/wp-content/uploads/pacemaker_20120526jpug.pdf レプリケーション自体のお話も省きます 2

開発経緯昔 ~ 昔 PostgreSQL 8.3 + 独自パッチで同期レプリケーション機能を実装し Heartbeat(Pacemaker の前身 ) で HA クラスタ化を実現する PG-REX というプロジェクトがあったそうな 2010 年 2011 年 PostgreSQL 9.0 で非同期レプリケーション実装同期レプリケーションを実現する独自パッチ + Pacemaker 用 RA 開発でクラスタリング実現 9.0の非同期レプリケーションでも動くように手直しし Pacemakerコミュニティへ投稿リジェクト PostgreSQL 9.1 で同期レプリケーション実装新たにPacemaker 用 RAを開発しクラスタリング実現 Pacemakerコミュニティ意見も反映し投稿! 絶賛!(tremendous job!!) 2012 年 4 月 13 日コミュニティのリポジトリにマージ 5 月 16 日 resource-agents 3.9.3 として無事リリース Linux-HA Japan のリポジトリパッケージ 1.0.12-1.2 に同梱 3

前編の構成 ~Active/Standby 構成 ~ PostgreSQL のデータは共有ディスク上に配置し 2 台のサーバ間で共有通常は Active サーバでサービスを提供し Active サーバ故障時は Standby サーバが Active となりサービスを提供 Active マウント DB データ Standby 故障発生故障フェイルオーバ DB データ Active マウント共有ディスク共有ディスク 4

今回の構成 ~Master/Slave 構成 ~ PostgreSQL のデータはそれぞれのサーバのローカルディスク上に配置し PostgreSQL のストリーミングレプリケーション機能を用いて共有通常は Master サーバでサービスを提供し Master サーバ故障時は Slave サーバが Master となりサービスを継続 Master Slave レプリケーション DBデータ DBデータ故障発生故障 DB データフェイルオーバ DB データ Master ローカルディスクローカルディスクローカルディスクローカルディスク 5

Active/Standby vs Master/Slave Active/Standby Master/Slave ハードウェア費用共有ディスク ( 相当のもの ) 必須運用のしやすさデータは 1 箇所のみ 2 箇所のデータの整合性を考慮データの安全性サービス継続性 DB 性能負荷分散実績最新データは共有ディスク上のみフェイルオーバ時にリカバリに時間を要するレプリケーションのオーバヘッドなし構成上不可能最新データは2 箇所に分散 Slave 故障がサービスに影響 ( 同期レプリケーション使用時 ) 共有ディスク構成をとれない某高速ストレージを活用可 ReadOnlyクエリを Slaveで処理可能これからそれぞれ一長一短サービスの要件に応じて選択すること 6

レプリケーション構成の HA クラスタ化 3 大機能 1 フェイルオーバ Master 故障発生故障フェイルオーバ Master Master DB データ同期レプリケーション DB データ Slave Slave 故障発生 Master 古 DB データ DB データ 2 同期非同期の切替非同期レプリケーション故障 3 データの状態管理 DB データ古 DB データ 7

基本構成サービス提供用 LAN 負荷分散しないならば削除可仮想 IP1 (vip-master) PostgreSQL (Master) 制御 pgsql RA Read/Write Pacemaker レプリケーション用 LAN 仮想 IP2 (vip-rep) レプリケーションはこの仮想 IP 宛に接続 Pacemaker 用 LAN Read Only 仮想 IP3 (vip-slave) PostgreSQL (Slave) 制御 pgsql RA Pacemaker STONITH 用 LAN 次ページからは省略サーバ #1 サーバ #2 ローカルディスクローカルディスク 8

基本動作 1 : Master のフェイルオーバ vip-master vip-master vip-slave vip-master vip-slave PostgreSQL 1 故障 (Master) vip-rep PostgreSQL (Slave) PostgreSQL 故障 2 停止 (Master) vip-rep vip-rep PostgreSQL 5(Slave) (Master) pgsql RA pgsql RA pgsql RA pgsql RA Pacemaker Pacemaker Pacemaker Pacemaker サーバ #1 サーバ #2 サーバ #1 サーバ #2 #2 古 4 1 #1 の PostgreSQL の故障を検知 2 #1 の PostgreSQL を停止 3 仮想 IP(vip-master, vip-rep, vip-slave) を停止 4 #1 のデータが古いことを記録 5 #2 の PostgreSQL を Master に昇格 (promote) 6 #2 で仮想 IP(vip-master, vip-rep, vip-slave) を起動 9

基本動作 2 : 同期非同期の切替 2 3 検知 vip-master vip-slave vip-slave vip-master 5 vip-slave PostgreSQL (Master) vip-rep 同期 PostgreSQL 1 故障 (Slave) PostgreSQL (Master) vip-rep 7 非同期同期 PostgreSQL 故障 4 停止 (Slave) pgsql RA pgsql RA pgsql RA pgsql RA Pacemaker Pacemaker Pacemaker Pacemaker サーバ #1 サーバ #2 サーバ #1 サーバ #2 6 古 1 Slave の故障発生 2 Master のトランザクション停止 ~ レプリケーションのタイムアウト待ち ~ 3 #1 でレプリケーション切断を検知 SELECT * from pg_stat_replication 4 #2 の PostgreSQL を停止 5 #2 の仮想 IP(vip-slave) を #1 に付け替え 6 #2 のデータが古いことを記録 7 #1 の PostgreSQL を非同期に変更トランザクション再開 10

ここまでが基本動作次はフェイルオーバ後の復旧 11

TimelineID PostgreSQL が Slave から Master へ昇格した際インクリメントされる数値 TimelineID が異なるとレプリケーション接続ができないフェイルオーバ時 Master レプリケーション Slave 故障フェイルオーバ Slave Master 5 5 5 5 6 異なる TimelineID をそろえるには新 Master のデータを旧 Master へコピーする必要あり 12

運用 1: フェイルオーバ後の復旧 PostgreSQL 1 故障復旧 (Master) vip-rep vip-master vip-slave PostgreSQL (Slave) (Master) vip-slave PostgreSQL 4 (Slave) 6 5 同期レプリケーション vip-rep vip-master vip-slave PostgreSQL (Master) pgsql RA 故 Pacemaker 3 フラグクリアロック削除 pgsql pgsql RA RA Pacemaker サーバ #1 サーバ #2 #2 Pacemaker サーバ #1 pgsql RA pgsql RA Pacemaker サーバ #2 古 2 データ同期新 1 故障の復旧 2 #1 のデータを #2 と同期 TimelineID がそろう 3 #1 のロックファイル削除と Pacemaker 上の故障フラグをクリア ( 手動 ) 4 #1 の PostgreSQL を Slave で起動 5 レプリケーション開始非同期で接続同期に切替 6 #2 の仮想 IP(vip-slave) を #1 に付け替え 13

次は起動方法 14

PostgreSQL と Pacemaker の状態遷移 Master を直接起動可能 recovery.conf なしで起動 STOP recovery.conf ありで起動停止 Slave pg_ctl promote Master 停止 STOP start stop Slave promote demote Master PostgreSQL の Master は必ず Slave を経由 (recovery.conf は RA が作成 ) して起動される Master 起動時も TimelineID がインクリメントされる 15

運用 2 : 起動 vip-slave vip-master 3 仮想 IP 起動 vip-slave vip-master 6 vip-slave PostgreSQL 停止 (Master) vip-rep 停止 PostgreSQL 停止 (Master) vip-rep PostgreSQL (Slave) 停止 2 起動 pgsql RA pgsql RA pgsql RA 5 起動 Pacemaker Pacemaker Pacemaker サーバ #1 サーバ #2 1 新古サーバ #1 サーバ #2 4 データ同期新古 1 データが新しい方のサーバーを選択 2 選択したサーバの Pacemaker を起動 Slave で起動 Master に遷移 TimelineID がずれる 3 仮想 IP が #1 で起動 ( 手動 ) 4 #2のデータを#1と同期 TimelineIDがそろう ( 手動 ) 5 Pacemaker 起動レプリケーション開始 6 #1の仮想 IP(vip-slave) を #2に付け替え 16

ここからは状態遷移詳細 17

その前に用語を整理 PostgreSQL と Pacemaker の状態遷移は一致しないため二者を区別するために以下を使い分け PostgreSQL の状態を表す用語 PRI HS STOP : Primary(Master) 状態 : Hot Standby(Slave) 状態 : 停止している状態 Pacemaker の状態を表す用語 Master : アプリケーションをMasterとして管理している状態 Slave : アプリケーションをSlaveとして管理している状態 Stopped : アプリケーションを停止として管理している状態 18

PostgreSQL と Pacemaker の状態遷移 ( 用語区別版 ) start (recovery.conf なしで起動 ) STOP start(recovery.conf ありで起動 ) stop HS pg_ctl promote PRI stop この部分を Pacemaker の状態遷移とマッピング Stopped start stop Slave promote demote Master 19

状態遷移のマッピング Stopped start stop Slave promote demote Master STOP start stop HS promote PRI 停止済のため何もしない STOP ( アンマッチ ) stop この状態は Slave の監視が動くと故障となるためこの状態に留まることはできない 20

HS の複数状態 PostgreSQL の HS には複数の状態を管理 1. PRI へ未接続 HS:alone 2. PRI へ接続中 a. 同期レプリケーション以外 b. 同期レプリケーション中 HS:(others) HS:sync HS:(others) は以下の二つの状態をとる HS:connected HS:async Pacemaker でこれら状態を "pgsql-status" 属性として管理リソース ID 名を pgsql とした場合 21

状態遷移のマッピング ( 改良前 ) Stopped Slave Master STOP HS PRI STOP 22

状態遷移のマッピング ( 改良後 ) Stopped Slave Master STOP HS: (others) HS: alone HS: sync PRI STOP 他のノードに PRI がおらず自分のデータが最新の場合 23

データの新旧判断方法 HS のデータが最新かどうかを判断する方法 PRI 存在時 PRI との接続状態を基にデータの状態を記録 PRI 存在時は自分が PRI に昇格することはないため記録のみ PRI 故障時 PRI 故障直前の PRI との接続状態を基に判断初期起動時 (PRI が一度も存在したことがない時 ) 他に HS がいる場合他の HS 間でデータの新旧を比較して判断他に HS がいない場合自分が最新だと判断 24

データの状態 PRI 存在時に記録する HS のデータ状態 1. PRI へ未接続 DISCONNECT 2. PRI へ接続中 a. 同期レプリケーション以外 STREAMING ASYNC ( 例 ) b. 同期レプリケーション中 STREAMING SYNC 古いデータ最新データ PRI 時 LATEST pg_stat_replication ビューから取得 Pacemaker でこれら状態を "pgsql-data-status" 属性として管理リソース ID 名を pgsql とした場合 25

pgsql-status と pgsql-data-status 属性の違い pgsql-status PostgreSQL の現在の実行状態を示す停止 : STOP HS で動作 : HS:alone, HS:async, HS:sync PRI で動作 : PRI 不明時 : UNKNOWN pgsql-data-status PRI との関係によって決まるデータの状態 PRI 未接続時 : DISCONNECTED HS 時 : STREAMING ASYNC, STREAMING SYNC 等 PRI 時 : LATEST 用途 HS の現在の状態把握 HS の状態と他のリソースとの連携用途データの新旧状態記録 Master への昇格可否の判断 PRI 故障時 PRI 故障直前の状態が残る PostgreSQL の実行状態と必ずしも一致しない pgsql-status=hs:alone で pgsql-data-status = LATEST があり得る 26

状態遷移のマッピング ( 条件整理後 ) Stopped Slave Master STOP HS: (others) HS: alone HS: sync PRI STOP 他のノードにPRIがおらず自分のpgsql-data-status が最新 (LATEST or STREAMING SYNC) の場合初期起動時は他のノードとデータ新旧を比較した結 27

Pacemaker の設定例 28

リソース構成例 ( シンプル版 ) ping 監視先 192.168.103.1 サービス提供用 LAN (192.168.103.0/24) pm01 vip-rep が故障しても Master 側のサービスに大きな影響がないので故障時は再起動を試みる設定にする NW 監視 (clnpingd) eth3 グループ (master-group) 仮想 IP (vip-master) 192.168.103.110 仮想 IP (vip-rep) 192.168.104.110 PostgreSQL (mspostgresql) Master eth4 レプリケーション用 LAN (192.168.104.0/24) master-group と PostgreSQL の Master は同じノード上で起動させる制約を追加 pgsql-status が HS:sync または PRI の場合に起動 eth4 eth3 PostgreSQL (mspostgresql) Slave 仮想 IP (vip-slave) 192.168.103.111 pm02 NW 監視 (clnpingd) Pacemaker 用 LAN シンプル版のため STONITH は省略 29

Pacemaker 設定例 ( シンプル版 ) 1/2 property \ no-quorum-policy="ignore" \ stonith-enabled="false" \ crmd-transition-delay="0s" rsc_defaults \ resource-stickiness="infinity" \ migration-threshold="1" ms mspostgresql pgsql \ meta \ master-max="1" \ master-node-max="1" \ clone-max="2" \ clone-node-max="1" \ notify="true" group master-group \ vip-master \ vip-rep \ meta \ ordered="false" clone clnpingd \ pingcheck primitive vip-master ocf:heartbeat:ipaddr2 \ params \ ip="192.168.103.110" \ nic="eth3" \ cidr_netmask="24" \ op start timeout="60s" interval="0s" on-fail="restart" \ op monitor timeout="60s" interval="10s" on-fail="restart" \ op stop timeout="60s" interval="0s" on-fail="block" PostgreSQL の Master/Slave 化設定サービス用仮想 IP とレプリケーション用仮想 IP を master-group としてグループ化サービス用仮想 IP(vip-master) 設定設定詳細は字が小さくて見えないと思うので資料アップロード後確認してください primitive vip-rep ocf:heartbeat:ipaddr2 \ params \ ip="192.168.104.110" \ nic="eth4" \ cidr_netmask="24" \ meta \ migration-threshold="0" \ op start timeout="60s" interval="0s" on-fail="stop" \ op monitor timeout="60s" interval="10s" on-fail="restart" \ op stop timeout="60s" interval="0s" on-fail="block" primitive vip-slave ocf:heartbeat:ipaddr2 \ params \ ip="192.168.103.111" \ nic="eth3" \ cidr_netmask="24" \ meta \ resource-stickiness="1" \ op start timeout="60s" interval="0s" on-fail="restart" \ op monitor timeout="60s" interval="10s" on-fail="restart" \ op stop timeout="60s" interval="0s" on-fail="block" レプリケーション用仮想 IP(vip-rep) 設定 HS (read only) 用仮想 IP(vip-slave) 設定 primitive pgsql ocf:heartbeat:pgsql \ params \ pgctl="/usr/pgsql-9.1/bin/pg_ctl" \ psql="/usr/pgsql-9.1/bin/psql" \ pgdata="/var/lib/pgsql/9.1/data/" \ rep_mode="sync" \ node_list="pm01 pm02" \ restore_command="cp /var/lib/pgsql/9.1/data/pg_archive/%f %p" \ primary_conninfo_opt="keepalives_idle=60 \ keepalives_interval=5 keepalives_count=5" \ master_ip="192.168.104.110" \ stop_escalate="0" \ op start timeout="30s" interval="0s" on-fail="restart" \ op stop timeout="30s" interval="0s" on-fail="block" \ op monitor timeout="30s" interval="11s" on-fail="restart" \ op monitor timeout="30s" interval="10s" on-fail="restart" role="master" \ op promote timeout="30s" interval="0s" on-fail="restart" \ op demote timeout="30s" interval="0s" on-fail="block" \ op notify timeout="60s" interval="0s" PostgreSQL メイン設定 30

Pacemaker 設定例 ( シンプル版 ) 2/2 primitive pingcheck ocf:pacemaker:pingd \ params \ name="default_ping_set" \ host_list="192.168.103.1" \ multiplier="100" \ op start timeout="60s" interval="0s" on-fail="restart" \ op monitor timeout="60s" interval="2s" on-fail="restart" \ op stop timeout="60s" interval="0s" on-fail="ignore" ### Resource Location ### location rsc_location-1 mspostgresql \ rule -inf: not_defined default_ping_set or default_ping_set lt 100 location rsc_location-2 vip-slave \ rule 200: pgsql-status eq HS:sync \ rule 100: pgsql-status eq PRI \ rule -inf: not_defined pgsql-status \ rule -inf: pgsql-status ne HS:sync and pgsql-status ne PRI HS (read only) 用仮想 IP (vip-slave) 起動条件の設定 ### Resource Colocation ### colocation rsc_colocation-1 inf: mspostgresql colocation rsc_colocation-2 inf: master-group clnpingd mspostgresql:master ### Resource Order ### order rsc_order-1 0: clnpingd mspostgresql symmetrical=false order rsc_order-2 inf: mspostgresql:promote master-group:start symmetrical=false order rsc_order-3 0: mspostgresql:demote master-group:stop symmetrical=false Master と仮想 IP の同居制約設定 Master と仮想 IP の起動停止順番設定商用利用時は STONITH やディスク監視等その他必要なリソースは別途追加すること 31

重要な点だけピックアップ 32

PostgreSQL メイン設定部 ~pgsql RA~ primitive pgsql ocf:heartbeat:pgsql \ params \ pgctl="/usr/pgsql-9.1/bin/pg_ctl" \ psql="/usr/pgsql-9.1/bin/psql" \ pgdata="/var/lib/pgsql/9.1/data/" \ rep_mode="sync" \ node_list="pm01 pm02" \ restore_command="cp /var/lib/pgsql/9.1/data/pg_archive/%f %p" \ primary_conninfo_opt="keepalives_idle=60 \ master_ip="192.168.104.110" \ stop_escalate="0" \ keepalives_interval=5 keepalives_count=5" \ op start timeout="30s" interval="0s" on-fail="restart" \ op stop timeout="30s" interval="0s" on-fail="block" \ op monitor timeout="30s" interval="11s" on-fail="restart" \ op monitor timeout="30s" interval="10s" on-fail="restart" role="master" \ op promote timeout="30s" interval="0s" on-fail="restart" \ op demote timeout="30s" interval="0s" on-fail="block" \ op notify timeout="60s" interval="0s" 各コマンドや PostgreSQL データの場所を指定同期レプリケーション使用 ( 指定しない場合は通常の Act-Stadby 動作 ) レプリケーションに参加するサーバーの全ホスト名 vip-rep の IP recovery.conf の restore_command 設定 recovery.conf の primary_conninfo に追加するオプションフェイルオーバを高速化するために Master 停止時に immediate shutdown を使用 monitor(master 時 ) promote, demote notify の動作定義 33

仮想 IP vip-slave (ReadOnly 用 ) の起動条件設定部 location rsc_location-2 vip-slave \ rule 200: pgsql-status eq HS:sync \ rule 100: pgsql-status eq PRI \ rule -inf: not_defined pgsql-status \ rule -inf: pgsql-status ne HS:sync and pgsql-status ne PRI HS:sync の方がスコアが大きい (200 > 100) ため正常な同期レプリケーション時は Slave 側でそれ以外は PRI (Master) 側で起動 pgsql-status = HS:sync ならば起動可 pgsql-status = PRI ならば起動可 vip-slave が起動するノードが固定されないように resource-stickiness は "1" にしておくこと primitive vip-slave ocf:heartbeat:ipaddr2 \ params \ ip="192.168.103.111" \ nic="eth3" \ cidr_netmask="24" \ meta \ resource-stickiness="1" \ 34

仮想 IP vip-rep ( レプリケーション用 ) の再起動設定 primitive vip-rep ocf:heartbeat:ipaddr2 \ params \ ip="192.168.104.110" \ nic="eth4" \ cidr_netmask="24" \ meta \ migration-threshold="0" \ op start timeout="60s" interval="0s" on-fail="stop" \ op monitor timeout="60s" interval="10s" on-fail="restart" \ op stop timeout="60s" interval="0s" on-fail="block" レプリケーション用仮想 IP は監視で故障発生しても再起動を試みる設定にする 0 は回数制限なし 35

Master と仮想 IP(vip-master, vip-rep) の起動停止順番設定部 promote 後に仮想 IP を起動 order rsc_order-2 inf: mspostgresql:promote master-group:start symmetrical=false 仮想 IP を含むグループ order rsc_order-3 0: mspostgresql:demote master-group:stop symmetrical=false demote(postgresql 停止 ) 完了後に仮想 IP を停止先に仮想 IP を停止するとレプリケーション接続が切断されレプリケーションのパケットが届かなくなるのを防ぐため先に demote する 36

同期レプリケーション時の Pacemaker 表示例 (crm_mon Af) Online: [ pm01 pm02 ] vip-slave (ocf::heartbeat:ipaddr2): Started pm02 Resource Group: master-group vip-master (ocf::heartbeat:ipaddr2): Started pm01 vip-rep (ocf::heartbeat:ipaddr2): Started pm01 Master/Slave Set: mspostgresql Masters: [ pm01 ] Slaves: [ pm02 ] Clone Set: clnpingd Started: [ pm01 pm02 ] Node Attributes: * Node pm01: + default_ping_set : 100 + master-pgsql:0 : 1000 + pgsql-data-status : LATEST + pgsql-status : PRI + pgsql-master-baseline : 00000000150000B0 + pm02-eth1 : up + pm02-eth2 : up * Node pm02: + default_ping_set : 100 + master-pgsql:1 : 100 + pgsql-data-status : STREAMING SYNC + pgsql-status : HS:sync + pm01-eth1 : up + pm01-eth2 : up Migration summary: * Node pm01: Copyright(c)2012 * Node NTT, Inc. pm02: All Rights Reserved. 仮想 IP の状態 PostgreSQL の Master/Slave の状態 pm01 ノードの pgsql-status, pgsql-data-status の状態 promote 直前の xlog の位置 pm02 ノードの pgsql-status, pgsql-data-status の状態 37

PostgreSQL の設定ポイント 38

postgresql.conf ( 重要点のみ ) listen_address = * Slave には仮想 IP(vip-master) が存在しないため特定 IP で Listen はできない synchronous_standby_names はコメントアウト Pacemaker が同期非同期を切り替えるためユーザ設定不可 RA が /var/lib/pgsql/tmp/rep_mode.conf を include する設定を自動追加 restart_after_crash = off Pacemaker が PostgreSQL の状態管理をするため自動再起動は off replication_timeout = 20s ( ぐらい?) 誤検知しない程度に短くする Slave 故障時に Master のトランザクションが止まる時間に影響 hot_standby = on Slave を監視するために必須 max_standby_streaming_delay = -1 max_standby_archive_delay = -1 Slave の監視クエリがキャンセルされるのを防ぐ 39

postgresql.conf ( その他 ) wal_level = hot_standby wal_keep_segments = 64 ( ぐらい?) 小さくし過ぎるとレプリケーションに必要な wal がすぐに削除されてしまう wal_receiver_status_interval = 5s ( ぐらい?) replication_timeout より短くすること hot_standby_feedback = on archive_mode = on 40

ロックファイル 41

ロックファイル PRI を停止すると残るファイルデータ不整合を避けるために導入本ファイルが存在すると PostgreSQL は起動できないデフォルトパス : /var/lib/pgsql/tmp/pgsql.lock HS がいない場合 PRI 正常停止時に削除される同期レプリケーションの意味コミット成功は必ず両サーバにデータが存在することを保証つまりコミット失敗時はデータがコミットされたかどうかは不定最悪両サーバ間でデータに差異が発生 PostgreSQL はこの差異を検知できないため起動をロック 42

不整合の発生パターン例問題が発生するパターン PRI に 7 のデータ書き込み PRI が 7 のデータを HS へ転送中に PRI が故障 (HS にパケット未達 ) PRI 1 2 3 4 5 6 7 HS アプリケーション 1 2 3 4 5 6 NG フェイルオーバ発生 HS は 6 までのデータで PRI に昇格し 7', 8' のデータを書き込み HS PRI 1 2 3 4 5 6 7' 8' 旧 PRI を HS として組み込み旧 PRI には転送し損ねた 7 のデータが存在するため 8' からレプリケーションが開始される PRI HS 1 2 3 4 5 6 7' 8' 9' 1 2 3 4 5 6 7 8' 9' 不整合発生 43

ロックファイル導入後回避パターン PRI へ昇格時にロックファイル作成 PRI に 7 のデータ書き込み PRI が 7 のデータを HS へ転送中に PRI が故障 (HS にパケット未達 ) フェイルオーバ発生 ( 図省略 ) PRI 1 2 3 4 5 6 7 HS アプリケーション 1 2 3 4 5 6 NG 旧 PRI を HS として組み込み HS 起動時にロックファイルがあるため起動エラーに PRI HS 1 2 3 4 5 6 7' 8' 9' 1 2 3 4 5 6 7 起動エラーロックファイルがある場合は新 PRI のデータを新 HS へコピーしロックファイルを削除する手順が必要 44

HA クラスタ化まとめ 3 大機能 Master のフェイルオーバレプリケーションの同期非同期の切替データの状態管理 Pacemaker 設定のポイントレプリケーション用の仮想 IP(vip-rep) が必要必要ならば Slave に ReadOnly クエリ負荷分散用仮想 IP を設定可能運用時の注意 TimelineID がずれているとレプリケーションできないため注意フェイルオーバ後は TimelineID のずれに加えデータ不整合も発生する可能性ありロックファイルがある場合不整合が発生していないデータに入れ替えること 45

動作環境 Pacemaker 1.0.12 以上推奨 1.0.11 だと Master/Slave バグ回避設定が必要 resource-agents 3.9.3 以上 Linux-HA Japan Pacemaker リポジトリパッケージ 1.0.12-1.2 以上に同梱 (2012 年 7 月リリース ) 色々バグフィックスしているので pgsql RA だけ最新に入れ替えた方が無難 PostgreSQL 9.1 以上 9.0 では動きません 9.2 では動いたとの報告あり 46

参考ソースコード (GitHub 上の RA 直リンク ) URL : https://github.com/clusterlabs/resource-agents/blob/master/heartbeat/pgsql ドキュメントおよび設定例 (GitHub の Wiki) https://github.com/t-matsuo/resource-agents/wiki/ Pacemaker ダウンロードインストール http://linux-ha.sourceforge.jp/ 47

HAクラスタで PostgreSQLを高可用化 (後編) ～ レプリケーション編 ～

HAクラスタで PostgreSQLを高可用化 (後編) ～レプリケーション編～