HAクラスタでPostgreSQLを高可用化（前編）

HAクラスタで PostgreSQLを高可用化前編 Pacemaker入門編 2012年5月26日第23回しくみ+アプリケーション勉強会 Linux-HA Japan プロジェクト田中崇幸 1

はじめに... DB屋さんではないので DBに関する詳しい話はできません... PostgreSQLをHAクラスタ化するお話をしますが PostgreSQL9.1 の Streaming Replication機能を用いた話はしません... 後編でお話する予定ですインストール方法含めて HAクラスタの超基本からお話します擬人化の話はしません 2

自己紹介名前田中崇幸 (Takayuki Tanaka) Twitter: @tanakacchi21 所属 Linux-HA Japanプロジェクトコミュニティ旗揚時のメンバー Pacemaker普及促進のためオープンソースカンファレンスでの講演等で全国行脚中趣味マラソンフルマラソン 42.195km で昨年念願のサブ3を達成した市民マラソンランナー 1週間前に野辺山ウルトラマラソン 100km に参加し 11時間52分で完走 3

本日のお話 ① ② ③ ④ ⑤ ⑥ HAクラスタって何 Pacemakerって何 Pacemakerのコンポーネント構成本日のPacemakerデモ環境インストール設定デモしますいろいろ故障デモします Linux-HA Japanについて 4

① HAクラスタって何 Pacemakerって何 5

そもそもクラスタって何 6

コンピュータの世界でクラスタというと複数のコンピュータを結合し複数のコンピュータを結合し果実花などの房のように果実花などの房のようにひとまとまりとしたシステムのことひとまとまりとしたシステムのこと (Wikipediaより) (Wikipediaより) HAクラスタ HPC並列クラスタ負荷分散クラスタ 7

さらにHAクラスタっていうと 8

High Availability = 高可用性壊れにくさつまり一台のコンピュータでは得られない一台のコンピュータでは得られない高い信頼性を狙うために高い信頼性を狙うために複数のコンピュータを結合し複数のコンピュータを結合しひとまとまりとしたシステムのことひとまとまりとしたシステムのこと 9

今回ご紹介するはこのHAクラスタという部類のソフトウェアで実績のある Heartbeat と呼ばれていたHAクラスタの後継ソフトウェアです 10

ここで本日の客層を知るために皆さんに質問させてください 11

Pacemaker はすでにご存知ですか 12

同じくHAクラスタである Heartbeat バージョン1 or 2 は知っていますか 13

Pacemaker は Heartbeat の後継というだけあって密接な関係があります詳細は後ほどお話します 14

基本構成 Active/Standby 1+1 構成通常はActiveノードと呼ばれるサーバでサービスを提供します Activeノードが故障した場合は StandbyノードがActive になりサービスを引き継ぎますこれをフェイルオーバと呼びますユーザユーザ LAN Active Standby Active 故障故障発生フェイルオーバ 15

Pacemakerでは複数台構成も可能 Heartbeatバージョン1では実現できませんでした複数台のActiveノードや複数台のStandbyノードを設定可能です N+M構成 Active2 をフェイルオーバ 2+1構成例 Active1 Active2 Active1 Standby Active2 故障 Active2に故障発生 16

複数台 N+M 構成が可能ということはこんな構成も可能か 17

適切なHAクラスタ設計は適切なHAクラスタ設計は十分検討しましょう十分検討しましょう 50+2構成はこれはムチャ構成です.. 泣実現しても 50台いっぺんにフェイルオーバしてきたら大変なことになります Active 1 50 Standby 1 2 18

今回は話を単純にするために Active / Standby 1+1構成の構成を例に話を進めます 19

Pacemaker 基本機能は主にこの２つ 1. ノード監視 2. リソース制御 20

基本動作１ノード監視相手ノードの生死を確認するために一定間隔で相手ノードを監視しますハートビート通信と呼ぶ相手ノードと通信できなくなった場合に相手はダウンしたと判断しフェイルオーバさせるなどのクラスタ制御を行います Activeノード生きてる Standbyノード Activeノード Standbyノード元気です故障 Pacemaker Pacemaker ハートビートLAN ハートビートLANとかとかインターコネクトLAN インターコネクトLANと呼ぶと呼ぶ Pacemaker Pacemaker あれ応答なしノード断 21

基本動作２リソース制御リソースと呼ばれる物をリソースエージェント(RA)を介して起動(start) 停止(stop) 監視(monitor)しますリソースが故障した場合にはフェイルオーバといったリソース制御を行います生きてる Activeノード Standbyノード Activeノードリソースリソースリソースリソース RA RA RA Pacemaker Pacemaker Pacemaker RA Pacemaker OK 故障リソースが壊れたな StandbyノードリソースをStandby側で起動してサービス継続して起動 22

リソースって何 Pacemakerではよく出てくる Pacemakerではよく出てくる言葉なのでおぼえてください言葉なのでおぼえてくださいノード間でサービスを引き継ぐために制御が必要なものサービスの故障を検知するのに監視が必要なもの 23

簡単に言うと Pacemakerが起動停止監視するものがリソースになります Activeノードリソース例 Apache Pacemaker から見ると PostgreSQL などのアプリケーションはリソースとなります Tomcat PostgreSQL DRBD Pacemaker 24

リソースエージェント(RA) とはリソースとPacemakerを仲介するプログラム主にシェルスクリプトで記述 Activeノード Pacemakerはリソースエージェントに対しリソースの起動(start) 停止(stop) 監視(monitor) を指示します Pacemaker PostgreSQL用 RA 起動監視停止リソース例 PostgreSQL 25

Pacemaker と PostgreSQLリソースエージェントの関係 Pacemaker Pacemaker PostgreSQL用 PostgreSQL用リソースエージェントリソースエージェント (pgsql) (pgsql) start OK/NG スタート制御 pgsql_start() monitor OK/NG 状態監視 pgsql_monitor() stop OK/NG ストップ制御 pgsql_stop() PostgreSQL 用のコマンド等に変換リソースリソース PostgreSQL PostgreSQL pg_ctl start OK/NG select now(); OK/NG pg_ctl stop OK/NG 26

pgsql リソースエージェント実装例起動 start 処理の抜粋 #!/bin/sh pgsql_start() { PostgreSQLの起動のメイン関数 if pgsql_status; then PostgreSQLプロセスの存在を確認 then PostgreSQLプロセスがいれば ocf_log info "PostgreSQL is already running. PID=`cat $PIDFILE`" return $OCF_SUCCESS PostgreSQLは動作していると判断 fi $OCF_SUCCESSはPacemakerで定義済みの変数 runasowner "$OCF_RESKEY_pgctl $pgctl_options start" $OCF_RESKEY_pgctl $pgctl_options は外部パラメータで設定することが可能 RAでのpg_ctlのデフォルトは /usr/bin/pg_ctl 27

停止 stop 処理の抜粋 #!/bin/sh pgsql_stop() { if! pgsql_status then return $OCF_SUCCESS fi PostgreSQLの停止のメイン関数 PostgreSQLプロセスの存在を確認 PostgreSQLプロセスがいなければ PostgreSQLは停止していると判断 runasowner "$OCF_RESKEY_pgctl -D $OCF_RESKEY_pgdata stop -m fast" fastモードで停止を実行 if pgsql_status 再度PostgreSQLプロセスの存在を確認 then まだPostgreSQLプロセスがいれば runasowner "$OCF_RESKEY_pgctl -D $OCF_RESKEY_pgdata stop -m immediate" immediateモードで停止を実行 fi 28

監視 monitor 処理の抜粋 #!/bin/sh pgsql_monitor() { PostgreSQLの監視のメイン関数 if! pgsql_status PostgreSQLプロセスの存在を確認 then PostgreSQLプロセスがいなければ ocf_log info "PostgreSQL is down" return $OCF_NOT_RUNNING PostgreSQLは停止していると判断 fi $OCF_NOT_RUNNINGはPacemakerで定義済みの変数 runasowner -q $loglevel "$OCF_RESKEY_psql $psql_options -c '$OCF_RESKEY_monitor_sql'" 実際にSQLを実行してPostgreSQLの正常性を確認 RAのデフォルトは select now(); を実行 29

各パラメータ pgctl="/usr/pgsql-9.1/bin/pg_ctl" pgdata="/var/lib/pgsql/9.1/data" pgport="5432" psql="/usr/pgsql-9.1/bin/psql" pgdba="postgres" pgdb="template1" 起動 su postgres -c 'cd /var/lib/pgsql/9.1/data; /usr/pgsql-9.1/bin/pg_ctl -D /var/lib/pgsql/9.1/data -l /dev/null start 監視 su postgres -c 'cd /var/lib/pgsql/9.1/data; kill -s 0 `head -n 1 /var/lib/pgsql/9.1/data/postmaster.pid` >/dev/null 2>&1 su postgres -c 'cd /var/lib/pgsql/9.1/data; /usr/pgsql-9.1/bin/psql -p 5432 -U postgres template1 -c '\''select now();'\'' 停止 su postgres -c 'cd /var/lib/pgsql/9.1/data; /usr/pgsql-9.1/bin/pg_ctl -D /var/lib/pgsql/9.1/data stop -m fast su postgres -c 'cd /var/lib/pgsql/9.1/data; /usr/pgsql-9.1/bin/pg_ctl -D /var/lib/pgsql/9.1/data stop -m immidiate' 30

Pacemakerでは様々なリソースエージェントが用意されています標準リソースエージェントの一例目的リソースエージェント名リソースアプリケーション動作 PostgreSQL の引継ぎ Apache, Tomcat データ引継ぎファイルシステムのマウント IPの引継ぎ仮想IPアドレス付与異常監視ディスク監視ネットワーク監視 (/usr/lib/ocf/resource.d/ に存在) pgsql apache, tomcat, Filesystem (複数のファイルシステムに対応) IPaddr, IPaddr2 diskd (Linux-HA Japan提供) pingd 31

リソースエージェントは自分でも作れます #!/bin/sh : ${OCF_FUNCTIONS_DIR=${OCF_ROOT}/lib/heartbeat}. ${OCF_FUNCTIONS_DIR}/ocf-shellfuncs start処理() { } stop処理() { } monitor処理 { } 通常のシェルスクリプトの記述方法ですがいくつか必須のパラメータ呼び出しに対する処理と定義済みの戻り値を返すように実装する必要があります meta-data処理(){ リソース開始監視停止リソース開始監視停止の処理の処理 } validate-all処理(){ } case $1 in start) start処理();; stop) stop処理();; monitor) monitor処理();; esac シェルに渡されるパラメータシェルに渡されるパラメータを元にRA処理を振り分けを元にRA処理を振り分け 32

HAクラスタで怖い物って何か知ってますか 33

それはスプリットブレイン 34

これによって起こる恐ろしいこと 35

あいつ死んだな.. こんな状態あいつ死んだな.. 切断サービス起動中サービス起動中サービス起動しまーす mount mount 共有ディスクダブルマウントデータ破壊 36

がこれを防ぐのが Pacemakerの STONITH と sfex 37

STONITHって 38

Shoot-The-Other-Node-In-The-Head 制御が利かないサーバをHAクラスタから強制的に離脱させる機能ですフェンシング 39

絵で書くとこんなイメージ 40

自殺機能ではなく他殺機能です http://ourobengr.com/ha 41

では具体的にどうやって強制離脱させるの 42

STONITH実行例スプリットブレイン時 STONITH pm1 切断 HW制御ボード pm2 HW制御ボードインターコネクトとは別の通信経路で HW制御ボードに対しリセットを実行 OSと連動しないHW制御ボードから強制電源断 43

HW制御ボードは例えばこんなの DELL社 idrac6 Integrated 高価なサーバ高価なサーバのみ搭載のみ搭載 Dell Remote Access Controller 6 PowerEdge R610 等に標準搭載 IPMI 2.0 対応 HP社 ilo3 Integrated Lights-Out 3 ProLiant DL360 G7 等に標準搭載 IPMI 2.0 対応 ilo3 44

安価なサーバでも搭載されてますので STONITHは敷居は高くありません例 HP MicroServer MicroServerにリモート管理オプションのリモートアクセスカードキットを搭載すればSTONITH機能は使用可能です HP MicroServer リモートアクセスカード IPMI 2.0 対応 45

ちなみに STONITHにはこんな機能もあります 46

STONITH実行例リソース停止失敗時 STONITH リソース故障 pm1 pm2 リソース HW制御ボード停止処理失敗リソース HW制御ボード STONITH成功後リソースがフェイルオーバリソース故障時フェイルオーバしようとしてリソース停止失敗または停止タイムアウト 47

sfexって 48

共有ディスク排他制御機能 Shared Disk File Exclusiveness Control Program sfexは共有ディスクの所有権を制御するリソースです共有ディスク上のデータパーティションを使うリソースと一緒にリソースグループを作ります所有権を持ったノードのリソースのみがデータパーティションにアクセスできます pm1 pm1 リソースグループ sfex Filesystem IPaddr2 pgsql 接続 OK sfex 排他制御領域 /dev/xvdb1 DB領域 /dev/xvdb2 pm2 接続 NG リソースグループ sfex Filesystem IPaddr2 pgsql 49

② Pacemakerのコンポーネント構成 50

Pacemaker のコンポーネント構成は少々複雑なのです... 51

リソース制御部 : Pacemaker Heartbeat２リソース制御部 Tengine CRM Pengine クラスタ制御部 CCM CRM: Tengine: Pengine: CCM: RA: RA 他のクラスタソフトウェア間とのコンポーネントの共通化のために Heartbeat２のリソース制御部が Pacemakerとして切り出されました Pacemaker Cluster Resource Manager リソース制御機能は主にこの Transition Engine Policy engine コンポーネントに含まれる Cluster Consensus Membership Resource Agent 52

切り出されたということは Pacemaker 単独では HAクラスタソフトとして動作しない 53

そのとおりです.. 54

Pacemaker はクラスタ制御部のアプリケーションと組み合わせて使用しなければなりません.. 55

ですがクラスタ制御部の候補がいくつもあると前向きにとらえてください 56

クラスタ制御部候補1 : Heartbeat３ Heartbeat２リソース制御部 Tengine CRM Pengine クラスタ制御部 CCM Heartbeat２のクラスタ制御部が Heartbeat３として切り出されました RA Heartbeat３切り出されたので切り出されたので２２からから３３と数字がと数字が上がったのに機能的にはデグレ上がったのに機能的にはデグレノード監視は主にこちらのコンポーネントに含まれる 57

クラスタ制御部候補2 : Corosync OpenAIS リソース制御部 OpenAIS というオープンソースのHAクラスタがありこのクラスタ制御部が Corosyncとして切り出されましたクラスタ制御部 Corosync 58

Pacemaker は Heartbeat3 Corosync ２つのクラスタ制御部が選択可能 59

Pacemakerの生い立ちリソース起動終了のみ管理 2ノード構成まで heartbeat1.2.5 リソース監視機能多様なリソース制御多ノード対応 XMLによる設定 crmシェルによる簡易な設定 corosync対応 pacemakermgmt-2.0 Linux-HA Japan追加パッケージ pacemaker-1.0.12 (安定版) CRM resource-agents-3.9.2 heartbeat2.1.4 cluster-glue-1.0.9 heartbeat3.0.5 パッケージを分割再構成 CRM: Cluster Resource Manager バージョン番号は2012年5月時点での最新版 corosync1.4.3 運用管理等追加機能リソース制御機能リソース制御部ノード管理機能クラスタ制御部ノード管理機能を選択可能 60

他HAプロダクトとコンポーネントの共通化が進められています Pacemaker pacemakermgmt-2.0 Red Hat High Availability Add-on Linux-HA Japan追加パッケージ Luci Luci cman cman rgmanager pacemaker-1.0.12(安定版) pacemaker pacemaker-1.1.7(開発版) resource-agents-3.9.2 OpenAIS リソース制御機能リソース制御部 cluster-glue-1.0.9 heartbeat - 3.0.5 OpenAIS corosync-1.4.3 ノード管理機能クラスタ制御部 61

Heartbeat3 と Corosync どちらのクラスタ制御部が優れているの 62

Heartbeat３のメリットデメリットメリット安定 Heartbeat2系のノード管理機能を引き継いでいるためこれまでの使用方法ならば実績と安定性があるデメリット多ノード構成に向いていないリソース数にもよるが 7ノードくらいが限界ハートビートLAN切断時(スプリットブレイン) に弱いスプリットブレイン時の復旧手順がやや複雑クォーラム制御(3ノード以上時に使用)が不安定オンラインによるノード追加削除時の動作が不安定 63

Corosync のメリットデメリットメリット多ノード構成に向いている 11ノードで動いた次期バージョンでは16ノード以上でも動くという情報もノード故障検出時間が短いスプリットブレイン回復時の動作が安定オンラインによるノード追加削除時の動作が安定デメリット開発途上で不安定頻繁にバグフィックス版がリリース 64

③ 本日の Pacemakerデモ環境 65

本日のPacemakerデモ環境ハードウェアノートPC OS CentOS Core2Duo 2.26MHz メモリ 4G 5.8 x86_64 HAクラスタ Pacemaker-1.0.12 アクティブ/スタンバイの2台構成クラスタ化するアプリケーション PostgreSQL 9.1.3 (Streaming Replicationは使用しません) 仮想環境 Xen (CentOS 5.8同梱版 Domain-Uは2ドメインで構成各ドメインには CPU 1 メモリ1024M を割り当て 66

Pacemakerデモ構成 pm1: アクティブ pm2: スタンバイ demo (Domain-0) サービスLAN 仮想IP eth0 192.168.0.100 192.168.0.22 pm1 eth1 192.168.10.22 eth2 192.168.20.22 HW制御ボード 172.20.24.21 eth3 172.20.24.22 eth0 192.168.0.23 インターコネクトLAN1 インターコネクトLAN2 pm1 排他制御領域 /dev/xvdb1 DB領域 /dev/xvdb2 eth1 192.168.10.23 pm2 eth2 192.168.20.23 eth3 172.20.24.23 HW制御ボード 172.20.24.21 管理用LAN 67

Pacemakerデモ構成 pm1: スタンバイ pm2: アクティブ demo (Domain-0) サービスLAN eth0 192.168.0.22 pm1 インターコネクトLAN1 eth1 192.168.10.22 eth2 192.168.20.22 HW制御ボード 172.20.24.21 仮想IP 192.168.0.100 eth0 192.168.0.23 eth3 172.20.24.22 eth1 192.168.10.23 インターコネクトLAN2 pm2 排他制御領域 /dev/xvdb1 DB領域 /dev/xvdb2 pm2 eth2 192.168.20.23 eth3 172.20.24.23 HW制御ボード 172.20.24.21 管理用LAN 68

Pacemakerデモ機構成 Xen仮想NW demo (Domain-0) pm1 pm2 xenbr0 サービスLAN用ブリッジ Domain-U) eth0 eth1 Domain-U) pdummy0 eth0 eth1 eth2 xenbr1 インターコネクトLAN1用ブリッジ eth3 pdummy1 eth3 xenbr2 インターコネクトLAN2用ブリッジ pdummy2 eth2 dummy0 dummy1 xenbr3 管理LAN用ブリッジ dummy2 eth0 peth0 69

Pacemakerデモ機構成 Xen仮想ディスク demo (Domain-0) pm1 Domain-U) /dev/xvda1 (OS領域) /dev/xvda /dev/xvda2 (swap) pm1 OS領域 /dev/lvm/pm1 pm2 Domain-U) /dev/xvda1 (OS領域) /dev/xvda /dev/xvda2 (swap) pm2 OS領域 /dev/lvm/pm2 /dev/xvdb1 (排他制御) /dev/xvdb 共有データ領域 /dev/lvm/shared-disk1 /dev/xvdb2 (DB領域) /dev/xvdb1 (排他制御) /dev/xvdb /dev/xvdb2 (DB領域) 70

Pacemakerデモリソース構成これら4つのこれら4つのリソースはリソースはグループ設定しますグループ設定しますディスク排他制御 (sfex) 共有ディスクの排他制御を行います DBデータ領域マウント (Filesystem) 共有ディスクにあるDBデータ領域のマウント制御を行います PostgreSQL制御 (pgsql) PostgreSQL 9.1.3 の制御を行います仮想IP割り当て (IPaddr2) サービス提供用の仮想IPを割り当てます 71

本日はSTONITH 本日はSTONITH のデモも行いますのデモも行います STONITH (stonith-helper, libvirt, meatclient) 監視対象サーバの異常を検出したときに強制的にそのサーバをダウンさせるノードフェンシングを行いますネットワーク監視 pingd 指定したIPアドレスに ping送信しネットワーク疎通があるかどうかの監視を行いますディスク監視 diskd 指定したディスクデバイスにアクセスしディスクの正常性確認を行います 72

Pacemakerデモ機フェンシング STONITH 構成 demo (Domain-0) pm1 eth0 Domain-U) eth1 STONITH eth2 eth3 xenbr0 サービスLAN用ブリッジ pdummy0 xenbr1 インターコネクトLAN1用ブリッジ pm2 eth0 eth1 Domain-U) eth2 eth3 pdummy1 libvirt libvirt STONITHプラ STONITHプラグインを使用しグインを使用し virshで virshで管理LAN経管理LAN経由でSTONITHを実由でSTONITHを実行行 xenbr2 インターコネクトLAN2用ブリッジ dummy0 pdummy2 dummy1 virsh xen+ssh://demo/ destroy pm2 dummy2 xenbr3 管理LAN用ブリッジ eth0 peth0 73

④ インストール設定をデモします 74

インストール方法の種類 1. yum を使ってネットワークインストール 2. ローカルリポジトリ + yum を使ってインストール 3. Linux-HA Japan 提供のリポジトリパッケージを使用 Linux-HA Japan オリジナルパッケージも含まれる rpm を手動でインストール 4. Pacemaker本家(clusterlabs) の yumのリポジトリを使用サーバにインターネット接続必須沢山のrpmを個別にダウンロードする必要ありソースからインストール最新の機能をいち早く試せるコンポーネントが多いのでコンパイルは面倒本日は２の本日は２の構築デモを行構築デモを行いますいます 75

Pacemaker sourceファイル Heartbeat Corosync https://github.com/clusterlabs/resource-agents/ Pacemaker mgmt http://hg.linux-ha.org/glue/ Resource Agents https://github.com/clusterlabs/pacemaker/ Cluster Glue https://github.com/corosync/corosync/ Pacemaker http://hg.linux-ha.org/dev/ http://hg.clusterlabs.org/pacemaker/pygui/ Linux-HA Japan追加パッケージ http://hg.sourceforge.jp/view/linux-ha/ 76

こーんなに沢山のサイトからダウンロードインストールするのは大変 77

CentOS系 RHEL系ならば Linux-HA Japan提供のリポジトリパッケージを使えばインストールは簡単 EL5 EL6系対応 78

ローカルリポジトリ + yum を使ってインストールサーバにインターネット接続環境がなくてもOK 1. Pacemakerリポジトリパッケージをダウンロード Linux-HA Japan 提供の Pacemakerリポジトリパッケージを sourceforge.jp からダウンロードしておきます pacemaker-1.0.12-1.1.el5.x86_64.repo.tar.gz をダウンロード Pacemaker-1.0.12-1.1 Pacemaker-1.0.12-1.1版は版は 4/27リリース 4/27リリース 79

2. yumでインストール /tmp で展開し yumコマンドでインストールします ##cd cd/tmp /tmp ##tar tarzxvf zxvfpacemaker-1.0.12-1.1.el5.x86_64.repo.tar.gz pacemaker-1.0.12-1.1.el5.x86_64.repo.tar.gz ##cd cd/tmp/pacemaker-1.0.12-1.1.el5.x86_64.repo/ /tmp/pacemaker-1.0.12-1.1.el5.x86_64.repo/ ##yum yum c cpacemaker.repo pacemaker.repoinstall installpacemaker pacemakerpm_crmgen pm_crmgenpm_diskd pm_diskd pm_logconv-hb pm_logconv-hbpm_extras pm_extras pm_crmgen-1.1-1.el5.noarch.rpm crm用ファイル編集ツール pm_diskd-1.1-1.el5.x86_64.rpm ディスク監視アプリとRA pm_logconv-hb-1.1-1.el5.noarch.rpm ログ変換ツール pm_extras-1.2-1.el5.x86_64.rpm その他オリジナルRA 等ぜひぜひ使ってみてくださいぜひぜひ使ってみてください 80

デモ１ここで Pacemakerのインストールをデモします pm1のみインストー pm1のみインストールデモしますルデモします 81

クラスタ制御部基本設定 /etc/ha.d/ha.cf クラスタ制御部の基本設定ファイルクラスタ内の全サーバに同じ内容のファイルを設置 pacemaker pacemakeron on debug debug00 udpport udpport694 694 keepalive keepalive22 warntime warntime77 deadtime deadtime10 10 initdead initdead48 48 logfacility logfacilitylocal1 local1 bcast bcasteth1 eth1 bcast eth2 bcast eth2 node nodepm1 pm1 node nodepm2 pm2 watchdog watchdog/dev/watchdog /dev/watchdog respawn root respawn root/usr/lib64/heartbeat/ifcheckd /usr/lib64/heartbeat/ifcheckd pm_extrasをインストールし pm_extrasをインストールしこのこの ifcheckd ifcheckd の設定を追加の設定を追加すればインターコネクトLAN すればインターコネクトLAN の接続状況も確認可能ですの接続状況も確認可能です 82

クラスタ制御部基本設定 /etc/ha.d/authkeys サーバ間の認証キーを設定するファイルクラスタ内の全サーバに同じ内容のファイルを配置所有ユーザ/グループパーミッションは root/root rw---- に設定これも基本的にこれも基本的に Heartbeat２ Heartbeat２とと設定は同じです設定は同じです auth auth11 11sha1 sha1hogehoge hogehoge 認証キー任意の文字列認証キーの計算方法 sha1, md5, crcを指定可 83

クラスタ制御部基本設定 /etc/syslog.conf 必須の設定ではないが多くのログが/var/log/messagesに出力されるため出力先を個別のファイルに変更するのがお勧め local1.info を使用し /var/log/ha-log へ出力する場合の例 *.info;mail.none;authpriv.none;cron.none;local1.none *.info;mail.none;authpriv.none;cron.none;local1.none /var/log/messages /var/log/messages 省略省略 local1.info /var/log/ha-log local1.info /var/log/ha-log ha.cf で設定したlogfacility 名 84

ここまでいけば Pacemakerが起動できます ## /etc/init.d/heartbeat /etc/init.d/heartbeat start start Starting Starting High-Availability High-Availability services: services: ２サーバで実行２サーバで実行 [[ OK OK ]] 85

デモ2 ということで Pacemakerを起動してみます基本設定は基本設定は省略します.. 省略します.. 86

起動確認 Pacemakerの状態表示コマンドである crm_monコマンドにより Pacemakerが制御しているサーバ状態やリソース状態インターコネクトLAN ネットワークの状態を確認できます ## crm_mon crm_mon 87

crm_mon crm_mon実行例 ============ Last updated: Fri May 25 14:59:57 2012 Stack: Heartbeat Current DC: pm2 (7f1b5dcb-e696-414d-8fca-da79274b0a74) - partition with quorum Version: 1.0.12-066152e 2 Nodes configured, unknown expected votes 6 Resources configured. ============ Online: [ pm1 pm2 ] Resource Group: grppg prmex (ocf::heartbeat:sfex): Started pm1 prmfs (ocf::heartbeat:filesystem): Started pm1 prmpg (ocf::heartbeat:pgsql): Started pm1 prmip (ocf::heartbeat:ipaddr2): Started pm1 Resource Group: grpstonith1 prmstonith1-1 (stonith:external/stonith-helper): Started pm2 prmstonith1-2 (stonith:external/libvirt): Started pm2 prmstonith1-3 (stonith:meatware): Started pm2 Resource Group: grpstonith2 prmstonith2-1 (stonith:external/stonith-helper): Started pm1 prmstonith2-2 (stonith:external/libvirt): Started pm1 prmstonith2-3 (stonith:meatware): Started pm1 Clone Set: clndiskd1 Started: [ pm1 pm2 ] Clone Set: clndiskd2 Started: [ pm1 pm2 ] Clone Set: clnpingd Started: [ pm1 pm2 ] 88

crm_mon サーバ状態表示 Pacemakerが稼動しているサーバは Online と表示され停止しているサーバは OFFLINE と表示されます ============ ============ Last Last updated: updated: Fri Fri May May 25 25 14:59:57 14:59:57 2012 2012 Stack: Stack: Heartbeat Heartbeat Current Current DC: DC: pm2 pm2 (7f1b5dcb-e696-414d-8fca-da79274b0a74) (7f1b5dcb-e696-414d-8fca-da79274b0a74) -partition partition with with quorum quorum Version: Version: 1.0.12-066152e 1.0.12-066152e 22 Nodes Nodes configured, configured, unknown unknown expected expected votes votes 66 Resources Resources configured. configured. ============ ============ Online: Online: [[ pm1 pm1 pm2 pm2 ]] クラスタに組み込まれているクラスタに組み込まれているサーバ名が表示されますサーバ名が表示されます 89

crm_mon リソース状態表示サービス系リソース Pacemakerが制御しているリソースの状態が表示されますリソース稼動状態と稼働中のサーバ名が Started サーバ名などと表示されます Resource Resource Group: Group: grppg grppg prmex (ocf::heartbeat:sfex): prmex (ocf::heartbeat:sfex): Started Started pm1 pm1 prmfs (ocf::heartbeat:filesystem): Started prmfs (ocf::heartbeat:filesystem): Started pm1 pm1 prmpg (ocf::heartbeat:pgsql): prmpg (ocf::heartbeat:pgsql): Started Started pm1 pm1 prmip (ocf::heartbeat:ipaddr2): Started prmip (ocf::heartbeat:ipaddr2): Started pm1 pm1 prmex: prmfs: prmpg: prmip: ディスク排他制御 (sfex) DBデータ領域マウント (Filesystem) PostgreSQL制御 (pgsql) 仮想IP割り当て (IPaddr2) 90

サービス系リソースサービスLAN 仮想IP 192.168.0.100 pm1 eth0 grppg 192.168.0.22 eth1 prmex 192.168.10.22 prmfs eth2 eth0 192.168.0.23 インターコネクトLAN1 インターコネクトLAN2 192.168.20.22 prmpg HW制御ボード 172.20.24.21 prmip eth3 172.20.24.22 排他制御領域 /dev/xvdb1 DB領域 /dev/xvdb2 pm2 eth1 192.168.10.23 eth2 192.168.20.23 eth3 172.20.24.23 HW制御ボード 172.20.24.21 管理用LAN 91

crm_mon リソース状態表示 STONITHリソースサービス系リソースと同様に Started サーバ名と表示されます Resource Resource Group: Group: grpstonith1 grpstonith1 prmstonith1-1 prmstonith1-1 (stonith:external/stonith-helper): (stonith:external/stonith-helper): Started Started pm2 pm2 prmstonith1-2 Started prmstonith1-2 (stonith:external/libvirt): (stonith:external/libvirt): Started pm2 pm2 prmstonith1-3 prmstonith1-3 (stonith:meatware): (stonith:meatware): Started Started pm2 pm2 prmstonith1-1: サーバ断確認相打防止プラグイン (stonith-helper) prmstonith1-2: KVM/Xen用フェンシングプラグイン (libvirt) prmstonith1-3: 停止通知用プラグイン (meatware) このデモでは grpstonith1 は pm1をフェンシングするstonith リソースのため pm2で稼動しているのが確認できます 92

STONITHリソースサービスLAN eth0 192.168.0.22 eth1 pm1 grpstonith2 192.168.10.22 eth2 192.168.20.22 HW制御ボード 172.20.24.21 eth3 172.20.24.22 eth0 192.168.0.23 インターコネクトLAN1 インターコネクトLAN2 排他制御領域 /dev/xvdb1 DB領域 /dev/xvdb2 eth1 grpstonith1 192.168.10.23 pm2 eth2 192.168.20.23 eth3 172.20.24.23 HW制御ボード 172.20.24.21 管理用LAN 93

crm_mon リソース状態表示監視系リソースディスク状態監視ネットワーク状態監視は両方のサーバで動作させるように Cloneで登録します Started: [ pm1 pm2 ] などと表示されリソース稼動状態と稼働中のサーバ名がわかります Clone Clone Set: Set: clndiskd1 clndiskd1 Started: Started: [[ pm1 pm1 pm2 pm2 ]] Clone Clone Set: Set: clndiskd2 clndiskd2 Started: Started: [[ pm1 pm1 pm2 pm2 ]] Clone Clone Set: Set: clnpingd clnpingd Started: Started: [[ pm1 pm1 pm2 pm2 ]] clndiskd1: clndiskd2: clnpingd: 共有ディスク監視 (diskd) 内蔵ディスク監視 (diskd) ネットワーク監視 (pingd) 94

監視系リソース ping監視先(pdummy0) 192.168.0.21 サービスLAN pm1 eth0 192.168.0.22 clnpingd clndiskd1 eth1 192.168.10.22 eth2 192.168.20.22 eth0 192.168.0.23 インターコネクトLAN1 インターコネクトLAN2 eth1 192.168.10.23 eth2 192.168.20.23 clndiskd2 HW制御ボード 172.20.24.21 pm2 clnpingd clndiskd1 clndiskd2 eth3 172.20.24.22 排他制御領域 /dev/xvdb1 DB領域 /dev/xvdb2 eth3 172.20.24.23 HW制御ボード 172.20.24.21 管理用LAN 95

crm_mon -fa オプションを付与するとインターコネクト LAN等の状況も確認可能ですネットワーク監視ネットワーク監視の状況の状況 ## crm_mon crm_mon -fa -fa ** Node Node pm1: pm1: ++ default_ping_set default_ping_set ++ diskcheck_status diskcheck_status ++ diskcheck_status_internal diskcheck_status_internal ++ pm2-eth1 pm2-eth1 ++ pm2-eth2 pm2-eth2 :: 100 100 :: normal normal :: normal normal :: up up :: up up ディスク監視ディスク監視の状況の状況インターコネクトがUPされインターコネクトがUPされているのが確認可能ているのが確認可能 96

ここで Pacemaker状態表示とインターコネクトLAN故障をデモします故障デモ例は故障デモ例は次ページ次ページ 97

インターコネクトLAN1を故障させてみるデモ3 擬似故障 # ifdown eth1 サービスLAN pm1 eth0 192.168.0.22 eth1 192.168.10.22 eth2 192.168.20.22 HW制御ボード 172.20.24.21 eth3 172.20.24.22 故障インターコネクトLAN1 インターコネクトLAN2 排他制御領域 /dev/xvdb1 DB領域 /dev/xvdb2 eth0 192.168.0.23 eth1 192.168.10.23 pm2 eth2 192.168.20.23 eth3 172.20.24.23 HW制御ボード 172.20.24.21 管理用LAN 98

これだけではリソース設定が無いので見てのとおりアプリケーションはなーんにも起動していません 99

リソース設定計画リソース制御するには事前に計画が必要リソースの選択 Apache PostgreSQL NW監視など何を使用するかリソースエージェント(RA)がなければ予め自作してみるかリソースの動作の定義リソースの監視 monitor 間隔は何秒にするかタイムアウトは故障時はどのように動作させるかリソースエージェント(RA)に与えるパラメータはリソース配置連携の定義リソースをどのノードで起動させるかリソースの起動順番は 100

リソース設定リソースの種類 Primitive Primitive Primitive Primitive フェイルオーバ Clone Clone Clone Clone Master / Slave Master Slave Slave 全てのリソース定義の基礎全てのリソース定義の基礎どこか一つのノードで動作させどこか一つのノードで動作させ故障時にフェイルオーバさせたい故障時にフェイルオーバさせたいリソースに使用リソースに使用 (例) (例)PostgreSQL, PostgreSQL,仮想IPアドレス仮想IPアドレス複数のノードで動作させたいリソースに複数のノードで動作させたいリソースに使用 Primitive 使用 Primitiveをを定義した後に定義した後にClone化する Clone化する (例) (例)NW監視, NW監視,ディスク監視ディスク監視複数のノードで動作させ親子関係のあ複数のノードで動作させ親子関係のあるリソースに使用 Primitive るリソースに使用 Primitiveを定義したを定義した後にMaseter/Slave化する後にMaseter/Slave化する RAには Masterに昇格 Slaveに降格さ RAには Masterに昇格 Slaveに降格させる関数の実装が必要せる関数の実装が必要 (例) (例)PostgreSQL9.1 PostgreSQL9.1Streaming Streaming Replication 101 Replication

リソース設定設定方法主に２通り cib.xml ファイルにXML形式で設定を記述 2での方法 XMLを手で書く必要があり面倒従来のHeartbeat crmコマンドで設定 Pacemakerからの新機能 102

リソース設定 cib.xml /var/lib/heartbeat/crm/cib.xml リソースの定義等を設定するXMLファイルを作成します (..略..) (..略..) <primitive <primitiveclass="ocf" class="ocf"id="prmip" id="prmip"provider="heartbeat" provider="heartbeat"type="ipaddr2"> type="ipaddr2"> <instance_attributes <instance_attributesid="prmip-instance_attributes"> id="prmip-instance_attributes"> <nvpair id="prmip-instance_attributes-ip" <nvpair id="prmip-instance_attributes-ip"name="ip" name="ip"value="192.168.0.100"/> value="192.168.0.100"/> <nvpair id="prmip-instance_attributes-nic" name="nic" <nvpair id="prmip-instance_attributes-nic" name="nic"value="eth0"/> value="eth0"/> <nvpair id="prmip-instance_attributes-cidr_netmask" name="cidr_netmask" <nvpair id="prmip-instance_attributes-cidr_netmask" name="cidr_netmask" value="24"/> value="24"/> </instance_attributes> </instance_attributes> <operations> <operations> <op <opid="prmip-start-0s" id="prmip-start-0s"interval="0s" interval="0s"name="start" name="start"on-fail="restart" on-fail="restart"timeout="60s"/> timeout="60s"/> <op id="prmip-monitor-10s" interval="10s" name="monitor" on-fail="restart" <op id="prmip-monitor-10s" interval="10s" name="monitor" on-fail="restart" timeout="60s"/> timeout="60s"/> <op <opid="prmip-stop-0s" id="prmip-stop-0s"interval="0s" interval="0s"name="stop" name="stop"on-fail="block" on-fail="block"timeout="60s"/> timeout="60s"/> </operations> </operations> </primitive> </primitive> XMLの記法を知る XMLの記法を知る必要があり難しい... 必要があり難しい... (..略..) (..略..) 103

Heartbeatバージョン2を使おうとしてこのXMLで挫折した人は多いはずです 104

そこで Pacemaker での新機能 crmコマンドを使ってみよう 105

リソース設定 crm コマンド階層構造をもったコマンドラインインターフェイス設定だけでなく Pacemakerの状態把握や管理も可能 TABキーで入力内容の補完可能 crm サブコマンド resource node options configure status help exit show : クラスタのリソース管理を行います cleanup status : クラスタのノード管理を行います standby show : crmコマンドの設定を行います edit load リソースの管理を行います : commit クラスタの状態を表示します crmコマンドのサブコマンドを表示します crmコマンドを終了します 106

リソース設定 crmコマンド実行例 ##crm crm IPaddr2 リソースエージェント IPaddr2 リソースエージェントを使用して仮想IPを設定をすを使用して仮想IPを設定をするcrmコマンド例でするcrmコマンド例です crm(live)# crm(live)#configure configure crm(live)configure# crm(live)configure#primitive primitiveprmip prmipocf:heartbeat:ipaddr2 ocf:heartbeat:ipaddr2\\ params paramsip= 192.168.0.100" ip= 192.168.0.100"nic="eth0 nic="eth0 \\ cidr_netmask="24" cidr_netmask="24"\\ op opstart startinterval="0s interval="0s timeout="60s" timeout="60s"on-fail="restart" on-fail="restart"\\ op opmonitor monitorinterval="10s interval="10s timeout="60s" timeout="60s"on-fail="restart" on-fail="restart"\\ op opstop stopinterval="0s" interval="0s"timeout="60s" timeout="60s"on-fail= fence on-fail= fence crm(live)configure# crm(live)configure#commit commit コミットされると cib.xmlに反映されてリソースが起動されますつまりリソース設定の根っこは cib.xml なのです 107

これでも設定方法がわかりにくいって人には 108

crmコマンドがわからなくてもまとめて設定できる簡単ツールを紹介します 109

crmファイル編集ツール pm_crmgen Linux-HA Linux-HA Japanで Japanで crmファイル編集ツールを開発 crmファイル編集ツールを開発 Excelのテンプレートファイルから簡単に crm用設定ファイルを生成してくれるツールリポジトリパッケージに含まれていますし個別にダウンロードも可能です http://sourceforge.jp/projects/linux-ha/ 110

どのサーバが優先的にActive NW監視は NWが壊れた時の挙動は STONITHの設定はなど細かい挙動の設定も可能です 111

crmファイル編集ツール設定イメージ１ Excelのテンプレートファイルにリソース定義を記載 /usr/share/pacemaker/pm_crmgen/pm_crmgen_env.xls ファイルをExcel が使用できるPCにコピーしますテンプレート青枠の中に値を記入していきます監視間隔やタイムアウト値監視間隔やタイムアウト値故障時の動作などを入力故障時の動作などを入力112

crmファイル編集ツールどのサーバをActiveにするかといったリソース配置制約の設定もサーバ名を記述するだけで可能ですリソースID リソースID ActiveとStandbyサー ActiveとStandbyサーバを指定バを指定 113

crmファイル編集ツール crm用設定ファイルに変換２ CSV形式でファイルを保存 crm_sample.csv など crm_sample.csv などとしてCSV形式で保存としてCSV形式で保存３ CSVファイルをサーバへ転送 CSVファイル保存後 SCPやFTP等でpm_crmgenがインストールされたサーバへ転送 114

crmファイル編集ツール crm用設定ファイルに変換４ pm_crmgenコマンドでcrmファイルを生成 ##pm_crmgen pm_crmgen o ocrm_sample.crm crm_sample.crm crm_sample.csv crm_sample.csv 生成する設定ファイル名３で転送した CSVファイル５ crmコマンドを実行してリソース設定を反映 ##crm crmconfigure configureload loadupdate update crm_sample.crm crm_sample.crm 115

crmファイル編集ツール出来上がった crmファイル例 (..略..) (..略..) Excelファイルで記述し Excelファイルで記述した仮想IPを設定するた仮想IPを設定する crmコマンドが crmコマンドがファイルに記述されますファイルに記述されます ### ###Primitive PrimitiveConfiguration Configuration### ### primitive primitiveprmip prmipocf:heartbeat:ipaddr2 ocf:heartbeat:ipaddr2\\ params params\\ ip= 192.168.0.100" ip= 192.168.0.100"\\ nic="eth0" nic="eth0"\\ cidr_netmask= 24" cidr_netmask= 24"\\ op opstart startinterval="0s" interval="0s"timeout="60s" timeout="60s"on-fail="restart" on-fail="restart"\\ op opmonitor monitorinterval="10s" interval="10s"timeout="60s" timeout="60s"on-fail="restart" on-fail="restart"\\ op opstop stopinterval="0s" interval="0s"timeout="60s" timeout="60s"on-fail= fence on-fail= fence (..略..) (..略..) 116

ログメッセージ制御機能 pm_logconv-hb Linux-HA Linux-HA Japanで Japanでログメッセージ制御機能を提供中ログメッセージ制御機能を提供中 Pacemaker標準ログ(ha-log)は出力が多くわかりにくいですが pm_logconv-hb を使用すると運用上必要なログだけを出力することができますさらにフェイルオーバが発生した際に Start Fail-over のログが出力されるようになりますクラスタ制御部がHeartbeat3である必要性があります (Corosyncは未対応です) 117

pm_logconv-hb 動作設定変換元のログファイル名変換元のログファイル名を指定を指定 /etc/pm_logconv.conf [Settings] [Settings] 変換後のログ変換後のログ ha_log_path = /var/log/ha-log ha_log_path = /var/log/ha-log ファイル名を指定ファイル名を指定 output_path = /var/log/pm_logconv.out output_path = /var/log/pm_logconv.out #hostcache_path #hostcache_path == /var/lib/heartbeat/hostcache /var/lib/heartbeat/hostcache #syslogformat #syslogformat == True True #reset_interval #reset_interval == 60 60 attribute_pingd attribute_pingd == not_defined not_defined default_ping_set default_ping_set or or default_ping_set default_ping_set lt lt 100 100 attribute_diskd attribute_diskd == not_defined not_defined diskcheck_status diskcheck_status or or diskcheck_status diskcheck_status eq eq ERROR ERROR attribute_diskd_inner attribute_diskd_inner == not_defined not_defined diskcheck_status_internal diskcheck_status_internal or or diskcheck_status_internal diskcheck_status_internal eq eq ERROR ERROR サービスリソースの最上位とサービスリソースの最上位と #logconv_logfacility #logconv_logfacility == daemon daemon 最下位のリソースIDを設定 act_rsc 最下位のリソースIDを設定 act_rsc == prmex, prmex, prmip prmip 118

pm_logconv-hb 起動設定 inittabに pm_logconv-hb 起動設定を追加し respawnで起動させます /etc/inittab 省略省略 logc:2345:respawn:/usr/share/pacemaker/pm_logconv/pm_logconv.py logc:2345:respawn:/usr/share/pacemaker/pm_logconv/pm_logconv.py RHEL6系では Upstartを使用する必要性があります 119

pm_logconv-hb ログ変換例 PostgreSQL起動時 /var/log/ha-log Jul 11 18:53:34 pm1 crmd: [1996]: info: do_lrm_rsc_op: Performing key=18:14:0:54ec38e9-bfac-4b29-9256-a9b9587456c6 Jul 11 18:53:34 pm1 crmd: [1996]: info: do_lrm_rsc_op: Performing key=18:14:0:54ec38e9-bfac-4b29-9256-a9b9587456c6 op=prmpg_start_0 ) op=prmpg_start_0 ) Jul 11 18:53:34 pm1 lrmd: [1993]: info: rsc:prmpg:63: start Jul 11 18:53:34 pm1 lrmd: [1993]: info: rsc:prmpg:63: start Jul 11 18:53:34 pm1 crmd: [1996]: info: process_lrm_event: LRM operation prmip_monitor_10000 (call=62, rc=0, cib-update=68, Jul 11 18:53:34 pm1 crmd: [1996]: info: process_lrm_event: LRM operation prmip_monitor_10000 (call=62, rc=0, cib-update=68, confirmed=false) ok confirmed=false) ok Jul 11 18:53:35 pm1 pgsql[19130]: INFO: server starting Jul 11 18:53:35 pm1 pgsql[19130]: INFO: server starting Jul 11 18:53:35 pm1 pgsql[19130]: INFO: PostgreSQL start command sent. Jul 11 18:53:35 pm1 pgsql[19130]: INFO: PostgreSQL start command sent. Jul 11 18:53:35 pm1 pgsql[19130]: WARNING: psql: could not connect to server: No such file or directory Is the server Jul 11 18:53:35 pm1 pgsql[19130]: WARNING: psql: could not connect to server: No such file or directory Is the server running locally and accepting connections on Unix domain socket "/tmp/.s.pgsql.5432"? running locally and accepting connections on Unix domain socket "/tmp/.s.pgsql.5432"? Jul 11 18:53:35 pm1 pgsql[19130]: WARNING: PostgreSQL template1 isn't running Jul 11 18:53:35 pm1 pgsql[19130]: WARNING: PostgreSQL template1 isn't running Jul 11 18:53:35 pm1 pgsql[19130]: WARNING: Connection error (connection to the server went bad and the session was not Jul 11 18:53:35 pm1 pgsql[19130]: WARNING: Connection error (connection to the server went bad and the session was not interactive) occurred while executing the psql command. interactive) occurred while executing the psql command. Jul 11 18:53:37 pm1 pgsql[19130]: INFO: PostgreSQL is started. Jul 11 18:53:37 pm1 pgsql[19130]: INFO: PostgreSQL is started. Jul 11 18:53:37 pm1 crmd: [1996]: info: process_lrm_event: LRM operation prmpg_start_0 (call=63, rc=0, cib-update=69, Jul 11 18:53:37 pm1 crmd: [1996]: info: process_lrm_event: LRM operation prmpg_start_0 (call=63, rc=0, cib-update=69, confirmed=true) ok confirmed=true) ok /var/log/pm_logconv.out 運用上必要なログだけを出力 Jul Jul 11 11 18:53:34 18:53:34 pm1 pm1 info: info: Resource Resource prmpg prmpg tries tries to to start. start. Jul Jul 11 11 18:53:37 18:53:37 pm1 pm1 info: info: Resource Resource prmpg prmpg started. started. (rc=0) (rc=0) 120

pm_logconv-hb フェイルオーバ時のログ出力例 /var/log/pm_logconv.out Jul Jul 11 11 19:02:15 19:02:15 pm2 pm2 ERROR: ERROR: Start Start to to fail-over. fail-over. Jul Jul 11 11 19:02:23 19:02:23 pm2 pm2 info: info: Resource Resource prmex prmex tries tries to to start. start. Jul Jul 11 11 19:02:24 19:02:24 pm2 pm2 info: info: Resource Resource prmex prmex started. started. (rc=0) (rc=0) Jul Jul 11 11 19:02:24 19:02:24 pm2 pm2 info: info: Resource Resource prmfs prmfs tries tries to to start. start. Jul Jul 11 11 19:02:24 19:02:24 pm2 pm2 info: info: Resource Resource prmfs prmfs started. started. (rc=0) (rc=0) Jul Jul 11 11 19:02:24 19:02:24 pm2 pm2 info: info: Resource Resource prmpg prmpg tries tries to to start. start. Jul Jul 11 11 19:02:26 19:02:26 pm2 pm2 info: info: Resource Resource prmpg prmpg started. started. (rc=0) (rc=0) Jul Jul 11 11 19:02:24 19:02:24 pm2 pm2 info: info: Resource Resource prmip prmip tries tries to to start. start. Jul Jul 11 11 19:02:24 19:02:24 pm2 pm2 info: info: Resource Resource prmip prmip started. started. (rc=0) (rc=0) Jul Jul 11 11 19:02:26 19:02:26 pm2 pm2 info: info: Resource Resource prmex prmex :: Move Move pm1 pm1 -> -> pm2 pm2 Jul Jul 11 11 19:02:26 19:02:26 pm2 pm2 info: info: Resource Resource prmip prmip :: Move Move pm1 pm1 -> -> pm2 pm2 Jul Jul 11 11 19:02:26 19:02:26 pm2 pm2 info: info: fail-over fail-over succeeded. succeeded. fail-overのログは DCノード側のみ出力されます 121

リソース設定をしてサービスの起動と本当にサービスが起動しているかデモします接続デモ例は接続デモ例は次ページ次ページ 122

デモ4 PostgreSQLに接続 demo(domain-0) demo# pgsql -U postgres -h 192.168.0.100 -c SELECT now(); DC サービスLAN pm1 仮想IP eth0 192.168.0.100 192.168.0.22 eth1 192.168.10.22 eth2 192.168.20.22 HW制御ボード 172.20.24.21 eth3 172.20.24.22 eth0 192.168.0.23 インターコネクトLAN1 インターコネクトLAN2 排他制御領域 /dev/xvdb1 DB領域 /dev/xvdb2 eth1 192.168.10.23 pm2 eth2 192.168.20.23 eth3 172.20.24.23 HW制御ボード 172.20.24.21 管理用LAN 123

⑤ いろいろ故障デモします 124

故障デモにあたって ============ Last updated: Fri May 25 14:59:57 2012 Stack: Heartbeat Current DC: pm2 (7f1b5dcb-e696-414d-8fca-da79274b0a74) - partition with quorum Version: 1.0.12-066152e 2 Nodes configured, unknown expected votes 6 Resources configured. ============ Online: [ pm1 pm2 ] crm_mon -fa の結果はデモでは表示しきれないので crm_mon -fa1 というワンショットモードコマンドから一部をデモ目的に必要な部分をスクリプトで抜き出し 1秒毎に表示してデモを行います推奨ではないですがデモの関係上Pacemakerは自動起動設定しています Resource Group: grppg prmex (ocf::heartbeat:sfex): Started pm1 prmfs (ocf::heartbeat:filesystem): Started pm1 prmpg (ocf::heartbeat:pgsql): Started pm1 prmip (ocf::heartbeat:ipaddr2): Started pm1 Resource Group: grpstonith1 prmstonith1-1 (stonith:external/stonith-helper): Started pm2 prmstonith1-2 (stonith:external/libvirt): Started pm2 prmstonith1-3 (stonith:meatware): Started pm2 Resource Group: grpstonith2 prmstonith2-1 (stonith:external/stonith-helper): Started pm1 prmstonith2-2 (stonith:external/libvirt): Started pm1 prmstonith2-3 (stonith:meatware): Started pm1 Clone Set: clndiskd1 Started: [ pm1 pm2 ] Clone Set: clndiskd2 Started: [ pm1 pm2 ] Clone Set: clnpingd Started: [ pm1 pm2 ] Node Attributes: * Node pm1: + default_ping_set + diskcheck_status + diskcheck_status_internal + pm2-eth1 + pm2-eth2 * Node pm2: + default_ping_set + diskcheck_status + diskcheck_status_internal + pm1-eth1 + pm1-eth2 : : : : : 100 normal normal up up : : : : : 100 normal normal up up Migration summary: * Node pm2: * Node pm1: 125

デモ5 サービスLAN故障させてみる ping監視先(pdummy0) 192.168.0.21 crm_mon結果は crm_mon結果は次ページ次ページサービスLAN 仮想IP 192.168.0.100 pm1 clnpingd 擬似LAN断故障 pm1# iptables -A INPUT -i eth0 DC -j DROP 故障 eth0 eth0 インターコネクトLAN1 eth1 eth1 pm2 clnpingd インターコネクトLAN2 eth2 HW制御ボード eth3 eth2 排他制御領域 /dev/xvdb1 DB領域 /dev/xvdb2 eth3 HW制御ボード管理用LAN 126

##crm_mon crm_mon-fa -fa 省略 Node Attributes: * Node pm1: + default_ping_set : 0 + diskcheck_status : normal + diskcheck_status_internal : normal : Connectivity is lost サービスLAN故サービスLAN故障を表示障を表示 127

デモ6 スタンバイ化してリソースグループ移動させてみる # crm node standby pm2 DC サービスLAN 仮想IP 192.168.0.100 pm1 eth0 eth0 インターコネクトLAN1 eth1 インターコネクトLAN2 リソースグループ移動 eth2 HW制御ボード eth3 排他制御領域 /dev/xvdb1 DB領域 /dev/xvdb2 grppg eth1 192.168.10.23 prmex pm2 standby eth2 prmfs 192.168.20.23 prmpg eth3 prmip 172.20.24.23 HW制御ボード管理用LAN 128

オンライン化を忘れずに # crm node online pm2 DC サービスLAN 仮想IP 192.168.0.100 pm1 eth0 grppg prmex eth0 インターコネクトLAN1 eth1 インターコネクトLAN2 prmfs eth2 prmpg HW制御ボード prmip eth3 排他制御領域 /dev/xvdb1 DB領域 /dev/xvdb2 eth1 192.168.10.23 pm2 standby online eth2 192.168.20.23 eth3 172.20.24.23 HW制御ボード管理用LAN 129

デモ7 リソース故障させてみる crm_mon結果は crm_mon結果は次ページ次ページ擬似故障 # kill -9 postgresql親プロセス DC サービスLAN 仮想IP 192.168.0.100 pm1 eth0 eth0 インターコネクトLAN1 eth1 故障 HW制御ボード pm2 eth1 インターコネクトLAN2 eth2 eth3 フェイルオーバ排他制御領域 /dev/xvdb1 DB領域 /dev/xvdb2 eth2 eth3 HW制御ボード管理用LAN 130

##crm_mon crm_mon-fa -fa 省略 Online: [ pm1 pm2 ] Resource Group: grppg prmex (ocf::heartbeat:sfex): Started prmfs (ocf::heartbeat:filesystem): prmpg (ocf::heartbeat:pgsql): Started prmip (ocf::heartbeat:ipaddr2): pm1 Started pm1 pm1 FAILED Started pm1 故障検出を表示故障検出を表示 131

デモ8 この状態でスタンバイ化によりリソースグループ移動させてみる # crm node standby pm2 DC サービスLAN 仮想IP 192.168.0.100 pm1 eth0 eth0 インターコネクトLAN1 eth1 フェイルカウント HW制御ボードインターコネクトLAN2 リソースグループ移動 eth2 eth3 排他制御領域 /dev/xvdb1 DB領域 /dev/xvdb2 grppg eth1 192.168.10.23 prmex pm2 standby eth2 prmfs 192.168.20.23 prmpg eth3 prmip 172.20.24.23 HW制御ボード管理用LAN 132

切り替わらないのはミスではありません 133

故障を示すフェイルカウントがカウントアップされているためクリアしなければ切り替わりません ## crm_mon crm_mon -fa -fa ============ ============ 省略省略 ============ ============ Migration Migration summary: summary: ** Node Node pm1: pm1: prmpg: prmpg: migration-threshold=1 migration-threshold=1 fail-count=1 fail-count=1 ** Node Node pm2: pm2: Failed Failed actions: actions: prmpg_monitor_10000 prmpg_monitor_10000 (node=pm1, (node=pm1, call=34, call=34, rc=7, rc=7, status=complete): status=complete): not not running running 134

デモ9 フェイルカウントをクリアしてみる # crm resource cleanup prmpg pm1 DC サービスLAN 仮想IP 192.168.0.100 pm1 eth0 grppg eth0 インターコネクトLAN1 eth1 フェイルカウントクリア eth1 prmex インターコネクトLAN2 eth2 prmfs prmpg HW制御ボード pm2 prmip eth3 eth2 排他制御領域 /dev/xvdb1 DB領域 /dev/xvdb2 eth3 HW制御ボード管理用LAN 135

またオンライン化を忘れずに # crm node online pm2 DC サービスLAN 仮想IP 192.168.0.100 pm1 eth0 grppg prmex eth0 インターコネクトLAN1 eth1 インターコネクトLAN2 prmfs eth2 prmpg HW制御ボード prmip eth3 排他制御領域 /dev/xvdb1 DB領域 /dev/xvdb2 eth1 192.168.10.23 pm2 standby online eth2 192.168.20.23 eth3 172.20.24.23 HW制御ボード管理用LAN 136

リソース故障時停止タイムアウトデモ10 タイムアウト擬似のたタイムアウト擬似のための仕掛けは次ページめの仕掛けは次ページ擬似故障 # kill -9 postgresql親プロセス DC サービスLAN 仮想IP 192.168.0.100 pm1 eth0 eth0 インターコネクトLAN1 eth1 故障 eth1 STONITH インターコネクトLAN2 eth2 停止タイムアウト eth3 HW制御ボード pm2 eth2 排他制御領域 /dev/xvdb1 DB領域フェイルオーバ /dev/xvdb2 失敗 eth3 HW制御ボード管理用LAN 137

停止タイムアウトデモのためにこんな仕掛けします 1. pgsqlリソースエージェントのstop制御部に sleep 60 をわざと入れます /usr/lib/ocf/resource.d/heartbeat/pgsql 381 #pgsql_stop: Stop PostgreSQL 382 pgsql_stop() { 383 local rc 384 sleep 60 385 if! pgsql_status 386 then 387 #Already stopped 388 return $OCF_SUCCESS 389 fi 138

2. crmコマンドのeditモードで prmpg のストップタイムアウトを 60s から 10s に変更します初期構築後値を変更し初期構築後値を変更したい場合に便利ですたい場合に便利です ## crm crm configure configure edit edit primitive primitive prmpg prmpg ocf:heartbeat:pgsql ocf:heartbeat:pgsql \\ params params pgctl="/usr/pgsql-9.1/bin/pg_ctl" pgctl="/usr/pgsql-9.1/bin/pg_ctl" psql="/usr/pgsqlpsql="/usr/pgsql9.1/bin/psql" 9.1/bin/psql" pgdata="/var/lib/pgsql/9.1/data" pgdata="/var/lib/pgsql/9.1/data" pgdba="postgres" pgdba="postgres" pgport="5432" pgport="5432" pgdb="template1" pgdb="template1" \\ op op start start interval="0s" interval="0s" timeout="60s" timeout="60s" on-fail="restart" on-fail="restart" \\ op op monitor monitor interval="10s" interval="10s" timeout="60s" timeout="60s" ononfail="restart" fail="restart" \\ op op stop stop interval="0s" interval="0s" timeout="10s" timeout="10s" on-fail="fence" on-fail="fence" 139

## crm_mon crm_mon -fa -fa Migration summary: * Node pm1: prmpg: migration-threshold=1 fail-count=1 * Node pm2: Failed actions: prmpg_monitor_10000 (node=pm1, call=34, rc=7, status=complete): not running prmpg_stop_0 (node=pm1, call=35, rc=-2, status=timed Out): unknown exec error ストップタイムアウト状態ストップタイムアウト状態を表示を表示 140

デモ11 スプリットブレイン擬似故障 # ifdown eth1 # ifdown eth2 DC サービスLAN 仮想IP 192.168.0.100 pm1 eth0 eth0 インターコネクトLAN1 eth1 故障 pm2 eth1 インターコネクトLAN2 eth2 HW制御ボード eth3 eth2 排他制御領域 /dev/xvdb1 DB領域 /dev/xvdb2 STONITH eth3 HW制御ボード管理用LAN 141

デモ12 ノード一時停止させてみる demo # virsh suspend pm2 DC サービスLAN 仮想IP 192.168.0.100 pm1 eth0 eth0 インターコネクトLAN1 eth1 eth1 インターコネクトLAN2 eth2 HW制御ボード eth3 pm2 suspend eth2 排他制御領域 /dev/xvdb1 DB領域 /dev/xvdb2 eth3 HW制御ボード管理用LAN 142

Pacemakerプロセス故障させてみるデモ13 擬似故障 # kill -9 crmd サービスLAN DC 仮想IP 192.168.0.100 pm1 eth0 eth0 インターコネクトLAN1 eth1 pm2 eth1 インターコネクトLAN2 eth2 HW制御ボード eth3 eth2 排他制御領域 /dev/xvdb1 DB領域 /dev/xvdb2 eth3 HW制御ボード管理用LAN 143

Pacemakerプロセス故障時の挙動クラスタ制御機能にHeartbeat3使用の場合 Pacemakerプロセスプロセス故障時の挙動 heartbeat: master control process サーバ再起動 ccm cib crmd lrmd pengine heartbeat: FIFO reader プロセス再起動 heartbeat: write: bcast ethx heartbeat: read: bcast ethx stonithd attrd ifcheckd 144

⑥ Linux-HA Japanについて 145

Linux-HA Japanの経緯 Heartbeat(ハートビート) の日本における更なる普及展開を目的として 2007年10月5日 Linux-HA (Heartbeat) 日本語サイトを設立し日本でのLinux-HA コミュニティ活動として Heartbeat２のrpmバイナリや機能追加用パッケージを提供してきました現在は Pacemakerリポジトリパッケージの提供や PostgreSQL 9.1 Streaming Replication に対応したリソースエージェント開発などの活動を行っていますこのRAが入ったこのRAが入った resource-agents-3.9.3 resource-agents-3.9.3 はは日本時間で本日めでたくリリース日本時間で本日めでたくリリース 146

Linux-HA Japan URL http://linux-ha.sourceforge.jp/ (一般向け) http://sourceforge.jp/projects/linux-ha/ (開発者向け) Pacemaker情報の公開用として随時情報を更新中ですこのサイトより Pacemakerリポジトリパッケージがダウンロード可能です 147

Linux-HA Japanメーリングリスト日本におけるHAクラスタについての活発な意見交換の場として Linux-HA Japan日本語メーリングリストも開設しています Linux-HA-Japan MLでは Pacemaker Heartbeat３ Corosync DRBDなど HAクラスタに関連する話題は歓迎 ML登録用URL http://linux-ha.sourceforge.jp/ のメーリングリストをクリック MLアドレス linux-ha-japan@lists.sourceforge.jp スパム防止のために登録者以外の投稿は許可制です 148

本家Pacemakerサイト http://clusterlabs.org/ Fedora, Fedora, opensuse, opensuse, EPEL(CentOS/RHEL) EPEL(CentOS/RHEL) のrpmがダウンロードのrpmがダウンロード可能です可能です http://clusterlabs.org/rpm 149

ぢつは本家の Pacemakerのロゴはこれでした... 150

しかしこれではいかにも医療機器っぽいので 151

Pacemakerロゴ Linux-HA Japan では Pacemakerのロゴバナーを独自に作成これってうさぎ 152

本家Pacemakerロゴに勝負を挑みました http://theclusterguy.clusterlabs.org/post/1551578523/new-logo Cluster Guy New logo 検索 VS 153

すると新ロゴが圧倒的リードで勝利したのです VS YOU RE WINNER! 154

しかし 155

本家Pacemaker新ロゴは青になるというオチに 156

ご清聴ありがとうございました Linux-HA Japan 検索検索 http://linux-ha.sourceforge.jp/ 157