スライド 1

Similar documents
テーマ Pacemaker-1.1 を味わうための 便利 な使い方 ~ 保守運用に活用しよう ~ Pacemaker で対応する 故障 ケースの起こし方と復旧手順 ~ 事前に動作検証しよう ~ 実際の構築運用シーンで起きる問題の 解決 方法 ~ よくある問題を理解しよう ~ 2

HAクラスタをフェイルオーバ失敗から救おう!

Pacemakerでかんたんクラスタリング体験してみよう

まずは、Pacemakerを使ってみよう!

3 検証結果 3.1 ソフトウェアのインストール Red Hat Enterprise Linux 5.7 は最小構成でインストールし 最新バージョンにアップデートした Thirdware Linux-HA を構成するパッケージ (DRBD Heartbeat Pacemaker) は LINBIT

<4D F736F F F696E74202D E656D6F73837D836C815B C B CC90DA91B182CC8E DD82F0979D89F082B582E682A F38DFC E >

自己紹介 名前 所属 飯田雄介 ( いいだゆうすけ ) 主な活動 Linux-HA Japan プロジェクト Pacemaker 本体の機能改善や 外部ツールの開発を行っています Linux-HA Japan から pm_logconv や pm_crmgen といったツールを提供しています 2

実演!Pacemakerで楽々クラスタリング

目次 Pacemaker ってなに? Pacemaker の設定とは? Pacemaker のリソース設定 リソース定義 パラメータ設定 リソース種類選択 リソース制約 クラスタ設定 さいごに Linux-HA Japan の紹介 Linux-HA Japan Project 2

iRMC S4 ご使用上の留意・注意事項

Microsoft Word - ssVPN MacOS クライアントマニュアル_120版.doc

CLUSTERPRO MC StorageSaver istorage M シリーズ使用時の設定手順 (HP-UX 版 Linux 版 Windows 版 ) 2013(Apr) NEC Corporation istorage M シリーズを使用する場合の StorageSaver 設定手順 (H

CLUSTERPRO MC ProcessSaver 1.2 for Windows 導入ガイド 第 4 版 2014 年 3 月 日本電気株式会社

BR5010ESLTE-GW 取扱説明書 ログ編 第 1.0 版 2018 年 2 月

Windows Server 2003 Service Pack 適用手順書

CLUSTERPRO MC StorageSaver 2.1 for Linux FAQ 集 2016(Mar) NEC Corporation 導入に関する質問 起動 終了に関する質問 監視に関する質問 障害復旧に関する質問 クラスタに関する質問 動作環境に関する質問

内容環境... 3 対応 OS の変更... 3 関連アプリケーションの追加... 4 機能追加... 5 グラフ機能... 5 稼働率... 8 サービス一括削除 自動復旧エスカレーションコマンド AWS カスタムメトリックス監視 NRPE 任意監視... 11

PRIMERGY TX100 S3 未サポートOS動作検証確認情報

GenieATM 6300-T / 6200-T シリーズ 1. 基本的な機器オペレーションのために 1-1. 機器への接続 機器への接続方法は 以下の 2 通りがあります シリアルポートを使用してログインする LAN 経由で Telnet または SSH を使用して仮想 Interface からロ

CLUSTERPRO MC StorageSaver 2.2 for Linux リリースメモ 2017(Apr) NEC Corporation ライセンス パッケージのインストール セットアップ マニュアル 補足事項 注意事項

CLUSTERPRO MC ProcessSaver 2.3 for Windows 導入ガイド 第 5 版 2018 年 6 月 日本電気株式会社

Microsoft Word - nvsi_090200jp_r1_nvbsvr_mscs.doc

eo 光ベーシックルータ (BAR1G01) 取扱説明書 (Ver1.0) 1 目次 1. 設定画面を開く ステータス画面で接続状態を確認する 基本設定 インターネット接続設定 DHCPサーバー機能設定 IPアドレ

1. はじめに (1) 本書の位置づけ 本書ではベジフルネット Ver4 の導入に関連した次の事項について記載する ベジフルネット Ver4 で改善された機能について 新機能の操作に関する概要説明 ベジフルネット Ver4 プログラムのインストールについて Ver4 のインストール手順についての説明

Microsoft Word - nvsi_060132jp_datadomain_restoreDRAFT4.doc

VG シリーズ用ローカルファームアップ / 自動ファームウェア更新設定手順書 VG400aⅡ ローカルファームアップ / 自動ファームウェア更新設定手順書

取り付け前の確認 準備 この章では 本製品をパソコンへ取り付ける前の確認や準備について説明します 各部の名称 機能 3 ヘ ーシ 本製品の各部の機能 名称を確認します ネットワークへの接続 4 ヘ ーシ 本製品をネットワークに接続します 2

PRIMERGY TX150 S7 SAS アレイコントローラカード <RAID 5> フリーOS 動作確認情報

PRIMERGY TX100 S3 未サポートOS動作検証確認情報

HP Serviceguard Solution for Linux(11.20) の MIRACLE System Savior バックアップ検証報告書 MIRACLE System Savior を使用した HP Serviceguard Solution for Linux(11.20) 環境

実演!Pacemakerで楽々クラスタリング OSC2011Tokyo/Spring

Heartbeat + Xenで仮想化クラスタリングしてみよう!

1. はじめに Systemwalker Desktop Patrol V 以降でセキュリティ監査として BIOS パスワード設定の監査 を提供しています しかし Systemwalker Desktop Patrol メインメニュー のセキュリティ情報に表示される起動パスワード 設定パ

Microsoft Word - TestReport_PRIMEPOWER250_ doc

<MW-400k > InterSec/MW400k アップデート適用手順書 2017 年 8 月 1 版

SigmaSystemCenter ネットワークアダプタ冗長化構築資料 第 3 版

共有フォルダ接続手順 1 共有フォルダ接続ツールのダウンロード 展開 CSVEX のトップページから共有フォルダ接続ツールの zip ファイルをダウンロードします ダウンロードした zip ファイルを右クリックして すべて展開 を選択します (Windows 環境では zip ファイルを解凍しなくて

CLUSTERPRO MC ProcessSaver 2.1 for Windows 構築ガイド 2016(Mar) NEC Corporation はじめに 責任範囲 適用範囲 概要 事前準備 クラスタ設定

同期を開始する ( 初期設定 ) 2 1 Remote Link PC Sync を起動する 2 1 接続機器の [PIN コード ] [ ユーザー名 ] [ パスワード ] を入力する [PIN コード ] などの情報は 接続機器の設定画面でご確認ください 例 )HLS-C シリーズの場合 :[R

NFS On CLUSTERPRO for Linux

Microsoft Word - qtsi_120246jp_rhev.doc

SAMBA Stunnel(Windows) 編 1. インストール 1 セキュア SAMBA の URL にアクセスし ログインを行います xxx 部分は会社様によって異なります xxxxx 2 Windows 版ダウンロード ボ

Microsoft Word - Et100pciS2_02a†iWinXP_PDFŠp†j.doc

ServerView Agents 補足情報

_mokuji_2nd.indd

CLUSTERPRO X IIJ GIO インフラストラクチャー P2 動作検証報告 2017 年 11 月日本電気株式会社クラウドプラットフォーム事業部 CLUSTERPROグループ 1 NEC Corporation 2017

PRIMERGY RX300 S6 SAS コントローラカード <RAID 5> フリーOS 動作確認情報

DHCPサーバのクラスタ化

はしがき 本書は CLUSTERPRO MC ProcessSaver 1.0 for Linux ( 以後 ProcessSaver と記載します ) と CLUSTERPRO X 3.1 for Linux ( 以後 CLUSTERPRO と記載します ) を組み合わせて フェイルオーバクラスタ

SAMBA Stunnel(Mac) 編 1. インストール 1 セキュア SAMBA の URL にアクセスし ログインを行います xxxxx 部分は会社様によって異なります xxxxx 2 Mac OS 版ダウンロー

ServerView RAID Manager VMware vSphere ESXi 5 インストールガイド

CLUSTERPRO MC ProcessSaver 1.0 for Windows 構築ガイド 2012(Sep) NEC Corporation はじめに責任範囲適用範囲概要事前準備クラスタ設定

スライド 1

別紙 : 検証環境の構築手順 ( 章 ) 1. サーバ設定 1.1 IP アドレス設定 サーバは以下の 6 台を用いる pgpool-ii サーバ 2 台 DB サーバ 3 台 上位サーバ 1 台 OS は全サーバで CentOS 6.4 x86_64 とする pgpool-ii のサー

STB3操作マニュアル

PRIMERGY TX100 S1 未サポートOS動作検証確認情報

SAMBA Remote(Mac) 編 PC にソフトをインストールすることによって OpenVPN でセキュア SAMBA へ接続することができます 注意 OpenVPN 接続は仮想 IP を使用します ローカル環境にて IP 設定が被らない事をご確認下さい 万が一仮想 IP とローカル環境 IP

本マニュアルに記載された内容は 将来予告なしに一部または全体を修正及び変更することがあります なお 本マニュアルにこのような不備がありましても 運用上の影響につきましては責任を負いかねますのでご了承ください 本マニュアルの一部 あるいは全部について 許諾を得ずに無断で転載することを禁じます ( 電子

PRIMERGY TX140 S1 未サポートOS動作検証確認情報

eo光ベーシックルーター(BAR100M01)_1904

PostgreSQL Plus 管理者ガイド

URoad-TEC101 Syslog Guide

ServerView Agents補足情報

PRIMERGY TX1310 M1 未サポートOS動作検証確認情報

Linkexpress トラブル初期調査資料 採取コマンド使用手引書

CLUSTERPRO MC StorageSaver ハードウェア障害復旧後の運用手順 (HP-UX 版 Linux 版 Windows 版 ) 2012(Sep) NEC Corporation はじめに ハードウェア障害復旧後の運用手順 注意 制限事項


modemmanual.xls

ServerView RAID Manager VMware vSphere ESXi 6 インストールガイド

2

Microsoft Word - DWR-S01D_Updater_取扱説明書_120514A.doc

ServerView Resource Orchestrator V3.0 ネットワーク構成情報ファイルツール(Excel形式)の利用方法

はじめに このドキュメントではftServerに関する障害調査を行う際に 必要となるログ データの取得方法を説明しています ログ データの取得には 初期解析用のデータの取得方法と 詳細な調査を行うときのデータ取得方法があります 特別な理由でOS 側のログが必要となった場合には RHELログの取得につ

Transcription:

HA クラスタサポートの日々 ~Pacemaker 導入 運用の勘所 ~ 2012 年 8 月 4 日 OSC2012 Kansai/Kyoto Linux-HA Japan 赤松洋 Linux-HA Japan Project 1

ある日 赤松君 最近 Pacemaker の問い合わせが多いね 三井さん 今週 5 件ですね 今年度だけですでに 50 件超えてます わが社だけでこれだけあるということは コミュニティでも困ってる人が多いんじゃないかなぁ? 赤松 Linux-HA Japan Project 2

ある日 まぁ そうかもしれませんね 三井さん よし決めた! 保守運用ノウハウを OSC で発表しよう! あの半年前も OSC 東京でしましたよ? 赤松 Linux-HA Japan Project 3

ある日 三井さん 赤松くん! あとよろしく! 赤松 Linux-HA Japan Project 4

登場人物 三井さん Linux-HA の重鎮の一人何でも答えてくれます! 赤松今回の演者 日々汗を流してサポート業務に励んでいます 更に Linux-HA Japan Project 5

登場人物 かなさんとかよさんにも登場して頂きます Linux-HA Japan Project 6

本日のお話 1 2 3 フェイルオーバーに関する運用 Pacemaker の自動起動 停止 リストア stonith について Linux-HA Japan Project 7

ちなみに インストール 環境構築の話はありません GUI Corosync の話もありません 仮想化の話は少し触れるかもしれません DRBD の話もありません Linux-HA Japan Project 8

ちなみに 環境は Pacemaker + Heartbeat(1.0.12) に特化しています 個人的な見解に沿っている所もあります ご不明な点は後ほどブースや メール等でお問い合わせ下さい Linux-HA Japan Project 9

本日のお話 1 2 3 フェイルオーバーに関する運用 Pacemaker の自動起動 停止 リストア 最後に stonith について Linux-HA Japan Project 10

某社のシステム構成 srv01 ACT SBY srv02 フェイルオーバ対象 sfex prmsfex(sfex) prmip(ipaddr2) prmfs(filesystem) prmdb(pgsql) grpdb Linux-HA Japan Project 11

大変です! どうされましたか? リソースがフェイルオーバーしてます! 何をしたらよいでしょうか!? Linux-HA Japan Project 12

まずは現状認識 srv01 と srv02 の状況 srv02 ではリソースが正常稼働しているか 具体的には crm_mon コマンドを実行 [srv02 ]# crm_mon -fa -1 srv01 が稼働しているか srv02 で正常稼働中か ha-log, messages ファイルなどを保存 分析 その結果から Linux-HA Japan Project 13

現状の確認 サーバの電源入ってない サーバの電源 ON Pacemaker が起動していない ハードやログの確認 コミュニティへ質問等 リソース異常が出力 Pcemaker 起動 Standby 実施 異常の調査 復旧 NW 経路 ディスク異常 リソース異常 Linux-HA Japan Project 14

サーバの電源が入っていない 各ケーブルの結線の確認 電源押下 ディスクの状況確認 ログファイルを分析用に保存 調査 コミュニティへ質問 メディア入れっぱなし? 抜いた? 暴走? Pacemaker が起動していない時 上記同様の確認 ログファイルを分析用に保存 調査 コミュニティへ質問 Pacemaker の起動 Pacemaker 暴走? Stonith? Linux-HA Japan Project 15

リソース異常が出力 srv01 を Standby 化します [srv02 ]# crm -R node standby srv01 再度 現状認識 [srv02 ]# crm_mon -fa -1 その結果から ( 主に ) 下記の異常が判定 NW 経路監視に異常 ディスク監視に異常 リソースに異常 Linux-HA Japan Project 16

リソース異常が出力 srv01 を Standby 化します [srv02 ]# crm -R node standby srv01 再度 現状認識 [srv02 ]# crm_mon -fa -1 -R をつけると どんな効果があるでしょうか? その結果から ( 主に ) 下記の異常が判定 NW 経路監視に異常 ディスク監視に異常 リソースに異常 クイズ! Linux-HA Japan Project 17

NW 経路監視に異常 [srv01 ]# crm_mon -fa -1 * Node srv01: + default_ping_set : 0 : Connectivity is lost srv01 から経路監視先への導通で異常発生! ケーブル抜線? NIC 故障? Ifconfig down iptables 問題が解決したらクラスタメンバに復帰 [srv01 ]# crm -R node online srv01 Linux-HA Japan Project 18

ディスク経路監視に異常 [srv01 ]# crm_mon -fa -1 + diskcheck_status : ERROR サーバと共有ディスク間の導通で異常発生! ケーブル抜線? ディスク破損? Multipahtd iscsi 等異常 問題が解決したらクラスタメンバに復帰 [srv01 ]# crm -R node online srv01 Linux-HA Japan Project 19

リソース異常 [srv01 ]# crm_mon -fa -1 * Node srv01: prmdb: migration-threshold=1 fail-count=1 Failed actions: prmdb_monitor_10000 (node=srv01, call=xxx, rc=-2, status=timed Out): unknown exec error 異常情報をクリアして クラスタメンバに復帰! [srv01 ]# crm -R resource cleanup prmdb srv01 [srv01 ]# crm -R node online srv01 Linux-HA Japan Project 20

大変です! どうされましたか? リソースが両系共にいません! どうしたらよいでしょうか!? Linux-HA Japan Project 21

まずは現状認識 両系ともサーバ自体の電源確認 両系ともに Pacemaker が稼働している事を確認 srv02 を standby 化 停電? 抜線? 最終的に srv01 でリソースを稼働させるため [srv02 ]# crm -R node standby srv02 次に crm_mon コマンドを実行 [srv02 ]# crm_mon -fa -1 Linux-HA Japan Project 22

現状の確認 NW 経路異常 ディスク異常 監視先確認等 Pacemaker 停止 両系でリソース異常 リソース制約未解除 データ復旧 srv01 srv02 の順で異常解除 電源断 Pacemaker 未稼働 制約解除 Linux-HA Japan Project 23

NW 経路監視が両系ともに異常 経路監視先 ( デフォゲー等 ) が落ちてる可能性あり [srv01 ]# crm_mon -fa -1 * Node srv01: + default_ping_set : 0 : Connectivity is lost * Node srv02: + default_ping_set : 0 : Connectivity is lost NW 関係の機材等を確認 問題が解決したらクラスタメンバに自動で復帰 standby を解除 [srv01 ]# crm -R node online srv02 Linux-HA Japan Project 24

ディスク監視が両系ともに異常 共有ディスクに異常が発生している可能性あり [srv01 ]# crm_mon -fa -1 * Node srv01: + diskcheck_status : ERROR * Node srv02: + diskcheck_status : ERROR FC ケーブル等に異常が無い場合 Pacemaker を直ちに停止 データの調査 復旧等を実施 まずい状況! Linux-HA Japan Project 25

両系でリソース異常 片系で監視異常 対向でも起動失敗等 [srv01 ]# crm_mon -fa -1 Failed actions: prmdb_monitor_10000 (node=srv01, call=xxx, rc=7, status=complete): not running prmdb_start_0 (node=srv02, call=xxx, rc=-2, status=timed Out): unknown exec error 同時刻に重い処理 ( ウィルススキャンとか ) が走った マウント対象デバイスの設定に問題がある Linux-HA Japan Project 26

両系でリソース異常 異常情報をクリアしてサービス再開! 1 2 3 4 5 srv01 のリソース異常を解除 リソース再開 # crm -R resource cleanup prmdb srv01 srv01 でリソース再開を確認 # crm_mon -fa -1 srv02 のリソース異常を解除 # crm -R resource cleanup prmdb srv02 srv02 のリソース解除を確認 # crm_mon -fa -1 srv02 の standby 解除 # crm -R node online srv02 Linux-HA Japan Project 27

リソース移動制約が効いている ( 解除忘れ ) 以前 リソースを意図して対向サーバへ移動させた crm_mon コマンドでは判定できず ログファイルに残るが ローテートされて消えてしまう 下記コマンドで制約の存在確認が可能 [srv01 ]# cibadmin -Q grep cli-standby grep srv02 <expression id= cli-standby-expr-grpdb attribute="#uname" operation="eq" value= srv02" type="string"/> 例えば srv01 にてリソース異常が発生したが srv02 で上記制約が効いていると 両系で起動されない Linux-HA Japan Project 28

リソース移動制約が効いている 制約情報をクリアしてサービス再開! 1 2 3 4 5 srv01 のリソース異常を解除 リソース再開 # crm -R resource cleanup prmdb srv01 srv01 でリソースが再開された事を確認 # crm_mon -fa -1 リソース起動制約を解除 # crm -R resource unmove prmdb 解除された事を確認 # cibadmin -Q grep cli grep srv02 srv02 の standby 解除 # crm -R node online srv02 Linux-HA Japan Project 29

Pacemaker あるある : リソース異常の原因 高負荷だった ( バッチ処理 ウィルススキャン等 ) /tmp 配下のファイルが消された max_connections を超えていた pg_hba.conf( 認証用ファイル ) を編集した or 消した multipathd, iscsi の起動漏れによるデバイス無効 マウントする時に fsck の完全チェックが走った ${DocumentRoot}/index.html が無い or grep で失敗 ログファイルのパーミッションが root だった その他 :cib.xml の場所をド忘れ お互い 気をつけましょう Linux-HA Japan Project 30

さらにおまけ : 起動スクリプトによる制御 LSB(Linux Standard Base) の仕様に則ったスクリプトである事 http://refspecs.linuxfoundation.org/lsb_4.1.0/lsb-coregeneric/lsb-core-generic/iniscrptact.html 1 start / stop / status の各メソッドが実装されている 2 停止中に start メソッドが実行され 正常起動した場合は "0" を返す 3 停止中に start メソッドが実行され 起動失敗した場合は "0" 以外を返す 4 稼動中に stop メソッドが実行され 正常停止した場合は "0" を返す 5 稼動中に stop メソッドが実行され 停止失敗した場合は "0" 以外を返す 6 稼動中に status メソッドが実行された場合は "0" を返す 7 停止中に status メソッドが実行された場合は "0" 以外を返す 8 停止中に stop メソッドが実行された場合は "0" を返す Linux-HA Japan Project 31

さらにおまけ : 起動スクリプトによる制御 ただし! 監視処理が緩い! pid ファイルの存在確認 /proc/$pid 確認程度 プロセスがサスペンドしてても気づかない RA であれば wget, select 文等 より確実で高度な動作確認が可能 基本的には RA でリソース管理する事を勧めます 且つ コミュニティ提供の RA を利用される際は 事前に必ず目を通される事を勧めます 個人的な見解 : snmpd, ntpd, multipathd 等 両系必ず動いていなくてはいけないリソースをクローンとして稼働させる時には起動スクリプトでも良いのかなと思います尚 クローンはリソースが稼働した状態でも停止させずにそのまま組み込めます Linux-HA Japan Project 32

本日のお話 1 2 3 フェイルオーバーに関する運用 Pacemaker の自動起動 停止 リストア 最後に stonith について Linux-HA Japan Project 33

shutdown コマンドでサーバが停止しません! 大変です! どうされましたか? Linux-HA Japan Project 34

実は Pacemaker を手動停止する前にサーバを緩やかに停止 ( ) する事は少し危険 リソース停止異常が発生すると ダンマリしちゃう! ゲスト OS を管理対象にしていると 対向でゲスト OS がまともに起動しない! 詳細については別途 # shutdown -h now 保守者は Pacemaker を事前に停止させ 停止を確認した後にサーバの停止を行って下さい もしくは 上記状態になったら # reboot -f -r Linux-HA Japan Project 35

更に Pacemaker の自動起動も あんまりお勧めしません 各ネットワーク ちゃんと繋がってるか 共有ディスクとの接続 問題無いか リソースの設定ファイル等がキチンと用意されてるか これらを保守運用者さんが確認してから起動しないとヘンなところで止まっちゃう 保守者は Pacemaker を起動する前に 環境の確認を行って下さい Linux-HA Japan Project 36

Pacemaker を起動したのに ずっと OFFLINE のままで クラスタメンバに入ってきません! 大変です! どうされましたか? Linux-HA Japan Project 37

実は リストア手順を誤ると クラスタに組みこまれない 片系で正常稼働 もう片系を停止後 丸ごとリストア リストア後に Pacemaker を起動すると 陥ります 原因 :/var/lib/heartbeat/hb_generation ( 世代管理ファイル ) の不一致によるもの 起動時に 1 上がります こうなると リストアしたサーバを再起動するしかない Linux-HA Japan Project 38

裏 : 簡単な再現方法 (srv01 がリストアと想定 ) 両系で正常稼働の状態にする 片系 (srv01) の Pacemaker を正常に停止 片系 (srv01) の世代管理ファイル内の数値を少なくして保存 片系 (srv01) の Pacemaker を起動 srv01 のログ 450 から ERROR srv01 heartbeat: [XXXXX]: WARN: Message hist queue is filling up (376 messages in queue) 2 以上 srv02 のログ 500 までカウントアップ srv02 heartbeat: [XXXXX]: ERROR: should_drop_message: attempted replay attack [srv01]? [gen = 1336642803, curgen = 1336642852] Linux-HA Japan Project 39

裏 : 簡単な再現方法 (srv01 がリストアと想定 ) 両系で正常稼働の状態にする 片系 (srv01) の Pacemaker を正常に停止 片系 (srv01) の世代管理ファイル内の数値を少なくして保存 片系 (srv01) の Pacemaker を起動 srv01 のログ! 注意! 450 から ERROR srv01 heartbeat: [XXXXX]: WARN: Message hist queue is filling up (376 messages in queue) この手順を行うと srv01 を 再起動しなくてはいけません 2 以上 srv02 のログ 500 までカウントアップ srv02 heartbeat: [XXXXX]: ERROR: should_drop_message: attempted replay attack [srv01]? [gen = 1336642803, curgen = 1336642852] Linux-HA Japan Project 40

対策 リストア前に世代管理ファイル等 ( ) を削除する もしくはリストア後 ( 且つ Pacemaker 起動前 ) に世代管理ファイル等 ( ) を削除する 当ファイルが無い状態で起動するのは 問題ない ちなみに以前よりも大きな値になっても 問題ない もし発生したら リストアしたサーバを再起動させ 世代管理ファイル等 ( ) を削除して Pacemaker を起動 リストアする運用には上記運用を徹底して下さい : [srv01 ]# rm -f /var/lib/heartbeat/crm/* [srv01 ]# rm -f /var/lib/heartbeat/hb_generation Linux-HA Japan Project 41

本日のお話 1 2 3 フェイルオーバーに関する運用 Pacemaker の自動起動 停止 リストア stonith について Linux-HA Japan Project 42

stonith について大まかに触れておきます stonith はスプリットブレイン回避のためのしくみ 発動契機 1: リソース停止失敗 発動契機 2: インターコネクトLAN 抜けてた 詳細は JPUG 勉強会資料等を参照して下さい Linux-HA Japan Project 43

stonith について大まかに触れておきます stonith をグループにした時の大まかな動作 Pacemaker grpstonith どれかで OK だったら prma prmb 成功! prmc Linux-HA Japan Project 44

stonith について大まかに触れておきます stonith をグループにした時の大まかな動作 Pacemaker grpstonith 全部 NG だったら 成功するまで繰り返し! 成功するまで返りません! prma prmb prmc Linux-HA Japan Project 45

たまに聞く質問 : stonith による相撃ちって 起こりますか? 起こります! 待機系が生き残る可能性もあります! 回避しなくちゃいけませんよね? どうしたらいいんでしょう? stonith-helper を使います! Linux-HA Japan Project 46

stonith-helper とは どちらのサーバを生かすかを判断するリソース! 1 インターコネクト LAN 抜線! SBY ハードウェア制御ボード Remote Access Controller とも呼ばれます Linux-HA Japan Project 47

stonith-helper とは どちらのサーバを生かすかを判断するリソース! 2 You er It s ALIVE! ACT SBY stonith-helper stonith-helper ping 両系応答 対向の制御ボードにも ping を行っている事が重要 Linux-HA Japan Project 48

stonith-helper とは どちらのサーバを生かすかを判断するリソース! 3 I m ACT! I m SBY ACT SBY stonith-helper stonith-helper ACT SBY 判定 Linux-HA Japan Project 49

stonith-helper とは どちらのサーバを生かすかを判断するリソース! 4 Shoot! ACT SBY stonith-helper stonith-helper 実行プラグイン stonith 実行 Linux-HA Japan Project 50

更に聞く質問 : でも制御ボードが変だった場合ってどうなるんですか? その時は やっぱり stonith-helper が判断して 対向サーバが撃ちます! Linux-HA Japan Project 51

stonith-helper とは どちらのサーバを生かすかを判断するリソース! 5 ACT SBY stonith-helper stonith-helper 実行プラグイン stonith 実行応答なし Linux-HA Japan Project 52

stonith-helper とは どちらのサーバを生かすかを判断するリソース! 6 Shoot! ACT SBY stonith-helper stonith-helper 実行プラグイン stonith 実行 実行プラグイン Linux-HA Japan Project 53

更に聞く質問 : でも制御ボードが両系ともに変だった場合ってどうなるんですか? 両系とも待つ状態になり タイムアウトでループし続けることになります ちょっとまずくないですか? 保守者介在してもらうため meatware を使います! Linux-HA Japan Project 54

meatware とは 保守者から Pacemaker へ対向停止を報告する為のインタフェース! 7 ACT SBY stonith-helper stonith-helper 実行プラグイン stonith 実行応答なし 実行プラグイン Linux-HA Japan Project 55

meatware とは 保守者から Pacemaker へ対向停止を報告する為のインタフェース! 8 ACT stonith-helper 実行プラグイン srv02 電源断 保守者様 meatware Linux-HA Japan Project 56

meatware とは 保守者から Pacemaker へ対向停止を報告する為のインタフェース! 9 I m ACT! ACT stonith-helper 実行プラグイン meatware srv01 コマンド実行 [srv01 ]# meatclient -c srv02 -w PROCEED? [yn] y 保守者様 Linux-HA Japan Project 57

更に聞く質問 : でもこれって制御ボード向け LAN も抜線されてると まずくないですか? まずいです!! stonith-helper で両系とも OK と判定します! 回避しなくちゃいけませんよね? どうしたらいいんでしょう? 最後の砦 sfex を使用します! Linux-HA Japan Project 58

sfex リソースは 最後の砦! 10 You er Dead I m ACT! ping 両系応答なし両系 ACT ACT ACT stonith-helper stonith-helper srv01 Linux-HA Japan Project 59

sfex リソースは 最後の砦! 11 You er Dead I m ACT! srv02 sfex-lock 失敗 ACT ACT srv01 Linux-HA Japan Project 60

尚 sfex リソースの詳細はコミュニティ公開資料を参考にして下さい! 詳細は JPUG 勉強会資料等を参照して下さい Linux-HA Japan Project 61

まとめ stonith に ( 最低限 )stonith-helper 必須! meatware が無いと サーバの電源をコンセントから抜線! 下記リソース配置が現状では理想 Resource Group: grpstonith1 prmstonith1-1 (stonith:external/stonith-helper): Started srv01 prmstonith1-2 (stonith:external/ 実行プラグイン ): Started srv01 prmstonith1-3 (stonith:meatware): Started srv01 ( 共有ディスクがあるなら )sfex は必須! Resource Group: grpdb prmsfex (ocf:heartbeat:sfex): Started srv01 Linux-HA Japan Project 62

ちなみに 実行プラグインについて 実行プラグインは ハードウェア制御ボードを直接制御します 2012 年 8 月時点で Linux-HA Japan で検証している実行プラグインと制御ボードの組み合わせは下記の通り 実行プラグイン名 ipmi riloe ibmrsa-telnet ハードウェア制御ボード HP ilo3 DELL DRAC IBM IMM HP ilo2( ただしファームウェアがバージョン 2 以上 ) (HP MicroServer 付属の制御ボードの制御も ipmi です ) HP ilo1 HP ilo2 IBM RSA 以上です! Linux-HA Japan Project 63

ご清聴 ありがとうございました Linux-HA Japan Project 64

クイズの答え -R をつけないと 別冊あんどりゅーくん ( 第 2 号 ) にて提示されているノウハウです [srv01 ~]# crm resource move dummy srv02 force [srv01 ~]# tail /var/log/messages Jul DD SS:MM:SS srv01 crm_resource: [XXXXX]: info: Invoked: crm_resource -M -r dummy node=srv02 force -R をつけると [srv01 ~]# crm -R resource move dummy srv02 force.ext crm_resource -M -r dummy node= srv02 force [srv01 ~]# tail /var/log/messages Jul DD SS:MM:SS srv01 crm_resource: [XXXXX]: info: Invoked: crm_resource -M -r dummy node=srv02 force Linux-HA Japan Project 65