サーバー監視のはなし監視と通知と障害と俺とお前と大五郎 水野源 Ubuntu Japanese Team

Similar documents
ライフサイクル管理 Systemwalker Centric Manager カタログ

Zabbix入門-勉強会資料_

スライド 1

スライド 1

目次 第 1 章 環境構築 システム概要 ロードバランサ ジーンコードサーバー コンテンツサーバー (PC サイトサーバー ) コンテンツサーバー (PC サイトサーバー ) DNS... 6

ニフクラ有人監視サービス仕様書 V.2.0 ニフクラ有人監視 仕様書 2019 年 6 月 25 日 富士通クラウドテクノロジーズ株式会社 1

CLUSTERPRO MC ProcessSaver 2.3 for Windows 導入ガイド 第 5 版 2018 年 6 月 日本電気株式会社

スライド 1

内容環境... 3 対応 OS の変更... 3 関連アプリケーションの追加... 4 機能追加... 5 グラフ機能... 5 稼働率... 8 サービス一括削除 自動復旧エスカレーションコマンド AWS カスタムメトリックス監視 NRPE 任意監視... 11

PHP 開発ツール Zend Studio PHP アフ リケーションサーハ ー Zend Server OSC Tokyo/Spring /02/28 株式会社イグアスソリューション事業部

Oracle Enterprise Managerシステム監視プラグイン・インストレーション・ガイドfor Juniper Networks NetScreen Firewall, 10gリリース2(10.2)


スライド 1

FUJITSU Cloud Service for OSS 「ログ監査サービス」 ご紹介資料

FUJITSU Software Systemwalker Centric Manager Lite Edition V13.5 機能紹介資料

CLUSTERPRO MC ProcessSaver 1.2 for Windows 導入ガイド 第 4 版 2014 年 3 月 日本電気株式会社

スライド 1

商用監視ソフトウェアユーザの Zabbix 移行へ朗報 Zabbix Event Viewer のご紹介 【本邦初公開】

GettingStarted.fm

ハングアウトとは 1 25 人の相手とビデオハングアウトで会話 することができ 同僚との会議を快適に進め られます ハングアウトでは 人の参加者とチ ャットすることができます パソコンで始めたハングアウトの会議やチ ャットの続きを スマートフォンで行うこ とができます 必要なものはウェブ

FUJITSU Cloud Service for OSS 「システム監視サービス」ご紹介資料

目 次 1. はじめに ソフトの起動と終了 環境設定 発助 SMS ファイルの操作 電話番号設定 運用条件 回線情報 SMS 送信の開始と停止 ファイル出力... 16

9 WEB監視

Nagios XI Webサイトの改ざん監視

Microsoft PowerPoint - FormsUpgrade_Tune.ppt

Oracle Database 監視製品の使い分け 2017 年 10 月日本電気株式会社クラウドプラットフォーム事業部 CLUSTERPROグループ

SAMBA Stunnel(Mac) 編 1. インストール 1 セキュア SAMBA の URL にアクセスし ログインを行います xxxxx 部分は会社様によって異なります xxxxx 2 Mac OS 版ダウンロー

日本 PostgreSQL ユーザ会第 28 回しくみ + アプリケーション勉強会 Zabbix を使って PostgreSQL を監視してみよう 2014 年 2 月 1 日 TIS 株式会社中西剛紀 (Yoshinori Nakanishi)

FUJITSU Cloud Service for OSS 「コンテナサービス」 ご紹介資料

OneDrive for Businessのご紹介

プロジェクト管理でkintone

2

PowerPoint プレゼンテーション

fmserver_book.indd

I N D E X リダイレクト画面投稿手順 リダイレクト画面投稿手順 2 1 管理画面にログイン 2 右上の + 追加 を押す メールサービスのご利用について 4 メールソフト設定方法 ご利用のバージョンにより 画面や設定項目が異なる場

バックアップについての注意点 自動バックアップ設定後も 正常にデータが保管されているか定期的に必ず確認してください 定期的に必ず確認してください 設定後であっても様々な理由で突然バックアップが失敗していることもあるためです 複数の場所や媒体に定期的に保管することを強くおすすめします! 特に同じ建屋内

CTX-6114AI Citrix Access Suite 4

Nagios XI - SNMPでのLinux監視

PassSureExam Best Exam Questions & Valid Exam Torrent & Pass for Sure

スライド 1

受付代行 設定マニュアル このマニュアルでは 恵比寿ボイスプロダクションが Google アシスタントアプリで公開している 受付代行 ( ) を使って Google

OneDrive for Businessのご紹介

ITdumpsFree Get free valid exam dumps and pass your exam test with confidence

SAMBA Stunnel(Windows) 編 1. インストール 1 セキュア SAMBA の URL にアクセスし ログインを行います xxx 部分は会社様によって異なります xxxxx 2 Windows 版ダウンロード ボ

X-MON 3.2.0

シナリオ:DMZ の設定

Microsoft PowerPoint - CLUSTERPRO_BIG-IP.ppt[読み取り専用]

主なスキル Citrix NetScaler の機能の理解 基本的な NetScaler ネットワークアーキテクチャの把握 NetScaler ライセンスの取得 インストール 管理 SSL を使用して NetScaler を保護する方法の理解 トラフィック処理および管理のための NetScaler

ダンプ取得機能強化サポートオプション Enterprise Edition

LAN DISK NarSuSの登録方法

KTest

VERITAS Backup Exec for Windows Servers Management Pack for Microsoft Operations Manager ガイド


使用する前に

2 目次 1 はじめに 2 システム 3 ユーザインタフェース 4 評価 5 まとめと課題 参考文献

UCSセキュリティ資料_Ver3.5

アジェンダ Oracle サーバの見える化はなぜ必要? WebSAMApplicationNavigator で簡単 安心に監視を実現 Oracle 監視の導入コスト 2 NEC Corporation 2009

Microsoft Word - WatchUsbManager for Web リソースモニター結果.docx

大阪大学キャンパスメールサービスの利用開始方法

HP Device Managerご紹介資料

ネットワークトラフィック分析を効果的に活用してパワー強化 ネットワークトラフィック分析 7 つの活用法

本日の予定 第一部使い方セミナー予定時間 :30 分本日のテーマ : 音声トラブルの原因と対処方法 第二部質疑応答予定時間 :30 分

Anniversary Update の手動アップデート PC 資料 年 8 月 2 日 Microsoft から Windows 10 2 回目の大型アップデート Windows 10 Anniversary Update が提供されました 多くのセキュリティ修正の

目次 専用アプリケーションをインストールする 1 アカウントを設定する 5 Windows クライアントから利用できる機能の紹介 7 1ファイル フォルダのアップロードとダウンロード 8 2ファイル更新履歴の管理 10 3 操作履歴の確認 12 4アクセスチケットの生成 ( フォルダ / ファイルの

本仕様はプロダクトバージョン Ver 以降に準じています

目次 はじめに 1サーバ作成 2 初期設定 3 利用スタート 付録 Page.2

スライド 1

アジェンダ はクラウド上でも十分使えます 1. の概要 とは の導入事例 で利用される構成 2. をクラウドで使う クラウドサービスの分類 Amazon Web Services による構成例 2

Windows Server 2003 Service Pack 適用手順書

ESET Smart Security Premium v リリースノート

WebSAM System Navigator JNS isadmin SNMP Trap 連携設定手順書 NEC 2012 年 12 月

目次事前準備 コントロールパネルのアクセス方法と概要 ログイン 初回設定 コントロールパネルメニュー コントロールパネルの概要 ダッシュボード ユーザー画面 設

プラン作成ガイド ~ 仮想環境をエージェントレスで バックアップするプランの作成 ~ 年 8 月

(Microsoft Word - Compiere3.0Windows\203C\203\223\203X\203g\201[\203\213\203K\203C\203h.doc)

新バージョン! Zabbix 2.2 と検証結果のご紹介 SRA OSS, Inc. 日本支社山本博之 Copyright 2013 SRA OSS, Inc. Japan All rights reserved. 1

不正送金対策 フィッシング対策ソフト PhishWall( フィッシュウォール ) プレミアム のご案内 広島県信用組合では インターネットバンキングを安心してご利用いただくため 不正送金 フィッシング対策ソフト PhishWall( フィッシュウォール ) プレミアム を導入しました 無料でご利用

10 完了 をクリック 13 このサーバーは認証が必要 をチェックして 設定 をクリック Windows メール Windows Vista に標準のメールソフト Windows メール の設定方法を説明します 1 スタート から 電子メール Windows メール をクリック 11 続いて設定ファ

改版履歴 版数改版履歴改版年月日 1 新規作成 2013/3/29 2 TESTIO_MODE を追加 OVER_ACTION VG_STALL_ACTION の設定値を変更 2013/9/30 3 CLUSTERPRO MC StorageSaver for BootDisk (for Linux

大阪大学キャンパスメールサービスの利用開始方法

KSforWindowsServerのご紹介

はじめに

PowerPoint プレゼンテーション

なぜIDSIPSは必要なのか?(v1.1).ppt

XAMPP で CMS のお手軽 テスト環境を手に入れよう 2011/5/21 上村崇 1

Microsoft PowerPoint - Skype for business プラン2 .pptx

適応型セキュリティ アプライ アンスの設定

プレゼンテーション

PHP 分科会 '12/01 OpenSource 協議会 System i 2012/01/26

PASSEXAM

使える! IBM Systems Director Navigator for i の新機能

PowerPoint プレゼンテーション

Microsoft PowerPoint - mwpro2_faq_ ppt

クラホスメニュー一覧

Microsoft PowerPoint - OSS運用管理勉強会資料_ a.pptx

Microsoft Word - BJ-Trans_JW_SXFInstallguide.doc

0. 目次 Ahkun EX Antimalware ソフト使用マニュアルデスクトップ上での操作方法 1. インストールについて P.3 2. 操作画面の起動方法 P.6 3. アップデートの手動実行 P.7 4. リアルタイム監視の操作 P.9 5. プログラム情報の表示方法 P ソフ

グループ一覧を並び替える すべてのユーザー グループの並び順を変更する ユーザーの登録

2006

Windows10の標準機能だけでデータを完全バックアップする方法 | 【ぱそちき】パソコン初心者に教えたい仕事に役立つPC知識

PC にソフトをインストールすることによって OpenVPN でセキュア SAMBA へ接続することができます 注意 OpenVPN 接続は仮想 IP を使用します ローカル環境にて IP 設定が被らない事をご確認下さい 万が一仮想 IP とローカル環境 IP が被るとローカル環境内接続が行えなくな

Transcription:

サーバー監視のはなし監視と通知と障害と俺とお前と大五郎 水野源 Ubuntu Japanese Team

監視とは

サーバー監視 サーバー障害は絶対に起こるものかといって 24 時間有人監視もなかなかできないよね そこで サービスダウンを検知して通知したり リソースの変化を記録して分析に役立てたり リソースの変化から将来起こりそうな障害を予測したり そんなツールの話をします

監視ツールいろいろ これひとつで完璧 という定番はなさげ Zabbix Nagios Sensu Munin ほかにもたくさん

外形監視と内部監視 監視は大きく分けて外と内のふたつ外形監視外部から見た接続状況を監視する内部監視システムの内部状態を監視する

サービスとリソース監視 内部監視はサービスとリソースに分けて考えられる サービス監視 サービスの稼働状況を監視するポートは空いてる? プロセスは起動してる? リソース監視 リソースの変化を記録する CPU 負荷は? 空きメモリは?

どこから監視すればいい? 外形監視はユーザーと同じ場所 ( 外 ) にいる必要がある リソース監視は内側からのアクセスが必要 単一の監視サーバーで両立は無理 外部と内部にそれぞれ監視サーバーが必要

概念図 Web サーバー 内部ネットワーク 監視エージェント 監視システム レスポンス ファイアウォール HTTP 接続 インターネット 内部監視サーバー 監視システム 外形監視サーバー

わかった では何を使う? 監視する対象に合ったシステムを選択しよう リソース監視がしやすいシステム Munin Mackerel とか 死活監視がしやすいシステム Nagios Monit とか

リソースの監視

リソース監視ツール 継続的なメトリックの収集と可視化を行うツール サーバーのリソースの変化を監視記録することで 障害を事前に回避する あるいは障害発生後の分析に役立てる

たとえば Munin Munin のグラフ

Munin とは リソース監視に特化したシステム CPU 負荷 メモリ使用量 トラフィックなどをグラフ化 詳しくは Ubuntu Weekly Recipe 第 359 回 Munin でサーバーのリソースを可視化しよう参照

Munin に足りないもの とはいえあんまりモダンじゃない値が記録されるけど 言ってしまえばそれだけアラートも出せるけど ぶっちゃけ使いづらいノードの追加にひと手間必要

そこで Mackerel

Mackerel とは はてなの有償サービス見やすいグラフアラートも出せる外形監視はオマケかなけっこう安いサーバー 5 台までなら無料プランでもいける

システムメトリック デフォルトで収集されるメトリック ロードアベレージ CPU 利用率メモリ使用量 IOPS ディスク使用量ネットワークトラフィック

カスタムメトリック サーバーごとに自由に追加できるメトリック プラグインで実装 まずは公式プラグイン集を入れよう決まった出力ができれば内部実装は好き勝手でOK フォーマットはSensu 互換簡単に作れるよ

カスタムメトリックの例 LXC コンテナの数と消費メモリを可視化

サービスメトリック 個別のサーバーに関連づかないメトリック たとえばサービス全体の売り上げを可視化

URL 外形監視 http/https のみ 無料プランでは使えない

Mackerel での監視と通知 おおまかな手順は以下の通り 1. 監視するメトリックを設定 2. 監視項目ごとにしきい値を設定 3. アラートの送信先を設定

監視ルールを追加

障害発生 事前に設定した通知チャネル経由でアラートが送信される

通知チャネル メール Slack HipChat PagerDuty ChatWork などなど Slackに直接投げられたりするところが今風

メール通知の例

障害復旧

Mackerel まとめ グラフは見やすい 有料で1 年 無料だと1 日だけ色々な意味で今風国産総じて使いやすいよ死活監視はできるけどちょっと弱いかな

死活監視

死活監視ツール サービスが生きているかを監視 死んだらアラート 外部から監視するところがミソ Pingdom とか有名 リソース変化を記録できるものもあるけど 主ではない

Xymon BigBrother の系譜に連なる由緒正しい (?) 監視システム

Xymon の特徴 外形監視と内部監視の双方に対応 テキストで設定できる アラート時にスクリプトを叩けるのでなんでもできちゃう 監視を一時的に止める がやりやすい 外形監視とヒストリーがお手軽な上に強力 詳しくは Ubuntu Weekly Recipe 第 383 回 Xymon ではじめるサーバーモニタリング参照

Xymon で外形監視 サービス名を指定するだけで死活を監視できる http/https/ssh/smtp/pop/imap/ftp/ldap などなど http はステータスコードでの監視もできる https は SSL 証明書の有効期限も自動的に監視

Xymon で内部監視 プロセスが起動してるかポートは開いているかログにエラーは出ていないかリソース監視全般 Munin のようなリソース監視としても利用できる クライアントにスクリプトを追加することで任意に拡張可能

その時何があったか 障害あるある 後からグラフを見ると負荷が上がってたことが判明したが どんなプロセスが動いていたのか調べようがない

Xymon の History 機能 Xymon はステータスが変化した時のシステム情報をダンプして記録してくれる

Xymon まとめ 主要なサービスを手軽に外形監視できるのが嬉しい証明書監視も地味に便利メトリックだけだと 障害が起きたことしかわからないその瞬間のpsやnetstatが記録されるのが超便利内と外のXymon2 台体制もおすすめ

ざっくりまとめ Mackerel メトリックの見やすさはとてもよい Munin プラグインをそのままラップできる点も魅力無料プランで試してみるのおすすめ Xymon 世間ではマイナーだけどかなり使えるドワンゴさんも使ってるらしいお手軽に自前で外形監視したいなら超おすすめ

障害発生

アラート通知について 障害あるある 監視システムが障害を検出しても 人間が気づかない ではいかにして通知するか?

メールで通知 やっぱり基本 普段は揮発性の通知 (push/ チャット ) の方が便利かな どちらかというと記録を残す意味が大きいかも メール着信程度じゃ夜中起きねえよ 確実に起きるための工夫をしてみる

チャットで通知 スピード大事 普段の業務中はもはやメールなんか見ない Slack 連携も今となっては基本

スクリプト連携 アラートをトリガーに任意のスクリプトを実行 弊社ではゆっくり連携 Xymon はこのへんが柔軟に設定できてとても便利

通知管理サービス

PagerDuty 最強の連絡手段は電話 SMSでも通知を受けたいスマホnoPush 通知でも受けたい当番を決めたいエスカレーションしたいといった 通知のしかたを管理するシステム

アラートを集約して通知 監視システムからアラートを受け取り 事前に設定した相手に 任意の手段 スケジュールで通知を送れる

スマホから ack/resolv

弊社の事例

Skype Bot 連携 弊社製のSkype Bot 通称 ゆっくり もともとはLinux 版 Skypeクライアント +PHP 今はHubotのSkypeWebAdapterで実装

ゆっくりの機能 任意のテキストを発言する任意の音声を発生するスケジュールリマインダ様々なコマンドで情報発信

ゆっくりアーキテクチャ

障害が発生したら アラートをトリガーに Xymon がスクリプトをキック #!/bin/sh URL=$(echo $BBALPHAMSG /bin/grep -o -e 'See.*') if [ $RECOVERED -ne 1 ]; then /usr/local/bin/sendmessage $RCPT " 障害が発生しました \n ホスト名 : $BBHOSTNAME\n サービス : $BBSVCNAME\n ステータス : $BBCOLORLEVEL\n ダウンタイム : $DOWNSECS sec\n $URL" fi

チャットに発言 それと同時に社内へ音声アナウンス ちなみにパトライトも回す

まとめ 監視運用は異常を検出できること異常を記録できること異常に気づけることどれが欠けてもダメそれぞれに適したサービスを!