Elastic MapReduce bootcamp

Similar documents
AWS Deck Template

App Bridge Monitor Linux Agent インストールガイド Ver.1.9.0

よくある問題を解決する~ 5 分でそのままつかえるソリューション by AWS ソリューションズビルダチーム

AWS Deck Template

InfoFrame Relational Store V2.2 構築ガイド for Amazon Web Services RS J

クラスタ構築手順書

WebSAM MCOperations Amazon Web Services 向け構築ガイド 2015 年 5 月 日本電気株式会社

PowerPoint Presentation

R80.10_FireWall_Config_Guide_Rev1

PowerPoint Presentation

SIOS Protection Suite for Linux v9.3.2 AWS Direct Connect 接続クイックスタートガイド 2019 年 4 月

ログインおよび設定

URoad-TEC101 Syslog Guide

HDC-EDI Manager Ver レベルアップ詳細情報 < 製品一覧 > 製品名バージョン HDC-EDI Manager < 対応 JavaVM> Java 2 Software Development Kit, Standard Edition 1.4 Java 2

PowerPoint プレゼンテーション

Symantec AntiVirus の設定

目次 1. 本書の役割 監視対象ノードの登録 Agent のインストール Agent の前提条件 対象 OS 監視対象サーバへのログイン セットアップファイルのダウンロード インストール... 5

障害およびログの表示

PowerPoint Presentation

2

Cuoreテンプレート

提案書

事前準備ガイド 概要 IBM Z の概要 IBM Z は メインフレーム コンピューターのハードウェア ブランドです IBM Z は 5つのオペレーティング システム (OS) をサポートします IBM Z は 1 台で数千もの OS を稼働させることができます z/os は IBM Z 独自の O

SMB スイッチ CLI に SSH を使用してアクセスするか、または Telnet で接続して下さい

Cisco HyperFlex セットアップ概要

9 WEB監視

Technical Information 文書番号 SYMC-SBG タイトル IPMI/iDRAC による情報採取方法 対象機器 Symantec Messaging Gateway 8300 Series ソフトウェアバージョン - 文書作成日 2011/2/22 最終更新日

Microsoft PowerPoint - APM-VE(install).pptx

2017/8/2 HP SiteScope software 監視機能対応表 この監視機能対応表は HP SiteScope software v11.33) に対応しています モニタ モニタ説明 モニタ説明 SiteScope for Windows SiteScope for Linux ネット

アプリケーション インスペクションの特別なアクション(インスペクション ポリシー マップ)

GXS-I WebIEAS オペレーション ガイド 版 : 第 1 版 2007 年 01 月 22 日 第 2 版 2011 年 12 月 02 日 第 3 版 2012 年 04 月 27 日 第 4 版 2013 年 06 月 17 日 ( 本書 ) GXS 株式会社 (c) 20

スライド 1

GenieATM 6300-T / 6200-T シリーズ 1. 基本的な機器オペレーションのために 1-1. 機器への接続 機器への接続方法は 以下の 2 通りがあります シリアルポートを使用してログインする LAN 経由で Telnet または SSH を使用して仮想 Interface からロ

モバイル統合アプリケーション 障害切り分け手順書

Fortinet 社 FortiExplorer 操作マニュアル 株式会社ネットワークバリューコンポネンツ 第一版 Page1 Network Value Components Ltd. Copyright (c)2012 Network Value Components Ltd. All Righ

Leveraging Cloud Computing to launch Python apps

Alibaba Cloud [ ナレッジドキュメント ] AWS S3 から AlibabaCloud OSS へのマイグレーション手順 AWS S3 からAlibaba Cloud OSS への マイグレーション手順 Ver SB Cloud Corp Al

1

CRA 2.2(1)の ICD の設定方法

Microsoft iSCSI Software Targetを使用したクラスタへの共有ディスク・リソースの提供

SLAMD導入手順

セゾン保険_PDF用.indd

Microsoft PowerPoint - RemoteGuide pptx

ETL Webinar

ftServerでのログの取得方法の概要

HeartCoreインストールマニュアル

まえがき 2011 年 11 月 1 日 ver1.0 [ 初版 ] 本手順書では vcenter サーバが管理する仮想コンピュータを Acronis Backup & Recovery 11 エージェント for ESX(i)( バーチャルアプライアンス ) を用いてバックアップする手順をご紹介し

目次 1. はじめに 証明書ダウンロード方法 ブラウザの設定 アドオンの設定 証明書のダウンロード サインアップ サービスへのログイン

AverCasterご利用ガイド

無料セミナー資料:ビッグデータ管理基盤ソフトウェアHadoop入門

「ビジネスサーバ」シリーズ設定マニュアル

WebSAM Application Navigator Amazon Web Services 向け構築ガイド 2014 年 3 月 日本電気株式会社 1

プラン作成ガイド ~ 仮想環境をエージェントレスで バックアップするプランの作成 ~ 年 8 月

ライセンス管理

IBM Proventia Management/ISS SiteProtector 2.0

WebOTXマニュアル

DocuWorks Mobile 障害切り分け手順書

Hadoop Introduction

Microsoft Word - SSL-VPN接続サービスの使い方

商 標 類 Apache Hadoop Hadoop は Apache Software Foundation の 米 国 およびその 他 の 国 におけ る 登 録 商 標 または 商 標 です Intel Intel Xeon Itanium および Intel Itanium は 米 国 およ

スライド 1

How to Install and Configure Panorama Panorama のインストールと設定 Panorama は Palo Alto Networks のサポートサイトからダウンロード可能な VMware イメージです 本書は Panorama のインストールと Panora

Microsoft Word - SiteShell-CloudWatch連携ガイド_Linux版

アライドテレシス ディストリビューション・スイッチ AT-x600シリーズで実現するMicrosoft® NAP

(Microsoft PowerPoint - WQ21JDEadapter\215\\\220\254\216\350\217\207\217\221_ ppt)

1. アンケート集計サンプルについて ここでは Windows Azure と SQL Azure を使ってアンケートを実施し アンケート結果を Excel で集計するサンプルについて説明します アンケートは Windows Azure で運用し アンケート結果は SQL Azure に格納されます

RICOH Device Manager Pro バックアップ/バージョンアップ作業手順書

Microsoft Word - PSM51 and ontap83_config_831jp.doc

Java EE連携ツール説明書

スライド 1

VPN 接続の設定

<4D F736F F D BC696B18F88979D939D90A782F08D6C97B682B582BD A DD975E8AC7979D CC8D5C927A2E6

<Amazon Web Services 上 での     JobCenter 構築ガイド>

Oracle Solaris 仮想環境とプロビジョン環境の構築

KTest

AWS Client VPN - ユーザーガイド

Slide 1

Alibaba Cloud [ ナレッジドキュメント ] AWS EC2 から Alibaba Cloud ECS へのマイグレーション手順 (Linux 版 ) AWS EC2 から Alibaba Cloud ECS への マイグレーション手順 (Linux 版 ) Ver

Microsoft Word - バーチャルクラス(Blackboard)ログイン方法ガイド.docx

Intuit QuickBooks との統合

AWS 認定 DevOps エンジニア - プロフェッショナルサンプル試験問題 1) あなたは Amazon EBS ボリュームを使用する Amazon EC2 上で実行されているアプリケーションサーバ ー向けに 自動データバックアップソリューションを導入する業務を担当しています 単一障害点を回避し

Microsoft Word - XOOPS インストールマニュアルv12.doc

_mokuji_2nd.indd

目 次 1. 本 書 の 役 割 監 視 対 象 ノードの 登 録 Agent のインストール Agent の 前 提 条 件 対 象 OS 監 視 対 象 サーバへのログイン セットアップファイルのダウンロード..

Linux のインストール(Red Hat および SUSE)

Microsoft Word - nvsi_090200jp_r1_nvbsvr_mscs.doc

CLUSTERPRO MC ProcessSaver 2.3 for Windows 導入ガイド 第 5 版 2018 年 6 月 日本電気株式会社

次 はじめに ブラウザーサポート デフォルトのIPアドレスについて

PowerPoint プレゼンテーション

1. 概要 この章では HDE Controller X LG Edition をお使いの方に向けて LGWAN 接続に特化した設定の説明をします HDE Controller X LG Edition 以外の製品をご利用のお客様はこの章で解説する機能をお使いになれませんのでご注意ください 452

ファイルサーバ ご利用の手引き 第 1.0 版 2008 年 2 月 14 日 近畿大学総合情報システム部 (KUDOS)

スライド 1

プロダクト仕様書 SLB

使える! IBM Systems Director Navigator for i の新機能

OSS 体験セミナー Hadoop の概要 高スケーラブルな分散管理基盤 2 つのコア機能 分散ファイルシステム (HDFS) 分散処理フレームワーク (Map/Reduce) BigData の管理基盤として注目 分散処理基盤 (Map/Reduce) Hadoop 分散ファイルシステム (HDF

付録

ログ取得についてのお願い お客様のご都合でログの内容を修正してご提供いただいた場合には 正確な調査ができかねる場合が ございます ログの内容は修正をせずにそのままお送りいただけますようお願い致します LifeKeeper ログ取得方法 ログ採取にはサーバへの多少の負荷が予想されますので 比較的に負荷

PowerPoint プレゼンテーション

はじめに 本ドキュメントは Redmine を使用して稼働する定量的プロジェクト管理ツール ( 以下 IPF と略します ) のヘルプです IPF の操作に関わる機能を解説しており Redmine 及び構成管理ツール (Subversion Git) の標準機能については 本ヘルプの記載対象外として

PowerPoint Presentation

Transcription:

EMR Controls, Debugging, Monitoring アマゾンデータサービスジャパン株式会社

このセッションの目的 EMR 環境の運用方法を講義とハンズオンを通して理解する デバッグ 調査の方法 モニタリングの方法 Copyright 2012 Amazon Web Services

アジェンダ デバッグ 調査 ログの仕様 ログ確認方法モニタリング Management Console (CloudWatch,etc) Haddop UI ハンズオン サンプル Job Flowの実行 Webプロキシ設定 各種閲覧 Copyright 2012 Amazon Web Services

EMR ジョブの構成 Hadoopクラスターの開始 終了 EMRではjob flowと呼ぶ job flowを構成するもの Bootstrap Action Hadoop 起動前 ( クラスタ起動後 ) に実行するプログラム群 追加ソフトウェアのインストール Hadoopの設定等 起動パラメータで指定 Job flow 稼働中の実行は不可 Step Hadoopに投げるジョブの構成要素 ステップはJob flow 稼働中に追加可能 Task 各 Step を構成する MapReduce 処理の実体

コンソールでのログ閲覧 Enable Debugging で制御 No の場合 Step レベルの情報 ログのみ閲覧可能 Yes の場合 Step レベルに加えて Hadoop レベルの情報 ログを閲覧可能

マスタノード上のログ EMR のログはマスタノードに集約されている /mnt/var/log/ hadoop/ *.log steps/ マスタノードのデーモンプロセスログ類 ステップ毎のログ ( ) ( ) Management Console からも閲覧可能

S3 上のログ --log-uri で指定した S3 の格納先に保存 マスタノードに集約されたログが保存される ( 約 5 分後 ) <job id>/ s3n://<< 指定したバケツ名 >>/<job id> daemons/ <node id> ノード毎のデーモンプロセスのログ jobs/ Job 毎のログ nodes/ <node id> ノード毎のログ steps/ task-attempts/ <step no> yyyymmddhhmmxxxx/ ステップ毎のログ ( ) タスク毎の実行ログ ( ) ( ) Management Console からも閲覧可能

ステップログの種類 ステップログは以下の4 種類 controller ステップ起動準備から完了までのログ stdout Mapper/Reducerの実行されたステータスなど stderr ステップの標準的なエラーメッセージ syslog AWS 提供ソフトウェア以外のログ情報を含む

アジェンダ デバッグ 調査 ログの仕様 ログ確認方法モニタリング Management Console (CloudWatch,etc) Haddop UI ハンズオン サンプル Job Flowの実行 Webプロキシ設定 各種閲覧 Copyright 2012 Amazon Web Services

EMR ジョブの管理 モニタリング方法 AWS Management Console Job の起動 停止や クラスターのモニタリング EMR Ruby Client (CLI) EMR クラスターを完全に管理可能 開始 変更 step 追加 リサイズ 停止 一覧 SSH ログインやログ取得も可能 自作管理用スクリプトに組み込み可能 EMR マスターノード Hadoop ツール Hadoop UI サードパーティツール Ganglia 等

EMR ジョブ管理用ツール AWS EMR Management Console クラスタの管理 とジョブの状況確認

AWS CloudWatch ジョブの進捗状況 クラスタの状況 リソース状況 各インスタンスの状況 http://aws.typepad.com/aws_japan/2012/02/new-elastic-mapreducefeatures-metrics-updates-vpc-and-cluster-compute-support-guestpost.html

CloudWatch Alarm 通知設定例 HDFS 利用率 80% 以上 クラスターがアイドル状態

EMR ジョブ管理用ツール Hadoop UI (Job Tracker, NameNode) 実行中のジョブの状況 HDFSの状況を閲覧可能 JobTracker http://<< マスタノード >>:9100/ NameNode http://<< マスタノード >>:9101/

EMR ジョブ管理用ツール Hadoop UI(JobTracker) で確認できる項目 Cluster Summary 稼働中のスレーブノードの状況閲覧 Scheduling Information Hadoop ジョブスケジュールの進捗状況閲覧 Running Jobs 処理中ジョブの進捗状況閲覧 Completed Jobs タスク完了ジョブ一覧 Failed Jobs 処理中に失敗したジョブの状況閲覧 Local Logs ローカルログ ジョブトラッカーの履歴閲覧

EMR ジョブ管理用ツール マスターノード 指定したkey pairsを使って hadoopユーザでsshログイン /var/mnt/log/ 配下のログ閲覧 Parallel jobも可能 テキストブラウザでのHadoop UI 閲覧

Tools for Debugging EMR Jobs Ganglia bootstrap action でインストール可能

Tools for Debugging EMR Jobs collectd デフォルトで全ノードにインストール済み S3に出力するように設定済み 多数のフォーマットをサポート ( 例 : csv, rrd, )

モニタリング IF の比較 モニタリングツールを使い分けることで障害調査をより柔軟に行うことが可能 ステータス パフォーマンス Job Flow Step Task node スループットリソース AWS Management Console Ruby CLI Hadoop WebUI Ganglia

アジェンダ デバッグ 調査 ログの仕様 ログ確認方法モニタリング Management Console (CloudWatch,etc) Haddop UI ハンズオン サンプル Job Flowの実行 Webプロキシ設定 各種閲覧 Copyright 2012 Amazon Web Services

ハンズオンの流れ EMR クラスタでサンプルのジョブフローを実行 Amazon CloudFront (CDN) のログを解析するサンプル http://aws.amazon.com/articles/2440 WebUI 閲覧設定 FoxyProxy 設定 Putty SSH トンネリング設定各種メトリクス ログを確認 Management Console ログ CloudWatch Hadoop UI ノード数やインスタンスタイプを変えて再実行し各種参照余力があれば CloudWatch の Alarm を作ってみる http://docs.amazonwebservices.com/elasticmapreduce/lates t/developerguide/usingemr_viewingmetrics.html

サンプル Job Flow 実行 実行する Job Flow CloudFront HTTP Log Analyzer CloudFront で生成されたアクセスログを集計するデータ Input: HTTP ログ (CloudFront 形式 : 〇〇 GB) Output の一部 5 分毎のリクエスト数ヒストグラム (1.9KB) 5 分毎のレスポンスコード別のリクエスト数 (4.5KB) エッジロケーション毎の転送バイト数合計 (195byte) IP アドレス毎のリクエスト数 (215byte) IP アドレス毎のレスポンスコード別リクエスト数 (546byte) IP アドレス毎の転送バイト数 (268byte)

サンプル Job Flow 実行 手順 http://aws.amazon.com/articles/2440 確認項目 コンソールの振る舞い確認 各 IFでのログの出力 内容確認 CloudWatchでのメトリクス確認 Hadoop UIでのタスク進捗確認可変パラメータ Enable Debugging:Yes/Noで得られるログの違いを確認 インスタンス数 タイプ : 負荷 処理速度の違いを見てみる

Hadoop UI 閲覧方法 EMR の JobTracker と NameNode マスタノード上で ローカルからのみ閲覧可能 閲覧方法 マスタノード上でテキストブラウザ Lynx を使う # linux http://localhost:9100/ (JobTracker) # linux http://localhost:9101/ (NameNode) SSH トンネリングを使う SSH トンネリング + プロキシを使う ブラウザアドオン FoxyProxy を利用 Ssh/Putty 等でトンネリング

Putty での SSH トンネリング ( その 1) SSH 接続時に トンネリングを設定 Connection->SSH- >Tunnles Source Port に 8157 を指定し ADD を押下 Forwarded Port に D8157 が表示されていることを確認 ユーザ名 hadoop でマスターノードにログイン

Putty での SSH トンネリング ( その 2) FoxyProxy をインストール Firefox に FoxyProxy Standard 3.4 をインストール http://getfoxyproxy.org/downloads.html FoxyProxy 設定 Tool -> FoxyProxy Standard Add New Proxy を押下 以下の設定を行う 手動プロキシ設定 : チェック Host or IP Address :localhost ポート :8157 (Putty で設定した値をあわせる ) SOCKS プロキシ : チェック SOCKS v5 : チェック プロキシパターン : *compute.amazonaws.com* 接続 Firefox にて以下の URL にアクセス http://ec2-xxxx.ap-northeast-1.compute.amazon.aws.com:9100/