The Microsoft Conference 2014 アンケートにご協力ください ROOM F
The Microsoft Conference 2014 本セッションの資料について ROOM F 本セッションの資料と映像を後日オンラインにて公開予定です 掲載時期につきましては 追って事務局からのメールにてご案内させていただきます
HPC Pack 2012 R2 本日は二部構成です Azure HDInsight (Hadoop on Azure)
どちらも 分散並列処理基盤
HPC と Hadoop は どう違う?
たいへん大まかに分類すると 計算中心 データ中心 CPU が足りないから ディスクが足りないから サーバーをたくさん並べよう
サーバー群 クラスタ の構成要素 ヘッドノード マスターノード Hadoop のクラスタ 計算ノード群 スレーブノード群 8
似てますね!
今日はそれぞれの 最新情報を お伝えします
The Microsoft Conference 2014
いまひとつ 用途がピンと 来ない?
ならば いきなり 事例紹介から
事例: 海外証券会社様 Azureデータセンター 計算ノード群 (500ノード) BLOB 夜間バッチの時間帯のみ Azure 上に 計算ノードを展開 A3 サイズ(4 コア) x 500ノード hpcpack コマンドによるデータ転送 ヘッド ノード 日中のオンライン処理で約定した 大量の取引データを夜間バッチ処理 計算元データは hpcpack コマンド を利用して HTTPS 接続で Azure 上 の BLOB ストレージへ 管理端末 社内 14
事例: 国内生命保険会社様 Azureデータセンター 計算ノード群 (100ノード以上) ヘッド ノード ファイル サーバ 期末の繁忙期に必要となる大量の 計算処理をクラウドにオフロード ヘッドノードと計算ノードをすべて Azure に配置した完全クラウド構成 100 ノードの展開に 15 分程度 VPN接続 VPN ルータ 社内システムとは Azure 仮想ネット ワークの VPN 機能で接続 社内 15
以上二つは 通常のインスタンス を利用したもの A3 (4 コア ), A4 (8 コア ) 等
今年は HPC 用に新兵器を投入 サイズ コア数 メモリ容量 ネットワーク 1 A8 8 56 GB A9 16 112 GB Xeon E5-2670 2.6 GHz 10 Gbps イーサネット InfiniBand QDR (w/ RDMA)
通常のインスタンス (A7) との比較 レイテンシの比較パケットサイズ : 4 194.4 スループットの比較パケットサイズ : 4M 3622 2.565 76.92 18
検証事例 : Particleworks on Azure 4000 万粒子規模の解析 内容 : 自動車の水はね プロメテック ソフトウェア社で日常的に利用されている Linux クラスタと Azure の A7,A8,A9 インスタンスで同じ解析を実施し 実行時間を比較 機種 : ProLiant SL 390s G7 x 4 ノード ( 計 48 コア ) CPU:Intel Xeon X5675 3.06GHz 6 cores 2 RAM:4GB 12 = 48 GB QDR InfiniBand 40Gbps 2 19
オンプレミスの物理マシンと遜色ない性能 1.2 1 0.8 0.6 1 オンプレ Linux (SL390s G7) 1.04 A8 On-premises 0.4 A7 (6 nodes) 0.2 0 0.21 A8 (6 nodes) A7 オンプレミスのオンプレミスの性能を InfiniBand 付き物理マシンを 1とした時の性能倍率 1 とした場合の比較 ( 高いほど 性能が良い ) A8/A9 は物理マシンと同等 A7 の 5 倍の性能を記録
ここで改めて HPC Pack を使った クラスタとは
オンプレミス + クラウドの統合クラスタ 社内とクラウドの計算ノードを 一つのクラスタとして 統合管理可能 クラウドへのノード追加 削除は 数百ノードレベルでも 10 分程度で完了 スケジュールに従って自動的にノードを追加 削除することも可能 クラウド (Azure) 社内 柔軟に増減可能なクラウドの計算ノード 遊休時にジョブを割り当て 管理ツール ジョブ投入 ジョブの割り当て 利用者端末 ヘッドノード (Windows Server) オンプレミスの計算ノード (Windows Server) 一般的な Windows PC や 汎用の Windows サーバ ( ファイルサーバ等 ) も計算ノードとして利用可能
クラスタへのノード追加 数十 数百ノードの追加も ウィザードあるいはコマンドでノード数とサイズを指定するのみ 時間指定で自動的にノード起動 削除も可能
ジョブ管理機能 クラスタに投入されたすべてのジョブは 割り当てノード 実行時間 完了状態といった情報がデータベースに記録されます GUI 管理ツールで簡単に確認できるほか コマンドによって情報を抽出して再利用可能です
レポーティング機能 ジョブの実行数やノードの可用性 クラスターの利用率といった情報は自動的に収集され DB に格納されます この情報を元にグラフを生成するレポーティング機能を備えています
ヒートマップでクラスタの状態を可視化 計算ノードの CPU 利用率や 割り当てられているジョブの数など 様々な情報を見やすく一覧 値の大小を色の濃淡で表現するため クラスタの状態を直感的に把握できます 表示項目は柔軟にカスタマイズ可能です
一括コマンド実行機能 多くの計算ノードに対してコマンドを一括で発行し 結果を収集できます GUI のクラスタマネージャだけでなくコマンドラインからも実行可能です (clusrun コマンド )
この便利な HPC Pack
最新版が プレビュー中です
HPC Pack 2012 R2 Update 1 Preview Azure 仮想マシンギャラリーに HPC Pack インストール済みイメージが登場 Azure インスタンスタイプが追加された場合にも自動対応 (HPC Pack の更新不要 ) IaaS 計算ノードの自動展開スクリプト同梱
仮想マシンギャラリーに登場!
当然 D シリーズにも対応
入力データ量が数 TB になるような大規模解析処理も この G シリーズなら! これからの HPC Pack は G シリーズのような新しいインスタンスタイプの登場に自動対応します http://www.publickey1.jp/blog/14/azure32450gb65tb_ssdgiops51.html
HPC ここまで!
The Microsoft Conference 2014
最近追加された三つの機能 HBase のサポート Storm のサポート Azure 仮想ネットワークへの配置
( かつての )Hadoop の特性 大量の 蓄積された 今まさに 発生中の データに 対する バッチ リアルタイム 処理 ログファイルの分析 全文検索用インデックスの生成
( かつての )Hadoop の特性 入力ファイル群をシーケンシャルに処理 cat ファイル cat ファイル Map cat ファイル sort Map Map Reduce > ファイル UNIX コマンドによるテキストファイル処理に例えられます
Apache Storm on HDInsight スケーラブルな分散 CEP 基盤 Twitter 分析を行っていた BackType 社が開発 Twitter が BackType を買収したことで Twitter から OSS として公開される その後 2013 年 9 月に Apache Incubator プロジェクトとなる
そしてついに先月 ASF のトップレベルプロジェクトに昇格
Storm 活用企業 & プロジェクト https://storm.incubator.apache.org/
Storm on HDInsight の特性 大量の 蓄積された 今まさに 発生中の データに 対する バッチ リアルタイム 処理
Storm による処理の流れ ログファイル センサデータ メッセージングシステム Storm on HDInsight ダッシュボード モバイルデバイス データストア
Storm のメッセージ処理モデル Spout, Bolt, Stream を組み合わせ Topology を定義 Tuple Tuple Spout Stream Bolt Bolt Spout Bolt Bolt Topology Spout から流れてくる Tuple を Bolt が処理
メッセージングシステム? storm 自体は 大量の端末からのデータを直接受信する仕組みを持っていません Apache Kafka などが良く使われているようです
しかし メッセージングといえば
Azure には Event Hub!
おすすめチュートリアル
ElasticSearch + Kibana
Event Hub + Storm + HBase + ES +Kibana Storm on HDInsigt HBase on HDInsight Elastic Search + Kibana ダッシュボード Web サイト Event Hub 仮想ネットワーク Azure データセンター
2014 Microsoft Corporation. All rights reserved. Microsoft, Windows and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries. The information herein is for informational purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after the date of this presentation. MICROSOFT MAKES NO WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION.