2 Hadoop MapReduce Hadoop, MapReduce Apache Hadoop Project Open Source Software Hadoop common MapReduce Hadoop Distributed File System( HDFS)

Similar documents
DEIM Forum 2012 C2-6 Hadoop Web Hadoop Distributed File System Hadoop I/O I/O Hadoo

P P P P P P P OS... P P P P P P

IPSJ-HPC

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2013-HPC-139 No /5/29 Gfarm/Pwrake NICT NICT 10TB 100TB CPU I/O HPC I/O NICT Gf

無料セミナー資料:ビッグデータ管理基盤ソフトウェアHadoop入門

Amazon EC2 IaaS (Infrastructure as a Service) HPCI HPCI ( VM) VM VM HPCI VM OS VM HPCI HPC HPCI RENKEI-PoP 2 HPCI HPCI 1 HPCI HPCI HPC CS

i Ceph

yamamoto_hadoop.pptx

HBase Phoenix API Mars GPU MapReduce GPU Hadoop Hadoop Hadoop MapReduce : (1) MapReduce (2)JobTracker 1 Hadoop CPU GPU Fig. 1 The overview of CPU-GPU

HP ProLiant Gen8とRed Hatで始めるHadoop™ ~Hadoop™スタートアップ支援サービス~

IBM クラウド事例から考える OSS による企業向けクラウドの可能性 日本アイ ビー エム株式会社 Linux/OSS エバンジェリスト中井悦司 Feb. 27, IBM Corporation

スライド 1

3. XML, DB, DB (AP). DB, DB, AP. RDB., XMLDB, XML,.,,.,, (XML / ), XML,,., AP. AP AP AP 検索キー //A=1 //A=2 //A=3 返却 XML 全体 XML 全体 XML 全体 XMLDB <root> <A

JAXA-RR ICT ICT (Virtual Observatory = VO) JVO (Japanese Virtual Observatory) 1,2,3,4) 1 VO 1 Google Sky API (JVOSky) 1 VO Hadoop

[1] [2] [3] (RTT) 2. Android OS Android OS Google OS 69.7% [4] 1 Android Linux [5] Linux OS Android Runtime Dalvik Dalvik UI Application(Home,T

特別寄稿.indd


IPSJ SIG Technical Report Vol.2014-DBS-159 No.6 Vol.2014-IFAT-115 No /8/1 1,a) 1 1 1,, 1. ([1]) ([2], [3]) A B 1 ([4]) 1 Graduate School of Info

DEIM Forum 2012 E Web Extracting Modification of Objec

258 5) GPS 1 GPS 6) GPS DP 7) 8) 10) GPS GPS ) GPS Global Positioning System

EMC-greenplum-SG s-1p

データセンターの効率的な資源活用のためのデータ収集・照会システムの設計

21 e-learning Development of Real-time Learner Detection System for e-learning

’M‰à„”Łñ PDFŠp

1

Mac OS X Net- Boot NetBoot 1 2 F2D K2A K3A K4A F2A F2B F2C F2D F2A - 1: 1 Mac OS X Server MAC 1 Mac OS X Server NetBoot 2 3 4

Adobe Postscript 3 Expansion Unit

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP

2. CABAC CABAC CABAC 1 1 CABAC Figure 1 Overview of CABAC 2 DCT 2 0/ /1 CABAC [3] 3. 2 値化部 コンテキスト計算部 2 値算術符号化部 CABAC CABAC

,., ping - RTT,., [2],RTT TCP [3] [4] Android.Android,.,,. LAN ACK. [5].. 3., 1.,. 3 AI.,,Amazon, (NN),, 1..NN,, (RNN) RNN

1 Web [2] Web [3] [4] [5], [6] [7] [8] S.W. [9] 3. MeetingShelf Web MeetingShelf MeetingShelf (1) (2) (3) (4) (5) Web MeetingShelf

(^^

PowerPoint Presentation

Journal of Geography 116 (6) Configuration of Rapid Digital Mapping System Using Tablet PC and its Application to Obtaining Ground Truth

DEIM Forum 2017 H ,

Input image Initialize variables Loop for period of oscillation Update height map Make shade image Change property of image Output image Change time L

MENU 키를 누르면 아래의 화면이 나타납니다

DEIM Forum 2015 E4-5 DSMS DSMS DSMS 32% 46% RTOS Priority Inversion Time

基本設計書

IPSJ SIG Technical Report Vol.2019-IOT-44 No /3/8 CRIU HTTP 1,a) 2 PC SNS Web FastContainer HTTP HTTP Web HTTP Web Web Low-cost and High Perfor


Agenda Hadoop Sahara Kilo Q&A Copyright 2015 Mirantis, Inc. All rights reserved Page 2

緒言 GIS ソフトウエア開発動向の一つに 3 次元化表示 がある. 代表的な GIS ソフトである ESRI 社の ArcGIS では, 建物や樹木等を平面 GIS に上乗せすることを 3 次元表示と呼ぶことが多い. 一方, 地下構造を表現できる 真 3 次元 化は, ソリッドモデル又はボクセルモ

FileMaker Server Getting Started Guide

<4D F736F F D CF097AC E A D836A B2E646F6378>

本組/根間弘海

Hadoop Introduction

4. WIX アタッチエンジン 4. 1 FSDR 処理 システムの Web 資源結合動作であるアタッチ処理について 述べる. アタッチ処理は以下の 4 フェーズに分けられる. この一連の 流れを FSDR 処理とする. Find 処理 Select 処理 Decide 処理 Rewrite 処理

IPSJ SIG Technical Report Vol.2013-HCI-152 No /3/13 1,a) 1,b) 2,c) / GPS Bluetooth(BT) WiFi BT WiFi 1. Bluetooth WiFi 1 / 1 2 a)

Transcription:

DEIM Forum 2014 D1-6 Hadoop 780-8520 2-5-1 780-8520 2-5-1 780-8520 2-5-1 E-mail: {nishimae,b103k299,honda}@is.kochi-u.ac.jp Hadoop MapReduce Map-Reduce Hadoop,MapReduce,,,, 1. e- Apache Hadoop ( Hadoop) [1],Gfarm [2] Hadoop MapReduce Hadoop Distributed File System( HDFS) Mahout MapReduce <key,value> Map Reduce 2 Hadoop Almeer(2012) [3] 110 core Hadoop 8 (2012) [4] Hadoop Hadoop MapReduce [5] Hadoop, MapReduce

2 Hadoop MapReduce 3 4 5 2. Hadoop, MapReduce Apache Hadoop Project Open Source Software Hadoop common MapReduce Hadoop Distributed File System( HDFS) Mahout [1] HDFS Google The Google File System [6] ( 64MB) ( ) MapReduce Google [7] MapReduce 1 Map Reduce 2 Map Map Map <key,value> key value Reduce Reduce key value key Reduce MapReduce key, value Map, Reduce 3. 3. 1 2 Hadoop JobTracker NameNode Secondary NameNode 1 HBase Hadoop NameNode HDFS JobTracker MapReduce 2 1 MapReduce

3. 2 MapReduce t (x, y) I(x, y, t) MapReduce 4 key value key, value 3 Map (x,y) key ( t, I(x, y)) value Shuffle (x,y) Reduce (x, y) key value Map Reduce Partitioner Reduce key Partitioner Partitioner [5] 1 ( ) 53 Intel Core 2 Duo (3.06GHz) 2 4GB HDD 500GB HDFS HDD 455GB( 23TB) OS Mac OS X 10.6.8 Hadoop version 1.2.1 Java version 1.6.0 45 1000BaseT 4 3 MapReduce 4. - - 4. 1 imac 53 ( 3 50 ) 1 1 NameNode NameNode Secondary NameNode JobTracker 3 Mac OS X 10.6.8 LDAP Hadoop LDAP Hadoop NFS (1 455GB) HDFS 23TB 4 2 L2 10Gbps 4. 2 GIMMS [8] 1200 ( 1200) 1152 1152 pixel, 16bit 3 ( ) 1 50 Map Reduce VIntWritable VIntArrayWritable 5 10 Map I(n) = t(1)/t(n). (1) t(n) n I(n) n 1 I(n) n 6 1-50 10 Map Map Reduce

Map Reduce 1 1 ( 2 ) 3 ) 5 Map 6 Map 4. 3 Map-Reduce 3 Map-Reduce 7 Map-Reduce 7 (1) (2) ID i key t i (x i, y i ) {I(x i, y i, t), I(x i + 1, y i, t), I(x i + 2, y i, t), } value Partitioner (2) key1 (3) Hadoop DEFLATE Reduce Map-Reduce Combiner Combiner Reduce Shuffle Shuffle 2 VIntWritable, VIntArrayWritable 1 10 20 30 40 50 3 (1152 1152 pixel, 16bit 1200 ) 2 Map-Reduce case key value 1 ( ) 2 ID ( ) 3 ID ( ) case2, case3 20 1 10 4.5 20 4. 4 3 Map Reduce 5 1 7 1 case1 case3 35 1 ( )

3 Map-Reduce :Map Reduce case Map-Reduce (MB) 1: 24888 2: ( ) 4772 3: ( ) 712-714 8 1 10 3 1 20 50 50 case1 2311 sec case2 478 sec case3 126 sec 9 Map-Reduce 1200, 2400), 3600, 4800 50 4800 Reduce 50 Reduce 8 Map-Reduce 9 case1, case2 10 20 case3( ) Map 4. 5 case3 10 50 50 250 1200 ( 3.2GB) 4800 ( 12.8GB) 10 ( 10 50 1200 2400 3600 4800, 4800 Reduce 10 Map-Reduce ( 1 11 200 260MB, Reduce

12 [9] 11 10 Map-Reduce 1 (DEFLATE 5. : 5. 1 (2009) [9] PostgreSQL Hadoop 12 w V s = {I(x, y, t s + i) i = 0, 1,, w 1} (x, y ) = (x + dx, y + dy) t = t + dt V r = {I(x, y, t s + dt + i i = 0, 1,, w 1} r w 1 i=0 r = (V s(i) Ṽs)(V r (i) Ṽr) w 1 (Vs(i) w 1. (2) i=0 Ṽs)2 (Vr(i) i=0 Ṽr)2 Ṽs Ṽr Vs Vr 1 < = r < = 1 A dt ( B MapReduce 1, 2 3 V s 4 V r 5 6 Reduce (2) 1 Map, Reduce (4), (5) 2 Map (3) Map distributed cash 5. 2 MTSAT-1,2( 6,7 ) MTSAT-1 140 MTSAT-2 145 1 (VIS) 4(IR1, IR2, IR3, IR4) IR1 (10.3 11.3um) 2012 9 12 2914 [10] 70 70 70 150 0.25 /pixel 560 560 pixels 5 5pixel 112 112pixel [11] 14

図 15 相関係数の計算結果例 左側は時系列始点の画像 2012 年 10 月 13 日 02 時 基準点より3日後 赤丸は基準点の位置 右 は基準時系列との相関係数 カラーバーは 青が相関係数-1, 赤 が 1 である 図 13 MTSAT-1 が撮影した 2012 年 10 月 18 日 3 時の IR1 の気象 画像 は確認できたといえる を示す 基準点は (東経 176.25, 北緯 7.5 ) 画像上で 425, 250) の点とし 区間は 2012 年 10 月 11 日 0 時 (GMT) を始点 とする 10 日間である 図 14 から この時期 この領域では ほぼ 5 日間の周期で帯状の雲が発生し 雲塊へ分解 消滅を繰 り返す様子を観察できる よって 相関解析のウィンドウは 2 週間 サンプリング間隔は 1 時間とした 時系列データの点数 としては 240 点となる 図 14 2012 年 10 月 10 日 0 時 (GMT)MTSAT-2 画像と 赤い矩形 図 16 相関を調べた地点と図 15 の青 赤の囲み領域中心の時系列. 領域内の画像の 20 時間おきの時間変化 赤丸が基準点 さらにデータ量に対するスケーラビリティが確保されている 5. 3 結果と考察 上記の基準点に対して 4ヶ月分の画像で相関分析を行い 特 徴的であった時間帯の相関係数の空間分布を図 15 に示す この 図の左には参照点の始点の画像 2012 年 10 月 13 日 2 時 基 準点より約 3 日後 右には相関係数のカラーマップを示す カラーマップでは 正の相関の強い領域を赤 負の相関が強い 領域を青で示し 特に相関係数-0.5 以下 0.5 以上の箇所を青 線 赤線で囲んでいる この結果からこの時間帯 (基準時系列 の3日後 に基準点からやや南側に帯状に正の相関 負の相関 の高い箇所が対になって現れていることがわかる 図 16 には 基準点と図 15 で示された正負の相関性の高い 領域の中心の時系列を示す 基準点を緑色 正の相関が強い点 を赤色 負の相関が強い点を青色で表す 基準点では 1 週間程 度の周期的な変動が観測されるのに対し やや同期 あるいは 180 度程度の位相ずれをもって参照点の時系列が変動している 様子が見られる 結果の有用性については 専門家の評価が必 要であり また可視化のインターフェースについても充実させ る必要が有るが MapReduce での実装と Hadoop での実行に よってこうした問題が分散処理によって効率的に実施できる事 かを確認するため 8ヶ月 (5853 枚) 12ヶ月 (8734 枚) 24ヶ 月 (17444 枚) での 50 スレーブでの実験を追加実施した 図 17 には処理した画像枚数と計算時間の関係を時系列抽出 相関係 数計算のそれぞれについて示す いずれも処理枚数に比例して 計算時間が線形的に増加しており この規模 (全データ 5.5GB, ブロック毎で最大 110MB, さらに 5x5 ビニング後 4.4MB) で はデータ量に対して頭打ち等を起こす事無く処理できているこ とがわかる 1 枚あたりの画像サイズが大きくなると 4.4 4.5 で議論した2種類のボトルネックによって計算時間の増加が起 こる可能性があるが ブロックサイズや分散数 さらに取り扱 うデータセットの分割を適切に調整する事によって そのよう な問題を回避できると考えられる より有用な結果を抽出するには 前処理として空間平均に加 えて時系列データの時間方向の移動平均を行い そのウィンド ウサイズを試行錯誤できる事が必要であろう このような処理 は時空間の変動パターンの解析に普遍的に必要な要素でもあ る 現在は空間平均のみ 1 段目の Map に実装しているが 試行 錯誤的に実施するためには, 空間平均 時間平均とも第1段の Map-Redue 後の時系列中間ファイル生成後の処理として取り

( Map, Reduce 17 Remote Sensing Image Analysis, Journal of Emerging Trends in Computing and Information Sciences, Vol. 3, No.4, pp.637-644, 2012. [4],,,,,,,,. JVO : JAXA-RR-11-007 pp57-66, 2012. [5]. Hadoop -, DEIM Forum P2-4, 2013. [6] S. Ghemawat, H. Gobioff, and S. Leung The Google File System, ACM SIGOPS Operating Systems Review, Vol. 37, No. 5, 2003. [7] J. Dean and S. Ghemawat. MapReduce: simplified data processing on large clusters, Communications of the ACM, Vol. 51, No. 1, pp. 107-113, 2008. [8] C. J. Tucker,, J. E. Pinzon, M. E. Brown and E. Molly Global inventory modeling and mapping studies (GIMMS) satellite drift corrected and NOAA-16 incorporated normalized difference vegetation index (NDVI), monthly 1981-2002. University of Maryland, 2004. [9] 23 2009 [10]., http://weather.is.kochi-u.ac.jp, 03/15/2014 [11] C. Wang and M. Gudrun. The ITCZ in the Central and Eastern Pacific on Synoptic Time Scales, Monthly Weather Review, Vol. 134, pp. 1405 1421, 2006. 6. Hadoop MapReduce Reduce Hadoop [1] The Apache Software Foundation. Apache, http://hadoop. apache.org, 03.15.2014. [2] O. Tatebe, K. Hiraga, N. Soda. Gfarm Grid File System, New Generation Computing, Ohmsha, Ltd. and Springer, Vol. 28, No. 3, pp.257-275, 2010. [3] Mohamed H. Almeer. Cloud Hadoop Map Reduce For