DEIM Forum 2014 D1-6 Hadoop 780-8520 2-5-1 780-8520 2-5-1 780-8520 2-5-1 E-mail: {nishimae,b103k299,honda}@is.kochi-u.ac.jp Hadoop MapReduce Map-Reduce Hadoop,MapReduce,,,, 1. e- Apache Hadoop ( Hadoop) [1],Gfarm [2] Hadoop MapReduce Hadoop Distributed File System( HDFS) Mahout MapReduce <key,value> Map Reduce 2 Hadoop Almeer(2012) [3] 110 core Hadoop 8 (2012) [4] Hadoop Hadoop MapReduce [5] Hadoop, MapReduce
2 Hadoop MapReduce 3 4 5 2. Hadoop, MapReduce Apache Hadoop Project Open Source Software Hadoop common MapReduce Hadoop Distributed File System( HDFS) Mahout [1] HDFS Google The Google File System [6] ( 64MB) ( ) MapReduce Google [7] MapReduce 1 Map Reduce 2 Map Map Map <key,value> key value Reduce Reduce key value key Reduce MapReduce key, value Map, Reduce 3. 3. 1 2 Hadoop JobTracker NameNode Secondary NameNode 1 HBase Hadoop NameNode HDFS JobTracker MapReduce 2 1 MapReduce
3. 2 MapReduce t (x, y) I(x, y, t) MapReduce 4 key value key, value 3 Map (x,y) key ( t, I(x, y)) value Shuffle (x,y) Reduce (x, y) key value Map Reduce Partitioner Reduce key Partitioner Partitioner [5] 1 ( ) 53 Intel Core 2 Duo (3.06GHz) 2 4GB HDD 500GB HDFS HDD 455GB( 23TB) OS Mac OS X 10.6.8 Hadoop version 1.2.1 Java version 1.6.0 45 1000BaseT 4 3 MapReduce 4. - - 4. 1 imac 53 ( 3 50 ) 1 1 NameNode NameNode Secondary NameNode JobTracker 3 Mac OS X 10.6.8 LDAP Hadoop LDAP Hadoop NFS (1 455GB) HDFS 23TB 4 2 L2 10Gbps 4. 2 GIMMS [8] 1200 ( 1200) 1152 1152 pixel, 16bit 3 ( ) 1 50 Map Reduce VIntWritable VIntArrayWritable 5 10 Map I(n) = t(1)/t(n). (1) t(n) n I(n) n 1 I(n) n 6 1-50 10 Map Map Reduce
Map Reduce 1 1 ( 2 ) 3 ) 5 Map 6 Map 4. 3 Map-Reduce 3 Map-Reduce 7 Map-Reduce 7 (1) (2) ID i key t i (x i, y i ) {I(x i, y i, t), I(x i + 1, y i, t), I(x i + 2, y i, t), } value Partitioner (2) key1 (3) Hadoop DEFLATE Reduce Map-Reduce Combiner Combiner Reduce Shuffle Shuffle 2 VIntWritable, VIntArrayWritable 1 10 20 30 40 50 3 (1152 1152 pixel, 16bit 1200 ) 2 Map-Reduce case key value 1 ( ) 2 ID ( ) 3 ID ( ) case2, case3 20 1 10 4.5 20 4. 4 3 Map Reduce 5 1 7 1 case1 case3 35 1 ( )
3 Map-Reduce :Map Reduce case Map-Reduce (MB) 1: 24888 2: ( ) 4772 3: ( ) 712-714 8 1 10 3 1 20 50 50 case1 2311 sec case2 478 sec case3 126 sec 9 Map-Reduce 1200, 2400), 3600, 4800 50 4800 Reduce 50 Reduce 8 Map-Reduce 9 case1, case2 10 20 case3( ) Map 4. 5 case3 10 50 50 250 1200 ( 3.2GB) 4800 ( 12.8GB) 10 ( 10 50 1200 2400 3600 4800, 4800 Reduce 10 Map-Reduce ( 1 11 200 260MB, Reduce
12 [9] 11 10 Map-Reduce 1 (DEFLATE 5. : 5. 1 (2009) [9] PostgreSQL Hadoop 12 w V s = {I(x, y, t s + i) i = 0, 1,, w 1} (x, y ) = (x + dx, y + dy) t = t + dt V r = {I(x, y, t s + dt + i i = 0, 1,, w 1} r w 1 i=0 r = (V s(i) Ṽs)(V r (i) Ṽr) w 1 (Vs(i) w 1. (2) i=0 Ṽs)2 (Vr(i) i=0 Ṽr)2 Ṽs Ṽr Vs Vr 1 < = r < = 1 A dt ( B MapReduce 1, 2 3 V s 4 V r 5 6 Reduce (2) 1 Map, Reduce (4), (5) 2 Map (3) Map distributed cash 5. 2 MTSAT-1,2( 6,7 ) MTSAT-1 140 MTSAT-2 145 1 (VIS) 4(IR1, IR2, IR3, IR4) IR1 (10.3 11.3um) 2012 9 12 2914 [10] 70 70 70 150 0.25 /pixel 560 560 pixels 5 5pixel 112 112pixel [11] 14
図 15 相関係数の計算結果例 左側は時系列始点の画像 2012 年 10 月 13 日 02 時 基準点より3日後 赤丸は基準点の位置 右 は基準時系列との相関係数 カラーバーは 青が相関係数-1, 赤 が 1 である 図 13 MTSAT-1 が撮影した 2012 年 10 月 18 日 3 時の IR1 の気象 画像 は確認できたといえる を示す 基準点は (東経 176.25, 北緯 7.5 ) 画像上で 425, 250) の点とし 区間は 2012 年 10 月 11 日 0 時 (GMT) を始点 とする 10 日間である 図 14 から この時期 この領域では ほぼ 5 日間の周期で帯状の雲が発生し 雲塊へ分解 消滅を繰 り返す様子を観察できる よって 相関解析のウィンドウは 2 週間 サンプリング間隔は 1 時間とした 時系列データの点数 としては 240 点となる 図 14 2012 年 10 月 10 日 0 時 (GMT)MTSAT-2 画像と 赤い矩形 図 16 相関を調べた地点と図 15 の青 赤の囲み領域中心の時系列. 領域内の画像の 20 時間おきの時間変化 赤丸が基準点 さらにデータ量に対するスケーラビリティが確保されている 5. 3 結果と考察 上記の基準点に対して 4ヶ月分の画像で相関分析を行い 特 徴的であった時間帯の相関係数の空間分布を図 15 に示す この 図の左には参照点の始点の画像 2012 年 10 月 13 日 2 時 基 準点より約 3 日後 右には相関係数のカラーマップを示す カラーマップでは 正の相関の強い領域を赤 負の相関が強い 領域を青で示し 特に相関係数-0.5 以下 0.5 以上の箇所を青 線 赤線で囲んでいる この結果からこの時間帯 (基準時系列 の3日後 に基準点からやや南側に帯状に正の相関 負の相関 の高い箇所が対になって現れていることがわかる 図 16 には 基準点と図 15 で示された正負の相関性の高い 領域の中心の時系列を示す 基準点を緑色 正の相関が強い点 を赤色 負の相関が強い点を青色で表す 基準点では 1 週間程 度の周期的な変動が観測されるのに対し やや同期 あるいは 180 度程度の位相ずれをもって参照点の時系列が変動している 様子が見られる 結果の有用性については 専門家の評価が必 要であり また可視化のインターフェースについても充実させ る必要が有るが MapReduce での実装と Hadoop での実行に よってこうした問題が分散処理によって効率的に実施できる事 かを確認するため 8ヶ月 (5853 枚) 12ヶ月 (8734 枚) 24ヶ 月 (17444 枚) での 50 スレーブでの実験を追加実施した 図 17 には処理した画像枚数と計算時間の関係を時系列抽出 相関係 数計算のそれぞれについて示す いずれも処理枚数に比例して 計算時間が線形的に増加しており この規模 (全データ 5.5GB, ブロック毎で最大 110MB, さらに 5x5 ビニング後 4.4MB) で はデータ量に対して頭打ち等を起こす事無く処理できているこ とがわかる 1 枚あたりの画像サイズが大きくなると 4.4 4.5 で議論した2種類のボトルネックによって計算時間の増加が起 こる可能性があるが ブロックサイズや分散数 さらに取り扱 うデータセットの分割を適切に調整する事によって そのよう な問題を回避できると考えられる より有用な結果を抽出するには 前処理として空間平均に加 えて時系列データの時間方向の移動平均を行い そのウィンド ウサイズを試行錯誤できる事が必要であろう このような処理 は時空間の変動パターンの解析に普遍的に必要な要素でもあ る 現在は空間平均のみ 1 段目の Map に実装しているが 試行 錯誤的に実施するためには, 空間平均 時間平均とも第1段の Map-Redue 後の時系列中間ファイル生成後の処理として取り
( Map, Reduce 17 Remote Sensing Image Analysis, Journal of Emerging Trends in Computing and Information Sciences, Vol. 3, No.4, pp.637-644, 2012. [4],,,,,,,,. JVO : JAXA-RR-11-007 pp57-66, 2012. [5]. Hadoop -, DEIM Forum P2-4, 2013. [6] S. Ghemawat, H. Gobioff, and S. Leung The Google File System, ACM SIGOPS Operating Systems Review, Vol. 37, No. 5, 2003. [7] J. Dean and S. Ghemawat. MapReduce: simplified data processing on large clusters, Communications of the ACM, Vol. 51, No. 1, pp. 107-113, 2008. [8] C. J. Tucker,, J. E. Pinzon, M. E. Brown and E. Molly Global inventory modeling and mapping studies (GIMMS) satellite drift corrected and NOAA-16 incorporated normalized difference vegetation index (NDVI), monthly 1981-2002. University of Maryland, 2004. [9] 23 2009 [10]., http://weather.is.kochi-u.ac.jp, 03/15/2014 [11] C. Wang and M. Gudrun. The ITCZ in the Central and Eastern Pacific on Synoptic Time Scales, Monthly Weather Review, Vol. 134, pp. 1405 1421, 2006. 6. Hadoop MapReduce Reduce Hadoop [1] The Apache Software Foundation. Apache, http://hadoop. apache.org, 03.15.2014. [2] O. Tatebe, K. Hiraga, N. Soda. Gfarm Grid File System, New Generation Computing, Ohmsha, Ltd. and Springer, Vol. 28, No. 3, pp.257-275, 2010. [3] Mohamed H. Almeer. Cloud Hadoop Map Reduce For