2 Hadoop MapReduce Hadoop, MapReduce Apache Hadoop Project Open Source Software Hadoop common MapReduce Hadoop Distributed File System( HDFS)

DEIM Forum 2014 D1-6 Hadoop 780-8520 2-5-1 780-8520 2-5-1 780-8520 2-5-1 E-mail: {nishimae,b103k299,honda}@is.kochi-u.ac.jp Hadoop MapReduce Map-Reduce Hadoop,MapReduce,,,, 1. e- Apache Hadoop ( Hadoop) [1],Gfarm [2] Hadoop MapReduce Hadoop Distributed File System( HDFS) Mahout MapReduce <key,value> Map Reduce 2 Hadoop Almeer(2012) [3] 110 core Hadoop 8 (2012) [4] Hadoop Hadoop MapReduce [5] Hadoop, MapReduce

2 Hadoop MapReduce 3 4 5 2. Hadoop, MapReduce Apache Hadoop Project Open Source Software Hadoop common MapReduce Hadoop Distributed File System( HDFS) Mahout [1] HDFS Google The Google File System [6] ( 64MB) ( ) MapReduce Google [7] MapReduce 1 Map Reduce 2 Map Map Map <key,value> key value Reduce Reduce key value key Reduce MapReduce key, value Map, Reduce 3. 3. 1 2 Hadoop JobTracker NameNode Secondary NameNode 1 HBase Hadoop NameNode HDFS JobTracker MapReduce 2 1 MapReduce

3. 2 MapReduce t (x, y) I(x, y, t) MapReduce 4 key value key, value 3 Map (x,y) key ( t, I(x, y)) value Shuffle (x,y) Reduce (x, y) key value Map Reduce Partitioner Reduce key Partitioner Partitioner [5] 1 ( ) 53 Intel Core 2 Duo (3.06GHz) 2 4GB HDD 500GB HDFS HDD 455GB( 23TB) OS Mac OS X 10.6.8 Hadoop version 1.2.1 Java version 1.6.0 45 1000BaseT 4 3 MapReduce 4. - - 4. 1 imac 53 ( 3 50 ) 1 1 NameNode NameNode Secondary NameNode JobTracker 3 Mac OS X 10.6.8 LDAP Hadoop LDAP Hadoop NFS (1 455GB) HDFS 23TB 4 2 L2 10Gbps 4. 2 GIMMS [8] 1200 ( 1200) 1152 1152 pixel, 16bit 3 ( ) 1 50 Map Reduce VIntWritable VIntArrayWritable 5 10 Map I(n) = t(1)/t(n). (1) t(n) n I(n) n 1 I(n) n 6 1-50 10 Map Map Reduce

Map Reduce 1 1 ( 2 ) 3 ) 5 Map 6 Map 4. 3 Map-Reduce 3 Map-Reduce 7 Map-Reduce 7 (1) (2) ID i key t i (x i, y i ) {I(x i, y i, t), I(x i + 1, y i, t), I(x i + 2, y i, t), } value Partitioner (2) key1 (3) Hadoop DEFLATE Reduce Map-Reduce Combiner Combiner Reduce Shuffle Shuffle 2 VIntWritable, VIntArrayWritable 1 10 20 30 40 50 3 (1152 1152 pixel, 16bit 1200 ) 2 Map-Reduce case key value 1 ( ) 2 ID ( ) 3 ID ( ) case2, case3 20 1 10 4.5 20 4. 4 3 Map Reduce 5 1 7 1 case1 case3 35 1 ( )

3 Map-Reduce :Map Reduce case Map-Reduce (MB) 1: 24888 2: ( ) 4772 3: ( ) 712-714 8 1 10 3 1 20 50 50 case1 2311 sec case2 478 sec case3 126 sec 9 Map-Reduce 1200, 2400), 3600, 4800 50 4800 Reduce 50 Reduce 8 Map-Reduce 9 case1, case2 10 20 case3( ) Map 4. 5 case3 10 50 50 250 1200 ( 3.2GB) 4800 ( 12.8GB) 10 ( 10 50 1200 2400 3600 4800, 4800 Reduce 10 Map-Reduce ( 1 11 200 260MB, Reduce

12 [9] 11 10 Map-Reduce 1 (DEFLATE 5. : 5. 1 (2009) [9] PostgreSQL Hadoop 12 w V s = {I(x, y, t s + i) i = 0, 1,, w 1} (x, y ) = (x + dx, y + dy) t = t + dt V r = {I(x, y, t s + dt + i i = 0, 1,, w 1} r w 1 i=0 r = (V s(i) Ṽs)(V r (i) Ṽr) w 1 (Vs(i) w 1. (2) i=0 Ṽs)2 (Vr(i) i=0 Ṽr)2 Ṽs Ṽr Vs Vr 1 < = r < = 1 A dt ( B MapReduce 1, 2 3 V s 4 V r 5 6 Reduce (2) 1 Map, Reduce (4), (5) 2 Map (3) Map distributed cash 5. 2 MTSAT-1,2( 6,7 ) MTSAT-1 140 MTSAT-2 145 1 (VIS) 4(IR1, IR2, IR3, IR4) IR1 (10.3 11.3um) 2012 9 12 2914 [10] 70 70 70 150 0.25 /pixel 560 560 pixels 5 5pixel 112 112pixel [11] 14

図 15 相関係数の計算結果例左側は時系列始点の画像 2012 年 10 月 13 日 02 時基準点より３日後赤丸は基準点の位置右は基準時系列との相関係数カラーバーは青が相関係数-1, 赤が 1 である図 13 MTSAT-1 が撮影した 2012 年 10 月 18 日 3 時の IR1 の気象画像は確認できたといえるを示す基準点は (東経 176.25, 北緯 7.5 ) 画像上で 425, 250) の点とし区間は 2012 年 10 月 11 日 0 時 (GMT) を始点とする 10 日間である図 14 からこの時期この領域ではほぼ 5 日間の周期で帯状の雲が発生し雲塊へ分解消滅を繰り返す様子を観察できるよって相関解析のウィンドウは 2 週間サンプリング間隔は 1 時間とした時系列データの点数としては 240 点となる図 14 2012 年 10 月 10 日 0 時 (GMT)MTSAT-2 画像と赤い矩形図 16 相関を調べた地点と図 15 の青赤の囲み領域中心の時系列. 領域内の画像の 20 時間おきの時間変化赤丸が基準点さらにデータ量に対するスケーラビリティが確保されている 5. 3 結果と考察上記の基準点に対して 4ヶ月分の画像で相関分析を行い特徴的であった時間帯の相関係数の空間分布を図 15 に示すこの図の左には参照点の始点の画像 2012 年 10 月 13 日 2 時基準点より約 3 日後右には相関係数のカラーマップを示すカラーマップでは正の相関の強い領域を赤負の相関が強い領域を青で示し特に相関係数-0.5 以下 0.5 以上の箇所を青線赤線で囲んでいるこの結果からこの時間帯 (基準時系列の３日後に基準点からやや南側に帯状に正の相関負の相関の高い箇所が対になって現れていることがわかる図 16 には基準点と図 15 で示された正負の相関性の高い領域の中心の時系列を示す基準点を緑色正の相関が強い点を赤色負の相関が強い点を青色で表す基準点では 1 週間程度の周期的な変動が観測されるのに対しやや同期あるいは 180 度程度の位相ずれをもって参照点の時系列が変動している様子が見られる結果の有用性については専門家の評価が必要でありまた可視化のインターフェースについても充実させる必要が有るが MapReduce での実装と Hadoop での実行によってこうした問題が分散処理によって効率的に実施できる事かを確認するため 8ヶ月 (5853 枚) 12ヶ月 (8734 枚) 24ヶ月 (17444 枚) での 50 スレーブでの実験を追加実施した図 17 には処理した画像枚数と計算時間の関係を時系列抽出相関係数計算のそれぞれについて示すいずれも処理枚数に比例して計算時間が線形的に増加しておりこの規模 (全データ 5.5GB, ブロック毎で最大 110MB, さらに 5x5 ビニング後 4.4MB) ではデータ量に対して頭打ち等を起こす事無く処理できていることがわかる 1 枚あたりの画像サイズが大きくなると 4.4 4.5 で議論した２種類のボトルネックによって計算時間の増加が起こる可能性があるがブロックサイズや分散数さらに取り扱うデータセットの分割を適切に調整する事によってそのような問題を回避できると考えられるより有用な結果を抽出するには前処理として空間平均に加えて時系列データの時間方向の移動平均を行いそのウィンドウサイズを試行錯誤できる事が必要であろうこのような処理は時空間の変動パターンの解析に普遍的に必要な要素でもある現在は空間平均のみ 1 段目の Map に実装しているが試行錯誤的に実施するためには, 空間平均時間平均とも第１段の Map-Redue 後の時系列中間ファイル生成後の処理として取り

( Map, Reduce 17 Remote Sensing Image Analysis, Journal of Emerging Trends in Computing and Information Sciences, Vol. 3, No.4, pp.637-644, 2012. [4],,,,,,,,. JVO : JAXA-RR-11-007 pp57-66, 2012. [5]. Hadoop -, DEIM Forum P2-4, 2013. [6] S. Ghemawat, H. Gobioff, and S. Leung The Google File System, ACM SIGOPS Operating Systems Review, Vol. 37, No. 5, 2003. [7] J. Dean and S. Ghemawat. MapReduce: simplified data processing on large clusters, Communications of the ACM, Vol. 51, No. 1, pp. 107-113, 2008. [8] C. J. Tucker,, J. E. Pinzon, M. E. Brown and E. Molly Global inventory modeling and mapping studies (GIMMS) satellite drift corrected and NOAA-16 incorporated normalized difference vegetation index (NDVI), monthly 1981-2002. University of Maryland, 2004. [9] 23 2009 [10]., http://weather.is.kochi-u.ac.jp, 03/15/2014 [11] C. Wang and M. Gudrun. The ITCZ in the Central and Eastern Pacific on Synoptic Time Scales, Monthly Weather Review, Vol. 134, pp. 1405 1421, 2006. 6. Hadoop MapReduce Reduce Hadoop [1] The Apache Software Foundation. Apache, http://hadoop. apache.org, 03.15.2014. [2] O. Tatebe, K. Hiraga, N. Soda. Gfarm Grid File System, New Generation Computing, Ohmsha, Ltd. and Springer, Vol. 28, No. 3, pp.257-275, 2010. [3] Mohamed H. Almeer. Cloud Hadoop Map Reduce For