ビッグデータ分析を高速化する分散処理技術を開発日本電気株式会社

概要 NEC はビッグデータの分析を高速化する分散処理技術を開発しました本技術によりレコメンド価格予測需要予測などに必要な機械学習処理を従来の 10 倍以上高速に行い分析結果の迅速な活用に貢献しますビッグデータの分散処理で一般的なオープンソース Hadoop を利用これによりレコメンド価格予測需要予測などの分析において従来提供まで 1 週間以上かかっていた最終的な分析結果を翌日に提供できるようになります長期間分析結果が得られないことでかかるコストや機会損失リスクを低減 Page 2 NEC Corporation 2013

背景近年インターネットやセンサなどから集まるビッグデータを分析することで有用な情報を抽出しビジネスに活用するニーズが高まっている現在このようなビッグデータの分析は Hadoop[*] 等の分散処理基盤を用い多数のサーバで行うことが一般的 Hadoop 等で分散処理収集したビッグデータ分析結果 [*] Apache Software Foundation が開発公開しているオープンソースの分散処理基盤 Page 3 NEC Corporation 2013

課題 Hadoop は集計のような単純な分析は高速に実行できるもののレコメンド価格予測需要予測などに用いる機械学習 [*] のような複雑な分析は高速に実行することができない高速に実行高速に実行できない Hadoop Hadoop 集計のような単純な分析機械学習のような複雑な分析 [*] データから規則やパターン知識を抽出し現状認識や将来予測を行う技術 Page 4 NEC Corporation 2013

高速に実行できないことによる問題分析を行う際は処理結果を基に分析方法 ( パラメータの設定等 ) を修正するなどし分析処理を複数回行う例えば 5 回分析する場合 1 回の処理に10 時間かかると最終的な分析結果を得るまでに1 週間以上かかる 1 時間で処理できれば 1 日で分析結果を得ることが可能現状の問題本技術による解決システムの予測急に当らなくなったんだけどの状況が変わったためですね分析のやり直しです 1 週間かかります分析をやりなおして明日修正しますそれは助かるわ! その間精度が悪いから利益に影響するんだけど Page 5 NEC Corporation 2013

高速化技術の概要機械学習で頻繁に用いられる繰り返し演算および行列演算を信頼性を損なわずに高速化新技術を用いた新たな分散処理ソフトウェアを試作大量データを用いた機械学習プログラムで検証 MapReduce 部分を置き換えることで従来の Hadoop の 10 倍以上の速度を達成これにより最終的な分析結果を得るまで 1 週間以上かかっていた [*] 時間を 1 日に短縮し分析結果の迅速な利用を可能に [*] 利用者数 400 万人商品数 50 万点購入履歴数 2000 万の購入履歴を用いてレコメンド処理を実行した場合 Page 6 NEC Corporation 2013

従来の Hadoop と本技術の比較評価 2 種類の機械学習プログラムで比較いずれも大量の文書を入力として類義語等関連の深い単語を抽出するもの LSA (Latent Semantic Analysis), LDA (Latent Dirichlet Allocation) 13 倍高速 17 倍高速評価環境 : 18 台 72CPU のクラスタで評価従来の Hadoop は Mahout(Hadoop を用いて記述された機械学習プログラム ) による実装を利用入力は英語版 Wikipedia( 文書数約 400 万単語種類約 50 万総単語数約 2000 万 ) LSA は全文 LDA は従来の Hadoop の実行速度が遅かったため 1/30 のデータで評価 Page 7 NEC Corporation 2013

技術の特長 1 機械学習等の複雑な処理を高速化 Page 8 NEC Corporation 2013

[ ご参考 ] MapReduce とは Hadoopでは MapReduce を単位として分散処理を実現分散して処理を行うMap 処理とその結果を集約するReduce 処理から構成 Map 処理の出力ではデータの種類をキーとして指定 Reduce 処理には同じキーのデータが集められるプログラマは Map 及び Reduce 関数を記述システムが自動的に分散実行分散配置されたデータ Map Map Map Map を処理対象に処理 Reduce Reduce Reduce Reduce Page 9 NEC Corporation 2013

従来の Hadoop での機械学習処理集計のような単純な分析は MapReduce 単一で実現できるが機械学習は繰り返し演算を必要とするためこれを実現するため多数の MapReduce を組み合わせる必要がある集計のような単純な分析機械学習のような複雑な分析 MapReduce MapReduce MapReduce MapReduce 多数の MapReduce の組合せが必要また機械学習は行列演算も必要とするが MapReduce は不得意多数の MapReduce を組み合せる必要があるとともに処理を実行する際にサーバ間の通信が非効率になるケースがある Page 10 NEC Corporation 2013

多数の MapReduce の組合せで低速になる理由 MapReduce 間のデータ受け渡しが遅いためハードディスク経由で多量のデータが受け渡される MapReduce MapReduce MapReduce データの受け渡しが遅い Page 11 NEC Corporation 2013

高速化の内容データの受け渡しをハードディスクではなくメモリ経由とし高速化 MapReduce MapReduce MapReduce メモリ経由で受け渡し行列演算を得意とする MPI (Message Passing Interface) [*] を利用可能とし行列演算を高速化 [*] サーバ同士がメッセージを送りあうことで分散処理を行う手法 Page 12 NEC Corporation 2013

技術の特長 2 高速化と高い信頼性を両立 Page 13 NEC Corporation 2013

従来の Hadoop での高信頼化分散処理では多数のサーバを用いるため 1 台が故障する確率が増大したがってサーバが故障した場合でも処理を継続できる仕組みが必須故障時の動作各 MapReduceはその入力がハードディスクに保存されていることを仮定一部サーバが故障したら保存されている入力を用いて故障したサーバの計算を再度実行一部サーバが故障保存されている入力を用いて故障したサーバの計算を再度実行 MapReduce MapReduce MapReduce MapReduce ハードディスクにデータを保存今回の高速化技術ではメモリ経由でデータを受け渡すためこの仕組みは使えないサーバ故障時には失われてしまう Page 14 NEC Corporation 2013

新たな高信頼化手法を開発処理の途中の状態を高速に保存する手法を開発適切な頻度で処理の途中の状態を保存サーバ故障時には保存した状態から実行を再開処理を継続故障スペアと入替処理の途中の状態を保存保存した状態に戻し実行を再開 Page 15 NEC Corporation 2013

処理の途中の状態を高速に保存する手法各サーバで動いているプログラムが利用しているメモリのうちプログラムの再開に必要な部分だけを選択して保存する手法を世界で初めて実現これにより保存するデータサイズを大幅に削減高速な保存を実現プログラムが利用中のメモリプログラムの再開に必要な部分だけを保存プログラムの再開に必要な部分プログラムの再開には不要な部分 ( 例 : 不要になったデータ ) Page 16 NEC Corporation 2013

Page 17 NEC Corporation 2013

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

ビッグデータ分析を高速化する分散処理技術を開発日本電気株式会社