ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

Similar documents
データセンターの効率的な資源活用のためのデータ収集・照会システムの設計

<4D F736F F D F B835E82CC8D8291AC8F88979D82F08FAC8C5E82A982C288C089BF82C88D5C90AC82C AC82B782E996A78C8B8D878C5E836E815B C695C097F18F88979D82F091678D8782B982BD8C768E5A8B

TopSE並行システム はじめに

【Cosminexus V9】クラウドサービスプラットフォーム Cosminexus

PowerPoint プレゼンテーション

システムインテグレータのIPv6対応

CLUSTERPRO MC ProcessSaver 1.2 for Windows 導入ガイド 第 4 版 2014 年 3 月 日本電気株式会社

大規模データの匿名加工処理を高速化する技術を開発

CLEFIA_ISEC発表

IBM Cloud Social Visual Guidelines

ビッグデータやクラウドのシステム基盤向けに処理性能を強化した「BladeSymphony」および「HA8000シリーズ」の新製品を販売開始

CLUSTERPRO MC RootDiskMonitor 1.0 for Windows FAQ 集 2013(Mar) NEC Corporation 導入に関する質問 運用に関する質問 動作環境に関する質問

V8.1新規機能紹介記事

製品開発の現場では 各種のセンサーや測定環境を利用したデータ解析が行われ シミュレーションや動作検証等に役立てられています しかし 日々収集されるデータ量は増加し 解析も複雑化しており データ解析の負荷は徐々に重くなっています 例えば自動車の車両計測データを解析する場合 取得したデータをそのまま解析

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

目次 1. はじめに SSL 通信を使用する上での課題 SSL アクセラレーターによる解決 SSL アクセラレーターの導入例 SSL アクセラレーターの効果... 6 富士通の SSL アクセラレーター装置のラインナップ... 8

CLUSTERPRO MC ProcessSaver 2.3 for Windows 導入ガイド 第 5 版 2018 年 6 月 日本電気株式会社

(Microsoft PowerPoint - Hadoop\225\224\211\357.ppt)

CLUSTERPRO MC ProcessSaver 2.1 for Windows 構築ガイド 2016(Mar) NEC Corporation はじめに 責任範囲 適用範囲 概要 事前準備 クラスタ設定

スライド 1

Hadoop LZO圧縮機能の検証

CLUSTERPRO MC ProcessSaver 1.0 for Windows 構築ガイド 2012(Sep) NEC Corporation はじめに責任範囲適用範囲概要事前準備クラスタ設定

1 2


White Paper 高速部分画像検索キット(FPGA アクセラレーション)

日立とアシストが情報システム運用のレポーティングソフトウェアを共同開発

Microsoft Word LenovoSystemx.docx

改版履歴 版数改版内容 新規作成 i

商標類 Microsoft は, 米国およびその他の国における米国 Microsoft Corp. の登録商標です Microsoft Office は, 米国 Microsoft Corp. の商品名称です Microsoft Excel は, 米国 Microsoft Corp. の商品名称です

目次 はじめに... 3 仮想化環境上の仮想マシン保護方法... 4 ( 参考 )Agent for Virtual Machines での仮想マシンのバックアップ... 8 まとめ 改訂履歴 2011/04 初版リリース 2012/10 第 2 版リリース このドキュメントに含まれる特

endo.PDF


2

スライド 1

統合運用管理ソフトウェア Systemwalker 総合カタログ

Resigtration Manual (Japanese)

校友会16号-ol.indd

ビットリアカップ2007けいはんなサイクルレースリザルト

yume_P01-056


Page 1


情報処理学会研究報告 IPSJ SIG Technical Report Vol.2015-DPS-163 No.17 Vol.2015-MBL-75 No /5/28 Hadoop MapReduce の Reduce 処理の I/O 高速化 藤島永太山口実靖工学院大学大学院工学研究

Microsoft PowerPoint - 【最終提出版】 MATLAB_EXPO2014講演資料_ルネサス菅原.pptx

CLUSTERPRO MC RootDiskMonitor 2.3 for Windows リリースメモ 2018(Jun) NEC Corporation はじめに ライセンス 動作要件 セットアップ マニュアル

スライド 1

PowerPoint プレゼンテーション

延命セキュリティ製品 製品名お客様の想定対象 OS McAfee Embedded Control 特定の業務で利用する物理 PC 仮想 PC や Server 2003 Server 2003 ホワイトリスト型 Trend Micro Safe Lock 特定の業務で利用するスタンドアロン PC

dlshogiアピール文章

<4D F736F F F696E74202D208CA48B868FD089EE288FDA82B582A294C5292E B8CDD8AB B83685D>

/27 (13 8/24) (9/27) (9/27) / / / /16 12

Using VectorCAST/C++ with Test Driven Development

スライド 1

Python Perl JavaScript および PHP などの ランザクション ID を利用することで 重複する処理 な Tuple が流れるかはグルーピングより決定されま 多くの言語をサポートしています を判別することができます す 6 簡単なデプロイと運用 は簡単にデプロイし 動作させるこ

1. はじめに 2

CLUSTERPROXSingleServerSafe SingleServerSafe ご紹介 2007 年 10 月

PowerPoint プレゼンテーション

ComputerArchitecture.ppt

WBT [6] [7] [8] [9] Web [1] WBT [2] [3] ipad PC ipad ipad ipad [4] QR QR [5] IC IC PDA IC PDA US-ASCII 4,296 QR IC IC IC QR QR QR A BB A A CC

Microsoft Word - 06.doc

分野 コース名 基礎的 IT セミナーコース一覧 内容 I T 理解 I T スキル活用 I T 倫理 新技術動向 業務の I T 化 ネットワーク 表計算 ベデーースタ プンレ / ゼ文ン書テ作ー成ショ ホームページ 情報発信コンンプスライア 情報テセィキュリ 1 第 4 次産業革命のインパクト新

AGT10(Android (TM) 2.3) ファームウェア更新方法

次に示す数値の並びを昇順にソートするものとする このソートでは配列の末尾側から操作を行っていく まず 末尾の数値 9 と 8 に着目する 昇順にソートするので この値を交換すると以下の数値の並びになる 次に末尾側から 2 番目と 3 番目の 1

Chapter カスタムテーブルの概要 カスタムテーブル Custom Tables は 複数の変数に基づいた多重クロス集計テーブルや スケール変数を用いた集計テーブルなど より複雑な集計表を自由に設計することができるIBM SPSS Statisticsのオプション製品です テーブ

Microsoft Word - ESX_Restore_R15.docx

CLUSTERPRO X for Windows PPガイド

OS バージョンアップ実行後のご注意 OS バージョンアップ後 更新完了通知が自動的にNECカシオモバイルコミュニケーションズ株式会社の運用するサーバへ送信されます なお NECカシオモバイルコミュニケーションズ株式会社は送信された情報を OS バージョンアップ以外の目的には利用いたしません また

移動通信の将来像と ドコモのネットワーク戦略

浦安ライオンズクラブ81獅子吼.indd

<348C8E8D862E696E6464>

IBM クラウド事例から考える OSS による企業向けクラウドの可能性 日本アイ ビー エム株式会社 Linux/OSS エバンジェリスト中井悦司 Feb. 27, IBM Corporation

PowerPoint プレゼンテーション

OS バージョンアップ実行中のご注意 OS バージョンアップ中は 故障の原因になりますので 絶対に N-03E 本体の電源を切ったり 電池パックを外したりしないでください OS バージョンアップ中は 電話の発着信を含めすべての機能がご利用になれません OS バージョンアップ中は 他のアプリケーション

チェックリスト Ver.4.0 回答の 書き方ガイド 国立情報学研究所クラウド支援室

平成19年度・地球工学研究所の知的財産に関する報告会 - 資料集

PowerPoint Presentation

TOPPERS 活用アイデア アプリケーション開発 コンテスト 部門 : 活用アイデア部門アプリケーション開発部門 作品のタイトル : Toppers_JSP と Scicos_lab / (Scilab でも可 ) による 組込みメカトロニクス制御シミュレーション 作成者 : 塩出武 ( シオデタ

Microsoft PowerPoint - ソフトウェア更新手順書_DAN-W62_mac_ _1.ppt

メール全文検索アプリケーション Sylph-Searcher のご紹介 SRA OSS, Inc. 日本支社技術部チーフエンジニア Sylpheed 開発者 山本博之 Copyright 2007 SRA OSS, Inc. Japan All right

FIT2015( 第 14 回情報科学技術フォーラム ) RC-003 ファイル格納位置制御による Hadoop MapReduce ジョブの性能の向上 藤島永太山口実靖 工学院大学大学院工学研究科電気 電子工学専攻工学院大学工学部情報通信工学科 1. はじめに近年, 世界中の情報量が爆発的に増加し

モータ HILS の概要 1 はじめに モータ HILS の需要 自動車の電子化及び 電気自動車やハイブリッド車の実用化に伴い モータの使用数が増大しています 従来行われていた駆動用モータ単体のシミュレーション レシプロエンジンとモータの駆動力分配制御シミュレーションの利用に加え パワーウインドやサ

M2Mを活用した機器ライフサイクル管理を実現するクラウドサービス「Global e-Service on TWX-21/M2Mサービス」を開発

Express5800 WSUS 導入セットご紹介資料

FFT

HP Universal Printer Driverで実現する「快適プリント環境」

<4D F736F F D2091B28BC68CA48B8695F18D908F912E646F63>

平成 30 年度需要家側エネルギーリソースを活用したバーチャルパワープラント構築実証事業 (A 事業 ) 東京電力パワーグリッド株式会社関西電力株式会社 2019 年 3 月

(2) サービスの特長 1グローバル規模で同一環境の導入が可能国内だけでなく Arcstar グローバル IP-VPN サービス提供国を中心に世界各国で提供するため グローバル規模で同じサービスが利用できます そのため 今まで国ごとに稼動がかかっていたシステム構築 管理の集約による効率化や 同じコミ

<4D F736F F D F345F D926E88E698418C6782A982E793648E7194C58EBE95618AC7979D8EE892A082CC B835E936F985E5F E646F63>

出 アーキテクチャ 誰が 出 装置を制御するのか 1

ライフサイクル管理 Systemwalker Centric Manager カタログ

2008 年度下期未踏 IT 人材発掘 育成事業採択案件評価書 1. 担当 PM 田中二郎 PM ( 筑波大学大学院システム情報工学研究科教授 ) 2. 採択者氏名チーフクリエータ : 矢口裕明 ( 東京大学大学院情報理工学系研究科創造情報学専攻博士課程三年次学生 ) コクリエータ : なし 3.

Microsoft PowerPoint - FormsUpgrade_Tune.ppt


改版履歴 版数改版履歴改版年月日 1 新規作成 2013/3/29 2 TESTIO_MODE を追加 OVER_ACTION VG_STALL_ACTION の設定値を変更 2013/9/30 3 CLUSTERPRO MC StorageSaver for BootDisk (for Linux

無料セミナー資料:ビッグデータ管理基盤ソフトウェアHadoop入門

ジョブ管理ソフトウェア LoadStar Scheduler ご紹介資料 ~ システム運用品質の向上とコスト削減を実現 ~

Sol-005 可視化とRCSA _ppt [互換モード]

改訂履歴 項番版数作成日 / 改訂日変更箇所変更内容. 平成 28 年 5 月 3 日新規章構成の変更, 分冊化に伴い新規作成 (i)

WSUS Quick Package

Transcription:

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

概要 NEC は ビッグデータの分析を高速化する分散処理技術を開発しました 本技術により レコメンド 価格予測 需要予測などに必要な機械学習処理を従来の 10 倍以上高速に行い 分析結果の迅速な活用に貢献します ビッグデータの分散処理で一般的なオープンソース Hadoop を利用 これにより レコメンド 価格予測 需要予測などの分析において 従来提供まで 1 週間以上かかっていた最終的な分析結果を 翌日に提供できるようになります 長期間分析結果が得られないことでかかるコストや機会損失リスクを低減 Page 2 NEC Corporation 2013

背景 近年 インターネットやセンサなどから集まるビッグデータを分析することで 有用な情報を抽出し ビジネスに活用するニーズが高まっている 現在 このようなビッグデータの分析は Hadoop[*] 等の分散処理基盤を用い 多数のサーバで行うことが一般的 Hadoop 等で分散処理 収集した ビッグデータ 分析結果 [*] Apache Software Foundation が開発 公開しているオープンソースの分散処理基盤 Page 3 NEC Corporation 2013

課題 Hadoop は 集計のような単純な分析は高速に実行できるものの レコメンド 価格予測 需要予測などに用いる 機械学習 [*] のような複雑な分析は高速に実行することができない 高速に実行 高速に実行できない Hadoop Hadoop 集計のような単純な分析 機械学習のような複雑な分析 [*] データから規則やパターン 知識を抽出し 現状認識や将来予測を行う技術 Page 4 NEC Corporation 2013

高速に実行できないことによる問題 分析を行う際は 処理結果を基に分析方法 ( パラメータの設定等 ) を修正するなどし 分析処理を複数回行う 例えば 5 回分析する場合 1 回の処理に10 時間かかると 最終的な分析結果を得るまでに1 週間以上かかる 1 時間で処理できれば 1 日で分析結果を得ることが可能 現状の問題 本技術による解決 システムの 予測 急に当らなくなったんだけど の状況が変わったためですね 分析のやり直しです 1 週間かかります 分析をやりなおして 明日修正します それは助かるわ! その間 精度が悪いから利益に影響するんだけど Page 5 NEC Corporation 2013

高速化技術の概要 機械学習で頻繁に用いられる繰り返し演算および行列演算を信頼性を損なわずに高速化 新技術を用いた新たな分散処理ソフトウェアを試作 大量データを用いた機械学習プログラムで検証 MapReduce 部分を置き換えることで 従来の Hadoop の 10 倍以上の速度を達成 これにより 最終的な分析結果を得るまで 1 週間以上かかっていた [*] 時間を 1 日に短縮し 分析結果の迅速な利用を可能に [*] 利用者数 400 万人 商品数 50 万点 購入履歴数 2000 万の購入履歴を用いて レコメンド処理を実行した場合 Page 6 NEC Corporation 2013

従来の Hadoop と本技術の比較評価 2 種類の機械学習プログラムで比較 いずれも大量の文書を入力として 類義語等関連の深い単語を抽出するもの LSA (Latent Semantic Analysis), LDA (Latent Dirichlet Allocation) 13 倍高速 17 倍高速 評価環境 : 18 台 72CPU のクラスタで評価 従来の Hadoop は Mahout(Hadoop を用いて記述された機械学習プログラム ) による実装を利用 入力は英語版 Wikipedia( 文書数約 400 万 単語種類約 50 万 総単語数約 2000 万 ) LSA は全文 LDA は従来の Hadoop の実行速度が遅かったため 1/30 のデータで評価 Page 7 NEC Corporation 2013

技術の特長 1 機械学習等の複雑な処理を高速化 Page 8 NEC Corporation 2013

[ ご参考 ] MapReduce とは Hadoopでは MapReduce を単位として分散処理を実現 分散して処理を行うMap 処理とその結果を集約するReduce 処理から構成 Map 処理の出力では データの種類を キー として指定 Reduce 処理には 同じ キー のデータが集められる プログラマは Map 及び Reduce 関数を記述 システムが自動的に分散実行 分散配置されたデータ Map Map Map Map を処理対象に処理 Reduce Reduce Reduce Reduce Page 9 NEC Corporation 2013

従来の Hadoop での機械学習処理 集計のような単純な分析は MapReduce 単一で実現できるが 機械学習は繰り返し演算を必要とするため これを実現するため多数の MapReduce を組み合わせる必要がある 集計のような単純な分析 機械学習のような複雑な分析 MapReduce MapReduce MapReduce MapReduce 多数の MapReduce の組合せが必要 また 機械学習は行列演算も必要とするが MapReduce は不得意 多数の MapReduce を組み合せる必要があるとともに 処理を実行する際にサーバ間の通信が非効率になるケースがある Page 10 NEC Corporation 2013

多数の MapReduce の組合せで低速になる理由 MapReduce 間のデータ受け渡しが遅いため ハードディスク経由で多量のデータが受け渡される MapReduce MapReduce MapReduce データの受け渡しが遅い Page 11 NEC Corporation 2013

高速化の内容 データの受け渡しをハードディスクではなく メモリ経由とし 高速化 MapReduce MapReduce MapReduce メモリ経由で受け渡し 行列演算を得意とする MPI (Message Passing Interface) [*] を利用可能とし 行列演算を高速化 [*] サーバ同士がメッセージを送りあうことで分散処理を行う手法 Page 12 NEC Corporation 2013

技術の特長 2 高速化と高い信頼性を両立 Page 13 NEC Corporation 2013

従来の Hadoop での高信頼化 分散処理では多数のサーバを用いるため 1 台が故障する確率が増大したがって サーバが故障した場合でも処理を継続できる仕組みが必須 故障時の動作 各 MapReduceは その入力がハードディスクに保存されていることを仮定 一部サーバが故障したら 保存されている入力を用いて 故障したサーバの計算を再度実行 一部サーバが故障 保存されている入力を用いて故障したサーバの計算を再度実行 MapReduce MapReduce MapReduce MapReduce ハードディスクにデータを保存 今回の高速化技術では メモリ経由でデータを受け渡すため この仕組みは使えない サーバ故障時には失われてしまう Page 14 NEC Corporation 2013

新たな高信頼化手法を開発 処理の途中の状態を高速に保存する手法を開発 適切な頻度で処理の途中の状態を保存 サーバ故障時には 保存した状態から実行を再開 処理を継続 故障 スペアと入替 処理の途中の状態を保存 保存した状態に戻し 実行を再開 Page 15 NEC Corporation 2013

処理の途中の状態を高速に保存する手法 各サーバで動いているプログラムが利用しているメモリのうち プログラムの再開に必要な部分だけを選択して保存する手法を世界で初めて実現 これにより 保存するデータサイズを大幅に削減 高速な保存を実現 プログラムが利用中のメモリ プログラムの再開に必要な部分だけを保存 プログラムの再開に必要な部分 プログラムの再開には不要な部分 ( 例 : 不要になったデータ ) Page 16 NEC Corporation 2013

Page 17 NEC Corporation 2013