MapR on UCE : Hadoopはこう売ろう。難しくないHadoopの提案

MapR on UCS:Hadoop はこう売ろう難しくない Hadoop の提案マップアールテクノロジーズ株式会社アライアンス & プロダクトマーケティング三原茂

MapR企業概要ビッグデータのコアにお客様の成長と共に 700+ Customers Apache Open Source + Innovation MapR Technologies Inc. Founder John Schroeder & M.C. Srivas 設立 2009年本社カリフォルニア州サンノゼ従業員約 300 人拠点 13カ所日本含 2X Revenue 13 14 90% software licenses 80% of accounts expand 3X < 1% lifetime churn > $1B in incremental revenue generated by 1 customer 日本のパートナー様

ビッグデータ時代のデータストアファイルデータに関係なくあらゆるデータを蓄積可能ただし単に溜めるだけではなくデータを加工するフレームワークや分析や検索するアプリが含まれるもちろん分散処理スケールアウト可能 OSS Hadoop( ハドゥープ ) とは (1)?

Hadoopとは２大きく2つのコンポーネントで構成 HDFS (Hadoop Distributed File System) 分散ファイルシステム MapReduce 大規模分散処理フレームワークデータをためるデータを加工するデータをブロックに分割して複数のサーバに分散配置 3つのレプリカを作成 Map/Reduceというシンプルな処理の組み合わせで HDFS上にあるデータの分散処理を行う汎用的なフレームワーク処理の近くにデータを置くデータ保管と処理能力加工分析をデータのある場所で設計当初から大規模大容量増加し続けるデータに対応分散処理スケールアウト

Hadoop の概要図データ / ファイルを活用する Hadoop Ecosystem データ / ファイルを加工する Java API MapReduce 管理システムデータ / ファイルを溜める HDFS

Hadoop MapR のパッケージ全体図エコシステムも含めて提供 APACHE HADOOP および OSS エコシステム GUI バッチ SQL NoSQL 検索ストリーミング Tez* REST API 管理ツール (運用管理監視) MapR Control System Spark CLI 機械学習グラフデータ統合アクセス商用ソフトウェアセキュリテワークフロープロビジョニデータングコーディィネーションガバナンス Drill* 分析アプリ OSSベース Cascadin g GraphX Spark SQL Accumul o* Pig MLLib Impala Solr MapReduc e v1 & v2 Mahout Hive HBase Hue Savanna h* Storm* HttpFS Juju Spark Streaming Flume Knox* Falcon* Whirr Sqoop Sentry* Oozie ZooKeep er YARN 実行エンジン NFS 商用製品分析アプリデータガバナンスオペレーション HDFS API HBase API JSON API データストアとデータ処理 MapR-DB (POSIX) (Hbase互換高運用性 NoSQL) HDFS/MapReduce MapR Data Platform MapR-FS (ランダム Read/Write) * ディストリビューションに統合認証予定

MapR 製品 M3 COMMUNITY EDITION Hadoop (M5) & NoSQL (M7) 管理ツール NFS アクセスパフォーマンスノード数の制限なし無料 M5 ENTERPRISE EDITION 管理ツール NFS アクセスパフォーマンス HA スナップショットミラーリング 24 X 7 サポートサブスクリプション M7 (MapR-DB) ENTERPRISE DATABASE EDITION Hbase 互換の NoSQL DB M5 の機能 + HBase の運用を簡素化 HBase の高速化安定したレスポンスタイムファイル / テーブルの統合スナップショット Also Available through: Compute Engine

登場の背景データの増大とコスト削減のギャップ IT予算の伸び率 2.5% テラバイトあたりのデータの増加率 40% コスト $40,000 ギャップ Data $9,000 <$1,000 2013 2014 2015 2016 2017 ストレージ DWH Gartner, "Forecast Analysis: Enterprise IT Spending by Vertical Industry Market, Worldwide, 2010-2016, 3Q12 Update. Wall Street Journal, Financial Services Companies Firms See Results from Big Data Push, Jan. 27, 2014

Hadoop と NoSQL のプレイヤー NoSQL: M7 (MapR-DB) Hadoop Forrester Wave NoSQL Key-Value Databases, Q3 2014 Forrester Wave Big Data Hadoop Solutions, Q1 14

Hadoop/NoSQL の主な用途基本はデータレイク ( エンタープライズデータハブ ) によるデータのサイロの解消セールス / マーケティング売上 / 収益向上 / 顧客動向 ) リスク回避 ( 予防保守 / 不正検知 / 余剰在庫 ) 情報系 IT ( ストレージとDWH 最適化 ) 5 IoT/M2M 基幹系 IT ( バッチ高速化 ) ( リアルタイムストリーミング対応 )

MapR と他の Hadoop との違い ( 要約 ) データの出し入れがしやすい POSIX 準拠の NFS を利用し他システムとデータ連係が容易ソフトウェアデファインドストレージ ( スケールアウト NAS) として利用データ保護機能が充実バックアップ / スナップショット機能 DR データアクセスの制御 ( セキュリティ ) 高パフォーマンスネームノードの分散化ファイルシステムのネイティブ化より容易な運用マルチテナント高パフォーマンスと管理ノードが無いことによる台数削減単一障害点の排除 NoSQL がある Hbase 互換 ( 高運用性高信頼性 ) ライセンスキーの入れ替えで利用可能 Web サーバーログリアルタイム最新データダイレクトローカルデータ

ビッグデータストレージ分析ready としてのMapR 従来 Enterprise Storage NAS ログ DWH or SAN これから MapR データログファイル ETL + Long Term Storage 膨大かつ増え続けるログデータ等をどこに保管スケールアウト型のNASは種類が少なく高価分析のためには分析環境にデータ移行が必要で想定以上に高コスト DWH IA Server x86サーバ Big Data Storage MapR上に置くことでコスト効率良く保管分析や活用のために他にデータ移動することなくいつでも Hadoopを使ってデータ処理バックアップやスナップショットが取れるのはMapRだけ

Zions Bank: ビッグデータストレージと不正検知データプラットフォームを統合することでコスト効果高くセキュリティ分析と不正検知を行う目的不正を発見するチームとセキュリティ分析のチームが共同で利用するデータストアのプラットフォームを構築しその上に統計モデリングを載せ不正や不正につながる怪しい行動を発見するチャレンジ既存のインフラはスケールしないこの数年レポート作成に時間がより掛かるようになっていた MapR 利用のメリットデータストレージコストを50% 削減 1.2PB のデータからのクエリが 24 時間から 30 分に削減限界の無いスケーラビリティによりより多くのデータを使えより正確なモデルと洞察を得られた Business Impact Zions Bank では初めてセキュリティ分析のために全データを中央集権的に集め利用したが不正検知にもそのデータが使えることが分かっただけではなく不正検知に非常に役に立つことがわかった Michael Fowkes - SVP Fraud Operations and Security Analytics

既存分析 DWH 環境のどこに位置付くか BI(ビジネスインテリジェンス) DM データマート DWH データウェアハウス DWH/DMのデータを分析ニーズに合った表グラフレポートとして表示通常Webベース(ブラウザ特定のユーザーや特定用途のために抽出した一部のデータ多数のユーザーが必要なデータを高速に検索分析するために最適化各種データを一元的に格納大量の明細や長期間の履歴を保有多数のソースデータを高速で格納し日々更新するために最適化 BI DM ETL データ統合 DWH 複数のソースシステムから一箇所 DWH にデータを集める抽出変換クレンジングを行う DMの切り出しにもETLを活用マイニング ETL ETL ETL ソースシステム基幹系業務系 13 大量データから未来を予測推測統計パターン発見検定などの数理を活用 Mining ソースシステム Hadoop 基幹系多数の業務系システム様々な見るべき情報を保有配置やデータ品質はバラバラ従来はこれを一つづつ見ていた大量データを溜め処理分析が 1カ所でできる新技術

既存 DWH ビジネスにクロスセル! Hadoop (NoSQL) より多いデータを限られたコストで蓄積非 / 準構造化データの取扱い機械学習やデータマイニングの基盤 DWH から ETL 処理をオフロードし並列処理キューブに依存しないセルフサービス化 DWH BI Drill 経由で Hadoop にアクセスセルフサービス化 ( アジャイル BI) データ統合 (ESB) IoT やストリーミングデータの活用データストリームの最適化データの前処理リアルタイムへの対応 2014 MapR Technologies 14

DWH 環境のニーズと現状のまとめ 1. コストを下げたい 2. データ量は増やしたい 3. データ種 ( 構造化データ以外 ) も増やし様々なニーズを拾いたい ( ログデータに代表される ) 4. 既存 SQL をそのまま活かしたい BI 等の既存ツールを継続利用したい新テクノロジー Hadoop を活用しビッグデータ時代に合った DWH 環境に MapR Technologies

ビッグデータ時代の新 DWH 基盤概念図ビジネスニーズ収集蓄積加工分析活用在庫把握と機会損失防止配送状況把握 & ルート最適化売上売上と利益向上顧客動向把握データウェアハウス適正生産と在庫のコスト削減企業運営計画在庫画像映像位置情報 POS データ SNS や口コミ NFS データプラットフォーム全データを格納 ( データのサイロを解消 ) ETL 処理を並列実行 (DWH から ETL をオフロード ) Hadoop 上のデータはスーパーセットとしてエコシステムから活用 NFS NFS Hadoop で抽出された DWH で処理すべき構造化データを活用しレポート ( 例 : 直近 3 ヶ月分 ) SQL on Hadoop / Hive マイニング ( 機械学習 ) エンジン BI アプリマーケティング在庫管理者ストアマネージャ分析官 Web ログデータソース Hadoop 上の全データを用い傾向分析等 ( 例 : レコメンデーション顧客動向 ) 経営層ユーザ

Verizon の DWH モダン化事例 1. ベライゾンのユーザが日々どういう使い方をしているかユーザプロファイルや営業 / 請求についての詳細を知る 2. サービス品質とサービス向上への修理や増設の元データが欲しいお客様のDWHの課題 : データソース顧客データアクセスログ Extract Clean Conform Transform NFS 構造化 & 非構造化データ N1 N1 N1 N1 N1 構造化データ NFS ETL 処理 Hadoop: データレイク Data Warehouse and Analytics 機械学習 BI 増大するデータに DWH のみでは対応できないコストパフォーマンス 1. 解約率を下げる 2. DWH(ETL) 関連コスト削減非構造化データ ( ログ等 ) への対応 Hadoop(MapR) 導入のメリット : DWH に入れるべきデータを選別できデータ量とコストのバランスを取れる DWH 単独増設より圧倒的に低コストなため現実解となる (1/2 に削減 ) どこまでもスケールするパフォーマンス (ETL が 3 倍 ) あらゆるデータを格納処理活用ソースから分析までの一環したデータフローを実現機械学習等のHadoopアプリの利用により傾向をつかみ解約率の削減対策

Hadoop を既存 DWH に使うメリット 1. 既存 DWH には手を入れる必要が無い 2. BI や SQL といった資産をそのまま有効活用できユーザビリティも変わらない 3. より多くのデータを活用可能 4. 構造化データ以外のログ等の多構造化データを活用可能 5. データ量に対してのコストが従来より非常に低い 6. 本格的なデータ活用時代における新テクノロジーにも対応可能な柔軟性 (IoTやM2M 等 )

リアルタイムでビッグデータを収集分析 IoT 時代のあらゆるデータをリアルタイムで分析検索データ収集データ蓄積分析データ活用 IoT デバイス従来からの DB ERP CRM 等の基幹系からの DWH やデータマート視聴データ BI モニタリング Tableau フィナンシャルレポート業務系情報提供 ( レポートや業務系 ) 傾向分析 ( 予防保守不正検知 ) 利用状況データ集計処理機能 ESB リアルタイムなデータストリーミング処理テキスト Erastic / 画像データ解析処理機能 Search SNS 等ネットのデータ Apache データ蓄積機能 Drill 利用データ集計機能 DWH MapR-DB 利用モダン化された予測機能 DWH サンプル画像 / 動画表示リアルタイム検索分析 Mahout Spark ユーザーへリアルタイムでフィードバック ( 営業マーケティング ) フィードバック ( レコメンデーション )

File creates/s エンタープライズ用 Hadoop のために! Apache Hadoop をエンタープライズで利用する際に問題となる点を 1 つ 1 つ解消 File creates/s 18000 16000 14000 12000 10000 8000 6000 4000 2000 0 Apache Hadoop Java API MapReduce HDFS MapR 400 300 200 100 100% 互換強化改善 ( ネイティブ化 ) 0 0 1000 2000 3000 4000 5000 6000 0 100 200 400 600 800 1000 Files (M) ベンチマーク例 0 0.5 1 1.5 Files (M) 他のディストリビューション Java API MapReduce MapR FS Benchmark: File creates 2015 (100B) MapR Technologies Hardware: 10 nodes, 2 x 4 cores, 24 GB RAM, 12 x 1 TB 7200 RPM 様々な機能強化 JobTracker HA Direct Shuffle ランダム R/W NFS アクセス分散 NameNode ミラーリングスナップショットボリュームパフォーマンスや運用性を上げるためのアーキテクチャ設計再実装ロックの排除による並列処理の最適化ビルトイン圧縮による I/O 削減分散 NameNode RPC 経由の Shuffle 転送 Java GC の影響の排除オープンスタンダードな API

MapR の最小構成 ( 推奨 ) 2U 2p/12c 12 本のデータディスク 2 本のOSディスク最小サーバ数 :4 他ディストリビューションの最小構成 ( 推奨 ) 1U( 管理 )& 2U( スレーブ ) 2p/8c( 管理 ) & 2p/12c( スレーブ ) OSディスク 4 本のディスク ( 管理 ) 12 本のディスク ( スレーブ ) 最小サーバ数 :7

まとめ Hadoop は技術用語が先行したため難しく思えるが分析用 DB( RDB ではない ) と理解して構いませんポスト RDB の時代にトランザクション DB 以外の DWH( オペレーショナル ) や分析 DB さらには IoT データの受け皿としてビジネスチャンスが大きいまずはストレージコストの削減や DWH のコスト削減がターゲット Hadoop にもいくつかディストリビューションがあるが全てが同じではなく MapR が最もエンタープライズ向きスケールアウト可能なシステムはプロビジョニングの仕組みが必要なため UCS との組合せはさらに運用性を向上させる是非ご覧ください! https://www.youtube.com/watch?v=smtzoa8luwq