MapR on UCS:Hadoop はこう売ろう 難しくない Hadoop の提案 マップアール テクノロジーズ株式会社 アライアンス & プロダクトマーケティング 三原茂
MapR企業概要 ビッグデータ のコアに お客様の成長 と共に 700+ Customers Apache Open Source + Innovation MapR Technologies Inc. Founder John Schroeder & M.C. Srivas 設立 2009年 本社 カリフォルニア州 サンノゼ 従業員 約 300 人 拠点 13カ所 日本含 2X Revenue 13 14 90% software licenses 80% of accounts expand 3X < 1% lifetime churn > $1B in incremental revenue generated by 1 customer 日本のパートナー様
ビッグデータ時代のデータストア ファイル データに関係なくあらゆるデータを蓄積可能 ただし 単に溜めるだけではなく データを加工するフレームワークや分析や検索するアプリが含まれる もちろん 分散処理 スケールアウト可能 OSS Hadoop( ハドゥープ ) とは (1)?
Hadoopとは 2 大きく2つのコンポーネントで構成 HDFS (Hadoop Distributed File System) 分散ファイルシステム MapReduce 大規模分散処理フレームワーク データをためる データを加工する データをブロックに分割して複数のサー バに分散配置 3つのレプリカを作成 Map/Reduceというシンプルな処理の組 み合わせで HDFS上にあるデータの分 散処理を行う汎用的なフレームワーク 処理の近くにデータを置く データ 保管 と処理能力 加工 分析 をデータのある場所で 設計当初から大規模 大容量 増加し続けるデータに対応 分散処理 スケールアウト
Hadoop の概要図 データ / ファイルを活用する Hadoop Ecosystem データ / ファイルを加工する Java API MapReduce 管理システム データ / ファイルを溜める HDFS
Hadoop MapR のパッケージ全体図 エコシステムも含めて提供 APACHE HADOOP および OSS エコシステム GUI バッチ SQL NoSQL 検索 ストリーミ ング Tez* REST API 管 理 ツ ー ル (運用管理 監視) MapR Control System Spark CLI 機械学習 グラフ データ 統合 アクセス 商用ソフトウェア セキュリテ ワークフロー プロビジョニ データ ング コーディ ィ ネーション ガバナンス Drill* 分析アプリ OSSベース Cascadin g GraphX Spark SQL Accumul o* Pig MLLib Impala Solr MapReduc e v1 & v2 Mahout Hive HBase Hue Savanna h* Storm* HttpFS Juju Spark Streaming Flume Knox* Falcon* Whirr Sqoop Sentry* Oozie ZooKeep er YARN 実行エンジン NFS 商 用 製 品 分 析 ア プ リ データガバナンス オペレーション HDFS API HBase API JSON API データストアとデータ処理 MapR-DB (POSIX) (Hbase互換高運用性 NoSQL) HDFS/MapReduce MapR Data Platform MapR-FS (ランダム Read/Write) * ディストリビューションに統合 認証予定
MapR 製品 M3 COMMUNITY EDITION Hadoop (M5) & NoSQL (M7) 管理ツール NFS アクセス パフォーマンス ノード数の制限なし 無料 M5 ENTERPRISE EDITION 管理ツール NFS アクセス パフォーマンス HA スナップショット ミラーリング 24 X 7 サポート サブスクリプション M7 (MapR-DB) ENTERPRISE DATABASE EDITION Hbase 互換の NoSQL DB M5 の機能 + HBase の運用を簡素化 HBase の高速化 安定したレスポンスタイム ファイル / テーブルの統合スナップショット Also Available through: Compute Engine
登場の背景 データの増大とコスト削減の ギャップ IT予算の伸び率 2.5% テラバイトあたりの データの増加率 40% コスト $40,000 ギャップ Data $9,000 <$1,000 2013 2014 2015 2016 2017 ストレージ DWH Gartner, "Forecast Analysis: Enterprise IT Spending by Vertical Industry Market, Worldwide, 2010-2016, 3Q12 Update. Wall Street Journal, Financial Services Companies Firms See Results from Big Data Push, Jan. 27, 2014
Hadoop と NoSQL のプレイヤー NoSQL: M7 (MapR-DB) Hadoop Forrester Wave NoSQL Key-Value Databases, Q3 2014 Forrester Wave Big Data Hadoop Solutions, Q1 14
Hadoop/NoSQL の主な用途 基本はデータレイク ( エンタープライズデータハブ ) によるデータのサイロの解消 セールス / マーケティング 売上 / 収益向上 / 顧客動向 ) リスク回避 ( 予防保守 / 不正検知 / 余剰在庫 ) 情報系 IT ( ストレージとDWH 最適化 ) 5 IoT/M2M 基幹系 IT ( バッチ高速化 ) ( リアルタイム ストリーミング対応 )
MapR と他の Hadoop との違い ( 要約 ) データの出し入れがしやすい POSIX 準拠の NFS を利用し 他システムとデータ連係が容易 ソフトウェアデファインドストレージ ( スケールアウト NAS) として利用 データ保護機能が充実 バックアップ / スナップショット機能 DR データアクセスの制御 ( セキュリティ ) 高パフォーマンス ネームノードの分散化 ファイルシステムのネイティブ化 より容易な運用 マルチテナント 高パフォーマンスと管理ノードが無いことによる台数削減 単一障害点の排除 NoSQL がある Hbase 互換 ( 高運用性 高信頼性 ) ライセンスキーの入れ替えで利用可能 Web サーバー ログ リアルタイム 最新データ ダイレクト ローカル データ
ビッグデータストレージ 分析ready としてのMapR 従来 Enterprise Storage NAS ログ DWH or SAN これから MapR データ ログ ファイル ETL + Long Term Storage 膨大 かつ増え続けるログデータ等 をどこに保管 スケールアウト型のNASは種類が少なく 高価 分析のためには 分析環境にデータ移行が必要で 想定以上に高コスト DWH IA Server x86サーバ Big Data Storage MapR上に置くことで コスト効率良く保管 分析や活用のために他にデータ 移動することなく いつでも Hadoopを使ってデータ処理 バックアップやスナップショッ トが取れるのはMapRだけ
Zions Bank: ビッグデータストレージと不正検知データプラットフォームを統合することでコスト効果高く セキュリティ分析と不正検知を行う 目的 不正を発見するチームとセキュリティ分析のチームが共同で利用するデータストアのプラットフォームを構築し その上に統計モデリングを載せ 不正や不正につながる怪しい行動を発見する チャレンジ 既存のインフラはスケールしない この数年レポート作成に時間がより掛かるようになっていた MapR 利用のメリット データストレージコストを50% 削減 1.2PB のデータからのクエリが 24 時間から 30 分に削減 限界の無いスケーラビリティにより より多くのデータを使え より正確なモデルと洞察を得られた Business Impact Zions Bank では初めてセキュリティ分析のために全データを中央集権的に集め 利用したが 不正検知にもそのデータが使えることが分かっただけではなく 不正検知に非常に役に立つことがわかった Michael Fowkes - SVP Fraud Operations and Security Analytics
既存分析 DWH 環境のどこに位置付くか BI(ビジネス インテリジェンス) DM データマート DWH データウェアハウス DWH/DMのデータを分析ニーズに 合った表 グラフ レポートとして 表示 通常Webベース(ブラウザ 特定のユーザーや特定用途のため に抽出した一部のデータ 多数のユーザーが必要なデータを 高速に検索 分析するために最適 化 各種データを一元的に格納 大量の明細や長期間の履歴を保有 多数のソースデータを高速で格納し 日々更新するために最適化 BI DM ETL データ統合 DWH 複数のソースシステムから 一箇所 DWH にデータを集める 抽出 変換 クレンジングを行う DMの切り出しにもETLを活用 マイニング ETL ETL ETL ソースシステム 基幹系 業務系 13 大量データから未来を予測 推測統計 パターン発見 検定な どの数理を活用 Mining ソースシステム Hadoop 基幹系 多数の業務系システム 様々な見るべき情報を保有 配置やデータ品質はバラバラ 従来はこれを一つづつ見てい た 大量データを溜め 処理 分析が 1カ所でできる新技術
既存 DWH ビジネスにクロスセル! Hadoop (NoSQL) より多いデータを限られたコストで蓄積 非 / 準構造化データの取扱い 機械学習やデータマイニングの基盤 DWH から ETL 処理をオフロードし並列処理 キューブに依存しないセルフサービス化 DWH BI Drill 経由で Hadoop にアクセス セルフサービス化 ( アジャイル BI) データ 統合 (ESB) IoT やストリーミングデータの活用 データストリームの最適化 データの前処理 リアルタイムへの対応 2014 MapR Technologies 14
DWH 環境のニーズと現状のまとめ 1. コストを下げたい 2. データ量は増やしたい 3. データ種 ( 構造化データ以外 ) も増やし 様々なニーズを拾いたい ( ログデータに代表される ) 4. 既存 SQL をそのまま活かしたい BI 等の既存ツールを継続利用したい 新テクノロジー Hadoop を活用し ビッグデータ時代に合った DWH 環境に MapR Technologies
ビッグデータ時代の新 DWH 基盤概念図 ビジネスニーズ 収集 蓄積 加工 分析 活用 在庫把握と機会損失防止 配送状況把握 & ルート最適化 売上 売上と利益向上 顧客動向把握 データウェアハウス 適正生産と在庫のコスト削減 企業運営 計画 在庫 画像 映像 位置情報 POS データ SNS や口コミ NFS データプラットフォーム 全データを格納 ( データのサイロを解消 ) ETL 処理を並列実行 (DWH から ETL をオフロード ) Hadoop 上のデータはスーパーセットとしてエコシステムから活用 NFS NFS Hadoop で抽出された DWH で処理すべき構造化データを活用しレポート ( 例 : 直近 3 ヶ月分 ) SQL on Hadoop / Hive マイニング ( 機械学習 ) エンジン BI アプリ マーケティング 在庫管理者 ストアマネージャ 分析官 Web ログ データソース Hadoop 上の全データを用い 傾向分析等 ( 例 : レコメンデーション 顧客動向 ) 経営層 ユーザ
Verizon の DWH モダン化事例 1. ベライゾンのユーザが日々どういう使い方をしているか ユーザプロファイルや営業 / 請求についての詳細を知る 2. サービス品質とサービス向上への修理や増設の元データが欲しいお客様のDWHの課題 : データソース 顧客データ アクセスログ Extract Clean Conform Transform NFS 構造化 & 非構造化データ N1 N1 N1 N1 N1 構造化データ NFS ETL 処理 Hadoop: データレイク Data Warehouse and Analytics 機械学習 BI 増大するデータに DWH のみでは対応できない コスト パフォーマンス 1. 解約率を下げる 2. DWH(ETL) 関連コスト削減 非構造化データ ( ログ等 ) への対応 Hadoop(MapR) 導入のメリット : DWH に入れるべきデータを選別でき データ量とコストのバランスを取れる DWH 単独増設より圧倒的に低コストなため 現実解となる (1/2 に削減 ) どこまでもスケールするパフォーマンス (ETL が 3 倍 ) あらゆるデータを格納 処理 活用 ソースから分析までの一環したデータフローを実現 機械学習等のHadoopアプリの利用により 傾向をつかみ 解約率の削減対策
Hadoop を既存 DWH に使うメリット 1. 既存 DWH には手を入れる必要が無い 2. BI や SQL といった資産をそのまま有効活用でき ユーザビリティも変わらない 3. より多くのデータを活用可能 4. 構造化データ以外のログ等の多構造化データを活用可能 5. データ量に対してのコストが従来より非常に低い 6. 本格的なデータ活用時代における新テクノロジーにも対応可能 な柔軟性 (IoTやM2M 等 )
リアルタイムでビッグデータを収集 分析 IoT 時代のあらゆるデータをリアルタイムで分析 検索 データ収集データ蓄積 分析データ活用 IoT デバイス 従来からの DB ERP CRM 等の基幹系からの DWH やデータマート 視聴データ BI モニタリング Tableau フィナンシャルレポート 業務系情報提供 ( レポートや業務系 ) 傾向分析 ( 予防保守 不正検知 ) 利用状況データ集計処理機能 ESB リアルタイムなデータストリーミング処理 テキスト Erastic / 画像データ解析処理機能 Search SNS 等ネットのデータ Apache データ蓄積機能 Drill 利用データ集計機能 DWH MapR-DB 利用モダン化された予測機能 DWH サンプル画像 / 動画表示 リアルタイム 検索 分析 Mahout Spark ユーザーへリアルタイムでフィードバック ( 営業 マーケティング ) フィードバック ( レコメンデーション )
File creates/s エンタープライズ用 Hadoop のために! Apache Hadoop をエンタープライズで利用する際に問題となる点を 1 つ 1 つ解消 File creates/s 18000 16000 14000 12000 10000 8000 6000 4000 2000 0 Apache Hadoop Java API MapReduce HDFS MapR 400 300 200 100 100% 互換 強化 改善 ( ネイティブ化 ) 0 0 1000 2000 3000 4000 5000 6000 0 100 200 400 600 800 1000 Files (M) ベンチマーク例 0 0.5 1 1.5 Files (M) 他のディストリビューション Java API MapReduce MapR FS Benchmark: File creates 2015 (100B) MapR Technologies Hardware: 10 nodes, 2 x 4 cores, 24 GB RAM, 12 x 1 TB 7200 RPM 様々な機能強化 JobTracker HA Direct Shuffle ランダム R/W NFS アクセス分散 NameNode ミラーリングスナップショットボリューム パフォーマンスや運用性を上げるためのアーキテクチャ設計 再実装 ロックの排除による並列処理の最適化 ビルトイン圧縮による I/O 削減 分散 NameNode RPC 経由の Shuffle 転送 Java GC の影響の排除 オープンスタンダードな API
MapR の最小構成 ( 推奨 ) 2U 2p/12c 12 本のデータディスク 2 本のOSディスク 最小サーバ数 :4 他ディストリビューションの最小構成 ( 推奨 ) 1U( 管理 )& 2U( スレーブ ) 2p/8c( 管理 ) & 2p/12c( スレーブ ) OSディスク 4 本のディスク ( 管理 ) 12 本のディスク ( スレーブ ) 最小サーバ数 :7
まとめ Hadoop は技術用語が先行したため 難しく思えるが 分析用 DB( RDB ではない ) と理解して構いません ポスト RDB の時代にトランザクション DB 以外の DWH( オペレーショナル ) や分析 DB さらには IoT データの受け皿としてビジネスチャンスが大きい まずは ストレージコストの削減や DWH のコスト削減がターゲット Hadoop にもいくつかディストリビューションがあるが 全てが同じではなく MapR が最もエンタープライズ向き スケールアウト可能なシステムは プロビジョニングの仕組みが必要なため UCS との組合せはさらに運用性を向上させる 是非ご覧ください! https://www.youtube.com/watch?v=smtzoa8luwq