今改めて知る Hadoop / Spark の活 法と国内外のビッグデータ活 事例 ホートンワークスジャパン株式会社マーケティングディレクター北瀬公彦 1 Hortonworks Inc. 2011 2016. All Rights Reserved
アジェンダ Ã ビッグデータ活 に必要なプラットフォーム Ã 事例紹介 Ã ユースケース紹介 Ã Hortonworks の紹介 2 Hortonworks Inc. 2011 2016. All Rights Reserved
ビッグデータ活 に必要なプラットフォーム 3 Hortonworks Inc. 2011 2016. All Rights Reserved
本再興戦略 2016 第 4 次産業 命の実現 新たな有望成 市場の創 出では IoT ビッグデー タ AI ロボットなどによる第 4 次産業 命の実 現で 2020 年には 30 兆円の付加価値創出を 指して います 出所 : 第 27 回産業競争 会議 2016.5 4 Hortonworks Inc. 2011 2016. All Rights Reserved
現 のシステムで受け められますか? 課題 データがアプリに固定化 新しいデータの受け れが困難 スケールするとコスト ビジネスの価値 新しいデータ新たなデータの多くは Internet of Anything としてシステムとデバイス間のやり取りとして誕 2020 年 40 Zeta bytes クリックストリーム Web データ Internet of Things ドキュメント メール 新しいデータ サーバーログ 声 画像 ERP CRM SCM 2013 年 4 Zettabytes 既存データ 5 Hortonworks Inc. 2011 2016. All Rights Reserved
ビッグデータの活 には新しいプラットフォームが必要 u 量 多種類データに対応する拡張性 u 静的 動的データの 元管理 u リアルタイム エッジ実装 u ガバナンス セキュリティ u オープンテクノロジー データ駆動型ビジネス Data in Motion 流れているデータ Data at Rest 蓄積されるデータ 6 Hortonworks Inc. 2011 2016. All Rights Reserved
企業の IT 投資動向 出典 : https://www.itr.co.jp/company/press/161019pr.html 7 Hortonworks Inc. 2011 2016. All Rights Reserved
次世代データアプリケーションを えるプラットフォーム 8 Hortonworks Inc. 2011 2016. All Rights Reserved
事例紹介 9 Hortonworks Inc. 2011 2016. All Rights Reserved
データ活 による新規ビジネスの展開 DATA DISCOVER Y Innovate Renovate Web Log Analysis Online Ad Placement 既存データの可視化 DATA DISCOVER Y ETL ONBOARD Sensor Data Ingest Usage-Based Insurance (UBI) PREDICTIVE ANALYTICS データ拡充新規基盤構築 Claims Notes Mining ACTIVE ARCHIVE DATA DISCOVER Y Individual Driving Histories 新規モデル作成 Safe Roads 新規サービス提供 運転傾向 の使 環境に基づいた柔軟な保険提案の実現 Ã Snapshot plug-in デバイスは運転の詳細を収集 Ã Progressive は 1000 万マイル以上の運転データを保存 ( 約 1600 万 Km) Ã Web アプリ経由で 顧客は の運転詳細を ることができ 安全向上に努めることが可能 Ã Snapshot と usage-based insurance は 2014 年には Progressive に 2.6 億ドルの貢献 ( 約 273 億円 ) 10 Hortonworks Inc. 2011 2016. All Rights Reserved
スマートメーター活 による新しいマーケティング 顧客サービスの導 Innovate Renovate 1.3 Million Smart Meters ACTIVE ARCHIVE EDW Offload Mobile App for Customer Sites DATA DISCOVER Y 既存環境の最適化 可視化 Product Cross-Sell ETL ONBOARD SINGLE VIEW Ingest 300 GB per Day DATA ENRICHMEN T PREDICTIVE ANALYTICS SINGLE VIEW On-site customer data capture データ拡充 Optimized engineering schedule 11 Hortonworks Inc. 2011 2016. All Rights Reserved Tailored servicing PREDICTIVE ANALYTICS 予測分析 Data Discovery SINGLE VIEW Customer sentiment Smart, Efficient Homes 新規サービス提供 データ活 による新しい電 提供サービス スマートメーターによるデータ量増加に対応した環境構築 年数回の顧客訪問 ( 検針 ) 13 万個のスマートメーター 数億円のデータウェアハウスのコスト最適化 11 時間かかっていた ETL 処理を 45 分に削減 個客に応じた新たなサービス 新的サービスを主体としたビジネモデルに変
システム統合プロジェクトに伴うデータ分析基盤の刷新 Hadoop の活 で住環境の 安 安全 快適 を 指す 導 背景 Ã Ã Ã 5 社システムの統合基幹システムと情報システムの連携住宅 IoTデータへの対応 導 効果 Ã 低コストで 容量システムを構築 Ã ITガバナンスの管理実 Ã 情報分析データ活 の検証 12 Hortonworks Inc. 2011 2016. All Rights Reserved
グループ全体のデータを横断的に活 する新たなエコシステムを構築 Hadoop 環境を刷新したことでパフォーマンス向上を実現 導 背景 Ã データ増 処理数増加によるパフォーマンスの劣化 Ã オープンソースの最新テクノロジーを有効活 できてない 導 効果 Ã Ã Ã 分散処理によりフォーマンスが向上 運 数 コストの低減オープン プラットフォームを活 した 材の開発 育成 13 Hortonworks Inc. 2011 2016. All Rights Reserved
Yahoo!JAPAN のデータ分析システムに Hortonworks Data Platform を採 ビッグデータをビジネスで安定的に活 できる基盤の構築へ 導 背景 Ã 加速度的に増え続ける膨 なデータ Ã 規模クラスタの運 が不安定 Ã 技術レベル向上の必要性 導 効果 Ã Ã Ã パフォーマンスの向上 3,000 台を超えるクラスタの安定運 社内技術者のレベル向上 14 Hortonworks Inc. 2011 2016. All Rights Reserved
ユースケース紹介 15 Hortonworks Inc. 2011 2016. All Rights Reserved
Solution #1a データウェアハウス最適化ソリューション データウェアハウス (DWH) とは 意思決定のために 基幹系などの複数システムから 必要なデータを収集し 的別に再構成して時系列に蓄積した統合データベース データウェアハウス領域 構造化データ ERP, CRM, SFA データの収集 変換 ロード 分析ツール 構造化データ ソーシャルデータ アクセスログ センサーデータ 画像 声 動画 構造化データ 構造化データ データの蓄積 加 変換 データの収集 変換 ロード 16 Hortonworks Inc. 2011 2016. All Rights Reserved
Hadoop を利 したデータウェアハウス最適化 負荷軽減 データウェアハウス 構造化データ ERP, CRM, SFA ETL ツール データの収集 変換 ロード 使 頻度が いデータの蓄積 古いデータ アクティブアーカイブ 分析ツール 構造化データ データの収集 変換 ロード 構造化データ 構造化データ 構造化データ Hadoop ソーシャルデータ アクセスログ センサーデータ 画像 声 動画 バイト単価 拡張コストの削減 量のデータの蓄積 加 変換 17 Hortonworks Inc. 2011 2016. All Rights Reserved 構造化データ
例 ) データウェアハウスの最適化による効果 更新 インサート系のワークロードが 90% 以上 20% 以上の CPU 利 率利 していないテーブルが 5TB 以上 Workload Assessment Data Usage Assessment Activity by Statement Type Type of Query Number % of Total CPU-Seconds % of CPU Time INSERT 2,163,136,131 92.1% 240,812,253.82 19.3% UPDATE 52,344,296 2.2% 42,413,219.89 3.4% SELECT 38,665,660 1.6% 729,062,676.19 58.5% DELETE 1,305,055 0.1% 50,298,641.10 4.0% COMMIT 3,439,167 0.1% 138,764.37 0.0% BEGIN TRANSACTION 1,915,768 0.1% 0.00 0.0% END TRANSACTION 5 210 204 0 2% 237 921 86 0 0% DataBaseName TableName TotalSpace % of Total POS_stg_t WKLYSTDSLS_CY_TODTSLSM_WRK 986,852,299,264.00 20% POS_stg_t WKLYSTDSLS_PY_TODTSLSM_WRK 906,358,553,600.00 18% POS_stg_t RTLRLCTNUPC_PY_TODTSLSSUM_WRK 558,447,764,480.00 11% POS_stg_t WKLYSTDINV_CY_TODTIVSM_WRK 540,368,327,168.00 11% POS_stg_t WKLYSTDINV_PY_TODTINVM_WRK 484,821,922,816.00 10% POS_stg_t RTLRLCTNUPC_CY_TODTINVSUM_WRK 101,472,976,896.00 2% POS_stg_t RTLRLCTNUPC_PY_TODTINVSUM_WRK 91,157,211,648.00 2% POS_stg_t GC_RTLCTUPC_CY_TODTSLSM_WRK 85,373,838,848.00 2% POS stg t GC DLYSTDSLS CY TODTSLSM WRK 72,633,830,400.00 1% ETL バッチ処理を Hadoop にオフロード 利 していないテーブルを Hadoop に移動 2 億 3 億のコスト削減効果 18 Hortonworks Inc. 2011 2016. All Rights Reserved
Solution #1b データウェアハウス最適化ソリューション ETL ツール Hadoop Virtual Cube の全てをパッケージした次世代ソリューション EDW/ Legacy DMX Data Funnel HIVE (Batch and Interactive SQL) AtScale virtual cube Inbound MULTITENANT PROCESSING: YARN (syncsort, llap, spark, tez) DMX-h Engine HDFS (Based Data and Aggregates Stored in ORC) 19 Hortonworks Inc. 2011 2016. All Rights Reserved
Solution #2 データサイエンティスト向け 20 Hortonworks Inc. 2011 2016. All Rights Reserved
Solution #3 ストリーミングデータのリアルタイム分析 21 Hortonworks Inc. 2011 2016. All Rights Reserved
22 Hortonworks Inc. 2011 2016. All Rights Reserved
23 Hortonworks Inc. 2011 2016. All Rights Reserved
クラウドでの利 Hortonworks Data Cloud for AWS Microsofot Azure HDInsight Data Science & Exploration (Spark, Zeppelin) Analytics & Reporting (Hive2 w/llap, Zeppelin) Data Prep and SQL Query (Pig, Hive) Advanced Machine Learning (R Server on Spark) ETL & Data Preparation (Hive, Spark) Iterative In-Memory (Spark) NoSQL Big Tables (HBase) Real-Time Event Processing (Storm) 24 Hortonworks Inc. 2011 2016. All Rights Reserved
組み合わせ例 データの収集 データの蓄積 分析 ストリーミングデータの分析 エッジデータ ストリーミングデータ ( クラウド ) 4 流れてくるデータを予測モデルでスコアリング警告 アクションを出す 5 緊急性の いデータをリアルタイムに加 格納 3 予測モデル 閾値の 成 実装 蓄積データの分析 EDW データレイク ( オンプレミス ) Hadoop 頻度データは EDW に格納 Hadoop 環境にて全データを格納 2 過去データを使 したパターン 分類 予測モデルの作成 データ収集 1 定期的にデータをアップロード ( 例 :Weekly / Monthly etc) 25 Hortonworks Inc. 2011 2016. All Rights Reserved
Hortonworks の紹介 26 Hortonworks Inc. 2011 2016. All Rights Reserved
ホートンワークスはオープンテクノロジーをベースとしたビッグデータ関連ソリューションを提供します ONLY Apache 100 open source TM % Community Technology Founded in 2011 HADOOP 1 ST provider to go public IPO Fall 2014 (NASDAQ: HDP) 1000+ 1000+ subscription customers employees across 1800+ 17 technology partners Fastest Growing Software Company in History* countries 30+ employees in Asia 27 Hortonworks Inc. 2011 2016. All Rights Reserved *Revenues of $100m within in 4 years (Barrows Research )
Apache Hadoop エコシステムへの貢献 コミッター数 約 30% Hortonworks Hortonworks Cloudera Yahoo! Microsoft Twitter Intel Facebook Huawei LinkedIn uber InMobi NTT DATA コントリビュートしたコード数 出典 : http://hadoop.apache.org/who.html を元に作成 (2017/03/02) 出典 : http://ajisakaa.blogspot.jp/2016/01/the-activities-of-apache-hadoop.html 28 Hortonworks Inc. 2011 2016. All Rights Reserved
ホートンワークスジャパン株式会社 Ã 設 2014 Q3 Ã オフィス 東京都千代 区永 町 2-11-1 王パークタワー 3F Ã 社員数 14 名 (as of 2016/09) Apache Spark HBase の書籍執筆者も在籍 本初の Apache NiFi コミッタも在籍 Ã ビジネスモデル サブスクリプション ( サポート ) プロフェッショナルサービス トレーニング Ã パートナー 拡 するエコシステムパートナー Ã お客様 融 保険 動 売 卸売 通信 サービスをはじめとした先進的なお客様 29 Hortonworks Inc. 2011 2016. All Rights Reserved
次世代データアプリケーションを えるプラットフォーム 30 Hortonworks Inc. 2011 2016. All Rights Reserved
コミュニティ - Future Of Data Tokyo http://futureofdata.connpass.com à メンバー数 : 1,000 à ミートアップ Apache データ関連プロジェクト ストリームデータ バッチ処理関連 à Hands-on / Workshop Apache Hadoop / Apache Spark / Apache NiFi 31 Hortonworks Inc. 2011 2016. All Rights Reserved
Hortonworks を始める為の 5 ステップ 1. Hortonworks サンドボックスを試す hortonworks.com/sandbox 2. チュートリアルを試す hortonworks.com/tutorials 3. Future of Data 勉強会に参加する futureofdata.connpass.com 4. Hortonworks Community Connect (HCC) に参加する hortonworks.com/community 5. サポートサービスを検討する http://hortonworks.com/support 32 Hortonworks Inc. 2011 2016. All Rights Reserved