A NEW PLATFORM FOR A NEW ERA
2 データレイク構築と Pivotal ビッグデータ戦略 2014 年 8 月 1 日 Pivotal ジャパン株式会社二神敬輔
ENTERPRISE DATA CENTER ADVANCED 先進のセキュリティ SECURITY EMC グループ事業戦略 SOFTWARE DEFINED DATA CENTER PLATFORM AS A SERVICE VIRTUAL WORKSPACE BUSINESS DATA LAKE SECURITY ANALYTICS BIG DATA ソリューション PLATFORM AS A SERVICE アジャイルアプリケーション開発 ENTERPRISE MOBILITY SOFTWARE-DEFINED DATA CENTER 情報インフラストラクチャーコンバージドインフラストラクチャー Partners vcloud Hybrid Service サービスプロバイダー 3
次世代エンタープライズ PaaS のための新会社 Pivotal 社始動 (2013 年 4 月 1 日 ) CEO ポール マリッツ 従業員数 2,000 人 売り上げ規模 ( 計画 ) 2013 年 3 億ドル 2017 年 10 億ドル 出資比率 4
Pivotal とは 5
蓄積 全データを対象 長期間保存 統合された活用基盤 : データレイク 6
分析 データレイクに蓄積されたデータの加工 処理 運用 ツール依存なく 必要な技術を使用 リソースを最大活用 7
実装 製品 サービスを向上させるための分析結果の活用 迅速なデータ分析がアジャイルアプリケーション開発に寄与 8
ソフトウェアがビジネスを変える Square: $3.5B の評価額ファイナンシャルサービス Uber: $17B の評価額輸送 ( タクシー ) NETFLIX: $20B の評価額エンターテイメント Airbnb $3.5B の評価額トラベルサイト Nest: $3.2B で Google が買収ホームオートメーション THE CLIMATE CORPORATION: $1.1B で Monsanto が買収農業 9
GE Industrial Internet 10
GE との戦略提携 Pivotal 社への投資と新しいビジネス契約は Industrial Internet ( 人とデータと機器をつなぐオープンなグローバルネットワーク ) に焦点を当てている GE の取り組みに沿うもの GE のソフトウェア研究 開発拠点 ( センター オブ エクセレンス ) では データ分析およびクラウド アーキテクチャを実現するための標準として Pivotal 社のテクノロジーを利用 11
Pivotal のソリューション ポートフォリオ アプリケーション データ データサイエンス アジャイル開発 ビッグデータ 開発フレームワーク & オープンソース ファストデータ クラウド PaaS 基盤 プライベート クラウド バーチャル プライベート クラウド パブリック クラウド 12
Pivotal Data Platform 13
ビッグデータ活用のイメージ 精度 複雑な統計解析モデル シンプルな処理 データ量がより多く リアルタイム性が増せばシンプルな処理で事象を判断できるようになる例 : 選挙結果 在庫管理 etc データ量 14
パフォーマンス ビッグデータ時代に求められる技術 :HAWQ 分散型 RDB Greenplum DB PureData, Teradata, Exadata... SQL on Hadoop HAWQ Impala, Drill, Presto,.. RDB Oracle, DB2, MS SQL Server, MySQL, PostgreSQL.. Hadoop Pivotal HD Cloudera, MapR, Hortonworks.. データ量 15
HAWQ/Impala 比較検証結果 ( 業界標準指標 TPC-DS を使用 ) Impala に対して HAWQ 数倍 数百倍の性能差を実証 オプティマイザーの成熟度の差異 ( 開発 2 年の Impala vs 開発 10 年以上の HAWQ ) ビッグデータ対応処理の差異 ( メモリで処理を行う Impala vs メモリとディスクで処理する HAWQ ) HAWQ の高い標準 SQL 互換性を実証 HAWQ:111 クエリ全てに対応 Impalara: 31 クエリにのみ対応 実行可能クエリ数比較 性能比較 サポートクエリ数 クエリの正常終了数. 業界標準の性能指標を定義し 手法を提供する業界団体 TPC (Transaction Processing Performance Council) が提供する情報系システムのための公式な性能指標です 2012 年から提供されている TPC-DS では 流通業における典型的なデータモデルを再現しており 25 テーブル 429 カラムに対して様々なクエリを実行します 参考 URL: Orca: A Modular Query Optimizer Architecture for Big Data http://www.gopivotal.com/sites/default/files/sigmodmay2014hawqadvantages.pdf 参考 URL: Pivotal HAWQ Benchmark Demonstrates Up To 21x Faster Performance on Hadoop Queries Than SQL-like Solutions http://blog.gopivotal.com/pivotal/products/pivotal-hawqbenchmark-demonstrates-up-to-21x-faster-performance-on-hadoop-queries-than-sql-like-solutions 16
導入事例 :MicroAd PHD/HAWQ によるビッグデータ分析とツール統一 CDH と比較して 70 倍高速 IBM PureData 高価な拡張の連鎖を停止 ツール 1 つで 2 つの基盤へアクセス データサイエンティスト IBM SPSS 17
アジャイル開発 & データサイエンス サービス Pivotal Labs, Pivotal Data Science Labs Pivotal Labs Pivotal Data Labs 500 名の専門集団が独自のメソドロジーを用いてアジャイル開発のコンサルティング サービスを展開 Pivotal Labs 拠点 (6 拠点 ) サンフランシスコ ニューヨーク ロサンジェルス ボストン ボルダー ロンドン ウェブ モバイル クラウドサービス開発を支援 Pivotal Labs サービスの特徴 ウォークインサービス ペア プログラミング アジャイル開発 (Ruby, Java, Github) 開発工程管理ツール (Pivotal Tracker) 全世界で約 60 名の各領域の専門家を有する Pivotal データサイエンティスト チームがお客様を支援 データ サイエンスの戦略立案支援 検証用の分析モデル構築 分析モデルとアプリケーションの構築 データ サイエンティスト イノベーション センター設立の支援 その他 アルゴリズム開発 課題解決支援など 18
A NEW PLATFORM FOR A NEW ERA