Hadoopの今とこれから Yifeng Jiang Solutions Engineer, Hortonworks
蒋逸峰 (Yifeng Jiang) Solutions Engineer, Hortonworks Apache HBase 本の作者 本に来て10 年経ちました 趣味は 登り Twitter: @uprush Page 2
Page 3
Hadoop http://ajisakaa.blogspot.jp コード 数の増加 Page 4
Hortoworks のオープンリーダーシップ Hortonworks 組織毎のコード貢献 (2014 年 )
Hortonworks の Apache コミュニティに対する影響力 コミッターの多くが Hortonworks 社員 -- Apache Hadoop プロジェクトの全コミッターの 1/3 および他の重要プロジェクトのコミッターの大多数を占める Hortonworks コミッターの役割 Open Enterprise Hadoop の革新と拡張 Hadoop ロードマップに対する影響力 リーダーを通じて 重要な要件をコミュニティに伝達 APACHE HADOOP のコミッター Page 6
About Hortonworks 顧客 556 (2015 8 5 ) 2015 2 119 NASDAQ HDP Founded in 2011 Original 24 architects, developers, operators of Hadoop from Yahoo! Hortonworks Data Platform 740+ EMPLOYEES 1350+ ECOSYSTEM PARTNERS お客様のためのパートナー Hadoop
Payment Tracking Due Diligence Sentiment Analysis Social Mapping Customer Support Optimize Inventories Next Product Recs Store Design Call Analysis Machine Data Product Design M & A Ad Placement Basket Analysis Segments Proactive Repair Disaster Mitigation Investment Planning Factory Yields Defect Detection Cross- Sell Supply Chain Customer Retention Vendor Scorecards Inventory Predictions Risk Modeling Ad Placement Historical Records OPEX Reduction Device Data Ingest Data as a Service Fraud Prevention Mainframe Offloads Rapid Reporting Digital Protection Public Data Capture お客様は Hortonworks のテクノロジーを利用してビジネスの変革を図り 新たな事業目標の達成やコストの削減を目指している ユースケースの多くで カスタマージャーニーに両方の目標が組み込まれている Page 8
Symantec コスト削減 Page 9
Symantec ストリーム中の脅威データを分析することで 攻撃を事前に阻止 Symantec Global Intelligence Network は 157 を超える国々に設置された 5,700 万台以上の攻撃センサーで構成される 1 億 2,000 万台のデバイスで作業する 7,500 万人のユーザーからのデータストリーム レガシープラットフォームでは 脅威検出のためのログファイル分析処理で 3~4 時間の遅延が発生 この処理時間が攻撃者の標的になる可能性があった Page 10
Symantec 数十億件のログのリアルタイム処理によりすばやい対応が可能に 新しいクラウドプラットフォームに顧客を移管 1 日あたり 400 億件のログに対し脅威データのストリーム処理を実行することで 企業顧客を確実に保護 数十ペタバイトの脅威ログデータを対象とした長期ストレージと機械学習により 攻撃の予防的検出が可能に Page 11
Symantec 脅威検出に要する時間が 4 時間から 2 秒に 脅威検出時間を 5000 分の 1 に短縮 Symantec クラウドチームは プロアクティブで動的なクラウドの生成 拡張に向けて Ambari と Cloudbreak を利用 これらの機能を取り上げ できるだけ多くの開発者やアナリストに届ける必要があります クラウドプラットフォームリーダーデビッド DTL リン (David DTL Lin) Page 12
Symantec Open Enterprise Hadoop でのカスタマージャーニー セキュリティログ分析 脅威検出 攻撃者 IP 検出 統合セキュリティ 脅威予測 プロアクティブな防御 デバイス データ取り込み Greenplum オフロード メタデータ収集 脅威記録アーカイブ Page 13
Hortonworks Data Platform (HDP) Open Enterprise Hadoop
オープン Open Enterprise Hadoop 一元化 相互運用性 万全の対応 Page 15 Tweet: #hadooproadshow
オープン Open Enterprise Hadoop 一元化 相互運用性 万全の対応 Page 16 Tweet: #hadooproadshow
イノベーション 完全にオープンな Hortonworks Data Platform オープンコミュニティ イノベーションの優位性 独自の HADOOP 時間 リスクの解消 完全なオープンソースである Apache 技術を提供することで ベンダー固定化のリスクを解消 コミュニティイノベーションの最大化 数百社の企業の数百人の開発者により コミュニティイノベーションを最大化 シームレスな統合 共同エンジニアリングの取り組みを通して 他の先進技術を統合 コミュニティイノベーションの最大化 Page 17
オープン Open Enterprise Hadoop 一元化 相互運用性 万全な対応 Page 18 Tweet: #hadooproadshow
YARN ベースのアーキテクチャによるプラットフォーム一元化 YARN データオペレーティングシステム プラットフォーム一元化 オペレーション ガバナンス セキュリティ バッチ ガバナンス 機械学習 多様なアプリケーション 単一クラスタで同時実行 ストレージ オペレーション セキュリティ ストレージ データ取り込みの最大化 ローフォーマットかどうかに関係なく 新旧のソースに対応 インタラクティブ ストリーミング ビッグデータ資産の共有 すべての事業部門 機能部門 ユーザー間での共有 検索
オープン Open Enterprise Hadoop 一元化 相互運用性 万全な対応 Tweet: #hadooproadshow
最大限の柔軟性を提供 あらゆるデータ 新旧のデータセット あらゆるアプリケーション 複数のデータ分析エンジン あらゆる場所 あらゆる環境に対応 クリックストリーム センサー バッチ インタラクティブ オンプレミス クラウド ソーシャル モバイル 検索 ジオロケーション ストリーミング サーバ ログ Linux Windows 機械学習
業界標準との同期 エコシステム相互運用性の向上 Apache Hadoop 対応オープンプラットフォーム Pivotal HD Hortonworks が立ち上げた Open Data Platform(ODP) イニシアティブの一環 ODP コア 選択肢の開放 HDP と統合された複数のベンダーのコンポーネントを選択可能 HDP Apache Hadoop Apache Ambari IIP 無駄な当て推量の解消 システムバージョンの調整を行う必要があるアーキテクトに対するメリット
エコシステムとの統合 パートナー
オープン Open Enterprise Hadoop 一元化 相互運用性 万全な対応 Page 24 Tweet: #hadooproadshow
信頼できるガバナンス YARN データオペレーティングシステム データ管理 バッチ GOVERNANCE ガバナンス 機械学習 データライフサイクル全般における管理 メタデータによるモデリング ストレージ オペレーション セキュリティ ストレージ ハイブリッドアプローチにより総合的なデータリネージが実現 相互運用ソリューション インタラクティブ ストリーミング 共通のメタデータストアにより Hadoop エコシステム全体で相互運用が可能 検索
Apache Atlas データガバナンスのための基盤 ヘルスケア HIPAA HL7 分類 型システム l 金融 SOX Dodd-Frank ナレッジストア 監査ストア エネルギー PPDM REST API サービス ポリシールール モデル Apache Atlas 小売業 PCI PII リアルタイムのタグベースアクセス制御 その他 CWM 検索リネージエクスチェンジ データライフサイクル管理 タグベースのポリシー Rest API Atlas サービス HDP コンポーネント 外部ツールへの柔軟なアクセスが可能 SQL のようなドメイン特化型言語を使った検索 キーワード ファセット フルテキストによる検索 データリネージとスキーマ HiveServer2 上のすべての SQL ランタイムアクティビティを取得 エクスチェンジ 既存のメタデータのインポートと ダウンストリームシステムへのメタデータのエクスポート
安定した運用 YARN データオペレーティングシステム 一元化 バッチ 機械学習 Hadoop クラスタの管理 監視 ガバナンス 自動プロビジョニング ストレージ OPERATIONS オペレーション セキュリティ ストレージ Cloudbreak API により オンプレミスかクラウドのいずれかの環境に数分でクラスタをプロビジョニング インタラクティブ ストリーミング マネージドサービス ダッシュボードとアラート機能により 高可用性と一貫したライフサイクル管理を提供 検索
包括的なセキュリティ YARN データオペレーティングシステム 包括的なセキュリティ バッチ 機械学習 プラットフォームアプローチによるセキュリティ ガバナンス 暗号化 ストレージ オペレーション SECURITY セキュリティ ストレージ 保存データと移動中のデータの暗号化 管理の一元化 セキュリティポリシーとユーザー認証の管理 インタラクティブ ストリーミング きめ細かな承認 データアクセスを管理 検索
安定した運用と包括的なセキュリティ Apache Ambari Apache Ranger 安定した運用 容易なセットアップと設定 リアルタイムのカスタマイズが可能なダッシュボード 包括的なセキュリティ すべてのコンポーネントの承認と監査 HDFS の透過的なデータ暗号化
~ Hadoop Core ~ Page Hortonworks 30 Inc. 2015. Hortonworks All Rights Inc. Reserved 2011 2015. All Rights Reserved
HDFS と YARN イノベーションの基盤 データアクセス : バッチ インタラクティブ リアルタイム Hadoop / YARN を用いたデータオペレーティングシステムあらゆるアプリケーション データセット 環境に対応する 100% オープンソースのマルチテナント型データプラットフォーム リソース管理ガバナンス YARN オペレーションストレージ セキュリティ 共有エンタープライズサービスの集中型アーキテクチャをベースに構築拡張可能な階層型ストレージ リソース / ワークロード管理 信頼性に優れたデータガバナンスとメタデータ管理 安定した運用 包括的なセキュリティ 開発者向け API とツール コモディティアプライアンスクラウド Page 31
HDFS: 拡張性 信頼性 安全性に優れたストレージプラットフォーム 発信元 / 発信先 発信元 / 発信先 発信元 / 発信先 NFS REST RPC 標準ベースのデータインターフェイス YARN: データオペレーティングシステム B A B A C A C A B C B B A C HDFS あらゆるフォーマットのあらゆるデータを取り込み 保管柔軟なリードアクセスにより多様なワークロードに対応 拡張性データの増加にあわせて水平方向に拡張し 1 つ以上のノードを 1 度に追加 信頼性 高可用性 (HA) とフォルトトレラント性により データの損失と破損を防止 コスト効率 階層型ストレージで汎用ハードウェアを採用クロスワークロードアクセス 安全性 強力なアクセス制御と認証メカニズムの統合 すべてのユーザー / グループのデータセットへのアクセスを細かく制御 移動中のデータ / 保存データを保護 Page 32
HDFS エンタプライズ機能 Namenode HA( 冗 化 ) 単 障害点がない ファイルシステムスナップショット HDFS NFS Gateway HDFS を NFS マウント データを簡単に Hadoop に データ暗号化 (HDFS TDE) データを置くだけで 動暗号化 Page 33
HDFS -- 規模向け ティア ストレージ HDD, SSD, アーカイブ, RAM Disk アーカイブ ティア : コストが最 1/6までダウン Erasure Code 本のエンジニアからの貢献が きい 3 レプリケーションと べ ストレージ効率が 2 倍 Cluster Storage and Compute Capacity Cluster Storage Utilization Compute Utilization Page 34
HDP Isilon -- Page 35
YARN Page 36
HDP 2.3 内の Apache Spark 1.4.1 アプリケーション 完璧な組み合わせ セキュリティ Scala Java Python API MLlib Spark SQL Spark Streaming GraphX プラットフォーム統合 Zepplinによる可視化など ガバナンスと統合 Spark コアエンジン Spark コアエンジン YARN セキュリティ オペレーション リソース管理 Spark on YARN マルチテナントワークロードと予測可能な SLA HDFS SparkR* R データサイエンティストは Spark 機械学習を活用可能 Page 37
YARN - エコシステムの拡大 バッチ MapReduce スクリプト Pig SQL Hive データアクセス NoSQL HBase Accumulo Phoenix ストリーム Storm 検索 Solr インメモリ Spark その他 ISV エンジン SAS 統合 SAS で Hadoop からのデータの取り出し Hadoop を利用したインメモリ処理 Hadoop クラスタ内での直接動作が可能に Tez Tez Slider Slider YARN: データオペレーティングシステム 1 HDFS Hadoop Distributed File System データ管理 N Slider Hbase Accumolo Storm などの Slider 経由で YARN 上の Docker 化アプリケーションを実行 Solr HDP 2.3 を利用して Solr 検索エンジンを YARN 上で実行できるように 環境の選択肢 Linux Windows オンプレミスクラウド YARN と Docker セキュアなクラスタおよびアンセキュアなクラスタでコンテナを実行するための透過的な方法 Page 38
Data Operating System Enable all data and applications TO BE accessible and shared BY any end-user Page 39
Page 40
Page 41
Data Discovery and Predic1ve Analy1cs Elefante Wine Inc. Use Case & Demo Hortonworks Page 42
hortonworks.com/sandbox Page 43 Tweet: #hadooproadshow
Thank You Page 44 Tweet: #hadooproadshow