蒋逸峰 (Yifeng Jiang) Solutions Engineer, Hortonworks Apache HBase 本の作者本に来て10 年経ちました趣味は登り Page 2

Hadoopの今とこれから Yifeng Jiang Solutions Engineer, Hortonworks

蒋逸峰 (Yifeng Jiang) Solutions Engineer, Hortonworks Apache HBase 本の作者本に来て10 年経ちました趣味は登り Twitter: @uprush Page 2

Page 3

Hadoop http://ajisakaa.blogspot.jp コード数の増加 Page 4

Hortoworks のオープンリーダーシップ Hortonworks 組織毎のコード貢献 (2014 年 )

Hortonworks の Apache コミュニティに対する影響力コミッターの多くが Hortonworks 社員 -- Apache Hadoop プロジェクトの全コミッターの 1/3 および他の重要プロジェクトのコミッターの大多数を占める Hortonworks コミッターの役割 Open Enterprise Hadoop の革新と拡張 Hadoop ロードマップに対する影響力リーダーを通じて重要な要件をコミュニティに伝達 APACHE HADOOP のコミッター Page 6

About Hortonworks 顧客 556 (2015 8 5 ) 2015 2 119 NASDAQ HDP Founded in 2011 Original 24 architects, developers, operators of Hadoop from Yahoo! Hortonworks Data Platform 740+ EMPLOYEES 1350+ ECOSYSTEM PARTNERS お客様のためのパートナー Hadoop

Payment Tracking Due Diligence Sentiment Analysis Social Mapping Customer Support Optimize Inventories Next Product Recs Store Design Call Analysis Machine Data Product Design M & A Ad Placement Basket Analysis Segments Proactive Repair Disaster Mitigation Investment Planning Factory Yields Defect Detection Cross- Sell Supply Chain Customer Retention Vendor Scorecards Inventory Predictions Risk Modeling Ad Placement Historical Records OPEX Reduction Device Data Ingest Data as a Service Fraud Prevention Mainframe Offloads Rapid Reporting Digital Protection Public Data Capture お客様は Hortonworks のテクノロジーを利用してビジネスの変革を図り新たな事業目標の達成やコストの削減を目指しているユースケースの多くでカスタマージャーニーに両方の目標が組み込まれている Page 8

Symantec コスト削減 Page 9

Symantec ストリーム中の脅威データを分析することで攻撃を事前に阻止 Symantec Global Intelligence Network は 157 を超える国々に設置された 5,700 万台以上の攻撃センサーで構成される 1 億 2,000 万台のデバイスで作業する 7,500 万人のユーザーからのデータストリームレガシープラットフォームでは脅威検出のためのログファイル分析処理で 3~4 時間の遅延が発生この処理時間が攻撃者の標的になる可能性があった Page 10

Symantec 数十億件のログのリアルタイム処理によりすばやい対応が可能に新しいクラウドプラットフォームに顧客を移管 1 日あたり 400 億件のログに対し脅威データのストリーム処理を実行することで企業顧客を確実に保護数十ペタバイトの脅威ログデータを対象とした長期ストレージと機械学習により攻撃の予防的検出が可能に Page 11

Symantec 脅威検出に要する時間が 4 時間から 2 秒に脅威検出時間を 5000 分の 1 に短縮 Symantec クラウドチームはプロアクティブで動的なクラウドの生成拡張に向けて Ambari と Cloudbreak を利用これらの機能を取り上げできるだけ多くの開発者やアナリストに届ける必要がありますクラウドプラットフォームリーダーデビッド DTL リン (David DTL Lin) Page 12

Symantec Open Enterprise Hadoop でのカスタマージャーニーセキュリティログ分析脅威検出攻撃者 IP 検出統合セキュリティ脅威予測プロアクティブな防御デバイスデータ取り込み Greenplum オフロードメタデータ収集脅威記録アーカイブ Page 13

Hortonworks Data Platform (HDP) Open Enterprise Hadoop

オープン Open Enterprise Hadoop 一元化相互運用性万全の対応 Page 15 Tweet: #hadooproadshow

オープン Open Enterprise Hadoop 一元化相互運用性万全の対応 Page 16 Tweet: #hadooproadshow

イノベーション完全にオープンな Hortonworks Data Platform オープンコミュニティイノベーションの優位性独自の HADOOP 時間リスクの解消完全なオープンソースである Apache 技術を提供することでベンダー固定化のリスクを解消コミュニティイノベーションの最大化数百社の企業の数百人の開発者によりコミュニティイノベーションを最大化シームレスな統合共同エンジニアリングの取り組みを通して他の先進技術を統合コミュニティイノベーションの最大化 Page 17

オープン Open Enterprise Hadoop 一元化相互運用性万全な対応 Page 18 Tweet: #hadooproadshow

YARN ベースのアーキテクチャによるプラットフォーム一元化 YARN データオペレーティングシステムプラットフォーム一元化オペレーションガバナンスセキュリティバッチガバナンス機械学習多様なアプリケーション単一クラスタで同時実行ストレージオペレーションセキュリティストレージデータ取り込みの最大化ローフォーマットかどうかに関係なく新旧のソースに対応インタラクティブストリーミングビッグデータ資産の共有すべての事業部門機能部門ユーザー間での共有検索

オープン Open Enterprise Hadoop 一元化相互運用性万全な対応 Tweet: #hadooproadshow

最大限の柔軟性を提供あらゆるデータ新旧のデータセットあらゆるアプリケーション複数のデータ分析エンジンあらゆる場所あらゆる環境に対応クリックストリームセンサーバッチインタラクティブオンプレミスクラウドソーシャルモバイル検索ジオロケーションストリーミングサーバログ Linux Windows 機械学習

業界標準との同期エコシステム相互運用性の向上 Apache Hadoop 対応オープンプラットフォーム Pivotal HD Hortonworks が立ち上げた Open Data Platform(ODP) イニシアティブの一環 ODP コア選択肢の開放 HDP と統合された複数のベンダーのコンポーネントを選択可能 HDP Apache Hadoop Apache Ambari IIP 無駄な当て推量の解消システムバージョンの調整を行う必要があるアーキテクトに対するメリット

エコシステムとの統合パートナー

オープン Open Enterprise Hadoop 一元化相互運用性万全な対応 Page 24 Tweet: #hadooproadshow

信頼できるガバナンス YARN データオペレーティングシステムデータ管理バッチ GOVERNANCE ガバナンス機械学習データライフサイクル全般における管理メタデータによるモデリングストレージオペレーションセキュリティストレージハイブリッドアプローチにより総合的なデータリネージが実現相互運用ソリューションインタラクティブストリーミング共通のメタデータストアにより Hadoop エコシステム全体で相互運用が可能検索

Apache Atlas データガバナンスのための基盤ヘルスケア HIPAA HL7 分類型システム l 金融 SOX Dodd-Frank ナレッジストア監査ストアエネルギー PPDM REST API サービスポリシールールモデル Apache Atlas 小売業 PCI PII リアルタイムのタグベースアクセス制御その他 CWM 検索リネージエクスチェンジデータライフサイクル管理タグベースのポリシー Rest API Atlas サービス HDP コンポーネント外部ツールへの柔軟なアクセスが可能 SQL のようなドメイン特化型言語を使った検索キーワードファセットフルテキストによる検索データリネージとスキーマ HiveServer2 上のすべての SQL ランタイムアクティビティを取得エクスチェンジ既存のメタデータのインポートとダウンストリームシステムへのメタデータのエクスポート

安定した運用 YARN データオペレーティングシステム一元化バッチ機械学習 Hadoop クラスタの管理監視ガバナンス自動プロビジョニングストレージ OPERATIONS オペレーションセキュリティストレージ Cloudbreak API によりオンプレミスかクラウドのいずれかの環境に数分でクラスタをプロビジョニングインタラクティブストリーミングマネージドサービスダッシュボードとアラート機能により高可用性と一貫したライフサイクル管理を提供検索

包括的なセキュリティ YARN データオペレーティングシステム包括的なセキュリティバッチ機械学習プラットフォームアプローチによるセキュリティガバナンス暗号化ストレージオペレーション SECURITY セキュリティストレージ保存データと移動中のデータの暗号化管理の一元化セキュリティポリシーとユーザー認証の管理インタラクティブストリーミングきめ細かな承認データアクセスを管理検索

安定した運用と包括的なセキュリティ Apache Ambari Apache Ranger 安定した運用容易なセットアップと設定リアルタイムのカスタマイズが可能なダッシュボード包括的なセキュリティすべてのコンポーネントの承認と監査 HDFS の透過的なデータ暗号化

HDFS と YARN イノベーションの基盤データアクセス : バッチインタラクティブリアルタイム Hadoop / YARN を用いたデータオペレーティングシステムあらゆるアプリケーションデータセット環境に対応する 100% オープンソースのマルチテナント型データプラットフォームリソース管理ガバナンス YARN オペレーションストレージセキュリティ共有エンタープライズサービスの集中型アーキテクチャをベースに構築拡張可能な階層型ストレージリソース / ワークロード管理信頼性に優れたデータガバナンスとメタデータ管理安定した運用包括的なセキュリティ開発者向け API とツールコモディティアプライアンスクラウド Page 31

HDFS: 拡張性信頼性安全性に優れたストレージプラットフォーム発信元 / 発信先発信元 / 発信先発信元 / 発信先 NFS REST RPC 標準ベースのデータインターフェイス YARN: データオペレーティングシステム B A B A C A C A B C B B A C HDFS あらゆるフォーマットのあらゆるデータを取り込み保管柔軟なリードアクセスにより多様なワークロードに対応拡張性データの増加にあわせて水平方向に拡張し 1 つ以上のノードを 1 度に追加信頼性高可用性 (HA) とフォルトトレラント性によりデータの損失と破損を防止コスト効率階層型ストレージで汎用ハードウェアを採用クロスワークロードアクセス安全性強力なアクセス制御と認証メカニズムの統合すべてのユーザー / グループのデータセットへのアクセスを細かく制御移動中のデータ / 保存データを保護 Page 32

HDFS エンタプライズ機能 Namenode HA( 冗化 ) 単障害点がないファイルシステムスナップショット HDFS NFS Gateway HDFS を NFS マウントデータを簡単に Hadoop にデータ暗号化 (HDFS TDE) データを置くだけで動暗号化 Page 33

HDFS -- 規模向けティアストレージ HDD, SSD, アーカイブ, RAM Disk アーカイブティア : コストが最 1/6までダウン Erasure Code 本のエンジニアからの貢献がきい 3 レプリケーションとべストレージ効率が 2 倍 Cluster Storage and Compute Capacity Cluster Storage Utilization Compute Utilization Page 34

HDP Isilon -- Page 35

YARN Page 36

HDP 2.3 内の Apache Spark 1.4.1 アプリケーション完璧な組み合わせセキュリティ Scala Java Python API MLlib Spark SQL Spark Streaming GraphX プラットフォーム統合 Zepplinによる可視化などガバナンスと統合 Spark コアエンジン Spark コアエンジン YARN セキュリティオペレーションリソース管理 Spark on YARN マルチテナントワークロードと予測可能な SLA HDFS SparkR* R データサイエンティストは Spark 機械学習を活用可能 Page 37

YARN - エコシステムの拡大バッチ MapReduce スクリプト Pig SQL Hive データアクセス NoSQL HBase Accumulo Phoenix ストリーム Storm 検索 Solr インメモリ Spark その他 ISV エンジン SAS 統合 SAS で Hadoop からのデータの取り出し Hadoop を利用したインメモリ処理 Hadoop クラスタ内での直接動作が可能に Tez Tez Slider Slider YARN: データオペレーティングシステム 1 HDFS Hadoop Distributed File System データ管理 N Slider Hbase Accumolo Storm などの Slider 経由で YARN 上の Docker 化アプリケーションを実行 Solr HDP 2.3 を利用して Solr 検索エンジンを YARN 上で実行できるように環境の選択肢 Linux Windows オンプレミスクラウド YARN と Docker セキュアなクラスタおよびアンセキュアなクラスタでコンテナを実行するための透過的な方法 Page 38

Data Operating System Enable all data and applications TO BE accessible and shared BY any end-user Page 39

Page 40

Page 41

Data Discovery and Predic1ve Analy1cs Elefante Wine Inc. Use Case & Demo Hortonworks Page 42

hortonworks.com/sandbox Page 43 Tweet: #hadooproadshow

Thank You Page 44 Tweet: #hadooproadshow

蒋逸峰 (Yifeng Jiang) Solutions Engineer, Hortonworks Apache HBase 本の作者 本に来て10 年経ちました 趣味は 登り Page 2

蒋逸峰 (Yifeng Jiang) Solutions Engineer, Hortonworks Apache HBase 本の作者本に来て10 年経ちました趣味は登り Page 2