蒋逸峰 (Yifeng Jiang) Solutions Engineer, Hortonworks Apache HBase 本の作者 本に来て10 年経ちました 趣味は 登り Page 2

Similar documents
Joint Content Development Proposal Tech Docs and Curriculum

Big Data ウェビナー シリーズ CiscoのHadoopリセールについて

Agenda Hadoop Sahara Kilo Q&A Copyright 2015 Mirantis, Inc. All rights reserved Page 2

製品概要

Oracle Un お問合せ : Oracle Data Integrator 11g: データ統合設定と管理 期間 ( 標準日数 ):5 コースの概要 Oracle Data Integratorは すべてのデータ統合要件 ( 大量の高パフォーマンス バッチ ローブンの統合プロセスおよ

アジェンダ Ã ビッグデータ活 に必要なプラットフォーム Ã 事例紹介 Ã ユースケース紹介 Ã Hortonworks の紹介 2 Hortonworks Inc All Rights Reserved

2017 年 6 月 14 日 スムーズな API 連携でデジタルビジネスを推進する API Gateway as a Service の提供を開始 ~ 外部との API 接続を容易にし xtech ビジネス連携を加速 ~ NTT コミュニケーションズ ( 以下 NTT Com) は 複数のシステム

Presentation Title

Oracle Cloud Adapter for Oracle RightNow Cloud Service

PowerPoint プレゼンテーション

ネットアップクラウドデータサービス

Oracle Real Application Clusters 10g: 第4世代

Oracle SQL Developer Data Modeler

Microsoft PowerPoint - ã…Šã…¬ã…fiㅥㅼ盋_MVISONCloud製åfi†ç´¹ä»‰.pptx

IBM Rational Software Delivery Platform v7.0 What's

Software-Defined Storage ware Virtual SAN ware Virtual SAN

PowerPoint プレゼンテーション

Congress Deep Dive

HPE Integrity NonStop NS2300 サーバー

McAfee Complete Endpoint Threat Protection データシート

McAfee Embedded Control データシート

McAfee MVISION

Oracle GoldenGate for Big Data

Oracle SQL Developerの移行機能を使用したOracle Databaseへの移行

Microsoft 365 Business 中小企業のお客様に最適な 統合ソリューション 日本マイクロソフト株式会社

MapR on UCE : Hadoopはこう売ろう。難しくないHadoopの提案

データベースの近代化:シンプルなクロスプラットフォーム、最小のダウンタイムで実現するクラウド移行

よくある問題を解決する~ 5 分でそのままつかえるソリューション by AWS ソリューションズビルダチーム

オープンソース・ソリューション・テクノロジ株式会社 代表取締役 チーフアーキテクト 小田切耕司

Oracleライフサイクル管理ソリューション概要

使用する前に

Insert VERITAS™ FAQ Title Here

DataKeeper for Windows リリースノート

データセンターの効率的な資源活用のためのデータ収集・照会システムの設計

f2-system-requirement-system-composer-mw

Imperva Incapsula Web サイト セキュリティ データシート クラウドを利用したアプリケーション セキュリティ クラウドベースの Web サイト セキュリティ ソリューションである Imperva Incapsula は 業界をリードする WAF 技術に加え 強力な二要素認証および

VMware vcloud Suite

Oracle Audit Vault - Trust-but-Verify

ShikenPASS あなたは認証を取得するのを助ける人気認定試験向け関連勉強資料の提供者 ShikenPASS

Microsoft Word - AWSBlueprint final.docx

_EMS概要_クラウドを使う上で考慮すべきこと(セキュリティ視点で60分語るv4)_E5まで

new_emc_panf_Hyoushi_0818

McAfee Public Cloud Server Security Suiteデータシート

Microsoft PowerPoint - 3_PI System最新セキュリティについて

COMARCH の概要

無料セミナー資料:ビッグデータ管理基盤ソフトウェアHadoop入門

Microsoft Azure Microsoft Corporation Global Blackbelt Sales Japan OSS TSP Rio Fujita

Presentation Template Koji Komatsu

Hadoop LZO圧縮機能の検証

6-2- 応ネットワークセキュリティに関する知識 1 独立行政法人情報処理推進機構

CA Federation ご紹介資料

CAUA シンポジウム 2014 RSA 事業について 2014 年 11 月 14 日 ( 金 ) EMC ジャパン株式会社 RSA 事業本部マーケティング部部長水村明博 Copyright 2014 EMC Corporation. All rights reserved. 1

スライド 1

How to Use the PowerPoint Template

セットアップカード

OSS Mtg

AWS における ベストパートナーを見つける 7 つの方法 相澤恵奏アマゾンウェブサービスジャパンアライアンス技術本部テクニカルイネーブルメント部部長パートナーソリューションアーキテクト #AWSInnovate 2019, Amazon Web Services, Inc. or its affi

Oracle Warehouse Builder: 製品ロードマップ

延命セキュリティ製品 製品名お客様の想定対象 OS McAfee Embedded Control 特定の業務で利用する物理 PC 仮想 PC や Server 2003 Server 2003 ホワイトリスト型 Trend Micro Safe Lock 特定の業務で利用するスタンドアロン PC

新製品 Arcserve Backup r17.5 のご紹介 (SP1 対応版 ) Arcserve Japan Rev. 1.4

ORACLE Data Integrator

IBM_Tivoli_Micromuse.indd

Automation for Everyone <デモ で実感できる、組織全体で活用できるAnsible Tower>

FY14Q4 SMB Magalog December - APJ Version

Transcription:

Hadoopの今とこれから Yifeng Jiang Solutions Engineer, Hortonworks

蒋逸峰 (Yifeng Jiang) Solutions Engineer, Hortonworks Apache HBase 本の作者 本に来て10 年経ちました 趣味は 登り Twitter: @uprush Page 2

Page 3

Hadoop http://ajisakaa.blogspot.jp コード 数の増加 Page 4

Hortoworks のオープンリーダーシップ Hortonworks 組織毎のコード貢献 (2014 年 )

Hortonworks の Apache コミュニティに対する影響力 コミッターの多くが Hortonworks 社員 -- Apache Hadoop プロジェクトの全コミッターの 1/3 および他の重要プロジェクトのコミッターの大多数を占める Hortonworks コミッターの役割 Open Enterprise Hadoop の革新と拡張 Hadoop ロードマップに対する影響力 リーダーを通じて 重要な要件をコミュニティに伝達 APACHE HADOOP のコミッター Page 6

About Hortonworks 顧客 556 (2015 8 5 ) 2015 2 119 NASDAQ HDP Founded in 2011 Original 24 architects, developers, operators of Hadoop from Yahoo! Hortonworks Data Platform 740+ EMPLOYEES 1350+ ECOSYSTEM PARTNERS お客様のためのパートナー Hadoop

Payment Tracking Due Diligence Sentiment Analysis Social Mapping Customer Support Optimize Inventories Next Product Recs Store Design Call Analysis Machine Data Product Design M & A Ad Placement Basket Analysis Segments Proactive Repair Disaster Mitigation Investment Planning Factory Yields Defect Detection Cross- Sell Supply Chain Customer Retention Vendor Scorecards Inventory Predictions Risk Modeling Ad Placement Historical Records OPEX Reduction Device Data Ingest Data as a Service Fraud Prevention Mainframe Offloads Rapid Reporting Digital Protection Public Data Capture お客様は Hortonworks のテクノロジーを利用してビジネスの変革を図り 新たな事業目標の達成やコストの削減を目指している ユースケースの多くで カスタマージャーニーに両方の目標が組み込まれている Page 8

Symantec コスト削減 Page 9

Symantec ストリーム中の脅威データを分析することで 攻撃を事前に阻止 Symantec Global Intelligence Network は 157 を超える国々に設置された 5,700 万台以上の攻撃センサーで構成される 1 億 2,000 万台のデバイスで作業する 7,500 万人のユーザーからのデータストリーム レガシープラットフォームでは 脅威検出のためのログファイル分析処理で 3~4 時間の遅延が発生 この処理時間が攻撃者の標的になる可能性があった Page 10

Symantec 数十億件のログのリアルタイム処理によりすばやい対応が可能に 新しいクラウドプラットフォームに顧客を移管 1 日あたり 400 億件のログに対し脅威データのストリーム処理を実行することで 企業顧客を確実に保護 数十ペタバイトの脅威ログデータを対象とした長期ストレージと機械学習により 攻撃の予防的検出が可能に Page 11

Symantec 脅威検出に要する時間が 4 時間から 2 秒に 脅威検出時間を 5000 分の 1 に短縮 Symantec クラウドチームは プロアクティブで動的なクラウドの生成 拡張に向けて Ambari と Cloudbreak を利用 これらの機能を取り上げ できるだけ多くの開発者やアナリストに届ける必要があります クラウドプラットフォームリーダーデビッド DTL リン (David DTL Lin) Page 12

Symantec Open Enterprise Hadoop でのカスタマージャーニー セキュリティログ分析 脅威検出 攻撃者 IP 検出 統合セキュリティ 脅威予測 プロアクティブな防御 デバイス データ取り込み Greenplum オフロード メタデータ収集 脅威記録アーカイブ Page 13

Hortonworks Data Platform (HDP) Open Enterprise Hadoop

オープン Open Enterprise Hadoop 一元化 相互運用性 万全の対応 Page 15 Tweet: #hadooproadshow

オープン Open Enterprise Hadoop 一元化 相互運用性 万全の対応 Page 16 Tweet: #hadooproadshow

イノベーション 完全にオープンな Hortonworks Data Platform オープンコミュニティ イノベーションの優位性 独自の HADOOP 時間 リスクの解消 完全なオープンソースである Apache 技術を提供することで ベンダー固定化のリスクを解消 コミュニティイノベーションの最大化 数百社の企業の数百人の開発者により コミュニティイノベーションを最大化 シームレスな統合 共同エンジニアリングの取り組みを通して 他の先進技術を統合 コミュニティイノベーションの最大化 Page 17

オープン Open Enterprise Hadoop 一元化 相互運用性 万全な対応 Page 18 Tweet: #hadooproadshow

YARN ベースのアーキテクチャによるプラットフォーム一元化 YARN データオペレーティングシステム プラットフォーム一元化 オペレーション ガバナンス セキュリティ バッチ ガバナンス 機械学習 多様なアプリケーション 単一クラスタで同時実行 ストレージ オペレーション セキュリティ ストレージ データ取り込みの最大化 ローフォーマットかどうかに関係なく 新旧のソースに対応 インタラクティブ ストリーミング ビッグデータ資産の共有 すべての事業部門 機能部門 ユーザー間での共有 検索

オープン Open Enterprise Hadoop 一元化 相互運用性 万全な対応 Tweet: #hadooproadshow

最大限の柔軟性を提供 あらゆるデータ 新旧のデータセット あらゆるアプリケーション 複数のデータ分析エンジン あらゆる場所 あらゆる環境に対応 クリックストリーム センサー バッチ インタラクティブ オンプレミス クラウド ソーシャル モバイル 検索 ジオロケーション ストリーミング サーバ ログ Linux Windows 機械学習

業界標準との同期 エコシステム相互運用性の向上 Apache Hadoop 対応オープンプラットフォーム Pivotal HD Hortonworks が立ち上げた Open Data Platform(ODP) イニシアティブの一環 ODP コア 選択肢の開放 HDP と統合された複数のベンダーのコンポーネントを選択可能 HDP Apache Hadoop Apache Ambari IIP 無駄な当て推量の解消 システムバージョンの調整を行う必要があるアーキテクトに対するメリット

エコシステムとの統合 パートナー

オープン Open Enterprise Hadoop 一元化 相互運用性 万全な対応 Page 24 Tweet: #hadooproadshow

信頼できるガバナンス YARN データオペレーティングシステム データ管理 バッチ GOVERNANCE ガバナンス 機械学習 データライフサイクル全般における管理 メタデータによるモデリング ストレージ オペレーション セキュリティ ストレージ ハイブリッドアプローチにより総合的なデータリネージが実現 相互運用ソリューション インタラクティブ ストリーミング 共通のメタデータストアにより Hadoop エコシステム全体で相互運用が可能 検索

Apache Atlas データガバナンスのための基盤 ヘルスケア HIPAA HL7 分類 型システム l 金融 SOX Dodd-Frank ナレッジストア 監査ストア エネルギー PPDM REST API サービス ポリシールール モデル Apache Atlas 小売業 PCI PII リアルタイムのタグベースアクセス制御 その他 CWM 検索リネージエクスチェンジ データライフサイクル管理 タグベースのポリシー Rest API Atlas サービス HDP コンポーネント 外部ツールへの柔軟なアクセスが可能 SQL のようなドメイン特化型言語を使った検索 キーワード ファセット フルテキストによる検索 データリネージとスキーマ HiveServer2 上のすべての SQL ランタイムアクティビティを取得 エクスチェンジ 既存のメタデータのインポートと ダウンストリームシステムへのメタデータのエクスポート

安定した運用 YARN データオペレーティングシステム 一元化 バッチ 機械学習 Hadoop クラスタの管理 監視 ガバナンス 自動プロビジョニング ストレージ OPERATIONS オペレーション セキュリティ ストレージ Cloudbreak API により オンプレミスかクラウドのいずれかの環境に数分でクラスタをプロビジョニング インタラクティブ ストリーミング マネージドサービス ダッシュボードとアラート機能により 高可用性と一貫したライフサイクル管理を提供 検索

包括的なセキュリティ YARN データオペレーティングシステム 包括的なセキュリティ バッチ 機械学習 プラットフォームアプローチによるセキュリティ ガバナンス 暗号化 ストレージ オペレーション SECURITY セキュリティ ストレージ 保存データと移動中のデータの暗号化 管理の一元化 セキュリティポリシーとユーザー認証の管理 インタラクティブ ストリーミング きめ細かな承認 データアクセスを管理 検索

安定した運用と包括的なセキュリティ Apache Ambari Apache Ranger 安定した運用 容易なセットアップと設定 リアルタイムのカスタマイズが可能なダッシュボード 包括的なセキュリティ すべてのコンポーネントの承認と監査 HDFS の透過的なデータ暗号化

~ Hadoop Core ~ Page Hortonworks 30 Inc. 2015. Hortonworks All Rights Inc. Reserved 2011 2015. All Rights Reserved

HDFS と YARN イノベーションの基盤 データアクセス : バッチ インタラクティブ リアルタイム Hadoop / YARN を用いたデータオペレーティングシステムあらゆるアプリケーション データセット 環境に対応する 100% オープンソースのマルチテナント型データプラットフォーム リソース管理ガバナンス YARN オペレーションストレージ セキュリティ 共有エンタープライズサービスの集中型アーキテクチャをベースに構築拡張可能な階層型ストレージ リソース / ワークロード管理 信頼性に優れたデータガバナンスとメタデータ管理 安定した運用 包括的なセキュリティ 開発者向け API とツール コモディティアプライアンスクラウド Page 31

HDFS: 拡張性 信頼性 安全性に優れたストレージプラットフォーム 発信元 / 発信先 発信元 / 発信先 発信元 / 発信先 NFS REST RPC 標準ベースのデータインターフェイス YARN: データオペレーティングシステム B A B A C A C A B C B B A C HDFS あらゆるフォーマットのあらゆるデータを取り込み 保管柔軟なリードアクセスにより多様なワークロードに対応 拡張性データの増加にあわせて水平方向に拡張し 1 つ以上のノードを 1 度に追加 信頼性 高可用性 (HA) とフォルトトレラント性により データの損失と破損を防止 コスト効率 階層型ストレージで汎用ハードウェアを採用クロスワークロードアクセス 安全性 強力なアクセス制御と認証メカニズムの統合 すべてのユーザー / グループのデータセットへのアクセスを細かく制御 移動中のデータ / 保存データを保護 Page 32

HDFS エンタプライズ機能 Namenode HA( 冗 化 ) 単 障害点がない ファイルシステムスナップショット HDFS NFS Gateway HDFS を NFS マウント データを簡単に Hadoop に データ暗号化 (HDFS TDE) データを置くだけで 動暗号化 Page 33

HDFS -- 規模向け ティア ストレージ HDD, SSD, アーカイブ, RAM Disk アーカイブ ティア : コストが最 1/6までダウン Erasure Code 本のエンジニアからの貢献が きい 3 レプリケーションと べ ストレージ効率が 2 倍 Cluster Storage and Compute Capacity Cluster Storage Utilization Compute Utilization Page 34

HDP Isilon -- Page 35

YARN Page 36

HDP 2.3 内の Apache Spark 1.4.1 アプリケーション 完璧な組み合わせ セキュリティ Scala Java Python API MLlib Spark SQL Spark Streaming GraphX プラットフォーム統合 Zepplinによる可視化など ガバナンスと統合 Spark コアエンジン Spark コアエンジン YARN セキュリティ オペレーション リソース管理 Spark on YARN マルチテナントワークロードと予測可能な SLA HDFS SparkR* R データサイエンティストは Spark 機械学習を活用可能 Page 37

YARN - エコシステムの拡大 バッチ MapReduce スクリプト Pig SQL Hive データアクセス NoSQL HBase Accumulo Phoenix ストリーム Storm 検索 Solr インメモリ Spark その他 ISV エンジン SAS 統合 SAS で Hadoop からのデータの取り出し Hadoop を利用したインメモリ処理 Hadoop クラスタ内での直接動作が可能に Tez Tez Slider Slider YARN: データオペレーティングシステム 1 HDFS Hadoop Distributed File System データ管理 N Slider Hbase Accumolo Storm などの Slider 経由で YARN 上の Docker 化アプリケーションを実行 Solr HDP 2.3 を利用して Solr 検索エンジンを YARN 上で実行できるように 環境の選択肢 Linux Windows オンプレミスクラウド YARN と Docker セキュアなクラスタおよびアンセキュアなクラスタでコンテナを実行するための透過的な方法 Page 38

Data Operating System Enable all data and applications TO BE accessible and shared BY any end-user Page 39

Page 40

Page 41

Data Discovery and Predic1ve Analy1cs Elefante Wine Inc. Use Case & Demo Hortonworks Page 42

hortonworks.com/sandbox Page 43 Tweet: #hadooproadshow

Thank You Page 44 Tweet: #hadooproadshow