PowerPoint プレゼンテーション

Similar documents
Joint Content Development Proposal Tech Docs and Curriculum

Big Data ウェビナー シリーズ CiscoのHadoopリセールについて

Oracle Business Intelligence Suite

無料セミナー資料:ビッグデータ管理基盤ソフトウェアHadoop入門

EM10gR3記者発表

Power BI 最新情報と活用方法

ビッグデータ / IoT 時代にデジタルトランスフォーメーションを実現する Dell Blueprint Dell Cloudera Apache Hadoop / Dell Validated Systems for SAP HANA ソリューションガイド デルの Hadoop / SAP HAN

Oracle GoldenGate for Big Data

IBM Cognos 10 Upgrade FAQ

データセンターの効率的な資源活用のためのデータ収集・照会システムの設計

HIGIS 3/プレゼンテーション資料/J_GrayA.ppt

MapR on UCE : Hadoopはこう売ろう。難しくないHadoopの提案

スキル領域 職種 : ソフトウェアデベロップメント スキル領域と SWD 経済産業省, 独立行政法人情報処理推進機構

PowerPoint プレゼンテーション

IBM_Tivoli_Micromuse.indd

ORACLE Data Integrator

本当に必要なビッグデータ活用インフラはこれだ!! PivotalHD + Isilon が作り出すデータレイク構想 東京エレクトロンデバイス株式会社 CN 事業統括本部 2014 年 8 月 本掲載内容に関するお問合せはこちらにお願いします 東京エレクトロンデバイス株式会社 CN 事業統括本部 TE

OTデータとITデータの双方を統合的に分析可能な社会・産業インフラ分野向けのデータ分析基盤を提供開始

Oracle Un お問合せ : Oracle Data Integrator 11g: データ統合設定と管理 期間 ( 標準日数 ):5 コースの概要 Oracle Data Integratorは すべてのデータ統合要件 ( 大量の高パフォーマンス バッチ ローブンの統合プロセスおよ

3 4 SAP HANA 5 6 SAP HANA Xeon E7 v3 SAP HANA 6 8 OLTP OLAP 1 9 SAP S/4HANA SAP HANA Studio 13 14

Oracle Warehouse Builder: 製品ロードマップ

蒋逸峰 (Yifeng Jiang) Solutions Engineer, Hortonworks Apache HBase 本の作者 本に来て10 年経ちました 趣味は 登り Page 2

IBM Rational Software Delivery Platform v7.0 What's

スライド 1

アジェンダ Ã ビッグデータ活 に必要なプラットフォーム Ã 事例紹介 Ã ユースケース紹介 Ã Hortonworks の紹介 2 Hortonworks Inc All Rights Reserved

Microsoft Azure Microsoft Corporation Global Blackbelt Sales Japan OSS TSP Rio Fujita

【Cosminexus V9】クラウドサービスプラットフォーム Cosminexus

OpenRulesモジュール

目次 概要 S/4HANAの導入方式 NECがご提供するサービス S/4HANA 導入ロードマップ策定支援サービス

tokyo_t3.pdf

<Insert Picture Here>

OpenRulesモジュール

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

Presentation Title

ビッグデータ時代に求められるデータアーキテクチャ DWH からビッグデータ さらにビジネスインテリジェンス (BI) というように データ活用のステージが変化してきている この流れの中で求められているデータアーキテクチャの方向性として Syncsort の日本法人であるシンクソート ジャパン 代表の

Oracle SQL Developerの移行機能を使用したOracle Databaseへの移行

Exam : 日本語版 Title : Design and Providing MS Vol Licensing Solutions to Large Orgs Vendor : Microsoft Version : DEMO 1 / 5 Get Latest & Valid 0

FUJITSU Cloud Service for OSS 「コンテナサービス」 ご紹介資料

Big Data ウェビナー シリーズ Hadoopベーシック

Microsoft PowerPoint - 02Hinemosシステムアナライズオプション.pptx

市場概要とデジタルツインの促進要因 複雑性 製品 サプライチェーン データ および市場の求めるものが複雑化している エコシステムとビジネスネットワーク 外部企業とのネットワークの拡大 グローバルとローカル 競争の激しいグローバル市場でも ローカル市場と同様 丁寧な対応が必要 顧客エクスペリエンスと

Oracle Real Application Clusters 10g: 第4世代

PowerPoint プレゼンテーション

Automation for Everyone <デモ で実感できる、組織全体で活用できるAnsible Tower>

FUJITSU Cloud Service A5 for Microsoft Azure サービス仕様書

HP ProLiant Gen8とRed Hatで始めるHadoop™ ~Hadoop™スタートアップ支援サービス~

タイトル

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

CLUSTERPRO MC ProcessSaver 2.3 for Windows 導入ガイド 第 5 版 2018 年 6 月 日本電気株式会社

CLUSTERPRO MC ProcessSaver 1.2 for Windows 導入ガイド 第 4 版 2014 年 3 月 日本電気株式会社

<Insert Picture Here> Oracle Business Intelligence 2006/6/27

HPE Integrity NonStop NS2300 サーバー

(Microsoft PowerPoint - DSE2019_IOProfiler\203v\203\214\203[\203\223\216\221\227\277-Rev1.1)

日立とアシストが情報システム運用のレポーティングソフトウェアを共同開発

CA Federation ご紹介資料

Agenda Hadoop Sahara Kilo Q&A Copyright 2015 Mirantis, Inc. All rights reserved Page 2

Hadoop LZO圧縮機能の検証

FUJITSU Software Systemwalker Centric Manager Lite Edition V13.5 機能紹介資料

Azure で IoT を実現する Things Connec tivity Data Insight Action IoT Edge IoT Hub Data Factory Azure Storage Azure Data Lake Store SQL Database SQL Data War

ネットアップクラウドデータサービス

Microsoft PowerPoint Quality-sama_Seminar.pptx

Presentation Template Koji Komatsu

Pro/INTRALINK 10.0 Curriculum Guide

Express5800 WSUS 導入セットご紹介資料

ITRU利用のお願い

PowerPoint プレゼンテーション

ハード・ソフト協調検証サービス

Transcription:

AI/IoT の導入に適したビッグデータ分析プラットフォーム (Data Platform for Hadoop) とサービス 2017/10/10 NEC 辻篤史 山川聡 1 NEC Corporation 2017

講演者紹介 辻篤史 <a-tsuji@bk.jp.nec.com> 製品企画 ビッグデータプラットフォーム開発チーム 専門 : オペレーティングシステム インフラ運用 山川聡 <s-yamakawa@cj.jp.nec.com> 製品アーキテクト ビッグデータプラットフォーム開発チームリーダー 専門 : 分散コンピューティング ストレージシステム 3 NEC Corporation 2017

目次 1. ビッグデータ分析の課題 2. AI/IoTに適した分析プラットフォーム 3. 活動事例紹介 4. NECが重視していること

1. ビッグデータ分析の課題

デジタルデータの拡大 2020 Global Data volume 2013 4.4ZB CAGR 44ZB 40 IDC 2013 4.4ZB 2020 44ZB, ZB Zeta byte Zeta 10 to 21st power 6 NEC Corporation 2017

Hadoopを利用したビッグデータ分析 Hadoop活用 IoT連携 実世界 人 モノ 連携 分析 環境 AI 7 NEC Corporation 2017 社会価値 サイバー世界 対処 AI活用

Hadoop の特長 様々なデータに対応した統合プラットフォーム 構造化データ セミ構造化データ 非構造化データを一つのプラットフォームで蓄積 処理可能 Hadoop エコシステム 多様なコンポーネント 多様なデータ処理 多様なデータ処理が可能な標準プラットフォーム ビッグデータの一括処理と分析のための繰り返し処理 バッチ処理とリアルタイム処理など多様な処理が可能 柔軟なデータフロー設計が可能 多様なデータの取り込み データフローに応じた加工処理に柔軟に対応可能 多様な製品 技術と親和性を持つエコシステム 様々な製品やデータ分析 データ処理 セキュリティ ガバナンスなどに対応した新技術との親和性を確保 高いスケーラビリティ ノード追加によりリニアにスケールアウト可能 8 NEC Corporation 2017

ビッグデータ活用の難しさ ビッグデータ分析の要件 ( 例 ) 非構造データに対応したデータ蓄積 IoT と連携したリアルタイムのデータ取り込み AI を活用した高度分析 複雑な要件 X Hadoop システムの設計要素 HW アーキテクチャ選択 / HW サイジング Hadoop コンポーネント / パラメータの組み合わせ 外部システムとの連携 複雑な設計 複雑なシステムとなるため 要件の達成ステップを決める必要あり 9 NEC Corporation 2017

データドリブン企業への段階的変革 Bigdata Journey Data Volume 1 PB Enterprise Data Warehouse (EDW) Optimazion Predictive Analytics リスク管理 Real-Time Streaming Analytics デジタルトランスフォーメーション リアルタイム分析 Data-Driven Transformation データドリブン意思決定 組織間 Data Lake Deep Learning 顧客管理 予測分析 32 TB 見える化 / コスト削減 カスタマー 360 度分析 不正検知 クロスセル / アップセル 既存処理のオフロード BI / 可視化 Timeline Start 3 Year 10 NEC Corporation 2017

Bigdata Journey 実現に必要な要素 : ビッグデータ基盤観点 クロスセル / アップセル 360 度分析顧客満足度向上 ( コンタクトセンター ) データの見える化 分析処理基盤 分析処理基盤 分析処理基盤 分析処理基盤 ストレージ 拡張 ストレージ 拡張 ストレージ 拡張 ストレージ 分析プラットフォーム 分析プラットフォーム 分析プラットフォーム 分析プラットフォーム 顧客 ID 顧客購入データ 顧客属性データ 顧客行動データ 製品データ 顧客対応データ 顧客サーベイ キャンペーン結果データ 販売データ データレイク 11 NEC Corporation 2017

Bigdata Journey 実現に必要な要素 : 運用観点 クロスセル / アップセル 360 度分析顧客満足度向上 ( コンタクトセンター ) データの見える化 分析処理基盤 分析処理基盤 分析処理基盤 分析処理基盤 ストレージ 拡張拡張拡張 ストレージ ストレージ ストレージ 分析プラットフォーム 分析プラットフォーム 分析プラットフォーム 分析プラットフォーム システム導入 : 設計 構築 システム拡張 #1: 設計 構築 運用 ( 拡張 ) 運用オペレーション システム拡張 #2: 設計 構築 運用 ( 拡張 ) システム拡張 #3: 設計 構築 運用 ( 拡張 ) 運用 (SW 更新 ) 12 NEC Corporation 2017

ビッグデータ分析導入 運用のハードル Governance Integration Data Lifecycle & Governance Data Workflow NFS (HDFS) WebHDFS (HDFS) Sqoop Mahout Tools 最適なコンポーネント構成がわからない YARN: Data Operating System Ambari User Views Falcon Data Access Batch In-Mem SQL NoSQL Stream Script Atlas Hadoopを扱える専門技術者が不足 Map Reduce Spark Hive Zeppelin Hbase Accumulo Phoenix Storm Security Administration Authentication Authorization Auditing Data Protection HDFS Encryption Ranger Kafka HDFS: Hadoop Distributed File System ビッグデータ分析を活用したビジネスケースの経験が不足 Flume Data Management Pig Search 継続的な運用で必要になる拡張 アップグレードが困難 Solr Knox Atlas Operations Provisioning, Managing, & Monitoring Ambari ZooKeeper Cloudbreak Scheduling Oozie 多様なコンポーネント 導入 ( 設計 構築 ) 運用 13 NEC Corporation 2017

2. IoT/AI に適した分析プラットフォーム

Hadoop を利用するための 3 つのポイント 最適なコンポーネント構成がわからない 標準プラットフォーム Hadoop を扱える専門技術者が不足 継続的な運用で必要になる拡張 アップグレードが困難 ビッグデータ分析を活用したビジネスケースの経験が不足 ソリューションモデル 標準オペレーション 15 NEC Corporation 2017

NEC の提案 標準プラットフォーム データ活用の段階に合わせた HW アーキテクチャ選択 ソリューションモデル 顧客の用途に最適な Hadoop システム構成 標準オペレーション 標準オペレーションを実現する 3 つの要素 Data Platform for Hadoop としてアプライアンス / サービスを提供 16 NEC Corporation 2017

事前検証済みビッグデータ分析基盤 Data Platform for Hadoop すぐに分析を開始できるビッグデータ分析基盤と関連サービス 構造化データ 取り込み加工蓄積 統合関連付け 分析 可視化 業務システム ERP/CRM SCM Log 準構造化データ XML XML 非構造化データ システムログ JSON JSON SNS 時系列 センサー データフロー連携 分析ツールとの連携 Red Hat 設計 最適化済みの HDP 基盤の提供 SAS Tableau etc. 17 NEC Corporation 2017

データ活用の段階に合わせた HW アーキテクチャ選択 既存データの見える化 多様なデータに基づく予測分析 AI を活用したデータドリブン意思決定 コンピュート / コンピュート強化ストレージ拡張 Express5800 Express5800 Express5800 DX2000 スモールスタート可能なデータレイクソリューションを導入 蓄積データの容量 / 種別の増加に合わせ Express5800 を追加しシステム拡張 AI を活用した高度分析のため DX2000 を追加し高いコンピューティング性能を確保 18 NEC Corporation 2017

顧客の用途に最適な Hadoop システム構成 既存データの見える化 Data Sources Data System Application 既存データ EDW(*) RDBMS EDW MPP RDBMS Mainframe HDF EDW 連携ツール BI/BA IoT 連携 データフロー制御 Data Platform for Hadoop System Log SNS Geospatial data Sensors ソリューションモデルを設計 / 検証 *Enterprise Data Warehouse 19 NEC Corporation 2017

標準オペレーションを実現する 3 つの要素 実行者スキル ドキュメント ツール 従来オペレーション 標準オペレーション 設計構築テスト受入 実行者スキル 設計 構築 受入 ドキュ メント ツール 発生する問題 作業期間を短縮 事前検証済み範囲 事前検証事前トレーニング 20 NEC Corporation 2017

運用ライフサイクル全体をカバーするサービス クロスセル / アップセル 360 度分析顧客満足度向上 ( コンタクトセンター ) データの見える化 分析処理基盤 分析処理基盤 分析処理基盤 分析処理基盤 ストレージ 拡張拡張拡張 ストレージ ストレージ ストレージ 分析プラットフォーム 分析プラットフォーム 分析プラットフォーム 分析プラットフォーム システム導入 : 設計サービス 構築サービス システム拡張 #1: 設計サービス 構築サービス 拡張サービス システム拡張 #2: 設計サービス 構築サービス 拡張サービス システム拡張 #3: 設計サービス 構築サービス 拡張サービス SW 更新サービス システム運用ライフサイクル全体をカバーするサービス 21 NEC Corporation 2017

3. 活動事例紹介

活動事例紹介 Data Platform for Hadoop の開発における活動事例 標準プラットフォーム開発 ソリューションモデル開発 標準オペレーション開発 23 NEC Corporation 2017

標準プラットフォーム開発の考え方 標準 PF 構築 運用プロセスにおける課題の露払い 安定性と性能の両立 最新の Hadoop ディストリビューションへの早期対応 24 NEC Corporation 2017

標準プラットフォームのライフサイクル管理 標準PF ライフサイクルを考慮したサポート体制の構築 Life cycle 1 Life cycle 2 Hadoop結合ツール Hadoop OS HW 複数のライフサイクル バージョン管理 ライフサイクル管理 アップグレード検証 25 NEC Corporation 2017 continuous support and keep improving keep improving

プラットフォーム最適化への取り組み 標準 PF H/W, OS, Hadoop の各層 統合スタックとしての最適化設計 検証の実施 設計 安定稼動 性能改善を目的としたチューニング パラメータチューニング コンポーネントデザイン カーネルチューニング Hive, Pig, etc. HDFS,YARN, MR2, Spark, etc. OS 検証 性能 機能観点での検証の実施 ベンチマークツール機能テストツール ハードウェアサイジング サーバ 26 NEC Corporation 2017

Hortonworks 認定済みのプラットフォーム 標準 PF プラットフォーム上で動作する機能と性能を事前に検証済み Data Platform for Hadoop 27 NEC Corporation 2017

性能検証 :TPC-DS を使ったクエリ処理性能比較 事例 TCP-DS 大規模データを対象とした意思決定支援システムを実現するデータベースにおけるクエリ処理性能の計測 使用ツール https://github.com/hortonworks/hive-testbench 実施概要 標準プラットフォーム構成 (DX2000+RHEL+HDP2.6) における性能を検証 TPC-DS で規定された 99 種類のクエリのうち ツールで対応している 66 種類のクエリを実行 28 NEC Corporation 2017

Hive-tez エンジンでのクエリ応答性能 ORC vs Parquet 事例 列指向データ構造の形式の違いによるクエリ応答性能を比較検証 5TB のデータに対するクエリ応答時間の平均時間差 2 1.6 応答性能が高い 1.5 1 1.0 0.5 0 ORC Parquet ORC Parquet (ORCのケースを1とした場合のクエリ応答時間の比率の平均値) 29 NEC Corporation 2017

Hive-tez エンジンでのクエリ応答性能比較チューニング (1) 事例 Hive-tez のパラメータチューニング (ORC - 5TB データセット ) 応答時間に影響を与えるパラメータ (A~E) を選定し 効果を検証 25 20 15 最短応答時間をたたき出したクエリ数 30000 20000 全クエリの実行にかかった時間 ( 秒 ) 10 5 10000 0 Config A Config B Config C Config D Config E 0 Config A Config B Config C Config D Config E Config A が優勢 Config D が優勢 30 NEC Corporation 2017

Hive-tez エンジンでのクエリ処理性能比較チューニング (2) 事例 5TBのデータセット対するクエリ応答時間の平均時間差 (ORCのケースを1とした場合のクエリ処理時間の比率の平均値) 1.2 1.15 1.16 1.1 1.07 1.06 応答性能が高い 1.05 1 1.0 1.01 0.95 0.9 Config A Config B Config C Config D Config E Config A が最もパフォーマンスを出しやすい設定 31 NEC Corporation 2017

ソリューションモデル開発の考え方 ソリューション 提供価値の実現手段となる機能群の連携手法 運用方法をモデルとして確立 Bigdata Journey を実現するソリューションモデル 機能要件 非機能要件を規定し設計と検証を実施 パートナーソリューション連携 32 NEC Corporation 2017

Bigdata Journey ソリューション Data Volume 1 PB Enterprise Data Warehouse (EDW) Optimazion Predictive Analytics リスク管理 Real-Time Streaming Analytics デジタルトランスフォーメーション リアルタイム分析 Data-Driven Transformation データドリブン意思決定 組織間 Data Lake Deep Learning 顧客管理 予測分析 32 TB 見える化 / コスト削減 カスタマー 360 度分析 不正検知 クロスセル / アップセル 既存処理のオフロード BI / 可視化 Timeline Start 3 Year 33 NEC Corporation 2017

各ステップで実現すべき要件と手段 EDW Optimization Predictive / Optimization (既存のEnterprise Data Warehouseの強化) (Advanced Analyticsによるシ ステムの強化) テクノロジ 既存のETL処理のHaoop基 盤へのオフロード テクノロジ 構造化データ SNS等の 非構造かデータのシング ルプラットフォームへの 取り込みと分析 ビジネス HadoopによるData Lakeの 構築 コスト削減 34 NEC Corporation 2017 ビジネス 高い洞察に富んだ事業予 測を行うためのData Lakeの強化 Real-Time Streaming Analytics Model (Stream Analyticsによるシステ ムの強化) テクノロジ センサーデータの取り込 みによるリアルタイムイ ベントの分析 ビジネス リアルタイムに適切な意 思決定を行うことによる 事業機会損失の回避 ソリューション Data-Driven Transformation Model ( Hub & Spoke Analytics による新たなビジネス機会 の発見) 構造データ 非構造 データを対象とした バッチ リアルタイム 処理機能の組織横断で のシングルプラット フォーム化 新たな事業機会の発見 と競争力の強化

EDW Optimizationからのスタート EDW Optimization Predictive / Optimization (既存のEnterprise Data Warehouseの強化) (Advanced Analyticsによるシ ステムの強化) 1 35 NEC Corporation 2017 事例 Real-Time Streaming Analytics Model (Stream Analyticsによるシステ ムの強化) 2 3 4 Data-Driven Transformation Model ( Hub & Spoke Analytics による新たなビジネス機会 の発見)

DPH 導入前 36 NEC Corporation 2017

DPHの導入 Step1 既存のETL処理のオフロード Export 37 NEC Corporation 2017 事例

DPHの導入 Step2 リアルタイムデータの処理への組み込み Export New Insight 38 NEC Corporation 2017 事例

DPHの導入 Step3 蓄積データを価値化する分析 学習機構の導入 Analytic Tool Export Analytic Learning Logic 39 NEC Corporation 2017 事例

パートナーソリューション連携 VUPICO社 SAP HANA/Vora ソリューション ヒストリカルデータとリアルタイムデータをシームレスに関連付けて高 速分析できる End-to-End ソリューションを実現 40 NEC Corporation 2017

パートナーソリューション連携 : Syncsort 社 DMX-h ソリューション Hadoop と連携する高速 ETL エンジンを活用し 従来の構造化データと IoT など新しいソースの非構造化データをコスト効率よく蓄積 分析 データソース ETL ホットデータの高速処理 可視化分析 業務データ RDBMS EDW MPP メインフレーム システムログ SNS Syncsort DMX-h EDW Data Platform for Hadoop MS Excel Tableau SAS 位置データ など センサーデータ 長期データ蓄積 41 NEC Corporation 2017

パートナーソリューション連携 : IBM データ分析ソリューション ソリューション IBM Hortonworks とのパートナーシップに基づき IBM 社の Hadoop 向けデータ分析ミドルウェアを評価 42 NEC Corporation 2017

標準オペレーション開発の考え方 標準オペレーション プラットフォームと同様に運用におけるプロセスを標準化 サービスに利用するドキュメント / プロセス / ツールを標準開発 短期間で安定した成果を挙げるサービスとして提供 43 NEC Corporation 2017

DPH サービス : 構築サービス 標準オペレーション 標準化された構築サービスで導入期間を短縮 アプリケーションの開発と運用 プラットフォームの設計と導入 拡張性の設計 プラットフォームのテスト チューニング サイジング HW SW の選定 導プ入ラ期ッ間トのフ短ォ縮ーム品質の安定 アプリケーションの開発と運用 プラットフォームのの導入 データ活用設計 データ活用設計 個別 SI の場合 構築サービスを利用した場合 44 NEC Corporation 2017

4. NEC が重視していること

Center of Excellence for Analytics Platforms and Solutions インドにビッグデータ分析ソリューションの専門組織を設立 CoE : Center of Excellence 先端技術の知見や人材を集約した拠点 DPH関連ビジネスの客先提案 データ分析 運用サポート 技術支援 グローバル市場に対して一元的なサー ビスを提供 プレスリリース 2017年6月 46 NEC Corporation 2017

NEC Global Service の展開 プラットフォームの導入 ~ 運用において発生するイベントに対する支援を End to End で提供 Business Consulting Data Engineering and Analytics Modeling Market Research GTM Strategies Business Development Solution Identification and Design POC and Demos Product Design and Development Customization Solution Design System Integration Business Consulting Data Engineering and Analytics Modeling 47 NEC Corporation 2017