ウェビナー資料

Similar documents
Hortonworks Kitase

Joint Content Development Proposal Tech Docs and Curriculum

Power BI 最新情報と活用方法

SPA ETL Option Ver はじめにお読みください

Microsoft Azure Azure Microsoft Web Azure Microsoft Azure Azure IT Web (IoT) OS Docker Linux JavaScript Python.NET PHP Java Node.js Ruby ios Android W

Dr.Sum Connect Ver. 5.1 はじめにお読みください

IBM 次世代クラウド・プラットフォーム コードネーム “BlueMix”ご紹介

<Insert Picture Here>

DataSpider標準価格表_4.1 SP3用_2018年4月版

2018年2月版_標準価格表_DSS4.1SP2用

データセンターの効率的な資源活用のためのデータ収集・照会システムの設計

新サービス「Azure App Service」で変わる新しい Web/モバイル アプリケーション開発

2019年4月版_標準価格表_DSS4.2SP1用

PowerPoint プレゼンテーション

MotionBoard総合カタログ Ver.5.5

PowerPoint プレゼンテーション

Microsoft Azure Azure

intra-mart Accel Platform — OData for SAP HANA セットアップガイド   初版  

内容 Visual Studio サーバーエクスプローラで学ぶ SQL とデータベース操作... 1 サーバーエクスプローラ... 4 データ接続... 4 データベース操作のサブメニューコンテキスト... 5 データベースのプロパティ... 6 SQL Server... 6 Microsoft

Informatica Enterprise Data Catalog

クラウド時代のインフラ構成/変更管理とコンプライアンス管理

Dr.Sum Connect Ver. 5.0 はじめにお読みください

Oracle SQL Developer Data Modeler

PowerPoint プレゼンテーション

iNFUSE インフューズ

Server and Cloud Platform template

マイクロソフトが提供するAI関連サービスとその最新事例

How to Use the PowerPoint Template

PassSureExam Best Exam Questions & Valid Exam Torrent & Pass for Sure

Informatica Cloud Connectors - Spring リリースノート - (Japanese)

intra-mart Accel Platform

Oracle GoldenGate for Big Data

FUJITSU Cloud Service A5 for Microsoft Azure サービス仕様書

Oracle SQL Developerの移行機能を使用したOracle Databaseへの移行

Agenda Hadoop Sahara Kilo Q&A Copyright 2015 Mirantis, Inc. All rights reserved Page 2

スピーカースライド作成前の確認シート例

Microsoft Azure Microsoft Corporation Global Blackbelt Sales Japan OSS TSP Rio Fujita

untitled

意外と簡単!? Oracle Database 11g -バックアップ・リカバリ編-

新しい 自律型データ ウェアハウス

アーカイブ機能インストールマニュアル

データ連携がこんなに簡単に!?Oracle Data Integratorのご紹介

MS SQL の Point-in-Time リストア A - - v6.5 Update4 以降サポート Active Directory 詳細レベルリストア A A A v5 Update2 以降サポート 小さいパーティションへのBMR A A A v5 Update2 以降サポート リモートレ



Windows Azure Microsoft Azure 登 場 本 セッションはここ!! 2

ご利用のコンピュータを設定する方法 このラボの作業を行うには 事前設定された dcloud ラボを使用するか 自身のコンピュータをセットアップします 詳細については イベントの事前準備 [ 英語 ] とラボの設定 [ 英語 ] の両方のモジュールを参照してください Python を使用した Spar

ZCBクイックスタートガイド

PowerPoint Presentation

Windows Azure Platform: その全体像 David Chappell Chappell & Associates Copyright 2009 David Chappell

すぐに使える!Essbase キューブ開発テクニック集

— intra-mart Accel Platform セットアップガイド (WebSphere編)   第7版  

ハピタス のコピー.pages

Copyright 2008 All Rights Reserved 2

相続支払い対策ポイント

150423HC相続資産圧縮対策のポイント

PowerPoint Presentation

PowerPoint プレゼンテーション

win2linux_1022

Microsoft Azure

PowerPoint プレゼンテーション

印刷アプリケーションマニュアル

データベースの近代化:シンプルなクロスプラットフォーム、最小のダウンタイムで実現するクラウド移行

PowerPoint Presentation

ER/Studio Data Architect 2016 の新機能

Transforming Data Management

APEX Spreadsheet ATP HOL JA - Read-Only

XML Consortium 2009/5/8 XML Consortium Enterprise2.0 アプリを支えるクラウド基盤としての Windows Azure XML コンソーシアム Web 2.0 部会 日立ソフト宮崎昭世 Microsoft MVP for Development Pl

PowerPoint プレゼンテーション

目次 1. Azure Storage をインストールする Azure Storage のインストール Azure Storage のアンインストール Azure Storage を使う ストレージアカウントの登録... 7

無料セミナー資料:ビッグデータ管理基盤ソフトウェアHadoop入門

Dataspider Cloud 製品カタログ

3 4 SAP HANA 5 6 SAP HANA Xeon E7 v3 SAP HANA 6 8 OLTP OLAP 1 9 SAP S/4HANA SAP HANA Studio 13 14

Arcserve UDP バージョン比較 (Rev: 4.0) 2019 年 5 月作成 凡例 ( A : Advanced 以上 P : Premium 以上 PP : Premium Plus SS : 専用サブスクリプション -: 機能なし ) Release Version 機能 7.0 v

Dataspider Cloud

AWS 認定 DevOps エンジニア - プロフェッショナルサンプル試験問題 1) あなたは Amazon EBS ボリュームを使用する Amazon EC2 上で実行されているアプリケーションサーバ ー向けに 自動データバックアップソリューションを導入する業務を担当しています 単一障害点を回避し

スライド 1

Compliance Guardian 3 SP3 Release Notes

A bridge to the Cloud Damien Contreras ダミアン コントレラ Customer Engineer Specialist, Data Analytics, Google Cloud

IBM DataWorks ソリューション ブリーフ IBM DataWorks クラウド上でシンプルかつ強力にデータの準備と移動を行う統合ソリューション 特長 ユーザーが技術者である場合もそうでない場合も 迅速かつ簡単にデータから価値を創出できます クラウド上でシンプルにデータの準備および移動を行

本書の説明 本書は ConMas i-reporter の外部システムとの連携について 標準パッケージの機能で可能なことと オプション機能 : 外部連携 API セットで可能なこと について 概要をまとめたものです Copyright 2015 CIMTOPS CORPORATION - All R

intra-mart EX申請システム version.7.2 PDFオプション リリースノート

Maser - User Operation Manual

intra-mart EX申請システム version.5.3 PDFオプション リリースノート

プロダクトシート Syncsort DMX-h ビッグデータの統合をシンプルに モダンデータアーキテクチャの目標 データウェアハウスおよびメインフレームは従来のデータアーキテクチャにおける中核であり 現在でも重要な役割を担っています しかし データ量の急増に対処したり 企業で分析が必要な多くの新しい

産業ロボット 2007 の 3% のコスト DNA 塩基配列決定法 2007 の 0.01% のコスト 3D プリンタ, $ の 1% のコスト ドローン, $ の 1% のコスト メディア通信小売と消費財金融サービス自動車ヘルスケア製造公的機関 太陽光 1983 の

スピーカースライド作成前の確認シート例

PowerPoint プレゼンテーション

untitled

PowerPoint Presentation

アーカイブ機能インストールマニュアル

_02-5.ppt

FileMaker Server Getting Started Guide

雲の中のWebアプリケーション監視術!~いまなら間に合うクラウド時代の性能監視入門~

Magicians Meeting Tokyo, Japan October 2018

ITdumpsFree Get free valid exam dumps and pass your exam test with confidence

Database Lift & Shift

スライド 1

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

データマネジメントを取り巻く IT の課題 大規模データの実践的活用に向けて レッドハット株式会社 Senior Solution Architect and Cloud Evangelist 中井悦司 2012/04/13 version1.0

Transcription:

Data Factory V2 新機能徹底活用入門 クラウドコンサルティング事業部 藤川佳祐 Copyright 2017-2020 System Support Inc. All rights reserved.

自己紹介 藤川佳祐 (Keisuke Fujikawa) 株式会社システムサポート所属 略歴 フリーペーパー編集営業 アプリケーションエンジニア (C#, Ruby) ソーシャルゲーム運営 データベースエンジニア (Oracle) 現在はを中心としたクラウドエンジニア Copyright 2017-2020 System Support Inc. All rights reserved. 2

本日のゴール Data Factory V2 の新機能を 覚えて帰ってください! のマークがついている箇所は V2 になって新たに追加された機能の説明箇所です Copyright 2017-2020 System Support Inc. All rights reserved. 3

本日の流れ オンプレ環境上の各データを 上の分析基盤に集約するワークフローを作成するデモを交えて V2 新機能を紹介します On-Premises データ変換 フラットファイル Storage SQL Database DB Blob ファイル Copyright 2017-2020 System Support Inc. All rights reserved. 4

Data Factory とは? Copyright 2017-2020 System Support Inc. All rights reserved. 5

Data Factory とは? Microsoft が提供するパブリッククラウド 環境上で利用できるフルマネージドのデータ統合 (ETL) サービス オンプレミス クラウドと環境を問わない各種データソースからのデータロード 加工 出力を管理でき データ統合を支援するツール 2018 年 6 月末に Version 2 が GA となった Copyright 2017-2020 System Support Inc. All rights reserved. 6

接続できるデータソース データソースとして接続できる環境は約 70 種以上 (2018 年 8 月時点 ) Copyright 2017-2020 System Support Inc. All rights reserved. 7

V1 時代の困りごと ( 注 : 筆者の個人的感想 ) アクティビティ失敗時の制御ができない! 繰り返し処理や条件分岐等の細やかな制御ができない! スケジュール実行 即時実行しか対応していない! データ加工するためには HDInsight か C# でカスタムするしかない! GUI が使いづらいしパイプラインのデバッグがしずらい!!!!! Copyright 2017-2020 System Support Inc. All rights reserved. 8

Data Factory を理解するためのキーワード 統合ランタイム リンクされたサービス データセット アクティビティ パイプライン トリガー - Integration Runtime - LinkedService - DataSet - Activity - Pipeline - Trigger Copyright 2017-2020 System Support Inc. All rights reserved. 9

統合ランタイム セルフホステッド統合ランタイム -SSIS 統合ランタイム 統合ランタイム Copyright 2017-2020 System Support Inc. All rights reserved. 10

セルフホステッド統合ランタイム オンプレ環境上のデータに接続する統合ランタイム Windows 環境上で起動するサービス V1で言うところの Data Management Gateway 複数ノードを関連付けてスケールアウトすることが可能 On-Premises Srv フラットファイル Storage SQL Database DB Blob ファイル Copyright 2017-2020 System Support Inc. All rights reserved. 11

-SSIS 統合ランタイム SQL Server Integration Services( 以後 SSIS) パッケージ実行専用ランタイム SSIS パッケージ実行専用の VM スケールアップ スケールアウトが可能 On-Premises Srv フラットファイル Storage SQL Database DB Blob ファイル Copyright 2017-2020 System Support Inc. All rights reserved. 12

統合ランタイム 環境上のデータに接続する統合ランタイム 内で完全に管理されたサーバーレスコンピューティングであり 自動スケールがサポートされている On-Premises Srv フラットファイル Storage SQL Database DB Blob ファイル Copyright 2017-2020 System Support Inc. All rights reserved. 13

リンクされたサービス データセット Copyright 2017-2020 System Support Inc. All rights reserved. 14

リンクされたサービス (LinkedService) 各データソースへの接続情報 On-Premises Srv フラットファイル Storage SQL Database DB Blob ファイル Copyright 2017-2020 System Support Inc. All rights reserved. 15

データセット (DataSet) データストア ( 入力 出力データ ) のデータ構造に関する情報 On-Premises Srv フラットファイル Storage SQL Database DB Blob ファイル Copyright 2017-2020 System Support Inc. All rights reserved. 16

アクティビティ Copyright 2017-2020 System Support Inc. All rights reserved. 17

アクティビティ (Activity) データに対して実行するアクションの定義 データ移動アクティビティ オンプレミスにあるデータストアやクラウド内のデータストアの間でデータコピーを実施 データ変換アクティビティ HDInsight クラスターや Batch などのコンピューティング環境を利用してデータセットの変換および処理を実施 オンデマンドの HDInsight Spark クラスターの作成がサポートされた SSIS を利用したデータ変換 処理が可能となった 制御アクティビティ パイプライン内の繰り返し制御 カスタム REST エンドポイントを呼び出し 任意データのメタデータ取得 条件分岐等を制御する Copyright 2017-2020 System Support Inc. All rights reserved. 18

制御アクティビティ 繰り返し処理条件分岐メタデータ データ取得 ForEach, do-until 構文のようにパイプライン内の繰り返し制御を定義可能 指定条件の評価 (true/false) を判定し後続アクティビティを実行 入力データセットの各種メタ情報 データ内容を読み取り後続に引き渡す Web パイプライン実行待機処理 カスタム REST エンドポイントを呼びだし 他サービスと連携が可能 パイプラインから別のパイプラインの呼び出しが可能 指定した期間待った後 後続のアクティビティの実行を続行 Copyright 2017-2020 System Support Inc. All rights reserved. 19

アクティビティ例 1 データコピー オンプレ環境上の各データを BlobStorage に転送 セルフホステッド IR を中継してオンプレ環境上のファイルシステムに格納されたフラットファイル DB のテーブルに格納されたデータを BlobStorage に転送する On-Premises Srv フラットファイル Storage SQL Database DB Blob ファイル オンプレ to データコピーデータ変換 To DWH データコピー Copyright 2017-2020 System Support Inc. All rights reserved. 20

アクティビティ例 2 データ変換 BlobStorage に転送されたデータを変換 加工 -SSIS 統合ランタイムにあらかじめデプロイ済みの SSIS パッケージを実行し 指定のファイルをデータ変換 加工 On-Premises Srv フラットファイル Storage SQL Database DB Blob ファイル オンプレ to データコピーデータ変換 To DWH データコピー Copyright 2017-2020 System Support Inc. All rights reserved. 21

アクティビティ例 3 データコピー (EventTrigger 利用 ) BlobStorage 上のデータを SQL Database に転送 統合ランタイムを介して データ加工済みの各ファイルを SQL Database の指定テーブルにインポート EventTrigger を利用し Blob ファイル追加時にパイプラインが起動するよう設定 On-Premises Srv フラットファイル 指定コンテナに Blob が追加されたことを検知 Storage SQL Database DB Blob ファイル オンプレ to データコピーデータ変換 To DWH データコピー Copyright 2017-2020 System Support Inc. All rights reserved. 22

アクティビティ例 4 制御 (WEB アクティビティによるメール送信 ) データコピーに失敗した場合 エラー情報をメール通知 WEB アクティビティよりメール送信 API を利用してエラー情報をメール送信する On-Premises Srv フラットファイル Storage データコピー失敗 SQL Database DB Blob ファイル オンプレ to データコピーデータ変換 To DWH データコピー Copyright 2017-2020 System Support Inc. All rights reserved. 23

パイプライン Copyright 2017-2020 System Support Inc. All rights reserved. 24

パイプライン (Pipeline) 複数のタスクを連携して実行するアクティビティの論理的グループ 今回のデモでは 2 種類のパイプラインを作成 1. オンプレ環境の各種データをBlobストレージにコピーしデータ加工 2. 加工済ファイルをSQLDatabaseに格納する ( 失敗時はメール通知 ) On-Premises Srv フラットファイル Storage DB Blob ファイル オンプレ to データコピーデータ変換 To DWH データコピー Copyright 2017-2020 System Support Inc. All rights reserved. 25

パイプライン (Pipeline) 複数のタスクを連携して実行するアクティビティの論理的グループ 今回のデモでは2 種類のパイプラインを作成 1. オンプレ環境の各種データをBlobストレージにコピーしデータ加工 2. 加工済ファイルをSQLDatabaseに格納する ( 失敗時はメール通知 ) On-Premises Srv フラットファイル Storage データコピー失敗 SQL Database DB Blob ファイル オンプレ to データコピーデータ変換 To DWH データコピー Copyright 2017-2020 System Support Inc. All rights reserved. 26

トリガー Copyright 2017-2020 System Support Inc. All rights reserved. 27

トリガー パイプラインの実行をいつ開始する必要があるかを決定する処理単位 スケジュール 実時間のスケジュールによってパイプラインを起動するトリガー 定期的 および特定の日時 曜日 ( 例 : 月曜日午後 5 時と木曜日午後 9 時 ) にパイプラインを実行したい際に使用 タンブリングウィンドウ 状態を保持しながら定期的に実行されるトリガー 一定間隔 ( 例 :15 分間隔 ) でパイプラインを実行したい際に使用 イベントベース イベントに応答するトリガー Blob Storage 上へのファイル追加 / 削除イベントに応答してパイプラインを実行したい際に使用 Copyright 2017-2020 System Support Inc. All rights reserved. 28

Data Factory を理解するためのキーワード 統合ランタイム リンクされたサービス データセット アクティビティ パイプライン トリガー - Integration Runtime - LinkedService - DataSet - Activity - Pipeline - Trigger Copyright 2017-2020 System Support Inc. All rights reserved. 29

Demo On-Premises Srv フラットファイル Storage データコピー失敗 SQL Database DB Blob ファイル オンプレ to データコピーデータ変換 To DWH データコピー Copyright 2017-2020 System Support Inc. All rights reserved. 30

V1 と V2 の比較 ( まとめ ) Copyright 2017-2020 System Support Inc. All rights reserved. 31

V1 時代の困りごと ( 注 : 筆者の個人的感想 ) アクティビティ失敗時の制御ができない! 繰り返し処理や条件分岐等の細やかな制御ができない! スケジュール実行 即時実行しか対応していない! データ加工するためには HDInsight か C# でカスタムするしかない! GUI が使いづらいしパイプラインのデバッグがしずらい!!!!! Copyright 2017-2020 System Support Inc. All rights reserved. 32

V1 V2 アップデート アクティビティ失敗時の制御ができない! アクティビティ成功 / 失敗 / 完了 / スキップ時の分岐制御追加 繰り返し処理や条件分岐等細やかな制御ができない! 制御フローアクティビティの追加 スケジュール実行 即時実行しか対応していない! EventTrigger の追加 データ加工するためには HDInsight か C# でカスタムするしかない! SSIS パッケージ実行アクティビティの追加 GUI が使いづらいしパイプラインのデバッグがしずらい!!!!! GUI の改善 パイプラインデバッグ機能の追加 Copyright 2017-2020 System Support Inc. All rights reserved. 33

Appendix Copyright 2017-2020 System Support Inc. All rights reserved. 34

アクティビティ一覧 分類 アクティビティ名 概要 Batch Service Custom 指定スクリプト (shell, exe 等 ) を Batch プール上で実行する Databricks Notebook DatabricksワークスペースでDatabricks Notebookを実行する Databricks Jar DatabricksクラスターでSpark Jarを実行する Databricks Python DatabricksクラスターでPythonファイルを実行する Data Transformation Copy Data 入力データソースを出力先データソースにファイル転送する Data Lake Analytics U-SQL Data Lake Analytics コンピューティングリンクサービスで U-SQL スクリプトを実行する General Execute Pipeline 指定パイプラインを実行する General Get Metadata 入力データセットのメタデータを取得する General Lookup 入力データソースの構成ファイルやテーブルの内容を読み取る General Execute SSIS Package SSISパッケージを実行する General Stored Procedure 指定 DBのストアドプロシージャを実行する General Web カスタム REST エンドポイントを呼び出す (GET, POST, PUT, DELETEが実行可能 ) General Wait 指定時間待機する HDInsight Hive HDInsightクラスターでHiveクエリを実行する HDInsight MapReduce HDInsightクラスターでMapReduceプログラムを実行する HDInsight Pig HDInsightクラスターでPigクエリを実行する HDInsight Spark HDInsightクラスターでSparkプログラムを実行する HDInsight Streaming HDInsightクラスターでHadoop Streaming プログラムを実行する Iteration & Conditionals Filter 入力データセットに対してフィルター処理を行う Iteration & Conditionals ForEach 入力データセットに対して繰り返し処理 (forループ) を行う Iteration & Conditionals If Condition 入力データセットに対して条件分岐処理を行う Iteration & Conditionals Until 入力データセットに対して繰り返し処理 (do-untilループ) を行う Machine Learning ML Batch Execution ML Web サービスを呼び出して データの予測を実施する Machine Learning ML Update Resource スコア付け Web サービス (Web サービスとして公開した予測実験 ) を 新しくトレーニングを行ったモデルで更新する Copyright 2017-2020 System Support Inc. All rights reserved. 35

各種制限 Resource 既定の制限 上限 サブスクリプション内の Data Factory 50 サポート問合せ データファクトリ内のエンティティ ( パイプライン データセット トリガー リンクされたサービス 統合ランタイム ) の合計数 5,000 サポート問合せ 1 つのサブスクリプションでの -SSIS Integration Runtime の CPU コアの合計 128 サポート問合せ パイプラインあたりの同時実行パイプラインの実行数 100 サポート問合せ データファクトリあたりの同時実行パイプラインの実行数 10,000 サポート問合せ パイプラインあたりの最大アクティビティ数 ( コンテナーの内部アクティビティを含む ) 40 40 パイプラインあたりの最大パラメーター数 50 50 ForEach 項目数 100,000 100,000 ForEach 並列処理 20 50 式ごとの文字数 8,192 8,192 最小タンブリングウィンドウトリガー間隔 15 分 15 分 パイプラインのアクティビティ実行の最大タイムアウト 7 日 7 日 パイプラインオブジェクトのオブジェクトあたりのバイト数 1 200 KB 200 KB データセットとリンクされたサービスオブジェクトのオブジェクトあたりのバイト数 1 100 KB 2,000 KB コピーアクティビティの実行 1 回あたりのデータ統合単位 3 256 サポート問合せ API 呼び出しの書き込み 2,500/ 時 サポート問合せ API 呼び出しの読み取り 12,500/ 時 サポート問合せ https://docs.microsoft.com/ja-jp/azure/azure-subscription-service-limits#data-factory-limits Copyright 2017-2020 System Support Inc. All rights reserved. 36

接続可能データソース一覧 (2018 年 8 月時点 ) DB NoSQL ファイル 汎用プロトコル サービスとアプリ Blob Storage Amazon Redshift Cassandra Amazon S3 汎用 HTTP Amazon Marketplace Web Service ( プレビュー ) Cosmos DB DB2 Couchbase ( プレビュー ) ファイルシステム汎用 OData Common Data Service for Apps Data Lake Storage Gen1 Drill ( プレビュー ) MongoDB FTP 汎用 ODBC Concur ( プレビュー ) Data Lake Storage Gen2 ( プレビュー ) Google BigQuery HDFS Dynamics 365 Database for MySQL Greenplum SFTP Dynamics CRM Database for PostgreSQL HBase GE Historian File Storage Hive HubSpot ( プレビュー ) SQL Database Apache Impala ( プレビュー ) Jira ( プレビュー ) SQL Data Warehouse Informix Magento ( プレビュー ) Search インデックス MariaDB Marketo ( プレビュー ) Table Storage Microsoft Access Oracle Eloqua ( プレビュー ) MySQL Oracle Responsys ( プレビュー ) Netezza Paypal ( プレビュー ) Oracle QuickBooks ( プレビュー ) Phoenix Salesforce PostgreSQL Salesforce Service Cloud Presto ( プレビュー ) Salesforce Marketing Cloud ( プレビュー ) SAP Business Warehouse SAP Cloud for Customer (C4C) SAP HANA SAP ECC Spark ServiceNow SQL Server Shopify ( プレビュー ) Sybase Square ( プレビュー ) Teradata Web テーブル (HTML テーブル ) Vertica Xero ( プレビュー ) Zoho ( プレビュー ) https://docs.microsoft.com/ja-jp/azure/data-factory/copy-activity-overview#supported-data-stores-and-formats Copyright 2017-2020 System Support Inc. All rights reserved. 37