はじめに AWS Glueは現在Preview中のサービスです本資料に記載した内容はGA 正式リリースまでに予告なく変更される可能性があります Twitterのハッシュタグはです 2

AWS Solution Days 2017 AWS DB Day ETL をサーバーレスで実現する新サービス AWS Glue のご紹介 2017年7月5日アマゾンウェブサービスジャパンソリューションアーキテクト下佐粉昭 @simosako 1

自己紹介下佐粉昭しもさこあきら Twitter - @simosako 所属アマゾンウェブサービスジャパン技術統括本部エンタープライズソリューション部ソリューションアーキテクト好きなAWSサービス:Redshift, RDS, S3 人間が運用等から解放されて楽になるサービスが好きです 3

アジェンダデータレイクを中心とした大規模データ分析基盤クラウド上のETL - AWS Glue AWS Glueの機能まとめ 4

データレイクを中心とした大規模データ分析基盤 5

大規模データ分析 on クラウド ①データをデータレイクに集め多様な分析につなげる ②分析はスケールアウト可能なインフラの上で実現データを収集しデータレイクへ格納 6 データレイク分析保存スケールアウト可能な技術全期間保存共通APIでアクセス API 収集分析スケールアウト可能な技術可視化可視化

データレイク多様なデータを一元的に保存センサーデータ RDBMS 非構造化ファイルテキストファイルデータを失わないデータレイクサイズ制限からの開放決められた方法 API ですぐにアクセスできる 7 API呼び出しによる連携

Amazon S3によるデータレイクの実現上限無しサイジング不要高い耐久性 99.999999999% 安価センサーデータ RDBMS 非構造化ファイルテキストファイル Amazon S3 $0.025/GB/月* スタンダード $0.019/GB/月* 標準-低頻度アクセス例 10TBの保存で約2.1万円/月** データレイク APIアクセス 8 多様な言語にライブラリを提供 AWS各種サービスと連携 Amazon EMR Hadoop Amazon Redshift Amazon API Gateway * 費用は2017年7月時点での東京リージョンでの価格です ** 1USドル = 110円で標準-低頻度アクセスでの試算 Amazon Machine Learning

スケールアウトが鍵スケールアップもスケールアウトもクラウドでは容易しかしスケールアップには限界がある CPU メモリスケールアウト可能なテクノロジー規模の増加に耐えうる設計 9 スケールアップ XL S スケールアウト

スケールアウト高価クラウドではスケールアウトがコスト時間の両面で効率的必要な時に必要なだけノードを追加できるノードを増やしても利用時間が短くなればコストは同じ JOB JOB 16ノードに拡張処理時間 8時間 10 4ノード 8時間 32 処理時間 2時間 16ノード 2時間 32

スケールアウト可能な分析サービスマネージド, 標準技術, スケールアウトが選択の鍵 11 Amazon Redshift Amazon EMR Amazon Athena マネージドマネージド DWH(RDB) マネージド Hadoop/Spark環境マネージドクエリ環境標準デファクトスタンダード技術 SQL標準 Hadoop/Spark デファクト SQL標準スケールアウトユーザ操作でスケールアウトユーザ操作でスケールアウト自動的にスケールアウト

全体図 ( 組み合わせ例 ) 1データをデータレイクに集め多様な分析につなげる 2 分析はスケールアウト可能なインフラの上で実現 3データソースからの収集やプリプロセス (ETL) は? 収集? プリプロセス? データレイク Amazon S3 Redshift 分析分析可視化 QuickSight BI+EC2 全データ変形済 12 Athena

クラウド上の ETL AWS Glue 13

AWS Glue Preview AWS上のETL(Extract, Transform and Load)サービス巨大データへのETL処理を... スケールアウトで対応サーバレスで提供 https://aws.amazon.com/jp/glue/ 14

Glueはスケールアウト処理を実現ベース技術にSparkを採用大規模データに対し自動的にスケールアウトスケールアウトのための設計が不要 15 JOB

サーバレスのジョブ実行サーバレスサーバ管理を意識しないで利用できるサービスプロビジョンコンフィグパッチ等が不要に処理に掛かったリソースのみへの支払い利用費用については未定であり変更の可能性があります 16

ビッグデータ処理もサーバレスで実現可能にサーバレス = より分析に集中しやすい環境を実現全ての分析がサーバレスで実現できるわけではありません適材適所の配置が重要ですプリプロセス AWS Glue 収集 AWS Glue データレイク Amazon S3 分析可視化全データ変形済 Amazon Athena Amazon QuickSight 17

Amazon EMRとAWS Glue 18 Amazon EMR AWS Glue 用途汎用Hadop/Spark環境 ETL処理に特化 Sparkベーススケールアウト可能ユーザ設計可能自動判断サーバ管理数クリックで指定した環境が準備されるサーバの管理自体不要データレイク S3 への透過的なアクセス可能可能プログラミング環境 Hadoopエコシステム上の多様なアプリケーション PySparkでETL処理をカスタマイズ

AWS Glue の機能 19

AWS Glue 全体像データソースをクロールしメタデータを取得メタデータはデータカタログで管理メタデータを元にジョブを作成 PySpark) ジョブはサーバレスな環境で実行される 20

AWS Glueの構成要素 Hiveメタストア互換のデータソース用メタデータリポジトリテーブルデータ型パーティションフォーマットを推測するためにソースをクロールデータカタログ ETL処理のためのPythonコード(PySpark)を生成任意のIDEでコードを作成可能ジョブオーサリングオートスケール - 複数インスタンスでジョブを実行サーバレス - 利用したリソース分だけの支払いオーケストレーション 21

Glue データカタログデータセットの発見管理 22

Glue データカタログ (Data catalog) 表のメタデータをHiveメタストアで管理メタデータ列プロパティ型データロケーション URI 接続情報更新情報等クローラーによる自動チェックと登録 23

クローラーによるデータカタログの自動更新クローラーが自動的にスキーマを推測ファイルタイプを識別子どのような内容が含まれるのかを分類(Classifier)しスキーマとして抽出 Grokフィルタでカスタマイズ可能クローラーをスケジュール実行することで新しいデータやスキーマの変更を発見クローラーを使わず手動での登録も可能ログはCloudWatch Logsに出力 24

クロールする範囲接続 RDB RDBへの接続情報を定義ホスト名 ID パスワードセキュリティグループでアクセスを制限 S3 S3バケットを指定 IAMでアクセスを制限 25

クローラー対応データソース Amazon RDS Aurora, MySQL, MariaDB, PostgreSQL Amazon Redshift EC2上のRDBにJDBC接続 S3上のファイル CSV, Avro, JSON 26 等

標準Classifier 多様なClassifierを提供右表圧縮ファイルにも対応 27 ZIP (1アーカイブ 1ファイルのみ BZIP2 GZIP LZ4 Snappy (標準Snappy

補足カスタムClassifier GorkパターンでカスタムClassifierを作成可能 Grokパターンで表記できないものについてはカスタムパターン正規表現ベースで対応可能例 Grokパターン %{TIMESTAMP_ISO8601:timestamp} [%{MESSAGEPREFIX:message_prefix} ] %{CRAWLERLOGLEVEL:loglevel} : %{GREEDYDATA:message} 28

ジョブオーサリング使い慣れたツールで ETL ジョブのオーサリングコード開発 29

自動的なジョブコード生成データソースとターゲットを指定してETLジョブを定義 GUIで定義を決めるとPySparkのコードが出力される 30 基本的な処理のみであればコード編集不要

柔軟な処理を提供するGlue ETLスクリプト人間が読め編集し易いコードを出力 PySparkのライブラリを活用して高度なカスタマイズも可能任意のエディタで編集可能 31

開発者に優しいETLスクリプト生成されたコードはETL図に連動したアノテーションが人間が読める形で記載されている任意の開発環境で開発可能 AWSにはAWS CodeStar等の開発環境も 32

PySpark extensionと外部ライブラリ変換処理をPySparkのextension として用意済多彩な出力フォーマットに対応プログラム不要 PySparkコードライブラリで柔軟な処理 S3上に置いたPythonライブラリや Jarファイルを読み込み可能 33 transforms drop_fields join relationalize rename_field select_fields spigot split_fields split_rows unbox unnest write

オーケストレーション & リソース管理フルマネージドサーバレスのジョブ実行 34

ジョブの定義と実行作成したETLスクリプトを読み込んで実行 IAMロールで権限を設定ジョブの実行開始方法 APIコール手動トリガーリトライ制限の指定やパラメータを渡すことが可能実行ログやエラーログは CloudWatch Logsに出力 35

トリガージョブ開始のタイミング先行ジョブ完了時スケジュール API オンデマンド 36

サーバレスのジョブ実行環境サーバ管理や準備が不要インスタンスのワームプールジョブに必要なインスタンスが自動的に用意されるワームプール事前コンフィグ済のインスタンスフリートによりスタートアップに掛かる時間を削減 VPC内のリソースにアクセス可能 37 お客様VPC お客様VPC

ジョブ実行時のVPC内へのアクセスジョブインスタンスはVPC内に存在するように見える VPC内のリソースにアクセスするジョブの場合 38 ジョブインスタンスにはプライベートIPが付与インターネットへのアクセスが無いサブネットでも利用可能そのため S3にアクセスする場合はVPC Endpointの設定が必須

まとめ AWS Glue サーバレスなETL環境 Sparkベースのスケールアウト処理 PySparkを使ってジョブをカスタマイズ現在プレビュー中ぜひお試しください https://pages.awscloud.com/glue-sign-up-form.html 39

参考情報 AWS Glue ホームページ各種資料や動画等へのリンクがあります https://aws.amazon.com/jp/glue/ AWS Glue プレビューお申込み https://pages.awscloud.com/glue-sign-up-form.html 40

内容についての注意 41 本資料では2017年7月5日時点のサービス内容および価格についてご説明しています最新の情報はAWS公式ウェブサイト(http://aws.amazon.com)にてご確認ください資料作成には十分注意しておりますが資料内の価格とAWS公式ウェブサイト記載の価格に相違があった場合 AWS公式ウェブサイトの価格を優先とさせていただきます価格は税抜表記となっています日本居住者のお客様が東京リージョンを使用する場合別途消費税をご請求させていただきます AWS does not offer binding price quotes. AWS pricing is publicly available and is subject to change in accordance with the AWS Customer Agreement available at http://aws.amazon.com/agreement/. Any pricing information included in this document is provided only as an estimate of usage charges for AWS services based on certain information that you have provided. Monthly charges will be based on your actual use of AWS services, and may vary from the estimates provided.

はじめに AWS Glueは現在Preview中のサービスです 本資料に記載した内容はGA 正式リリース ま でに予告なく変更される可能性があります Twitterのハッシュタグは です 2

はじめに AWS Glueは現在Preview中のサービスです本資料に記載した内容はGA 正式リリースまでに予告なく変更される可能性があります Twitterのハッシュタグはです 2