AWS Glue - 開発者ガイド

Size: px

Start display at page:

Download "AWS Glue - 開発者ガイド"

こうごひらみね
6 years ago
Views:

1 AWS Glue 開発者ガイド

2 AWS Glue 開発者ガイド AWS Glue: 開発者ガイド Copyright 2018 Amazon Web Services, Inc. and/or its affiliates. All rights reserved. Amazon's trademarks and trade dress may not be used in connection with any product or service that is not Amazon's, in any manner that is likely to cause confusion among customers, or in any manner that disparages or discredits Amazon. All other trademarks not owned by Amazon are the property of their respective owners, who may or may not be affiliated with, connected to, or sponsored by Amazon.

3 AWS Glue 開発者ガイド Table of Contents AWS Glue とは... 1 AWS Glue が適している用途... 1 仕組み... 3 独立で実行されるサーバーレス ETL ジョブ... 3 概念... 4 AWS Glue の用語... 5 コンポーネント... 6 AWS Glue コンソール... 6 AWS Glue データカタログ... 6 AWS Glue クローラおよび分類子... 7 AWS Glue ETL オペレーション... 7 AWS Glue ジョブシステム... 7 半構造化されたスキーマをリレーショナルスキーマに変換する... 7 ご利用開始にあたって... 9 AWS Glue の IAM アクセス許可のセットアップ... 9 ステップ 1: AWS Glue サービスの IAM ポリシーを作成します... 9 ステップ 2: AWS Glue 用の IAM ロールを作成するステップ 3: AWS Glue にアクセスする IAM ユーザーにポリシーをアタッチするステップ 4: ノートブックの IAM ポリシーを作成するステップ 5: ノートブック用の IAM ロールを作成する VPC での DNS のセットアップデータストアにアクセスするための環境のセットアップ Amazon S3 における Amazon VPC エンドポイント JDBC データストアに接続するための VPC の設定開発エンドポイント用の環境の設定開発エンドポイント用にネットワークを設定するノートブックサーバー用の Amazon EC2 の設定コンソールのワークフローの概要認証とアクセスコントロール認証アクセスコントロールアクセス管理の概要 AWS Glue リソースおよびオペレーションリソース所有権についてリソースへのアクセスの管理ポリシー要素の指定 : アクション効果プリンシパルポリシーでの条件の指定アイデンティティベースのポリシー (IAM ポリシー ) を使用するコンソールのアクセス許可 AWS Glue での AWS 管理 ( 事前定義 ) ポリシー AWS Glue API のアクセス権限リファレンス関連トピック AWS Glue データカタログの入力 AWS Glue データカタログでテーブルを定義するテーブルパーティションコンソールでのテーブルの使用クローラを使用してテーブルを分類する AWS Glue データカタログでクローラを定義するクロール可能なデータストア包含パターンと除外パターンを使用するクローラを実行するとどうなるか Amazon S3 のフォルダはテーブルやパーティションとして作成されますか? クローラの設定クローラのスケジュール iii

4 AWS Glue 開発者ガイドコンソールでのクローラの使用データカタログでのデータベースの定義コンソールでデータベースを使用するクローラに分類子を追加する分類子を使用するタイミングカスタム分類子 AWS Glue の組み込み分類子カスタム分類子の書き込みコンソールでの分類子の操作データストアに接続を追加する接続が使用されるタイミング AWS Glue データカタログで接続を定義する VPC の JDBC データストアに接続するコンソールでの接続の操作 AWS CloudFormation テンプレートを使用したデータカタログの事前設定サンプルデータベースサンプルのデータベーステーブルパーティションサンプルの分類子サンプルの Amazon S3 クローラサンプルの接続サンプルの JDBC クローラ Amazon S3 に書き込む Amazon S3 のサンプルジョブ Amazon S3 に書き込む JDBC のサンプルジョブサンプルのオンデマンドトリガーサンプルのスケジュールされたトリガーサンプルの条件付きトリガーサンプルの開発エンドポイントジョブを作成するワークフローの概要ジョブの追加ジョブプロパティの定義組み込み変換コンソールでのジョブスクリプトの編集スクリプトの定義コンソールのスクリプト独自のカスタムスクリプトを提供するジョブのトリガースケジュールやイベントに基づいてジョブをトリガーするトリガータイプを指定するコンソールでのトリガーの使用開発エンドポイントの使用環境を管理する開発エンドポイントを使用する開発エンドポイントへのアクセスチュートリアルの前提条件チュートリアル : ローカル Zeppelin ノートブックチュートリアル : Amazon EC2 Zeppelin ノートブックチュートリアル : REPL シェルの使用チュートリアル : PyCharm Professional を使用するコンソールでの開発エンドポイント実行とモニタリング自動化ツールジョブとクローラの時間ベースのスケジュール cron 式ジョブのブックマーク CloudWatch イベントによる自動化 iv

5 AWS Glue 開発者ガイド CloudTrail を使用したログ記録 CloudTrail 内の情報 AWS Glue ログファイルトラブルシューティング AWS Glue トラブルシューティング情報の収集接続の問題のトラブルシューティングエラーのトラブルシューティングエラー : リソースを利用できませんエラー : VPC の subnetid に S3 エンドポイントまたは NAT ゲートウェイが見つかりませんでしたエラー : 必要なセキュリティグループのインバウンドルールエラー : 必要なセキュリティグループのアウトバウンドルールエラー : カスタム DNS 解決の失敗エラー : ロールにロール継承アクセス権限を付与する必要がある AWS Glue サービスが渡されているためジョブの実行に失敗しましたエラー : DescribeVpcEndpoints アクションが許可されていません VPC ID vpc-id を検証できませんエラー : DescribeRouteTables アクションが許可されていません VPC id (vpc-id) の Subnet Id (subnet-id) を検証できませんエラー : ec2:describesubnets の呼び出しに失敗しましたエラー : ec2:describesecuritygroups の呼び出しに失敗しましたエラー : AZ のサブネットが見つかりませんでしたエラー : 複数のサブネットまたは AZ のある接続リストのジョブ実行の例外エラー : JDBC ターゲットへの書き込み時のジョブ実行の例外エラー : Amazon S3 タイムアウトエラー : Amazon S3 アクセスが拒否されましたエラー : Amazon S3 アクセスキー ID が存在しませんエラー : s3a:// URI を使用して Amazon S3 にアクセスするときにジョブ実行が失敗しますエラー : ネットワークインターフェイスのプライベート DNS が見つかりませんエラー : 開発エンドポイントのプロビジョニングに失敗しましたエラー : ノートブックサーバー CREATE_FAILED エラー : ローカルノートブックの起動に失敗するエラー : ノートブック使用エラーエラー : クローラの実行に失敗しましたエラー : Athena データカタログのアップグレード AWS Glue の制限 ETL プログラミング一般情報特別なパラメータ形式オプションパーティションの管理入力ファイルのグループ化 Python での ETL プログラミング Python の使用拡張機能のリスト変換のリスト Python のセットアップ API の呼び出し Python ライブラリ Python サンプル PySpark 拡張機能 PySpark 変換 Scala での ETL プログラミング Scala の使用 Scala API リスト AWS Glue API Catalog API v

6 AWS Glue 開発者ガイドデータベーステーブルパーティション接続ユーザー定義関数 Athena カタログをインポートするクローラおよび分類子分類子クローラスケジューラ ETL スクリプトの自動生成データ型 CodeGenNode CodeGenNodeArg CodeGenEdge 場所 CatalogEntry MappingEntry オペレーション CreateScript (create_script) GetDataflowGraph (get_dataflow_graph) GetMapping (get_mapping) GetPlan (get_plan) ジョブ API ジョブジョブ実行トリガ DevEndpoint API データ型 DevEndpoint DevEndpointCustomLibraries オペレーション CreateDevEndpoint (create_dev_endpoint) UpdateDevEndpoint (update_dev_endpoint) DeleteDevEndpoint (delete_dev_endpoint) GetDevEndpoint (get_dev_endpoint) GetDevEndpoints (get_dev_endpoints) 共通データ型タグ DecimalNumber ErrorDetail PropertyPredicate ResourceUri 文字列パターン例外 AccessDeniedException AlreadyExistsException ConcurrentModificationException ConcurrentRunsExceededException CrawlerNotRunningException CrawlerRunningException CrawlerStoppingException EntityNotFoundException IdempotentParameterMismatchException InternalServiceException InvalidExecutionEngineException InvalidInputException vi

7 AWS Glue 開発者ガイド InvalidTaskStatusTransitionException JobDefinitionErrorException JobRunInTerminalStateException JobRunInvalidStateTransitionException JobRunNotInTerminalStateException LateRunnerException NoScheduleException OperationTimeoutException ResourceNumberLimitExceededException SchedulerNotRunningException SchedulerRunningException SchedulerTransitioningException UnrecognizedRunnerException ValidationException VersionMismatchException ドキュメント履歴 AWS の用語集 vii

8 AWS Glue 開発者ガイド AWS Glue が適している用途 AWS Glue とは AWS Glue は簡単でコスト効果の高い方法でデータの分類消去強化およびさまざまなデータストア間を確実に移動することができる完全マネージド型の ETL ( 抽出変換ロード ) サービスです AWS Glue は AWS Glue データカタログと呼ばれる中央メタデータリポジトリ Python または Scala コードを自動的に生成する ETL エンジン依存性の解決ジョブのモニタリングおよび再試行を処理する柔軟なスケジューラで構成されています AWS Glue はサーバーレスであるためセットアップまたは管理するインフラストラクチャはありません AWS Glue コンソールを使用してデータを検出変換し検索とクエリに使用できるようにする方法について説明しますコンソールは基盤となるサービスを呼び出しデータ変換に必要な作業を調整します AWS Glue API オペレーションを使用して AWS Glue サービスとインターフェイスをとることもできます使い慣れた開発環境を使用して Python または Scala Apache Spark ETL コードを編集デバッグおよびテストします料金情報については AWS Glue の料金を参照してください AWS Glue が適している用途 AWS Glue を使用してデータウェアハウスを構築しデータを整理最適化検証フォーマットできます AWS クラウドのデータを変換しデータストアへ移動できますまた通常のレポートおよび分析のためにさまざまなソースからデータウェアハウスへデータをロードできますデータウェアハウスに保存することでビジネスのさまざまな部分の情報を統合し意思決定のためにデータの共通ソースを提供します AWS Glue によりデータウェアハウスの構築の際多くのタスクが簡素化されますデータストアに関するメタデータを検出および分類し一元的なカタログに保存しますクリックストリームやプロセスログなどの半構造化データを処理できますスケジュールされたクローラプログラムからのテーブル定義で AWS Glue データカタログが入力されますクローラが分類子ロジックを呼び出してデータのスキーマ形式データ型を推論しますこのメタデータはテーブルとして AWS Glue データカタログに保存され ETL ジョブの認証処理に使用されます ETL スクリプトを生成しソースからターゲットへデータを変換フラット化強化を行いますスキーマの変更を検出し設定に基づき調整しますスケジュールやイベントに基づいて ETL ジョブをトリガーするジョブを自動的に開始してデータをデータウェアハウスに移動できますトリガーを使用してジョブ間の依存関係を作成できますランタイムメトリクスを収集しデータウェアハウスのアクティビティを監視しますエラーと再試行を自動的に処理しますジョブを実行するために必要に応じてリソースをスケーリングします AWS Glue を使用してサーバーレスクエリを Amazon S3 データレイクに対して実行できます AWS Glue で Amazon Simple Storage Service (Amazon S3) のデータを分類し Amazon Athena および Amazon Redshift Spectrum でクエリに利用できますクローラではメタデータは基盤となるデータと同期し続けます Athena と Redshift Spectrum は AWS Glue データカタログを使用して Amazon S3 データレイクを直接クエリできます AWS Glue では複数のデータサイロにロードすることなく 1 つの統一されたインターフェイスを通じてデータにアクセスし分析できます AWS Glue でイベント駆動型の ETL パイプラインを作成できます AWS Glue ETL ジョブを AWS Lambda 関数から呼び出すことで Amazon S3 で新しいデータが使用可能になるとすぐに ETL ジョブを 1

9 AWS Glue 開発者ガイド AWS Glue が適している用途実行できますまた ETL ジョブの処理の一環としてこのような新しいデータセットを AWS Glue データカタログに登録することもできます AWS Glue を使用してデータアセットを理解できますさまざまな AWS サービスを使用してデータを保存でき AWS Glue データカタログを使用してデータの統一されたビューを維持できます Data Catalog を表示して所有しているデータセットをすばやく検索および検出でき関連するメタデータを 1 つの中央リポジトリに維持できますまた Data Catalog は外部 Apache Hive メタストアのドロップインリプレースメントとしても機能します 2

10 AWS Glue 開発者ガイド独立で実行されるサーバーレス ETL ジョブ AWS Glue: この機能の説明 AWS Glue は他の AWS サービスを使用してデータウェアハウスを構築する ETL ( 抽出変換ロード ) ジョブをオーケストレーションします AWS Glue は API オペレーションを呼び出してデータの変換ランタイムログの作成ジョブロジックの保存およびジョブ実行をモニタリングするのに役立つ通知の作成を行います AWS Glue コンソールはこれらのサービスを管理アプリケーションに接続してお客様が ETL ワークの作成と監視に集中できるようにします管理およびジョブ開発のオペレーションはコンソールがお客様に代わって実行しますデータソースへのアクセスとデータウェアハウスへの書き込みを行うために認証情報と他のプロパティを AWS Glue に提供します AWS Glue はワークロードを実行するために必要なリソースのプロビジョニングおよび管理を行います AWS Glue が代わって行うため ETL ツールのインフラストラクチャを作成する必要はありませんリソースが必要な場合起動時間を削減するために AWS Glue はインスタンスのウォームプールからインスタンスを使用してワークロードを実行します AWS Glue では Data Catalog にあるテーブル定義を使用してジョブを作成しますジョブは変換を実行するプログラミングロジックを含むスクリプトで構成されますトリガーを使用しスケジュールに基づいてまたは指定されたイベントの結果としてジョブを開始しますターゲットデータが存在する場所およびターゲットに入力するソースデータを指定します入力により AWS Glue はデータをソースからターゲットに変換するのに必要なコードを生成します AWS Glue コンソールまたは API でスクリプトを提供してデータを処理することもできますトピック独立で実行されるサーバーレス ETL ジョブ (p. 3) AWS Glue の概念 (p. 4) AWS Glue コンポーネント (p. 6) 半構造化されたスキーマをリレーショナルスキーマに変換する (p. 7) 独立で実行されるサーバーレス ETL ジョブ AWS Glue は Apache Spark サーバーレス環境で ETL ジョブを実行します AWS Glue は独自のサービスアカウントでプロビジョニングして管理する仮想リソースでこれらのジョブを実行します AWS Glue は以下を実行するよう設計されていますお客様のデータを分離します伝送中と保管時のお客様のデータを保護します一時的な制限された認証情報を使用してまたはアカウント内の IAM ロールに対するお客様の同意を得てお客様のリクエストに応え必要な時だけお客様のデータにアクセスします ETL ジョブのプロビジョニング時に Virtual Private Cloud (VPC) にある入力データソースおよび出力データターゲットを提供しますまたデータソースおよびターゲットにアクセスするために必要な IAM ロール VPC ID サブネット ID およびセキュリティグループを提供します各タプル ( 顧客アカウント ID IAM ロールサブネット ID およびセキュリティグループ ) に AWS Glue は AWS Glue サービスアカウント内の他のすべての Spark 環境からネットワークおよび管理レベルで分離された新しい Spark 環境を作成します AWS Glue はプライベート IP アドレスを使用してサブネットで Elastic Network Interface を作成します Spark ジョブはこれらの Elastic Network Interface を使用してデータソースおよびデータターゲットにアクセスします Spark 環境内外へのまた Spark 環境内でのトラフィックは VPC およびネットワーキングポリシーにより管理されますただし 1 つ例外があり AWS Glue ライブラリに対する呼び出しは AWS Glue VPC 経由で AWS Glue API オペレーションにトラフィックをプロキシできますすべての 3

11 AWS Glue 開発者ガイド概念 AWS Glue API 呼び出しはログに記録されますそのためデータの所有者は監査ログをアカウントに配信する AWS CloudTrail を有効にすることで API アクセスを監査できます ETL ジョブを実行する AWS Glue 管理の Spark 環境は他の AWS サービスが従う同じセキュリティ実施方法で保護されていますそれらの実施方法は AWS のセキュリティプロセスの紹介ホワイトペーパーの AWS アクセスセクションを参照してください AWS Glue の概念次の図は AWS Glue 環境のアーキテクチャを示します AWS Glue でジョブを指定しデータソースからデータターゲットへのデータの抽出変換およびロード (ETL) に必要な作業を完了します通常は以下のアクションを実行しますクローラを指定し AWS Glue データカタログにメタデータテーブルの定義を入力しますデータストアでクローラを指定しクローラは Data Catalog のテーブル定義を作成しますテーブル定義に加えて AWS Glue データカタログには ETL ジョブを定義するために必要な他のメタデータが含まれていますこのメタデータを使用してデータを変換するジョブを定義できます AWS Glue はデータを変換するスクリプトを生成できますまたは AWS Glue コンソールまたは API でスクリプトを提供できますジョブをオンデマンドで実行するまたは指定したトリガーが発生すると開始するようにセットアップできますトリガーは時間ベースのスケジュールまたはイベントですジョブが実行されるとスクリプトはデータソースからデータを抽出しデータを変換してデータターゲットにロードしますスクリプトは AWS Glue の Apache Spark 環境で実行されます 4

12 AWS Glue 開発者ガイド AWS Glue の用語 Important AWS Glue のテーブルとデータベースは AWS Glue データカタログのオブジェクトですそれらにはメタデータが含まれデータストアからのデータは含まれません AWS Glue の用語 AWS Glue は複数のコンポーネントの相互作用に依存してデータウェアハウスのワークフローを作成および管理しています AWS Glue データカタログ AWS Glue の持続的なメタデータストア各 AWS アカウントには 1 つ AWS Glue データカタログがありますこれには AWS Glue 環境を管理するためのテーブル定義ジョブ定義およびその他の制御情報が含まれています表データを表すメタデータ定義データが Amazon Simple Storage Service (Amazon S3) ファイル Amazon Relational Database Service (Amazon RDS) テーブルまたは別の一連のデータのどこにあるとしてもテーブルはデータのスキーマを定義します AWS Glue データカタログのテーブルは列名データ型の定義および基本データセットに関するその他のメタデータで構成されていますデータのスキーマは AWS Glue のテーブル定義で表されます実際のデータはファイルまたはリレーショナルデータベーステーブルにあっても元のデータストアに残ります AWS Glue はファイルとリレーショナルデータベースのテーブルを AWS Glue データカタログに格納しますそれらは ETL ジョブを作成する際にソースおよびターゲットとして使用されますクローラデータストア ( ソースまたはターゲット ) に接続し分類子の優先順位リストを進行してデータのスキーマを判断し AWS Glue データカタログにメタデータテーブルを作成するプログラムです分類子データのスキーマを決定します AWS Glue は一般的なファイルタイプの分類子を提供します (CSV JSON AVRO XML など ) また JDBC 接続を使用する一般的なリレーショナルデータベース管理システムの分類子を提供します独自の分類子を記述するには grok パターンを使用するまたは XML ドキュメント内の行タグを指定します Connection データストアに接続するのに必要なプロパティが含まれていますデータベース AWS Glue の論理グループに分類される一連の関連付けられたテーブル定義ですジョブ ETL 作業を実行するために必要なビジネスロジックです変換スクリプトデータソースおよびデータターゲットで構成されますジョブ実行はスケジュールされたトリガーによりまたはイベントにトリガーされることで開始されます Script ソースからデータを抽出し変換しターゲットにロードするコード AWS Glue は PySpark または Scala スクリプトを生成します PySpark は ETL プログラミングの Python ダイアレクトです 5

13 AWS Glue 開発者ガイドコンポーネント Transform データを操作して別の形式にするために使用するコードのロジック Trigger ETL ジョブを開始しますトリガーはスケジュールされた時間またはイベントに基いて定義できます開発エンドポイントエンドポイントは AWS Glue スクリプトの開発およびテストに使用できる環境ですノートブックサーバー PySpark ステートメントを実行するために使用できるウェブベースの環境詳細については Apache Zeppelin を参照してください開発エンドポイントにノートブックサーバーをセットアップして PySpark ステートメントを AWS Glue 拡張機能で実行できます AWS Glue コンポーネント AWS Glue は抽出変換ロード (ETL) ワークロードを設定し管理するためのコンソールと API オペレーションを備えていますいくつかの言語に固有な SDK と AWS Command Line Interface (AWS CLI) を介して API オペレーションを使用できます AWS CLI の使用については AWS CLI Command Reference を参照してください AWS Glue は AWS Glue データカタログを使用してデータソース変換およびターゲットについてのメタデータを保存します Data Catalog は Apache Hive メタストアのドロップインリプレースメントです AWS Glue Jobs system はデータの ETL オペレーションの定義スケジューリングおよび実行のためのマネージド型インフラストラクチャを備えています AWS Glue API の詳細については AWS Glue API (p. 270) を参照してください AWS Glue コンソール AWS Glue コンソールを使用して ETL ワークフローを定義しオーケストレーションしますコンソールは AWS Glue データカタログおよび AWS Glue Jobs system のいくつかの API オペレーションを呼び出して次のタスクを実行しますジョブテーブルクローラ接続などの AWS Glue オブジェクトを定義しますいつクローラが実行するかをスケジュールしますジョブトリガーのイベントやスケジュールを定義します AWS Glue オブジェクトのリストを検索しフィルタリングします変換スクリプトを編集します AWS Glue データカタログ AWS Glue データカタログは永続的なメタデータストアです Apache Hive メタストアで行うのと同じように AWS クラウド上でメタデータの保存注釈付けおよび共有ができるマネージド型サービスです各 AWS アカウントには 1 つ AWS Glue データカタログがありますこれは均一なリポジトリを備えており異種システムがデータサイロのデータを追跡するためにメタデータを見つけて保存することができますまたそのメタデータを使用してデータのクエリや変換を行うことができます 6

14 AWS Glue 開発者ガイド AWS Glue クローラおよび分類子 AWS Identity and Access Management (IAM) ポリシーを使用して AWS Glue データカタログで管理されるデータソースへのアクセスを制御できますこれらのポリシーを使用することで社内の異なるグループが機密情報は保護しつつより広範な組織にデータを安全に発行できます IAM ポリシーにより場所に関係なくどのユーザーがどのデータへのアクセス権を持つかを明確にかつ一貫性を持って定義できますさらに Data Catalog はスキーマ変更の追跡データのリネージおよびデータアクセス制御のある包括的な監査およびガバナンス機能も備えていますデータが不適切に変更されたり誤って共有されることのないようにデータスキーマへの変更を監査してシステム間のデータの動きを追跡することができます AWS Glue データカタログの使用方法については AWS Glue データカタログの入力 (p. 50) を参照してください Data Catalog API を使用してプログラミングする方法については Catalog API (p. 275) を参照してください AWS Glue クローラおよび分類子 AWS Glue ではあらゆる種類のリポジトリにあるデータのスキャン分類スキーマ情報の抽出そのメタデータの AWS Glue データカタログへの自動保存ができるクローラを設定することもできますそこから ETL オペレーションをガイドするのに使用できますクローラおよび分類子の設定方法についてはクローラを使用してテーブルを分類する (p. 55) を参照してください AWS Glue API を使用してクローラおよび分類子をログラミングする方法についてはクローラおよび分類子 API (p. 311) を参照してください AWS Glue ETL オペレーション AWS Glue は Data Catalog のメタデータを使用してさまざまな ETL オペレーションを実行するために使用や変更ができる AWS Glue 拡張機能を備えた Scala または PySpark (Apache Spark 用の Python API) スクリプトを自動生成できますたとえば未加工データを抽出クリーンアップおよび変換してからその結果を別のリポジトリに保存してクエリと分析を行うことができますこのようなスクリプトは CSV ファイルをリレーショナル形式に変換し Amazon Redshift に保存する場合があります AWS Glue ETL 機能の使用方法の詳細については ETL スクリプトのプログラミング (p. 151) を参照してください AWS Glue ジョブシステム AWS Glue Jobs system は ETL ワークフローをオーケストレーションするためのマネージド型インフラストラクチャを提供しますデータを抽出したり変換したり異なる場所へ転送したりするのに使用するスクリプトを自動化するジョブを AWS Glue で作成できますジョブはスケジュールしたり連鎖させることができますまたは新しいデータの到着などのイベントによってトリガーすることができます AWS Glue Jobs system の使用の詳細については AWS Glue の実行とモニタリング (p. 135) を参照してください AWS Glue Jobs system API を使用したプログラミングについてはジョブ API (p. 333) を参照してください半構造化されたスキーマをリレーショナルスキーマに変換する半構造化データをリレーショナルテーブルに変換することが一般的です概念的には階層的なスキーマをリレーショナルスキーマに平坦化します AWS Glue はこの変換を臨機応変に実行できます 7

AWS Glue 開発者ガイド半構造化されたスキーマをリレーショナルスキーマに変換する通常半構造化されたデータにはデータ内のエンティティを識別するためのマークアップが含まれています固定されたスキーマのないネスト化されたデータ構造を持つことができます半構造化データの詳細については Wikipedia の半構造化データを参照してくださいリレーショナルデータは

15 AWS Glue 開発者ガイド半構造化されたスキーマをリレーショナルスキーマに変換する通常半構造化されたデータにはデータ内のエンティティを識別するためのマークアップが含まれています固定されたスキーマのないネスト化されたデータ構造を持つことができます半構造化データの詳細については Wikipedia の半構造化データを参照してくださいリレーショナルデータは行と列で構成されるテーブルで表されますテーブル間の関係はプライマリキー (PK) と外部キー (FK) の関係によって表すことができます詳細については Wikipedia のリレーショナルデータベースを参照してください AWS Glue はクローラを使用して半構造化データのスキーマを推測します次に ETL ( 抽出変換およびロード ) ジョブを使用してデータをリレーショナルスキーマに変換しますたとえば Amazon Simple Storage Service (Amazon S3) ソースファイルから Amazon Relational Database Service (Amazon RDS) テーブルに JSON データを解析できます AWS Glue がスキーマの違いを処理する方法を理解すると変換プロセスを理解するうえで役立ちますこの図は AWS Glue が半構造化スキーマをリレーショナルスキーマに変換する方法を示しています図は以下を示しています単一の値 A は直接リレーショナル列に変換されます値のペアである B1 および B2 は 2 つのリレーショナル列に変換されます子の X と Y を持つ C 構造は 2 つのリレーショナル列に変換されます配列 D[] は別のリレーショナルテーブルを指す外部キー (FK) 列のリレーショナル列に変換されます 2 番目のリレーショナルテーブルにはプライマリキー (PK) に加えてオフセットと配列の項目の値を含む列があります 8

16 AWS Glue 開発者ガイド AWS Glue の IAM アクセス許可のセットアップ AWS Glue の使用開始次のセクションでは概要を説明し AWS Glue のセットアップと使用の手順を示します AWS Glue の概念およびコンポーネントについては AWS Glue: この機能の説明 (p. 3) を参照してくださいトピック AWS Glue の IAM アクセス許可のセットアップ (p. 9) VPC での DNS のセットアップ (p. 24) データストアにアクセスするための環境のセットアップ (p. 25) 開発エンドポイント用の環境の設定 (p. 29) AWS Glue コンソールのワークフローの概要 (p. 32) AWS Glue の IAM アクセス許可のセットアップ AWS Identity and Access Management (IAM) を使用して AWS Glue によって使用されるリソースにアクセスするために必要なポリシーとロールを定義します次の手順では環境を設定するために必要な基本的なアクセス許可について説明しますビジネスニーズに応じてリソースへのアクセスを追加または削減できます 1. AWS Glue サービスの IAM ポリシーを作成する (p. 9) AWS Glue リソースへのアクセスを許可するサービスポリシーを作成します 2. AWS Glue の IAM ロールを作成する (p. 13) IAM ロールを作成し AWS Glue サービスポリシーと AWS Glue で使用される Amazon Simple Storage Service (Amazon S3) リソース用のポリシーをアタッチします 3. AWS Glue にアクセスする IAM ユーザーにポリシーをアタッチする (p. 14) AWS Glue コンソールにサインインする IAM ユーザにポリシーをアタッチします 4. ノートブックの IAM ポリシーを作成する (p. 20) 開発エンドポイント上のノートブックサーバーの作成に使用するノートブックサーバーポリシーを作成します 5. ノートブックの IAM ロールを作成する (p. 23) IAM ロールを作成しノートブックサーバーポリシーを添付しますステップ 1: AWS Glue サービスの IAM ポリシーを作成します Amazon S3 のオブジェクトにアクセスするなど別の AWS リソース上のデータにアクセスする操作の場合 AWS Glue にはユーザーの代わりにリソースにアクセスするためのアクセス許可が必要です AWS Identity and Access Management (IAM) を使用してアクセス権限を提供できます Note AWS 管理ポリシー AWSGlueServiceRole を使用する場合はこのステップをスキップできますこのステップでは AWSGlueServiceRole に似たポリシーを作成します AWSGlueServiceRole の最新バージョンは IAM コンソールにあります AWS Glue の IAM ポリシーを作成するにはこのポリシーは AWS Glue がこのポリシーを使用してロールを引き受ける際に必要となるアカウント内のリソースを管理する Amazon S3 アクションの一部を許可しますこのポリシーで指定されているリソースの中には Amazon S3 バケット Amazon S3 ETL スクリプト CloudWatch Logs Amazon EC2 9

17 AWS Glue 開発者ガイドステップ 1: AWS Glue サービスの IAM ポリシーを作成しますリソース用の AWS Glue で使用されるデフォルトの名前があります分かりやすいように AWS Glue はデフォルトで aws-glue-* のプレフィックスが付いた Amazon S3 オブジェクトをアカウント内のバケットに書き込みます 1. AWS マネジメントコンソールにサインインし IAM コンソール ( iam/) を開きます 2. 左のナビゲーションペインの [ ポリシー ] を選択します 3. [Create Policy] を選択します 4. [ ポリシーの作成 ] 画面で JSON 編集のためのタブに移動します次の JSON ステートメントを使用してポリシードキュメントを作成して [ ポリシーの確認 ] を選択します Note Amazon S3 リソースに必要なアクセス権限を追加しますアクセスポリシーのリソースセクションを必要なリソースだけに絞り込みたい場合があるかもしれません { "Version": " ", "Statement": [ { "Effect": "Allow", "Action": [ "glue:*", "s3:getbucketlocation", "s3:listbucket", "s3:listallmybuckets", "s3:getbucketacl", "ec2:describevpcendpoints", "ec2:describeroutetables", "ec2:createnetworkinterface", "ec2:deletenetworkinterface", "ec2:describenetworkinterfaces", "ec2:describesecuritygroups", "ec2:describesubnets", "ec2:describevpcattribute", "iam:listrolepolicies", "iam:getrole", "iam:getrolepolicy" ], "Resource": [ "*" ] }, { "Effect": "Allow", "Action": [ "s3:createbucket" ], "Resource": [ "arn:aws:s3:::aws-glue-*" ] }, { "Effect": "Allow", "Action": [ "s3:getobject", "s3:putobject", "s3:deleteobject" ], "Resource": [ "arn:aws:s3:::aws-glue-*/*", "arn:aws:s3:::*/*aws-glue-*/*" ] 10

18 AWS Glue 開発者ガイドステップ 1: AWS Glue サービスの IAM ポリシーを作成します } ] }, { }, { }, { } "Effect": "Allow", "Action": [ "s3:getobject" ], "Resource": [ "arn:aws:s3:::crawler-public*", "arn:aws:s3:::aws-glue-*" ] "Effect": "Allow", "Action": [ "logs:createloggroup", "logs:createlogstream", "logs:putlogevents" ], "Resource": [ "arn:aws:logs:*:*:/aws-glue/*" ] "Effect": "Allow", "Action": [ "ec2:createtags", "ec2:deletetags" ], "Condition": { "ForAllValues:StringEquals": { "aws:tagkeys": [ "aws-glue-service-resource" ] } }, "Resource": [ "arn:aws:ec2:*:*:network-interface/*", "arn:aws:ec2:*:*:security-group/*", "arn:aws:ec2:*:*:instance/*" ] 次の表はこのポリシーによって付与されたアクセス権限を示していますアクションリソース説明 "glue:*" "*" すべての AWS Glue API オペレーションを実行する権限を許可します "s3:getbucketlocation", "s3:listbucket", "s3:listallmybuckets", "s3:getbucketacl", "*" クローラジョブ開発エンドポイントノートブックサーバーからの Amazon S3 バケットの一覧表示を許可します 11

19 AWS Glue 開発者ガイドステップ 1: AWS Glue サービスの IAM ポリシーを作成しますアクションリソース説明 "ec2:describevpcendpoints", "ec2:describeroutetables", "ec2:createnetworkinterface", "ec2:deletenetworkinterface", "*" ジョブクローラ開発エンドポイントの実行時に VPC などの Amazon EC2 ネットワーク項目の設定を許可します "ec2:describenetworkinterfaces", "ec2:describesecuritygroups", "ec2:describesubnets", "ec2:describevpcattribute", "iam:listrolepolicies", "iam:getrole", "iam:getrolepolicy" "s3:createbucket" "*" クローラジョブ開発エンドポイントノートブックサーバーからの IAM ロールの一覧表示を許可します命名規則 : [aws-glue-] という Amazon S3 フォルダを使用します "s3:getobject", "s3:putobject", "s3:deleteobject" 命名規則 : 名前に aws-glue- のプレフィックスが付いている Amazon S3 バケットまたはフォルダにアクセス権限を与えます "s3:getobject" "logs:createloggroup", "logs:createlogstream", "logs:putlogevents" "ec2:createtags", "ec2:deletetags" "arn:aws:s3:::awsglue-*" らアカウントに Amazon S3 バケットジョブおよびノートブックサーバーかを作成できます "arn:aws:s3:::awsglue-*/*", バーのロケーションなどのオブジェク ETL スクリプトやノートブックサー "arn:aws:s3:::*/ トを格納する際に Amazon S3 オブ *aws-glue-*/ ジェクトの取得配置および削除を *" アカウントに許可します "arn:aws:s3:::crawlerpublic*", トリアルで使用されている Amazon クローラやジョブのサンプルやチュー "arn:aws:s3:::awsglue-*" S3 オブジェクトを取得できます命名規則 : Amazon S3 バケット名は [crawler-public] および [aws-glue-] で始まります "arn:aws:logs:*:*:/ ログを CloudWatch Logs に書き込む aws-glue/*" ことができます命名規則 : AWS Glue は名前が [awsglue] で始まるロググループにログを書き込みます "arn:aws:ec2:*:*:networkinterface/*", Amazon EC2 リソースのタグ付けを許開発エンドポイント用に作成された "arn:aws:ec2:*:*:securitygroup/*", 可します "arn:aws:ec2:*:*:instance/ 命名規則 : AWS Glue は [aws-glueservice-resource] を使用して Amazon *" EC2 ネットワークインターフェイスセキュリティグループおよびインスタンスをタグ付けします 12

20 AWS Glue 開発者ガイドステップ 2: AWS Glue 用の IAM ロールを作成する 5. [ ポリシーの確認 ] 画面で [ ポリシー名 ] ([GlueServiceRolePolicy] など ) を入力しますオプションの説明を入力しポリシーが適切であることを確認したら [ ポリシーの作成 ] を選択しますステップ 2: AWS Glue 用の IAM ロールを作成する代理で他のサービスを呼び出す際に AWS Glue が引き受けることができる IAM ロール権限を許可する必要がありますこれには AWS Glue で使用するすべてのソースターゲットスクリプトおよび一時ディレクトリに対する Amazon S3 へのアクセスが含まれますクローラジョブおよび開発エンドポイントによって許可が必要です AWS Identity and Access Management (IAM) を使用してアクセス権限を提供できます AWS Glue に渡す IAM ロールにポリシーを追加します AWS Glue の IAM ロールを作成するには 1. AWS マネジメントコンソールにサインインし IAM コンソール ( iam/) を開きます 2. 左のナビゲーションペインで [Roles] を選択します 3. [Create role] を選択します 4. ロールタイプについては [AWS サービス ] を選択し [Glue] を見つけて選択して [ 次へ : アクセス許可 ] を選択します 5. [ アクセス権限ポリシーをアタッチする ] ページで一般的な AWS Glue の AWS 管理ポリシー [AWSGlueServiceRole] Amazon S3 リソースにアクセスするための AWS 管理ポリシー [AmazonS3FullAccess] などの必要なアクセス権限を含むポリシーを選択します続いて [Next: Review] を選択します Note このロールのポリシーの 1 つが Amazon S3 のソースとターゲットにアクセス権限を与えていることを確認してください特定の Amazon S3 リソースにアクセスするための独自のポリシーを提供しますデータソースには s3:listbucket および s3:getobject アクセス権限が必要ですデータターゲットには s3:listbucket s3:putobject および s3:deleteobject アクセス権限が必要ですリソースの Amazon S3 ポリシーの作成の詳細についてはポリシーでのリソースの指定を参照してください Amazon S3 ポリシーの例については IAM ポリシーの記述 : Amazon S3 バケットへのアクセス権を付与する方法を参照してください SSE-KMS で暗号化された Amazon S3 のソースとターゲットにアクセスする予定がある場合は AWS Glue のクローラジョブ開発エンドポイントがデータを復号化できるポリシーをアタッチしてください詳細については AWS KMS で管理されたキーによるサーバー側の暗号化 (SSE-KMS) を使用したデータの保護を参照してください次に例を示します { } "Version":" ", "Statement":[ { "Effect":"Allow", "Action":[ "kms:decrypt" ], "Resource":[ "arn:aws:kms:*:account-id-without-hyphens:key/key-id" ] } ] 13

21 AWS Glue 開発者ガイドステップ 3: AWS Glue にアクセスする IAM ユーザーにポリシーをアタッチする 6. [ ロール名 ] にロールの名前 ( 例 : AWSGlueServiceRoleDefault) を入力しますコンソールユーザーからサービスにロールを渡すには文字列 [AWSGlueServiceRole] のプレフィックスが付けられたロールを作成します AWS Glue が提供するポリシーでは IAM サービスロールが [AWSGlueServiceRole] で始まると予測していますそれ以外の場合はポリシーを追加して IAM ロールの iam:passrole アクセス権限がユーザーの命名規則に一致する必要があります [Create Role] を選択しますステップ 3: AWS Glue にアクセスする IAM ユーザーにポリシーをアタッチする AWS Glue コンソールまたは AWS Command Line Interface (AWS CLI) にサインインする IAM ユーザーは特定のリソースへのアクセス権限が必要ですポリシーを通して AWS Identity and Access Management (IAM) を使用してアクセス権限を提供できますこのステップを完了すると IAM ユーザーに次のポリシーがアタッチされます AWS 管理ポリシー [AWSGlueConsoleFullAccess] またはカスタムポリシー [GlueConsoleAccessPolicy] [CloudWatchLogsReadOnlyAccess] [AWSCloudFormationReadOnlyAccess] [AmazonAthenaFullAccess] インラインポリシーをアタッチして IAM ユーザーに埋め込むには IAM ユーザーに AWS 管理ポリシーまたはインラインポリシーをアタッチして AWS Glue コンソールにアクセスしますこのポリシーで指定されているリソースの中には Amazon S3 バケット Amazon S3 ETL スクリプト CloudWatch Logs AWS CloudFormation Amazon EC2 リソース用の AWS Glue で使用されるデフォルトの名前があります分かりやすいように AWS Glue はデフォルトで aws-glue-* のプレフィックスが付いた Amazon S3 オブジェクトをアカウント内のバケットに書き込みます Note AWS 管理ポリシー AWSGlueConsoleFullAccess を使用する場合はこのステップをスキップできます Important AWS Glue にはユーザーの代理操作を実行するために使用されるロールを引き受けるアクセス権限が必要ですこれを実現するには iam:passrole アクセス権限を AWS Glue ユーザーに追加しますこのポリシーは AWS Glue サービスロールの AWSGlueServiceRole で始まるロールおよびノートブックサーバーの作成に必要なロール AWSGlueServiceNotebookRole にアクセス権限を与えますまた命名規則に従った iam:passrole アクセス権限の独自のポリシーを作成することもできますこのステップでは AWSGlueConsoleFullAccess に似たポリシーを作成します AWSGlueConsoleFullAccess の最新バージョンは IAM コンソールにあります 1. AWS マネジメントコンソールにサインインし IAM コンソール ( iam/) を開きます 2. ナビゲーションペインで [Users] を選択します 3. 一覧でポリシーを埋め込むユーザーの名前を選択します 4. [Permissions] タブを選択して必要であれば [Inline Policies] セクションを展開します 5. [Add Inline policy] ( インラインポリシーの追加 ) リンクを選択します 6. [ 許可を設定 ] 画面で [ カスタムポリシー ] を選択し [ 選択 ] を選択してポリシーエディタを開きます 14

22 AWS Glue 開発者ガイドステップ 3: AWS Glue にアクセスする IAM ユーザーにポリシーをアタッチする 7. ポリシーの名前を指定します ([GlueConsoleAccessPolicy] など ) 次のステートメントを使用してポリシードキュメントを作成します { "Version": " ", "Statement": [ { "Effect": "Allow", "Action": [ "glue:*", "redshift:describeclusters", "redshift:describeclustersubnetgroups", "iam:listroles", "iam:listrolepolicies", "iam:getrole", "iam:getrolepolicy", "iam:listattachedrolepolicies", "ec2:describesecuritygroups", "ec2:describesubnets", "ec2:describevpcs", "ec2:describevpcendpoints", "ec2:describeroutetables", "ec2:describevpcattribute", "ec2:describekeypairs", "ec2:describeinstances", "rds:describedbinstances", "s3:listallmybuckets", "s3:listbucket", "s3:getbucketacl", "s3:getbucketlocation", "cloudformation:describestacks", "cloudformation:gettemplatesummary", "dynamodb:listtables" ], "Resource": [ "*" ] }, { "Effect": "Allow", "Action": [ "s3:getobject", "s3:putobject" ], "Resource": [ "arn:aws:s3:::aws-glue-*/*", "arn:aws:s3:::*/*aws-glue-*/*", "arn:aws:s3:::aws-glue-*" ] }, { "Effect": "Allow", "Action": [ "s3:createbucket" ], "Resource": [ "arn:aws:s3:::aws-glue-*" ] }, { "Effect": "Allow", "Action": [ "logs:getlogevents" ], "Resource": [ 15

23 }, { }, { }, { ] AWS Glue 開発者ガイドステップ 3: AWS Glue にアクセスする IAM ユーザーにポリシーをアタッチする "arn:aws:logs:*:*:/aws-glue/*" "Effect": "Allow", "Action": [ "cloudformation:createstack", "cloudformation:deletestack" ], "Resource": "arn:aws:cloudformation:*:*:stack/aws-glue*/*" "Effect": "Allow", "Action": [ "ec2:runinstances" ], "Resource": [ "arn:aws:ec2:*:*:instance/*", "arn:aws:ec2:*:*:key-pair/*", "arn:aws:ec2:*:*:image/*", "arn:aws:ec2:*:*:security-group/*", "arn:aws:ec2:*:*:network-interface/*", "arn:aws:ec2:*:*:subnet/*", "arn:aws:ec2:*:*:volume/*" ] "Effect": "Allow", "Action": [ "ec2:terminateinstances", "ec2:createtags", "ec2:deletetags" ], "Resource": [ "arn:aws:ec2:*:*:instance/*" ], "Condition": { "StringLike": { "ec2:resourcetag/aws:cloudformation:stack-id": "arn:aws:cloudformation:*:*:stack/aws-glue-*/*" }, "StringEquals": { "ec2:resourcetag/aws:cloudformation:logical-id": "ZeppelinInstance" } } }, { "Action": [ "iam:passrole" ], "Effect": "Allow", "Resource": "arn:aws:iam::*:role/awsglueservicerole*", "Condition": { "StringLike": { "iam:passedtoservice": [ "glue.amazonaws.com" ] } } }, { "Action": [ "iam:passrole" ], "Effect": "Allow", "Resource": "arn:aws:iam::*:role/awsglueservicenotebookrole*", 16

24 AWS Glue 開発者ガイドステップ 3: AWS Glue にアクセスする IAM ユーザーにポリシーをアタッチする } ] }, { } "Condition": { "StringLike": { "iam:passedtoservice": [ "ec2.amazonaws.com" ] } } "Action": [ "iam:passrole" ], "Effect": "Allow", "Resource": [ "arn:aws:iam::*:role/service-role/awsglueservicerole*" ], "Condition": { "StringLike": { "iam:passedtoservice": [ "glue.amazonaws.com" ] } } 次の表はこのポリシーによって付与されたアクセス権限を示していますアクションリソース説明 "glue:*" "*" すべての AWS Glue API オペレーションを実行する権限を許可します "redshift:describeclusters", "*" Amazon Redshift への接続を作成でき "redshift:describeclustersubnetgroups" ます "iam:listroles", "iam:listrolepolicies", "iam:getrole", "iam:getrolepolicy", "iam:listattachedrolepolicies" "*" クローラジョブ開発エンドポイントノートブックサーバーを使用する場合の IAM ロールの一覧表示を許可します "ec2:describesecuritygroups", "ec2:describesubnets", "ec2:describevpcs", "ec2:describevpcendpoints", "ec2:describeroutetables", "ec2:describevpcattribute", "ec2:describekeypairs", "ec2:describeinstances" "*" ジョブクローラ開発エンドポイントの実行時に VPC などの Amazon EC2 ネットワーク項目の設定を許可します "rds:describedbinstances" "*" Amazon RDS への接続を作成できます "s3:listallmybuckets", "s3:listbucket", "s3:getbucketacl", "s3:getbucketlocation" "*" クローラジョブ開発エンドポイントノートブックサーバーを使用する場合の Amazon S3 バケットの一覧表示を許可します 17

25 AWS Glue 開発者ガイドステップ 3: AWS Glue にアクセスする IAM ユーザーにポリシーをアタッチするアクションリソース説明 "dynamodb:listtables" "*" DynamoDB テーブルのリスティングを許可します "s3:getobject", "s3:putobject" "arn:aws:s3::: aws-glue- */*", "arn:aws:s3::: */*awsglue-*/*", "arn:aws:s3::: aws-glue-*" ETL スクリプトやノートブックサーバーのロケーションなどのオブジェクトを格納する際に Amazon S3 オブジェクトの取得と配置をアカウントに許可します命名規則 : 名前に aws-glue- のプレフィックスが付いている Amazon S3 バケットまたはフォルダにアクセス権限を与えます "s3:createbucket" "arn:aws:s3::: aws-glue-*" ETL スクリプトやノートブックサーバーのロケーションなどのオブジェクトを格納する際に Amazon S3 バケットの作成をアカウントに許可します命名規則 : 名前に aws-glue- のプレフィックスが付いている Amazon S3 バケットにアクセス権限を与えます "logs:getlogevents" "arn:aws:logs:*:*: CloudWatch / Logs の取得を許可しま aws-glue/*" す命名規則 : AWS Glue は名前が [awsglue-] で始まるロググループにログを書き込みます "cloudformation:createstack", "cloudformation:deletestack" "arn:aws: ノートブックサーバーで作業するとき cloudformation:*:*:stack/ に AWS CloudFormation スタックの管 aws-glue*/*" 理を許可します命名規則 : AWS Glue は名前が [awsglue] で始まるスタックを作成します "ec2:runinstances" "arn:aws:ec2:*:*:instance/ 開発エンドポイントとノートブック *", サーバーの実行を許可します "arn:aws:ec2:*:*:keypair/*", "arn:aws:ec2:*:*:image/ *", "arn:aws:ec2:*:*:securitygroup/*", "arn:aws:ec2:*:*:networkinterface/*", "arn:aws:ec2:*:*:subnet/ *", "arn:aws:ec2:*:*:volume/ *" 18

26 AWS Glue 開発者ガイドステップ 3: AWS Glue にアクセスする IAM ユーザーにポリシーをアタッチするアクションリソース説明 "ec2:terminateinstances", "ec2:createtags", "ec2:deletetags" "iam:passrole" "iam:passrole" "iam:passrole" "arn:aws:ec2:*:*:instance/ 開発エンドポイントとノートブック *" サーバーの操作を許可します命名規則 : AWS Glue AWS CloudFormation スタックの名前はプレフィックスとして aws-glue- を使用し論理 ID として ZeppelinInstance を使用します "arn:aws:iam::*:role/ AWS Glue が [AWSGlueServiceRole] AWSGlueServiceRole*" で始まるロールに対して PassRole アクセス権限を引き受けることを許可します "arn:aws:iam::*:role/ Amazon EC2 が AWSGlueServiceNotebookRole*" [AWSGlueServiceNotebookRole] で始まるロールに対して PassRole アクセス権限を引き受けることを許可します "arn:aws:iam::*:role/ AWS Glue が [service-role/ service-role/ AWSGlueServiceRole] で始まるロー AWSGlueServiceRole*" ルに対して PassRole アクセス権限を引き受けることを許可します 8. [ ポリシーの検証 ] を選択して画面上部の赤いボックスにエラーが表示されていないことを確認します報告されたエラーがあれば修正します Note [Use autoformatting] を選択した場合はポリシーを開いたときおよび [Validate Policy] を選択したときに毎回ポリシーが再フォーマットされます 9. ポリシーが完成したら [Apply Policy] を選択します AWSGlueConsoleFullAccess 管理ポリシーをアタッチするには [AWSGlueConsoleFullAccess] ポリシーを添付して AWS Glue コンソールユーザーが必要とするアクセス権限を提供できます Note AWS Glue コンソールアクセス用に独自のポリシーを作成した場合はこのステップをスキップできます 1. AWS マネジメントコンソールにサインインし IAM コンソール ( iam/) を開きます 2. ナビゲーションペインで [Policies] を選択します 3. ポリシーのリストで [AWSGlueConsoleFullAccess] ポリシーの横にあるチェックボックスを選択します [Filter] メニューと検索ボックスを使用してポリシーのリストをフィルタリングできます 4. [Policy actions] を選択して [Attach] を選択します 5. ポリシーをアタッチするユーザーを選択します [Filter] メニューと検索ボックスを使用してプリンシパルエンティティのリストをフィルタリングできますポリシーをアタッチするユーザーを選択し [ ポリシーのアタッチ ] を選択します 19

27 AWS Glue 開発者ガイドステップ 4: ノートブックの IAM ポリシーを作成する CloudWatchLogsReadOnlyAccess 管理ポリシーをアタッチするには [CloudWatchLogsReadOnlyAccess] ポリシーをユーザーにアタッチして CloudWatch Logs コンソールで AWS Glue によって作成されたログを表示できます 1. AWS マネジメントコンソールにサインインし IAM コンソール ( iam/) を開きます 2. ナビゲーションペインで [Policies] を選択します 3. ポリシーのリストで [CloudWatchLogsReadOnlyAccess] ポリシーの横にあるチェックボックスを選択します [Filter] メニューと検索ボックスを使用してポリシーのリストをフィルタリングできます 4. [Policy actions] を選択して [Attach] を選択します 5. ポリシーをアタッチするユーザーを選択します [Filter] メニューと検索ボックスを使用してプリンシパルエンティティのリストをフィルタリングできますポリシーをアタッチするユーザーを選択し [ ポリシーのアタッチ ] を選択します AWSCloudFormationReadOnlyAccess 管理ポリシーをアタッチするには [AWSCloudFormationReadOnlyAccess] ポリシーをユーザーにアタッチして AWS CloudFormation コンソールで AWS Glue が使用する AWS CloudFormation スタックを表示できます 1. AWS マネジメントコンソールにサインインし IAM コンソール ( iam/) を開きます 2. ナビゲーションペインで [Policies] を選択します 3. ポリシーのリストで [AWSCloudFormationReadOnlyAccess] ポリシーの横にあるチェックボックスを選択します [Filter] メニューと検索ボックスを使用してポリシーのリストをフィルタリングできます 4. [Policy actions] を選択して [Attach] を選択します 5. ポリシーをアタッチするユーザーを選択します [Filter] メニューと検索ボックスを使用してプリンシパルエンティティのリストをフィルタリングできますポリシーをアタッチするユーザーを選択し [ ポリシーのアタッチ ] を選択します AmazonAthenaFullAccess 管理ポリシーをアタッチするには [AmazonAthenaFullAccess] ポリシーをユーザーにアタッチして Amazon S3 データを Athena コンソールで表示できます 1. AWS マネジメントコンソールにサインインし IAM コンソール ( iam/) を開きます 2. ナビゲーションペインで [Policies] を選択します 3. ポリシーのリストで [AmazonAthenaFullAccess] ポリシーの横にあるチェックボックスを選択します [Filter] メニューと検索ボックスを使用してポリシーのリストをフィルタリングできます 4. [Policy actions] を選択して [Attach] を選択します 5. ポリシーをアタッチするユーザーを選択します [Filter] メニューと検索ボックスを使用してプリンシパルエンティティのリストをフィルタリングできますポリシーをアタッチするユーザーを選択し [ ポリシーのアタッチ ] を選択しますステップ 4: ノートブックの IAM ポリシーを作成する開発エンドポイントでノートブックを使用する予定の場合はノートブックサーバーの作成時にアクセス許可を指定する必要があります AWS Identity and Access Management (IAM) を使用してアクセス権限を提供できます 20

28 AWS Glue 開発者ガイドステップ 4: ノートブックの IAM ポリシーを作成するこのポリシーは AWS Glue がこのポリシーを使用してロールを引き受ける際に必要となるアカウント内のリソースを管理する Amazon S3 アクションの一部を許可しますこのポリシーで指定されているリソースの中には Amazon S3 バケット Amazon S3 ETL スクリプト Amazon EC2 リソース用の AWS Glue で使用されるデフォルトの名前があります分かりやすいように AWS Glue デフォルトでは awsglue-* のプレフィックスが付いた Amazon S3 オブジェクトをアカウント内のバケットに書き込みます Note AWS 管理ポリシー AWSGlueServiceNotebookRole を使用する場合はこのステップをスキップできますこのステップでは AWSGlueServiceNotebookRole に似たポリシーを作成します AWSGlueServiceNotebookRole の最新バージョンは IAM コンソールにありますノートブックの IAM ポリシーを作成するには 1. AWS マネジメントコンソールにサインインし IAM コンソール ( iam/) を開きます 2. 左のナビゲーションペインの [ ポリシー ] を選択します 3. [Create Policy] を選択します 4. [ ポリシーの作成 ] 画面で JSON 編集のためのタブに移動します次の JSON ステートメントを使用してポリシードキュメントを作成して [ ポリシーの確認 ] を選択します { "Version":" ", "Statement":[ { "Effect":"Allow", "Action":[ "glue:createdatabase", "glue:createpartition", "glue:createtable", "glue:deletedatabase", "glue:deletepartition", "glue:deletetable", "glue:getdatabase", "glue:getdatabases", "glue:getpartition", "glue:getpartitions", "glue:gettable", "glue:gettableversions", "glue:gettables", "glue:updatedatabase", "glue:updatepartition", "glue:updatetable", "glue:createbookmark", "glue:getbookmark", "glue:updatebookmark", "glue:getmetric", "glue:putmetric", "glue:createconnection", "glue:createjob", "glue:deleteconnection", "glue:deletejob", "glue:getconnection", "glue:getconnections", "glue:getdevendpoint", "glue:getdevendpoints", "glue:getjob", "glue:getjobs", "glue:updatejob", "glue:batchdeleteconnection", "glue:updateconnection", 21

29 AWS Glue 開発者ガイドステップ 4: ノートブックの IAM ポリシーを作成する "glue:getuserdefinedfunction", "glue:updateuserdefinedfunction", "glue:getuserdefinedfunctions", "glue:deleteuserdefinedfunction", "glue:createuserdefinedfunction", "glue:batchgetpartition", "glue:batchdeletepartition", "glue:batchcreatepartition", "glue:batchdeletetable", "glue:updatedevendpoint", "s3:getbucketlocation", "s3:listbucket", "s3:listallmybuckets", "s3:getbucketacl" ], "Resource":[ "*" ] }, { "Effect":"Allow", "Action":[ "s3:getobject" ], "Resource":[ "arn:aws:s3:::crawler-public*", "arn:aws:s3:::aws-glue*" ] }, { "Effect":"Allow", "Action":[ "s3:putobject", "s3:deleteobject" ], "Resource":[ "arn:aws:s3:::aws-glue*" ] }, { "Effect":"Allow", "Action":[ "ec2:createtags", "ec2:deletetags" ], "Condition":{ "ForAllValues:StringEquals":{ "aws:tagkeys":[ "aws-glue-service-resource" ] } }, "Resource":[ "arn:aws:ec2:*:*:network-interface/*", "arn:aws:ec2:*:*:security-group/*", "arn:aws:ec2:*:*:instance/*" ] } ] } 次の表はこのポリシーによって付与されたアクセス権限を示しています 22

30 AWS Glue 開発者ガイドステップ 5: ノートブック用の IAM ロールを作成するアクションリソース説明 "glue:*" "*" すべての AWS Glue API オペレーションを実行する権限を許可します "s3:getbucketlocation", "s3:listbucket", "s3:listallmybuckets", "s3:getbucketacl" "s3:getobject" "s3:putobject", "s3:deleteobject" "*" ノートブックサーバーから Amazon S3 バケットの一覧表示を許可します命名規則 : [aws-glue] という Amazon S3 フォルダを使用します "ec2:createtags", "ec2:deletetags" "arn:aws:s3:::crawlerpublic*", アルで使用されている Amazon S3 オノートブックのサンプルやチュートリ "arn:aws:s3:::awsglue-*" ブジェクトを取得できます命名規則 : Amazon S3 バケット名は [crawler-public] および [aws-glue-] で始まります "arn:aws:s3:::awsglue*" Amazon S3 オブジェクトの書き込みノートブックからアカウントへのと削除を許可します "arn:aws:ec2:*:*:networkinterface/*", Amazon EC2 リソースのタグ付けを許ノートブックサーバー用に作成された "arn:aws:ec2:*:*:securitygroup/*", 可します "arn:aws:ec2:*:*:instance/ 命名規則 : AWS Glue は Amazon EC2 *" インスタンスを [aws-glue-serviceresource] をタグ付けします 5. [ ポリシーの確認 ] 画面で [ ポリシー名 ] ([GlueServiceNotebookPolicyDefault] など ) を入力しますオプションの説明を入力しポリシーが適切であることを確認したら [ ポリシーの作成 ] を選択しますステップ 5: ノートブック用の IAM ロールを作成する開発エンドポイントでノートブックを使用する予定がある場合は IAM ロールアクセス権限を与える必要があります IAM ロールを通して AWS Identity and Access Management を使用してアクセス権限を提供できます Note IAM コンソールを使用して IAM ロールを作成するとコンソールによりインスタンスプロファイルが自動的に作成され対応するロールと同じ名前が付けられますノートブックの IAM ロールを作成するには 1. AWS マネジメントコンソールにサインインし IAM コンソール ( iam/) を開きます 2. 左のナビゲーションペインで [Roles] を選択します 3. [Create role] を選択します 4. ロールタイプについては [AWS サービス ] を選択し [EC2] を見つけて選択して [EC2] ユースケースを選択し [ 次へ : アクセス権限 ] を選択します 23

31 AWS Glue 開発者ガイド VPC での DNS のセットアップ 5. [ アクセス権限ポリシーをアタッチする ] ページで一般的な AWS Glue の AWS 管理ポリシー [AWSGlueServiceNotebookRole] および Amazon S3 リソースにアクセスするための AWS 管理ポリシー [AmazonS3FullAccess] などの必要なアクセス権限を含むポリシーを選択します続いて [Next: Review] を選択します Note このロールのポリシーの 1 つが Amazon S3 のソースとターゲットにアクセス権限を与えていることを確認してくださいまたノートブックサーバーの作成時にノートブックを保管する場所へのフルアクセスがポリシーで許可されていることを確認してください特定の Amazon S3 リソースにアクセスするための独自のポリシーを提供しますリソースの Amazon S3 ポリシーの作成の詳細についてはポリシーでのリソースの指定を参照してください SSE-KMS で暗号化された Amazon S3 のソースとターゲットにアクセスする予定がある場合はノートブックがデータを復号化できるポリシーをアタッチしてください詳細については AWS KMS で管理されたキーによるサーバー側の暗号化 (SSE-KMS) を使用したデータの保護を参照してください以下に例を示します { } "Version":" ", "Statement":[ { "Effect":"Allow", "Action":[ "kms:decrypt" ], "Resource":[ "arn:aws:kms:*:account-id-without-hyphens:key/key-id" ] } ] 6. [Role name] にロールの名前を入力しますコンソールユーザーからノートブックサーバーにロールを渡すには文字列 [AWSGlueServiceNotebookRole] のプレフィックスが付けられたロールを作成します AWS Glue が提供するポリシーでは IAM サービスロールが [AWSGlueServiceNotebookRole] で始まると予測していますそれ以外の場合はポリシーを追加して IAM ロールの iam:passrole アクセス権限がユーザーの命名規則に一致するようにする必要がありますたとえば [AWSGlueServiceNotebookRoleDefault] と入力します続いて [Create role] を選択します VPC での DNS のセットアップドメインネームシステム (DNS) はインターネットで使用する名前を対応する IP アドレスに解決するための標準です DNS ホスト名はホスト名とドメイン名で構成されコンピュータに一意の名前を付けます DNS サーバーは DNS ホスト名を対応する IP アドレスに解決します名前解決にカスタム DNS を使用する場合 DNS 前方参照と DNS 逆引き参照の両方を実装する必要があります VPC で DNS をセットアップするには DNS ホスト名と DNS 解決の両方が VPC で有効になっていることを確認します VPC ネットワーク属性の enablednshostnames と enablednssupport を true に設定する必要がありますこれらの属性を表示および変更するには VPC コンソール ( console.aws.amazon.com/vpc/) に移動します詳細については Using DNS with Your VPC を参照してください Note Route 53 を使用している場合は設定によって DNS ネットワーク属性が上書きされないことを確認します 24

32 AWS Glue 開発者ガイドデータストアにアクセスするための環境のセットアップデータストアにアクセスするための環境のセットアップ抽出変換およびロード (ETL) ジョブを実行するには AWS Glue がデータストアにアクセスできる必要があります Virtual Private Cloud ( 仮想プライベートクラウド ) (VPC) サブネットでジョブを実行する必要がない場合 ( たとえば Amazon S3 から Amazon S3 へのデータ変換 ) 追加の設定は必要ありません VPC のサブネットでジョブを実行する必要がある場合 AWS Glue はジョブを VPC 内の他のリソースに安全に接続できるようにする伸縮自在なネットワークインターフェイスを設定しますそれぞれの伸縮自在なネットワークインターフェイスには指定したサブネット内の IP アドレス範囲からプライベート IP アドレスが割り当てられますパブリック IP アドレスは割り当てられません指定されたセキュリティグループは伸縮自在なネットワークインターフェイスに適用されますジョブによってアクセスされるすべての JDBC データストアは VPC サブネットから使用できる必要があります VPC 内から Amazon S3 にアクセスするには VPC エンドポイント (p. 25) が必須ですジョブが VPC リソースとパブリックインターネットの両方にアクセスする必要がある場合 VPC は VPC 内にネットワークアドレス変換 (NAT) ゲートウェイを持つ必要がありますジョブまたは開発エンドポイントは一度に 1 つの VPC ( およびサブネット ) にのみアクセスできます異なる VPC のデータストアにアクセスする必要がある場合は次のオプションがあります VPC ピア接続を使用してデータストアにアクセスします VPC ピア接続の詳細については VPC ピア接続の基本を参照してください中間ストレージの場所として Amazon S3 バケットを使用しますジョブ 1 の Amazon S3 出力をジョブ 2 への入力として作業を 2 つのジョブに分割します JDBC データストアの場合データストアに接続するために必要なプロパティを使用して AWS Glue で接続を作成します接続の詳細についてはデータストアへの接続の追加 (p. 80) を参照してください Note AWS Glue の DNS 環境を必ず設定してください詳細については VPC での DNS のセットアップ (p. 24) を参照してくださいトピック Amazon S3 における Amazon VPC エンドポイント (p. 25) JDBC データストアに接続するための VPC の設定 (p. 27) Amazon S3 における Amazon VPC エンドポイントセキュリティ上の理由から多数の AWS ユーザーがアプリケーションを Amazon Virtual Private Cloud 環境 (Amazon VPC) 内で実行しています Amazon VPC を使用すると Amazon EC2 インスタンスを仮想プライベートクラウドで作成できますそのためパブリックインターネットなどの他のネットワークから論理的に分離されます Amazon VPC を使用すると IP アドレス範囲サブネットルーティングテーブルネットワークゲートウェイセキュリティ設定を適切に制御できます Note 2013 年 12 月 4 日以降に AWS アカウントを作成した場合は各 AWS リージョンにデフォルトで VPC が用意されています追加設定なしにデフォルトの VPC をすぐに使用できます詳細についてはデフォルトの VPC とサブネット (Amazon VPC ユーザーガイド ) を参照してください多くのお客様がパブリックインターネット間のデータ送受信に関してプライバシーとセキュリティに関する正当な懸念を抱いていますこれらの懸念事項を解決するために仮想プライベートネットワーク 25

33 AWS Glue 開発者ガイド Amazon S3 における Amazon VPC エンドポイント (VPN) を使用してすべての Amazon S3 ネットワークトラフィックを自社の企業ネットワークのインフラストラクチャ経由でルーティングしますただしこのアプローチでは帯域幅や可用性の課題が生じる場合があります Amazon S3 の VPC エンドポイントではこれらの課題は軽減されます Amazon S3 の VPC エンドポイントを使用することで AWS Glue はプライベート IP アドレスを使用してパブリックインターネットに公開されることなく Amazon S3 にアクセスできるようになります AWS Glue はパブリック IP アドレスを必要とせず VPC にインターネットゲートウェイ NAT デバイス仮想プライベートゲートウェイは不要です Amazon S3 へのアクセスを制御するにはエンドポイントのポリシーを使用します VPC と AWS サービス間のトラフィックは Amazon ネットワークを離れません Amazon S3 の VPC エンドポイントを作成する際リージョン内の Amazon S3 エンドポイント ( 例 : s3.us-west-2.amazonaws.com) に対するリクエストはすべて Amazon ネットワーク内のプライベートの Amazon S3 エンドポイントにルーティングされます VPC の EC2 インスタンスで実行されているアプリケーションを変更する必要はありませんエンドポイント名は変わりませんが Amazon S3 へのルートは Amazon ネットワーク内に完全にとどまりパブリックインターネットにアクセスすることはありません VPC エンドポイントの詳細については Amazon VPC ユーザーガイドの VPC エンドポイントを参照してください AWS Glue が VPC エンドポイントを使用して Amazon S3 にアクセスする様子を次の図に示します Amazon S3 のアクセスをセットアップするには 1. AWS マネジメントコンソールにサインインした後 Amazon VPC コンソール ( console.aws.amazon.com/vpc/) を開きます 2. 左のナビゲーションペインで [ エンドポイント ] を選択します 26

34 AWS Glue 開発者ガイド JDBC データストアに接続するための VPC の設定 3. [ エンドポイントの作成 ] 選択しステップに従って VPC 内に Amazon S3 エンドポイントを作成します JDBC データストアに接続するための VPC の設定 AWS Glue コンポーネントが通信できるようにするには Amazon Redshift や Amazon RDS などのデータストアへのアクセスを設定する必要があります AWS Glue がコンポーネント間で通信できるようにするにはすべての TCP ポートに対して自己参照のインバウンドルールを持つセキュリティグループを指定します自己参照ルールを作成することでソースを VPC 内の同じセキュリティグループに制限することができネットワーク全体には公開されません VPC のデフォルトのセキュリティグループにはすでに ALL Traffic ( すべてのトラフィック ) の自己参照インバウンドルールがある場合があります Amazon Redshift データストアへのアクセスを設定するには 1. AWS マネジメントコンソールにサインインし Amazon Redshift コンソール ( console.aws.amazon.com/redshift/) を開きます 2. 左のナビゲーションペインで [Clusters] ( クラスター ) を選択します 3. AWS Glue からアクセスするクラスターの名前を選択します 4. [Cluster Properties] ( クラスターのプロパティ ) セクションで [VPC security groups] (VPC セキュリティグループ ) 内のセキュリティグループを選択し AWS Glue が使用できるようにします今後の参照用に選択したセキュリティグループの名前を記録しますセキュリティグループを選択すると Amazon EC2 コンソールの [Security Groups] ( セキュリティグループ ) の一覧が開きます 5. 変更するセキュリティグループを選択し [Inbound] ( インバウンド ) タブに移動します 6. 自己参照ルールを追加して AWS Glue コンポーネントが通信できるようにします具体的には [Type] ( タイプ ) All TCP [Protocol] ( プロトコル ) は TCP [Port Range] ( ポート範囲 ) にはすべてのポートが含まれ [Source] ( ソース ) は [Group ID] ( グループ ID) と同じセキュリティグループ名であるというルールを追加または確認しますインバウンドルールは以下のようになりますタイププロトコルポート範囲送信元すべての TCP TCP database-securitygroup 以下に例を示します 27

35 AWS Glue 開発者ガイド JDBC データストアに接続するための VPC の設定 7. アウトバウンドトラフィックのルールも追加しますすべてのポートへのアウトバウンドトラフィックを開くかまたは [Type] ( タイプ ) All TCP [Protocol] ( プロトコル ) は TCP [Port Range] ( ポート範囲 ) にすべてのポートが含まれ [Source] ( ソース ) は [Group ID] ( グループ ID) と同じセキュリティグループ名の自己参照ルールを作成しますアウトバウンドルールは次のいずれかのルールのようになりますタイププロトコルポート範囲送信先すべての TCP TCP security-group すべてのトラフィック ALL ALL /0 Amazon RDS データストアへのアクセスを設定するには 1. AWS マネジメントコンソールにサインインし Amazon RDS コンソール ( console.aws.amazon.com/rds/) を開きます 2. 左のナビゲーションペインの [Instances] を選択します 3. AWS Glue からアクセスする Amazon RDS [Engine] ( エンジン ) と [DB Instance] (DB インスタンス ) 名を選択します 4. [Instance Actions] ( インスタンスの操作 ) から [See Details] ( 詳細を表示 ) を選択します [Details] ( 詳細 ) タブで AWS Glue からアクセスする [Security Groups] ( セキュリティグループ ) を見つけます今後の参照用にセキュリティグループの名前を記録します 5. セキュリティグループを選択して Amazon EC2 コンソールを開きます 6. Amazon RDS の [Group ID] ( グループ ID) が選択されていることを確認し [Inbound] ( インバウンド ) タブを選択します 7. 自己参照ルールを追加して AWS Glue コンポーネントが通信できるようにします具体的には [Type] ( タイプ ) All TCP [Protocol] ( プロトコル ) は TCP [Port Range] ( ポート範囲 ) にはすべてのポートが含まれ [Source] ( ソース ) は [Group ID] ( グループ ID) と同じセキュリティグループ名であるというルールを追加または確認しますインバウンドルールは次のようになりますタイププロトコルポート範囲送信元すべての TCP TCP database-securitygroup 以下に例を示します 28

36 AWS Glue 開発者ガイド開発エンドポイント用の環境の設定 8. アウトバウンドトラフィックのルールも追加しますすべてのポートへのアウトバウンドトラフィックを開くかまたは [Type] ( タイプ ) All TCP [Protocol] ( プロトコル ) は TCP [Port Range] ( ポート範囲 ) にすべてのポートが含まれ [Source] ( ソース ) は [Group ID] ( グループ ID) と同じセキュリティグループ名の自己参照ルールを作成しますアウトバウンドルールは次のいずれかのルールのようになりますタイププロトコルポート範囲送信先すべての TCP TCP security-group すべてのトラフィック ALL ALL /0 開発エンドポイント用の環境の設定 AWS Glue で抽出変換およびロード (ETL) スクリプトを実行するために開発エンドポイントを使用してスクリプトを開発しテストすることがあります開発エンドポイントを設定するときは仮想プライベートクラウド (VPC) サブネットおよびセキュリティグループを指定します Note AWS Glue の DNS 環境を必ず設定してください詳細については VPC での DNS のセットアップ (p. 24) を参照してください開発エンドポイント用にネットワークを設定する AWS Glue が必要なリソースにアクセスできるようにするにはサブネットルートテーブルに行を追加して Amazon S3 のプレフィックスリストを VPC エンドポイントに関連付けますプレフィックスリスト ID は VPC からのトラフィックが VPC エンドポイント経由で AWS サービスにアクセスできるようにするアウトバウンドセキュリティグループルールを作成するために必要ですこの開発エンドポイントに関連付けられているノートブックサーバーへの接続をローカルマシンから簡単に行うにはルートテーブルに行を追加してインターネットゲートウェイ ID を追加します詳細については VPC エンドポイントを参照してくださいサブネットのルートテーブルを更新すると次の表のようになります送信先 Target /16 ローカル 29

37 AWS Glue 開発者ガイド開発エンドポイント用にネットワークを設定する送信先 pl-id for Amazon S3 Target vpce-id /0 igw-xxxx AWS Glue がコンポーネント間で通信できるようにするにはすべての TCP ポートに対して自己参照のインバウンドルールを持つセキュリティグループを指定します自己参照ルールを作成することでソースを VPC 内の同じセキュリティグループに制限することができネットワーク全体には公開されません VPC のデフォルトのセキュリティグループにはすでに ALL Traffic ( すべてのトラフィック ) の自己参照インバウンドルールがある場合がありますセキュリティグループを設定するには 1. AWS マネジメントコンソールにサインインをしたあとにある Amazon EC2 コンソールを開きます 2. 左のナビゲーションペインで [ Security Groups] を選択します 3. リストから既存のセキュリティグループを選択するか [Create Security Group] ( セキュリティグループの作成 ) を選択して開発エンドポイントで使用します 4. セキュリティグループペインで [Inbound] ( インバウンド ) タブに移動します 5. 自己参照ルールを追加して AWS Glue コンポーネントが通信できるようにします具体的には [Type] ( タイプ ) All TCP [Protocol] ( プロトコル ) は TCP [Port Range] ( ポート範囲 ) にはすべてのポートが含まれ [Source] ( ソース ) は [Group ID] ( グループ ID) と同じセキュリティグループ名であるというルールを追加または確認しますインバウンドルールは次のようになりますタイププロトコルポート範囲送信元すべての TCP TCP security-group 次に自己参照インバウンドルールの例を示します 6. アウトバウンドトラフィックのルールも追加しますすべてのポートへのアウトバウンドトラフィックを開くかまたは [Type] ( タイプ ) All TCP [Protocol] ( プロトコル ) は TCP [Port Range] ( ポート範囲 ) にすべてのポートが含まれ [Source] ( ソース ) は [Group ID] ( グループ ID) と同じセキュリティグループ名の自己参照ルールを作成しますアウトバウンドルールは次のいずれかのルールのようになります 30

AWS Glue 開発者ガイドノートブックサーバー用の Amazon EC2 の設定タイププロトコルポート範囲送信先すべての TCP TCP 0

38 AWS Glue 開発者ガイドノートブックサーバー用の Amazon EC2 の設定タイププロトコルポート範囲送信先すべての TCP TCP security-group すべてのトラフィック ALL ALL /0 ノートブックサーバー用の Amazon EC2 の設定開発エンドポイントでは Zeppelin ノートブックで ETL スクリプトをテストするためのノートブックサーバーを作成できますノートブックとの通信を可能にするには HTTPS ( ポート 443) と SSH ( ポート 22) の両方のインバウンドルールを持つセキュリティグループを指定しますルールのソースが /0 かノートブックに接続しているマシンの IP アドレスであることを確認してください Note カスタム DNS を使用する場合はカスタム DNS サーバーがノートブックサーバーが起動されているサブネット CIDR 全体のフォワードとリバースの解決ができることを確認してくださいセキュリティグループを設定するには 1. AWS マネジメントコンソールにサインインをしたあとにある Amazon EC2 コンソールを開きます 2. 左のナビゲーションペインで [ Security Groups] を選択します 3. リストから既存のセキュリティグループを選択するか [Create Security Group] ( セキュリティグループの作成 ) を選択してノートブックサーバーで使用します開発エンドポイントに関連付けられているセキュリティグループはノートブックサーバーの作成にも使用されます 4. セキュリティグループペインで [Inbound] ( インバウンド ) タブに移動します 5. 次のようなインバウンドルールを追加しますタイププロトコルポート範囲送信元 SSH TCP /0 HTTPS TCP /0 次にセキュリティグループのインバウンドルールの例を示します 31

39 AWS Glue 開発者ガイドコンソールのワークフローの概要 AWS Glue コンソールのワークフローの概要 AWS Glue では AWS Glue データカタログにメタデータを格納しますこのメタデータを使用してデータソースを変換してデータウェアハウスをロードする ETL ジョブを調整します以下の手順では一般的なワークフローと AWS Glue を使用して作業する際に行う選択肢のいくつかについて説明します 1. AWS Glue データカタログにテーブル定義を入力しますコンソールではクローラを追加して AWS Glue データカタログに入力できます [Add crawler] ( クローラを追加 ) ウィザードはテーブルのリストまたはクローラのリストから開始できますクローラがアクセスするための 1 つ以上のデータストアを選択しますスケジュールを作成してクローラの実行頻度を決定することもできます必要に応じてデータのスキーマを推測するカスタム分類子を提供できます以下を使用してカスタム分類子を作成できます grok パターンただし AWS Glue にはカスタム分類子がデータを認識しない場合にクローラによって自動的に使用される組み込み分類子が用意されていますクローラを定義する時に分類子を選択する必要はありません AWS Glue の分類子の詳細についてはクローラに分類子を追加する (p. 66) を参照してください一部のタイプのデータストアをクロールするには認証とロケーション情報を提供する接続が必要です必要に応じて AWS Glue コンソールでこの必要な情報を提供する接続を作成できますクローラはデータストアを読み取りデータ定義と名前付きテーブルを AWS Glue データカタログに作成しますこれらのテーブルは選択したデータベースに整理されます手動で作成したテーブルを Data Catalog に入力することもできますこの方法ではスキーマおよびその他のメタデータを提供して Data Catalog にテーブル定義を作成しますこの方法は少し面倒でエラーが発生しやすいためより良い方法としてクローラにテーブル定義を作成させることができます AWS Glue データカタログにテーブル定義を入力する方法の詳細については AWS Glue データカタログでテーブルを定義する (p. 51) を参照してください 2. ソースからターゲットへのデータの変換を記述するジョブを定義します一般にジョブを作成するには次の選択をする必要があります AWS Glue データカタログからジョブのソースとなるテーブルを選択しますジョブではこのテーブル定義を使ってデータストアにアクセスしデータの型式を解釈します AWS Glue データカタログからジョブのターゲットとなるテーブルまたは場所を選択しますジョブはこの情報を使用してデータストアにアクセスしますソースをターゲットに変換する PySpark スクリプトを生成するように AWS Glue に指示します AWS Glue はソーススキーマからターゲットスキーマ形式にデータを変換する組み込み変換を呼び出すコードを生成しますこれらの変換はデータのコピー列の名前の変更データのフィルタリングなどの操作を実行し必要に応じてデータを変換しますこのスクリプトは AWS Glue コンソールで変更できます AWS Glue でジョブを定義する方法の詳細については AWS Glue でジョブを作成する (p. 101) を参照してください 3. ジョブを実行してデータを変換しますオンデマンドでジョブを実行するか次のいずれかのトリガータイプに基づいてジョブを開始することができます cron スケジュールに基づいたトリガーイベントベースのトリガーたとえば別のジョブが正常に完了すると AWS Glue ジョブを開始できますオンデマンドでジョブを開始するトリガー AWS Glue のトリガーの詳細については AWS Glue でのジョブのトリガー (p. 111) を参照してください 32

40 AWS Glue 開発者ガイドコンソールのワークフローの概要 4. スケジュールされたクローラとトリガーされたジョブをモニタリングします AWS Glue コンソールを使用して以下を表示しますジョブの実行の詳細とエラークローラは詳細とエラーを実行します AWS Glue アクティビティに関する通知 AWS Glue でクローラとジョブをモニタリングする方法の詳細については AWS Glue の実行とモニタリング (p. 135) を参照してください 33

41 AWS Glue 開発者ガイド認証 AWS Glue に対する認証とアクセスコントロール AWS Glue へのアクセスには認証情報が必要ですこれらの認証情報には AWS Glue table や Amazon Elastic Compute Cloud (Amazon EC2) インスタンスなどの AWS リソースに対するアクセス権限が含まれている必要があります次のセクションでは AWS Identity and Access Management (IAM) と AWS Glue を使用してリソースへのアクセスをセキュリティで保護する方法について詳しく説明します認証 (p. 34) アクセスコントロール (p. 35) 認証 AWS には次のタイプのアイデンティティでアクセスできます AWS アカウントのルートユーザー AWS アカウントを初めて作成する場合はすべての AWS サービスとリソースに対して完全なアクセス権限を持つシングルサインイン ID で始めますこのアイデンティティはルートユーザーと呼ばれ AWS アカウントの作成に使用したメールアドレスとパスワードでのサインインによりアクセスされます強くお勧めしているのは日常的なタスクにはそれが管理者タスクであってもルートユーザーを使用しないことです代わりに最初の IAM ユーザーを作成するためだけにルートユーザーを使用するというベストプラクティスに従いますその後ルートユーザー認証情報を安全な場所に保管しそれらを使用して少数のアカウントおよびサービス管理タスクのみを実行します IAM ユーザー IAM ユーザーは特定のカスタム権限 ( たとえば AWS Glue で a table を作成するアクセス権限 ) を持つ AWS アカウント内のアイデンティティです IAM のユーザー名とパスワードを使用して AWS マネジメントコンソール AWS ディスカッションフォーラム AWS Support Center などのセキュリティ保護された AWS ウェブページにサインインできますユーザー名とパスワードに加えて各ユーザーのアクセスキーを生成することもできますいくつかの SDK の 1 つまたは AWS Command Line Interface (CLI) を使ってプログラムで AWS サービスにアクセスするときにこれらのキーを使用します SDK と CLI ツールではアクセスキーを使用してリクエストが暗号で署名されます AWS ツールを使用しない場合はリクエストに自分で署名する必要があります AWS Glue supports では署名バージョン 4 がサポートされていますこれはインバウンド API リクエストを認証するためのプロトコルですリクエストの認証の詳細については AWS General Reference の署名バージョン 4 の署名プロセスを参照してください IAM ロール IAM ロールは特定のアクセス権限を持ちアカウントで作成できる IAM アイデンティティですこれは IAM ユーザーに似ていますが特定のユーザーに関連付けられていません IAM ロールでは AWS サービスおよびリソースにアクセスするために使用できる一時的なアクセスキーを取得することができます IAM ロールと一時的な認証情報は以下の状況で役立ちますフェデレーティッドユーザーアクセス IAM ユーザーを作成するのではなく AWS Directory Service エンタープライズユーザーディレクトリまたはウェブ ID プロバイダの既存のユーザー ID を使用することもできますこのようなユーザーはフェデレーティッドユーザーと呼ばれます AWS では ID プロバイダーを通じてアクセスがリクエストされたときフェデレーティッドユーザー 34

42 AWS Glue 開発者ガイドアクセスコントロールにロールを割り当てますフェデレーティッドユーザーの詳細については IAM ユーザーガイドのフェデレーティッドユーザーとロールを参照してください AWS サービスアクセスアカウントの IAM ロールを使用してアカウントのリソースにアクセスするための権限を AWS のサービスに付与できますたとえば Amazon Redshift がお客様に代わって Amazon S3 バケットにアクセスしバケットからデータを Amazon Redshift クラスターにロードすることを許可するロールを作成できます詳細については IAM ユーザーガイドの AWS ユーザーにアクセス権限を委任するロールの作成を参照してください Amazon EC2 で実行されているアプリケーション IAM ロールを使用して EC2 インスタンスで実行され AWS API リクエストを作成しているアプリケーションの一時的な認証情報を管理できますこれは EC2 インスタンス内でのアクセスキーの保存に推奨されます AWS ロールを EC2 インスタンスに割り当てそのすべてのアプリケーションで使用できるようにするにはインスタンスにアタッチされたインスタンスプロファイルを作成しますインスタンスプロファイルにはロールが含まれ EC2 インスタンスで実行されるプログラムは一時認証情報を取得することができます詳細については IAM ユーザーガイドの Amazon EC2 インスタンスで実行されるアプリケーションに IAM ロールを使用してアクセス権限を付与するを参照してくださいアクセスコントロール有効な認証情報があればリクエストを認証できますが許可を持っていないかぎり AWS Glue リソースの作成やアクセスはできませんたとえば AWS Glue table を作成するためのアクセス権限が必要です以下のセクションでは AWS Glue のアクセス権限を管理する方法について説明します最初に概要のセクションを読むことをお勧めしますアクセス管理の概要 (p. 35) アイデンティティベースのポリシー (IAM ポリシー ) を使用する (p. 38) AWS Glue API のアクセス権限リファレンス (p. 40) AWS Glue リソースへのアクセス権限の管理の概要すべての AWS リソースは AWS アカウントによって所有されとなりリソースの作成またはアクセスはアクセス権限のポリシーによって管理されますアカウント管理者はアクセス権限ポリシーを IAM アイデンティティ ( ユーザーグループロール ) にアタッチできます一部のサービス (AWS Lambda など ) ではアクセス権限ポリシーをリソースにアタッチすることもできます Note アカウント管理者 ( または管理者ユーザー ) は管理者権限を持つユーザーです詳細については IAM ユーザーガイドの IAM のベストプラクティスを参照してくださいアクセス権限を付与する場合アクセス権限を取得するユーザー取得するアクセス権限の対象となるリソースおよびそれらのリソースに対して許可される特定のアクションを決定しますトピック AWS Glue リソースおよびオペレーション (p. 36) リソース所有権について (p. 36) リソースへのアクセスの管理 (p. 36) ポリシー要素の指定 : アクション効果プリンシパル (p. 37) 35

43 AWS Glue 開発者ガイド AWS Glue リソースおよびオペレーションポリシーでの条件の指定 (p. 38) AWS Glue リソースおよびオペレーション AWS Glue には AWS Glue リソースを操作するための一連のオペレーションが用意されています可能なオペレーションのリストについては AWS Glue AWS Glue API (p. 270) を参照してくださいリソース所有権について AWS アカウントは誰がリソースを作成したかにかかわらずアカウントで作成されたリソースを所有します具体的にはリソース所有者はリソースの作成リクエストを認証するプリンシパルエンティティ ( ルートアカウント IAM ユーザーまたは IAM ロール ) の AWS アカウントです以下の例ではこのしくみを示しています AWS アカウントのルートアカウント認証情報を使用して a table を作成する場合この AWS アカウントがリソースの所有者です (AWS Glue ではリソースは a table です ) AWS アカウントに IAM ユーザーを作成しそのユーザーに a table を作成するためのアクセス権限を付与する場合そのユーザーは a table リソースを作成できますただしユーザーが属する AWS アカウントは table リソースを所有しています a table リソースを作成するためのアクセス権限を持つ AWS アカウントに IAM ロールを作成する場合はロールを引き受けることのできるいずれのユーザーも a table を作成できますユーザーが属する AWS アカウントは table リソースを所有していますリソースへのアクセスの管理アクセスポリシーでは誰が何にアクセスできるかを記述します以下のセクションでアクセス権限のポリシーを作成するために使用可能なオプションについて説明します Note このセクションでは AWS Glue のコンテキストでの IAM の使用について説明しますこれは IAM サービスに関する詳細情報を取得できません完全な IAM ドキュメントについては IAM とは? (IAM ユーザーガイド ) を参照してください IAM ポリシー構文の詳細および説明については IAM ユーザーガイドの AWS IAM ポリシーリファレンスを参照してください IAM アイデンティティにアタッチされたポリシーはアイデンティティベースのポリシー (IAM ポリシー ) と呼ばれリソースにアタッチされたポリシーはリソースベースのポリシーと呼ばれます AWS Glue ではアイデンティティベースのポリシー (IAM ポリシー ) のみサポートされますトピックアイデンティティベースのポリシー (IAM ポリシー ) (p. 36) リソースベースのポリシー (p. 37) アイデンティティベースのポリシー (IAM ポリシー ) ポリシーを IAM アイデンティティにアタッチできますたとえば次の操作を実行できますアカウントのユーザーまたはグループにアクセス権限ポリシーをアタッチする a table などの AWS Glue リソースを作成するためのアクセス権限を付与するにはユーザーまたはユーザーが所属するグループにアクセス権限ポリシーをアタッチできますアクセス権限ポリシーをロールにアタッチする ( クロスアカウントのアクセス権限を付与 ) アイデンティティベースのアクセス権限ポリシーを IAM ロールにアタッチしてクロスアカウントのアクセス権 36

44 AWS Glue 開発者ガイドポリシー要素の指定 : アクション効果プリンシパル限を付与することができますたとえばアカウント A の管理者は次のように他のまたは AWS にクロスアカウントのアクセス権限を別の AWS アカウント ( アカウント B) または AWS サービスに付与するロールを作成することができます 1. アカウント A の管理者は IAM ロールを作成してアカウント A のリソースに権限を付与するロールに権限ポリシーをアタッチします 2. アカウント A の管理者はアカウント B をそのロールを引き受けるプリンシパルとして識別するロールに信頼ポリシーをアタッチします 3. アカウント B の管理者はアカウント B のユーザーにロールを引き受ける権限を委任できるようになりますこれによりアカウント B のユーザーにアカウント A のリソースの作成とアクセスが許可されます AWS サービスのアクセス権限を付与してロールを引き受けさせたい場合は信頼ポリシー内のプリンシパルも AWS サービスのプリンシパルとなることができます IAM を使用したアクセス権限の委任の詳細については IAM ユーザーガイドのアクセス管理を参照してください AWS Glue アクション (glue:gettables) に許可を付与するポリシーの例を次に示します Resource 値のワイルドカード文字 (*) はこのアクションを使用して現在の AWS リージョンの AWS アカウントで所有されているデータベースすべてのテーブルの名前を取得できることを意味します { } "Version": " ", "Statement": [ { "Sid": "GetTables", "Effect": "Allow", "Action": [ "glue:gettables" ], "Resource": "*" } ] AWS Glue でアイデンティティベースのポリシーを使用する詳細については AWS Glue で ID ベースのポリシー (IAM ポリシー ) を使用する (p. 38) を参照してくださいユーザーグループロールアクセス権限の詳細についてはアイデンティティ ( ユーザーグループロール ) (IAM ユーザーガイド ) を参照してくださいリソースベースのポリシー Amazon S3 などの他のサービスではリソースベースのアクセス権限ポリシーもサポートされていますたとえばポリシーを S3 バケットにアタッチしてそのバケットに対するアクセス権限を管理できます AWS Glue ではリソースベースのポリシーはサポートされていませんポリシー要素の指定 : アクション効果プリンシパル AWS Glue リソースの種類ごとにこのサービスは一連の API オペレーションを定義しますこれらの API オペレーションのアクセス権限を付与するために AWS Glue はポリシー内に指定できる一連のアクションを定義します一部の API オペレーションは API オペレーションを実行するために複数のアクションに対するアクセス許可を要求できますリソースおよび API オペレーションの詳細については AWS Glue リソースおよびオペレーション (p. 36) および AWS Glue AWS Glue API (p. 270) を参照してください以下は最も基本的なポリシーの要素です 37

45 AWS Glue 開発者ガイドポリシーでの条件の指定リソース Amazon Resource Name (ARN) を使用してポリシーを適用するリソースを識別します詳細については AWS Glue リソースおよびオペレーション (p. 36) を参照してくださいアクションアクションのキーワードを使用して許可または拒否するリソースオペレーションを識別しますたとえば create を allow users to create a table に使用できます効果ユーザーが特定のアクションをリクエストする際の効果を指定します許可または拒否のいずれかになりますリソースへのアクセスを明示的に許可していない場合アクセスは暗黙的に拒否されますまた明示的にリソースへのアクセスを拒否すると別のポリシーによってアクセスが許可されている場合でもユーザーはそのリソースにアクセスできなくなりますプリンシパルアイデンティティベースのポリシー (IAM ポリシー ) でポリシーがアタッチされているユーザーが黙示的なプリンシパルとなりますリソースベースのポリシーでは権限 ( リソースベースのポリシーにのみ適用 ) を受け取りたいユーザーアカウントサービスまたはその他のエンティティを指定します AWS Glue doesn't support リソースベースのポリシー IAM ポリシーの構文と説明についての詳細については IAM ユーザーガイドの AWS IAM ポリシーの参照を参照してくださいすべての AWS Glue API オペレーションとそれらが適用されるリソースのリストについては AWS Glue API のアクセス権限 : アクションとリソースのリファレンス (p. 40) を参照してくださいポリシーでの条件の指定アクセス権限を付与するときアクセスポリシー言語を使用してポリシーが有効になる必要がある条件を指定できますたとえば特定の日付の後にのみ適用されるポリシーが必要になる場合がありますポリシー言語での条件の指定の詳細については IAM ユーザーガイドの条件を参照してください条件を表すにはあらかじめ定義された条件キーを使用します AWS 全体の条件キーと AWS Glue 固有のキーがあり必要に応じて使用できます AWS 全体を対象とするすべてのキーのリストについては IAM ユーザーガイドの条件に利用可能なキーを参照してください AWS Glue で ID ベースのポリシー (IAM ポリシー ) を使用するこのトピックではアカウント管理者が IAM アイデンティティ ( ユーザーグループロール ) にアクセス権限ポリシーをアタッチしそれによって AWS Glue リソースでオペレーションを実行するアクセス権限を付与する方法を示すアイデンティティベースのポリシーの例を示します Important 初めに AWS Glue リソースへのアクセスを管理するための基本概念と使用可能なオプションについて説明する概要トピックを読むことをお勧めします詳細については AWS Glue リソースへのアクセス権限の管理の概要 (p. 35) を参照してくださいこのセクションでは次のトピックを対象としています AWS Glue コンソールを使用するために必要なアクセス権限 (p. 39) AWS Glue での AWS 管理 ( 事前定義 ) ポリシー (p. 39) 以下に示しているのは Amazon DynamoDB のアクセス権限ポリシーの例です { "Version": " ", "Statement": [ 38

46 AWS Glue 開発者ガイドコンソールのアクセス許可 } ] { } "Sid": "DescribeQueryScanBooksTable", "Effect": "Allow", "Action": [ "dynamodb:describetable", "dynamodb:query", "dynamodb:scan" ], "Resource": "arn:aws:dynamodb:us-west-2:account-id:table/books" このポリシーには us-west-2 リージョンのテーブルで 3 つの DynamoDB アクション (dynamodb:describetable dynamodb:query dynamodb:scan) を許可する 1 つのステートメントがありますこれは account-id で指定される AWS アカウントで所有されています値の Amazon リソースネーム (ARN)Resource ではアクセス権限が適用されるテーブルを指定します AWS Glue コンソールを使用するために必要なアクセス権限 AWS Glue コンソールを使用して作業するユーザーに対してはユーザーに AWS アカウントの AWS Glue リソースの使用を許可する最小限のアクセス許可が必要ですこれらの AWS Glue アクセス許可に加えてコンソールでは次のサービスからのアクセス許可が必要になりますログを表示する Amazon CloudWatch Logs のアクセス権限ロールをリストして渡す AWS Identity and Access Management のアクセス権限スタックを操作する AWS CloudFormation のアクセス権限 VPC サブネットセキュリティグループインスタンスおよびその他のオブジェクトをリストする Amazon Elastic Compute Cloud のアクセス権限バケットとオブジェクトをリストする Amazon Simple Storage Service のアクセス権限またスクリプトを取得して保存できるアクセス権限クラスターを操作する Amazon Redshift のアクセス権限インスタンスをリストする Amazon Relational Database Service アクセス権限ユーザーが AWS Glue コンソールを表示して操作するために必要なアクセス権限の詳細についてはステップ 3: AWS Glue にアクセスする IAM ユーザーにポリシーをアタッチする (p. 14) を参照してくださいこれらの最小限必要なアクセス権限よりも制限された IAM ポリシーを作成している場合その IAM ポリシーを使用するユーザーに対してコンソールは意図したとおりには機能しませんこれらのユーザーが引き続き AWS Glue コンソールを使用できるようにするには AWSGlueConsoleFullAccess をユーザーにアタッチしますそれに関しては AWS Glue での AWS 管理 ( 事前定義 ) ポリシー (p. 39) で説明されています AWS CLI または AWS Glue API のみを呼び出すユーザーには最小限のコンソールアクセス権限を付与する必要はありません AWS Glue での AWS 管理 ( 事前定義 ) ポリシー AWS は AWS によって作成され管理されるスタンドアロンの IAM ポリシーが提供する多くの一般的ユースケースに対応しますこれらの AWS 管理ポリシーは一般的ユースケースに必要なアクセス権限を付与することでどの権限が必要なのかをユーザーが調査する必要をなくすことができます詳細については IAM ユーザーガイドの AWS 管理ポリシーを参照してください 39

47 AWS Glue 開発者ガイド AWS Glue API のアクセス権限リファレンスアカウントのユーザーにアタッチ可能な以下の AWS 管理ポリシーは AWS Glue に固有のものでユースケースシナリオ別にグループ化されます AWSGlueConsoleFullAccess AWS マネジメントコンソールを使用して AWS Glue リソースへのフルアクセスを付与しますこのポリシーで指定されたリソースの命名規則に従った場合ユーザーは完全なコンソール機能を使用できますこのポリシーは通常 AWS Glue コンソールのユーザーにアタッチされています AWSGlueServiceRole さまざまな AWS Glue プロセスを実行するために必要なリソースへのアクセス権をユーザーに代わって付与しますこれらのリソースには AWS Glue Amazon S3 IAM CloudWatch Logs および Amazon EC2 が含まれますこのポリシーで指定されたリソースの命名規則に従った場合 AWS Glue プロセスは必要なアクセス権限を使用できますこのポリシーは通常クローラジョブ開発エンドポイントを定義するときに指定されたロールにアタッチされます AWSGlueServiceNotebookRole ノートブックサーバーを作成するときに必要なリソースへのアクセスを付与しますこれらのリソースには AWS Glue Amazon S3 および Amazon EC2 が含まれますこのポリシーで指定されたリソースの命名規則に従った場合 AWS Glue プロセスは必要なアクセス権限を使用できますこのポリシーは通常開発エンドポイントでノートブックサーバーを作成するときに指定されたロールにアタッチされます Note IAM コンソールにサインインし特定のポリシーを検索することでこれらのアクセス権限ポリシーを確認することができます独自のカスタム IAM ポリシーを作成して AWS Glue アクションとリソースのための権限を許可することもできますこれらのカスタムポリシーはそれらのアクセス権限が必要な IAM ユーザーまたはグループにアタッチできます AWS Glue API のアクセス権限 : アクションとリソースのリファレンスアクセスコントロール (p. 35) をセットアップし IAM アイデンティティにアタッチできるアクセス権限ポリシー ( アイデンティティベースのポリシー ) を作成するときは以下のリストをリファレンスとして使用できますリストには各 AWS Glue API オペレーションアクションを実行するためのアクセス権限を付与できる対応するアクションおよびアクセス権限を付与できる AWS リソースが掲載されていますポリシーの Action フィールドでアクションを指定しポリシーの Resource フィールドでリソースの値を指定します AWS Glue ポリシーで AWS 全体の条件キーを使用して条件を表現することができます AWS 全体を対象とするすべてのキーのリストについては IAM ユーザーガイドの利用可能なキーを参照してください Note アクションを指定するには API オペレーション名 (glue:gettable など ) の前に glue: プレフィックスを使用します AWS Glue API のアクセス権限 : アクションとリソースのリファレンス BatchCreatePartition アクション (Python: batch_create_partition) (p. 294) アクション : glue:batchcreatepartition リソース : 40

48 AWS Glue 開発者ガイド AWS Glue API のアクセス権限リファレンス * BatchDeleteConnection アクション (Python: batch_delete_connection) (p. 304) アクション : glue:batchdeleteconnection リソース : * BatchDeletePartition アクション (Python: batch_delete_partition) (p. 296) アクション : glue:batchdeletepartition リソース : * BatchDeleteTable アクション (Python: batch_delete_table) (p. 286) アクション : glue:batchdeletettable リソース : * BatchGetPartition アクション (Python: batch_get_partition) (p. 299) アクション : glue:batchgetpartition リソース : * BatchStopJobRun アクション (Python: batch_stop_job_run) (p. 343) アクション : glue:batchstopjobrun リソース : * CreateClassifier アクション (Python: create_classifier) (p. 315) アクション : glue:createclassifier リソース : * CreateConnection アクション (Python: create_connection) (p. 301) アクション : glue:createconnection リソース : * CreateCrawler アクション (Python: create_crawler) (p. 321) アクション : glue:createcrawler リソース : * CreateDatabase アクション (Python: create_database) (p. 276) アクション : glue:createdatabase 41

49 AWS Glue 開発者ガイド AWS Glue API のアクセス権限リファレンスリソース : * CreateDevEndpoint アクション (Python: create_dev_endpoint) (p. 354) アクション : glue:createdevendpoint リソース : * CreateJob アクション (Python: create_job) (p. 336) アクション : glue:createjob リソース : * CreatePartition アクション (Python: create_partition) (p. 294) アクション : glue:createpartition リソース : * CreateScript アクション (Python: create_script) (p. 330) アクション : glue:createscript リソース : * CreateTable アクション (Python: create_table) (p. 284) アクション : glue:createtable リソース : * CreateTrigger アクション (Python: create_trigger) (p. 348) アクション : glue:createtrigger リソース : * CreateUserDefinedFunction アクション (Python: create_user_defined_function) (p. 306) アクション : glue:createuserdefinedfunction リソース : * DeleteClassifier アクション (Python: delete_classifier) (p. 316) アクション : glue:createclassifier リソース : * 42

50 AWS Glue 開発者ガイド AWS Glue API のアクセス権限リファレンス DeleteConnection アクション (Python: delete_connection) (p. 302) アクション : glue:updateconnection リソース : * DeleteCrawler アクション (Python: delete_crawler) (p. 322) アクション : glue:deletecrawler リソース : * DeleteDatabase アクション (Python: delete_database) (p. 277) アクション : glue:deletedatabase リソース : * DeleteDevEndpoint アクション (Python: delete_dev_endpoint) (p. 356) アクション : glue:deletedevendpoint リソース : * DeleteJob アクション (Python: delete_job) (p. 339) アクション : glue:deletejob リソース : * DeletePartition アクション (Python: delete_partition) (p. 296) アクション : glue:updatepartition リソース : * DeleteTable アクション (Python: delete_table) (p. 285) アクション : glue:deletetable リソース : * DeleteTrigger アクション (Python: delete_trigger) (p. 351) アクション : glue:deletetrigger リソース : * DeleteUserDefinedFunction アクション (Python: delete_user_defined_function) (p. 307) アクション : glue:deleteuserdefinedfunction 43

51 AWS Glue 開発者ガイド AWS Glue API のアクセス権限リファレンスリソース : * GetCatalogImportStatus アクション (Python: get_catalog_import_status) (p. 310) アクション : glue:getcatalogimportstatus リソース : * GetClassifier アクション (Python: get_classifier) (p. 316) アクション : glue:getclassifier リソース : * GetClassifiers アクション (Python: get_classifiers) (p. 316) アクション : glue:getclassifiers リソース : * GetConnection アクション (Python: get_connection) (p. 302) アクション : glue:getconnection リソース : * GetConnections アクション (Python: get_connections) (p. 303) アクション : glue:getconnections リソース : * GetCrawler アクション (Python: get_crawler) (p. 323) アクション : glue:getcrawler リソース : * GetCrawlerMetrics アクション (Python: get_crawler_metrics) (p. 324) アクション : glue:getcrawlermetrics リソース : * GetCrawlers アクション (Python: get_crawlers) (p. 323) アクション : glue:getcrawlers リソース : * 44

52 AWS Glue 開発者ガイド AWS Glue API のアクセス権限リファレンス GetDatabase アクション (Python: get_database) (p. 278) アクション : glue:getdatabase リソース : * GetDatabases アクション (Python: get_databases) (p. 278) アクション : glue:getdatabases リソース : * GetDataflowGraph アクション (Python: get_dataflow_graph) (p. 331) アクション : glue:getdataflowgraph リソース : * GetDevEndpoint アクション (Python: get_dev_endpoint) (p. 357) アクション : glue:getdevendpoint リソース : * GetDevEndpoints アクション (Python: get_dev_endpoints) (p. 357) アクション : glue:getdevendpoints リソース : * GetJob アクション (Python: get_job) (p. 338) アクション : glue:getjob リソース : * GetJobRun アクション (Python: get_job_run) (p. 344) アクション : glue:getjobrun リソース : * GetJobRuns アクション (Python: get_job_runs) (p. 344) アクション : glue:getjobruns リソース : * GetJobs アクション (Python: get_jobs) (p. 338) アクション : glue:getjobs 45

53 AWS Glue 開発者ガイド AWS Glue API のアクセス権限リファレンスリソース : * GetMapping アクション (Python: get_mapping) (p. 332) アクション : glue:getmapping リソース : * GetPartition アクション (Python: get_partition) (p. 297) アクション : glue:getpartition リソース : * GetPartitions アクション (Python: get_partitions) (p. 298) アクション : lue:getpartitions リソース : * GetTable アクション (Python:get_table) (p. 287) アクション : glue:gettable リソース : * GetTables アクション (Python: get_tables) (p. 287) アクション : glue:gettables リソース : * GetTableVersions アクション (Python: get_table_versions) (p. 289) アクション : glue:gettableversions リソース : * GetTrigger アクション (Python: get_trigger) (p. 349) アクション : glue:gettrigger リソース : * GetTriggers アクション (Python: get_triggers) (p. 350) アクション : glue:gettriggers リソース : * 46

54 AWS Glue 開発者ガイド AWS Glue API のアクセス権限リファレンス GetUserDefinedFunction アクション (Python: get_user_defined_function) (p. 308) アクション : glue:getuserdefinedfunction リソース : * GetUserDefinedFunctions アクション (Python: get_user_defined_functions) (p. 308) アクション : glue:getuserdefinedfunctions リソース : * ImportCatalogToGlue アクション (Python: import_catalog_to_glue) (p. 310) アクション : glue:importcatalogtoglue リソース : * ResetJobBookmark アクション (Python: reset_job_bookmark) (p. 345) アクション : glue:resetjobbookmark リソース : * StartCrawler アクション (Python: start_crawler) (p. 325) アクション : glue:startcrawler リソース : * StartCrawlerSchedule アクション (Python: start_crawler_schedule) (p. 327) アクション : glue:startcrawlerschedule リソース : * StartJobRun アクション (Python: start_job_run) (p. 342) アクション : glue:startjobrun リソース : * StartTrigger アクション (Python: start_trigger) (p. 349) アクション : glue:starttrigger リソース : * StopCrawler アクション (Python: stop_crawler) (p. 326) アクション : glue:stopcrawler 47

55 AWS Glue 開発者ガイド AWS Glue API のアクセス権限リファレンスリソース : * StopCrawlerSchedule アクション (Python: stop_crawler_schedule) (p. 328) アクション : glue:stopcrawlerschedule リソース : * StopTrigger アクション (Python: stop_trigger) (p. 351) アクション : glue:stoptrigger リソース : * UpdateClassifier アクション (Python: update_classifier) (p. 317) アクション : glue:updateclassifier リソース : * UpdateConnection アクション (Python: update_connection) (p. 304) アクション : glue:updateconnection リソース : * UpdateCrawler アクション (Python: update_crawler) (p. 324) アクション : glue:updatecrawler リソース : * UpdateCrawlerSchedule アクション (Python: update_crawler_schedule) (p. 327) アクション : glue:updatecrawlerschedule リソース : * UpdateDatabase アクション (Python: update_database) (p. 277) アクション : glue:updatedatabase リソース : * UpdateDevEndpoint アクション (Python: update_dev_endpoint) (p. 356) アクション : glue:updatedevendpoint リソース : * 48

56 AWS Glue 開発者ガイド関連トピック UpdateJob アクション (Python: update_job) (p. 337) アクション : glue:updatejob リソース : * UpdatePartition アクション (Python: update_partition) (p. 295) アクション : glue:updatepartition リソース : * UpdateTable アクション (Python: update_table) (p. 285) アクション : glue:updatetable リソース : * UpdateTrigger アクション (Python: update_trigger) (p. 350) アクション : glue:updatetrigger リソース : * UpdateUserDefinedFunction アクション (Python: update_user_defined_function) (p. 307) アクション : glue:updatateuserdefinedfunction リソース : * 関連トピックアクセスコントロール (p. 35) 49

57 AWS Glue 開発者ガイド AWS Glue データカタログの入力 AWS Glue データカタログには AWS Glue. での抽出変換およびロード (ETL) ジョブのソースおよびターゲットとして使用するデータへのリファレンスが含まれていますデータウェアハウスを作成するにはこのデータを分類する必要があります AWS Glue データカタログはデータの場所スキーマおよびランタイムメトリクスへのインデックスです Data Catalog 内の情報を使用して ETL ジョブを作成し監視します通常クローラを実行してデータストア内のデータのインベントリを行いますが Data Catalog にメタデータテーブルを追加する別の方法もあります以下の方法で AWS Glue データカタログにテーブル定義を追加できます 1 つまたは複数のデータストアに接続しデータ構造を決定し Data Catalog にテーブルを書き込むクローラを実行しますスケジュールに基づいてクローラを実行することができます詳細についてはクローラを使用してテーブルを分類する (p. 55) を参照してください AWS Glue コンソールを使用して AWS Glue データカタログにテーブルを作成します詳細については AWS Glue コンソールでのテーブルの使用 (p. 52) を参照してください AWS Glue API (p. 270) の CreateTable オペレーションを使用し AWS Glue データカタログにテーブルを作成します次のワークフロー図は AWS Glue クローラがデータストアや他の要素とやり取りして Data Catalog に入力する方法を示していますクローラが AWS Glue データカタログに入力する一般的なワークフローを以下に示します 50

58 AWS Glue 開発者ガイド AWS Glue データカタログでテーブルを定義する 1. クローラが選択した任意のカスタム分類子を実行しデータのスキーマを推論しますカスタム分類子のコードを提供すると指定した順序で実行されますデータの構造を正常に認識した最初のカスタム分類子がスキーマを作成するために使用されますリストで下位のカスタム分類子スキップされます 2. カスタム分類子と一致するデータのスキーマがない場合は組み込み分類子がデータのスキーマを認識します 3. クローラがデータストアに接続します一部のデータストアではクローラがアクセスするために接続プロパティを必要とします 4. データの推測されたスキーマが作成されます 5. クローラは Data Catalog にメタデータを書き込みますテーブル定義にはデータストア内のデータに関するメタデータが含まれていますテーブルは Data Catalog でテーブルのコンテナとなるデータベースに書き込まれますテーブルの属性には分類が含まれますこれはテーブルのスキーマを推測した分類子により作成されるラベルですトピック AWS Glue データカタログでテーブルを定義する (p. 51) クローラを使用してテーブルを分類する (p. 55) データカタログでのデータベースの定義 (p. 65) クローラに分類子を追加する (p. 66) データストアに接続を追加する (p. 80) AWS CloudFormation テンプレートを使用したデータカタログの事前設定 (p. 85) AWS Glue データカタログでテーブルを定義する AWS Glue でテーブルを定義する場合はそのテーブルに保存されているデータのタイプとフォーマットを示す分類フィールドの値も指定しますクローラでテーブルを作成する場合これらの分類は組み込み分類子またはカスタム分類子のいずれかによって決定されますコンソールまたは API を使用して手動でテーブルを作成する場合はテーブルを定義するときに分類を指定します AWS Glue コンソールを使用してテーブルを作成する方法の詳細については AWS Glue コンソールでのテーブルの使用 (p. 52) を参照してくださいテーブルのメタデータの変更をクローラが検出した場合新しいバージョンのテーブルが AWS Glue データカタログに作成されますテーブルの現在のバージョンと過去のバージョンを比較できますテーブルのスキーマにはその構造が含まれていますまたスキーマを編集して新しいバージョンのテーブルを作成することもできますテーブルの履歴も Data Catalog で管理されますこの履歴には抽出変換およびロード (ETL) ジョブによってデータストアが更新されたときに収集されるメトリクスが含まれますジョブの名前実行時間追加された行の数およびジョブの実行にかかった時間を調べることができます ETL ジョブによって使用されたスキーマのバージョンも履歴に保持されますテーブルパーティション Amazon Simple Storage Service (Amazon S3) フォルダの AWS Glue テーブル定義によってパーティションテーブルを記述できますたとえばクエリのパフォーマンスを向上させるためにパーティションテーブルでは月の名前をキーとして毎月のデータを別のファイルに分割する場合があります AWS Glue ではテーブル定義にテーブルのパーティションキーが含まれています AWS Glue は Amazon S3 フォルダのデータを評価してテーブルをカタログ化するとき個々のテーブルまたはパーティション分割されたテーブルを追加するかどうかを決定します 51

59 AWS Glue 開発者ガイドコンソールでのテーブルの使用 AWS Glue によって Amazon S3 フォルダのパーティション表を作成するには次の条件がすべて満たされている必要がありますファイルのスキーマは AWS Glue によって決定されるものと似ているファイルのデータ形式が同じであるファイルの圧縮形式が同じであるたとえば ios と Android アプリケーションの販売データを保存する my-app-bucket という名前の Amazon S3 バケットを所有しているとしますデータは年月日で分割されます ios および Android の販売に関するデータファイルは同じスキーマデータ形式および圧縮形式です AWS Glue データカタログでは AWS Glue クローラが年月日のパーティションキーを使用して 1 つのテーブル定義を作成します次の my-app-bucket の Amazon S3 リストではパーティションのいくつかが示されています = シンボルはパーティションキー値の割り当てに使用されます my-app-bucket/sales/year='2010'/month='feb'/day='1'/ios.csv my-app-bucket/sales/year='2010'/month='feb'/day='1'/android.csv my-app-bucket/sales/year='2010'/month='feb'/day='2'/ios.csv my-app-bucket/sales/year='2010'/month='feb'/day='2'/android.csv... my-app-bucket/sales/year='2017'/month='feb'/day='4'/ios.csv my-app-bucket/sales/year='2017'/month='feb'/day='4'/android.csv AWS Glue コンソールでのテーブルの使用 AWS Glue データカタログのテーブルはデータストア内のデータを表すメタデータ定義ですクローラの実行時にテーブルを作成するかまたは AWS Glue コンソールで手動でテーブルを作成できます AWS Glue コンソールの [Tables] ( テーブル ) リストにテーブルのメタデータの値が表示されます ETL ( 抽出変換およびロード ) ジョブを作成するときにテーブル定義を使用してソースとターゲットを指定します開始するには AWS マネジメントコンソールにサインインし AWS Glue コンソール ( console.aws.amazon.com/glue/) を開きます [Tables] ( テーブル ) タブをクリックし [Add tables] ( テーブルの追加 ) ボタンを使用してクローラでまたは属性を手動で入力してテーブルを作成しますコンソールでテーブルを追加するクローラを使用してテーブルを追加するには [Add tables] ( テーブルの追加 ) [Add tables using a crawler] ( クローラを使用してテーブルを追加 ) の順に選択します次に [Add crawler] ( クローラの追加 ) ウィザードの手順に従いますクローラが実行されるとテーブルが AWS Glue データカタログに追加されます詳細についてはクローラを使用してテーブルを分類する (p. 55) を参照してください Data Catalog で Amazon Simple Storage Service (Amazon S3) テーブル定義の作成に必要な属性が分かっている場合はテーブルウィザードで作成できます [Add tables] ( テーブルの追加 ) [Add table manually] ( 手動でのテーブルを追加 ) の順に選択し [Add table] ( テーブルの追加 ) ウィザードの手順に従いますコンソールで手動でテーブルを追加するときは以下の点を考慮します Amazon Athena からテーブルにアクセスする場合は英数字とアンダースコア文字のみを使用して名前を指定します詳細については Athena の名前に関するドキュメントを参照してくださいソースデータの場所は Amazon S3 パスにする必要があります 52

60 AWS Glue 開発者ガイドコンソールでのテーブルの使用データのデータ形式はウィザードに表示されているいずれかの形式と一致する必要があります対応する分類 SerDe およびその他のテーブルのプロパティは選択された形式に基づいて自動的に入力されます次の形式でテーブルを定義できます JSON CSV JavaScript Object Notation 文字で区切られた値また区切り文字としてカンマパイプセミコロンタブまたは Ctrl- A を指定します Parquet Avro XML Apache Parquet 列指向ストレージ Apache Avro JSON バイナリ形式 Extensible Markup Language 形式データの行を定義する XML タグを指定します列は行のタグ内で定義されますテーブルのパーティションキーを定義できます現在コンソールで作成した分割されたテーブルは ETL ジョブで使用することはできませんテーブル属性以下に重要なテーブル属性を示しますテーブル名名前はテーブルの作成時に決定され変更することはできません多くの AWS Glue オペレーションでテーブル名を参照しますデータベース場所分類テーブルが存在するコンテナオブジェクトこのオブジェクトには AWS Glue データカタログ内に存在するテーブルの組織が含まれデータストアの組織とは異なる場合がありますデータベースを削除するとデータベースに含まれるすべてのテーブルも Data Catalog から削除されますこのテーブル定義が表すデータストア内のデータの場所へのポインタテーブルの作成時に指定された分類の値通常これはクローラが実行されてソースデータの形式を指定するときに書き込まれます最終更新日 Data Catalog でこのテーブルが更新された日付と時刻 (UTC) 追加された日付 Data Catalog にこのテーブルが追加された日付と時刻 (UTC) Description 廃止テーブルの説明テーブルの内容を理解しやすくするために説明を記入できます AWS Glue により Data Catalog のテーブルは元のデータストアに存在しなくなったことが分かるとそのテーブルは廃止されたとしてデータカタログにマークされます廃止されたテーブルを参 53

61 AWS Glue 開発者ガイドコンソールでのテーブルの使用照するジョブを実行する場合ジョブは失敗する可能性があります廃止されたテーブルを参照するジョブを編集しソースおよびターゲットとして削除します廃止されたテーブルが不要になったら削除することをお勧めします Connection AWS Glue でデータストアへの接続が必要な場合は接続の名前がテーブルに関連付けられますテーブルの詳細の表示と編集既存のテーブルの詳細を表示するにはリスト内のテーブル名を選択し [Action, View details] ( アクション詳細を表示 ) を選択しますテーブルの詳細にはテーブルのプロパティとスキーマが含まれますこのビューにはテーブルに定義された順序の列名データ型およびパーティションのキー列を含むテーブルのスキーマが表示されます列が複合型の場合は以下の例に示すように [View properties] ( プロパティの表示 ) を選択してそのフィールドの構造の詳細を表示します { "StorageDescriptor": { "cols": { "FieldSchema": [ { "name": "primary-1", "type": "CHAR", "comment": "" }, { "name": "second ", "type": "STRING", "comment": "" } ] }, "location": "s3://aws-logs us-east-1", "inputformat": "", "outputformat": "org.apache.hadoop.hive.ql.io.hiveignorekeytextoutputformat", "compressed": "false", "numbuckets": "0", "SerDeInfo": { "name": "", "serializationlib": "org.apache.hadoop.hive.serde2.opencsvserde", "parameters": { "separatorchar": " " } }, "bucketcols": [], "sortcols": [], "parameters": {}, "SkewedInfo": {}, "storedassubdirectories": "false" }, "parameters": { "classification": "csv" } } StorageDescriptor などのテーブルのプロパティの詳細については StorageDescriptor 構造 (p. 281) を参照してくださいテーブルのスキーマを変更するには [Edit schema] ( スキーマの編集 ) を選択し列の追加および削除列名の変更データ型の変更をします 54

62 AWS Glue 開発者ガイドクローラを使用してテーブルを分類するスキーマを含めテーブルの異なるバージョンを比較するには [Compare versions] ( バージョンの比較 ) を選択しテーブルの 2 つのバージョンのスキーマを並べて比較します Amazon S3 パーティションを構成するファイルを表示するには [View partition] ( パーティションの表示 ) を選択します Amazon S3 のテーブルでは [Key] ( キー ) 列にソースデータストアでテーブルを分割するために使用されるパーティションキーが表示されますパーティションは日付場所または部門などのキー列の値に基づいてテーブルを関連する部分に分割する方法ですパーティションの詳細についてはインターネットで hive パーティションを検索してください Note テーブルの詳細を表示するための詳細な手順についてはコンソールの [Explore table] ( テーブルの確認 ) チュートリアルを参照してくださいクローラを使用してテーブルを分類するクローラを使用して AWS Glue データカタログにテーブルを入力することができますこれは AWS Glue ユーザーが最もよく使用する基本的な方法ですデータストアを経由するよう Data Catalog 内にクローラを追加しますクローラの出力は Data Catalog で定義された 1 つ以上のメタデータテーブルで構成されています AWS Glue で定義した抽出変換およびロード (ETL) ジョブはこれらのメタデータテーブルをソースおよびターゲットとして使用しますクローラは AWS Identity and Access Management (IAM) ロールをアクセス許可のために使用してデータストアおよび Data Catalog にアクセスしますクローラに渡すロールはクロールされた Amazon S3 パスにアクセスするためのアクセス権限を持っている必要があります一部のデータストアでは必要な接続を確立するための追加の認証が必要です詳細についてはデータストアに接続を追加する (p. 80) を参照してください AWS Glue コンソールを使用してクローラを追加する方法の詳細については AWS Glue コンソールでのクローラの使用 (p. 63) を参照してください AWS Glue データカタログでクローラを定義するクローラを定義する場合データの形式を評価してスキーマを推測する分類子を 1 つ以上選択しますクローラを実行するとリストで最初にデータストアの認識に成功した分類子を使用してテーブルのスキーマが作成されます組み込み分類子を使用するか独自に定義することができます AWS Glue は組み込み分類子を提供して JSON CSV および Apache Avro を含む形式を持つ共通ファイルからスキーマを推測します AWS Glue の組み込み分類子の最新のリストについては AWS Glue の組み込み分類子 (p. 67) を参照してくださいクロール可能なデータストアクローラはファイルベースおよびリレーショナルテーブルベースのデータストアの両方をクロールできますクローラは次のデータストアのデータを保存することができます Amazon Simple Storage Service (Amazon S3) Amazon Redshift Amazon Relational Database Service (Amazon RDS) Amazon Aurora MariaDB Microsoft SQL Server MySQL Oracle PostgreSQL パブリックにアクセス可能なデータベース 55

63 AWS Glue 開発者ガイド包含パターンと除外パターンを使用する Amazon Aurora MariaDB Microsoft SQL Server MySQL Oracle PostgreSQL Amazon S3 データストアを定義してクロールする場合自分のアカウントのパスをクロールするかまたは別のアカウントのパスをクロールするかを選択できますクローラの出力は AWS Glue データカタログで定義された 1 つ以上のメタデータテーブルですテーブルはデータストアにある 1 つ以上のファイルに対して作成されますフォルダにあるすべての Amazon S3 ファイルが同じスキーマを持つ場合クローラは 1 つのテーブルを作成しますまた Amazon S3 オブジェクトが分割されている場合メタデータテーブルは 1 つしか作成されませんクロールするデータストアがリレーショナルデータベースの場合出力も AWS Glue データカタログで定義されたメタデータテーブルのセットになりますリレーショナルデータベースをクロールする場合データベースエンジンのオブジェクトを読み取るには接続の許可認証情報を指定する必要がありますデータベースエンジンのタイプに応じてどのオブジェクト ( データベーススキーマテーブルなど ) をクロールするかを選択できます包含パターンと除外パターンを使用するクロールで何を含め何を除外するかを評価する際クローラは必要なインクルードパスを評価することから始めますクロールするデータストアごとに 1 つのインクルードパスを指定する必要があります Amazon S3 データストアの場合構文は bucket-name/folder-name/file-name.ext ですバケット内のすべてのオブジェクトをクロールするにはインクルードパスにバケット名のみ指定します JDBC データストアの場合構文は database-name/schema-name/table-name または databasename/table-name です構文はデータベースエンジンでデータベース内のスキーマがサポートされているかどうかに依存しますたとえば MySQL や Oracle などのデータベースエンジンの場合はインクルードパスに schema-name を指定しませんインクルードパスでスキーマやテーブルの代わりにパーセント記号 (%) を使用することでデータベース内のすべてのスキーマやテーブルを表すことができますインクルードパスでデータベースの代わりにパーセント記号 (%) を使用することはできませんクローラでは JDBC データストアに接続するために JDBC URI 接続文字列を含む AWS Glue 接続を使用しますクローラはデータベースエンジン内のオブジェクトにのみアクセスできますそのために AWS Glue 接続で JDBC ユーザー名とパスワードを使用しますクローラは JDBC 接続を介してアクセスできるテーブルのみ作成できますクローラは JDBC URI を使用してデータベースエンジンにアクセスした後でインクルードパスを使用して Data Catalog で作成するデータベースエンジン内のテーブルを決定しますたとえば MySQL の場合 MyDatabase/% のインクルードパスを指定すると MyDatabase 内のすべてのテーブルが Data Catalog で作成されます Amazon Redshift にアクセスする場合 MyDatabase/% のインクルードパスを指定するとデータベース MyDatabase の各スキーマ内のすべてのテーブルが Data Catalog で作成されます MyDatabase/MySchema/% のインクルードパスを指定するとデータベース MyDatabase のすべてのテーブルとスキーマ MySchema が作成されますインクルードパスの指定後に 1 つ以上の Unix 形式の glob 除外パターンを指定することでインクルードパスに含まれる予定であったオブジェクトをクロールから除外できます AWS Glue は除外パターンで次の種類の glob パターンをサポートしていますこれらのパターンはインクルードパスに適用されてどのオブジェクトを除外するか決定します除外パターン *.csv Description.csv で終わるオブジェクト名を表わす Amazon S3 パスと一致する 56

64 AWS Glue 開発者ガイド包含パターンと除外パターンを使用する除外パターン Description *.* ドットを含むオブジェクト名すべてと一致する *.{csv,avro} foo.? /myfolder/* /myfolder/*/* /myfolder/** Market*.csv か.avro で終わるオブジェクト名と一致する foo. で始まりその後に 1 文字の拡張子が続くオブジェクト名と一致する /myfolder/mysource など myfolder のサブフォルダの 1 つのレベルにあるオブジェクトと一致する /myfolder/mysource/data など myfolder のサブフォルダの 2 つのレベルにあるオブジェクトと一致する myfolder のすべてのサブフォルダにあるオブジェクト (/myfolder/mysource/mydata や / myfolder/mysource/data など ) と一致する JDBC データベースの Market で始まる名前のテーブル (Market_us や Market_fr など ) と一致する AWS Glue は glob 除外パターンを次のように解釈しますスラッシュ (/) 文字は Amazon S3 キーをフォルダ階層に区切る区切り記号ですアスタリスク (*) 記号はフォルダの境界を超えない 0 文字以上の名前の要素に相当します二重アスタリスク (**) はフォルダやスキーマの境界を越える 0 個以上の文字に相当します疑問符 (?) 記号は名前の要素のちょうど 1 文字に相当しますバックスラッシュ (\) 文字は本来ならば特殊文字として解釈される文字をエスケープ処理するために使用されます \\ 式はバックスラッシュ 1 つに相当し \{ は左括弧に相当します角括弧 ([ ]) は一連の文字の中から名前の要素の 1 文字に相当する角括弧式を作成しますたとえば [abc] は a b または c に一致しますハイフン (-) は範囲を指定するために使用されますつまり [a-z] は a から z ( この値を含みます ) までに相当する範囲を指定しますこれらのフォームは組み合わせることができますそのため [abce-g] は a b c e f または g に一致します角括弧 ([) の後の文字が感嘆符 (!) の場合角括弧式は否定の意味になりますたとえば [!a-c] は a b または c 以外のすべての文字に一致します角括弧式内では *? および \ 文字は文字通りの意味ですハイフン (-) 文字は角括弧内で最初の文字だった場合または式を否定する! の次の文字だった場合は文字通りの意味です中括弧 ({ }) はグループ内のサブパターンが一致する場合にグループが一致するサブパターンのグループを囲みますカンマ (,) 文字はサブパターンを分割するために使用されますグループはネストできませんファイル名の先頭のピリオドまたはドット文字はマッチ操作では通常の文字として扱われますたとえば * 除外パターンはファイル名.hidden に一致します Example Amazon S3 の除外パターン各除外パターンはインクルードパスに対して評価されますたとえば次の Amazon S3 ディレクトリ構造があるとします /mybucket/myfolder/ 57

65 AWS Glue 開発者ガイド包含パターンと除外パターンを使用する departments/ finance.json market-us.json market-emea.json market-ap.json employees/ hr.json john.csv jane.csv juan.txt インクルードパスが s3://mybucket/myfolder/ の場合以下は除外パターンのサンプル結果の一部です除外パターン departments/** departments/market* **.csv employees/*.csv 戻り値 departments フォルダ内のすべてのファイルとフォルダを除外し employees フォルダとそのファイルを含めます market-us.json market-emea.json および market-ap.json を除外します名前が.csv で終わる myfolder 以下のすべてのオブジェクトを除外します employees フォルダ内のすべての.csv ファイルを除外します Example Amazon S3 パーティションのサブセットの除外データを日別にパーティション分割して 1 年の日別に異なる Amazon S3 パーティションを使うとします 2015 年 1 月には 31 のパーティションがありますここで 1 月の第 1 週のみのデータをクロールするには 1 日 7 日を除くすべてのパーティションを除外する必要があります 2015/01/{[!0],0[8-9]}**, 2015/0[2-9]/**, 2015/1[0-2]/** この glob パターンの各パートを見てみます最初のパートは 2015/01/{[!0],0[8-9]}** で "0" で始まらないすべての日付および 2015 年 01 月の 08 日目および 09 日目を除外しています "**" を日数パターンのサフィックスとして使用すると下位レベルフォルダへのフォルダ境界を越えることに注意してください "*" を使用すると下位レベルフォルダは除外されます 2 番目のパートは 2015/0[2-9]/** で 2015 年 02 から 09 月までの日を除外します 3 番目のパートは 2015/1[0-2]/** で 2015 年月の日を除外します Example JDBC の除外パターン次のスキーマ構造を使用して JDBC データベースをクロールしているとします MyDatabase/MySchema/ HR_us HR_fr Employees_Table Finance 58

66 AWS Glue 開発者ガイドクローラを実行するとどうなるか Market_US_Table Market_EMEA_Table Market_AP_Table インクルードパスが MyDatabase/MySchema/% の場合以下は除外パターンのサンプル結果の一部です除外パターン HR* Market_* **_Table 戻り値 HR で始まる名前を持つテーブルを除外 Market_ で始まる名前を持つテーブルを除外 _Table で終わる名前を持つテーブルをすべて除外クローラを実行するとどうなるかクローラを実行するとクローラは以下のアクションを使用してデータストアを調査します生データの形式スキーマおよび関連プロパティを確認するためにデータを分類するカスタム分類子を作成して分類の結果を設定できますデータをテーブルまたはパーティションにグループ化するデータはクローラのヒューリスティックに基づいてグループ化されますメタデータを Data Catalog に書き込むクローラでテーブルやパーティションを追加更新削除する方法を設定できますクローラで作成するメタデータテーブルはクローラの定義時にデータベースに含まれますクローラがデータベースを定義しない場合テーブルはデフォルトのデータベースに配置されますさらに各テーブルには最初にデータストアの認識に成功した分類子により入力された分類子の列がありますクローラはリレーショナルデータベースとファイルのデータストアの両方を処理できますクロールするファイルが圧縮されている場合クローラはダウンロードして処理する必要がありますクローラを実行するとファイルを調査して形式と圧縮タイプを決定しこれらのプロパティを Data Catalog に書き込みます一部のファイル形式 (parquet など ) ではファイルの書き込み時にファイルのパートを圧縮できますこれらのファイルでは圧縮されたデータはファイルの内部コンポーネントであり AWS Glue はテーブルを Data Catalog 内に書き込むときに compressiontype プロパティを事前設定しません一方ファイル全体を圧縮アルゴリズム (gzip など ) で圧縮する場合はテーブルを Data Catalog 内に書き込むときに compressiontype プロパティが事前設定されますクローラは作成するテーブルの名前を生成します AWS Glue データカタログに保存されるテーブルの名前は以下のルールに従います英数字とアンダースコア (_) のみを使用できますカスタムプレフィックスは 64 文字より長くすることはできません名前の最大長は 128 文字より長くすることはできませんクローラは生成した名前が制限内に収まるように切り詰めます重複するテーブル名が発生した場合クローラは名前にハッシュ文字列のサフィックスを追加しますクローラが複数回実行される場合 ( おそらくスケジュールに基づいて ) データストア内の新規または変更されたファイルやテーブルが検索されますクローラの出力には前回の実行以降に検索された新しいテーブルが含まれています 59

67 AWS Glue 開発者ガイド Amazon S3 のフォルダはテーブルやパーティションとして作成されますか? Amazon S3 のフォルダはテーブルやパーティションとして作成されますか? AWS Glue クローラは Amazon S3 バケットをスキャンしてバケット内に複数のフォルダを検出するとフォルダ構造のテーブルのルートおよびどのフォルダがテーブルのパーティションであるかを確認しますテーブルの名前は Amazon S3 プレフィックスまたはフォルダ名に基づいていますクロールするフォルダレベルを指すインクルードパスはユーザーが指定しますフォルダレベルの大半のスキーマが類似している場合クローラは 2 つのテーブルを別個に作成せずにテーブルのパーティションを作成しますクローラで別個のテーブルを作成するにはクローラを定義するときに各テーブルのルートフォルダを別個のデータストアとして追加します次の Amazon S3 構造の例を示します s3://bucket01/folder1/table1/partition1/file.txt s3://bucket01/folder1/table1/partition2/file.txt s3://bucket01/folder1/table1/partition3/file.txt s3://bucket01/folder1/table2/partition4/file.txt s3://bucket01/folder1/table2/partition5/file.txt table1 と table2 のスキーマが類似しておりクローラに定義されているデータストアが 1 つでインクルードパスが s3://bucket01/folder1/ である場合クローラは 2 つのパーティション列を持つ 1 つのテーブルを作成します 1 つのパーティション列には table1 と table2 が入り別のパーティション列には partition1 partition5 が入ります 2 つの個別のテーブルを作成するには 2 つのデータストアを持つクローラを定義しますこの例では最初のインクルードパスを s3://bucket01/folder1/table1/ として定義し 2 番目を s3://bucket01/folder1/table2 として定義します Note Athena の場合各テーブルは Amazon S3 プレフィックス ( すべてのオブジェクトを含む ) に対応しますオブジェクト別にスキーマが異なる場合 Athena では同じプレフィックス内の異なるオブジェクトを別個のテーブルとして認識しませんこれはクローラで同じ Amazon S3 プレフィックスから複数のテーブルを作成する場合に発生することがありますその結果 Athena のクエリでゼロが返される場合があります Athena でテーブルを適切に認識してクエリを実行するには Amazon S3 フォルダ構造内の異なるテーブルスキーマごとに別個のインクルードパスを持つクローラを作成します詳細については Athena と AWS Glue を併用する際のベストプラクティスを参照してくださいクローラの設定クローラを実行するとデータストアの変更が検出される場合がありますこれらの変更に伴って以前のクローラとは異なるスキーマやパーティションが生じることがあります AWS マネジメントコンソールまたは AWS Glue API を使用して特定のタイプの変更をクローラで処理する方法を設定できますトピック AWS Glue コンソールでのクローラの設定 (p. 60) API を使用したクローラの設定 (p. 61) 既存のスキーマをクローラで変更しないための方法 (p. 63) AWS Glue コンソールでのクローラの設定 AWS Glue コンソールを使用してクローラを定義する場合クローラの動作を設定するためのオプションをいくつか使用できます AWS Glue コンソールを使用してクローラを追加する方法の詳細については AWS Glue コンソールでのクローラの使用 (p. 63) を参照してください 60

68 AWS Glue 開発者ガイドクローラの設定以前にクロールしたデータストアに対してクローラを実行するとデータストアでのスキーマの変更やオブジェクトの削除が検出される場合がありますクローラはスキーマの変更をログに記録しますスキーマの変更ポリシーにかかわらず常に新しいテーブルとパーティションが作成されますクローラがスキーマの変更を検出したときの動作を指定するにはコンソールで以下のいずれかのアクションを選択できます Data Catalog でテーブル定義を更新する AWS Glue データカタログで新しい列を追加し欠落している列を削除して既存の列の定義を変更しますクローラで設定されていないすべてのメタデータを削除しますこれがデフォルトの設定です新しい列のみを追加する Amazon S3 データストアにマッピングされるテーブルの場合検出した新しい列は追加されますが既存の列のタイプは Data Catalog で削除または変更されません Data Catalog の現在の列が正しくクローラで既存の列のタイプを削除または変更しない場合はこのオプションを選択します Amazon S3 の基本的なテーブル属性 ( 分類圧縮タイプ CSV 区切り記号など ) が変わった場合はテーブルを廃止としてマークします入力形式と出力形式を Data Catalog にあるがままに維持します SerDe パラメータはクローラで設定されたものである場合に限り更新します他のすべてのデータストアについては既存の列定義を変更します変更を無視し Data Catalog でテーブルを更新しない新規のパーティションや変更されたパーティションがクローラで検出される場合もありますデフォルトでは新規のパーティションは追加され既存の変更されたパーティションは更新されますさらに AWS Glue コンソールですべての新規および既存のパーティションを更新してテーブルのメタデータを反映するようにクローラの設定オプションを設定できますこのオプションを設定すると親テーブルのメタデータプロパティ ( 分類入力形式出力形式 SerDe 情報スキーマなど ) がパーティションに継承されますテーブルでの上記プロパティに対する変更はそのパーティションに伝播されますこの設定オプションを既存のクローラに設定すると既存のパーティションは次回クローラが実行されるときに親テーブルのプロパティと一致するよう更新されますデータストアで削除されたオブジェクトを検出したときのクローラの動作を指定するには以下のいずれかのアクションを選択しますテーブルを Data Catalog から削除する変更を無視し Data Catalog でテーブルを更新しないテーブルを Data Catalog で廃止としてマークするこれがデフォルトの設定です API を使用したクローラの設定 AWS Glue API を使用してクローラを定義する場合はいくつかのフィールドから選択してクローラを設定できますクローラ API の SchemaChangePolicy は変更されたスキーマや削除されたオブジェクトを検出したときのクローラの動作を決定しますクローラは実行時にスキーマの変更をログに記録しますクローラを実行するとスキーマの変更ポリシーにかかわらず常に新しいテーブルとパーティションが作成されます変更されたテーブルスキーマを検出したときのクローラの動作を決定するには SchemaChangePolicy 構造の UpdateBehavior フィールドで以下のいずれかのアクションを選択できます UPDATE_IN_DATABASE AWS Glue データカタログでテーブルを更新します新しい列を追加し欠落している列を削除して既存の列の定義を変更しますクローラで設定されていないすべてのメタデータを削除します LOG 変更を無視し Data Catalog でテーブルを更新しませんクローラ API の Configuration フィールドに指定されている JSON オブジェクトを使用して SchemaChangePolicy 構造を上書きすることもできますこの JSON オブジェクトに含まれているキー 61

69 AWS Glue 開発者ガイドクローラの設定と値のペアを使用して既存の列を更新しないで新規の列のみを追加するようにポリシーを設定できますたとえば次の JSON オブジェクトを文字列として指定します { } "Version": 1.0, "CrawlerOutput": { "Tables": { "AddOrUpdateBehavior": "MergeNewColumns" } } このオプションは AWS Glue コンソールの [Add new columns only] ( 新しい列のみを追加 ) オプションに対応しますこれにより Amazon S3 データストアをクロールした結果のテーブルの SchemaChangePolicy 構造のみが上書きされます Data Catalog にあるがまま ( 信頼できる情報源 ) にメタデータを維持する場合はこのオプションを選択します新しい列が検出されると追加されますこれにはネストされたデータ型も含まれますただし既存の列は削除されずそのタイプは変更されません Amazon S3 のテーブル属性が大幅に変わる場合はテーブルを廃止としてマークし互換性のない属性を解決する必要があるという警告をログに記録しますクローラが以前にクロールしたデータストアに対して実行される場合新規または変更されたパーティションが検出される場合がありますデフォルトでは変更が行われると新しいパーティションが追加され既存のパーティションは更新されますさらにクローラの設定オプションを InheritFromTable に設定できますこのオプションは AWS Glue コンソールの [Update all new and existing partitions with metadata from the table] ( すべての新規および既存のパーティションを更新してテーブルのメタデータを反映する ) オプションに対応しますこのオプションを設定すると親テーブルのメタデータプロパティ ( 分類入力形式出力形式 SerDe 情報スキーマなど ) がパーティションに継承されます親テーブルでのすべてのプロパティの変更はそのパーティションに伝播されますこの設定オプションを既存のクローラに設定すると既存のパーティションは次回クローラが実行されるときに親テーブルのプロパティと一致するよう更新されますこの動作はクローラ API の Configuration フィールドで設定しますたとえば次の JSON オブジェクトを文字列として指定します { } "Version": 1.0, "CrawlerOutput": { "Partitions": { "AddOrUpdateBehavior": "InheritFromTable" } } クローラ API の Configuration フィールドでは複数の設定オプションを設定できますたとえばパーティションとテーブルの両方のクローラ出力を設定するには次の JSON オブジェクトの文字列表現を指定できます { } "Version": 1.0, "CrawlerOutput": { "Partitions": { "AddOrUpdateBehavior": "InheritFromTable" }, "Tables": {"AddOrUpdateBehavior": "MergeNewColumns" } } データストアで削除されたオブジェクトを検出したときのクローラの動作を決定するには以下のいずれかのアクションを選択できますクローラ API の SchemaChangePolicy 構造の DeleteBehavior フィールドでは削除されたオブジェクトを検出したときのクローラの動作を設定します DELETE_FROM_DATABASE テーブルを Data Catalog から削除します LOG 変更を無視し Data Catalog でテーブルを更新しません 62

70 AWS Glue 開発者ガイドクローラのスケジュール DEPRECATE_IN_DATABASE テーブルを Data Catalog で廃止としてマークしますこれがデフォルトの設定です既存のスキーマをクローラで変更しないための方法 Amazon S3 テーブル定義の既存のフィールドに対する更新をクローラで上書きしない場合はコンソールでオプションとして [Add new columns only] ( 新しい列のみ追加 ) を選択するか設定オプションとして MergeNewColumns を設定しますこれはテーブルとパーティションに適用されます (Partitions.AddOrUpdateBehavior を InheritFromTable で上書きしていない場合 ) クローラの実行時にテーブルスキーマを一切変更しない場合はスキーマ変更ポリシーを LOG に設定します設定オプションによりテーブルから継承するようにパーティションスキーマを設定することもできますコンソールでクローラを設定する場合は以下のアクションを選択できます変更を無視し Data Catalog でテーブルを更新しないすべての新規および既存のパーティションを更新してテーブルのメタデータを反映する API を使用してクローラを設定する場合は以下のパラメータを設定します SchemaChangePolicy 構造の UpdateBehavior フィールドを LOG に設定しますクローラ API で次の JSON オブジェクトの文字列表現を使用して Configuration フィールドを設定します { } "Version": 1.0, "CrawlerOutput": { "Partitions": { "AddOrUpdateBehavior": "InheritFromTable" } } AWS Glue クローラのスケジュール AWS Glue クローラはオンデマンドでまたは定期的なスケジュールで実行できますクローラスケジュールは cron 形式で表すことができます詳細については Wikipedia の cron を参照してくださいスケジュールに基づいてクローラを作成する場合はクローラの実行頻度実行する曜日実行時間などの特定の制約を指定できますこれらの制約は cron に基づいていますクローラスケジュールを設定するときは cron の機能と制限を考慮する必要がありますたとえばクローラを毎月 31 日に実行することを選択する場合 31 日がない月もあることに注意してください cron を使用してジョブおよびクローラをスケジュールする方法の詳細についてはジョブとクローラの時間ベースのスケジュール (p. 136) を参照してください AWS Glue コンソールでのクローラの使用クローラはデータストアにアクセスしメタデータを抽出してテーブル定義を AWS Glue データカタログに作成します AWS Glue コンソールの [Crawlers] ( クローラ ) タブには作成したクローラがすべて一覧表示されますリストにはクローラの最後の実行のステータスとメトリクスが表示されますコンソールを使用してクローラを追加するには 63

71 AWS Glue 開発者ガイドコンソールでのクローラの使用 1. AWS マネジメントコンソールにサインインしてから AWS Glue コンソールを開きます [Crawlers] ( クローラ ) タブを選択します 2. [Add crawler] ( クローラの追加 ) を選択して [Add crawler] ( クローラの追加 ) ウィザードの手順に従います Note クローラの追加の詳細な手順については AWS Glue コンソール ( console.aws.amazon.com/glue/) のナビゲーションペインにある [Add crawler] ( クローラの追加 ) チュートリアルのリンクを参照してくださいまた [Add crawler] ( クローラの追加 ) ウィザードを使用して Amazon S3 データストアのアクセス権限を含むポリシーをアタッチする IAM ロールの作成と変更ができます Amazon S3 データストアではエクスクルードパターンはインクルードパスを基準とする相対パスです glob パターンの詳細についてはクロール可能なデータストア (p. 55) を参照してください JDBC データストアをクロールするときは接続が必要です詳細については AWS Glue コンソールでの接続の操作 (p. 82) を参照してくださいエクスクルードパスはインクルードパスを基準とする相対パスですたとえば JDBC データストア内のテーブルを除外するにはエクスクルードパスにテーブル名を入力しますクローラ結果の表示クローラの結果を表示するにはリストからクローラ名を探し [Logs] ( ログ ) リンクを選択しますこのリンクは CloudWatch Logs へつながっていて AWS Glue データカタログで作成されたテーブルの詳細と発生したエラーを確認できます CloudWatch コンソールでログの保持期間を管理できますデフォルトのログ保持期間は Never Expire です保持期間を変更する方法の詳細については CloudWatch Logs でログデータ保持を変更するを参照してくださいクローラの詳細を表示するにはリスト内のクローラ名を選択しますクローラの詳細には [Add crawler] ( クローラの追加 ) ウィザードを使用してクローラを作成したときに定義した情報が含まれますクローラの実行が完了したら [Tables] ( テーブル ) タブを選択して指定したデータベースにクローラにより作成されたテーブルを表示します Note クローラは定義する時に指定する [IAM role] (IAM ロール ) のアクセス権限があるものと想定していますこの IAM ロールにはデータストアからデータを抽出して Data Catalog に書き込むためのアクセス権限が必要です AWS Glue コンソールには AWS Glue プリンシパルサービスの信頼ポリシーがアタッチされた IAM ロールだけがリスト表示されていますコンソールからクローラがアクセスする Amazon S3 データストアにアクセスするための IAM ポリシーを持つ IAM ロールを作成できます AWS Glue のロール提供の詳細についてはアイデンティティベースのポリシー (IAM ポリシー ) を使用する (p. 38) を参照してくださいクローラの最後の実行に関する重要なプロパティやメトリクスを以下に示します名前クローラを作成する場合一意の名前を付ける必要がありますスケジュールクローラをオンデマンドで実行するかまたはスケジュールで頻度を選択できますクローラのスケジュールの詳細についてはクローラのスケジュール (p. 63) を参照してくださいステータスクローラには準備完了開始中停止中スケジュールありスケジュール停止などの状態があります実行中のクローラは開始中から停止中に向かって処理していきますクローラにアタッチされたスケジュールを再開または一時停止できます 64

72 AWS Glue 開発者ガイドデータカタログでのデータベースの定義ログクローラの最後の実行からの使用可能なログにリンクします最後の実行時間クローラを最後に実行した際に実行にかかった時間ランタイムの中央値クローラの作成時から実行にかかった中間の時間更新したテーブルクローラの最後の実行により更新された AWS Glue データカタログのテーブルの数追加したテーブルクローラの最後の実行により AWS Glue データカタログに追加されたテーブルの数データカタログでのデータベースの定義 AWS Glue データカタログでテーブルを定義するとデータベースに追加しますデータベースは AWS Glue でテーブルを整理するために使用されますクローラを使用してまたは AWS Glue コンソールを使用してテーブルを整理できますテーブルは一度に 1 つのデータベースでのみとなりますデータベースには数多くのさまざまなデータストアからのデータを定義するテーブルを含めることができますこのデータには Amazon Simple Storage Service (Amazon S3) のオブジェクトおよび Amazon Relational Database Service. のリレーショナルテーブルを含むことができます Note データベースを削除するとデータベース内のすべてのテーブルも削除されます AWS Glue コンソールを使用したデータベースの定義の詳細については AWS Glue コンソールでデータベースを使用する (p. 65) を参照してください AWS Glue コンソールでデータベースを使用する AWS Glue データカタログのデータベースはテーブルを保持するコンテナですデータベースを使用してテーブルを別々のカテゴリに整理しますデータベースはクローラを実行するか手動でテーブルを追加したときに作成されます AWS Glue コンソールのデータベースリストにはすべてのデータベースの説明が表示されますデータベースのリストを表示するには AWS マネジメントコンソールにサインインし console.aws.amazon.com/glue/ で AWS Glue コンソールを開きます [Databases] ( データベース ) を選択しリスト内のデータベース名を選択して詳細を表示します AWS Glue コンソールの [Databases] ( データベース ) タブからデータベースの追加編集削除ができます新しいデータベースを作成するには [Add database] ( データベースを追加 ) を選択し名前と説明を指定します Apache Hive などその他のメタデータストアとの互換性を考慮して名前は小文字に変換されます Note Amazon Athena からデータベースにアクセスする場合は英数字とアンダースコア文字のみを使用して名前を指定します詳細については Athena の名前に関するドキュメントを参照してくださいデータベースの説明を編集するにはデータベース名の横にあるチェックボックスをオンにし [Action] ( アクション ) [Edit database] ( データベースを編集 ) の順に選択します 65

73 AWS Glue 開発者ガイドクローラに分類子を追加するデータベースを削除するにはデータベース名の横にあるチェックボックスをオンにし [Action] ( アクション ) [Delete database] ( データベースを削除 ) の順に選択しますデータベースに含まれているテーブルのリストを表示するにはデータベース名の横にあるチェックボックスをオンにし [View tables] ( テーブルの表示 ) を選択しますクローラで書き込みが行われたデータベースを変更するにはクローラ定義を変更する必要があります詳細についてはクローラを使用してテーブルを分類する (p. 55) を参照してくださいクローラに分類子を追加する分類子はデータをデータストアに読み取りますデータの形式を認識するとスキーマが生成されます分類子も形式の認識がどれほど確実かを示す確信度数を返します AWS Glue では一連の組み込み分類子が用意されていますがカスタム分類子を作成することもできます AWS Glue はクローラ定義で指定した順序でカスタム分類子を最初に呼び出しますカスタム分類子から返された結果に応じて AWS Glue が組み込みの分類子を呼び出す場合もあります処理中に分類子が certainty=1.0 を返した場合正しいスキーマを 100% 確実に作成できることを示しています次に AWS Glue はその分類子の出力を使用します分類子が certainty=1.0 を返さない場合 AWS Glue は最も高い確実性を持つ分類子の出力を使用しますどの分類子からも 0.0 以上の確実性が返されない場合 AWS Glue は UNKNOWN のデフォルト分類文字列を返します分類子を使用するタイミングデータストアをクロールして AWS Glue データカタログでメタデータテーブルを定義する際に分類子を使用します順序が設定された一連の分類子を使用してクローラをセットアップできますクローラが分類子を呼び出す際分類子はデータが認識されるかどうかを判断します分類子でデータを認識できないか 100% 確実ではない場合クローラはリストにある次の分類子を呼び出してデータを認識できるかどうか判断します AWS Glue コンソールを使用して分類子を作成する方法の詳細については AWS Glue コンソールでの分類子の操作 (p. 79) を参照してくださいカスタム分類子分類子の出力にはファイルの分類や形式 ( たとえば json) およびファイルのスキーマを示す文字列が含まれますカスタム分類子の場合は分類子のタイプに基づいてスキーマを作成するためのロジックを定義します分類子のタイプには grok パターン XML タグおよび JSON パスに基づくスキーマの定義が含まれています分類子の定義を変更すると変更前の分類子を使用してクロールしたデータは再分類されませんクローラは以前にクロールしたデータを追跡します新しいデータは更新された分類子で分類されるためスキーマが更新される場合がありますデータのスキーマが更新された場合はクローラの実行時に分類子を更新してスキーマの変更を反映してくださいデータを再分類して不正な分類子を修正するには更新された分類子を使用して新しいクローラを作成します AWS Glue でカスタム分類子を作成する方法についてはカスタム分類子の書き込み (p. 69) を参照してください Note 組み込み分類子のいずれかでデータ形式が認識される場合カスタム分類子を作成する必要はありません 66

74 AWS Glue 開発者ガイド AWS Glue の組み込み分類子 AWS Glue の組み込み分類子 AWS Glue は JSON CSV ウェブログおよび多くのデータベースシステムを含むさまざまな形式の組み込み分類子を提供します AWS Glue が入力データ形式に適したカスタム分類子を 100% の確実度で検出できない場合次の表に示すような順番で組み込み分類子を呼び出します組み込み分類子は形式が一致するか (certainty=1.0) または一致しないか (certainty=0.0) どうかを示す結果を返します certainty=1.0 を持つ最初の分類子は Data Catalog での分類文字列とメタデータテーブルのスキーマを提供します分類子タイプ分類文字列コメント Apache Avro avro ファイルの先頭から読み取って形式を判断します Apache ORC orc ファイルのメタデータを読み取って形式を判断します Apache Parquet parquet ファイルの先頭から読み取って形式を判断します JSON json ファイルの先頭から読み取って形式を判断しますバイナリ JSON bson ファイルの先頭から読み取って形式を判断します XML xml ファイルの先頭から読み取って形式を判断します AWS Glue はドキュメントの XML タグに基づいてテーブルスキーマを判定しますカスタム XML を作成してドキュメントの行を指定するには XML カスタム分類子の書き込み (p. 73) を参照してください Ion ログ ion ファイルの先頭から読み取って形式を判断します Combined Apache ログ combined_apache grok パターンを通じてログ形式を判断します Apache ログ apache grok パターンを通じてログ形式を判断します Linux カーネルログ linux_kernel grok パターンを通じてログ形式を判断します Microsoft ログ microsoft_log grok パターンを通じてログ形式を判断します Ruby ログ ruby_logger ファイルの先頭から読み取って形式を判断します Squid 3.x ログ squid ファイルの先頭から読み取って形式を判断します Redis 監視ログ redismonlog ファイルの先頭から読み取って形式を判断します Redis ログ redislog ファイルの先頭から読み取って形式を判断します CSV csv 次の区切り記号をチェックしますカンマ (,) パイプ ( ) タブ (\t) セミコロン (;) および Ctrl-A (\u0001) Ctrl-A は Start Of Heading の Unicode 制御文字です Amazon Redshift redshift JDBC 接続を使用してメタデータをインポートします 67

75 AWS Glue 開発者ガイド AWS Glue の組み込み分類子分類子タイプ分類文字列コメント MySQL mysql JDBC 接続を使用してメタデータをインポートします PostgreSQL postgresql JDBC 接続を使用してメタデータをインポートします Oracle データベース oracle JDBC 接続を使用してメタデータをインポートします Microsoft SQL Server sqlserver JDBC 接続を使用してメタデータをインポートします以下の圧縮形式のファイルは分類できます ZIP ( アーカイブ形式としてではなく圧縮形式として ) BZIP GZIP LZ4 Snappy (Hadoop ネイティブ Snappy 形式としてではなく標準 Snappy 形式として ) 組み込みの CSV 分類子組み込みの CSV 分類子では CSV ファイルの内容を解析して AWS Glue テーブルのスキーマを判断しますこの分類子は以下の区切り記号を確認しますカンマ (,) パイプ ( ) タブ (\t) セミコロン (;) Ctrl-A (\u0001) Ctrl-A は Start Of Heading の Unicode 制御文字です CSV として分類されるためにはテーブルのスキーマに少なくとも 2 つのデータ列と 2 つのデータ行が必要です CSV 分類子ではいくつかのヒューリスティックを使用して特定のファイルにヘッダーがあるかどうかを判断します分類子で最初のデータ行にヘッダーを確認できない場合は列のヘッダーが col1 col2 col3 のように表示されます組み込みの CSV 分類子では以下のファイルの特性を評価することでヘッダーを推測するかどうかを決めますヘッダー候補の各列が STRING データ型として解析されます最後の列を除きヘッダー候補の列ごとに 150 文字未満のコンテンツがあります末尾の区切り記号を許可するにはファイル全体で最後の列を空にすることができますヘッダー候補の各列が AWS Glue の列名に関する regex 要件を満たす必要がありますヘッダー行はデータ行と十分に異なっている必要がありますこれを判断するには 1 つ以上の行が STRING 型以外として解析されることを確認しますすべての列が STRING 型である場合最初のデータ行は以降の行と十分に異なっていないためヘッダーとして使用できません 68

76 AWS Glue 開発者ガイドカスタム分類子の書き込み Note 組み込みの CSV 分類子で必要な AWS Glue テーブルが作成されない場合は以下のいずれかの代替方法を使用できます Data Catalog で列名を変更し SchemaChangePolicy を LOG に設定して将来のクローラ実行に関してパーティションの出力設定を InheritFromTable に設定しますデータを分類するためのカスタム grok 分類子を作成し必要な列を割り当てます組み込みの CSV 分類子では LazySimpleSerDe をシリアル化ライブラリとして参照するテーブルを作成しますこれは型の推定に適していますただし CSV データ内に引用符で囲まれた文字列がある場合はテーブル定義を編集して SerDe ライブラリを OpenCSVSerDe に変更します推定した型を STRING に調整し SchemaChangePolicy を LOG に設定して将来のクローラ実行に関してパーティションの出力設定を InheritFromTable に設定します SerDe ライブラリの詳細については Amazon Athena ユーザーガイドの SerDe リファレンスを参照してくださいカスタム分類子の書き込み AWS Glue で grok パターンまたは XML タグを使用してデータを分類するためのカスタム分類子を提供できますクローラがカスタム分類子を呼び出します分類子がデータを認識するとデータの分類とスキーマがクローラに返されます組み込みの分類子にデータが一致しない場合またはクローラにより作成されたテーブルをカスタマイズする場合はカスタム分類子を定義する必要があるかもしれません AWS Glue コンソールを使用して分類子を作成する方法の詳細については AWS Glue コンソールでの分類子の操作 (p. 79) を参照してください AWS Glue は組み込みの分類子の前に指定した順序でカスタム分類子を実行しますクローラがデータに一致する分類子を検出すると分類の文字列とスキーマが AWS Glue データカタログに書き込まれるテーブルの定義で使用されます Grok カスタム分類子の書き込み Grok は一致するパターンによりテキストデータを解析するために使用するツールです grok パターンは名前のついた一連の正規表現 (regex) で一度に 1 行のデータごとに一致させるために使用されます AWS Glue は grok パターンを使用してデータのスキーマを推測します grok パターンがデータと一致すると AWS Glue はそのパターンを使用してデータの構造を判断しフィールドにマッピングします AWS Glue は数多くの組み込みパターンを提供しますまたは独自のパターンを定義することもできます組み込みパターンとカスタム分類子の定義にあるカスタムパターンを使用して grok パターンを作成できます grok パターンをカスタマイズしてカスタムテキストファイル形式を分類できます grok パターンのコンポーネントの基本的な構文を以下に示します %{PATTERN:field-name} 名付けられた PATTERN に一致するデータはスキーマの field-name 列にデフォルトのデータ型 string でマッピングされます必要に応じてフィールドのデータ型は結果のスキーマの byte, boolean, double, short, int, long, or float にキャストできます %{PATTERN:field-name:data-type} たとえば num フィールドを int データ型にキャストするには以下のパターンを使用することができます %{NUMBER:num:int} 69

77 AWS Glue 開発者ガイドカスタム分類子の書き込みパターンは他のパターンで構成できますたとえば SYSLOG タイムスタンプのパターンを月日時間のパターン (Feb 1 06:25:43 など ) で定義できますこのデータの場合次のパターンを定義できます SYSLOGTIMESTAMP %{MONTH} +%{MONTHDAY} %{TIME} Note grok パターンは一度に 1 行ずつしか処理できません複数行のパターンはサポートされていませんまたパターン内の改行はサポートされていません AWS Glue のカスタム分類子の値 grok 分類子を定義する場合 AWS Glue に以下の値を指定しカスタム分類子を作成します名前分類分類子の名前分類されたデータの形式を説明するために記述されたテキスト文字列 ( 例 : special-logs) Grok パターンデータストアに適用される一連のパターンで一致があるかどうかを決定しますこれらのパターンは AWS Glue の組み込み (p. 70) パターンと定義されたカスタムパターンによるものです grok パターンのシンプルな例を次に示します %{TIMESTAMP_ISO8601:timestamp} \[%{MESSAGEPREFIX:message_prefix}\] %{CRAWLERLOGLEVEL:loglevel} : %{GREEDYDATA:message} データが TIMESTAMP_ISO8601 と一致するとスキーマの列 timestamp が作成されます動作は例にある他の名前付きパターンに似ていますカスタムパターン独自に定義するオプションのカスタムパターンこれらのパターンはデータを分類する grok パターンにより参照されますデータに適用される grok パターンでこれらのカスタムパターンを参照できます各カスタムコンポーネントパターンは別々の行にある必要があります正規表現 (regex) 構文はパターンを定義するために使用されます以下はカスタムパターンを使用する例です CRAWLERLOGLEVEL (BENCHMARK ERROR WARN INFO TRACE) MESSAGEPREFIX.*-.*-.*-.*-.* 最初の名前付きカスタムパターンである CRAWLERLOGLEVEL は列挙された文字列の 1 つとデータが一致するときに一致となります 2 番目のカスタムパターン MESSAGEPREFIX はメッセージのプレフィックス文字列との一致を試みます AWS Glue は作成日時最終更新時間分類子のバージョンを追跡します AWS Glue 組み込みパターン AWS Glue はカスタム分類子を構築するために使用できる多くの一般的なパターンを提供します分類子の定義の grok pattern に名前付きパターンを追加します 70

78 AWS Glue 開発者ガイドカスタム分類子の書き込み次のリストは各パターンの行です各行でパターン名の後に定義があります正規表現 (regex) 構文はパターンを定義するために使用されます #AWS Glue Built-in patterns USERNAME [a-za-z0-9._-]+ USER %{USERNAME:UNWANTED} INT (?:[+-]?(?:[0-9]+)) BASE10NUM (?<![0-9.+-])(?>[+-]?(?:(?:[0-9]+(?:\.[0-9]+)?) (?:\.[0-9]+))) NUMBER (?:%{BASE10NUM:UNWANTED}) BASE16NUM (?<![0-9A-Fa-f])(?:[+-]?(?:0x)?(?:[0-9A-Fa-f]+)) BASE16FLOAT \b(?<![0-9a-fa-f.])(?:[+-]?(?:0x)?(?:(?:[0-9a-fa-f]+(?:\.[0-9a-fa-f]*)?) (?:\. [0-9A-Fa-f]+)))\b BOOLEAN (?i)(true false) POSINT \b(?:[1-9][0-9]*)\b NONNEGINT \b(?:[0-9]+)\b WORD \b\w+\b NOTSPACE \S+ SPACE \s* DATA.*? GREEDYDATA.* #QUOTEDSTRING (?:(?<!\\)(?:"(?:\\. [^\\"])*" (?:'(?:\\. [^\\'])*') (?:`(?:\\. [^\\`])*`))) QUOTEDSTRING (?>(?<!\\)(?>"(?>\\. [^\\"]+)+" "" (?>'(?>\\. [^\\']+)+') '' (?>`(?>\\. [^\ \`]+)+`) ``)) UUID [A-Fa-f0-9]{8}-(?:[A-Fa-f0-9]{4}-){3}[A-Fa-f0-9]{12} # Networking MAC (?:%{CISCOMAC:UNWANTED} %{WINDOWSMAC:UNWANTED} %{COMMONMAC:UNWANTED}) CISCOMAC (?:(?:[A-Fa-f0-9]{4}\.){2}[A-Fa-f0-9]{4}) WINDOWSMAC (?:(?:[A-Fa-f0-9]{2}-){5}[A-Fa-f0-9]{2}) COMMONMAC (?:(?:[A-Fa-f0-9]{2}:){5}[A-Fa-f0-9]{2}) IPV6 ((([0-9A-Fa-f]{1,4}:){7}([0-9A-Fa-f]{1,4} :)) (([0-9A-Fa-f]{1,4}:){6}(:[0-9A-Faf]{1,4} ((25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)(\.(25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)){3}) :)) (([0-9A-Fa-f]{1,4}:){5}(((:[0-9A-Fa-f]{1,4}){1,2}) :((25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)(\. (25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)){3}) :)) (([0-9A-Fa-f]{1,4}:){4}(((:[0-9A-Fa-f]{1,4}) {1,3}) ((:[0-9A-Fa-f]{1,4})?:((25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)(\.(25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)){3})) :)) (([0-9A-Fa-f]{1,4}:){3}(((:[0-9A-Fa-f]{1,4}){1,4}) ((:[0-9A-Fa-f]{1,4}) {0,2}:((25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)(\.(25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)){3})) :)) (([0-9A-Fa-f]{1,4}:){2}(((:[0-9A-Fa-f]{1,4}){1,5}) ((:[0-9A-Fa-f]{1,4}){0,3}:((25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)(\.(25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)){3})) :)) (([0-9A-Fa-f]{1,4}:) {1}(((:[0-9A-Fa-f]{1,4}){1,6}) ((:[0-9A-Fa-f]{1,4}){0,4}:((25[0-5] 2[0-4]\d 1\d\d [1-9]? \d)(\.(25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)){3})) :)) (:(((:[0-9A-Fa-f]{1,4}){1,7}) ((:[0-9A- Fa-f]{1,4}){0,5}:((25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)(\.(25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)) {3})) :)))(%.+)? IPV4 (?<![0-9])(?:(?:25[0-5] 2[0-4][0-9] [0-1]?[0-9]{1,2})[.](?:25[0-5] 2[0-4][0-9] [0-1]? [0-9]{1,2})[.](?:25[0-5] 2[0-4][0-9] [0-1]?[0-9]{1,2})[.](?:25[0-5] 2[0-4][0-9] [0-1]?[0-9] {1,2}))(?![0-9]) IP (?:%{IPV6:UNWANTED} %{IPV4:UNWANTED}) HOSTNAME \b(?:[0-9a-za-z][0-9a-za-z-_]{0,62})(?:\.(?:[0-9a-za-z][0-9a-za-z-_] {0,62}))*(\.? \b) HOST %{HOSTNAME:UNWANTED} IPORHOST (?:%{HOSTNAME:UNWANTED} %{IP:UNWANTED}) HOSTPORT (?:%{IPORHOST}:%{POSINT:PORT}) # paths PATH (?:%{UNIXPATH} %{WINPATH}) UNIXPATH (?>/(?>[\w_%!$@:.,~-]+ \\.)*)+ #UNIXPATH (?<![\w\/])(?:/[^\/\s?*]*)+ TTY (?:/dev/(pts tty([pq])?)(\w+)?/?(?:[0-9]+)) WINPATH (?>[A-Za-z]+: \\)(?:\\[^\\?*]*)+ URIPROTO [A-Za-z]+(\+[A-Za-z+]+)? URIHOST %{IPORHOST}(?::%{POSINT:port})? # uripath comes loosely from RFC1738, but mostly from what Firefox # doesn't turn into %XX URIPATH (?:/[A-Za-z0-9$.+!*'(){},~:;=@#%_\-]*)+ 71

79 AWS Glue 開発者ガイドカスタム分類子の書き込み #URIPARAM \?(?:[A-Za-z0-9]+(?:=(?:[^&]*))?(?:&(?:[A-Za-z0-9]+(?:=(?:[^&]*))?)?)*)? URIPARAM \?[A-Za-z0-9$.+!*' URIPATHPARAM %{URIPATH}(?:%{URIPARAM})? URI # Months: January, Feb, 3, 03, 12, December MONTH \b(?:jan(?:uary)? Feb(?:ruary)? Mar(?:ch)? Apr(?:il)? May Jun(?:e)? Jul(?:y)? Aug(?:ust)? Sep(?:tember)? Oct(?:ober)? Nov(?:ember)? Dec(?:ember)?)\b MONTHNUM (?:0?[1-9] 1[0-2]) MONTHNUM2 (?:0[1-9] 1[0-2]) MONTHDAY (?:(?:0[1-9]) (?:[12][0-9]) (?:3[01]) [1-9]) # Days: Monday, Tue, Thu, etc... DAY (?:Mon(?:day)? Tue(?:sday)? Wed(?:nesday)? Thu(?:rsday)? Fri(?:day)? Sat(?:urday)? Sun(?:day)?) # Years? YEAR (?>\d\d){1,2} # Time: HH:MM:SS #TIME \d{2}:\d{2}(?::\d{2}(?:\.\d+)?)? # TIME %{POSINT<24}:%{POSINT<60}(?::%{POSINT<60}(?:\.%{POSINT})?)? HOUR (?:2[0123] [01]?[0-9]) MINUTE (?:[0-5][0-9]) # '60' is a leap second in most time standards and thus is valid. SECOND (?:(?:[0-5]?[0-9] 60)(?:[:.,][0-9]+)?) TIME (?!<[0-9])%{HOUR}:%{MINUTE}(?::%{SECOND})(?![0-9]) # datestamp is YYYY/MM/DD-HH:MM:SS.UUUU (or something like it) DATE_US %{MONTHNUM}[/-]%{MONTHDAY}[/-]%{YEAR} DATE_EU %{MONTHDAY}[./-]%{MONTHNUM}[./-]%{YEAR} DATESTAMP_US %{DATE_US}[- ]%{TIME} DATESTAMP_EU %{DATE_EU}[- ]%{TIME} ISO8601_TIMEZONE (?:Z [+-]%{HOUR}(?::?%{MINUTE})) ISO8601_SECOND (?:%{SECOND} 60) TIMESTAMP_ISO8601 %{YEAR}-%{MONTHNUM}-%{MONTHDAY}[T ]%{HOUR}:?%{MINUTE}(?::?%{SECOND})? %{ISO8601_TIMEZONE}? TZ (?:[PMCE][SD]T UTC) DATESTAMP_RFC822 %{DAY} %{MONTH} %{MONTHDAY} %{YEAR} %{TIME} %{TZ} DATESTAMP_RFC2822 %{DAY}, %{MONTHDAY} %{MONTH} %{YEAR} %{TIME} %{ISO8601_TIMEZONE} DATESTAMP_OTHER %{DAY} %{MONTH} %{MONTHDAY} %{TIME} %{TZ} %{YEAR} DATESTAMP_EVENTLOG %{YEAR}%{MONTHNUM2}%{MONTHDAY}%{HOUR}%{MINUTE}%{SECOND} CISCOTIMESTAMP %{MONTH} %{MONTHDAY} %{TIME} # Syslog Dates: Month Day HH:MM:SS SYSLOGTIMESTAMP %{MONTH} +%{MONTHDAY} %{TIME} PROG (?:[\w._/%-]+) SYSLOGPROG %{PROG:program}(?:\[%{POSINT:pid}\])? SYSLOGHOST %{IPORHOST} SYSLOGFACILITY <%{NONNEGINT:facility}.%{NONNEGINT:priority}> HTTPDATE %{MONTHDAY}/%{MONTH}/%{YEAR}:%{TIME} %{INT} # Shortcuts QS %{QUOTEDSTRING:UNWANTED} # Log formats SYSLOGBASE %{SYSLOGTIMESTAMP:timestamp} (?:%{SYSLOGFACILITY} )?%{SYSLOGHOST:logsource} %{SYSLOGPROG}: MESSAGESLOG %{SYSLOGBASE} %{DATA} COMMONAPACHELOG %{IPORHOST:clientip} %{USER:ident} %{USER:auth} \[%{HTTPDATE:timestamp}\] "(?:%{WORD:verb} %{NOTSPACE:request}(?: HTTP/%{NUMBER:httpversion})? %{DATA:rawrequest})" %{NUMBER:response} (?:%{Bytes:bytes=%{NUMBER} -}) COMBINEDAPACHELOG %{COMMONAPACHELOG} %{QS:referrer} %{QS:agent} COMMONAPACHELOG_DATATYPED %{IPORHOST:clientip} %{USER:ident;boolean} %{USER:auth} \[%{HTTPDATE:timestamp;date;dd/MMM/yyyy:HH:mm:ss Z}\] "(?:%{WORD:verb;string} 72

80 AWS Glue 開発者ガイドカスタム分類子の書き込み %{NOTSPACE:request}(?: HTTP/%{NUMBER:httpversion;float})? %{DATA:rawrequest})" %{NUMBER:response;int} (?:%{NUMBER:bytes;long} -) # Log Levels LOGLEVEL ([A a]lert ALERT [T t]race TRACE [D d]ebug DEBUG [N n]otice NOTICE [I i]nfo INFO [W w]arn?(?:ing)? WARN?(?:ING)? [E e]rr?(?:or)? ERR?(?:OR)? [C c]rit?(?:ical)? CRIT? (?:ICAL)? [F f]atal FATAL [S s]evere SEVERE EMERG(?:ENCY)? [Ee]merg(?:ency)?) XML カスタム分類子の書き込み XML (Extensible Markup Language) はファイル内のタグを使用してドキュメントの構造を定義します XML カスタム分類子で行の定義に使用されるタグ名を指定できます AWS Glue のカスタム分類子の値 XML 分類子を定義する場合 AWS Glue に以下の値を指定し分類子を作成しますこの分類子の分類フィールドは xml に設定してあります名前行タグ分類子の名前 XML ドキュメントでテーブル行を定義する XML タグ名山括弧 < > なし名前は XML タグ規則に沿って命名する必要があります Note 行データを含む要素は自動で閉じる空の要素にすることはできませんたとえば次の空の要素は AWS Glue によって解析されません <row att1= xx att2= yy /> 空の要素は次のように記述できます <row att1= xx att2= yy > </row> AWS Glue は作成日時最終更新時間分類子のバージョンを追跡しますたとえば次 XML ファイルがあるとします筆者と役職の列のみを含む AWS Glue テーブルを作成するには行タグとして AnyCompany を使用し AWS Glue コンソールで分類子を作成します次にこのカスタム分類子を使用するクローラを追加して実行します <?xml version="1.0"?> <catalog> <book id="bk101"> <AnyCompany> <author>rivera, Martha</author> <title>anycompany Developer Guide</title> </AnyCompany> </book> 73

81 AWS Glue 開発者ガイドカスタム分類子の書き込み <book id="bk102"> <AnyCompany> <author>stiles, John</author> <title>style Guide for AnyCompany</title> </AnyCompany> </book> </catalog> JSON カスタム分類子の書き込み JSON (JavaScript Object Notation) はデータ交換形式です名前と値のペアまたは順序付きの値のリストでデータ構造を定義します JSON カスタム分類子ではデータ構造への JSON パスを指定しそれを使用してテーブルのスキーマを定義できます AWS Glue のカスタム分類子の値 JSON 分類子を定義する場合 AWS Glue に以下の値を指定し分類子を作成しますこの分類子の分類フィールドは json に設定してあります名前分類子の名前 JSON パステーブルスキーマを定義するために使用されるオブジェクトを指す JSON パス JSON パスはドット表記またはブラケット表記で記述できます以下の演算子がサポートされています演説明算子 $JSON オブジェクトのルート要素すべてのパス式はこれで始まります * ワイルドカード文字 JSON パスで名前または数値が必要な箇所でいつでも使用可能.<name> ドット表記の子 JSON オブジェクトの子フィールドを指定します ['<name>'] ブラケット表記の子 JSON オブジェクトの子フィールドを指定します [<number>] 配列インデックスインデックスにより配列の値を指定します AWS Glue は作成日時最終更新時間分類子のバージョンを追跡します Example JSON 分類子を使用して配列からレコードをプルする JSON データがレコードの配列だとしますたとえばファイルの最初の数行は次のようになります [ { "type": "constituency", "id": "ocd-division\/country:us\/state:ak", "name": "Alaska" }, { "type": "constituency", "id": "ocd-division\/country:us\/state:al\/cd:1", "name": "Alabama's 1st congressional district" 74

82 AWS Glue 開発者ガイドカスタム分類子の書き込み ] }, { "type": "constituency", "id": "ocd-division\/country:us\/state:al\/cd:2", "name": "Alabama's 2nd congressional district" }, { "type": "constituency", "id": "ocd-division\/country:us\/state:al\/cd:3", "name": "Alabama's 3rd congressional district" }, { "type": "constituency", "id": "ocd-division\/country:us\/state:al\/cd:4", "name": "Alabama's 4th congressional district" }, { "type": "constituency", "id": "ocd-division\/country:us\/state:al\/cd:5", "name": "Alabama's 5th congressional district" }, { "type": "constituency", "id": "ocd-division\/country:us\/state:al\/cd:6", "name": "Alabama's 6th congressional district" }, { "type": "constituency", "id": "ocd-division\/country:us\/state:al\/cd:7", "name": "Alabama's 7th congressional district" }, { "type": "constituency", "id": "ocd-division\/country:us\/state:ar\/cd:1", "name": "Arkansas's 1st congressional district" }, { "type": "constituency", "id": "ocd-division\/country:us\/state:ar\/cd:2", "name": "Arkansas's 2nd congressional district" }, { "type": "constituency", "id": "ocd-division\/country:us\/state:ar\/cd:3", "name": "Arkansas's 3rd congressional district" }, { "type": "constituency", "id": "ocd-division\/country:us\/state:ar\/cd:4", "name": "Arkansas's 4th congressional district" } 組み込み JSON 分類子を使用してクローラを実行する場合ファイル全体がスキーマを定義するために使用されます JSON パスを指定しないのでクローラはデータを 1 つのオブジェクトつまりただの配列として処理しますたとえばスキーマは次のようになります root -- record: array ただし JSON 配列の各レコードに基づいたスキーマを作成するにはカスタム JSON 分類子を作成し JSON パスを $[*] として指定しますこの JSON パスを指定すると分類子は配列内の 12 レコー 75

83 AWS Glue 開発者ガイドカスタム分類子の書き込みドすべてに問合せてスキーマを決定します結果のスキーマには各オブジェクトに次のような個別のフィールドが含まれています root -- type: string -- id: string -- name: string Example JSON 分類子を使用してファイルの一部を確認する JSON データがから取られた JSON ファイルの例 s3://awsgluedatasets/examples/us-legislators/all/areas.json のパターンと同様だとします JSON ファイル内のオブジェクトの例は次のようになります { } { "type": "constituency", "id": "ocd-division\/country:us\/state:ak", "name": "Alaska" "type": "constituency", "identifiers": [ { "scheme": "dmoz", "identifier": "Regional\/North_America\/United_States\/Alaska\/" }, { "scheme": "freebase", "identifier": "\/m\/0hjy" }, { "scheme": "fips", "identifier": "US02" }, { "scheme": "quora", "identifier": "Alaska-state" }, { "scheme": "britannica", "identifier": "place\/alaska" }, { "scheme": "wikidata", "identifier": "Q797" } ], "other_names": [ { "lang": "en", "note": "multilingual", "name": "Alaska" }, { "lang": "fr", "note": "multilingual", "name": "Alaska" }, { "lang": "nov", "note": "multilingual", 76

84 AWS Glue 開発者ガイドカスタム分類子の書き込み "name": "Alaska" } ], "id": "ocd-division\/country:us\/state:ak", "name": "Alaska" } 組み込み JSON 分類子を使用してクローラを実行する場合ファイル全体がスキーマを作成するために使用されます最終的に次のようなスキーマになります root -- type: string -- id: string -- name: string -- identifiers: array -- element: struct -- scheme: string -- identifier: string -- other_names: array -- element: struct -- lang: string -- note: string -- name: string ただし id オブジェクトだけを使用してスキーマを作成するにはカスタム JSON 分類子を作成し JSON パスを $.id と指定しますその後スキーマは id フィールドのみに基づくものとなります root -- record: string このスキーマで抽出されたデータの最初の数行は次のようになります {"record": "ocd-division/country:us/state:ak"} {"record": "ocd-division/country:us/state:al/cd:1"} {"record": "ocd-division/country:us/state:al/cd:2"} {"record": "ocd-division/country:us/state:al/cd:3"} {"record": "ocd-division/country:us/state:al/cd:4"} {"record": "ocd-division/country:us/state:al/cd:5"} {"record": "ocd-division/country:us/state:al/cd:6"} {"record": "ocd-division/country:us/state:al/cd:7"} {"record": "ocd-division/country:us/state:ar/cd:1"} {"record": "ocd-division/country:us/state:ar/cd:2"} {"record": "ocd-division/country:us/state:ar/cd:3"} {"record": "ocd-division/country:us/state:ar/cd:4"} {"record": "ocd-division/country:us/state:as"} {"record": "ocd-division/country:us/state:az/cd:1"} {"record": "ocd-division/country:us/state:az/cd:2"} {"record": "ocd-division/country:us/state:az/cd:3"} {"record": "ocd-division/country:us/state:az/cd:4"} {"record": "ocd-division/country:us/state:az/cd:5"} {"record": "ocd-division/country:us/state:az/cd:6"} {"record": "ocd-division/country:us/state:az/cd:7"} JSON ファイルの identifier のように深くネストされたオブジェクトに基づいてスキーマを作成するにはカスタム JSON 分類子を作成して JSON パスを $.identifiers[*].identifier と指定しま 77

85 AWS Glue 開発者ガイドカスタム分類子の書き込みすスキーマは前の例ととても似ていますが JSON ファイル内の別のオブジェクトに基づいていますスキーマは次のようになります root -- record: string テーブルからのデータの最初の数行のリストにはスキーマが identifier オブジェクトのデータに基づくものであることが示されます {"record": "Regional/North_America/United_States/Alaska/"} {"record": "/m/0hjy"} {"record": "US02"} {"record": " "} {"record": " "} {"record": "destination/alaska"} {"record": " "} {"record": " "} {"record": "n "} {"record": " dec eef6e80fadc3"} {"record": "Alaska-state"} {"record": "place/alaska"} {"record": "Q797"} {"record": "Regional/North_America/United_States/Alabama/"} {"record": "/m/0gyh"} {"record": "US01"} {"record": " "} {"record": " "} {"record": "161950"} {"record": " "} JSON ファイルの other_names 配列の name フィールドのように別の深くネストされたオブジェクトに基づいてテーブルを作成するにはカスタム JSON 分類子を作成して JSON パスを $.other_names[*].name と指定しますスキーマは前の例ととても似ていますが JSON ファイル内の別のオブジェクトに基づいていますスキーマは次のようになります root -- record: string テーブルのデータの最初の数行のリストには other_names 配列の name オブジェクトのデータに基づくものであることが示されます {"record": "Alaska"} {"record": "Alaska"} {"record": "######"} {"record": "Alaska"} {"record": "Alaska"} {"record": "Alaska"} {"record": "Alaska"} {"record": "Alaska"} {"record": "Alaska"} {"record": "######"} {"record": "######"} {"record": "######"} {"record": "Alaska"} {"record": "Alyaska"} {"record": "Alaska"} {"record": "Alaska"} 78

86 AWS Glue 開発者ガイドコンソールでの分類子の操作 {"record": "#### ######"} {"record": "######"} {"record": "Alaska"} {"record": "#######"} AWS Glue コンソールでの分類子の操作分類子はデータのスキーマを決定しますカスタムの分類子を記述し AWS Glue から指定します作成したすべての分類子のリストを表示するにはで AWS Glue コンソールを開き [Classifiers] ( 分類子 ) タブを選択しますリストには各分類子に関する次のプロパティが表示されます分類子分類分類子名分類子を作成するときはその名前を指定する必要がありますこの分類子によって推測されたテーブルの分類タイプ最終更新分類子が最後に更新された時刻 AWS Glue コンソールの [Classifiers] ( 分類子 ) リストから分類子の追加編集削除ができます分類子の詳細を表示するにはリスト内の分類子名を選択します詳細には分類子を作成したときに定義した情報が含まれます AWS Glue コンソールに分類子を追加するには [Add classifier] ( 分類子を追加 ) を選択します分類子を定義する場合以下の値を指定します分類子名分類分類子の一意の名前を指定します grok 分類子の場合は分類されたデータの形式または種類を記述またはカスタムラベルを指定します Grok パターン grok 分類子ではこれを使用してデータを構造化スキーマに解析します grok パターンはデータストアの形式を記述する名前付きパターンで構成されていますこの grok パターンは AWS Glue によって提供された名前付きの組み込みパターンと [Custom patterns] ( カスタムパターン ) フィールドに書き込み含まれるカスタムパターンを使用して書き込みます grok デバッガーの結果は AWS Glue の結果と正確には一致しませんが grok デバッガーでサンプルデータを使用してパターンを試すことをお勧めしますウェブ上で grok デバッガーを見つけることができます AWS Glue によって提供される名前付き組み込みパターンは一般にウェブ上で利用可能な grok パターンと互換性があります名前付きパターンを反復的に追加して grok パターンを作成しデバッガーで結果を確認しますこのアクティビティを使用すると AWS Glue クローラが grok パターンを実行するときにデータを解析できるという確信が得られますカスタムパターン grok 分類子の場合これらは記述した [Grok pattern] (Grok パターン ) のオプションの構成要素です組み込みのパターンでデータを解析できない場合はカスタムパターンを記述する必要がありますこれらのカスタムパターンはこのフィールドで定義され [Grok pattern] (Grok パターン ) フィー 79

87 AWS Glue 開発者ガイドデータストアに接続を追加するルドで参照されます各カスタムパターンは個別の行に定義されています組込みパターンと同様に [regular expression (regex)] ( 正規表現 ) 構文を使用する名前付きパターン定義で構成されていますたとえば次の MESSAGEPREFIX という名前はその後に正規表現の定義が続いてデータに適用されパターンに従っているかどうかが判断されます MESSAGEPREFIX.*-.*-.*-.*-.* 行タグ XML 分類子ではこれは XML 文書のテーブル行を定義する XML タグの名前です山括弧 < > を付けずに名前を入力します名前は XML タグ規則に沿って命名する必要があります JSON パス JSON 分類子の場合これは作成するテーブルの行を定義するオブジェクト配列または値への JSON パスです名前をドットで入力するか AWS Glue でサポートされる演算子を使用して JSON 構文を括弧で囲んでください詳細については JSON カスタム分類子の書き込み (p. 74) の演算子のリストを参照してください詳細についてはカスタム分類子の書き込み (p. 69) を参照してくださいデータストアに接続を追加する接続はクローラとジョブが AWS Glue で特定のタイプのデータストアにアクセスするために使用されます AWS Glue コンソールを使用して接続を追加する方法の詳細については AWS Glue コンソールでの接続の操作 (p. 82) を参照してください接続が使用されるタイミングデータストアで必要とされる場合接続はデータストアをクロールして AWS Glue データカタログでメタデータを分類するときに使用されます接続はデータストアをソースまたはターゲットとして使用するジョブでも使用されます AWS Glue データカタログで接続を定義するデータストアの種類によってはデータにアクセスするために追加の接続情報が必要になりますこの情報には追加のユーザー名とパスワード (AWS 認証情報とは異なる ) またはデータストアに接続するために必要なその他の情報が含まれる場合があります AWS Glue が JDBC データストアに接続した後操作を実行するためにデータストアからのアクセス権限が必要になります接続の際に提供するユーザー名は必要なアクセス権限または特権を持っている必要がありますたとえばクローラが JDBC データストアからメタデータを取得するには SELECT 権限が必要です同様に JDBC ターゲットへの書き込みを行うジョブには既存のテーブルにデータを INSERT UPDATE および DELETE する権限が必要です JDBC プロトコルを使用すると AWS Glue は以下のデータストアに接続できます Amazon Redshift Amazon Relational Database Service Amazon Aurora MariaDB 80

88 AWS Glue 開発者ガイド VPC の JDBC データストアに接続する Microsoft SQL Server MySQL Oracle PostgreSQL パブリックにアクセス可能なデータベース Amazon Aurora MariaDB Microsoft SQL Server MySQL Oracle PostgreSQL 通常 Amazon S3 に接続は必要ありませんただし Virtual Private Cloud (VPC) 内から Amazon S3 にアクセスする場合 Amazon S3 VPC エンドポイントが必要です詳細については Amazon S3 における Amazon VPC エンドポイント (p. 25) を参照してください接続情報でデータが VPC を通してアクセスされているかどうかも検討しそれに応じてネットワークパラメータを設定する必要があります VPC の JDBC データストアに接続する通常パブリックインターネットを通じてアクセスできないようにリソースは Amazon Virtual Private Cloud (Amazon VPC) 内に作成しますデフォルトでは AWS Glue から VPC のリソースにアクセスすることはできません AWS Glue が VPC 内のリソースにアクセスできるようにするには VPC サブネット ID やセキュリティグループ ID など追加の VPC 固有設定情報を指定する必要があります AWS Glue はこの情報を関数がプライベート VPC 内の他のリソースに安全に接続できる Elastic Network Interface のセットアップに使用します Elastic Network Interface を使用して VPC データにアクセスする AWS Glue が VPC 内の JDBC データストアに接続する場合 AWS Glue は VPC データにアクセスするためにアカウントに Elastic Network Interface ( プレフィックス Glue_) を作成します AWS Glue にアタッチされている限りこのネットワークインターフェースを削除することはできません Elastic Network Interface 作成の一部として AWS Glue はこれに 1 つ以上のセキュリティグループを関連付けます AWS Glue がネットワークインターフェイスを作成できるようにするにはリソースに関連付けられているセキュリティグループがソースルールを使用したインバウンドアクセスを許可する必要がありますこのルールにはリソースに関連付けられたセキュリティグループが含まれていますこれにより Elastic Network Interface は同じセキュリティグループを持つデータストアにアクセスできるようになります AWS Glue がコンポーネントと通信できるようにするにはすべての TCP ポートに対して自己参照のインバウンドルールを持つセキュリティグループを指定します自己参照ルールを作成することでソースをすべてのネットワークではなく VPC 内の同じセキュリティグループに制限することができます VPC のデフォルトのセキュリティグループにはすでに ALL Traffic の自己参照インバウンドルールがある場合があります Amazon VPC コンソールでルールを作成します AWS マネジメントコンソールを介してルールの設定を更新するには VPC コンソール ( に移動し適切なセキュリティグループを選択します ALL TCP のインバウンドルールを指定して同じセキュリティグループ名をソースとして指定しますセキュリティグループルールの詳細については VPC のセキュリティグループを参照してくださいそれぞれの Elastic Network Interface には指定したサブネット内の IP アドレス範囲からプライベート IP アドレスが割り当てられますネットワークインターフェイスにパブリック IP アドレスが割り当てら 81

89 AWS Glue 開発者ガイドコンソールでの接続の操作れることはありません AWS Glue にはインターネットアクセスが必要です ( たとえば VPC エンドポイントのない AWS サービスにアクセスする場合など ) ネットワークアドレス変換 (NAT) インスタンスを VPC 内で設定するかまたは Amazon VPC NAT ゲートウェイを使用することができます詳細については Amazon VPC ユーザーガイドの NAT ゲートウェイを参照してくださいネットワークインターフェースにはパブリック IP アドレスが必要なため VPC にアタッチされたインターネットゲートウェイをサブネットルートテーブルのルートとして直接使用することはできません VPC ネットワーク属性の enablednshostnames および enablednssupport を true に設定する必要があります詳細については Using DNS with Your VPC を参照してください Important インターネットアクセスのないパブリックサブネットまたはプライベートサブネットにデータストアを配置しないでください代わりに NAT インスタンスまたは Amazon VPC NAT ゲートウェイを介してインターネットアクセスのあるプライベートサブネットにのみ添付してください Elastic Network Interface プロパティ Elastic Network Interface を作成するには次のプロパティを指定する必要があります VPC データストアを含む VPC 名サブネットデータストアを含む VPC 内のサブネットセキュリティグループデータストアに関連付けられているセキュリティグループ AWS Glue は VPC サブネットにアタッチされている Elastic Network Interface にこれらのセキュリティグループを関連付けます AWS Glue コンポーネントの通信を可能にし他のネットワークからのアクセスを禁止するには少なくとも 1 つの選択されたセキュリティグループにおいてすべての TCP ポートの自己参照のインバウンドルールを指定する必要があります Amazon Redshift で VPC を管理する方法については Amazon Virtual Private Cloud (VPC) でクラスターを管理するを参照してください Amazon RDS で VPC を管理する方法については VPC 内の Amazon RDS DB インスタンスの使用を参照してください AWS Glue コンソールでの接続の操作接続にはデータストアにアクセスするために必要なプロパティが含まれています作成したすべての接続のリストを表示するにはで AWS Glue コンソールを開き [Connections] ( 接続 ) タブを選択します [Connections] ( 接続 ) リストには各接続に関する次のプロパティが表示されます名前タイプ接続を作成する場合一意の名前を付ける必要があります接続に成功するために必要なデータストアのタイプとプロパティ AWS Glue では JDBC プロトコルを使用していくつかのタイプのデータストアにアクセスできます 82

90 AWS Glue 開発者ガイドコンソールでの接続の操作作成日接続が作成された日時 (UTC) 最終更新接続が最後に更新された日時 (UTC) 更新者接続を作成または最後に更新したユーザー AWS Glue コンソールの [Connections] ( 接続 ) タブから接続の追加編集削除ができます接続の詳細を表示するにはリスト内の接続名を選択します詳細には接続の作成時に定義した情報が含まれますベストプラクティスとして ETL ジョブのデータストア接続を使用する前に [Test connection] ( 接続のテスト ) を選択します AWS Glue は接続のパラメータを使用してデータストアにアクセスしてエラーを報告できることを確認します Amazon Redshift Amazon Relational Database Service (Amazon RDS) JDBC データストアには接続が必要です詳細については VPC の JDBC データストアに接続する (p. 81) を参照してください Important 現在 ETL ジョブは 1 つの JDBC 接続のみを使用します 1 つのジョブに複数のデータストアがある場合は同じサブネットにある必要がありますデータストアに JDBC 接続を追加する AWS Glue コンソールに接続を追加するには [Add connection] ( 接続を追加 ) を選択しますウィザードではデータストアへの JDBC 接続を作成するために必要なプロパティの追加について説明します Amazon Redshift または Amazon RDS を選択すると AWS Glue は基盤となる JDBC プロパティを決定して接続を作成しようとします接続を定義する場合は次のプロパティの値が必要です接続名接続の一意の名前を入力します接続タイプ Amazon Redshift Amazon RDS または JDBC のいずれかを選択します Amazon Redshift を選択した場合はアカウントで [Cluster] ( クラスター ) [Database name] ( データベース名 ) [Username] ( ユーザー名 ) および [Password] ( パスワード ) を選択し JDBC 接続を作成します Amazon RDS を選択した場合はアカウントで [Instance] ( インスタンス ) [Database name] ( データベース名 ) [Username] ( ユーザー名 ) および [Password] ( パスワード ) を選択し JDBC 接続を作成しますコンソールにはサポートされるデータベースエンジンタイプが一覧表示されます JDBC URL JDBC データストアの URL を入力しますほとんどのデータベースエンジンの場合このフィールドは次の形式になります jdbc:protocol://host:port/db_name データベースエンジンに応じて別の JDBC URL の形式が必要な場合がありますこの形式ではコロン (:) とスラッシュ (/) の使用方法が若干異なるかデータベースを指定するためのキーワードが異なる場合があります 83

91 AWS Glue 開発者ガイドコンソールでの接続の操作 JDBC をデータストアに接続するためにはデータストアの db_name が必要です db_name は指定された username と password を使用してネットワーク接続を確立するために使用されます接続すると AWS Glue はデータストア内の他のデータベースにアクセスしてクローラを実行したり ETL ジョブを実行したりできます次の JDBC URL の例はいくつかのデータベースエンジンの構文を示しています dev データベースを使用して Amazon Redshift クラスターデータストアに接続する jdbc:redshift://xxx.us-east-1.redshift.amazonaws.com:8192/dev employee データベースを使用して Amazon RDS for MySQL データストアに接続する jdbc:mysql://xxx-cluster.cluster-xxx.us-east-1.rds.amazonaws.com:3306/ employee employee データベースを使用して Amazon RDS for PostgreSQL データストアに接続する employee サービス名を使用して Amazon RDS for Oracle データストアに接続する Amazon RDSfor Oracle の構文は次のパターンに従います employee データベースを使用して Amazon RDS for Microsoft SQL Server データストアに接続するユーザー名 jdbc:postgresql://xxx-cluster.cluster-xxx.useast-1.rds.amazonaws.com:5432/employee jdbc:sqlserver://xxx-cluster.cluster-xxx.useast-1.rds.amazonaws.com:1433;database=employee Amazon RDS for SQL Server の構文は次のパターンに従います jdbc:sqlserver://server_name:port;database=db_name jdbc:sqlserver://server_name:port;databasename=db_name JDBC データストアにアクセスする権限を持つユーザー名を指定しますパスワード VPC JDBC データストアへのアクセス権を持つユーザー名のパスワードを入力しますデータストアを含む仮想プライベートクラウド (VPC) の名前を選択します AWS Glue コンソールには現在のリージョンの VPC がすべて表示されますサブネットデータストアを含む VPC 内のサブネットを選択します AWS Glue コンソールには VPC 内のデータストアのすべてのサブネットが一覧表示されますセキュリティグループデータストアに関連付けられているセキュリティグループを選択します AWS Glue には AWS Glue の接続を許可するインバウンドソースルールを持つ 1 つ以上のセキュリティグループが必要です AWS Glue コンソールには VPC へのインバウンドアクセスが許可されているすべてのセキュリティグループが一覧表示されます AWS Glue は VPC サブネットにアタッチされている Elastic Network Interface にこれらのセキュリティグループを関連付けます 84

92 AWS Glue 開発者ガイド AWS CloudFormation テンプレートを使用したデータカタログの事前設定 AWS CloudFormation テンプレートを使用したデータカタログの事前設定 AWS CloudFormation は多くの AWS リソースを作成できるサービスです AWS Glue には AWS Glue データカタログでオブジェクトを作成するための API オペレーションが用意されていますただし AWS Glue オブジェクトや他の関連する AWS リソースオブジェクトを AWS CloudFormation テンプレートファイルで定義して作成するほうが便利な場合がありますこの場合オブジェクトの作成プロセスを自動化できます AWS CloudFormation では簡略化された構文として JSON (JavaScript Object Notation) または YAML (YAML Ain't Markup Language) を使用し AWS リソースの作成を記述します AWS CloudFormation テンプレートを使用してデータベーステーブルパーティションクローラ分類子接続などの Data Catalog オブジェクトを定義できますジョブトリガー開発エンドポイントなどの ETL オブジェクトを定義することもできます必要なすべての AWS リソースを記述するテンプレートを作成するとこれらのリソースが AWS CloudFormation で自動的にプロビジョニングおよび設定されます詳細については AWS CloudFormation とはおよび AWS CloudFormation テンプレートの使用 (AWS CloudFormation ユーザーガイド ) を参照してください管理者として AWS Glue と互換性がある AWS CloudFormation テンプレートを使用する場合は依存する AWS CloudFormation および AWS のサービスとアクションにアクセス権を付与する必要があります AWS CloudFormation リソースを作成するアクセス権限を付与するには AWS CloudFormation を使用する IAM ユーザーに次のポリシーをアタッチします { } "Version": " ", "Statement": [ { "Effect": "Allow", "Action": [ "cloudformation:*" ], "Resource": "*" } ] 次の表は AWS CloudFormation テンプレートで自動的に実行できるアクションの一覧です AWS CloudFormation テンプレートに追加できる AWS リソースタイプやプロパティタイプに関する情報へのリンクが含まれています AWS Glue リソース AWS CloudFormation テンプレート AWS Glue サンプル分類子 AWS::Glue::Classifier Grok 分類子 (p. 90) Connection AWS::Glue::Connection MySQL 接続 (p. 92) クローラ AWS::Glue::Crawler Amazon S3 クローラ (p. 90) MySQL クローラ (p. 93) データベース AWS::Glue::Database 空のデータベース (p. 86) テーブルを含むデータベース (p. 87) 開発エンドポイント AWS::Glue::DevEndpoint 開発エンドポイント (p. 99) 85

93 AWS Glue 開発者ガイドサンプルデータベース AWS Glue リソース AWS CloudFormation テンプレート AWS Glue サンプルジョブ AWS::Glue::Job Amazon S3 ジョブ (p. 95) JDBC ジョブ (p. 96) パーティション AWS::Glue::Partition テーブルのパーティション (p. 87) テーブル AWS::Glue::Table データベース内のテーブル (p. 87) Trigger AWS::Glue::Trigger オンデマンドのトリガー (p. 97) スケジュールされたトリガー (p. 98) 条件付きトリガー (p. 98) 使用を開始するには以下のサンプルテンプレートを独自のメタデータを使用してカスタマイズします次に AWS CloudFormation コンソールを使用して AWS CloudFormation スタックを作成し AWS Glue および関連サービスにオブジェクトを追加します AWS Glue オブジェクトの多くのフィールドはオプションですこれらのテンプレートは必須フィールドを示しており AWS Glue オブジェクトの使用や機能に必要なものです AWS CloudFormation テンプレートは JSON 形式または YAML 形式のいずれかで使用できます以下の例では読みやすい YAML を使用しています各例にはテンプレートで定義されている値を説明するコメント (#) が含まれています AWS CloudFormation テンプレートには Parameters セクションを含めることができますこのセクションはサンプルテキストを編集して変更できますまたは YAML ファイルを AWS CloudFormation コンソールに送信してスタックを作成するときに変更できますテンプレートの Resources セクションには AWS Glue および関連オブジェクトの定義が含まれています AWS CloudFormation テンプレートの構文定義には詳細なプロパティ構文を含むプロパティが含まれている場合がありますすべてのプロパティが AWS Glue オブジェクトの作成に必要なわけではありません以下の例は AWS Glue オブジェクトを作成する場合の一般的なプロパティの値を示しています AWS Glue データベース用のサンプル AWS CloudFormation テンプレート Data Catalog の AWS Glue データベースにはメタデータテーブルが含まれていますこのデータベースは非常に少ないプロパティで構成され AWS CloudFormation テンプレートを使用して Data Catalog に作成できます次のサンプルテンプレートでは使用を開始する方法と AWS Glue での AWS CloudFormation スタックの使い方を示しますこのサンプルテンプレートで作成されるリソースは cfnmysampledatabase というデータベースのみですこのデータベースはサンプルのテキストを編集するか YAML の送信時に AWS CloudFormation コンソールで値を変更することで変更できます次に示すのは AWS Glue データベースを作成するための一般的なプロパティの値の例です AWS Glue 用の AWS CloudFormation データベーステンプレートの詳細については AWS::Glue::Database を参照してください --- AWSTemplateFormatVersion: ' ' # Sample CloudFormation template in YAML to demonstrate creating a database named mysampledatabase # The metadata created in the Data Catalog points to the flights public S3 bucket # 86

94 AWS Glue 開発者ガイドサンプルのデータベーステーブルパーティション # Parameters section contains names that are substituted in the Resources section # These parameters are the names the resources created in the Data Catalog Parameters: CFNDatabaseName: Type: String Default: cfn-mysampledatabse # Resources section defines metadata for the Data Catalog Resources: # Create an AWS Glue database CFNDatabaseFlights: Type: AWS::Glue::Database Properties: # The database is created in the Data Catalog for your account CatalogId:!Ref AWS::AccountId DatabaseInput: # The name of the database is defined in the Parameters section above Name:!Ref CFNDatabaseName Description: Database to hold tables for flights data LocationUri: s3://crawler-public-us-east-1/flight/2016/csv/ #Parameters: Leave AWS database parameters blank AWS Glue データベーステーブルおよびパーティション用のサンプル AWS CloudFormation テンプレート AWS Glue テーブルには ETL スクリプトで処理するデータの構造と場所を定義するメタデータが含まれていますテーブル内にデータを並列処理するためのパーティションを定義できますパーティションはキーを使用して定義したデータのチャンクですたとえばキーとして月を使用すると 1 月のすべてのデータが同じパーティションに含まれます AWS Glue ではデータベースにテーブルを含めテーブルにパーティションを含めることができます次のサンプルでは AWS CloudFormation テンプレートを使用してデータベーステーブルおよびパーティションを事前設定する方法を示します元のデータ形式は csv でありカンマ (,) で区切られていますテーブルを作成するには事前にデータベースが必要でありパーティションを作成するには事前にテーブルが必要であるためテンプレートでは DependsOn ステートメントを使用してこれらのオブジェクトの作成時に相互の依存関係を定義します次のサンプルの値では一般に利用可能な Amazon S3 バケットのフライトデータを含むテーブルを定義しますわかりやすくするためにデータのいくつかの列と 1 つのパーティションキーのみが定義されています 4 つのパーティションも Data Catalog に定義されています基本データのストレージを記述するいくつかのフィールドも StorageDescriptor フィールドに示されています --- AWSTemplateFormatVersion: ' ' # Sample CloudFormation template in YAML to demonstrate creating a database, a table, and partitions # The metadata created in the Data Catalog points to the flights public S3 bucket # # Parameters substituted in the Resources section # These parameters are names of the resources created in the Data Catalog Parameters: CFNDatabaseName: Type: String Default: cfn-database-flights-1 CFNTableName1: Type: String Default: cfn-manual-table-flights-1 # Resources to create metadata in the Data Catalog 87

95 AWS Glue 開発者ガイドサンプルのデータベーステーブルパーティション Resources: ### # Create an AWS Glue database CFNDatabaseFlights: Type: AWS::Glue::Database Properties: CatalogId:!Ref AWS::AccountId DatabaseInput: Name:!Ref CFNDatabaseName Description: Database to hold tables for flights data ### # Create an AWS Glue table CFNTableFlights: # Creating the table waits for the database to be created DependsOn: CFNDatabaseFlights Type: AWS::Glue::Table Properties: CatalogId:!Ref AWS::AccountId DatabaseName:!Ref CFNDatabaseName TableInput: Name:!Ref CFNTableName1 Description: Define the first few columns of the flights table TableType: EXTERNAL_TABLE Parameters: { "classification": "csv" } # ViewExpandedText: String PartitionKeys: # Data is partitioned by month - Name: mon Type: bigint StorageDescriptor: OutputFormat: org.apache.hadoop.hive.ql.io.hiveignorekeytextoutputformat Columns: - Name: year Type: bigint - Name: quarter Type: bigint - Name: month Type: bigint - Name: day_of_month Type: bigint InputFormat: org.apache.hadoop.mapred.textinputformat Location: s3://crawler-public-us-east-1/flight/2016/csv/ SerdeInfo: Parameters: field.delim: "," SerializationLibrary: org.apache.hadoop.hive.serde2.lazy.lazysimpleserde # Partition 1 # Create an AWS Glue partition CFNPartitionMon1: DependsOn: CFNTableFlights Type: AWS::Glue::Partition Properties: CatalogId:!Ref AWS::AccountId DatabaseName:!Ref CFNDatabaseName TableName:!Ref CFNTableName1 PartitionInput: Values: - 1 StorageDescriptor: OutputFormat: org.apache.hadoop.hive.ql.io.hiveignorekeytextoutputformat Columns: - Name: mon Type: bigint InputFormat: org.apache.hadoop.mapred.textinputformat 88

96 AWS Glue 開発者ガイドサンプルのデータベーステーブルパーティション Location: s3://crawler-public-us-east-1/flight/2016/csv/mon=1/ SerdeInfo: Parameters: field.delim: "," SerializationLibrary: org.apache.hadoop.hive.serde2.lazy.lazysimpleserde # Partition 2 # Create an AWS Glue partition CFNPartitionMon2: DependsOn: CFNTableFlights Type: AWS::Glue::Partition Properties: CatalogId:!Ref AWS::AccountId DatabaseName:!Ref CFNDatabaseName TableName:!Ref CFNTableName1 PartitionInput: Values: - 2 StorageDescriptor: OutputFormat: org.apache.hadoop.hive.ql.io.hiveignorekeytextoutputformat Columns: - Name: mon Type: bigint InputFormat: org.apache.hadoop.mapred.textinputformat Location: s3://crawler-public-us-east-1/flight/2016/csv/mon=2/ SerdeInfo: Parameters: field.delim: "," SerializationLibrary: org.apache.hadoop.hive.serde2.lazy.lazysimpleserde # Partition 3 # Create an AWS Glue partition CFNPartitionMon3: DependsOn: CFNTableFlights Type: AWS::Glue::Partition Properties: CatalogId:!Ref AWS::AccountId DatabaseName:!Ref CFNDatabaseName TableName:!Ref CFNTableName1 PartitionInput: Values: - 3 StorageDescriptor: OutputFormat: org.apache.hadoop.hive.ql.io.hiveignorekeytextoutputformat Columns: - Name: mon Type: bigint InputFormat: org.apache.hadoop.mapred.textinputformat Location: s3://crawler-public-us-east-1/flight/2016/csv/mon=3/ SerdeInfo: Parameters: field.delim: "," SerializationLibrary: org.apache.hadoop.hive.serde2.lazy.lazysimpleserde # Partition 4 # Create an AWS Glue partition CFNPartitionMon4: DependsOn: CFNTableFlights Type: AWS::Glue::Partition Properties: CatalogId:!Ref AWS::AccountId DatabaseName:!Ref CFNDatabaseName TableName:!Ref CFNTableName1 PartitionInput: Values: - 4 StorageDescriptor: OutputFormat: org.apache.hadoop.hive.ql.io.hiveignorekeytextoutputformat Columns: 89

97 AWS Glue 開発者ガイドサンプルの分類子 - Name: mon Type: bigint InputFormat: org.apache.hadoop.mapred.textinputformat Location: s3://crawler-public-us-east-1/flight/2016/csv/mon=4/ SerdeInfo: Parameters: field.delim: "," SerializationLibrary: org.apache.hadoop.hive.serde2.lazy.lazysimpleserde AWS Glue 分類子用のサンプル AWS CloudFormation テンプレート AWS Glue 分類子はデータのスキーマを決定します 1 つのタイプのカスタム分類子では grok パターンを使用してデータをマッチングしますパターンがマッチするとカスタム分類子ではテーブルのスキーマを作成し分類子の定義に設定された値に classification を設定しますこのサンプルで作成する分類子では message という列が 1 つあるスキーマを作成し分類を greedy に設定します --- AWSTemplateFormatVersion: ' ' # Sample CFN YAML to demonstrate creating a classifier # # Parameters section contains names that are substituted in the Resources section # These parameters are the names the resources created in the Data Catalog Parameters: # The name of the classifier to be created CFNClassifierName: Type: String Default: cfn-classifier-grok-one-column-1 # # # Resources section defines metadata for the Data Catalog Resources: # Create classifier that uses grok pattern to put all data in one column and classifies it as "greedy". CFNClassifierFlights: Type: AWS::Glue::Classifier Properties: GrokClassifier: #Grok classifier that puts all data in one column Name:!Ref CFNClassifierName Classification: greedy GrokPattern: "%{GREEDYDATA:message}" #CustomPatterns: none Amazon S3& の AWS Glue クローラ用のサンプル AWS CloudFormation テンプレート AWS Glue クローラではデータに対応するメタデータテーブルを Data Catalog に作成します次にこれらのテーブル定義を ETL ジョブのソースおよびターゲットとして使用できますこのサンプルではクローラ必要な IAM ロールおよび AWS Glue データベースを Data Catalog に作成しますこのクローラを実行するとクローラは IAM ロールを引き受けパブリックフライトデータ用のテーブルをデータベースに作成しますテーブルはプレフィックス cfn_sample_1_ を使用して作成されますこのテンプレートで作成された IAM ロールではカスタムロールを作成するために必要なグ 90

98 AWS Glue 開発者ガイドサンプルの Amazon S3 クローラローバルアクセス権が許可されますこの分類子で定義されるカスタム分類子はありません AWS Glue の組み込み分類子がデフォルトで使用されますこのサンプルを AWS CloudFormation コンソールに送信する場合は IAM ロールを作成することを確認する必要があります --- AWSTemplateFormatVersion: ' ' # Sample CFN YAML to demonstrate creating a crawler # # Parameters section contains names that are substituted in the Resources section # These parameters are the names the resources created in the Data Catalog Parameters: # The name of the crawler to be created CFNCrawlerName: Type: String Default: cfn-crawler-flights-1 CFNDatabaseName: Type: String Default: cfn-database-flights-1 CFNTablePrefixName: Type: String Default: cfn_sample_1_ # # # Resources section defines metadata for the Data Catalog Resources: #Create IAM Role assumed by the crawler. For demonstration, this role is given all permissions. CFNRoleFlights: Type: AWS::IAM::Role Properties: AssumeRolePolicyDocument: Version: " " Statement: - Effect: "Allow" Principal: Service: - "glue.amazonaws.com" Action: - "sts:assumerole" Path: "/" Policies: - PolicyName: "root" PolicyDocument: Version: " " Statement: - Effect: "Allow" Action: "*" Resource: "*" # Create a database to contain tables created by the crawler CFNDatabaseFlights: Type: AWS::Glue::Database Properties: CatalogId:!Ref AWS::AccountId DatabaseInput: Name:!Ref CFNDatabaseName Description: "AWS Glue container to hold metadata tables for the flights crawler" #Create a crawler to crawl the flights data on a public S3 bucket CFNCrawlerFlights: 91

99 AWS Glue 開発者ガイドサンプルの接続 Type: AWS::Glue::Crawler Properties: Name:!Ref CFNCrawlerName Role:!GetAtt CFNRoleFlights.Arn #Classifiers: none, use the default classifier Description: AWS Glue crawler to crawl flights data #Schedule: none, use default run-on-demand DatabaseName:!Ref CFNDatabaseName Targets: S3Targets: # Public S3 bucket with the flights data - Path: "s3://crawler-public-us-east-1/flight/2016/csv" TablePrefix:!Ref CFNTablePrefixName SchemaChangePolicy: UpdateBehavior: "UPDATE_IN_DATABASE" DeleteBehavior: "LOG" AWS Glue 接続用のサンプル AWS CloudFormation テンプレート Data Catalog の AWS Glue 接続には JDBC データベースに接続するために必要な JDBC およびネットワーク情報が含まれていますこの情報は JDBC データベースに接続して ETL ジョブをクロールまたは実行するときに使用されますこのサンプルでは Amazon RDS MySQL データベース (devdb) への接続を作成しますこの接続を使用する場合は IAM ロールデータベース認証情報およびネットワーク接続の値も指定する必要がありますテンプレートの必須フィールドの詳細を参照してください --- AWSTemplateFormatVersion: ' ' # Sample CFN YAML to demonstrate creating a connection # # Parameters section contains names that are substituted in the Resources section # These parameters are the names the resources created in the Data Catalog Parameters: # The name of the connection to be created CFNConnectionName: Type: String Default: cfn-connection-mysql-flights-1 CFNJDBCString: Type: String Default: "jdbc:mysql://xxx-mysql.yyyyyyyyyyyyyy.us-east-1.rds.amazonaws.com:3306/devdb" CFNJDBCUser: Type: String Default: "master" CFNJDBCPassword: Type: String Default: " " NoEcho: true # # # Resources section defines metadata for the Data Catalog Resources: CFNConnectionMySQL: Type: AWS::Glue::Connection Properties: CatalogId:!Ref AWS::AccountId ConnectionInput: Description: "Connect to MySQL database." ConnectionType: "JDBC" 92

100 AWS Glue 開発者ガイドサンプルの JDBC クローラ #MatchCriteria: none PhysicalConnectionRequirements: AvailabilityZone: "us-east-1d" SecurityGroupIdList: - "sg-7d52b812" SubnetId: "subnet-84f326ee" ConnectionProperties: { "JDBC_CONNECTION_URL":!Ref CFNJDBCString, "USERNAME":!Ref CFNJDBCUser, "PASSWORD":!Ref CFNJDBCPassword } Name:!Ref CFNConnectionName JDBC の AWS Glue クローラ用のサンプル AWS CloudFormation テンプレート AWS Glue クローラではデータに対応するメタデータテーブルを Data Catalog に作成します次にこれらのテーブル定義を ETL ジョブのソースおよびターゲットとして使用できますこのサンプルではクローラ必要な IAM ロールおよび AWS Glue データベースを Data Catalog に作成しますこのクローラを実行するとクローラは IAM ロールを引き受け MySQL データベースに保存されているパブリックフライトデータ用のテーブルをデータベースに作成しますテーブルはプレフィックス cfn_jdbc_1_ を使用して作成されますこのテンプレートで作成された IAM ロールではカスタムロールを作成するために必要なグローバルアクセス権が許可されます JDBC データに対してはカスタム分類子を定義できません AWS Glue の組み込み分類子がデフォルトで使用されますこのサンプルを AWS CloudFormation コンソールに送信する場合は IAM ロールを作成することを確認する必要があります --- AWSTemplateFormatVersion: ' ' # Sample CFN YAML to demonstrate creating a crawler # # Parameters section contains names that are substituted in the Resources section # These parameters are the names the resources created in the Data Catalog Parameters: # The name of the crawler to be created CFNCrawlerName: Type: String Default: cfn-crawler-jdbc-flights-1 # The name of the database to be created to contain tables CFNDatabaseName: Type: String Default: cfn-database-jdbc-flights-1 # The prefix for all tables crawled and created CFNTablePrefixName: Type: String Default: cfn_jdbc_1_ # The name of the existing connection to the MySQL database CFNConnectionName: Type: String Default: cfn-connection-mysql-flights-1 # The name of the JDBC path (database/schema/table) with wildcard (%) to crawl CFNJDBCPath: Type: String Default: saldev/% # # # Resources section defines metadata for the Data Catalog 93

101 AWS Glue 開発者ガイドサンプルの JDBC クローラ Resources: #Create IAM Role assumed by the crawler. For demonstration, this role is given all permissions. CFNRoleFlights: Type: AWS::IAM::Role Properties: AssumeRolePolicyDocument: Version: " " Statement: - Effect: "Allow" Principal: Service: - "glue.amazonaws.com" Action: - "sts:assumerole" Path: "/" Policies: - PolicyName: "root" PolicyDocument: Version: " " Statement: - Effect: "Allow" Action: "*" Resource: "*" # Create a database to contain tables created by the crawler CFNDatabaseFlights: Type: AWS::Glue::Database Properties: CatalogId:!Ref AWS::AccountId DatabaseInput: Name:!Ref CFNDatabaseName Description: "AWS Glue container to hold metadata tables for the flights crawler" #Create a crawler to crawl the flights data on a public S3 bucket CFNCrawlerFlights: Type: AWS::Glue::Crawler Properties: Name:!Ref CFNCrawlerName Role:!GetAtt CFNRoleFlights.Arn #Classifiers: none, use the default classifier Description: AWS Glue crawler to crawl flights data #Schedule: none, use default run-on-demand DatabaseName:!Ref CFNDatabaseName Targets: JdbcTargets: # JDBC MySQL database with the flights data - ConnectionName:!Ref CFNConnectionName Path:!Ref CFNJDBCPath #Exclusions: none TablePrefix:!Ref CFNTablePrefixName SchemaChangePolicy: UpdateBehavior: "UPDATE_IN_DATABASE" DeleteBehavior: "LOG" 94

102 AWS Glue 開発者ガイド Amazon S3 に書き込む Amazon S3 のサンプルジョブ Amazon S3 に書き込む Amazon S3 の AWS Glue ジョブ用のサンプル AWS CloudFormation テンプレート Data Catalog の AWS Glue ジョブには AWS Glue でスクリプトを実行するために必要なパラメータ値が含まれていますこのサンプルで作成するジョブでは Amazon S3 バケットのフライトデータを csv 形式で読み取り Amazon S3 の Parquet ファイルに書き込みますこのジョブで実行するスクリプトは既存している必要があります環境に応じた ETL スクリプトを AWS Glue コンソールで生成できますこのジョブ実行時に適切なアクセス許可が設定された IAM ロールも指定する必要がありますテンプレートには一般的なパラメータ値が示されていますたとえば AllocatedCapacity (DPU) はデフォルトで 5 になります --- AWSTemplateFormatVersion: ' ' # Sample CFN YAML to demonstrate creating a job using the public flights S3 table in a public bucket # # Parameters section contains names that are substituted in the Resources section # These parameters are the names the resources created in the Data Catalog Parameters: # The name of the job to be created CFNJobName: Type: String Default: cfn-job-s3-to-s3-2 # The name of the IAM role that the job assumes. It must have access to data, script, temporary directory CFNIAMRoleName: Type: String Default: AWSGlueServiceRoleGA # The S3 path where the script for this job is located CFNScriptLocation: Type: String Default: s3://aws-glue-scripts us-east-1/myid/sal-job-test2 # # # Resources section defines metadata for the Data Catalog Resources: # Create job to run script which accesses flightscsv table and write to S3 file as parquet. # The script already exists and is called by this job CFNJobFlights: Type: AWS::Glue::Job Properties: Role:!Ref CFNIAMRoleName #DefaultArguments: JSON object # If script written in Scala, then set DefaultArguments={'--job-language'; 'scala', '--class': 'your scala class'} #Connections: No connection needed for S3 to S3 job # ConnectionsList #MaxRetries: Double Description: Job created with CloudFormation #LogUri: String Command: Name: glueetl ScriptLocation:!Ref CFNScriptLocation # for access to directories use proper IAM role with permission to buckets and folders that begin with "aws-glue-" 95

103 AWS Glue 開発者ガイド Amazon S3 に書き込む JDBC のサンプルジョブ # script uses temp directory from job definition if required (temp directory not used S3 to S3) # script defines target for output as s3://aws-glue-target/sal AllocatedCapacity: 5 ExecutionProperty: MaxConcurrentRuns: 1 Name:!Ref CFNJobName Amazon S3 に書き込む JDBC の AWS Glue ジョブ用のサンプル AWS CloudFormation テンプレート Data Catalog の AWS Glue ジョブには AWS Glue でスクリプトを実行するために必要なパラメータ値が含まれていますこのサンプルで作成するジョブでは cfn-connection-mysql-flights-1 という接続で定義された MySQL JDBC データベースからフライトデータを読み取り Amazon S3 の Parquet ファイルに書き込みますこのジョブで実行するスクリプトは既存している必要があります環境に応じた ETL スクリプトを AWS Glue コンソールで生成できますこのジョブ実行時に適切なアクセス許可が設定された IAM ロールも指定する必要がありますテンプレートには一般的なパラメータ値が示されていますたとえば AllocatedCapacity (DPU) はデフォルトで 5 になります --- AWSTemplateFormatVersion: ' ' # Sample CFN YAML to demonstrate creating a job using a MySQL JDBC DB with the flights data to an S3 file # # Parameters section contains names that are substituted in the Resources section # These parameters are the names the resources created in the Data Catalog Parameters: # The name of the job to be created CFNJobName: Type: String Default: cfn-job-jdbc-to-s3-1 # The name of the IAM role that the job assumes. It must have access to data, script, temporary directory CFNIAMRoleName: Type: String Default: AWSGlueServiceRoleGA # The S3 path where the script for this job is located CFNScriptLocation: Type: String Default: s3://aws-glue-scripts us-east-1/salinero/sal-job-dec4a # The name of the connection used for JDBC data source CFNConnectionName: Type: String Default: cfn-connection-mysql-flights-1 # # # Resources section defines metadata for the Data Catalog Resources: # Create job to run script which accesses JDBC flights table via a connection and write to S3 file as parquet. # The script already exists and is called by this job CFNJobFlights: Type: AWS::Glue::Job Properties: Role:!Ref CFNIAMRoleName 96

104 AWS Glue 開発者ガイドサンプルのオンデマンドトリガー #DefaultArguments: JSON object # For example, if required by script, set temporary directory as DefaultArguments={'--TempDir'; 's3://aws-glue-temporary-xyc/sal'} Connections: Connections: -!Ref CFNConnectionName #MaxRetries: Double Description: Job created with CloudFormation using existing script #LogUri: String Command: Name: glueetl ScriptLocation:!Ref CFNScriptLocation # for access to directories use proper IAM role with permission to buckets and folders that begin with "aws-glue-" # if required, script defines temp directory as argument TempDir and used in script like redshift_tmp_dir = args["tempdir"] # script defines target for output as s3://aws-glue-target/sal AllocatedCapacity: 5 ExecutionProperty: MaxConcurrentRuns: 1 Name:!Ref CFNJobName AWS Glue オンデマンドトリガー用のサンプル AWS CloudFormation テンプレート Data Catalog の AWS Glue トリガーにはトリガーに応じてジョブ実行を開始するために必要なパラメータ値が含まれていますオンデマンドトリガーはこのトリガーを有効にしたときに発生しますこのサンプルで作成するオンデマンドトリガーでは cfn-job-s3-to-s3-1 という 1 つのジョブを開始します --- AWSTemplateFormatVersion: ' ' # Sample CFN YAML to demonstrate creating an on-demand trigger # # Parameters section contains names that are substituted in the Resources section # These parameters are the names the resources created in the Data Catalog Parameters: # The existing job to be started by this trigger CFNJobName: Type: String Default: cfn-job-s3-to-s3-1 # The name of the trigger to be created CFNTriggerName: Type: String Default: cfn-trigger-ondemand-flights-1 # # Resources section defines metadata for the Data Catalog # Sample CFN YAML to demonstrate creating an on-demand trigger for a job Resources: # Create trigger to run an existing job (CFNJobName) on an on-demand schedule. CFNTriggerSample: Type: AWS::Glue::Trigger Properties: Name: Ref: CFNTriggerName Description: Trigger created with CloudFormation Type: ON_DEMAND Actions: - JobName:!Ref CFNJobName # Arguments: JSON object 97

105 AWS Glue 開発者ガイドサンプルのスケジュールされたトリガー #Schedule: #Predicate: AWS Glue のスケジュールされたトリガー用のサンプル AWS CloudFormation テンプレート Data Catalog の AWS Glue トリガーにはトリガーに応じてジョブ実行を開始するために必要なパラメータ値が含まれていますスケジュールされたトリガーはこのトリガーを有効にして cron タイマーがポップすると発生しますこのサンプルで作成するスケジュールされたトリガーでは cfn-job-s3-to-s3-1 という 1 つのジョブを開始しますこのタイマーは平日の 10 分ごとにジョブを実行する cron 式です --- AWSTemplateFormatVersion: ' ' # Sample CFN YAML to demonstrate creating a scheduled trigger # # Parameters section contains names that are substituted in the Resources section # These parameters are the names the resources created in the Data Catalog Parameters: # The existing job to be started by this trigger CFNJobName: Type: String Default: cfn-job-s3-to-s3-1 # The name of the trigger to be created CFNTriggerName: Type: String Default: cfn-trigger-scheduled-flights-1 # # Resources section defines metadata for the Data Catalog # Sample CFN YAML to demonstrate creating a scheduled trigger for a job # Resources: # Create trigger to run an existing job (CFNJobName) on a cron schedule. TriggerSample1CFN: Type: AWS::Glue::Trigger Properties: Name: Ref: CFNTriggerName Description: Trigger created with CloudFormation Type: SCHEDULED Actions: - JobName:!Ref CFNJobName # Arguments: JSON object # # Run the trigger every 10 minutes on Monday to Friday Schedule: cron(0/10 *? * MON-FRI *) #Predicate: AWS Glue の条件付きトリガー用のサンプル AWS CloudFormation テンプレート Data Catalog の AWS Glue トリガーにはトリガーに応じてジョブ実行を開始するために必要なパラメータ値が含まれています条件付きトリガーはこのトリガーを有効にしてその条件が満たされる ( 例 : ジョブが正常に完了する ) と発生しますこのサンプルで作成する条件付きトリガーでは cfn-job-s3-to-s3-1 という 1 つのジョブを開始しますこのジョブは cfn-job-s3-to-s3-2 というジョブが正常に完了すると開始されます 98

106 AWS Glue 開発者ガイドサンプルの開発エンドポイント --- AWSTemplateFormatVersion: ' ' # Sample CFN YAML to demonstrate creating a conditional trigger for a job, which starts when another job completes # # Parameters section contains names that are substituted in the Resources section # These parameters are the names the resources created in the Data Catalog Parameters: # The existing job to be started by this trigger CFNJobName: Type: String Default: cfn-job-s3-to-s3-1 # The existing job that when it finishes causes trigger to fire CFNJobName2: Type: String Default: cfn-job-s3-to-s3-2 # The name of the trigger to be created CFNTriggerName: Type: String Default: cfn-trigger-conditional-1 # Resources: # Create trigger to run an existing job (CFNJobName) when another job completes (CFNJobName2). CFNTriggerSample: Type: AWS::Glue::Trigger Properties: Name: Ref: CFNTriggerName Description: Trigger created with CloudFormation Type: CONDITIONAL Actions: - JobName:!Ref CFNJobName # Arguments: JSON object #Schedule: none Predicate: #Value for Logical is required if more than 1 job listed in Conditions Logical: AND Conditions: - LogicalOperator: EQUALS JobName:!Ref CFNJobName2 State: SUCCEEDED AWS Glue の開発エンドポイント用のサンプル AWS CloudFormation テンプレート AWS Glue の開発エンドポイントは AWS Glue スクリプトの開発およびテストに使用できる環境ですこのサンプルで作成する開発エンドポイントでは正常な作成に最低限必要なネットワークパラメータ値を使用します開発エンドポイントの設定に必要なパラメータの詳細については開発エンドポイント用の環境の設定 (p. 29) を参照してください開発エンドポイントを作成するには既存の IAM ロール ARN (Amazon リソースネーム ) を指定します開発エンドポイントでノートブックサーバーを作成する場合は有効な RSA パブリックキーを指定し対応するプライベートキーを使用可能な状態に保持します Note 作成した開発エンドポイントに関連付けられているすべてのノートブックサーバーを管理しますしたがって開発エンドポイントを削除した場合ノートブックサーバーを削除するには AWS CloudFormation コンソールで AWS CloudFormation スタックを削除する必要があります 99

107 AWS Glue 開発者ガイドサンプルの開発エンドポイント --- AWSTemplateFormatVersion: ' ' # Sample CFN YAML to demonstrate creating a development endpoint # # Parameters section contains names that are substituted in the Resources section # These parameters are the names the resources created in the Data Catalog Parameters: # The name of the crawler to be created CFNEndpointName: Type: String Default: cfn-devendpoint-1 CFNIAMRoleArn: Type: String Default: arn:aws:iam:: /role/awsglueservicerolega # # # Resources section defines metadata for the Data Catalog Resources: CFNDevEndpoint: Type: AWS::Glue::DevEndpoint Properties: EndpointName:!Ref CFNEndpointName #ExtraJarsS3Path: String #ExtraPythonLibsS3Path: String NumberOfNodes: 5 PublicKey: ssh-rsa public...key myuserid-key RoleArn:!Ref CFNIAMRoleArn SecurityGroupIds: - sg-64986c0b SubnetId: subnet-c67cccac 100

108 AWS Glue 開発者ガイドワークフローの概要 AWS Glue でジョブを作成するジョブは AWS Glue で抽出変換およびロード (ETL) 作業を実行するビジネスロジックで構成されますジョブを開始すると AWS Glue はソースからデータを抽出しそのデータを変換してターゲット内にロードするためのスクリプトを実行します AWS Glue コンソールの [ETL] セクションでジョブを作成できます詳細については AWS Glue コンソールでのジョブの使用 (p. 105) を参照してください次の図は AWS Glue でジョブを作成する際の基本的なワークフローとステップを示したものですトピックワークフローの概要 (p. 101) AWS Glue でジョブを追加する (p. 102) AWS Glue でスクリプトを編集する (p. 108) AWS Glue でのジョブのトリガー (p. 111) スクリプトの開発に開発エンドポイントを使用する (p. 113) ワークフローの概要ジョブを作成するときはデータソースターゲットおよびその他の情報の詳細を提供します結果は生成された Apache Spark API (PySpark) スクリプトですその後 AWS Glue データカタログにジョブ定義を保存できます 101

109 AWS Glue 開発者ガイドジョブの追加次に AWS Glue でジョブを作成するプロセス全体を示します 1. ジョブ用のデータソースを選択しますデータソースを表すテーブルは Data Catalog で既に定義されている必要がありますソースに接続が必要な場合接続もジョブ内で参照されます 2. ジョブ用のデータターゲットを選択しますデータターゲットを表すテーブルは Data Catalog で定義することもジョブを実行するときにターゲットテーブルを作成することもできますジョブを作成するときにターゲットの場所を選択しますターゲットに接続が必要な場合接続もジョブ内で参照されます 3. ジョブと生成されたスクリプトの引数を提供することでジョブ処理環境をカスタマイズできます詳細については AWS Glue でジョブを追加する (p. 102) を参照してください 4. 最初 AWS Glue はスクリプトを生成しますがジョブを編集して変換を追加することもできます詳細については組み込み変換 (p. 104) を参照してください 5. オンデマンドで時間ベースのスケジュールまたはイベントによってジョブが呼び出される方法を指定します詳細については AWS Glue でのジョブのトリガー (p. 111) を参照してください 6. 入力された情報により AWS Glue は PySpark または Scala スクリプトを生成しますビジネスのニーズに基づいてスクリプトを調整できます詳細については AWS Glue でスクリプトを編集する (p. 108) を参照してください AWS Glue でジョブを追加するジョブは AWS Glue で抽出変換およびロード (ETL) 作業を実行するビジネスロジックで構成されますジョブ実行をモニタリングして成功継続時間開始時間などのランタイムメトリクスを理解できますジョブの出力は変換されたデータで指定された場所に書き込まれますジョブ実行は起動時にジョブを開始するトリガーによって開始されますジョブにはソースデータに接続しスクリプトのロジックを使用してデータを処理しデータターゲットに書き出すスクリプトが含まれていますジョブは複数のデータソースおよび複数のデータターゲットを持つことができます AWS Glue によって生成されたスクリプトを使用してデータを変換することも独自のスクリプトを提供することもできます AWS Glue コードジェネレーターではソーススキーマとターゲット位置またはスキーマを指定すると Apache Spark API (PySpark) スクリプトを自動的に作成できますこのスクリプトを出発点として使用し目標に合わせて編集できます AWS Glue は JSON CSV ORC (Optimized Row Columnar) Apache Parquet Apache Avro などのいくつかのデータ形式で出力ファイルを書き込むことができます一部のデータ形式では一般的な圧縮形式を記述できますジョブプロパティの定義 AWS Glue コンソール (p. 105) でジョブを定義する場合 AWS Glue ランタイム環境を制御するために次の情報を提供します IAM ロールジョブ実行とデータストアへのアクセスに使用されるリソースへの認証に使用する IAM ロールを指定します AWS Glue でジョブを実行するためのアクセス権限の詳細については AWS Glue リソースへのアクセス権限の管理の概要 (p. 35) を参照してください生成されたスクリプトまたはカスタムスクリプト ETL スクリプトのコードでジョブの手続きロジックを定義します Python または Scala でスクリプトを記述できますジョブが実行するスクリプトを AWS Glue によって生成するのかそれとも自分で提供するのかを選択できますスクリプトの名前と Amazon Simple Storage Service (Amazon S3) 内の場所を指定しますパスのスクリプトディレクトリと同じ名前のファイルが存在していないことを確認しますスクリプトの使用の詳細については AWS Glue でスクリプトを編集する (p. 108) を参照してください 102

110 AWS Glue 開発者ガイドジョブプロパティの定義 Scala クラス名スクリプトが Scala で記述されている場合はクラス名を指定する必要があります AWS Glue 生成スクリプトのデフォルトのクラス名は [GlueApp] です一時ディレクトリ AWS Glue がスクリプトを実行するときに一時的な中間結果が書き込まれる Amazon S3 の作業ディレクトリの場所を指定しますパスの一時ディレクトリと同じ名前のファイルが存在していないことを確認しますこのディレクトリは AWS Glue から Amazon Redshift に読み書きするときに使用しますまた特定の AWS Glue 変換で使用しますジョブのブックマークジョブ実行時に AWS Glue が状態情報を処理する方法を指定します以前に処理されたデータの記憶状態情報の更新または状態情報の無視を指定できますサーバー側の暗号化このオプションを選択すると ETL ジョブが Amazon S3 に書き込むときにデータは SSE-S3 暗号化を使用して保管時に暗号化されます Amazon S3 のデータターゲットと Amazon S3 の一時ディレクトリに書き込まれるデータは両方とも暗号化されています詳細については Amazon S3 で管理された暗号化キーによるサーバー側の暗号化 (SSE-S3) を使用したデータの保護を参照してくださいスクリプトライブラリスクリプトで必要な場合は以下の場所を指定できます Python ライブラリパス依存 JARS パス参照されるファイルパスジョブを定義するときにこれらのライブラリのコンマで区切られた Amazon S3 パスを定義できますジョブ実行時にこれらのパスを上書きできます詳細については独自のカスタムスクリプトを提供する (p. 110) を参照してくださいジョブ実行あたりの同時 DPU データ処理単位 (DPU) はジョブによって使用される処理能力の相対的な尺度です 2~100 の整数を選択しますデフォルト値は 10 です単一の DPU は 4 vcpu コンピューティングと 16 GB のメモリで構成される処理能力を提供します最大同時実行数このジョブで許可される同時実行の最大数を設定しますデフォルト値は 1 ですこのしきい値に達するとエラーが返されます指定できる最大値はサービスの制限によって制御されますたとえば新しいインスタンスの開始時に前回のジョブがまだ実行されている場合同じジョブの 2 つのインスタンスが同時に実行されないようにエラーを戻すことができますジョブのタイムアウト最大の実行時間 ( 分 ) を設定しますデフォルト値は 2880 分ですこの制限値をジョブ実行時間が超えるとジョブ実行状態は TIMEOUT に変わります再試行回数失敗した場合に AWS Glue がジョブを自動的に再起動する回数を 0 10 の間で指定しますジョブパラメータジョブによって呼び出されるスクリプトに名前付きパラメータとして渡される一連のキーと値のペアこれらのデフォルト値はスクリプトの実行時に使用されますがランタイムに上書きできますキー名の先頭には -- が付けられ --mykey のようになりますさらに多くの例について 103

111 AWS Glue 開発者ガイド組み込み変換は AWS Glue の Python パラメータの受け渡しとアクセス (p. 158) の Python パラメータを参照してくださいターゲットパス Amazon S3 ターゲットの場所については AWS Glue がスクリプトを実行するときに出力が書き込まれる Amazon S3 ディレクトリの場所を指定しますパスのターゲットパスディレクトリと同じ名前のファイルが存在していないことを確認します AWS Glue コンソールを使用してジョブを追加する方法の詳細については AWS Glue コンソールでのジョブの使用 (p. 105) を参照してください組み込み変換 AWS Glue にはデータを処理するために使用できる一式の組み込み変換が用意されていますこれらの変換は ETL スクリプトから呼び出すことができますデータは変換から変換へと DynamicFrame というデータ構造で渡されますこれは Apache Spark SQL DataFrame を拡張したものです DynamicFrame にはデータが含まれておりデータを処理するためにそのスキーマを参照しますこれらの変換の詳細については AWS Glue PySpark 変換リファレンス (p. 197) を参照してください AWS Glue では以下の組み込み変換が用意されています ApplyMapping DynamicFrame のソース列とデータ型を返された DynamicFrame のターゲット列とデータ型にマッピングしますソース列ソース型ターゲット列およびターゲット型を含むタプルのリストであるマッピング引数を指定します DropFields DynamicFrame からフィールドを削除します出力 DynamicFrame には入力より少ないフィールドが含まれています paths 引数を使用して削除するフィールドを指定します paths 引数はドット表記法を使用してスキーマツリー構造内のフィールドを指しますたとえばツリー内のフィールド A の子であるフィールド B を削除するにはそのパスに A.B と入力します DropNullFields DynamicFrame から null フィールドを削除します出力 DynamicFrame のスキーマには Null 型のフィールドが含まれていませんフィルタ参加マップ DynamicFrame からレコードを選択しフィルタリングされた DynamicFrame を返します Lambda 関数などの関数を指定しレコードが出力されるかどうかを指定します出力される場合は関数で true が返され出力されない場合は false が返されます 2 つの DynamicFrames を等価結合しますキーフィールドを各フレームのスキーマに指定して等価性を比較します出力 DynamicFrame にはキーが一致する行が含まれています DynamicFrame のレコードに関数を適用し変換された DynamicFrame を返します指定された関数は各入力レコードに適用され出力レコードに変換されますマップ変換では外部 API オペレーションを使用してフィールドの追加フィールドの削除ルックアップの実行を行うことができます例外があった場合処理は継続されレコードがエラーとしてマークされます MapToCollection DynamicFrameCollection の各 DynamicFrame に変換が適用されます 104

112 AWS Glue 開発者ガイドコンソールでのジョブ関係付け DynamicFrame をリレーショナル ( 行と列 ) 形式に変換しますデータのスキーマに基づいてこの変換はネストされた構造を平坦化し配列構造から DynamicFrames を作成します出力は複数のテーブルにデータを書き込むことができる DynamicFrames のコレクションです RenameField DynamicFrame のフィールドの名前を変更します出力は指定されたフィールドの名前が変更された DynamicFrame ですスキーマ内の新しい名前とパスを名前を変更するフィールドに指定します ResolveChoice ResolveChoice を使用して列に複数タイプの値が含まれている場合の処理方法を指定します列を単一のデータ型にキャストするか 1 つ以上の型を破棄するかまたはすべての型を別々の列または構造体に保持するかを選択できます列ごとに異なる解決ポリシーを選択するかすべての列に適用されるグローバルポリシーを指定できます SelectFields 保持するフィールドを DynamicFrame から選択します出力は選択したフィールドのみを持つ DynamicFrame です保持するフィールドへのパスをスキーマ内に指定します SelectFromCollection DynamicFrame のコレクションから 1 つの DynamicFrames を選択します出力は選択された DynamicFrame です DynamicFrame のインデックスを指定して選択しますスピゴット DynamicFrame からサンプルデータを書き込みます出力は Amazon S3 の JSON ファイルです Amazon S3 の場所と DynamicFrame のサンプリング方法を指定しますサンプリングはファイルの先頭から指定された数のレコードまたは書き込むレコードを選択する確率係数とすることができます SplitFields フィールドを 2 つの DynamicFrames に分割します出力は DynamicFrames のコレクションです一方は選択されたフィールドを持ち他方は残りのフィールドを持ちます選択するフィールドへのパスをスキーマ内に指定します SplitRows Unbox 述語に基づいて DynamicFrame の行を分割します出力は 2 つの DynamicFrames のコレクションです一方は選択された行を持ち他方は残りの行を持ちますスキーマのフィールドによって比較を指定しますたとえば A > 4 と指定します DynamicFrame から文字列フィールドをアンボックスします出力は選択された文字列フィールドが再フォーマットされた DynamicFrame です文字列フィールドが解析されいくつかのフィールドに置き換えられますスキーマ内で再フォーマットする文字列フィールドと現在のフォーマットタイプのパスを指定しますたとえば JSON 形式 {"a": 3, "b": "foo", "c": 1.2} の 1 つのフィールドを持つ CSV ファイルがあるとしますこの変換では JSON を int string および double の 3 つのフィールドに再フォーマットできます AWS Glue コンソールでのジョブの使用 AWS Glue でのジョブは抽出変換およびロード (ETL) 作業を実行するビジネスロジックで構成されます AWS Glue コンソールの [ETL] セクションでジョブを作成できます既存のジョブを表示するには AWS マネジメントコンソールにサインインし console.aws.amazon.com/glue/ で AWS Glue コンソールを開きますその後 AWS Glue の [Jobs] ( ジョ 105

113 AWS Glue 開発者ガイドコンソールでのジョブブ ) タブを選択します [Jobs] ( ジョブ ) リストはジョブが最後に変更されたとき各ジョブに関連付けられたスクリプトの場所および現在のジョブのブックマークオプションを表示します [Jobs] ( ジョブ ) リストから以下の操作を実行できます既存のジョブを開始するには [Action] ( アクション ) を選択し [Run job] ( ジョブの実行 ) を選択します Running または Starting を停止するには [Action] ( アクション ) を選択し [Stop job run] ( ジョブ実行の停止 ) を選択しますジョブを開始するトリガーを追加するには [Action] ( アクション ) [Choose job triggers] ( ジョブ選択トリガー ) の順に選択します既存のジョブを変更するには [Action] ( アクション ) を選択し [Edit job] ( ジョブの編集 ) または [Delete] ( 削除 ) を選択しますジョブに関連付けられたスクリプトを変更するには [Action] ( アクション ) [Edit script] ( スクリプトの編集 ) の順に選択しますジョブに関して AWS Glue が保存した状態情報をリセットするには [Action] ( アクション ) [Reset job bookmark] ( ジョブブックマークのリセット ) の順に選択しますこのジョブのプロパティで開発エンドポイントを作成するには [Action] ( アクション ) [Create development endpoint] ( 開発エンドポイントの作成 ) の順に選択しますコンソールを使用して新しいジョブを追加するには 1. AWS Glue コンソールを開き [Jobs] ( ジョブ ) タブを選択します 2. [Add job] ( ジョブの追加 ) を選択して [Add job] ( ジョブの追加 ) ウィザードの手順に従いますジョブのスクリプトを AWS Glue で生成することに決定した場合はジョブプロパティデータソースおよびデータターゲットを指定しソース列をターゲット列にマッピングするスキーマを確認します生成されたスクリプトは ETL 作業を実行するためにコードを追加する開始点となりますスクリプトでコードを確認しビジネスニーズに合わせて変更します Note 生成されたスクリプトでジョブを追加するための詳細な手順についてはコンソールの [Add job] ( ジョブの追加 ) チュートリアルを参照してくださいスクリプトを提供または記述した場合ジョブがソースターゲットおよび変換を定義しますただしジョブのスクリプトで必要な接続を指定する必要があります独自のスクリプトの作成については独自のカスタムスクリプトを提供する (p. 110) を参照してください Note ジョブは作成時に指定する [IAM role] (IAM ロール ) のアクセス権限があるものと想定していますこの IAM ロールにはデータストアからデータを抽出してターゲットに書き込むためのアクセス権限が必要です AWS Glue コンソールには AWS Glue プリンシパルサービスの信頼ポリシーがアタッチされた IAM ロールだけがリスト表示されています AWS Glue のロール提供の詳細についてはアイデンティティベースのポリシー (IAM ポリシー ) を使用する (p. 38) を参照してください Important ジョブ実行における既知の問題については AWS Glue のエラーのトラブルシューティング (p. 143) を確認してください各ジョブに必要なプロパティの詳細についてはジョブプロパティの定義 (p. 102) を参照してください 106

114 AWS Glue 開発者ガイドコンソールでのジョブ生成されたスクリプトでジョブを追加するための詳細な手順については AWS Glue コンソールの [Add job] ( ジョブの追加 ) チュートリアルを参照してくださいジョブの詳細の表示ジョブの詳細を表示するには [Jobs] ( ジョブ ) リストでジョブを選択し以下のタブにある情報を表示します履歴詳細 Script 履歴 [History] ( 履歴 ) タブにはジョブ実行の履歴とジョブの過去の成功の度合いが表示されますジョブごとに実行メトリクスには次のものが含まれます [Run ID] ( 実行 ID) はこのジョブの実行ごとに AWS Glue によって作成される識別子です [Retry attempt] ( 再試行試行 ) は AWS Glue が自動的に再試行する必要の合ったジョブの試行回数を示します [Run status] ( 実行ステータス ) は最新の実行を一番上にそれぞれの実行の成功が表示されますジョブが Running または Starting である場合この列のアクションアイコンを選択して停止できます [Error] ( エラー ) には実行が正常に行われなかった場合のエラーメッセージの詳細が表示されます [Logs] はこのジョブ実行の stdout に書き込まれたログへのリンクを示します [Logs] のリンクは CloudWatch Logs へつながっていて AWS Glue データカタログで作成されたテーブルのすべての詳細と発生したエラーを確認できます CloudWatch コンソールでログの保持期間を管理できますデフォルトのログ保持期間は Never Expire です保持期間を変更する方法の詳細については CloudWatch Logs でログデータ保持を変更するを参照してください [Error logs] ( エラーログ ) はこのジョブ実行の stderr に書き込まれたログへのリンクを示しますこのリンクをクリックすると CloudWatch Logs に移動し発生したエラーに関する詳細を表示できます CloudWatch コンソールでログの保持期間を管理できますデフォルトのログ保持期間は Never Expire です保持期間を変更する方法の詳細については CloudWatch Logs でログデータ保持を変更するを参照してください [Execution time] ( 実行時間 ) はジョブ実行でリソースを消費した時間を示しますジョブ実行でリソースの消費を開始した時点から終了した時点までの時間が計算されます [Timeout] ( タイムアウト ) はジョブ実行が停止してタイムアウトステータスに移行するまでにリソースを消費できる最大実行時間を示します [Triggered by] ( トリガー元 ) にはこのジョブ実行を開始するために発生したトリガーが表示されます [Start time] ( 開始時間 ) にはジョブが開始した日付と時刻 ( 現地時間 ) が表示されます [End time] ( 終了時間 ) にはジョブが終了した日付と時刻 ( 現地時間 ) が表示されます詳細 [Details] ( 詳細 ) タブにはジョブの属性が含まれていますジョブ定義の詳細が表示されこのジョブを開始できるトリガーが一覧表示されますリスト内のいずれかのトリガーが発生するたびにジョブが開始されますトリガーのリストについては詳細には次のものがあります [Trigger name] ( トリガー名 ) には発生するとこのジョブを開始するトリガーの名前が表示されます [Trigger type] ( トリガータイプ ) にはこのジョブを開始するトリガーのタイプが一覧表示されます [Trigger status] ( トリガーのステータス ) にはトリガーが作成済み有効化無効化のいずれかが表示されます 107

115 AWS Glue 開発者ガイドスクリプトの編集 [Trigger parameters] ( トリガーのパラメータ ) にはトリガーが発生する時を定義するパラメータが表示されます [Jobs to trigger] ( トリガーするジョブ ) にはこのトリガーが発生したら開始するジョブのリストが表示されます Script [Script] ( スクリプト ) タブにはジョブが開始したら実行するスクリプトが表示されますこのタブから [Edit script] ( スクリプトの編集 ) ビューを呼び出すことができます AWS Glue コンソールでのスクリプトエディタの詳細については AWS Glue コンソールでのスクリプトの操作 (p. 109) を参照してくださいスクリプトで呼び出される関数については Python で AWS Glue ETL スクリプトをプログラムする (p. 156) を参照してください AWS Glue でスクリプトを編集するスクリプトにはソースからデータを抽出し変換しターゲットにロードするコードが含まれています AWS Glue はジョブを開始するときにスクリプトを実行します Python または Scala で AWS Glue ETL スクリプトを記述できます Python スクリプトは抽出変換およびロード (ETL) ジョブのための PySpark Python ダイアレクトの拡張機能である言語を使用しますスクリプトには ETL 変換を処理する拡張構造が含まれます自動でジョブのソースコードロジックを生成するときにスクリプトが作成されますこのスクリプトを編集するかまたは独自のスクリプトを指定して ETL 作業を処理することができます AWS Glue コンソールを使用したスクリプトの定義と編集の詳細については AWS Glue コンソールでのスクリプトの操作 (p. 109) を参照してくださいスクリプトの定義ソースとターゲットがあると AWS Glue はデータを変換するスクリプトを生成できますこの提案されたスクリプトはソースとターゲットを埋める最初のバージョンで PySpark での変換を提案していますスクリプトを確認してビジネスニーズに合わせて変更できます AWS Glue のスクリプトエディタを使用してソースとターゲットを指定する引数および実行に必要なその他の引数を追加しますスクリプトはジョブによって実行されジョブはスケジュールやイベントに基づくトリガーによって開始されますトリガーについての詳細は AWS Glue でのジョブのトリガー (p. 111) を参照してください AWS Glue コンソールではスクリプトはコードとして表されますスクリプトをスクリプトに埋め込まれた注釈 (##) を使用する図として表示することもできますこれらの注釈は AWS Glue コンソールで図を生成するのに使用されるパラメータ変換タイプ引数入力その他のスクリプトの特性を説明しますスクリプトの図は以下を示しますスクリプトへのソース入力変換スクリプトにより書き込まれたターゲット出力スクリプトには以下の注釈を含めることができます使用スクリプトが必要とする ETL ジョブからのパラメータ 108

116 AWS Glue 使用変換タイプデータソースまたはデータシンクなどの図のノードのタイプ入力データへの参照を除くノードに渡される引数スクリプトから返される変数ノードへの入力データスクリプト内のコード構文については Python で AWS Glue ETL スクリプトをプログラムする (p. 156) を参照してください AWS Glue コンソールでのスクリプトの操作スクリプトには抽出変換ロード (ETL) ワークを実行するコードが含まれます独自のスクリプトを提供することもできますしお客様のガイダンスで AWS Glue がスクリプトを生成することもできます独自のスクリプトの作成については独自のカスタムスクリプトを提供する (p. 110) を参照してくださいスクリプトは AWS Glue コンソールで編集できますスクリプトを編集する場合ソースターゲットおよび変換を追加することができますスクリプトを編集するには 1. AWS マネジメントコンソールにサインインし AWS Glue コンソール ( console.aws.amazon.com/glue/) を開きますその後 [Jobs] ( ジョブ ) タブを選択します 2. リストでジョブを選択し次に [Action] ( アクション ) [Edit script] ( スクリプトの編集 ) を選択してスクリプトエディタを開きますジョブ詳細ページからスクリプトエディタにアクセスすることもできます [ Script] ( スクリプト ) タブを選択し次に [Edit script] ( スクリプトの編集 ) を選択しますスクリプトエディタ AWS Glue スクリプトエディタを使用してスクリプトのソースターゲット変換を挿入変更および削除できますスクリプトエディタにはスクリプトとダイアグラムの両方が表示されデータの流れを視覚化しやすくなりますスクリプトのダイアグラムを作成するには [Generate diagram] ( ダイアグラムの生成 ) を選択します AWS Glue は ## で始まるスクリプトの注釈行を使用してダイアグラムをレンダリングしますダイアグラムでスクリプトを正しく表すために注釈のパラメータと Apache Spark コードのパラメータの同期を保つ必要がありますスクリプトエディタを使用してスクリプトのカーソルが置かれている任意の場所にコードテンプレートを追加することができますエディタの上部で次のオプションから選択しますソーステーブルをスクリプトに追加するには [Source] ( ソース ) を選択しますターゲットテーブルをスクリプトに追加するには [Target] ( ターゲット ) を選択しますターゲット位置をスクリプトに追加するには [Target location] ( ターゲット位置 ) を選択します変換をスクリプトに追加するには [Transform] ( 変換 ) を選択しますスクリプトで呼び出される関数については Python で AWS Glue ETL スクリプトをプログラムする (p. 156) を参照してくださいスピゴット変換をスクリプトに追加するには [Spigot] ( スピゴット ) を選択します 109

117 AWS Glue 開発者ガイド独自のカスタムスクリプトを提供する挿入されたコードで注釈および Apache Spark コード両方の parameters を変更しますたとえばスピゴット変換を追加したら path 注釈行および output コード行の両方で置き換えられていることを検証します [Logs] ( ログ ) タブでは実行されるジョブに関連するログが表示されます最新の 1,000 行が表示されます [Schema] ( スキーマ ) タブでは Data Catalog で使用可能な場合選択されたソースとターゲットのスキーマが表示されます独自のカスタムスクリプトを提供するスクリプトは AWS Glue で抽出変換およびロード (ETL) 作業を実行しますスクリプトは自動でジョブのソースコードロジックを生成するときに作成されますこの生成されたスクリプトを編集することもできますし独自のカスタムスクリプトを指定することもできます Important カスタムスクリプトは Apache Spark と互換性がある必要があります AWS Glue で独自のカスタムスクリプトを提供するには以下の一般的な手順に従います 1. AWS マネジメントコンソールにサインインし AWS Glue コンソール ( console.aws.amazon.com/glue/) を開きます 2. [Jobs] ( ジョブ ) タブを選択し [Add job] ( ジョブの追加 ) を選択して [Add job] ( ジョブの追加 ) ウィザードを開始します 3. [Job properties] ( ジョブプロパティ ) 画面でカスタムスクリプトを実行するのに必要な [IAM role] (IAM ロール ) を選択するようにします詳細については AWS Glue に対する認証とアクセスコントロール (p. 34) を参照してください 4. [This job runs] ( このジョブ実行 ) で次のいずれかを選択しますユーザーが提供する既存のスクリプトユーザーが作成する新しいスクリプト 5. スクリプトが参照する接続を選択しますこれらのオブジェクトは目的の JDBC データストアに接続するために必要です Elastic Network Interface は仮想プライベートクラウド (VPC) でインスタンスにアタッチできる仮想ネットワークインターフェイスですスクリプトで使用されているデータストアに接続するのに必要な Elastic Network Interface を選択します 6. スクリプトに追加のライブラリやファイルが必要な場合は次のように指定できます Python ライブラリパススクリプトで必要とされる Python ライブラリへのカンマ区切りの Amazon Simple Storage Service (Amazon S3) パス Note 依存 JARS パス純粋な Python ライブラリのみを使用できます pandas Python データ解析ライブラリなど C 拡張機能に依存するライブラリはまだサポートされていませんスクリプトで必要とされる JAR ファイルへのカンマ区切りの Amazon S3 パスです Note 現在純粋な Java または Scala (2.11) ライブラリのみを使用できます 110

118 AWS Glue 開発者ガイドジョブのトリガー参照されるファイルパススクリプトに必要な追加のファイル ( たとえば設定ファイル ) へのカンマで区切られた Amazon S3 パス 7. 必要に応じてジョブにスケジュールを追加することができますスケジュールを変更するにはこの既存のスケジュールを削除して新しく追加する必要があります AWS Glue におけるジョブ追加の詳細については AWS Glue でジョブを追加する (p. 102) を参照してください詳細な手順については AWS Glue コンソールの [Add job] ( ジョブ追加 ) チュートリアルを参照してください AWS Glue でのジョブのトリガー抽出変換およびロード (ETL) のジョブを AWS Glue で実行するトリガーを決定しますトリガーの条件はスケジュール (cron 式で指定 ) またはイベントに基づきますオンデマンドでジョブを実行することもできますスケジュールやイベントに基づいてジョブをトリガーするスケジュールに基づいてジョブのトリガーを作成する場合はジョブの実行頻度実行する曜日実行時間などの制約を指定できますこれらの制約は cron に基づいていますトリガーにスケジュールを設定するときは cron の機能と制限を考慮する必要がありますたとえば毎月 31 日にクローラを実行することを選択した場合いくつかの月には 31 日間はないことに注意してください cron の詳細についてはジョブとクローラの時間ベースのスケジュール (p. 136) を参照してくださいイベントに基づいてトリガーを作成するときは別のジョブが成功したときなどトリガーを起動するために監視するイベントを指定しますジョブイベントトリガーに基づく条件付きのトリガーではジョブのリストを指定しリスト中のすべてのジョブまたはいずれかのジョブが成功失敗停止したときにトリガーを起動しますトリガーが起動すると依存するジョブの実行が開始されますトリガータイプを指定するトリガーは次のいずれかのタイプですスケジュール cron に基づく時間ベースのトリガージョブイベント ( 条件付き ) 以前のジョブまたは複数のジョブがリストの条件を満たすときに起動されるイベントベースのトリガージョブのリストを提供し実行状態が succeeded failed または stopped になるタイミングを監視しますこのトリガーはいずれかまたはすべての条件が満たされるまで起動を待機します Important 依存するジョブは完了したジョブがトリガーにより ( アドホックの実行ではない ) 開始されるまでは開始しませんジョブの依存関係のチェーンを作成するにはチェーンの最初のジョブを [schedule] または [on-demand] トリガーで開始します 111

119 AWS Glue 開発者ガイドコンソールでのトリガーの使用オンデマンド開始するとトリガーが起動しますジョブが完了したら完了を監視しているトリガーも起動し依存するジョブが開始します AWS Glue コンソールを使用したトリガーの指定の詳細については AWS Glue コンソールでのトリガーの使用 (p. 112) を参照してください AWS Glue コンソールでのトリガーの使用 ETL ジョブが AWS Glue で実行されるとトリガーが制御されます既存のトリガーを表示するには AWS マネジメントコンソールにサインインしで AWS Glue コンソールを開きます [Triggers] ( トリガー ) タブを選択します [Triggers] ( トリガー ) リストでトリガーごとのプロパティが表示されますトリガー名トリガーを作成したときに指定した一意の名前ですトリガータイプトリガーが時間ベース ([Schedule] ( スケジュール )) イベントベース ([Job events] ( ジョブイベント )) またはユーザーによって開始された ([On-demand] ( オンデマンド )) かどうかを示しますトリガーのステータストリガーが [Enabled] ( 有効 ) または [ACTIVATED] ( 有効化 ) になっているかどうかまたトリガーの起動時に関連するジョブを呼び出す準備ができているかどうかを示しますまたトリガーはジョブが呼び出されたかどうかを判断しないように [Disabled] ( 無効 ) または [DEACTIVATED] ( 無効化 ) および一時停止することもできますトリガーパラメータ [Schedule] ( スケジュール ) トリガーの場合トリガーを起動する頻度と時間の詳細が含まれます [Job events] ( ジョブイベント ) トリガーの場合実行状態に応じてトリガーを起動する可能性のあることを監視するジョブのリストが表示されますイベントのあるジョブの監視リストのトリガーの詳細を参照してくださいトリガーするジョブこのトリガーが起動したときに呼び出されるトリガーに関連付けられたジョブを一覧表示しますトリガーの追加と編集トリガーを編集削除開始するにはリスト内のトリガーの横にあるチェックボックスをオンにして [Action] ( アクション ) を選択しますまたトリガーを無効にして関連するジョブを開始しないようにしたりトリガーを有効にして起動時に関連するジョブを開始したりすることもできますトリガーの詳細を表示するにはリスト内のトリガーを選択しますトリガーの詳細にはトリガーを作成したときに定義した情報が含まれます新しいトリガーを追加するには [Add trigger] ( トリガーを追加 ) を選択し [Add trigger] ( トリガーを追加 ) ウィザードの手順に従います以下のプロパティを指定します名前トリガーに一意の名前を付けます 112

120 AWS Glue 開発者ガイド開発エンドポイントの使用トリガータイプ次のいずれかを指定します Schedule ( スケジュール ): 特定の時刻にトリガーが起動します Job events ( ジョブイベント ): リスト内のジョブの一部またはすべてが選択されたジョブイベントと一致するとトリガーが起動しますトリガーを起動するには監視されたジョブがトリガーによって開始されている必要がありますどのジョブを選択した場合でも監視できるジョブイベントは 1 つのみです On-demand: ( オンデマンド ): トリガーはトリガーリストのページから開始すると起動しますトリガーするジョブこのトリガーによって開始されたジョブのリストです詳細については AWS Glue でのジョブのトリガー (p. 111) を参照してくださいスクリプトの開発に開発エンドポイントを使用する AWS Glue により抽出変換およびロード (ETL) スクリプトを反復的に開発してテストする環境を作成できますノートブックでスクリプトを開発できます AWS Glue エンドポイントを指してテストします開発プロセスの結果に満足したらスクリプトを実行する ETL ジョブを作成しますこのプロセスによりインタラクティブな方法で機能を追加してスクリプトをデバッグできます Note AWS Glue 開発エンドポイントがまだ Python 3 をサポートしていないため Python スクリプトは Python 2.7 をターゲットとしている必要があります開発環境の管理 AWS Glue を使用して開発エンドポイントを作成編集削除することができます開発環境をプロビジョニングするための設定値を提供しますこれらの値は開発エンドポイントに安全にアクセスしまたエンドポイントがデータストアにアクセスできるようにネットワークを設定する方法を AWS Glue に指定します次に開発エンドポイントに接続するノートブックを作成しノートブックを使用して ETL スクリプトを作成しテストします AWS Glue コンソールを使用して開発エンドポイントを管理する方法の詳細については AWS Glue コンソールでの開発エンドポイントの操作 (p. 131) を参照してください開発エンドポイントを使用する方法開発エンドポイントを使用するには以下のワークフローに従います 1. コンソールまたは API で AWS Glue 開発エンドポイントを作成しますこのエンドポイントは Virtual Private Cloud (VPC) 内で定義されたセキュリティグループとともに起動されます 2. コンソールまたは API は開発エンドポイントがプロビジョニングされ使用可能になるまでポーリングできます準備が整ったら開発エンドポイントに接続して AWS Glue スクリプトの作成およびテストを行いますローカルマシンに Apache Zeppelin ノートブックをインストールし開発エンドポイントに接続してからブラウザを使用して開発します AWS Glue コンソールを使用してアカウントの独自の Amazon EC2 インスタンスで Apache Zeppelin ノートブックサーバーを作成しブラウザを使用して接続します開発エンドポイントに直接接続するためのターミナルウィンドウを開きます 113

121 AWS Glue 開発者ガイド開発エンドポイントへのアクセス JetBrains PyCharm Python IDE の Professional エディションがある場合開発エンドポイントに接続してインタラクティブな開発が行えますスクリプトで pydevd ステートメントを挿入すると PyCharm はリモートブレークポイントをサポートします 3. 開発エンドポイントでのデバッグとテストが完了したら削除することができます開発エンドポイントへのアクセス開発エンドポイントにパブリックアドレスがある場合開発エンドポイントの SSH プライベートキーを使用してこのアドレスが到達可能であることを確認します以下に例を示します ssh -i dev-endpoint-private-key.pem 開発エンドポイントにプライベートアドレスがあり VPC サブネットがパブリックインターネットからルーティング可能でそのセキュリティグループがクライアントからのインバウンドアクセスを許可する場合は以下の手順に従って開発エンドポイントに Elastic IP をアタッチしインターネットからのアクセスを許可できます 1. AWS Glue コンソールで開発エンドポイントの詳細ページに移動します次のステップで使用するためにプライベートアドレスを書き留めます 2. Amazon EC2 コンソールで [Network and Security] ( ネットワークとセキュリティ ) に移動し [ ネットワークインターフェイス ] を選択します AWS Glue コンソールの開発エンドポイントの詳細ページでプライベートアドレスに対応するプライベート DNS (IPv4) を検索します必要に応じて Amazon EC2 コンソールでどの列を表示するかを変更しますこのアドレスのネットワークインターフェイス ID (ENI) を書き留めます例 : eni Amazon EC2 コンソールで [Network and Security] ( ネットワークとセキュリティ ) に移動し [Elastic IP] を選択します [ 新しいアドレスの割り当て ] [ 割り当て ] の順に選択して新しい Elastic IP を割り当てます 4. [Elastic IP] ページで新しく割り当てた Elastic IP を選択します [ アクション ] [ アドレスの関連付け ] の順に選択します 5. [ アドレスの関連付け ] ページで以下の選択を行います [ リソースタイプ ] で [ ネットワークインターフェイス ] を選択します [ ネットワークインターフェイス ] フィールドにプライベートアドレスのネットワークインターフェイス ID (ENI) を入力します [ 関連付け ] を選択します 6. 新しく関連付けた Elastic IP が開発エンドポイントに関連付けられた SSH プライベートキーを使用して到達可能であることを確認します以下に例を示します ssh -i dev-endpoint-private-key.pem glue@elastic-ip チュートリアルセットアップ : 開発エンドポイントチュートリアルの前提条件開発エンドポイントは ETL スクリプトを AWS Glue ジョブとして実行する前にインタラクティブにさまざまな方法で ETL スクリプトをテストおよびデバッグできる環境を作成しますこのセクションのチュートリアルではさまざまな IDE を使用してこれを行う方法を示しますこれらのすべては次のセクションの手順を使用して開発エンドポイントをセットアップしサンプルデータをクロールして AWS Glue データカタログにテーブルを作成することを前提としています 114

122 AWS Glue 開発者ガイドチュートリアルの前提条件 Note AWS Glue 開発エンドポイントがまだ Python 3 をサポートしていないため Python スクリプトは Python 2.7 をターゲットとしている必要があります場合によっては Amazon Simple Storage Service (Amazon S3) データのみを使用し JDBC と Amazon S3 データを他と組み合わせるため仮想プライベートクラウド (VPC) にはない 1 つの開発エンドポイントと仮想プライベートクラウド (VPC) にある 1 つの開発エンドポイントを設定しますチュートリアルで使用されるサンプルデータのクローリング最初の手順では一部のサンプルデータをクロールしそのデータカタログのメタデータを Data Catalog のテーブルに記録できるクローラを作成します使用されるサンプルデータはから取得されチュートリアルの目的のため少し変更されていますこれには米国国会議員と米国下院および上院の議席についての JSON 形式のデータが含まれています 1. Sign in to the AWS マネジメントコンソール and open the AWS Glue console at console.aws.amazon.com/glue/. AWS Glue コンソールで [Databases] ( データベース ) を選択し [Add database] ( データベースの追加 ) を選択しますデータベースに legislators という名前を付けます 2. [Crawlers] ( クローラ ) [Add crawler] ( クローラの追加 ) の順に選択しますクローラに legislator_crawler という名前を付けて AWS Glue ロールを割り当てて [Next] ( 次へ ) を選択します 3. Amazon S3 はデータストアのままにしておきます [Crawl data in] ( クロールするデータの場所 ) で [Specified path in another account] ( 別のアカウントで指定されたパス ) を選択します次に [Include path] ( インクルードパス ) ボックスに s3://awsglue-datasets/examples/us-legislators/ all と入力します [Next] ( 次へ ) を選択し [Next] ( 次へ ) をもう一度選択して別のデータストアを追加しないことを確認します [Next] ( 次へ ) を選択してこのクローラがオンデマンドで実行されることを確認します 4. [Database] ( データベース ) に legislators データベースを選択します [Next] ( 次へ ) を選択し [Finish] ( 完了 ) を選択して新しいクローラの作成を完了します 5. ナビゲーションペインで [Crawlers] ( クローラ ) を再度選択します新しい legislator_crawler クローラの横にあるチェックボックスを選択して [Run crawler] ( クローラの実行 ) を選択します 6. ナビゲーションペインで [Databases] ( データベース ) を選択します legislators データベースを選択して [Tables in legislators] (legislators のテーブル ) を選択しますクローラが取得したメタデータを含む Data Catalog 内のクローラによって作成された 6 つのテーブルが表示されます Amazon S3 データの開発エンドポイントの作成次に Amazon S3 データの開発エンドポイントを作成します JDBC データソースまたはターゲットを使用する場合は開発エンドポイントを VPC で作成する必要がありますただしこのチュートリアルで Amazon S3 にのみアクセスする場合は必要ありません 1. AWS Glue コンソールで [Dev endpoints] ( 開発エンドポイント ) を選択します [Add endpoint] ( エンドポイントの追加 ) を選択します 2. demo-endpoint などのエンドポイント名を指定します 3. AWS Glue ETL ジョブ実行に使用する [IAM role] (IAM ロール ) と同様の権限を持つ IAM ロールを選択します詳細についてはステップ 2: AWS Glue 用の IAM ロールを作成する (p. 13) を参照してください [ 次へ ] を選択します 4. [Networking] ( ネットワーク ) で [Skip networking information] ( ネットワーキング情報をスキップ ) を選択したままにして [Next] ( 次へ ) を選択します 5. [SSH Public Key] (SSH パブリックキー ) に SSH キー生成プログラムによって生成されたパブリックキーを入力します (Amazon EC2 キーペアは使用しないでください ) 対応するプライベートキーを保存し後で SSH を使用して開発用エンドポイントに接続します [ 次へ ] を選択します 115

123 AWS Glue 開発者ガイドチュートリアルの前提条件 Note Microsoft Windows でキーを生成する場合は最新バージョンの PuTTYgen を使用して PuTTYgen ウィンドウから AWS Glue コンソール内にパブリックキーを貼り付けます RSA キーを生成しますパブリックキーを使用してファイルをアップロードしないでください代わりに [Public key for pasting into OpenSSH authorized_keys file] (OpenSSH authorized_keys ファイル内に貼り付けるパブリックキー ) フィールドで生成したキーを使用します PuTTY で対応するプライベートキー (.ppk) を使用して開発エンドポイントに接続します Windows で SSH を使用して開発エンドポイントに接続するには PuTTYgen の [Conversion] ( 変換 ) メニューを使用してプライベートキーを.ppk 形式から OpenSSH の.pem 形式に変換します詳細については PuTTY を使用した Windows から Linux インスタンスへの接続を参照してください 6. [Review] ( 確認 ) で [Finish] ( 完了 ) を選択します開発エンドポイントが作成されたらプロビジョニングのステータスが [READY] ( 準備完了 ) になるのを待ちます出力に使用する Amazon S3 の場所の作成バケットがない場合はバケットの作成の手順に従って Amazon S3 にサンプル ETL スクリプトの出力を保存するバケットをセットアップできます VPC での開発エンドポイントの作成このチュートリアルでは必要ありませんが Amazon S3 データストアと JDBC データストアの両方に ETL ステートメントからアクセスする場合は VPC 開発エンドポイントが必要ですこの場合開発エンドポイントの作成時に JDBC データストアを含む Virtual Private Cloud (Amazon VPC) のネットワークプロパティを指定します始める前に開発エンドポイント用の環境の設定 (p. 29) で説明されているように環境をセットアップします 1. AWS Glue コンソールのナビゲーションペインで [Dev endpoints] ( 開発エンドポイント ) を選択します次に [Add endpoint] ( エンドポイントの追加 ) を選択します 2. vpc-demo-endpoint などのエンドポイント名を指定します 3. AWS Glue ETL ジョブ実行に使用する [IAM role] (IAM ロール ) と同様の権限を持つ IAM ロールを選択します詳細についてはステップ 2: AWS Glue 用の IAM ロールを作成する (p. 13) を参照してください [ 次へ ] を選択します 4. [Networking] ( ネットワーキング ) で Amazon VPC サブネットおよびセキュリティグループを指定しますこの情報はデータリソースに安全に接続できる開発エンドポイントを作成するために使用されますエンドポイントのプロパティを入力する際には以下の提案を考慮しますデータストアへの接続をすでに設定している場合は同じ接続を使用してエンドポイントの Amazon VPC サブネットおよびセキュリティグループを判断できますそれ以外の場合は個別にこれらのパラメータを指定します Amazon VPC の [DNS ホスト名の編集 ] が [ はい ] に設定されていることを確認してくださいこのパラメータは Amazon VPC コンソール ( で設定できます詳細については VPC での DNS のセットアップ (p. 24) を参照してくださいこのチュートリアルでは選択した Amazon VPC に Amazon S3 VPC エンドポイントがあることを確認してください Amazon S3 VPC エンドポイントを作成する方法については Amazon S3 における Amazon VPC エンドポイント (p. 25) を参照してください開発エンドポイントのパブリックサブネットを選択しますインターネットゲートウェイにルートを追加することによりサブネットをパブリックサブネットにすることができます IPv4 トラフィックの場合は [Destination] ( 送信先 ) /0 ルートを作成しインターネットゲートウェイ ID を [Target] ( ターゲット ) にしますサブネットのルートテーブルは NAT ゲートウェイではなくインターネットゲートウェイに関連付けられている必要がありますこの情報は Amazon VPC コンソール ( で設定できます以下に例を示します 116

AWS Glue 開発者ガイドチュートリアルの前提条件詳細についてはインターネットゲートウェイのルートテーブルを参照してくださいインターネットゲートウェイを作成する方法についてはインターネットゲートウェイを参照してくださいインバウンドの自己参照ルールがあるセキュリティグループを選択したことを確認しますこの情報は Amazon VPC コンソール (https://console.

124 AWS Glue 開発者ガイドチュートリアルの前提条件詳細についてはインターネットゲートウェイのルートテーブルを参照してくださいインターネットゲートウェイを作成する方法についてはインターネットゲートウェイを参照してくださいインバウンドの自己参照ルールがあるセキュリティグループを選択したことを確認しますこの情報は Amazon VPC コンソール ( で設定できます以下に例を示しますサブネットを設定する方法の詳細については開発エンドポイント用の環境の設定 (p. 29) を参照してください [ 次へ ] を選択します 5. [SSH Public Key] (SSH パブリックキー ) に SSH キー生成プログラムによって生成されたパブリックキーを入力します (Amazon EC2 キーペアは使用しないでください ) 対応するプライベートキーを保存し後で SSH を使用して開発用エンドポイントに接続します [ 次へ ] を選択します Note Microsoft Windows でキーを生成する場合は最新バージョンの PuTTYgen を使用して PuTTYgen ウィンドウから AWS Glue コンソール内にパブリックキーを貼り付けます RSA キーを生成しますパブリックキーを使用してファイルをアップロードしないでください代わりに [Public key for pasting into OpenSSH authorized_keys file] (OpenSSH authorized_keys ファイル内に貼り付けるパブリックキー ) フィールドで生成したキーを使用します PuTTY で対応するプライベートキー (.ppk) を使用して開発エンドポイントに接続します Windows で SSH を使用して開発エンドポイントに接続するには PuTTYgen の [Conversion] ( 変換 ) メニューを使用してプライベートキーを.ppk 形式から OpenSSH の.pem 形式に変換します詳細については PuTTY を使用した Windows から Linux インスタンスへの接続を参照してください 117

125 AWS Glue 開発者ガイドチュートリアル : ローカル Zeppelin ノートブック 6. [Review] ( 確認 ) で [Finish] ( 完了 ) を選択します開発エンドポイントが作成されたらプロビジョニングのステータスが [READY] ( 準備完了 ) になるのを待ちますこれでこのセクションのチュートリアルを試す準備ができましたチュートリアル : ローカル Apache Zeppelin ノートブックをセットアップして ETL スクリプトをテストしリモートでデバッグする (p. 118) チュートリアル : Amazon EC2 で Apache Zeppelin ノートブックをセットアップする (p. 121) チュートリアル : 開発エンドポイントで REPL シェルを使用する (p. 123) チュートリアル : ローカル Apache Zeppelin ノートブックをセットアップして ETL スクリプトをテストしリモートでデバッグするこのチュートリアルではローカルマシン上の Apache Zeppelin ノートブックを開発エンドポイントに接続してデプロイする前に AWS Glue ETL ( 抽出変換ロード ) スクリプトをインタラクティブに実行デバッグおよびテストできるようにしますこのチュートリアルではチュートリアルの前提条件 (p. 114) にまとめられているステップが実行済みであることを前提としています Apache Zeppelin ノートブックのインストール 1. ローカルマシンに Java の最新バージョンがインストールされていることを確認してください ( 最新バージョンについては Java のホームページを参照してください ) Microsoft Windows で実行している場合は JAVA_HOME 環境変数が適切な Java ディレクトリを指していることを確認しますこの変数を更新せずに Java が更新される可能性があります変数が存在しなくなったフォルダを指していると Zeppelin は起動に失敗します 2. Zeppelin のダウンロードページからローカルマシンに Apache Zeppelin ( すべてのインタプリタがあるバージョン ) をダウンロードしますダウンロードページのメニューバーで [Quick Start] ( クイックスタート ) を選択しインストール手順に従います [Quick Start] ( クイックスタート ) ページで説明されているとおりオペレーティングシステムに適した方法で Zeppelin を開始します Zeppelin 使用中ノートブックサーバーを開始するターミナルウィンドウは開けたままにしておきますサーバーが正常に起動されたら "Done, zeppelin server started." で終わる行がコンソールに表示されます 3. に移動してブラウザで Zeppelin を開きます 4. ブラウザの Zeppelin でページの右上隅にある [anonymous] ( 匿名 ) のドロップダウンメニューを開き [Interpreter] ( インタープリタ ) を選択します [interpreters] ( インタープリタ ) ページで spark を検索して右側にある [edit] ( 編集 ) を選択します以下の変更を加えます [Connect to existing process] ( 既存のプロセスに接続 ) チェックボックスを選択し [Host] ( ホスト ) を localhost に [Port] ( ポート ) を 9007 ( またはポート転送に使用している任意の他のポート ) に設定します [Properties] ( プロパティ ) で [master] ( マスター ) に yarn-client を設定します spark.executor.memory プロパティがある場合は [action] ( アクション ) 列で [x] を選択してそのプロパティを削除します spark.driver.memory プロパティがある場合は [action] ( アクション ) 列で [x] を選択してそのプロパティを削除します 118

126 AWS Glue 開発者ガイドチュートリアル : ローカル Zeppelin ノートブックページの下部にある [Save] ( 保存 ) を選択し次に [OK] を選択してインタープリタを更新して再起動することを確定しますブラウザの [back] ( 戻る ) ボタンを使用して Zeppelin 開始ページに戻ります DevEndpoint に接続するための SSH ポート転送の開始次に SSH ローカルポート転送を使用してローカルポート ( ここでは 9007) をリモート送信先 :9007 に転送します SSH セキュアシェルプロトコルへのアクセスができるターミナルウィンドウを開きます Microsoft Windows の場合 Git for Windows が提供する BASH シェルを使用するか Cygwin をインストールすることができます次のように変更した以下の SSH コマンドを実行します private-key-file-path を開発エンドポイントを作成するのに使用したパブリックキーに対応するプライベートキーを含む.pem ファイルへのパスに置き換えます 9007 とは異なるポートを転送している場合は 9007 をローカルで実際に使用しているポート番号に置き換えます (2 番目の 9007 はリモートポートです ) dev-endpoint-public-dns を開発エンドポイントのパブリック DNS アドレスで置き換えますこのアドレスを確認するには AWS Glue コンソールで開発エンドポイントに移動して名前を選択し [Endpoint details] ( エンドポイントの詳細 ) ページに一覧表示されている [Public address] ( パブリックアドレス ) をコピーします ssh -i private-key-file-path -NTL 9007: :9007 glue@dev-endpoint-public-dns 以下のような警告メッセージが表示されます The authenticity of host 'ec2-xx-xxx-xxx-xx.us-west-2.compute.amazonaws.com (xx.xxx.xxx.xx)' can't be established. ECDSA key fingerprint is SHA256:4e97875Brt+1wKzRko +JflSnp21X7aTP3BcFnHYLEts. Are you sure you want to continue connecting (yes/no)? yes と入力し Zeppelin ノートブックを使用中はターミナルウィンドウを開けたままにしておきますノートブックの段落におけるシンプルスクリプトフラグメントの実行 Zeppelin 開始ページで [Create new note] ( 新しいメモの作成 ) を選択します新しいメモに Legislators という名前を付け spark がインタープリタであることを確認します次のスクリプトフラグメントをノートブックに入力して実行します AWS Glue データカタログにあるその人物のメタデータを使用してサンプルデータから DynamicFrame を作成します次にこのデータの項目数およびスキーマが出力されます %pyspark import sys from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.transforms import * 119

127 AWS Glue 開発者ガイドチュートリアル : ローカル Zeppelin ノートブック # Create a Glue context gluecontext = GlueContext(SparkContext.getOrCreate()) # Create a DynamicFrame using the 'persons_json' table persons_dyf = gluecontext.create_dynamic_frame.from_catalog(database="legislators", table_name="persons_json") # Print out information about this data print "Count: ", persons_dyf.count() persons_dyf.printschema() スクリプトの出力は次のとおりです Count: 1961 root -- family_name: string -- name: string -- links: array -- element: struct -- note: string -- url: string -- gender: string -- image: string -- identifiers: array -- element: struct -- scheme: string -- identifier: string -- other_names: array -- element: struct -- note: string -- name: string -- lang: string -- sort_name: string -- images: array -- element: struct -- url: string -- given_name: string -- birth_date: string -- id: string -- contact_details: array -- element: struct -- type: string -- value: string -- death_date: string ローカルノートブック接続のトラブルシューティング接続拒否エラーが発生した場合古い開発エンドポイントを使用している可能性があります新しい開発エンドポイントを作成して再接続してみます接続がタイムアウトになったり何らかの理由で機能しなくなった場合に復元するのに以下のステップの実行が必要な場合があります 1. Zeppelin でページの右上隅にあるドロップダウンメニューの [Interpretors] ( インタープリタ ) を選択します [interpreters] ( インタプリタ ) ページで spark を検索します [edit] ( 編集 ) を選択し [Connect to existing process] ( 既存のプロセスに接続 ) チェックボックスをオフにしますページの下部にある [Save] ( 保存 ) を選択します 2. 前述のとおり SSH ポート転送を開始します 3. Zeppelin で spark インタープリタの [Connect to existing process] ( 既存のプロセスに接続 ) 設定を再度有効にして再び保存します 120

128 AWS Glue 開発者ガイドチュートリアル : Amazon EC2 Zeppelin ノートブックこのようにインタープリタをリセットすることで接続が復元するはずですこれを実現するもう 1 つの方法は [Interpreters] ( インタープリタ ) ページで Spark インタープリタの [restart] ( 再起動 ) を選択することですその後リモートインタープリタが確実に再起動されるように最大 30 秒間待機しますチュートリアル : Amazon EC2 で Apache Zeppelin ノートブックをセットアップするこのチュートリアルでは Amazon EC2 インスタンスでホストされる Apache Zeppelin ノートブックサーバーを作成しますノートブックは開発エンドポイントのいずれかに接続してデプロイする前に AWS Glue ETL ( 抽出変換ロード ) スクリプトをインタラクティブに実行デバッグおよびテストできるようにしますこのチュートリアルではチュートリアルの前提条件 (p. 114) にまとめられているステップが実行済みであることを前提としています Amazon EC2 インスタンスでの Apache Zeppelin ノートブックサーバーの作成 Amazon EC2 でノートブックサーバーを作成するには AWS CloudFormation Amazon EC2 およびその他のサービスでリソースを作成するためのアクセス許可が必要です必要なユーザーアクセス権限の詳細についてはステップ 3: AWS Glue にアクセスする IAM ユーザーにポリシーをアタッチする (p. 14) を参照してください 1. AWS Glue コンソールで [Dev endpoints] ( 開発エンドポイント ) を選択して開発エンドポイントのリストに移動します 2. 横にあるボックスを選択してエンドポイントを選択しますそれから [Actions] ( アクション ) を選択し [Create notebook server] ( ノートブックサーバーの作成 ) を選択しますノートブックサーバーをホストするため Amazon EC2 インスタンスは開発エンドポイントで AWS CloudFormation スタックを使用してスピンアップされ Zeppelin ノートブック HTTP サーバーはポート 443 で起動されます 3. 英数字とハイフンのみを使用し demo-cf などの AWS CloudFormation スタックサーバー名を入力します 4. ステップ 5: ノートブック用の IAM ロールを作成する (p. 23) で説明されているように Amazon EC2 への信頼関係を設定した IAM ロールを選択します 5. Amazon EC2 コンソール ( で生成した Amazon EC2 キーペアを選択するか [Create EC2 key pair] (EC2 キーペアの作成 ) を選択して新しいキーペアを生成しますそのペアのプライベートキー部分をダウンロードして保存した場所を忘れないでくださいこのキーペアは開発エンドポイント作成時に使用した SSH キーとは異なります (Amazon EC2 が使用するキーは 2048-bit SSH-2 RSA キーです ) Amazon EC2 キーについての詳細は Amazon EC2 のキーペアを参照してください誤って変更されないようプライベートキーファイルが書き込み禁止であるのを確認することを一般的にお勧めします macos および Linux システムの場合ターミナルを開いて chmod 400 private-key-file path を入力することでこれを行います Windows の場合コンソールを開いて attrib -r private-key-file path を入力します 6. ユーザー名とパスワードを選択して Zeppelin ノートブックにアクセスします 7. ノートブック状態を保存する先の Amazon S3 パスを選択します 8. [Create] を選択します AWS CloudFormation コンソールの [Events] ( イベント ) タブ ( cloudformation) で AWS CloudFormation スタックのステータスを表示できます Amazon EC2 コンソール 121

129 AWS Glue 開発者ガイドチュートリアル : Amazon EC2 Zeppelin ノートブック ( で AWS CloudFormation が作成した Amazon EC2 インスタンスを表示できますキー名 aws-glue-dev-endpoint と開発エンドポイントの名前の値でタグ付けされたインスタンスを検索しますノートブックサーバーの作成後ステータスは Amazon EC2 で CREATE_COMPLETE に変わりますサーバーに関する詳細情報は開発エンドポイントの詳細ページにも表示されます作成が完了すると新しいサーバーのノートブックに接続できます Note 作成した開発エンドポイントに関連付けられているすべてのノートブックサーバーを管理しますしたがって開発エンドポイントを削除した場合ノートブックサーバーを削除するには AWS CloudFormation コンソールで AWS CloudFormation スタックを削除する必要があります Amazon EC2 でのノートブックサーバーへの接続 1. AWS Glue コンソールで [Dev endpoints] ( 開発エンドポイント ) を選択して開発エンドポイントのリストに移動しますノートブックサーバーを作成した開発エンドポイントの名前を選択します名前を選択すると詳細ページが開きます 2. [Endpoint details] ( エンドポイントの詳細 ) ページの下部で Notebook Server URL ( ノートブックサーバー URL) というラベルが付いた URL をコピーします 3. ウェブブラウザを開きそのノートブックサーバー URL を貼り付けますこれによりポート 443 で HTTPS を使用してサーバーにアクセスできますブラウザがサーバーの証明書を認識しない場合がありますこの場合保護を上書きして続行する必要があります 4. ノートブックサーバーの作成時に指定したユーザー名とパスワードを使用して Zeppelin にログインしますノートブックの段落におけるシンプルスクリプトフラグメントの実行 1. [Create new note] ( 新しいメモの作成 ) を選択してそれに Legislators という名前を付けます spark が Default Interpreter ( デフォルトインタープリタ ) であることを確認します 2. ステートメント spark.version を入力して実行することでノートブックが正しくセットアップされていることを検証できますこれはノートブックサーバーで実行されている Apache Spark のバージョンを返します 3. 次のスクリプトをノートブックの次の段落に入力して実行しますこのスクリプトはクローラが作成した persons_json テーブルからメタデータを読み取り基になるデータから DynamicFrame を作成しレコード数とデータのスキーマを表示します %pyspark import sys from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.transforms import * from awsglue.utils import getresolvedoptions # Create a Glue context gluecontext = GlueContext(SparkContext.getOrCreate()) # Create a DynamicFrame using the 'persons_json' table persons_dyf = gluecontext.create_dynamic_frame.from_catalog(database="legislators", table_name="persons_json") # Print out information about this data print "Count: ", persons_dyf.count() 122

130 AWS Glue 開発者ガイドチュートリアル : REPL シェルの使用 persons_dyf.printschema() スクリプトの出力は以下のようになります Count: 1961 root -- family_name: string -- name: string -- links: array -- element: struct -- note: string -- url: string -- gender: string -- image: string -- identifiers: array -- element: struct -- scheme: string -- identifier: string -- other_names: array -- element: struct -- note: string -- name: string -- lang: string -- sort_name: string -- images: array -- element: struct -- url: string -- given_name: string -- birth_date: string -- id: string -- contact_details: array -- element: struct -- type: string -- value: string -- death_date: string チュートリアル : 開発エンドポイントで REPL シェルを使用する AWS Glue では開発エンドポイントを作成してから REPL (Read-Evaluate-Print Loop) シェルを呼び出して PySpark コードを増分的に実行し ETL スクリプトをデプロイする前にインタラクティブにデバッグできるようにしますこのチュートリアルではチュートリアルの前提条件 (p. 114) にまとめられているステップが実行済みであることを前提としています 1. AWS Glue コンソールで [Dev endpoints] ( 開発エンドポイント ) を選択して開発エンドポイントのリストに移動します開発エンドポイントの名前を選択して詳細ページを開きます 2. [SSH to Python REPL] (Python REPL への SSH) というラベルが付いた SSH コマンドをコピーしテキストエディタに貼り付けます <private-key.pem> テキストを開発エンドポイントの作成に使用したパブリックキーに対応するプライベートキーの.pem ファイルへのパスに置き換えますパスには区切り記号としてバックスラッシュではなくスラッシュを使用します 3. ローカルコンピュータで SSH コマンドを実行できるターミナルウィンドウを開き編集した SSH コマンドを貼り付けますコマンドを実行します出力は次のようになります download: s3://aws-glue-jes-prod-us-east-1-assets/etl/jars/glue-assembly.jar to../../ usr/share/aws/glue/etl/jars/glue-assembly.jar 123

131 AWS Glue 開発者ガイドチュートリアル : PyCharm Professional を使用する download: s3://aws-glue-jes-prod-us-east-1-assets/etl/python/pyglue.zip to../../usr/ share/aws/glue/etl/python/pyglue.zip Python (default, Sep , 22:14:00) [GCC (Red Hat )] on linux2 Type "help", "copyright", "credits" or "license" for more information. Setting default log level to "WARN". To adjust logging level use sc.setloglevel(newlevel). For SparkR, use setloglevel(newlevel). SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/usr/share/aws/glue/etl/jars/glue-assembly.jar!/org/ slf4j/impl/staticloggerbinder.class] SLF4J: Found binding in [jar:file:/usr/lib/spark/jars/slf4j-log4j jar!/org/ slf4j/impl/staticloggerbinder.class] SLF4J: See for an explanation. SLF4J: Actual binding is of type [org.slf4j.impl.log4jloggerfactory] Welcome to / / / / \ \/ _ \/ _ `/ / '_/ / /. /\_,_/_/ /_/\_\ version /_/ Using Python version (default, Sep :14:00) SparkSession available as 'spark'. >>> 4. ステートメント print spark.version を入力して REPL シェルが正常に動作しているかテストします Spark のバージョンが表示されれば REPL を使用する準備ができたことになります 5. シェルで次のシンプルなスクリプトを行単位で実行することができます import sys from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.transforms import * gluecontext = GlueContext(SparkContext.getOrCreate()) persons_dyf = gluecontext.create_dynamic_frame.from_catalog(database="legislators", table_name="persons_json") print "Count: ", persons_dyf.count() persons_dyf.printschema() チュートリアル : 開発エンドポイントで PyCharm Professional をセットアップするこのチュートリアルではローカルマシンで実行中の PyCharm Professional Python IDE を開発エンドポイントに接続し AWS Glue ETL ( 抽出転送およびロード ) スクリプトをデプロイ前にインタラクティブに実行デバッグおよびテストします開発エンドポイントをインタラクティブに接続するには PyCharm Professional がインストールされている必要があります無料版を使用してこれを行うことはできませんこのチュートリアルではチュートリアルの前提条件 (p. 114) にまとめられているステップが実行済みであることを前提としています PyCharm Professional を開発エンドポイントに接続する 1. PyCharm に legislators という名前の新しい純粋な Python プロジェクトを作成します 2. プロジェクトに get_person_schema.py という名前のファイルを次の内容で作成します 124

132 AWS Glue 開発者ガイドチュートリアル : PyCharm Professional を使用する import sys import pydevd from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.transforms import * def main(): # Invoke pydevd pydevd.settrace(' ', port=9001, stdouttoserver=true, stderrtoserver=true) # Create a Glue context gluecontext = GlueContext(SparkContext.getOrCreate()) # Create a DynamicFrame using the 'persons_json' table persons_dyf = gluecontext.create_dynamic_frame.from_catalog(database="legislators", table_name="persons_json") # Print out information about this data print "Count: ", persons_dyf.count() persons_dyf.printschema() if name == " main ": main() 3. AWS Glue Python ライブラリファイル PyGlue.zip をからローカルマシンの便利な場所にダウンロードします 4. PyCharm のプロジェクトのコンテンツルートとして PyGlue.zip を追加します PyCharm で [File] ( ファイル ) [Settings] ( 設定 ) の順に選択し [Settings] ( 設定 ) ダイアログボックスを開きます ( ツールバーの歯車とレンチのアイコンを使用することもできますまたは Ctrl +Alt+S を押します ) legislators プロジェクトを展開し [Project Structure] ( プロジェクト構造 ) を選択します次に右ペインで [+Add Content Root] (+ コンテンツルートの追加 ) を選択します PyGlue.zip を保存した場所に移動して選択し [Apply] ( 適用 ) を選択します [Settings] ( 設定 ) 画面は以下のようになります 125

133 AWS Glue 開発者ガイドチュートリアル : PyCharm Professional を使用する [Apply] ( 適用 ) を選択した後は [Settings] ( 設定 ) ダイアログボックスを開いたままにします 5. デプロイオプションを設定し SFTP を使用してローカルスクリプトを開発エンドポイントにアップロードします ( この機能は PyCharm Professional でのみ使用できます ) [Settings] ( 設定 ) ダイアログボックスで [Build, Execution, Deployment] ( ビルド実行デプロイ ) セクションを展開します [Deployment] ( デプロイ ) サブセクションを選択します中央のペインの一番上にある [+] アイコンを選択し新しいサーバーを追加します名前をつけて [Type] ( タイプ ) を SFTP に設定します詳細ページに示されているように [SFTP host] (SFTP ホスト ) を開発エンドポイントの [Public address] ( パブリックアドレス ) に設定します ( 詳細ページを表示するには AWS Glue コンソールで開発エンドポイントの名前を選択します ) [User name] ( ユーザー名 ) を glue に設定します [Auth type] ( 認証タイプ ) を [Key pair (OpenSSH or Putty)] ( キーペア OpenSSH または Putty) に設定します開発エンドポイントのプライベートキーファイルがある場所を参照しプライベートキーファイルを設定します PyCharm はキータイプとして DSA RSA ECDSA OpenSSH のみサポートします最新バージョンの ssh-keygen を使用して PyCharm が受け入れるキーペアタイプを生成できます [Test SFTP connection] (SFTP 接続のテスト ) を選択し接続をテストします接続が成功したら [Apply] ( 適用 ) を選択します [Settings] ( 設定 ) 画面は以下のようになります 126

134 AWS Glue 開発者ガイドチュートリアル : PyCharm Professional を使用する再び [Apply] ( 適用 ) を選択した後は [Settings] ( 設定 ) ダイアログボックスを開いたままにします 6. ローカルディレクトリをデプロイ用のリモートディレクトリにマッピングします右のペインの [Deployment] ( デプロイ ) ページで [Mappings] ( マッピング ) と書かれた中央上部のタブを選択します [Deployment Path] ( デプロイパス ) 列でプロジェクトパスのデプロイ用に /home/glue/ scripts/ の下にパスを入力します [Apply] を選択します [Settings] ( 設定 ) 画面は以下のようになります 127

開発エンドポイントにスクリプトをデプロイするには [Tools] ( ツール ) [Deployment] ( デプロイ )

135 AWS Glue 開発者ガイドチュートリアル : PyCharm Professional を使用する [OK] を選択し [ Settings] ダイアログボックスを閉じます開発エンドポイントにスクリプトをデプロイする開発エンドポイントにスクリプトをデプロイするには [Tools] ( ツール ) [Deployment] ( デプロイ ) の順に選択した後次の図に示すように開発エンドポイントをセットアップする名前を選択しますスクリプトがデプロイされた後画面の下部は次のようになります 128

AWS Glue 開発者ガイドチュートリアル : PyCharm Professional を使用する localhost とローカルポートでデバッグサーバーを起動するデバッグサーバーを起動するには次の手順を実行します 1. [Run] ( 実行 ) [Edit Configuration] ( 設定の編集 ) の順に選択します 2.

この画面の手順の項目 2 と 3 に注目します作成したスクリプトファイルは pydevd をインポートしますただし settrace を呼び出すと localhost を 169.254.76.0 に置き換えますこれは開発エンドポイントにアクセスできる特別なリンクのローカル IP アドレスです 5.

136 AWS Glue 開発者ガイドチュートリアル : PyCharm Professional を使用する localhost とローカルポートでデバッグサーバーを起動するデバッグサーバーを起動するには次の手順を実行します 1. [Run] ( 実行 ) [Edit Configuration] ( 設定の編集 ) の順に選択します 2. 左ペインの [Defaults] ( デフォルト ) を展開し [Python Remote Debug] (Python リモートデバッグ ) を選択します 3. [Port] ( ポート ) に 9001 などのポート番号を入力します 4. この画面の手順の項目 2 と 3 に注目します作成したスクリプトファイルは pydevd をインポートしますただし settrace を呼び出すと localhost をに置き換えますこれは開発エンドポイントにアクセスできる特別なリンクのローカル IP アドレスです 5. [Apply] ( 適用 ) を選択してこのデフォルトの設定を保存します 6. 画面の上部にある [+] アイコンを選択し先程保存したデフォルトに基づいて新しい設定を作成しますドロップダウンメニューから [Python Remote Debug] (Python リモートデバッグ ) を選択しますこの設定に demodevendpoint と名前を付け [OK] を選択します 7. [Run] ( 実行 ) メニューで [Debug 'demodevendpoint'] ('demodevendpoint' のデバッグ ) を選択しますこれで画面は以下のようになります 129

AWS Glue 開発者ガイドチュートリアル : PyCharm Professional を使用するポート転送を開始する SSH によるサイレントモードリモートポート転送を呼び出すには Bash ( または Windows Git Bash など ) の SSH をサポートするターミナルウィンドウを開きます以下の置換を使用してこのコマンドを入力します ssh -i

137 AWS Glue 開発者ガイドチュートリアル : PyCharm Professional を使用するポート転送を開始する SSH によるサイレントモードリモートポート転送を呼び出すには Bash ( または Windows Git Bash など ) の SSH をサポートするターミナルウィンドウを開きます以下の置換を使用してこのコマンドを入力します ssh -i private-key-file-path -nnt -g -R :9001:localhost:9001 glue@ec compute-1.amazonaws.com 置換 private-key-file-path を開発エンドポイントのパブリックキーに対応するプライベートキーの.pem ファイルへのパスに置き換えます ec compute-1.amazonaws.com を開発エンドポイントのパブリックアドレスで置き換えます AWS Glue コンソールで [Dev endpoints] ( 開発エンドポイント ) を選択してパブリックアドレスを確認できます次に開発エンドポイントの名前を選択して [Endpoint details] ( エンドポイントの詳細 ) ページを開きます開発エンドポイントでスクリプトを実行する開発エンドポイントでスクリプトを実行するには SSH をサポートする別のターミナルウィンドウを開きこのコマンドを以下で置き換えて入力します ssh -i private-key-file-path \ 130

$AWS Glue 開発者ガイドコンソールでの開発エンドポイント glue@ec2-12-345-678-9.compute-1.amazonaws.com \ -t gluepython deployed-script-path/script-name 置換 private-key-file-path を開発エンドポイントのパブリックキーに対応するプライベートキーの.$

138 AWS Glue 開発者ガイドコンソールでの開発エンドポイント \ -t gluepython deployed-script-path/script-name 置換 private-key-file-path を開発エンドポイントのパブリックキーに対応するプライベートキーの.pem ファイルへのパスに置き換えます ec compute-1.amazonaws.com を開発エンドポイントのパブリックアドレスで置き換えます AWS Glue コンソールで [Dev endpoints] ( 開発エンドポイント ) へ移動してパブリックアドレスを確認できます次に開発エンドポイントの名前を選択して [Endpoint details] ( エンドポイントの詳細 ) ページを開きます deployed-script-path を [Deployment Mappings] ( デプロイマッピング ) タブで入力したパスに置き換えます ( 例 : /home/glue/scripts/legislators/) script-name をアップロードしたスクリプトの名前に置き換えます ( 例 : get_person_schema.py) これで PyCharm はリモートでデバッグされたものに相当するローカルソースファイルを提供するようプロンプトを表示します [Autodetect] ( 自動検出 ) を選択しますこれで開発エンドポイントでスクリプトをリモートでデバッグするためのセットアップができました AWS Glue コンソールでの開発エンドポイントの操作開発エンドポイントは AWS Glue スクリプトの開発およびテストに使用できる環境です AWS Glue コンソールの [Dev endpoints] ( 開発エンドポイント ) タブで作成したすべての開発エンドポイントが一覧表示されます開発エンドポイントの SSH キーを追加削除または変更できます開発エンドポイントで使用するノートブックを作成することもできます 131

すべて見る

そこが知りたい！AWSクラウドのセキュリティ

そこが知りたい！AWSクラウドのセキュリティそこが知りたい! AWS クラウドのセキュリティ #AWSRoadshow 1 Twitter で AWS Cloud Roadshow に参加しよう! #AWSRoadshow 皆さんのご意見聞かせてください! 公式アカウント @awscloud_jp 最新技術情報イベント情報お得なクーポン情報など日々更新中! 2 自己紹介名前:鈴木宏昌スズキヒロアキ所属:AWSテクニカルトレーナー