AWS Glue - 開発者ガイド

Size: px

Start display at page:

Download "AWS Glue - 開発者ガイド"

こうごひらみね
8 years ago
Views:

1 AWS Glue 開発者ガイド

2 AWS Glue 開発者ガイド AWS Glue: 開発者ガイド Copyright 2018 Amazon Web Services, Inc. and/or its affiliates. All rights reserved. Amazon's trademarks and trade dress may not be used in connection with any product or service that is not Amazon's, in any manner that is likely to cause confusion among customers, or in any manner that disparages or discredits Amazon. All other trademarks not owned by Amazon are the property of their respective owners, who may or may not be affiliated with, connected to, or sponsored by Amazon.

3 AWS Glue 開発者ガイド Table of Contents AWS Glue とは... 1 AWS Glue が適している用途... 1 仕組み... 3 独立で実行されるサーバーレス ETL ジョブ... 3 概念... 4 AWS Glue の用語... 5 コンポーネント... 6 AWS Glue コンソール... 6 AWS Glue データカタログ... 6 AWS Glue クローラおよび分類子... 7 AWS Glue ETL オペレーション... 7 AWS Glue ジョブシステム... 7 半構造化されたスキーマをリレーショナルスキーマに変換する... 7 ご利用開始にあたって... 9 AWS Glue の IAM アクセス許可のセットアップ... 9 ステップ 1: AWS Glue サービスの IAM ポリシーを作成します... 9 ステップ 2: AWS Glue 用の IAM ロールを作成するステップ 3: AWS Glue にアクセスする IAM ユーザーにポリシーをアタッチするステップ 4: ノートブックの IAM ポリシーを作成するステップ 5: ノートブック用の IAM ロールを作成する VPC での DNS のセットアップデータストアにアクセスするための環境のセットアップ Amazon S3 における Amazon VPC エンドポイント JDBC データストアに接続するための VPC の設定開発エンドポイント用の環境の設定開発エンドポイント用にネットワークを設定するノートブックサーバー用の Amazon EC2 の設定コンソールのワークフローの概要認証とアクセスコントロール認証アクセスコントロールアクセス管理の概要 AWS Glue リソースおよびオペレーションリソース所有権についてリソースへのアクセスの管理ポリシー要素の指定 : アクション効果プリンシパルポリシーでの条件の指定アイデンティティベースのポリシー (IAM ポリシー ) を使用するコンソールのアクセス許可 AWS Glue での AWS 管理 ( 事前定義 ) ポリシー AWS Glue API のアクセス権限リファレンス関連トピック AWS Glue データカタログの入力 AWS Glue データカタログでテーブルを定義するテーブルパーティションコンソールでのテーブルの使用クローラを使用してテーブルを分類する AWS Glue データカタログでクローラを定義するクロール可能なデータストア包含パターンと除外パターンを使用するクローラを実行するとどうなるか Amazon S3 のフォルダはテーブルやパーティションとして作成されますか? クローラの設定クローラのスケジュール iii

4 AWS Glue 開発者ガイドコンソールでのクローラの使用データカタログでのデータベースの定義コンソールでデータベースを使用するクローラに分類子を追加する分類子を使用するタイミングカスタム分類子 AWS Glue の組み込み分類子カスタム分類子の書き込みコンソールでの分類子の操作データストアに接続を追加する接続が使用されるタイミング AWS Glue データカタログで接続を定義する VPC の JDBC データストアに接続するコンソールでの接続の操作 AWS CloudFormation テンプレートを使用したデータカタログの事前設定サンプルデータベースサンプルのデータベーステーブルパーティションサンプルの分類子サンプルの Amazon S3 クローラサンプルの接続サンプルの JDBC クローラ Amazon S3 に書き込む Amazon S3 のサンプルジョブ Amazon S3 に書き込む JDBC のサンプルジョブサンプルのオンデマンドトリガーサンプルのスケジュールされたトリガーサンプルの条件付きトリガーサンプルの開発エンドポイントジョブを作成するワークフローの概要ジョブの追加ジョブプロパティの定義組み込み変換コンソールでのジョブスクリプトの編集スクリプトの定義コンソールのスクリプト独自のカスタムスクリプトを提供するジョブのトリガースケジュールやイベントに基づいてジョブをトリガーするトリガータイプを指定するコンソールでのトリガーの使用開発エンドポイントの使用環境を管理する開発エンドポイントを使用する開発エンドポイントへのアクセスチュートリアルの前提条件チュートリアル : ローカル Zeppelin ノートブックチュートリアル : Amazon EC2 Zeppelin ノートブックチュートリアル : REPL シェルの使用チュートリアル : PyCharm Professional を使用するコンソールでの開発エンドポイント実行とモニタリング自動化ツールジョブとクローラの時間ベースのスケジュール cron 式ジョブのブックマーク CloudWatch イベントによる自動化 iv

5 AWS Glue 開発者ガイド CloudTrail を使用したログ記録 CloudTrail 内の情報 AWS Glue ログファイルトラブルシューティング AWS Glue トラブルシューティング情報の収集接続の問題のトラブルシューティングエラーのトラブルシューティングエラー : リソースを利用できませんエラー : VPC の subnetid に S3 エンドポイントまたは NAT ゲートウェイが見つかりませんでしたエラー : 必要なセキュリティグループのインバウンドルールエラー : 必要なセキュリティグループのアウトバウンドルールエラー : カスタム DNS 解決の失敗エラー : ロールにロール継承アクセス権限を付与する必要がある AWS Glue サービスが渡されているためジョブの実行に失敗しましたエラー : DescribeVpcEndpoints アクションが許可されていません VPC ID vpc-id を検証できませんエラー : DescribeRouteTables アクションが許可されていません VPC id (vpc-id) の Subnet Id (subnet-id) を検証できませんエラー : ec2:describesubnets の呼び出しに失敗しましたエラー : ec2:describesecuritygroups の呼び出しに失敗しましたエラー : AZ のサブネットが見つかりませんでしたエラー : 複数のサブネットまたは AZ のある接続リストのジョブ実行の例外エラー : JDBC ターゲットへの書き込み時のジョブ実行の例外エラー : Amazon S3 タイムアウトエラー : Amazon S3 アクセスが拒否されましたエラー : Amazon S3 アクセスキー ID が存在しませんエラー : s3a:// URI を使用して Amazon S3 にアクセスするときにジョブ実行が失敗しますエラー : ネットワークインターフェイスのプライベート DNS が見つかりませんエラー : 開発エンドポイントのプロビジョニングに失敗しましたエラー : ノートブックサーバー CREATE_FAILED エラー : ローカルノートブックの起動に失敗するエラー : ノートブック使用エラーエラー : クローラの実行に失敗しましたエラー : Athena データカタログのアップグレード AWS Glue の制限 ETL プログラミング一般情報特別なパラメータ形式オプションパーティションの管理入力ファイルのグループ化 Python での ETL プログラミング Python の使用拡張機能のリスト変換のリスト Python のセットアップ API の呼び出し Python ライブラリ Python サンプル PySpark 拡張機能 PySpark 変換 Scala での ETL プログラミング Scala の使用 Scala API リスト AWS Glue API Catalog API v

6 AWS Glue 開発者ガイドデータベーステーブルパーティション接続ユーザー定義関数 Athena カタログをインポートするクローラおよび分類子分類子クローラスケジューラ ETL スクリプトの自動生成データ型 CodeGenNode CodeGenNodeArg CodeGenEdge 場所 CatalogEntry MappingEntry オペレーション CreateScript (create_script) GetDataflowGraph (get_dataflow_graph) GetMapping (get_mapping) GetPlan (get_plan) ジョブ API ジョブジョブ実行トリガ DevEndpoint API データ型 DevEndpoint DevEndpointCustomLibraries オペレーション CreateDevEndpoint (create_dev_endpoint) UpdateDevEndpoint (update_dev_endpoint) DeleteDevEndpoint (delete_dev_endpoint) GetDevEndpoint (get_dev_endpoint) GetDevEndpoints (get_dev_endpoints) 共通データ型タグ DecimalNumber ErrorDetail PropertyPredicate ResourceUri 文字列パターン例外 AccessDeniedException AlreadyExistsException ConcurrentModificationException ConcurrentRunsExceededException CrawlerNotRunningException CrawlerRunningException CrawlerStoppingException EntityNotFoundException IdempotentParameterMismatchException InternalServiceException InvalidExecutionEngineException InvalidInputException vi

7 AWS Glue 開発者ガイド InvalidTaskStatusTransitionException JobDefinitionErrorException JobRunInTerminalStateException JobRunInvalidStateTransitionException JobRunNotInTerminalStateException LateRunnerException NoScheduleException OperationTimeoutException ResourceNumberLimitExceededException SchedulerNotRunningException SchedulerRunningException SchedulerTransitioningException UnrecognizedRunnerException ValidationException VersionMismatchException ドキュメント履歴 AWS の用語集 vii

8 AWS Glue 開発者ガイド AWS Glue が適している用途 AWS Glue とは AWS Glue は簡単でコスト効果の高い方法でデータの分類消去強化およびさまざまなデータストア間を確実に移動することができる完全マネージド型の ETL ( 抽出変換ロード ) サービスです AWS Glue は AWS Glue データカタログと呼ばれる中央メタデータリポジトリ Python または Scala コードを自動的に生成する ETL エンジン依存性の解決ジョブのモニタリングおよび再試行を処理する柔軟なスケジューラで構成されています AWS Glue はサーバーレスであるためセットアップまたは管理するインフラストラクチャはありません AWS Glue コンソールを使用してデータを検出変換し検索とクエリに使用できるようにする方法について説明しますコンソールは基盤となるサービスを呼び出しデータ変換に必要な作業を調整します AWS Glue API オペレーションを使用して AWS Glue サービスとインターフェイスをとることもできます使い慣れた開発環境を使用して Python または Scala Apache Spark ETL コードを編集デバッグおよびテストします料金情報については AWS Glue の料金を参照してください AWS Glue が適している用途 AWS Glue を使用してデータウェアハウスを構築しデータを整理最適化検証フォーマットできます AWS クラウドのデータを変換しデータストアへ移動できますまた通常のレポートおよび分析のためにさまざまなソースからデータウェアハウスへデータをロードできますデータウェアハウスに保存することでビジネスのさまざまな部分の情報を統合し意思決定のためにデータの共通ソースを提供します AWS Glue によりデータウェアハウスの構築の際多くのタスクが簡素化されますデータストアに関するメタデータを検出および分類し一元的なカタログに保存しますクリックストリームやプロセスログなどの半構造化データを処理できますスケジュールされたクローラプログラムからのテーブル定義で AWS Glue データカタログが入力されますクローラが分類子ロジックを呼び出してデータのスキーマ形式データ型を推論しますこのメタデータはテーブルとして AWS Glue データカタログに保存され ETL ジョブの認証処理に使用されます ETL スクリプトを生成しソースからターゲットへデータを変換フラット化強化を行いますスキーマの変更を検出し設定に基づき調整しますスケジュールやイベントに基づいて ETL ジョブをトリガーするジョブを自動的に開始してデータをデータウェアハウスに移動できますトリガーを使用してジョブ間の依存関係を作成できますランタイムメトリクスを収集しデータウェアハウスのアクティビティを監視しますエラーと再試行を自動的に処理しますジョブを実行するために必要に応じてリソースをスケーリングします AWS Glue を使用してサーバーレスクエリを Amazon S3 データレイクに対して実行できます AWS Glue で Amazon Simple Storage Service (Amazon S3) のデータを分類し Amazon Athena および Amazon Redshift Spectrum でクエリに利用できますクローラではメタデータは基盤となるデータと同期し続けます Athena と Redshift Spectrum は AWS Glue データカタログを使用して Amazon S3 データレイクを直接クエリできます AWS Glue では複数のデータサイロにロードすることなく 1 つの統一されたインターフェイスを通じてデータにアクセスし分析できます AWS Glue でイベント駆動型の ETL パイプラインを作成できます AWS Glue ETL ジョブを AWS Lambda 関数から呼び出すことで Amazon S3 で新しいデータが使用可能になるとすぐに ETL ジョブを 1

9 AWS Glue 開発者ガイド AWS Glue が適している用途実行できますまた ETL ジョブの処理の一環としてこのような新しいデータセットを AWS Glue データカタログに登録することもできます AWS Glue を使用してデータアセットを理解できますさまざまな AWS サービスを使用してデータを保存でき AWS Glue データカタログを使用してデータの統一されたビューを維持できます Data Catalog を表示して所有しているデータセットをすばやく検索および検出でき関連するメタデータを 1 つの中央リポジトリに維持できますまた Data Catalog は外部 Apache Hive メタストアのドロップインリプレースメントとしても機能します 2

10 AWS Glue 開発者ガイド独立で実行されるサーバーレス ETL ジョブ AWS Glue: この機能の説明 AWS Glue は他の AWS サービスを使用してデータウェアハウスを構築する ETL ( 抽出変換ロード ) ジョブをオーケストレーションします AWS Glue は API オペレーションを呼び出してデータの変換ランタイムログの作成ジョブロジックの保存およびジョブ実行をモニタリングするのに役立つ通知の作成を行います AWS Glue コンソールはこれらのサービスを管理アプリケーションに接続してお客様が ETL ワークの作成と監視に集中できるようにします管理およびジョブ開発のオペレーションはコンソールがお客様に代わって実行しますデータソースへのアクセスとデータウェアハウスへの書き込みを行うために認証情報と他のプロパティを AWS Glue に提供します AWS Glue はワークロードを実行するために必要なリソースのプロビジョニングおよび管理を行います AWS Glue が代わって行うため ETL ツールのインフラストラクチャを作成する必要はありませんリソースが必要な場合起動時間を削減するために AWS Glue はインスタンスのウォームプールからインスタンスを使用してワークロードを実行します AWS Glue では Data Catalog にあるテーブル定義を使用してジョブを作成しますジョブは変換を実行するプログラミングロジックを含むスクリプトで構成されますトリガーを使用しスケジュールに基づいてまたは指定されたイベントの結果としてジョブを開始しますターゲットデータが存在する場所およびターゲットに入力するソースデータを指定します入力により AWS Glue はデータをソースからターゲットに変換するのに必要なコードを生成します AWS Glue コンソールまたは API でスクリプトを提供してデータを処理することもできますトピック独立で実行されるサーバーレス ETL ジョブ (p. 3) AWS Glue の概念 (p. 4) AWS Glue コンポーネント (p. 6) 半構造化されたスキーマをリレーショナルスキーマに変換する (p. 7) 独立で実行されるサーバーレス ETL ジョブ AWS Glue は Apache Spark サーバーレス環境で ETL ジョブを実行します AWS Glue は独自のサービスアカウントでプロビジョニングして管理する仮想リソースでこれらのジョブを実行します AWS Glue は以下を実行するよう設計されていますお客様のデータを分離します伝送中と保管時のお客様のデータを保護します一時的な制限された認証情報を使用してまたはアカウント内の IAM ロールに対するお客様の同意を得てお客様のリクエストに応え必要な時だけお客様のデータにアクセスします ETL ジョブのプロビジョニング時に Virtual Private Cloud (VPC) にある入力データソースおよび出力データターゲットを提供しますまたデータソースおよびターゲットにアクセスするために必要な IAM ロール VPC ID サブネット ID およびセキュリティグループを提供します各タプル ( 顧客アカウント ID IAM ロールサブネット ID およびセキュリティグループ ) に AWS Glue は AWS Glue サービスアカウント内の他のすべての Spark 環境からネットワークおよび管理レベルで分離された新しい Spark 環境を作成します AWS Glue はプライベート IP アドレスを使用してサブネットで Elastic Network Interface を作成します Spark ジョブはこれらの Elastic Network Interface を使用してデータソースおよびデータターゲットにアクセスします Spark 環境内外へのまた Spark 環境内でのトラフィックは VPC およびネットワーキングポリシーにより管理されますただし 1 つ例外があり AWS Glue ライブラリに対する呼び出しは AWS Glue VPC 経由で AWS Glue API オペレーションにトラフィックをプロキシできますすべての 3

11 AWS Glue 開発者ガイド概念 AWS Glue API 呼び出しはログに記録されますそのためデータの所有者は監査ログをアカウントに配信する AWS CloudTrail を有効にすることで API アクセスを監査できます ETL ジョブを実行する AWS Glue 管理の Spark 環境は他の AWS サービスが従う同じセキュリティ実施方法で保護されていますそれらの実施方法は AWS のセキュリティプロセスの紹介ホワイトペーパーの AWS アクセスセクションを参照してください AWS Glue の概念次の図は AWS Glue 環境のアーキテクチャを示します AWS Glue でジョブを指定しデータソースからデータターゲットへのデータの抽出変換およびロード (ETL) に必要な作業を完了します通常は以下のアクションを実行しますクローラを指定し AWS Glue データカタログにメタデータテーブルの定義を入力しますデータストアでクローラを指定しクローラは Data Catalog のテーブル定義を作成しますテーブル定義に加えて AWS Glue データカタログには ETL ジョブを定義するために必要な他のメタデータが含まれていますこのメタデータを使用してデータを変換するジョブを定義できます AWS Glue はデータを変換するスクリプトを生成できますまたは AWS Glue コンソールまたは API でスクリプトを提供できますジョブをオンデマンドで実行するまたは指定したトリガーが発生すると開始するようにセットアップできますトリガーは時間ベースのスケジュールまたはイベントですジョブが実行されるとスクリプトはデータソースからデータを抽出しデータを変換してデータターゲットにロードしますスクリプトは AWS Glue の Apache Spark 環境で実行されます 4

12 AWS Glue 開発者ガイド AWS Glue の用語 Important AWS Glue のテーブルとデータベースは AWS Glue データカタログのオブジェクトですそれらにはメタデータが含まれデータストアからのデータは含まれません AWS Glue の用語 AWS Glue は複数のコンポーネントの相互作用に依存してデータウェアハウスのワークフローを作成および管理しています AWS Glue データカタログ AWS Glue の持続的なメタデータストア各 AWS アカウントには 1 つ AWS Glue データカタログがありますこれには AWS Glue 環境を管理するためのテーブル定義ジョブ定義およびその他の制御情報が含まれています表データを表すメタデータ定義データが Amazon Simple Storage Service (Amazon S3) ファイル Amazon Relational Database Service (Amazon RDS) テーブルまたは別の一連のデータのどこにあるとしてもテーブルはデータのスキーマを定義します AWS Glue データカタログのテーブルは列名データ型の定義および基本データセットに関するその他のメタデータで構成されていますデータのスキーマは AWS Glue のテーブル定義で表されます実際のデータはファイルまたはリレーショナルデータベーステーブルにあっても元のデータストアに残ります AWS Glue はファイルとリレーショナルデータベースのテーブルを AWS Glue データカタログに格納しますそれらは ETL ジョブを作成する際にソースおよびターゲットとして使用されますクローラデータストア ( ソースまたはターゲット ) に接続し分類子の優先順位リストを進行してデータのスキーマを判断し AWS Glue データカタログにメタデータテーブルを作成するプログラムです分類子データのスキーマを決定します AWS Glue は一般的なファイルタイプの分類子を提供します (CSV JSON AVRO XML など ) また JDBC 接続を使用する一般的なリレーショナルデータベース管理システムの分類子を提供します独自の分類子を記述するには grok パターンを使用するまたは XML ドキュメント内の行タグを指定します Connection データストアに接続するのに必要なプロパティが含まれていますデータベース AWS Glue の論理グループに分類される一連の関連付けられたテーブル定義ですジョブ ETL 作業を実行するために必要なビジネスロジックです変換スクリプトデータソースおよびデータターゲットで構成されますジョブ実行はスケジュールされたトリガーによりまたはイベントにトリガーされることで開始されます Script ソースからデータを抽出し変換しターゲットにロードするコード AWS Glue は PySpark または Scala スクリプトを生成します PySpark は ETL プログラミングの Python ダイアレクトです 5

13 AWS Glue 開発者ガイドコンポーネント Transform データを操作して別の形式にするために使用するコードのロジック Trigger ETL ジョブを開始しますトリガーはスケジュールされた時間またはイベントに基いて定義できます開発エンドポイントエンドポイントは AWS Glue スクリプトの開発およびテストに使用できる環境ですノートブックサーバー PySpark ステートメントを実行するために使用できるウェブベースの環境詳細については Apache Zeppelin を参照してください開発エンドポイントにノートブックサーバーをセットアップして PySpark ステートメントを AWS Glue 拡張機能で実行できます AWS Glue コンポーネント AWS Glue は抽出変換ロード (ETL) ワークロードを設定し管理するためのコンソールと API オペレーションを備えていますいくつかの言語に固有な SDK と AWS Command Line Interface (AWS CLI) を介して API オペレーションを使用できます AWS CLI の使用については AWS CLI Command Reference を参照してください AWS Glue は AWS Glue データカタログを使用してデータソース変換およびターゲットについてのメタデータを保存します Data Catalog は Apache Hive メタストアのドロップインリプレースメントです AWS Glue Jobs system はデータの ETL オペレーションの定義スケジューリングおよび実行のためのマネージド型インフラストラクチャを備えています AWS Glue API の詳細については AWS Glue API (p. 270) を参照してください AWS Glue コンソール AWS Glue コンソールを使用して ETL ワークフローを定義しオーケストレーションしますコンソールは AWS Glue データカタログおよび AWS Glue Jobs system のいくつかの API オペレーションを呼び出して次のタスクを実行しますジョブテーブルクローラ接続などの AWS Glue オブジェクトを定義しますいつクローラが実行するかをスケジュールしますジョブトリガーのイベントやスケジュールを定義します AWS Glue オブジェクトのリストを検索しフィルタリングします変換スクリプトを編集します AWS Glue データカタログ AWS Glue データカタログは永続的なメタデータストアです Apache Hive メタストアで行うのと同じように AWS クラウド上でメタデータの保存注釈付けおよび共有ができるマネージド型サービスです各 AWS アカウントには 1 つ AWS Glue データカタログがありますこれは均一なリポジトリを備えており異種システムがデータサイロのデータを追跡するためにメタデータを見つけて保存することができますまたそのメタデータを使用してデータのクエリや変換を行うことができます 6

14 AWS Glue 開発者ガイド AWS Glue クローラおよび分類子 AWS Identity and Access Management (IAM) ポリシーを使用して AWS Glue データカタログで管理されるデータソースへのアクセスを制御できますこれらのポリシーを使用することで社内の異なるグループが機密情報は保護しつつより広範な組織にデータを安全に発行できます IAM ポリシーにより場所に関係なくどのユーザーがどのデータへのアクセス権を持つかを明確にかつ一貫性を持って定義できますさらに Data Catalog はスキーマ変更の追跡データのリネージおよびデータアクセス制御のある包括的な監査およびガバナンス機能も備えていますデータが不適切に変更されたり誤って共有されることのないようにデータスキーマへの変更を監査してシステム間のデータの動きを追跡することができます AWS Glue データカタログの使用方法については AWS Glue データカタログの入力 (p. 50) を参照してください Data Catalog API を使用してプログラミングする方法については Catalog API (p. 275) を参照してください AWS Glue クローラおよび分類子 AWS Glue ではあらゆる種類のリポジトリにあるデータのスキャン分類スキーマ情報の抽出そのメタデータの AWS Glue データカタログへの自動保存ができるクローラを設定することもできますそこから ETL オペレーションをガイドするのに使用できますクローラおよび分類子の設定方法についてはクローラを使用してテーブルを分類する (p. 55) を参照してください AWS Glue API を使用してクローラおよび分類子をログラミングする方法についてはクローラおよび分類子 API (p. 311) を参照してください AWS Glue ETL オペレーション AWS Glue は Data Catalog のメタデータを使用してさまざまな ETL オペレーションを実行するために使用や変更ができる AWS Glue 拡張機能を備えた Scala または PySpark (Apache Spark 用の Python API) スクリプトを自動生成できますたとえば未加工データを抽出クリーンアップおよび変換してからその結果を別のリポジトリに保存してクエリと分析を行うことができますこのようなスクリプトは CSV ファイルをリレーショナル形式に変換し Amazon Redshift に保存する場合があります AWS Glue ETL 機能の使用方法の詳細については ETL スクリプトのプログラミング (p. 151) を参照してください AWS Glue ジョブシステム AWS Glue Jobs system は ETL ワークフローをオーケストレーションするためのマネージド型インフラストラクチャを提供しますデータを抽出したり変換したり異なる場所へ転送したりするのに使用するスクリプトを自動化するジョブを AWS Glue で作成できますジョブはスケジュールしたり連鎖させることができますまたは新しいデータの到着などのイベントによってトリガーすることができます AWS Glue Jobs system の使用の詳細については AWS Glue の実行とモニタリング (p. 135) を参照してください AWS Glue Jobs system API を使用したプログラミングについてはジョブ API (p. 333) を参照してください半構造化されたスキーマをリレーショナルスキーマに変換する半構造化データをリレーショナルテーブルに変換することが一般的です概念的には階層的なスキーマをリレーショナルスキーマに平坦化します AWS Glue はこの変換を臨機応変に実行できます 7

AWS Glue 開発者ガイド半構造化されたスキーマをリレーショナルスキーマに変換する通常半構造化されたデータにはデータ内のエンティティを識別するためのマークアップが含まれています固定されたスキーマのないネスト化されたデータ構造を持つことができます半構造化データの詳細については Wikipedia の半構造化データを参照してくださいリレーショナルデータは

15 AWS Glue 開発者ガイド半構造化されたスキーマをリレーショナルスキーマに変換する通常半構造化されたデータにはデータ内のエンティティを識別するためのマークアップが含まれています固定されたスキーマのないネスト化されたデータ構造を持つことができます半構造化データの詳細については Wikipedia の半構造化データを参照してくださいリレーショナルデータは行と列で構成されるテーブルで表されますテーブル間の関係はプライマリキー (PK) と外部キー (FK) の関係によって表すことができます詳細については Wikipedia のリレーショナルデータベースを参照してください AWS Glue はクローラを使用して半構造化データのスキーマを推測します次に ETL ( 抽出変換およびロード ) ジョブを使用してデータをリレーショナルスキーマに変換しますたとえば Amazon Simple Storage Service (Amazon S3) ソースファイルから Amazon Relational Database Service (Amazon RDS) テーブルに JSON データを解析できます AWS Glue がスキーマの違いを処理する方法を理解すると変換プロセスを理解するうえで役立ちますこの図は AWS Glue が半構造化スキーマをリレーショナルスキーマに変換する方法を示しています図は以下を示しています単一の値 A は直接リレーショナル列に変換されます値のペアである B1 および B2 は 2 つのリレーショナル列に変換されます子の X と Y を持つ C 構造は 2 つのリレーショナル列に変換されます配列 D[] は別のリレーショナルテーブルを指す外部キー (FK) 列のリレーショナル列に変換されます 2 番目のリレーショナルテーブルにはプライマリキー (PK) に加えてオフセットと配列の項目の値を含む列があります 8

16 AWS Glue 開発者ガイド AWS Glue の IAM アクセス許可のセットアップ AWS Glue の使用開始次のセクションでは概要を説明し AWS Glue のセットアップと使用の手順を示します AWS Glue の概念およびコンポーネントについては AWS Glue: この機能の説明 (p. 3) を参照してくださいトピック AWS Glue の IAM アクセス許可のセットアップ (p. 9) VPC での DNS のセットアップ (p. 24) データストアにアクセスするための環境のセットアップ (p. 25) 開発エンドポイント用の環境の設定 (p. 29) AWS Glue コンソールのワークフローの概要 (p. 32) AWS Glue の IAM アクセス許可のセットアップ AWS Identity and Access Management (IAM) を使用して AWS Glue によって使用されるリソースにアクセスするために必要なポリシーとロールを定義します次の手順では環境を設定するために必要な基本的なアクセス許可について説明しますビジネスニーズに応じてリソースへのアクセスを追加または削減できます 1. AWS Glue サービスの IAM ポリシーを作成する (p. 9) AWS Glue リソースへのアクセスを許可するサービスポリシーを作成します 2. AWS Glue の IAM ロールを作成する (p. 13) IAM ロールを作成し AWS Glue サービスポリシーと AWS Glue で使用される Amazon Simple Storage Service (Amazon S3) リソース用のポリシーをアタッチします 3. AWS Glue にアクセスする IAM ユーザーにポリシーをアタッチする (p. 14) AWS Glue コンソールにサインインする IAM ユーザにポリシーをアタッチします 4. ノートブックの IAM ポリシーを作成する (p. 20) 開発エンドポイント上のノートブックサーバーの作成に使用するノートブックサーバーポリシーを作成します 5. ノートブックの IAM ロールを作成する (p. 23) IAM ロールを作成しノートブックサーバーポリシーを添付しますステップ 1: AWS Glue サービスの IAM ポリシーを作成します Amazon S3 のオブジェクトにアクセスするなど別の AWS リソース上のデータにアクセスする操作の場合 AWS Glue にはユーザーの代わりにリソースにアクセスするためのアクセス許可が必要です AWS Identity and Access Management (IAM) を使用してアクセス権限を提供できます Note AWS 管理ポリシー AWSGlueServiceRole を使用する場合はこのステップをスキップできますこのステップでは AWSGlueServiceRole に似たポリシーを作成します AWSGlueServiceRole の最新バージョンは IAM コンソールにあります AWS Glue の IAM ポリシーを作成するにはこのポリシーは AWS Glue がこのポリシーを使用してロールを引き受ける際に必要となるアカウント内のリソースを管理する Amazon S3 アクションの一部を許可しますこのポリシーで指定されているリソースの中には Amazon S3 バケット Amazon S3 ETL スクリプト CloudWatch Logs Amazon EC2 9

17 AWS Glue 開発者ガイドステップ 1: AWS Glue サービスの IAM ポリシーを作成しますリソース用の AWS Glue で使用されるデフォルトの名前があります分かりやすいように AWS Glue はデフォルトで aws-glue-* のプレフィックスが付いた Amazon S3 オブジェクトをアカウント内のバケットに書き込みます 1. AWS マネジメントコンソールにサインインし IAM コンソール ( iam/) を開きます 2. 左のナビゲーションペインの [ ポリシー ] を選択します 3. [Create Policy] を選択します 4. [ ポリシーの作成 ] 画面で JSON 編集のためのタブに移動します次の JSON ステートメントを使用してポリシードキュメントを作成して [ ポリシーの確認 ] を選択します Note Amazon S3 リソースに必要なアクセス権限を追加しますアクセスポリシーのリソースセクションを必要なリソースだけに絞り込みたい場合があるかもしれません { "Version": " ", "Statement": [ { "Effect": "Allow", "Action": [ "glue:*", "s3:getbucketlocation", "s3:listbucket", "s3:listallmybuckets", "s3:getbucketacl", "ec2:describevpcendpoints", "ec2:describeroutetables", "ec2:createnetworkinterface", "ec2:deletenetworkinterface", "ec2:describenetworkinterfaces", "ec2:describesecuritygroups", "ec2:describesubnets", "ec2:describevpcattribute", "iam:listrolepolicies", "iam:getrole", "iam:getrolepolicy" ], "Resource": [ "*" ] }, { "Effect": "Allow", "Action": [ "s3:createbucket" ], "Resource": [ "arn:aws:s3:::aws-glue-*" ] }, { "Effect": "Allow", "Action": [ "s3:getobject", "s3:putobject", "s3:deleteobject" ], "Resource": [ "arn:aws:s3:::aws-glue-*/*", "arn:aws:s3:::*/*aws-glue-*/*" ] 10

18 AWS Glue 開発者ガイドステップ 1: AWS Glue サービスの IAM ポリシーを作成します } ] }, { }, { }, { } "Effect": "Allow", "Action": [ "s3:getobject" ], "Resource": [ "arn:aws:s3:::crawler-public*", "arn:aws:s3:::aws-glue-*" ] "Effect": "Allow", "Action": [ "logs:createloggroup", "logs:createlogstream", "logs:putlogevents" ], "Resource": [ "arn:aws:logs:*:*:/aws-glue/*" ] "Effect": "Allow", "Action": [ "ec2:createtags", "ec2:deletetags" ], "Condition": { "ForAllValues:StringEquals": { "aws:tagkeys": [ "aws-glue-service-resource" ] } }, "Resource": [ "arn:aws:ec2:*:*:network-interface/*", "arn:aws:ec2:*:*:security-group/*", "arn:aws:ec2:*:*:instance/*" ] 次の表はこのポリシーによって付与されたアクセス権限を示していますアクションリソース説明 "glue:*" "*" すべての AWS Glue API オペレーションを実行する権限を許可します "s3:getbucketlocation", "s3:listbucket", "s3:listallmybuckets", "s3:getbucketacl", "*" クローラジョブ開発エンドポイントノートブックサーバーからの Amazon S3 バケットの一覧表示を許可します 11

19 AWS Glue 開発者ガイドステップ 1: AWS Glue サービスの IAM ポリシーを作成しますアクションリソース説明 "ec2:describevpcendpoints", "ec2:describeroutetables", "ec2:createnetworkinterface", "ec2:deletenetworkinterface", "*" ジョブクローラ開発エンドポイントの実行時に VPC などの Amazon EC2 ネットワーク項目の設定を許可します "ec2:describenetworkinterfaces", "ec2:describesecuritygroups", "ec2:describesubnets", "ec2:describevpcattribute", "iam:listrolepolicies", "iam:getrole", "iam:getrolepolicy" "s3:createbucket" "*" クローラジョブ開発エンドポイントノートブックサーバーからの IAM ロールの一覧表示を許可します命名規則 : [aws-glue-] という Amazon S3 フォルダを使用します "s3:getobject", "s3:putobject", "s3:deleteobject" 命名規則 : 名前に aws-glue- のプレフィックスが付いている Amazon S3 バケットまたはフォルダにアクセス権限を与えます "s3:getobject" "logs:createloggroup", "logs:createlogstream", "logs:putlogevents" "ec2:createtags", "ec2:deletetags" "arn:aws:s3:::awsglue-*" らアカウントに Amazon S3 バケットジョブおよびノートブックサーバーかを作成できます "arn:aws:s3:::awsglue-*/*", バーのロケーションなどのオブジェク ETL スクリプトやノートブックサー "arn:aws:s3:::*/ トを格納する際に Amazon S3 オブ *aws-glue-*/ ジェクトの取得配置および削除を *" アカウントに許可します "arn:aws:s3:::crawlerpublic*", トリアルで使用されている Amazon クローラやジョブのサンプルやチュー "arn:aws:s3:::awsglue-*" S3 オブジェクトを取得できます命名規則 : Amazon S3 バケット名は [crawler-public] および [aws-glue-] で始まります "arn:aws:logs:*:*:/ ログを CloudWatch Logs に書き込む aws-glue/*" ことができます命名規則 : AWS Glue は名前が [awsglue] で始まるロググループにログを書き込みます "arn:aws:ec2:*:*:networkinterface/*", Amazon EC2 リソースのタグ付けを許開発エンドポイント用に作成された "arn:aws:ec2:*:*:securitygroup/*", 可します "arn:aws:ec2:*:*:instance/ 命名規則 : AWS Glue は [aws-glueservice-resource] を使用して Amazon *" EC2 ネットワークインターフェイスセキュリティグループおよびインスタンスをタグ付けします 12

20 AWS Glue 開発者ガイドステップ 2: AWS Glue 用の IAM ロールを作成する 5. [ ポリシーの確認 ] 画面で [ ポリシー名 ] ([GlueServiceRolePolicy] など ) を入力しますオプションの説明を入力しポリシーが適切であることを確認したら [ ポリシーの作成 ] を選択しますステップ 2: AWS Glue 用の IAM ロールを作成する代理で他のサービスを呼び出す際に AWS Glue が引き受けることができる IAM ロール権限を許可する必要がありますこれには AWS Glue で使用するすべてのソースターゲットスクリプトおよび一時ディレクトリに対する Amazon S3 へのアクセスが含まれますクローラジョブおよび開発エンドポイントによって許可が必要です AWS Identity and Access Management (IAM) を使用してアクセス権限を提供できます AWS Glue に渡す IAM ロールにポリシーを追加します AWS Glue の IAM ロールを作成するには 1. AWS マネジメントコンソールにサインインし IAM コンソール ( iam/) を開きます 2. 左のナビゲーションペインで [Roles] を選択します 3. [Create role] を選択します 4. ロールタイプについては [AWS サービス ] を選択し [Glue] を見つけて選択して [ 次へ : アクセス許可 ] を選択します 5. [ アクセス権限ポリシーをアタッチする ] ページで一般的な AWS Glue の AWS 管理ポリシー [AWSGlueServiceRole] Amazon S3 リソースにアクセスするための AWS 管理ポリシー [AmazonS3FullAccess] などの必要なアクセス権限を含むポリシーを選択します続いて [Next: Review] を選択します Note このロールのポリシーの 1 つが Amazon S3 のソースとターゲットにアクセス権限を与えていることを確認してください特定の Amazon S3 リソースにアクセスするための独自のポリシーを提供しますデータソースには s3:listbucket および s3:getobject アクセス権限が必要ですデータターゲットには s3:listbucket s3:putobject および s3:deleteobject アクセス権限が必要ですリソースの Amazon S3 ポリシーの作成の詳細についてはポリシーでのリソースの指定を参照してください Amazon S3 ポリシーの例については IAM ポリシーの記述 : Amazon S3 バケットへのアクセス権を付与する方法を参照してください SSE-KMS で暗号化された Amazon S3 のソースとターゲットにアクセスする予定がある場合は AWS Glue のクローラジョブ開発エンドポイントがデータを復号化できるポリシーをアタッチしてください詳細については AWS KMS で管理されたキーによるサーバー側の暗号化 (SSE-KMS) を使用したデータの保護を参照してください次に例を示します { } "Version":" ", "Statement":[ { "Effect":"Allow", "Action":[ "kms:decrypt" ], "Resource":[ "arn:aws:kms:*:account-id-without-hyphens:key/key-id" ] } ] 13

21 AWS Glue 開発者ガイドステップ 3: AWS Glue にアクセスする IAM ユーザーにポリシーをアタッチする 6. [ ロール名 ] にロールの名前 ( 例 : AWSGlueServiceRoleDefault) を入力しますコンソールユーザーからサービスにロールを渡すには文字列 [AWSGlueServiceRole] のプレフィックスが付けられたロールを作成します AWS Glue が提供するポリシーでは IAM サービスロールが [AWSGlueServiceRole] で始まると予測していますそれ以外の場合はポリシーを追加して IAM ロールの iam:passrole アクセス権限がユーザーの命名規則に一致する必要があります [Create Role] を選択しますステップ 3: AWS Glue にアクセスする IAM ユーザーにポリシーをアタッチする AWS Glue コンソールまたは AWS Command Line Interface (AWS CLI) にサインインする IAM ユーザーは特定のリソースへのアクセス権限が必要ですポリシーを通して AWS Identity and Access Management (IAM) を使用してアクセス権限を提供できますこのステップを完了すると IAM ユーザーに次のポリシーがアタッチされます AWS 管理ポリシー [AWSGlueConsoleFullAccess] またはカスタムポリシー [GlueConsoleAccessPolicy] [CloudWatchLogsReadOnlyAccess] [AWSCloudFormationReadOnlyAccess] [AmazonAthenaFullAccess] インラインポリシーをアタッチして IAM ユーザーに埋め込むには IAM ユーザーに AWS 管理ポリシーまたはインラインポリシーをアタッチして AWS Glue コンソールにアクセスしますこのポリシーで指定されているリソースの中には Amazon S3 バケット Amazon S3 ETL スクリプト CloudWatch Logs AWS CloudFormation Amazon EC2 リソース用の AWS Glue で使用されるデフォルトの名前があります分かりやすいように AWS Glue はデフォルトで aws-glue-* のプレフィックスが付いた Amazon S3 オブジェクトをアカウント内のバケットに書き込みます Note AWS 管理ポリシー AWSGlueConsoleFullAccess を使用する場合はこのステップをスキップできます Important AWS Glue にはユーザーの代理操作を実行するために使用されるロールを引き受けるアクセス権限が必要ですこれを実現するには iam:passrole アクセス権限を AWS Glue ユーザーに追加しますこのポリシーは AWS Glue サービスロールの AWSGlueServiceRole で始まるロールおよびノートブックサーバーの作成に必要なロール AWSGlueServiceNotebookRole にアクセス権限を与えますまた命名規則に従った iam:passrole アクセス権限の独自のポリシーを作成することもできますこのステップでは AWSGlueConsoleFullAccess に似たポリシーを作成します AWSGlueConsoleFullAccess の最新バージョンは IAM コンソールにあります 1. AWS マネジメントコンソールにサインインし IAM コンソール ( iam/) を開きます 2. ナビゲーションペインで [Users] を選択します 3. 一覧でポリシーを埋め込むユーザーの名前を選択します 4. [Permissions] タブを選択して必要であれば [Inline Policies] セクションを展開します 5. [Add Inline policy] ( インラインポリシーの追加 ) リンクを選択します 6. [ 許可を設定 ] 画面で [ カスタムポリシー ] を選択し [ 選択 ] を選択してポリシーエディタを開きます 14

22 AWS Glue 開発者ガイドステップ 3: AWS Glue にアクセスする IAM ユーザーにポリシーをアタッチする 7. ポリシーの名前を指定します ([GlueConsoleAccessPolicy] など ) 次のステートメントを使用してポリシードキュメントを作成します { "Version": " ", "Statement": [ { "Effect": "Allow", "Action": [ "glue:*", "redshift:describeclusters", "redshift:describeclustersubnetgroups", "iam:listroles", "iam:listrolepolicies", "iam:getrole", "iam:getrolepolicy", "iam:listattachedrolepolicies", "ec2:describesecuritygroups", "ec2:describesubnets", "ec2:describevpcs", "ec2:describevpcendpoints", "ec2:describeroutetables", "ec2:describevpcattribute", "ec2:describekeypairs", "ec2:describeinstances", "rds:describedbinstances", "s3:listallmybuckets", "s3:listbucket", "s3:getbucketacl", "s3:getbucketlocation", "cloudformation:describestacks", "cloudformation:gettemplatesummary", "dynamodb:listtables" ], "Resource": [ "*" ] }, { "Effect": "Allow", "Action": [ "s3:getobject", "s3:putobject" ], "Resource": [ "arn:aws:s3:::aws-glue-*/*", "arn:aws:s3:::*/*aws-glue-*/*", "arn:aws:s3:::aws-glue-*" ] }, { "Effect": "Allow", "Action": [ "s3:createbucket" ], "Resource": [ "arn:aws:s3:::aws-glue-*" ] }, { "Effect": "Allow", "Action": [ "logs:getlogevents" ], "Resource": [ 15

23 }, { }, { }, { ] AWS Glue 開発者ガイドステップ 3: AWS Glue にアクセスする IAM ユーザーにポリシーをアタッチする "arn:aws:logs:*:*:/aws-glue/*" "Effect": "Allow", "Action": [ "cloudformation:createstack", "cloudformation:deletestack" ], "Resource": "arn:aws:cloudformation:*:*:stack/aws-glue*/*" "Effect": "Allow", "Action": [ "ec2:runinstances" ], "Resource": [ "arn:aws:ec2:*:*:instance/*", "arn:aws:ec2:*:*:key-pair/*", "arn:aws:ec2:*:*:image/*", "arn:aws:ec2:*:*:security-group/*", "arn:aws:ec2:*:*:network-interface/*", "arn:aws:ec2:*:*:subnet/*", "arn:aws:ec2:*:*:volume/*" ] "Effect": "Allow", "Action": [ "ec2:terminateinstances", "ec2:createtags", "ec2:deletetags" ], "Resource": [ "arn:aws:ec2:*:*:instance/*" ], "Condition": { "StringLike": { "ec2:resourcetag/aws:cloudformation:stack-id": "arn:aws:cloudformation:*:*:stack/aws-glue-*/*" }, "StringEquals": { "ec2:resourcetag/aws:cloudformation:logical-id": "ZeppelinInstance" } } }, { "Action": [ "iam:passrole" ], "Effect": "Allow", "Resource": "arn:aws:iam::*:role/awsglueservicerole*", "Condition": { "StringLike": { "iam:passedtoservice": [ "glue.amazonaws.com" ] } } }, { "Action": [ "iam:passrole" ], "Effect": "Allow", "Resource": "arn:aws:iam::*:role/awsglueservicenotebookrole*", 16

24 AWS Glue 開発者ガイドステップ 3: AWS Glue にアクセスする IAM ユーザーにポリシーをアタッチする } ] }, { } "Condition": { "StringLike": { "iam:passedtoservice": [ "ec2.amazonaws.com" ] } } "Action": [ "iam:passrole" ], "Effect": "Allow", "Resource": [ "arn:aws:iam::*:role/service-role/awsglueservicerole*" ], "Condition": { "StringLike": { "iam:passedtoservice": [ "glue.amazonaws.com" ] } } 次の表はこのポリシーによって付与されたアクセス権限を示していますアクションリソース説明 "glue:*" "*" すべての AWS Glue API オペレーションを実行する権限を許可します "redshift:describeclusters", "*" Amazon Redshift への接続を作成でき "redshift:describeclustersubnetgroups" ます "iam:listroles", "iam:listrolepolicies", "iam:getrole", "iam:getrolepolicy", "iam:listattachedrolepolicies" "*" クローラジョブ開発エンドポイントノートブックサーバーを使用する場合の IAM ロールの一覧表示を許可します "ec2:describesecuritygroups", "ec2:describesubnets", "ec2:describevpcs", "ec2:describevpcendpoints", "ec2:describeroutetables", "ec2:describevpcattribute", "ec2:describekeypairs", "ec2:describeinstances" "*" ジョブクローラ開発エンドポイントの実行時に VPC などの Amazon EC2 ネットワーク項目の設定を許可します "rds:describedbinstances" "*" Amazon RDS への接続を作成できます "s3:listallmybuckets", "s3:listbucket", "s3:getbucketacl", "s3:getbucketlocation" "*" クローラジョブ開発エンドポイントノートブックサーバーを使用する場合の Amazon S3 バケットの一覧表示を許可します 17

25 AWS Glue 開発者ガイドステップ 3: AWS Glue にアクセスする IAM ユーザーにポリシーをアタッチするアクションリソース説明 "dynamodb:listtables" "*" DynamoDB テーブルのリスティングを許可します "s3:getobject", "s3:putobject" "arn:aws:s3::: aws-glue- */*", "arn:aws:s3::: */*awsglue-*/*", "arn:aws:s3::: aws-glue-*" ETL スクリプトやノートブックサーバーのロケーションなどのオブジェクトを格納する際に Amazon S3 オブジェクトの取得と配置をアカウントに許可します命名規則 : 名前に aws-glue- のプレフィックスが付いている Amazon S3 バケットまたはフォルダにアクセス権限を与えます "s3:createbucket" "arn:aws:s3::: aws-glue-*" ETL スクリプトやノートブックサーバーのロケーションなどのオブジェクトを格納する際に Amazon S3 バケットの作成をアカウントに許可します命名規則 : 名前に aws-glue- のプレフィックスが付いている Amazon S3 バケットにアクセス権限を与えます "logs:getlogevents" "arn:aws:logs:*:*: CloudWatch / Logs の取得を許可しま aws-glue/*" す命名規則 : AWS Glue は名前が [awsglue-] で始まるロググループにログを書き込みます "cloudformation:createstack", "cloudformation:deletestack" "arn:aws: ノートブックサーバーで作業するとき cloudformation:*:*:stack/ に AWS CloudFormation スタックの管 aws-glue*/*" 理を許可します命名規則 : AWS Glue は名前が [awsglue] で始まるスタックを作成します "ec2:runinstances" "arn:aws:ec2:*:*:instance/ 開発エンドポイントとノートブック *", サーバーの実行を許可します "arn:aws:ec2:*:*:keypair/*", "arn:aws:ec2:*:*:image/ *", "arn:aws:ec2:*:*:securitygroup/*", "arn:aws:ec2:*:*:networkinterface/*", "arn:aws:ec2:*:*:subnet/ *", "arn:aws:ec2:*:*:volume/ *" 18

26 AWS Glue 開発者ガイドステップ 3: AWS Glue にアクセスする IAM ユーザーにポリシーをアタッチするアクションリソース説明 "ec2:terminateinstances", "ec2:createtags", "ec2:deletetags" "iam:passrole" "iam:passrole" "iam:passrole" "arn:aws:ec2:*:*:instance/ 開発エンドポイントとノートブック *" サーバーの操作を許可します命名規則 : AWS Glue AWS CloudFormation スタックの名前はプレフィックスとして aws-glue- を使用し論理 ID として ZeppelinInstance を使用します "arn:aws:iam::*:role/ AWS Glue が [AWSGlueServiceRole] AWSGlueServiceRole*" で始まるロールに対して PassRole アクセス権限を引き受けることを許可します "arn:aws:iam::*:role/ Amazon EC2 が AWSGlueServiceNotebookRole*" [AWSGlueServiceNotebookRole] で始まるロールに対して PassRole アクセス権限を引き受けることを許可します "arn:aws:iam::*:role/ AWS Glue が [service-role/ service-role/ AWSGlueServiceRole] で始まるロー AWSGlueServiceRole*" ルに対して PassRole アクセス権限を引き受けることを許可します 8. [ ポリシーの検証 ] を選択して画面上部の赤いボックスにエラーが表示されていないことを確認します報告されたエラーがあれば修正します Note [Use autoformatting] を選択した場合はポリシーを開いたときおよび [Validate Policy] を選択したときに毎回ポリシーが再フォーマットされます 9. ポリシーが完成したら [Apply Policy] を選択します AWSGlueConsoleFullAccess 管理ポリシーをアタッチするには [AWSGlueConsoleFullAccess] ポリシーを添付して AWS Glue コンソールユーザーが必要とするアクセス権限を提供できます Note AWS Glue コンソールアクセス用に独自のポリシーを作成した場合はこのステップをスキップできます 1. AWS マネジメントコンソールにサインインし IAM コンソール ( iam/) を開きます 2. ナビゲーションペインで [Policies] を選択します 3. ポリシーのリストで [AWSGlueConsoleFullAccess] ポリシーの横にあるチェックボックスを選択します [Filter] メニューと検索ボックスを使用してポリシーのリストをフィルタリングできます 4. [Policy actions] を選択して [Attach] を選択します 5. ポリシーをアタッチするユーザーを選択します [Filter] メニューと検索ボックスを使用してプリンシパルエンティティのリストをフィルタリングできますポリシーをアタッチするユーザーを選択し [ ポリシーのアタッチ ] を選択します 19

27 AWS Glue 開発者ガイドステップ 4: ノートブックの IAM ポリシーを作成する CloudWatchLogsReadOnlyAccess 管理ポリシーをアタッチするには [CloudWatchLogsReadOnlyAccess] ポリシーをユーザーにアタッチして CloudWatch Logs コンソールで AWS Glue によって作成されたログを表示できます 1. AWS マネジメントコンソールにサインインし IAM コンソール ( iam/) を開きます 2. ナビゲーションペインで [Policies] を選択します 3. ポリシーのリストで [CloudWatchLogsReadOnlyAccess] ポリシーの横にあるチェックボックスを選択します [Filter] メニューと検索ボックスを使用してポリシーのリストをフィルタリングできます 4. [Policy actions] を選択して [Attach] を選択します 5. ポリシーをアタッチするユーザーを選択します [Filter] メニューと検索ボックスを使用してプリンシパルエンティティのリストをフィルタリングできますポリシーをアタッチするユーザーを選択し [ ポリシーのアタッチ ] を選択します AWSCloudFormationReadOnlyAccess 管理ポリシーをアタッチするには [AWSCloudFormationReadOnlyAccess] ポリシーをユーザーにアタッチして AWS CloudFormation コンソールで AWS Glue が使用する AWS CloudFormation スタックを表示できます 1. AWS マネジメントコンソールにサインインし IAM コンソール ( iam/) を開きます 2. ナビゲーションペインで [Policies] を選択します 3. ポリシーのリストで [AWSCloudFormationReadOnlyAccess] ポリシーの横にあるチェックボックスを選択します [Filter] メニューと検索ボックスを使用してポリシーのリストをフィルタリングできます 4. [Policy actions] を選択して [Attach] を選択します 5. ポリシーをアタッチするユーザーを選択します [Filter] メニューと検索ボックスを使用してプリンシパルエンティティのリストをフィルタリングできますポリシーをアタッチするユーザーを選択し [ ポリシーのアタッチ ] を選択します AmazonAthenaFullAccess 管理ポリシーをアタッチするには [AmazonAthenaFullAccess] ポリシーをユーザーにアタッチして Amazon S3 データを Athena コンソールで表示できます 1. AWS マネジメントコンソールにサインインし IAM コンソール ( iam/) を開きます 2. ナビゲーションペインで [Policies] を選択します 3. ポリシーのリストで [AmazonAthenaFullAccess] ポリシーの横にあるチェックボックスを選択します [Filter] メニューと検索ボックスを使用してポリシーのリストをフィルタリングできます 4. [Policy actions] を選択して [Attach] を選択します 5. ポリシーをアタッチするユーザーを選択します [Filter] メニューと検索ボックスを使用してプリンシパルエンティティのリストをフィルタリングできますポリシーをアタッチするユーザーを選択し [ ポリシーのアタッチ ] を選択しますステップ 4: ノートブックの IAM ポリシーを作成する開発エンドポイントでノートブックを使用する予定の場合はノートブックサーバーの作成時にアクセス許可を指定する必要があります AWS Identity and Access Management (IAM) を使用してアクセス権限を提供できます 20

28 AWS Glue 開発者ガイドステップ 4: ノートブックの IAM ポリシーを作成するこのポリシーは AWS Glue がこのポリシーを使用してロールを引き受ける際に必要となるアカウント内のリソースを管理する Amazon S3 アクションの一部を許可しますこのポリシーで指定されているリソースの中には Amazon S3 バケット Amazon S3 ETL スクリプト Amazon EC2 リソース用の AWS Glue で使用されるデフォルトの名前があります分かりやすいように AWS Glue デフォルトでは awsglue-* のプレフィックスが付いた Amazon S3 オブジェクトをアカウント内のバケットに書き込みます Note AWS 管理ポリシー AWSGlueServiceNotebookRole を使用する場合はこのステップをスキップできますこのステップでは AWSGlueServiceNotebookRole に似たポリシーを作成します AWSGlueServiceNotebookRole の最新バージョンは IAM コンソールにありますノートブックの IAM ポリシーを作成するには 1. AWS マネジメントコンソールにサインインし IAM コンソール ( iam/) を開きます 2. 左のナビゲーションペインの [ ポリシー ] を選択します 3. [Create Policy] を選択します 4. [ ポリシーの作成 ] 画面で JSON 編集のためのタブに移動します次の JSON ステートメントを使用してポリシードキュメントを作成して [ ポリシーの確認 ] を選択します { "Version":" ", "Statement":[ { "Effect":"Allow", "Action":[ "glue:createdatabase", "glue:createpartition", "glue:createtable", "glue:deletedatabase", "glue:deletepartition", "glue:deletetable", "glue:getdatabase", "glue:getdatabases", "glue:getpartition", "glue:getpartitions", "glue:gettable", "glue:gettableversions", "glue:gettables", "glue:updatedatabase", "glue:updatepartition", "glue:updatetable", "glue:createbookmark", "glue:getbookmark", "glue:updatebookmark", "glue:getmetric", "glue:putmetric", "glue:createconnection", "glue:createjob", "glue:deleteconnection", "glue:deletejob", "glue:getconnection", "glue:getconnections", "glue:getdevendpoint", "glue:getdevendpoints", "glue:getjob", "glue:getjobs", "glue:updatejob", "glue:batchdeleteconnection", "glue:updateconnection", 21

29 AWS Glue 開発者ガイドステップ 4: ノートブックの IAM ポリシーを作成する "glue:getuserdefinedfunction", "glue:updateuserdefinedfunction", "glue:getuserdefinedfunctions", "glue:deleteuserdefinedfunction", "glue:createuserdefinedfunction", "glue:batchgetpartition", "glue:batchdeletepartition", "glue:batchcreatepartition", "glue:batchdeletetable", "glue:updatedevendpoint", "s3:getbucketlocation", "s3:listbucket", "s3:listallmybuckets", "s3:getbucketacl" ], "Resource":[ "*" ] }, { "Effect":"Allow", "Action":[ "s3:getobject" ], "Resource":[ "arn:aws:s3:::crawler-public*", "arn:aws:s3:::aws-glue*" ] }, { "Effect":"Allow", "Action":[ "s3:putobject", "s3:deleteobject" ], "Resource":[ "arn:aws:s3:::aws-glue*" ] }, { "Effect":"Allow", "Action":[ "ec2:createtags", "ec2:deletetags" ], "Condition":{ "ForAllValues:StringEquals":{ "aws:tagkeys":[ "aws-glue-service-resource" ] } }, "Resource":[ "arn:aws:ec2:*:*:network-interface/*", "arn:aws:ec2:*:*:security-group/*", "arn:aws:ec2:*:*:instance/*" ] } ] } 次の表はこのポリシーによって付与されたアクセス権限を示しています 22

30 AWS Glue 開発者ガイドステップ 5: ノートブック用の IAM ロールを作成するアクションリソース説明 "glue:*" "*" すべての AWS Glue API オペレーションを実行する権限を許可します "s3:getbucketlocation", "s3:listbucket", "s3:listallmybuckets", "s3:getbucketacl" "s3:getobject" "s3:putobject", "s3:deleteobject" "*" ノートブックサーバーから Amazon S3 バケットの一覧表示を許可します命名規則 : [aws-glue] という Amazon S3 フォルダを使用します "ec2:createtags", "ec2:deletetags" "arn:aws:s3:::crawlerpublic*", アルで使用されている Amazon S3 オノートブックのサンプルやチュートリ "arn:aws:s3:::awsglue-*" ブジェクトを取得できます命名規則 : Amazon S3 バケット名は [crawler-public] および [aws-glue-] で始まります "arn:aws:s3:::awsglue*" Amazon S3 オブジェクトの書き込みノートブックからアカウントへのと削除を許可します "arn:aws:ec2:*:*:networkinterface/*", Amazon EC2 リソースのタグ付けを許ノートブックサーバー用に作成された "arn:aws:ec2:*:*:securitygroup/*", 可します "arn:aws:ec2:*:*:instance/ 命名規則 : AWS Glue は Amazon EC2 *" インスタンスを [aws-glue-serviceresource] をタグ付けします 5. [ ポリシーの確認 ] 画面で [ ポリシー名 ] ([GlueServiceNotebookPolicyDefault] など ) を入力しますオプションの説明を入力しポリシーが適切であることを確認したら [ ポリシーの作成 ] を選択しますステップ 5: ノートブック用の IAM ロールを作成する開発エンドポイントでノートブックを使用する予定がある場合は IAM ロールアクセス権限を与える必要があります IAM ロールを通して AWS Identity and Access Management を使用してアクセス権限を提供できます Note IAM コンソールを使用して IAM ロールを作成するとコンソールによりインスタンスプロファイルが自動的に作成され対応するロールと同じ名前が付けられますノートブックの IAM ロールを作成するには 1. AWS マネジメントコンソールにサインインし IAM コンソール ( iam/) を開きます 2. 左のナビゲーションペインで [Roles] を選択します 3. [Create role] を選択します 4. ロールタイプについては [AWS サービス ] を選択し [EC2] を見つけて選択して [EC2] ユースケースを選択し [ 次へ : アクセス権限 ] を選択します 23

31 AWS Glue 開発者ガイド VPC での DNS のセットアップ 5. [ アクセス権限ポリシーをアタッチする ] ページで一般的な AWS Glue の AWS 管理ポリシー [AWSGlueServiceNotebookRole] および Amazon S3 リソースにアクセスするための AWS 管理ポリシー [AmazonS3FullAccess] などの必要なアクセス権限を含むポリシーを選択します続いて [Next: Review] を選択します Note このロールのポリシーの 1 つが Amazon S3 のソースとターゲットにアクセス権限を与えていることを確認してくださいまたノートブックサーバーの作成時にノートブックを保管する場所へのフルアクセスがポリシーで許可されていることを確認してください特定の Amazon S3 リソースにアクセスするための独自のポリシーを提供しますリソースの Amazon S3 ポリシーの作成の詳細についてはポリシーでのリソースの指定を参照してください SSE-KMS で暗号化された Amazon S3 のソースとターゲットにアクセスする予定がある場合はノートブックがデータを復号化できるポリシーをアタッチしてください詳細については AWS KMS で管理されたキーによるサーバー側の暗号化 (SSE-KMS) を使用したデータの保護を参照してください以下に例を示します { } "Version":" ", "Statement":[ { "Effect":"Allow", "Action":[ "kms:decrypt" ], "Resource":[ "arn:aws:kms:*:account-id-without-hyphens:key/key-id" ] } ] 6. [Role name] にロールの名前を入力しますコンソールユーザーからノートブックサーバーにロールを渡すには文字列 [AWSGlueServiceNotebookRole] のプレフィックスが付けられたロールを作成します AWS Glue が提供するポリシーでは IAM サービスロールが [AWSGlueServiceNotebookRole] で始まると予測していますそれ以外の場合はポリシーを追加して IAM ロールの iam:passrole アクセス権限がユーザーの命名規則に一致するようにする必要がありますたとえば [AWSGlueServiceNotebookRoleDefault] と入力します続いて [Create role] を選択します VPC での DNS のセットアップドメインネームシステム (DNS) はインターネットで使用する名前を対応する IP アドレスに解決するための標準です DNS ホスト名はホスト名とドメイン名で構成されコンピュータに一意の名前を付けます DNS サーバーは DNS ホスト名を対応する IP アドレスに解決します名前解決にカスタム DNS を使用する場合 DNS 前方参照と DNS 逆引き参照の両方を実装する必要があります VPC で DNS をセットアップするには DNS ホスト名と DNS 解決の両方が VPC で有効になっていることを確認します VPC ネットワーク属性の enablednshostnames と enablednssupport を true に設定する必要がありますこれらの属性を表示および変更するには VPC コンソール ( console.aws.amazon.com/vpc/) に移動します詳細については Using DNS with Your VPC を参照してください Note Route 53 を使用している場合は設定によって DNS ネットワーク属性が上書きされないことを確認します 24

32 AWS Glue 開発者ガイドデータストアにアクセスするための環境のセットアップデータストアにアクセスするための環境のセットアップ抽出変換およびロード (ETL) ジョブを実行するには AWS Glue がデータストアにアクセスできる必要があります Virtual Private Cloud ( 仮想プライベートクラウド ) (VPC) サブネットでジョブを実行する必要がない場合 ( たとえば Amazon S3 から Amazon S3 へのデータ変換 ) 追加の設定は必要ありません VPC のサブネットでジョブを実行する必要がある場合 AWS Glue はジョブを VPC 内の他のリソースに安全に接続できるようにする伸縮自在なネットワークインターフェイスを設定しますそれぞれの伸縮自在なネットワークインターフェイスには指定したサブネット内の IP アドレス範囲からプライベート IP アドレスが割り当てられますパブリック IP アドレスは割り当てられません指定されたセキュリティグループは伸縮自在なネットワークインターフェイスに適用されますジョブによってアクセスされるすべての JDBC データストアは VPC サブネットから使用できる必要があります VPC 内から Amazon S3 にアクセスするには VPC エンドポイント (p. 25) が必須ですジョブが VPC リソースとパブリックインターネットの両方にアクセスする必要がある場合 VPC は VPC 内にネットワークアドレス変換 (NAT) ゲートウェイを持つ必要がありますジョブまたは開発エンドポイントは一度に 1 つの VPC ( およびサブネット ) にのみアクセスできます異なる VPC のデータストアにアクセスする必要がある場合は次のオプションがあります VPC ピア接続を使用してデータストアにアクセスします VPC ピア接続の詳細については VPC ピア接続の基本を参照してください中間ストレージの場所として Amazon S3 バケットを使用しますジョブ 1 の Amazon S3 出力をジョブ 2 への入力として作業を 2 つのジョブに分割します JDBC データストアの場合データストアに接続するために必要なプロパティを使用して AWS Glue で接続を作成します接続の詳細についてはデータストアへの接続の追加 (p. 80) を参照してください Note AWS Glue の DNS 環境を必ず設定してください詳細については VPC での DNS のセットアップ (p. 24) を参照してくださいトピック Amazon S3 における Amazon VPC エンドポイント (p. 25) JDBC データストアに接続するための VPC の設定 (p. 27) Amazon S3 における Amazon VPC エンドポイントセキュリティ上の理由から多数の AWS ユーザーがアプリケーションを Amazon Virtual Private Cloud 環境 (Amazon VPC) 内で実行しています Amazon VPC を使用すると Amazon EC2 インスタンスを仮想プライベートクラウドで作成できますそのためパブリックインターネットなどの他のネットワークから論理的に分離されます Amazon VPC を使用すると IP アドレス範囲サブネットルーティングテーブルネットワークゲートウェイセキュリティ設定を適切に制御できます Note 2013 年 12 月 4 日以降に AWS アカウントを作成した場合は各 AWS リージョンにデフォルトで VPC が用意されています追加設定なしにデフォルトの VPC をすぐに使用できます詳細についてはデフォルトの VPC とサブネット (Amazon VPC ユーザーガイド ) を参照してください多くのお客様がパブリックインターネット間のデータ送受信に関してプライバシーとセキュリティに関する正当な懸念を抱いていますこれらの懸念事項を解決するために仮想プライベートネットワーク 25

33 AWS Glue 開発者ガイド Amazon S3 における Amazon VPC エンドポイント (VPN) を使用してすべての Amazon S3 ネットワークトラフィックを自社の企業ネットワークのインフラストラクチャ経由でルーティングしますただしこのアプローチでは帯域幅や可用性の課題が生じる場合があります Amazon S3 の VPC エンドポイントではこれらの課題は軽減されます Amazon S3 の VPC エンドポイントを使用することで AWS Glue はプライベート IP アドレスを使用してパブリックインターネットに公開されることなく Amazon S3 にアクセスできるようになります AWS Glue はパブリック IP アドレスを必要とせず VPC にインターネットゲートウェイ NAT デバイス仮想プライベートゲートウェイは不要です Amazon S3 へのアクセスを制御するにはエンドポイントのポリシーを使用します VPC と AWS サービス間のトラフィックは Amazon ネットワークを離れません Amazon S3 の VPC エンドポイントを作成する際リージョン内の Amazon S3 エンドポイント ( 例 : s3.us-west-2.amazonaws.com) に対するリクエストはすべて Amazon ネットワーク内のプライベートの Amazon S3 エンドポイントにルーティングされます VPC の EC2 インスタンスで実行されているアプリケーションを変更する必要はありませんエンドポイント名は変わりませんが Amazon S3 へのルートは Amazon ネットワーク内に完全にとどまりパブリックインターネットにアクセスすることはありません VPC エンドポイントの詳細については Amazon VPC ユーザーガイドの VPC エンドポイントを参照してください AWS Glue が VPC エンドポイントを使用して Amazon S3 にアクセスする様子を次の図に示します Amazon S3 のアクセスをセットアップするには 1. AWS マネジメントコンソールにサインインした後 Amazon VPC コンソール ( console.aws.amazon.com/vpc/) を開きます 2. 左のナビゲーションペインで [ エンドポイント ] を選択します 26

34 AWS Glue 開発者ガイド JDBC データストアに接続するための VPC の設定 3. [ エンドポイントの作成 ] 選択しステップに従って VPC 内に Amazon S3 エンドポイントを作成します JDBC データストアに接続するための VPC の設定 AWS Glue コンポーネントが通信できるようにするには Amazon Redshift や Amazon RDS などのデータストアへのアクセスを設定する必要があります AWS Glue がコンポーネント間で通信できるようにするにはすべての TCP ポートに対して自己参照のインバウンドルールを持つセキュリティグループを指定します自己参照ルールを作成することでソースを VPC 内の同じセキュリティグループに制限することができネットワーク全体には公開されません VPC のデフォルトのセキュリティグループにはすでに ALL Traffic ( すべてのトラフィック ) の自己参照インバウンドルールがある場合があります Amazon Redshift データストアへのアクセスを設定するには 1. AWS マネジメントコンソールにサインインし Amazon Redshift コンソール ( console.aws.amazon.com/redshift/) を開きます 2. 左のナビゲーションペインで [Clusters] ( クラスター ) を選択します 3. AWS Glue からアクセスするクラスターの名前を選択します 4. [Cluster Properties] ( クラスターのプロパティ ) セクションで [VPC security groups] (VPC セキュリティグループ ) 内のセキュリティグループを選択し AWS Glue が使用できるようにします今後の参照用に選択したセキュリティグループの名前を記録しますセキュリティグループを選択すると Amazon EC2 コンソールの [Security Groups] ( セキュリティグループ ) の一覧が開きます 5. 変更するセキュリティグループを選択し [Inbound] ( インバウンド ) タブに移動します 6. 自己参照ルールを追加して AWS Glue コンポーネントが通信できるようにします具体的には [Type] ( タイプ ) All TCP [Protocol] ( プロトコル ) は TCP [Port Range] ( ポート範囲 ) にはすべてのポートが含まれ [Source] ( ソース ) は [Group ID] ( グループ ID) と同じセキュリティグループ名であるというルールを追加または確認しますインバウンドルールは以下のようになりますタイププロトコルポート範囲送信元すべての TCP TCP database-securitygroup 以下に例を示します 27

35 AWS Glue 開発者ガイド JDBC データストアに接続するための VPC の設定 7. アウトバウンドトラフィックのルールも追加しますすべてのポートへのアウトバウンドトラフィックを開くかまたは [Type] ( タイプ ) All TCP [Protocol] ( プロトコル ) は TCP [Port Range] ( ポート範囲 ) にすべてのポートが含まれ [Source] ( ソース ) は [Group ID] ( グループ ID) と同じセキュリティグループ名の自己参照ルールを作成しますアウトバウンドルールは次のいずれかのルールのようになりますタイププロトコルポート範囲送信先すべての TCP TCP security-group すべてのトラフィック ALL ALL /0 Amazon RDS データストアへのアクセスを設定するには 1. AWS マネジメントコンソールにサインインし Amazon RDS コンソール ( console.aws.amazon.com/rds/) を開きます 2. 左のナビゲーションペインの [Instances] を選択します 3. AWS Glue からアクセスする Amazon RDS [Engine] ( エンジン ) と [DB Instance] (DB インスタンス ) 名を選択します 4. [Instance Actions] ( インスタンスの操作 ) から [See Details] ( 詳細を表示 ) を選択します [Details] ( 詳細 ) タブで AWS Glue からアクセスする [Security Groups] ( セキュリティグループ ) を見つけます今後の参照用にセキュリティグループの名前を記録します 5. セキュリティグループを選択して Amazon EC2 コンソールを開きます 6. Amazon RDS の [Group ID] ( グループ ID) が選択されていることを確認し [Inbound] ( インバウンド ) タブを選択します 7. 自己参照ルールを追加して AWS Glue コンポーネントが通信できるようにします具体的には [Type] ( タイプ ) All TCP [Protocol] ( プロトコル ) は TCP [Port Range] ( ポート範囲 ) にはすべてのポートが含まれ [Source] ( ソース ) は [Group ID] ( グループ ID) と同じセキュリティグループ名であるというルールを追加または確認しますインバウンドルールは次のようになりますタイププロトコルポート範囲送信元すべての TCP TCP database-securitygroup 以下に例を示します 28

36 AWS Glue 開発者ガイド開発エンドポイント用の環境の設定 8. アウトバウンドトラフィックのルールも追加しますすべてのポートへのアウトバウンドトラフィックを開くかまたは [Type] ( タイプ ) All TCP [Protocol] ( プロトコル ) は TCP [Port Range] ( ポート範囲 ) にすべてのポートが含まれ [Source] ( ソース ) は [Group ID] ( グループ ID) と同じセキュリティグループ名の自己参照ルールを作成しますアウトバウンドルールは次のいずれかのルールのようになりますタイププロトコルポート範囲送信先すべての TCP TCP security-group すべてのトラフィック ALL ALL /0 開発エンドポイント用の環境の設定 AWS Glue で抽出変換およびロード (ETL) スクリプトを実行するために開発エンドポイントを使用してスクリプトを開発しテストすることがあります開発エンドポイントを設定するときは仮想プライベートクラウド (VPC) サブネットおよびセキュリティグループを指定します Note AWS Glue の DNS 環境を必ず設定してください詳細については VPC での DNS のセットアップ (p. 24) を参照してください開発エンドポイント用にネットワークを設定する AWS Glue が必要なリソースにアクセスできるようにするにはサブネットルートテーブルに行を追加して Amazon S3 のプレフィックスリストを VPC エンドポイントに関連付けますプレフィックスリスト ID は VPC からのトラフィックが VPC エンドポイント経由で AWS サービスにアクセスできるようにするアウトバウンドセキュリティグループルールを作成するために必要ですこの開発エンドポイントに関連付けられているノートブックサーバーへの接続をローカルマシンから簡単に行うにはルートテーブルに行を追加してインターネットゲートウェイ ID を追加します詳細については VPC エンドポイントを参照してくださいサブネットのルートテーブルを更新すると次の表のようになります送信先 Target /16 ローカル 29

37 AWS Glue 開発者ガイド開発エンドポイント用にネットワークを設定する送信先 pl-id for Amazon S3 Target vpce-id /0 igw-xxxx AWS Glue がコンポーネント間で通信できるようにするにはすべての TCP ポートに対して自己参照のインバウンドルールを持つセキュリティグループを指定します自己参照ルールを作成することでソースを VPC 内の同じセキュリティグループに制限することができネットワーク全体には公開されません VPC のデフォルトのセキュリティグループにはすでに ALL Traffic ( すべてのトラフィック ) の自己参照インバウンドルールがある場合がありますセキュリティグループを設定するには 1. AWS マネジメントコンソールにサインインをしたあとにある Amazon EC2 コンソールを開きます 2. 左のナビゲーションペインで [ Security Groups] を選択します 3. リストから既存のセキュリティグループを選択するか [Create Security Group] ( セキュリティグループの作成 ) を選択して開発エンドポイントで使用します 4. セキュリティグループペインで [Inbound] ( インバウンド ) タブに移動します 5. 自己参照ルールを追加して AWS Glue コンポーネントが通信できるようにします具体的には [Type] ( タイプ ) All TCP [Protocol] ( プロトコル ) は TCP [Port Range] ( ポート範囲 ) にはすべてのポートが含まれ [Source] ( ソース ) は [Group ID] ( グループ ID) と同じセキュリティグループ名であるというルールを追加または確認しますインバウンドルールは次のようになりますタイププロトコルポート範囲送信元すべての TCP TCP security-group 次に自己参照インバウンドルールの例を示します 6. アウトバウンドトラフィックのルールも追加しますすべてのポートへのアウトバウンドトラフィックを開くかまたは [Type] ( タイプ ) All TCP [Protocol] ( プロトコル ) は TCP [Port Range] ( ポート範囲 ) にすべてのポートが含まれ [Source] ( ソース ) は [Group ID] ( グループ ID) と同じセキュリティグループ名の自己参照ルールを作成しますアウトバウンドルールは次のいずれかのルールのようになります 30

AWS Glue 開発者ガイドノートブックサーバー用の Amazon EC2 の設定タイププロトコルポート範囲送信先すべての TCP TCP 0

38 AWS Glue 開発者ガイドノートブックサーバー用の Amazon EC2 の設定タイププロトコルポート範囲送信先すべての TCP TCP security-group すべてのトラフィック ALL ALL /0 ノートブックサーバー用の Amazon EC2 の設定開発エンドポイントでは Zeppelin ノートブックで ETL スクリプトをテストするためのノートブックサーバーを作成できますノートブックとの通信を可能にするには HTTPS ( ポート 443) と SSH ( ポート 22) の両方のインバウンドルールを持つセキュリティグループを指定しますルールのソースが /0 かノートブックに接続しているマシンの IP アドレスであることを確認してください Note カスタム DNS を使用する場合はカスタム DNS サーバーがノートブックサーバーが起動されているサブネット CIDR 全体のフォワードとリバースの解決ができることを確認してくださいセキュリティグループを設定するには 1. AWS マネジメントコンソールにサインインをしたあとにある Amazon EC2 コンソールを開きます 2. 左のナビゲーションペインで [ Security Groups] を選択します 3. リストから既存のセキュリティグループを選択するか [Create Security Group] ( セキュリティグループの作成 ) を選択してノートブックサーバーで使用します開発エンドポイントに関連付けられているセキュリティグループはノートブックサーバーの作成にも使用されます 4. セキュリティグループペインで [Inbound] ( インバウンド ) タブに移動します 5. 次のようなインバウンドルールを追加しますタイププロトコルポート範囲送信元 SSH TCP /0 HTTPS TCP /0 次にセキュリティグループのインバウンドルールの例を示します 31

39 AWS Glue 開発者ガイドコンソールのワークフローの概要 AWS Glue コンソールのワークフローの概要 AWS Glue では AWS Glue データカタログにメタデータを格納しますこのメタデータを使用してデータソースを変換してデータウェアハウスをロードする ETL ジョブを調整します以下の手順では一般的なワークフローと AWS Glue を使用して作業する際に行う選択肢のいくつかについて説明します 1. AWS Glue データカタログにテーブル定義を入力しますコンソールではクローラを追加して AWS Glue データカタログに入力できます [Add crawler] ( クローラを追加 ) ウィザードはテーブルのリストまたはクローラのリストから開始できますクローラがアクセスするための 1 つ以上のデータストアを選択しますスケジュールを作成してクローラの実行頻度を決定することもできます必要に応じてデータのスキーマを推測するカスタム分類子を提供できます以下を使用してカスタム分類子を作成できます grok パターンただし AWS Glue にはカスタム分類子がデータを認識しない場合にクローラによって自動的に使用される組み込み分類子が用意されていますクローラを定義する時に分類子を選択する必要はありません AWS Glue の分類子の詳細についてはクローラに分類子を追加する (p. 66) を参照してください一部のタイプのデータストアをクロールするには認証とロケーション情報を提供する接続が必要です必要に応じて AWS Glue コンソールでこの必要な情報を提供する接続を作成できますクローラはデータストアを読み取りデータ定義と名前付きテーブルを AWS Glue データカタログに作成しますこれらのテーブルは選択したデータベースに整理されます手動で作成したテーブルを Data Catalog に入力することもできますこの方法ではスキーマおよびその他のメタデータを提供して Data Catalog にテーブル定義を作成しますこの方法は少し面倒でエラーが発生しやすいためより良い方法としてクローラにテーブル定義を作成させることができます AWS Glue データカタログにテーブル定義を入力する方法の詳細については AWS Glue データカタログでテーブルを定義する (p. 51) を参照してください 2. ソースからターゲットへのデータの変換を記述するジョブを定義します一般にジョブを作成するには次の選択をする必要があります AWS Glue データカタログからジョブのソースとなるテーブルを選択しますジョブではこのテーブル定義を使ってデータストアにアクセスしデータの型式を解釈します AWS Glue データカタログからジョブのターゲットとなるテーブルまたは場所を選択しますジョブはこの情報を使用してデータストアにアクセスしますソースをターゲットに変換する PySpark スクリプトを生成するように AWS Glue に指示します AWS Glue はソーススキーマからターゲットスキーマ形式にデータを変換する組み込み変換を呼び出すコードを生成しますこれらの変換はデータのコピー列の名前の変更データのフィルタリングなどの操作を実行し必要に応じてデータを変換しますこのスクリプトは AWS Glue コンソールで変更できます AWS Glue でジョブを定義する方法の詳細については AWS Glue でジョブを作成する (p. 101) を参照してください 3. ジョブを実行してデータを変換しますオンデマンドでジョブを実行するか次のいずれかのトリガータイプに基づいてジョブを開始することができます cron スケジュールに基づいたトリガーイベントベースのトリガーたとえば別のジョブが正常に完了すると AWS Glue ジョブを開始できますオンデマンドでジョブを開始するトリガー AWS Glue のトリガーの詳細については AWS Glue でのジョブのトリガー (p. 111) を参照してください 32

40 AWS Glue 開発者ガイドコンソールのワークフローの概要 4. スケジュールされたクローラとトリガーされたジョブをモニタリングします AWS Glue コンソールを使用して以下を表示しますジョブの実行の詳細とエラークローラは詳細とエラーを実行します AWS Glue アクティビティに関する通知 AWS Glue でクローラとジョブをモニタリングする方法の詳細については AWS Glue の実行とモニタリング (p. 135) を参照してください 33

41 AWS Glue 開発者ガイド認証 AWS Glue に対する認証とアクセスコントロール AWS Glue へのアクセスには認証情報が必要ですこれらの認証情報には AWS Glue table や Amazon Elastic Compute Cloud (Amazon EC2) インスタンスなどの AWS リソースに対するアクセス権限が含まれている必要があります次のセクションでは AWS Identity and Access Management (IAM) と AWS Glue を使用してリソースへのアクセスをセキュリティで保護する方法について詳しく説明します認証 (p. 34) アクセスコントロール (p. 35) 認証 AWS には次のタイプのアイデンティティでアクセスできます AWS アカウントのルートユーザー AWS アカウントを初めて作成する場合はすべての AWS サービスとリソースに対して完全なアクセス権限を持つシングルサインイン ID で始めますこのアイデンティティはルートユーザーと呼ばれ AWS アカウントの作成に使用したメールアドレスとパスワードでのサインインによりアクセスされます強くお勧めしているのは日常的なタスクにはそれが管理者タスクであってもルートユーザーを使用しないことです代わりに最初の IAM ユーザーを作成するためだけにルートユーザーを使用するというベストプラクティスに従いますその後ルートユーザー認証情報を安全な場所に保管しそれらを使用して少数のアカウントおよびサービス管理タスクのみを実行します IAM ユーザー IAM ユーザーは特定のカスタム権限 ( たとえば AWS Glue で a table を作成するアクセス権限 ) を持つ AWS アカウント内のアイデンティティです IAM のユーザー名とパスワードを使用して AWS マネジメントコンソール AWS ディスカッションフォーラム AWS Support Center などのセキュリティ保護された AWS ウェブページにサインインできますユーザー名とパスワードに加えて各ユーザーのアクセスキーを生成することもできますいくつかの SDK の 1 つまたは AWS Command Line Interface (CLI) を使ってプログラムで AWS サービスにアクセスするときにこれらのキーを使用します SDK と CLI ツールではアクセスキーを使用してリクエストが暗号で署名されます AWS ツールを使用しない場合はリクエストに自分で署名する必要があります AWS Glue supports では署名バージョン 4 がサポートされていますこれはインバウンド API リクエストを認証するためのプロトコルですリクエストの認証の詳細については AWS General Reference の署名バージョン 4 の署名プロセスを参照してください IAM ロール IAM ロールは特定のアクセス権限を持ちアカウントで作成できる IAM アイデンティティですこれは IAM ユーザーに似ていますが特定のユーザーに関連付けられていません IAM ロールでは AWS サービスおよびリソースにアクセスするために使用できる一時的なアクセスキーを取得することができます IAM ロールと一時的な認証情報は以下の状況で役立ちますフェデレーティッドユーザーアクセス IAM ユーザーを作成するのではなく AWS Directory Service エンタープライズユーザーディレクトリまたはウェブ ID プロバイダの既存のユーザー ID を使用することもできますこのようなユーザーはフェデレーティッドユーザーと呼ばれます AWS では ID プロバイダーを通じてアクセスがリクエストされたときフェデレーティッドユーザー 34

42 AWS Glue 開発者ガイドアクセスコントロールにロールを割り当てますフェデレーティッドユーザーの詳細については IAM ユーザーガイドのフェデレーティッドユーザーとロールを参照してください AWS サービスアクセスアカウントの IAM ロールを使用してアカウントのリソースにアクセスするための権限を AWS のサービスに付与できますたとえば Amazon Redshift がお客様に代わって Amazon S3 バケットにアクセスしバケットからデータを Amazon Redshift クラスターにロードすることを許可するロールを作成できます詳細については IAM ユーザーガイドの AWS ユーザーにアクセス権限を委任するロールの作成を参照してください Amazon EC2 で実行されているアプリケーション IAM ロールを使用して EC2 インスタンスで実行され AWS API リクエストを作成しているアプリケーションの一時的な認証情報を管理できますこれは EC2 インスタンス内でのアクセスキーの保存に推奨されます AWS ロールを EC2 インスタンスに割り当てそのすべてのアプリケーションで使用できるようにするにはインスタンスにアタッチされたインスタンスプロファイルを作成しますインスタンスプロファイルにはロールが含まれ EC2 インスタンスで実行されるプログラムは一時認証情報を取得することができます詳細については IAM ユーザーガイドの Amazon EC2 インスタンスで実行されるアプリケーションに IAM ロールを使用してアクセス権限を付与するを参照してくださいアクセスコントロール有効な認証情報があればリクエストを認証できますが許可を持っていないかぎり AWS Glue リソースの作成やアクセスはできませんたとえば AWS Glue table を作成するためのアクセス権限が必要です以下のセクションでは AWS Glue のアクセス権限を管理する方法について説明します最初に概要のセクションを読むことをお勧めしますアクセス管理の概要 (p. 35) アイデンティティベースのポリシー (IAM ポリシー ) を使用する (p. 38) AWS Glue API のアクセス権限リファレンス (p. 40) AWS Glue リソースへのアクセス権限の管理の概要すべての AWS リソースは AWS アカウントによって所有されとなりリソースの作成またはアクセスはアクセス権限のポリシーによって管理されますアカウント管理者はアクセス権限ポリシーを IAM アイデンティティ ( ユーザーグループロール ) にアタッチできます一部のサービス (AWS Lambda など ) ではアクセス権限ポリシーをリソースにアタッチすることもできます Note アカウント管理者 ( または管理者ユーザー ) は管理者権限を持つユーザーです詳細については IAM ユーザーガイドの IAM のベストプラクティスを参照してくださいアクセス権限を付与する場合アクセス権限を取得するユーザー取得するアクセス権限の対象となるリソースおよびそれらのリソースに対して許可される特定のアクションを決定しますトピック AWS Glue リソースおよびオペレーション (p. 36) リソース所有権について (p. 36) リソースへのアクセスの管理 (p. 36) ポリシー要素の指定 : アクション効果プリンシパル (p. 37) 35

43 AWS Glue 開発者ガイド AWS Glue リソースおよびオペレーションポリシーでの条件の指定 (p. 38) AWS Glue リソースおよびオペレーション AWS Glue には AWS Glue リソースを操作するための一連のオペレーションが用意されています可能なオペレーションのリストについては AWS Glue AWS Glue API (p. 270) を参照してくださいリソース所有権について AWS アカウントは誰がリソースを作成したかにかかわらずアカウントで作成されたリソースを所有します具体的にはリソース所有者はリソースの作成リクエストを認証するプリンシパルエンティティ ( ルートアカウント IAM ユーザーまたは IAM ロール ) の AWS アカウントです以下の例ではこのしくみを示しています AWS アカウントのルートアカウント認証情報を使用して a table を作成する場合この AWS アカウントがリソースの所有者です (AWS Glue ではリソースは a table です ) AWS アカウントに IAM ユーザーを作成しそのユーザーに a table を作成するためのアクセス権限を付与する場合そのユーザーは a table リソースを作成できますただしユーザーが属する AWS アカウントは table リソースを所有しています a table リソースを作成するためのアクセス権限を持つ AWS アカウントに IAM ロールを作成する場合はロールを引き受けることのできるいずれのユーザーも a table を作成できますユーザーが属する AWS アカウントは table リソースを所有していますリソースへのアクセスの管理アクセスポリシーでは誰が何にアクセスできるかを記述します以下のセクションでアクセス権限のポリシーを作成するために使用可能なオプションについて説明します Note このセクションでは AWS Glue のコンテキストでの IAM の使用について説明しますこれは IAM サービスに関する詳細情報を取得できません完全な IAM ドキュメントについては IAM とは? (IAM ユーザーガイド ) を参照してください IAM ポリシー構文の詳細および説明については IAM ユーザーガイドの AWS IAM ポリシーリファレンスを参照してください IAM アイデンティティにアタッチされたポリシーはアイデンティティベースのポリシー (IAM ポリシー ) と呼ばれリソースにアタッチされたポリシーはリソースベースのポリシーと呼ばれます AWS Glue ではアイデンティティベースのポリシー (IAM ポリシー ) のみサポートされますトピックアイデンティティベースのポリシー (IAM ポリシー ) (p. 36) リソースベースのポリシー (p. 37) アイデンティティベースのポリシー (IAM ポリシー ) ポリシーを IAM アイデンティティにアタッチできますたとえば次の操作を実行できますアカウントのユーザーまたはグループにアクセス権限ポリシーをアタッチする a table などの AWS Glue リソースを作成するためのアクセス権限を付与するにはユーザーまたはユーザーが所属するグループにアクセス権限ポリシーをアタッチできますアクセス権限ポリシーをロールにアタッチする ( クロスアカウントのアクセス権限を付与 ) アイデンティティベースのアクセス権限ポリシーを IAM ロールにアタッチしてクロスアカウントのアクセス権 36

44 AWS Glue 開発者ガイドポリシー要素の指定 : アクション効果プリンシパル限を付与することができますたとえばアカウント A の管理者は次のように他のまたは AWS にクロスアカウントのアクセス権限を別の AWS アカウント ( アカウント B) または AWS サービスに付与するロールを作成することができます 1. アカウント A の管理者は IAM ロールを作成してアカウント A のリソースに権限を付与するロールに権限ポリシーをアタッチします 2. アカウント A の管理者はアカウント B をそのロールを引き受けるプリンシパルとして識別するロールに信頼ポリシーをアタッチします 3. アカウント B の管理者はアカウント B のユーザーにロールを引き受ける権限を委任できるようになりますこれによりアカウント B のユーザーにアカウント A のリソースの作成とアクセスが許可されます AWS サービスのアクセス権限を付与してロールを引き受けさせたい場合は信頼ポリシー内のプリンシパルも AWS サービスのプリンシパルとなることができます IAM を使用したアクセス権限の委任の詳細については IAM ユーザーガイドのアクセス管理を参照してください AWS Glue アクション (glue:gettables) に許可を付与するポリシーの例を次に示します Resource 値のワイルドカード文字 (*) はこのアクションを使用して現在の AWS リージョンの AWS アカウントで所有されているデータベースすべてのテーブルの名前を取得できることを意味します { } "Version": " ", "Statement": [ { "Sid": "GetTables", "Effect": "Allow", "Action": [ "glue:gettables" ], "Resource": "*" } ] AWS Glue でアイデンティティベースのポリシーを使用する詳細については AWS Glue で ID ベースのポリシー (IAM ポリシー ) を使用する (p. 38) を参照してくださいユーザーグループロールアクセス権限の詳細についてはアイデンティティ ( ユーザーグループロール ) (IAM ユーザーガイド ) を参照してくださいリソースベースのポリシー Amazon S3 などの他のサービスではリソースベースのアクセス権限ポリシーもサポートされていますたとえばポリシーを S3 バケットにアタッチしてそのバケットに対するアクセス権限を管理できます AWS Glue ではリソースベースのポリシーはサポートされていませんポリシー要素の指定 : アクション効果プリンシパル AWS Glue リソースの種類ごとにこのサービスは一連の API オペレーションを定義しますこれらの API オペレーションのアクセス権限を付与するために AWS Glue はポリシー内に指定できる一連のアクションを定義します一部の API オペレーションは API オペレーションを実行するために複数のアクションに対するアクセス許可を要求できますリソースおよび API オペレーションの詳細については AWS Glue リソースおよびオペレーション (p. 36) および AWS Glue AWS Glue API (p. 270) を参照してください以下は最も基本的なポリシーの要素です 37

45 AWS Glue 開発者ガイドポリシーでの条件の指定リソース Amazon Resource Name (ARN) を使用してポリシーを適用するリソースを識別します詳細については AWS Glue リソースおよびオペレーション (p. 36) を参照してくださいアクションアクションのキーワードを使用して許可または拒否するリソースオペレーションを識別しますたとえば create を allow users to create a table に使用できます効果ユーザーが特定のアクションをリクエストする際の効果を指定します許可または拒否のいずれかになりますリソースへのアクセスを明示的に許可していない場合アクセスは暗黙的に拒否されますまた明示的にリソースへのアクセスを拒否すると別のポリシーによってアクセスが許可されている場合でもユーザーはそのリソースにアクセスできなくなりますプリンシパルアイデンティティベースのポリシー (IAM ポリシー ) でポリシーがアタッチされているユーザーが黙示的なプリンシパルとなりますリソースベースのポリシーでは権限 ( リソースベースのポリシーにのみ適用 ) を受け取りたいユーザーアカウントサービスまたはその他のエンティティを指定します AWS Glue doesn't support リソースベースのポリシー IAM ポリシーの構文と説明についての詳細については IAM ユーザーガイドの AWS IAM ポリシーの参照を参照してくださいすべての AWS Glue API オペレーションとそれらが適用されるリソースのリストについては AWS Glue API のアクセス権限 : アクションとリソースのリファレンス (p. 40) を参照してくださいポリシーでの条件の指定アクセス権限を付与するときアクセスポリシー言語を使用してポリシーが有効になる必要がある条件を指定できますたとえば特定の日付の後にのみ適用されるポリシーが必要になる場合がありますポリシー言語での条件の指定の詳細については IAM ユーザーガイドの条件を参照してください条件を表すにはあらかじめ定義された条件キーを使用します AWS 全体の条件キーと AWS Glue 固有のキーがあり必要に応じて使用できます AWS 全体を対象とするすべてのキーのリストについては IAM ユーザーガイドの条件に利用可能なキーを参照してください AWS Glue で ID ベースのポリシー (IAM ポリシー ) を使用するこのトピックではアカウント管理者が IAM アイデンティティ ( ユーザーグループロール ) にアクセス権限ポリシーをアタッチしそれによって AWS Glue リソースでオペレーションを実行するアクセス権限を付与する方法を示すアイデンティティベースのポリシーの例を示します Important 初めに AWS Glue リソースへのアクセスを管理するための基本概念と使用可能なオプションについて説明する概要トピックを読むことをお勧めします詳細については AWS Glue リソースへのアクセス権限の管理の概要 (p. 35) を参照してくださいこのセクションでは次のトピックを対象としています AWS Glue コンソールを使用するために必要なアクセス権限 (p. 39) AWS Glue での AWS 管理 ( 事前定義 ) ポリシー (p. 39) 以下に示しているのは Amazon DynamoDB のアクセス権限ポリシーの例です { "Version": " ", "Statement": [ 38

46 AWS Glue 開発者ガイドコンソールのアクセス許可 } ] { } "Sid": "DescribeQueryScanBooksTable", "Effect": "Allow", "Action": [ "dynamodb:describetable", "dynamodb:query", "dynamodb:scan" ], "Resource": "arn:aws:dynamodb:us-west-2:account-id:table/books" このポリシーには us-west-2 リージョンのテーブルで 3 つの DynamoDB アクション (dynamodb:describetable dynamodb:query dynamodb:scan) を許可する 1 つのステートメントがありますこれは account-id で指定される AWS アカウントで所有されています値の Amazon リソースネーム (ARN)Resource ではアクセス権限が適用されるテーブルを指定します AWS Glue コンソールを使用するために必要なアクセス権限 AWS Glue コンソールを使用して作業するユーザーに対してはユーザーに AWS アカウントの AWS Glue リソースの使用を許可する最小限のアクセス許可が必要ですこれらの AWS Glue アクセス許可に加えてコンソールでは次のサービスからのアクセス許可が必要になりますログを表示する Amazon CloudWatch Logs のアクセス権限ロールをリストして渡す AWS Identity and Access Management のアクセス権限スタックを操作する AWS CloudFormation のアクセス権限 VPC サブネットセキュリティグループインスタンスおよびその他のオブジェクトをリストする Amazon Elastic Compute Cloud のアクセス権限バケットとオブジェクトをリストする Amazon Simple Storage Service のアクセス権限またスクリプトを取得して保存できるアクセス権限クラスターを操作する Amazon Redshift のアクセス権限インスタンスをリストする Amazon Relational Database Service アクセス権限ユーザーが AWS Glue コンソールを表示して操作するために必要なアクセス権限の詳細についてはステップ 3: AWS Glue にアクセスする IAM ユーザーにポリシーをアタッチする (p. 14) を参照してくださいこれらの最小限必要なアクセス権限よりも制限された IAM ポリシーを作成している場合その IAM ポリシーを使用するユーザーに対してコンソールは意図したとおりには機能しませんこれらのユーザーが引き続き AWS Glue コンソールを使用できるようにするには AWSGlueConsoleFullAccess をユーザーにアタッチしますそれに関しては AWS Glue での AWS 管理 ( 事前定義 ) ポリシー (p. 39) で説明されています AWS CLI または AWS Glue API のみを呼び出すユーザーには最小限のコンソールアクセス権限を付与する必要はありません AWS Glue での AWS 管理 ( 事前定義 ) ポリシー AWS は AWS によって作成され管理されるスタンドアロンの IAM ポリシーが提供する多くの一般的ユースケースに対応しますこれらの AWS 管理ポリシーは一般的ユースケースに必要なアクセス権限を付与することでどの権限が必要なのかをユーザーが調査する必要をなくすことができます詳細については IAM ユーザーガイドの AWS 管理ポリシーを参照してください 39

47 AWS Glue 開発者ガイド AWS Glue API のアクセス権限リファレンスアカウントのユーザーにアタッチ可能な以下の AWS 管理ポリシーは AWS Glue に固有のものでユースケースシナリオ別にグループ化されます AWSGlueConsoleFullAccess AWS マネジメントコンソールを使用して AWS Glue リソースへのフルアクセスを付与しますこのポリシーで指定されたリソースの命名規則に従った場合ユーザーは完全なコンソール機能を使用できますこのポリシーは通常 AWS Glue コンソールのユーザーにアタッチされています AWSGlueServiceRole さまざまな AWS Glue プロセスを実行するために必要なリソースへのアクセス権をユーザーに代わって付与しますこれらのリソースには AWS Glue Amazon S3 IAM CloudWatch Logs および Amazon EC2 が含まれますこのポリシーで指定されたリソースの命名規則に従った場合 AWS Glue プロセスは必要なアクセス権限を使用できますこのポリシーは通常クローラジョブ開発エンドポイントを定義するときに指定されたロールにアタッチされます AWSGlueServiceNotebookRole ノートブックサーバーを作成するときに必要なリソースへのアクセスを付与しますこれらのリソースには AWS Glue Amazon S3 および Amazon EC2 が含まれますこのポリシーで指定されたリソースの命名規則に従った場合 AWS Glue プロセスは必要なアクセス権限を使用できますこのポリシーは通常開発エンドポイントでノートブックサーバーを作成するときに指定されたロールにアタッチされます Note IAM コンソールにサインインし特定のポリシーを検索することでこれらのアクセス権限ポリシーを確認することができます独自のカスタム IAM ポリシーを作成して AWS Glue アクションとリソースのための権限を許可することもできますこれらのカスタムポリシーはそれらのアクセス権限が必要な IAM ユーザーまたはグループにアタッチできます AWS Glue API のアクセス権限 : アクションとリソースのリファレンスアクセスコントロール (p. 35) をセットアップし IAM アイデンティティにアタッチできるアクセス権限ポリシー ( アイデンティティベースのポリシー ) を作成するときは以下のリストをリファレンスとして使用できますリストには各 AWS Glue API オペレーションアクションを実行するためのアクセス権限を付与できる対応するアクションおよびアクセス権限を付与できる AWS リソースが掲載されていますポリシーの Action フィールドでアクションを指定しポリシーの Resource フィールドでリソースの値を指定します AWS Glue ポリシーで AWS 全体の条件キーを使用して条件を表現することができます AWS 全体を対象とするすべてのキーのリストについては IAM ユーザーガイドの利用可能なキーを参照してください Note アクションを指定するには API オペレーション名 (glue:gettable など ) の前に glue: プレフィックスを使用します AWS Glue API のアクセス権限 : アクションとリソースのリファレンス BatchCreatePartition アクション (Python: batch_create_partition) (p. 294) アクション : glue:batchcreatepartition リソース : 40

48 AWS Glue 開発者ガイド AWS Glue API のアクセス権限リファレンス * BatchDeleteConnection アクション (Python: batch_delete_connection) (p. 304) アクション : glue:batchdeleteconnection リソース : * BatchDeletePartition アクション (Python: batch_delete_partition) (p. 296) アクション : glue:batchdeletepartition リソース : * BatchDeleteTable アクション (Python: batch_delete_table) (p. 286) アクション : glue:batchdeletettable リソース : * BatchGetPartition アクション (Python: batch_get_partition) (p. 299) アクション : glue:batchgetpartition リソース : * BatchStopJobRun アクション (Python: batch_stop_job_run) (p. 343) アクション : glue:batchstopjobrun リソース : * CreateClassifier アクション (Python: create_classifier) (p. 315) アクション : glue:createclassifier リソース : * CreateConnection アクション (Python: create_connection) (p. 301) アクション : glue:createconnection リソース : * CreateCrawler アクション (Python: create_crawler) (p. 321) アクション : glue:createcrawler リソース : * CreateDatabase アクション (Python: create_database) (p. 276) アクション : glue:createdatabase 41

49 AWS Glue 開発者ガイド AWS Glue API のアクセス権限リファレンスリソース : * CreateDevEndpoint アクション (Python: create_dev_endpoint) (p. 354) アクション : glue:createdevendpoint リソース : * CreateJob アクション (Python: create_job) (p. 336) アクション : glue:createjob リソース : * CreatePartition アクション (Python: create_partition) (p. 294) アクション : glue:createpartition リソース : * CreateScript アクション (Python: create_script) (p. 330) アクション : glue:createscript リソース : * CreateTable アクション (Python: create_table) (p. 284) アクション : glue:createtable リソース : * CreateTrigger アクション (Python: create_trigger) (p. 348) アクション : glue:createtrigger リソース : * CreateUserDefinedFunction アクション (Python: create_user_defined_function) (p. 306) アクション : glue:createuserdefinedfunction リソース : * DeleteClassifier アクション (Python: delete_classifier) (p. 316) アクション : glue:createclassifier リソース : * 42

50 AWS Glue 開発者ガイド AWS Glue API のアクセス権限リファレンス DeleteConnection アクション (Python: delete_connection) (p. 302) アクション : glue:updateconnection リソース : * DeleteCrawler アクション (Python: delete_crawler) (p. 322) アクション : glue:deletecrawler リソース : * DeleteDatabase アクション (Python: delete_database) (p. 277) アクション : glue:deletedatabase リソース : * DeleteDevEndpoint アクション (Python: delete_dev_endpoint) (p. 356) アクション : glue:deletedevendpoint リソース : * DeleteJob アクション (Python: delete_job) (p. 339) アクション : glue:deletejob リソース : * DeletePartition アクション (Python: delete_partition) (p. 296) アクション : glue:updatepartition リソース : * DeleteTable アクション (Python: delete_table) (p. 285) アクション : glue:deletetable リソース : * DeleteTrigger アクション (Python: delete_trigger) (p. 351) アクション : glue:deletetrigger リソース : * DeleteUserDefinedFunction アクション (Python: delete_user_defined_function) (p. 307) アクション : glue:deleteuserdefinedfunction 43

51 AWS Glue 開発者ガイド AWS Glue API のアクセス権限リファレンスリソース : * GetCatalogImportStatus アクション (Python: get_catalog_import_status) (p. 310) アクション : glue:getcatalogimportstatus リソース : * GetClassifier アクション (Python: get_classifier) (p. 316) アクション : glue:getclassifier リソース : * GetClassifiers アクション (Python: get_classifiers) (p. 316) アクション : glue:getclassifiers リソース : * GetConnection アクション (Python: get_connection) (p. 302) アクション : glue:getconnection リソース : * GetConnections アクション (Python: get_connections) (p. 303) アクション : glue:getconnections リソース : * GetCrawler アクション (Python: get_crawler) (p. 323) アクション : glue:getcrawler リソース : * GetCrawlerMetrics アクション (Python: get_crawler_metrics) (p. 324) アクション : glue:getcrawlermetrics リソース : * GetCrawlers アクション (Python: get_crawlers) (p. 323) アクション : glue:getcrawlers リソース : * 44

52 AWS Glue 開発者ガイド AWS Glue API のアクセス権限リファレンス GetDatabase アクション (Python: get_database) (p. 278) アクション : glue:getdatabase リソース : * GetDatabases アクション (Python: get_databases) (p. 278) アクション : glue:getdatabases リソース : * GetDataflowGraph アクション (Python: get_dataflow_graph) (p. 331) アクション : glue:getdataflowgraph リソース : * GetDevEndpoint アクション (Python: get_dev_endpoint) (p. 357) アクション : glue:getdevendpoint リソース : * GetDevEndpoints アクション (Python: get_dev_endpoints) (p. 357) アクション : glue:getdevendpoints リソース : * GetJob アクション (Python: get_job) (p. 338) アクション : glue:getjob リソース : * GetJobRun アクション (Python: get_job_run) (p. 344) アクション : glue:getjobrun リソース : * GetJobRuns アクション (Python: get_job_runs) (p. 344) アクション : glue:getjobruns リソース : * GetJobs アクション (Python: get_jobs) (p. 338) アクション : glue:getjobs 45

53 AWS Glue 開発者ガイド AWS Glue API のアクセス権限リファレンスリソース : * GetMapping アクション (Python: get_mapping) (p. 332) アクション : glue:getmapping リソース : * GetPartition アクション (Python: get_partition) (p. 297) アクション : glue:getpartition リソース : * GetPartitions アクション (Python: get_partitions) (p. 298) アクション : lue:getpartitions リソース : * GetTable アクション (Python:get_table) (p. 287) アクション : glue:gettable リソース : * GetTables アクション (Python: get_tables) (p. 287) アクション : glue:gettables リソース : * GetTableVersions アクション (Python: get_table_versions) (p. 289) アクション : glue:gettableversions リソース : * GetTrigger アクション (Python: get_trigger) (p. 349) アクション : glue:gettrigger リソース : * GetTriggers アクション (Python: get_triggers) (p. 350) アクション : glue:gettriggers リソース : * 46

54 AWS Glue 開発者ガイド AWS Glue API のアクセス権限リファレンス GetUserDefinedFunction アクション (Python: get_user_defined_function) (p. 308) アクション : glue:getuserdefinedfunction リソース : * GetUserDefinedFunctions アクション (Python: get_user_defined_functions) (p. 308) アクション : glue:getuserdefinedfunctions リソース : * ImportCatalogToGlue アクション (Python: import_catalog_to_glue) (p. 310) アクション : glue:importcatalogtoglue リソース : * ResetJobBookmark アクション (Python: reset_job_bookmark) (p. 345) アクション : glue:resetjobbookmark リソース : * StartCrawler アクション (Python: start_crawler) (p. 325) アクション : glue:startcrawler リソース : * StartCrawlerSchedule アクション (Python: start_crawler_schedule) (p. 327) アクション : glue:startcrawlerschedule リソース : * StartJobRun アクション (Python: start_job_run) (p. 342) アクション : glue:startjobrun リソース : * StartTrigger アクション (Python: start_trigger) (p. 349) アクション : glue:starttrigger リソース : * StopCrawler アクション (Python: stop_crawler) (p. 326) アクション : glue:stopcrawler 47

55 AWS Glue 開発者ガイド AWS Glue API のアクセス権限リファレンスリソース : * StopCrawlerSchedule アクション (Python: stop_crawler_schedule) (p. 328) アクション : glue:stopcrawlerschedule リソース : * StopTrigger アクション (Python: stop_trigger) (p. 351) アクション : glue:stoptrigger リソース : * UpdateClassifier アクション (Python: update_classifier) (p. 317) アクション : glue:updateclassifier リソース : * UpdateConnection アクション (Python: update_connection) (p. 304) アクション : glue:updateconnection リソース : * UpdateCrawler アクション (Python: update_crawler) (p. 324) アクション : glue:updatecrawler リソース : * UpdateCrawlerSchedule アクション (Python: update_crawler_schedule) (p. 327) アクション : glue:updatecrawlerschedule リソース : * UpdateDatabase アクション (Python: update_database) (p. 277) アクション : glue:updatedatabase リソース : * UpdateDevEndpoint アクション (Python: update_dev_endpoint) (p. 356) アクション : glue:updatedevendpoint リソース : * 48

56 AWS Glue 開発者ガイド関連トピック UpdateJob アクション (Python: update_job) (p. 337) アクション : glue:updatejob リソース : * UpdatePartition アクション (Python: update_partition) (p. 295) アクション : glue:updatepartition リソース : * UpdateTable アクション (Python: update_table) (p. 285) アクション : glue:updatetable リソース : * UpdateTrigger アクション (Python: update_trigger) (p. 350) アクション : glue:updatetrigger リソース : * UpdateUserDefinedFunction アクション (Python: update_user_defined_function) (p. 307) アクション : glue:updatateuserdefinedfunction リソース : * 関連トピックアクセスコントロール (p. 35) 49

57 AWS Glue 開発者ガイド AWS Glue データカタログの入力 AWS Glue データカタログには AWS Glue. での抽出変換およびロード (ETL) ジョブのソースおよびターゲットとして使用するデータへのリファレンスが含まれていますデータウェアハウスを作成するにはこのデータを分類する必要があります AWS Glue データカタログはデータの場所スキーマおよびランタイムメトリクスへのインデックスです Data Catalog 内の情報を使用して ETL ジョブを作成し監視します通常クローラを実行してデータストア内のデータのインベントリを行いますが Data Catalog にメタデータテーブルを追加する別の方法もあります以下の方法で AWS Glue データカタログにテーブル定義を追加できます 1 つまたは複数のデータストアに接続しデータ構造を決定し Data Catalog にテーブルを書き込むクローラを実行しますスケジュールに基づいてクローラを実行することができます詳細についてはクローラを使用してテーブルを分類する (p. 55) を参照してください AWS Glue コンソールを使用して AWS Glue データカタログにテーブルを作成します詳細については AWS Glue コンソールでのテーブルの使用 (p. 52) を参照してください AWS Glue API (p. 270) の CreateTable オペレーションを使用し AWS Glue データカタログにテーブルを作成します次のワークフロー図は AWS Glue クローラがデータストアや他の要素とやり取りして Data Catalog に入力する方法を示していますクローラが AWS Glue データカタログに入力する一般的なワークフローを以下に示します 50

58 AWS Glue 開発者ガイド AWS Glue データカタログでテーブルを定義する 1. クローラが選択した任意のカスタム分類子を実行しデータのスキーマを推論しますカスタム分類子のコードを提供すると指定した順序で実行されますデータの構造を正常に認識した最初のカスタム分類子がスキーマを作成するために使用されますリストで下位のカスタム分類子スキップされます 2. カスタム分類子と一致するデータのスキーマがない場合は組み込み分類子がデータのスキーマを認識します 3. クローラがデータストアに接続します一部のデータストアではクローラがアクセスするために接続プロパティを必要とします 4. データの推測されたスキーマが作成されます 5. クローラは Data Catalog にメタデータを書き込みますテーブル定義にはデータストア内のデータに関するメタデータが含まれていますテーブルは Data Catalog でテーブルのコンテナとなるデータベースに書き込まれますテーブルの属性には分類が含まれますこれはテーブルのスキーマを推測した分類子により作成されるラベルですトピック AWS Glue データカタログでテーブルを定義する (p. 51) クローラを使用してテーブルを分類する (p. 55) データカタログでのデータベースの定義 (p. 65) クローラに分類子を追加する (p. 66) データストアに接続を追加する (p. 80) AWS CloudFormation テンプレートを使用したデータカタログの事前設定 (p. 85) AWS Glue データカタログでテーブルを定義する AWS Glue でテーブルを定義する場合はそのテーブルに保存されているデータのタイプとフォーマットを示す分類フィールドの値も指定しますクローラでテーブルを作成する場合これらの分類は組み込み分類子またはカスタム分類子のいずれかによって決定されますコンソールまたは API を使用して手動でテーブルを作成する場合はテーブルを定義するときに分類を指定します AWS Glue コンソールを使用してテーブルを作成する方法の詳細については AWS Glue コンソールでのテーブルの使用 (p. 52) を参照してくださいテーブルのメタデータの変更をクローラが検出した場合新しいバージョンのテーブルが AWS Glue データカタログに作成されますテーブルの現在のバージョンと過去のバージョンを比較できますテーブルのスキーマにはその構造が含まれていますまたスキーマを編集して新しいバージョンのテーブルを作成することもできますテーブルの履歴も Data Catalog で管理されますこの履歴には抽出変換およびロード (ETL) ジョブによってデータストアが更新されたときに収集されるメトリクスが含まれますジョブの名前実行時間追加された行の数およびジョブの実行にかかった時間を調べることができます ETL ジョブによって使用されたスキーマのバージョンも履歴に保持されますテーブルパーティション Amazon Simple Storage Service (Amazon S3) フォルダの AWS Glue テーブル定義によってパーティションテーブルを記述できますたとえばクエリのパフォーマンスを向上させるためにパーティションテーブルでは月の名前をキーとして毎月のデータを別のファイルに分割する場合があります AWS Glue ではテーブル定義にテーブルのパーティションキーが含まれています AWS Glue は Amazon S3 フォルダのデータを評価してテーブルをカタログ化するとき個々のテーブルまたはパーティション分割されたテーブルを追加するかどうかを決定します 51

59 AWS Glue 開発者ガイドコンソールでのテーブルの使用 AWS Glue によって Amazon S3 フォルダのパーティション表を作成するには次の条件がすべて満たされている必要がありますファイルのスキーマは AWS Glue によって決定されるものと似ているファイルのデータ形式が同じであるファイルの圧縮形式が同じであるたとえば ios と Android アプリケーションの販売データを保存する my-app-bucket という名前の Amazon S3 バケットを所有しているとしますデータは年月日で分割されます ios および Android の販売に関するデータファイルは同じスキーマデータ形式および圧縮形式です AWS Glue データカタログでは AWS Glue クローラが年月日のパーティションキーを使用して 1 つのテーブル定義を作成します次の my-app-bucket の Amazon S3 リストではパーティションのいくつかが示されています = シンボルはパーティションキー値の割り当てに使用されます my-app-bucket/sales/year='2010'/month='feb'/day='1'/ios.csv my-app-bucket/sales/year='2010'/month='feb'/day='1'/android.csv my-app-bucket/sales/year='2010'/month='feb'/day='2'/ios.csv my-app-bucket/sales/year='2010'/month='feb'/day='2'/android.csv... my-app-bucket/sales/year='2017'/month='feb'/day='4'/ios.csv my-app-bucket/sales/year='2017'/month='feb'/day='4'/android.csv AWS Glue コンソールでのテーブルの使用 AWS Glue データカタログのテーブルはデータストア内のデータを表すメタデータ定義ですクローラの実行時にテーブルを作成するかまたは AWS Glue コンソールで手動でテーブルを作成できます AWS Glue コンソールの [Tables] ( テーブル ) リストにテーブルのメタデータの値が表示されます ETL ( 抽出変換およびロード ) ジョブを作成するときにテーブル定義を使用してソースとターゲットを指定します開始するには AWS マネジメントコンソールにサインインし AWS Glue コンソール ( console.aws.amazon.com/glue/) を開きます [Tables] ( テーブル ) タブをクリックし [Add tables] ( テーブルの追加 ) ボタンを使用してクローラでまたは属性を手動で入力してテーブルを作成しますコンソールでテーブルを追加するクローラを使用してテーブルを追加するには [Add tables] ( テーブルの追加 ) [Add tables using a crawler] ( クローラを使用してテーブルを追加 ) の順に選択します次に [Add crawler] ( クローラの追加 ) ウィザードの手順に従いますクローラが実行されるとテーブルが AWS Glue データカタログに追加されます詳細についてはクローラを使用してテーブルを分類する (p. 55) を参照してください Data Catalog で Amazon Simple Storage Service (Amazon S3) テーブル定義の作成に必要な属性が分かっている場合はテーブルウィザードで作成できます [Add tables] ( テーブルの追加 ) [Add table manually] ( 手動でのテーブルを追加 ) の順に選択し [Add table] ( テーブルの追加 ) ウィザードの手順に従いますコンソールで手動でテーブルを追加するときは以下の点を考慮します Amazon Athena からテーブルにアクセスする場合は英数字とアンダースコア文字のみを使用して名前を指定します詳細については Athena の名前に関するドキュメントを参照してくださいソースデータの場所は Amazon S3 パスにする必要があります 52

60 AWS Glue 開発者ガイドコンソールでのテーブルの使用データのデータ形式はウィザードに表示されているいずれかの形式と一致する必要があります対応する分類 SerDe およびその他のテーブルのプロパティは選択された形式に基づいて自動的に入力されます次の形式でテーブルを定義できます JSON CSV JavaScript Object Notation 文字で区切られた値また区切り文字としてカンマパイプセミコロンタブまたは Ctrl- A を指定します Parquet Avro XML Apache Parquet 列指向ストレージ Apache Avro JSON バイナリ形式 Extensible Markup Language 形式データの行を定義する XML タグを指定します列は行のタグ内で定義されますテーブルのパーティションキーを定義できます現在コンソールで作成した分割されたテーブルは ETL ジョブで使用することはできませんテーブル属性以下に重要なテーブル属性を示しますテーブル名名前はテーブルの作成時に決定され変更することはできません多くの AWS Glue オペレーションでテーブル名を参照しますデータベース場所分類テーブルが存在するコンテナオブジェクトこのオブジェクトには AWS Glue データカタログ内に存在するテーブルの組織が含まれデータストアの組織とは異なる場合がありますデータベースを削除するとデータベースに含まれるすべてのテーブルも Data Catalog から削除されますこのテーブル定義が表すデータストア内のデータの場所へのポインタテーブルの作成時に指定された分類の値通常これはクローラが実行されてソースデータの形式を指定するときに書き込まれます最終更新日 Data Catalog でこのテーブルが更新された日付と時刻 (UTC) 追加された日付 Data Catalog にこのテーブルが追加された日付と時刻 (UTC) Description 廃止テーブルの説明テーブルの内容を理解しやすくするために説明を記入できます AWS Glue により Data Catalog のテーブルは元のデータストアに存在しなくなったことが分かるとそのテーブルは廃止されたとしてデータカタログにマークされます廃止されたテーブルを参 53

61 AWS Glue 開発者ガイドコンソールでのテーブルの使用照するジョブを実行する場合ジョブは失敗する可能性があります廃止されたテーブルを参照するジョブを編集しソースおよびターゲットとして削除します廃止されたテーブルが不要になったら削除することをお勧めします Connection AWS Glue でデータストアへの接続が必要な場合は接続の名前がテーブルに関連付けられますテーブルの詳細の表示と編集既存のテーブルの詳細を表示するにはリスト内のテーブル名を選択し [Action, View details] ( アクション詳細を表示 ) を選択しますテーブルの詳細にはテーブルのプロパティとスキーマが含まれますこのビューにはテーブルに定義された順序の列名データ型およびパーティションのキー列を含むテーブルのスキーマが表示されます列が複合型の場合は以下の例に示すように [View properties] ( プロパティの表示 ) を選択してそのフィールドの構造の詳細を表示します { "StorageDescriptor": { "cols": { "FieldSchema": [ { "name": "primary-1", "type": "CHAR", "comment": "" }, { "name": "second ", "type": "STRING", "comment": "" } ] }, "location": "s3://aws-logs us-east-1", "inputformat": "", "outputformat": "org.apache.hadoop.hive.ql.io.hiveignorekeytextoutputformat", "compressed": "false", "numbuckets": "0", "SerDeInfo": { "name": "", "serializationlib": "org.apache.hadoop.hive.serde2.opencsvserde", "parameters": { "separatorchar": " " } }, "bucketcols": [], "sortcols": [], "parameters": {}, "SkewedInfo": {}, "storedassubdirectories": "false" }, "parameters": { "classification": "csv" } } StorageDescriptor などのテーブルのプロパティの詳細については StorageDescriptor 構造 (p. 281) を参照してくださいテーブルのスキーマを変更するには [Edit schema] ( スキーマの編集 ) を選択し列の追加および削除列名の変更データ型の変更をします 54

62 AWS Glue 開発者ガイドクローラを使用してテーブルを分類するスキーマを含めテーブルの異なるバージョンを比較するには [Compare versions] ( バージョンの比較 ) を選択しテーブルの 2 つのバージョンのスキーマを並べて比較します Amazon S3 パーティションを構成するファイルを表示するには [View partition] ( パーティションの表示 ) を選択します Amazon S3 のテーブルでは [Key] ( キー ) 列にソースデータストアでテーブルを分割するために使用されるパーティションキーが表示されますパーティションは日付場所または部門などのキー列の値に基づいてテーブルを関連する部分に分割する方法ですパーティションの詳細についてはインターネットで hive パーティションを検索してください Note テーブルの詳細を表示するための詳細な手順についてはコンソールの [Explore table] ( テーブルの確認 ) チュートリアルを参照してくださいクローラを使用してテーブルを分類するクローラを使用して AWS Glue データカタログにテーブルを入力することができますこれは AWS Glue ユーザーが最もよく使用する基本的な方法ですデータストアを経由するよう Data Catalog 内にクローラを追加しますクローラの出力は Data Catalog で定義された 1 つ以上のメタデータテーブルで構成されています AWS Glue で定義した抽出変換およびロード (ETL) ジョブはこれらのメタデータテーブルをソースおよびターゲットとして使用しますクローラは AWS Identity and Access Management (IAM) ロールをアクセス許可のために使用してデータストアおよび Data Catalog にアクセスしますクローラに渡すロールはクロールされた Amazon S3 パスにアクセスするためのアクセス権限を持っている必要があります一部のデータストアでは必要な接続を確立するための追加の認証が必要です詳細についてはデータストアに接続を追加する (p. 80) を参照してください AWS Glue コンソールを使用してクローラを追加する方法の詳細については AWS Glue コンソールでのクローラの使用 (p. 63) を参照してください AWS Glue データカタログでクローラを定義するクローラを定義する場合データの形式を評価してスキーマを推測する分類子を 1 つ以上選択しますクローラを実行するとリストで最初にデータストアの認識に成功した分類子を使用してテーブルのスキーマが作成されます組み込み分類子を使用するか独自に定義することができます AWS Glue は組み込み分類子を提供して JSON CSV および Apache Avro を含む形式を持つ共通ファイルからスキーマを推測します AWS Glue の組み込み分類子の最新のリストについては AWS Glue の組み込み分類子 (p. 67) を参照してくださいクロール可能なデータストアクローラはファイルベースおよびリレーショナルテーブルベースのデータストアの両方をクロールできますクローラは次のデータストアのデータを保存することができます Amazon Simple Storage Service (Amazon S3) Amazon Redshift Amazon Relational Database Service (Amazon RDS) Amazon Aurora MariaDB Microsoft SQL Server MySQL Oracle PostgreSQL パブリックにアクセス可能なデータベース 55

63 AWS Glue 開発者ガイド包含パターンと除外パターンを使用する Amazon Aurora MariaDB Microsoft SQL Server MySQL Oracle PostgreSQL Amazon S3 データストアを定義してクロールする場合自分のアカウントのパスをクロールするかまたは別のアカウントのパスをクロールするかを選択できますクローラの出力は AWS Glue データカタログで定義された 1 つ以上のメタデータテーブルですテーブルはデータストアにある 1 つ以上のファイルに対して作成されますフォルダにあるすべての Amazon S3 ファイルが同じスキーマを持つ場合クローラは 1 つのテーブルを作成しますまた Amazon S3 オブジェクトが分割されている場合メタデータテーブルは 1 つしか作成されませんクロールするデータストアがリレーショナルデータベースの場合出力も AWS Glue データカタログで定義されたメタデータテーブルのセットになりますリレーショナルデータベースをクロールする場合データベースエンジンのオブジェクトを読み取るには接続の許可認証情報を指定する必要がありますデータベースエンジンのタイプに応じてどのオブジェクト ( データベーススキーマテーブルなど ) をクロールするかを選択できます包含パターンと除外パターンを使用するクロールで何を含め何を除外するかを評価する際クローラは必要なインクルードパスを評価することから始めますクロールするデータストアごとに 1 つのインクルードパスを指定する必要があります Amazon S3 データストアの場合構文は bucket-name/folder-name/file-name.ext ですバケット内のすべてのオブジェクトをクロールするにはインクルードパスにバケット名のみ指定します JDBC データストアの場合構文は database-name/schema-name/table-name または databasename/table-name です構文はデータベースエンジンでデータベース内のスキーマがサポートされているかどうかに依存しますたとえば MySQL や Oracle などのデータベースエンジンの場合はインクルードパスに schema-name を指定しませんインクルードパスでスキーマやテーブルの代わりにパーセント記号 (%) を使用することでデータベース内のすべてのスキーマやテーブルを表すことができますインクルードパスでデータベースの代わりにパーセント記号 (%) を使用することはできませんクローラでは JDBC データストアに接続するために JDBC URI 接続文字列を含む AWS Glue 接続を使用しますクローラはデータベースエンジン内のオブジェクトにのみアクセスできますそのために AWS Glue 接続で JDBC ユーザー名とパスワードを使用しますクローラは JDBC 接続を介してアクセスできるテーブルのみ作成できますクローラは JDBC URI を使用してデータベースエンジンにアクセスした後でインクルードパスを使用して Data Catalog で作成するデータベースエンジン内のテーブルを決定しますたとえば MySQL の場合 MyDatabase/% のインクルードパスを指定すると MyDatabase 内のすべてのテーブルが Data Catalog で作成されます Amazon Redshift にアクセスする場合 MyDatabase/% のインクルードパスを指定するとデータベース MyDatabase の各スキーマ内のすべてのテーブルが Data Catalog で作成されます MyDatabase/MySchema/% のインクルードパスを指定するとデータベース MyDatabase のすべてのテーブルとスキーマ MySchema が作成されますインクルードパスの指定後に 1 つ以上の Unix 形式の glob 除外パターンを指定することでインクルードパスに含まれる予定であったオブジェクトをクロールから除外できます AWS Glue は除外パターンで次の種類の glob パターンをサポートしていますこれらのパターンはインクルードパスに適用されてどのオブジェクトを除外するか決定します除外パターン *.csv Description.csv で終わるオブジェクト名を表わす Amazon S3 パスと一致する 56

64 AWS Glue 開発者ガイド包含パターンと除外パターンを使用する除外パターン Description *.* ドットを含むオブジェクト名すべてと一致する *.{csv,avro} foo.? /myfolder/* /myfolder/*/* /myfolder/** Market*.csv か.avro で終わるオブジェクト名と一致する foo. で始まりその後に 1 文字の拡張子が続くオブジェクト名と一致する /myfolder/mysource など myfolder のサブフォルダの 1 つのレベルにあるオブジェクトと一致する /myfolder/mysource/data など myfolder のサブフォルダの 2 つのレベルにあるオブジェクトと一致する myfolder のすべてのサブフォルダにあるオブジェクト (/myfolder/mysource/mydata や / myfolder/mysource/data など ) と一致する JDBC データベースの Market で始まる名前のテーブル (Market_us や Market_fr など ) と一致する AWS Glue は glob 除外パターンを次のように解釈しますスラッシュ (/) 文字は Amazon S3 キーをフォルダ階層に区切る区切り記号ですアスタリスク (*) 記号はフォルダの境界を超えない 0 文字以上の名前の要素に相当します二重アスタリスク (**) はフォルダやスキーマの境界を越える 0 個以上の文字に相当します疑問符 (?) 記号は名前の要素のちょうど 1 文字に相当しますバックスラッシュ (\) 文字は本来ならば特殊文字として解釈される文字をエスケープ処理するために使用されます \\ 式はバックスラッシュ 1 つに相当し \{ は左括弧に相当します角括弧 ([ ]) は一連の文字の中から名前の要素の 1 文字に相当する角括弧式を作成しますたとえば [abc] は a b または c に一致しますハイフン (-) は範囲を指定するために使用されますつまり [a-z] は a から z ( この値を含みます ) までに相当する範囲を指定しますこれらのフォームは組み合わせることができますそのため [abce-g] は a b c e f または g に一致します角括弧 ([) の後の文字が感嘆符 (!) の場合角括弧式は否定の意味になりますたとえば [!a-c] は a b または c 以外のすべての文字に一致します角括弧式内では *? および \ 文字は文字通りの意味ですハイフン (-) 文字は角括弧内で最初の文字だった場合または式を否定する! の次の文字だった場合は文字通りの意味です中括弧 ({ }) はグループ内のサブパターンが一致する場合にグループが一致するサブパターンのグループを囲みますカンマ (,) 文字はサブパターンを分割するために使用されますグループはネストできませんファイル名の先頭のピリオドまたはドット文字はマッチ操作では通常の文字として扱われますたとえば * 除外パターンはファイル名.hidden に一致します Example Amazon S3 の除外パターン各除外パターンはインクルードパスに対して評価されますたとえば次の Amazon S3 ディレクトリ構造があるとします /mybucket/myfolder/ 57

65 AWS Glue 開発者ガイド包含パターンと除外パターンを使用する departments/ finance.json market-us.json market-emea.json market-ap.json employees/ hr.json john.csv jane.csv juan.txt インクルードパスが s3://mybucket/myfolder/ の場合以下は除外パターンのサンプル結果の一部です除外パターン departments/** departments/market* **.csv employees/*.csv 戻り値 departments フォルダ内のすべてのファイルとフォルダを除外し employees フォルダとそのファイルを含めます market-us.json market-emea.json および market-ap.json を除外します名前が.csv で終わる myfolder 以下のすべてのオブジェクトを除外します employees フォルダ内のすべての.csv ファイルを除外します Example Amazon S3 パーティションのサブセットの除外データを日別にパーティション分割して 1 年の日別に異なる Amazon S3 パーティションを使うとします 2015 年 1 月には 31 のパーティションがありますここで 1 月の第 1 週のみのデータをクロールするには 1 日 7 日を除くすべてのパーティションを除外する必要があります 2015/01/{[!0],0[8-9]}**, 2015/0[2-9]/**, 2015/1[0-2]/** この glob パターンの各パートを見てみます最初のパートは 2015/01/{[!0],0[8-9]}** で "0" で始まらないすべての日付および 2015 年 01 月の 08 日目および 09 日目を除外しています "**" を日数パターンのサフィックスとして使用すると下位レベルフォルダへのフォルダ境界を越えることに注意してください "*" を使用すると下位レベルフォルダは除外されます 2 番目のパートは 2015/0[2-9]/** で 2015 年 02 から 09 月までの日を除外します 3 番目のパートは 2015/1[0-2]/** で 2015 年月の日を除外します Example JDBC の除外パターン次のスキーマ構造を使用して JDBC データベースをクロールしているとします MyDatabase/MySchema/ HR_us HR_fr Employees_Table Finance 58

66 AWS Glue 開発者ガイドクローラを実行するとどうなるか Market_US_Table Market_EMEA_Table Market_AP_Table インクルードパスが MyDatabase/MySchema/% の場合以下は除外パターンのサンプル結果の一部です除外パターン HR* Market_* **_Table 戻り値 HR で始まる名前を持つテーブルを除外 Market_ で始まる名前を持つテーブルを除外 _Table で終わる名前を持つテーブルをすべて除外クローラを実行するとどうなるかクローラを実行するとクローラは以下のアクションを使用してデータストアを調査します生データの形式スキーマおよび関連プロパティを確認するためにデータを分類するカスタム分類子を作成して分類の結果を設定できますデータをテーブルまたはパーティションにグループ化するデータはクローラのヒューリスティックに基づいてグループ化されますメタデータを Data Catalog に書き込むクローラでテーブルやパーティションを追加更新削除する方法を設定できますクローラで作成するメタデータテーブルはクローラの定義時にデータベースに含まれますクローラがデータベースを定義しない場合テーブルはデフォルトのデータベースに配置されますさらに各テーブルには最初にデータストアの認識に成功した分類子により入力された分類子の列がありますクローラはリレーショナルデータベースとファイルのデータストアの両方を処理できますクロールするファイルが圧縮されている場合クローラはダウンロードして処理する必要がありますクローラを実行するとファイルを調査して形式と圧縮タイプを決定しこれらのプロパティを Data Catalog に書き込みます一部のファイル形式 (parquet など ) ではファイルの書き込み時にファイルのパートを圧縮できますこれらのファイルでは圧縮されたデータはファイルの内部コンポーネントであり AWS Glue はテーブルを Data Catalog 内に書き込むときに compressiontype プロパティを事前設定しません一方ファイル全体を圧縮アルゴリズム (gzip など ) で圧縮する場合はテーブルを Data Catalog 内に書き込むときに compressiontype プロパティが事前設定されますクローラは作成するテーブルの名前を生成します AWS Glue データカタログに保存されるテーブルの名前は以下のルールに従います英数字とアンダースコア (_) のみを使用できますカスタムプレフィックスは 64 文字より長くすることはできません名前の最大長は 128 文字より長くすることはできませんクローラは生成した名前が制限内に収まるように切り詰めます重複するテーブル名が発生した場合クローラは名前にハッシュ文字列のサフィックスを追加しますクローラが複数回実行される場合 ( おそらくスケジュールに基づいて ) データストア内の新規または変更されたファイルやテーブルが検索されますクローラの出力には前回の実行以降に検索された新しいテーブルが含まれています 59

67 AWS Glue 開発者ガイド Amazon S3 のフォルダはテーブルやパーティションとして作成されますか? Amazon S3 のフォルダはテーブルやパーティションとして作成されますか? AWS Glue クローラは Amazon S3 バケットをスキャンしてバケット内に複数のフォルダを検出するとフォルダ構造のテーブルのルートおよびどのフォルダがテーブルのパーティションであるかを確認しますテーブルの名前は Amazon S3 プレフィックスまたはフォルダ名に基づいていますクロールするフォルダレベルを指すインクルードパスはユーザーが指定しますフォルダレベルの大半のスキーマが類似している場合クローラは 2 つのテーブルを別個に作成せずにテーブルのパーティションを作成しますクローラで別個のテーブルを作成するにはクローラを定義するときに各テーブルのルートフォルダを別個のデータストアとして追加します次の Amazon S3 構造の例を示します s3://bucket01/folder1/table1/partition1/file.txt s3://bucket01/folder1/table1/partition2/file.txt s3://bucket01/folder1/table1/partition3/file.txt s3://bucket01/folder1/table2/partition4/file.txt s3://bucket01/folder1/table2/partition5/file.txt table1 と table2 のスキーマが類似しておりクローラに定義されているデータストアが 1 つでインクルードパスが s3://bucket01/folder1/ である場合クローラは 2 つのパーティション列を持つ 1 つのテーブルを作成します 1 つのパーティション列には table1 と table2 が入り別のパーティション列には partition1 partition5 が入ります 2 つの個別のテーブルを作成するには 2 つのデータストアを持つクローラを定義しますこの例では最初のインクルードパスを s3://bucket01/folder1/table1/ として定義し 2 番目を s3://bucket01/folder1/table2 として定義します Note Athena の場合各テーブルは Amazon S3 プレフィックス ( すべてのオブジェクトを含む ) に対応しますオブジェクト別にスキーマが異なる場合 Athena では同じプレフィックス内の異なるオブジェクトを別個のテーブルとして認識しませんこれはクローラで同じ Amazon S3 プレフィックスから複数のテーブルを作成する場合に発生することがありますその結果 Athena のクエリでゼロが返される場合があります Athena でテーブルを適切に認識してクエリを実行するには Amazon S3 フォルダ構造内の異なるテーブルスキーマごとに別個のインクルードパスを持つクローラを作成します詳細については Athena と AWS Glue を併用する際のベストプラクティスを参照してくださいクローラの設定クローラを実行するとデータストアの変更が検出される場合がありますこれらの変更に伴って以前のクローラとは異なるスキーマやパーティションが生じることがあります AWS マネジメントコンソールまたは AWS Glue API を使用して特定のタイプの変更をクローラで処理する方法を設定できますトピック AWS Glue コンソールでのクローラの設定 (p. 60) API を使用したクローラの設定 (p. 61) 既存のスキーマをクローラで変更しないための方法 (p. 63) AWS Glue コンソールでのクローラの設定 AWS Glue コンソールを使用してクローラを定義する場合クローラの動作を設定するためのオプションをいくつか使用できます AWS Glue コンソールを使用してクローラを追加する方法の詳細については AWS Glue コンソールでのクローラの使用 (p. 63) を参照してください 60

68 AWS Glue 開発者ガイドクローラの設定以前にクロールしたデータストアに対してクローラを実行するとデータストアでのスキーマの変更やオブジェクトの削除が検出される場合がありますクローラはスキーマの変更をログに記録しますスキーマの変更ポリシーにかかわらず常に新しいテーブルとパーティションが作成されますクローラがスキーマの変更を検出したときの動作を指定するにはコンソールで以下のいずれかのアクションを選択できます Data Catalog でテーブル定義を更新する AWS Glue データカタログで新しい列を追加し欠落している列を削除して既存の列の定義を変更しますクローラで設定されていないすべてのメタデータを削除しますこれがデフォルトの設定です新しい列のみを追加する Amazon S3 データストアにマッピングされるテーブルの場合検出した新しい列は追加されますが既存の列のタイプは Data Catalog で削除または変更されません Data Catalog の現在の列が正しくクローラで既存の列のタイプを削除または変更しない場合はこのオプションを選択します Amazon S3 の基本的なテーブル属性 ( 分類圧縮タイプ CSV 区切り記号など ) が変わった場合はテーブルを廃止としてマークします入力形式と出力形式を Data Catalog にあるがままに維持します SerDe パラメータはクローラで設定されたものである場合に限り更新します他のすべてのデータストアについては既存の列定義を変更します変更を無視し Data Catalog でテーブルを更新しない新規のパーティションや変更されたパーティションがクローラで検出される場合もありますデフォルトでは新規のパーティションは追加され既存の変更されたパーティションは更新されますさらに AWS Glue コンソールですべての新規および既存のパーティションを更新してテーブルのメタデータを反映するようにクローラの設定オプションを設定できますこのオプションを設定すると親テーブルのメタデータプロパティ ( 分類入力形式出力形式 SerDe 情報スキーマなど ) がパーティションに継承されますテーブルでの上記プロパティに対する変更はそのパーティションに伝播されますこの設定オプションを既存のクローラに設定すると既存のパーティションは次回クローラが実行されるときに親テーブルのプロパティと一致するよう更新されますデータストアで削除されたオブジェクトを検出したときのクローラの動作を指定するには以下のいずれかのアクションを選択しますテーブルを Data Catalog から削除する変更を無視し Data Catalog でテーブルを更新しないテーブルを Data Catalog で廃止としてマークするこれがデフォルトの設定です API を使用したクローラの設定 AWS Glue API を使用してクローラを定義する場合はいくつかのフィールドから選択してクローラを設定できますクローラ API の SchemaChangePolicy は変更されたスキーマや削除されたオブジェクトを検出したときのクローラの動作を決定しますクローラは実行時にスキーマの変更をログに記録しますクローラを実行するとスキーマの変更ポリシーにかかわらず常に新しいテーブルとパーティションが作成されます変更されたテーブルスキーマを検出したときのクローラの動作を決定するには SchemaChangePolicy 構造の UpdateBehavior フィールドで以下のいずれかのアクションを選択できます UPDATE_IN_DATABASE AWS Glue データカタログでテーブルを更新します新しい列を追加し欠落している列を削除して既存の列の定義を変更しますクローラで設定されていないすべてのメタデータを削除します LOG 変更を無視し Data Catalog でテーブルを更新しませんクローラ API の Configuration フィールドに指定されている JSON オブジェクトを使用して SchemaChangePolicy 構造を上書きすることもできますこの JSON オブジェクトに含まれているキー 61

69 AWS Glue 開発者ガイドクローラの設定と値のペアを使用して既存の列を更新しないで新規の列のみを追加するようにポリシーを設定できますたとえば次の JSON オブジェクトを文字列として指定します { } "Version": 1.0, "CrawlerOutput": { "Tables": { "AddOrUpdateBehavior": "MergeNewColumns" } } このオプションは AWS Glue コンソールの [Add new columns only] ( 新しい列のみを追加 ) オプションに対応しますこれにより Amazon S3 データストアをクロールした結果のテーブルの SchemaChangePolicy 構造のみが上書きされます Data Catalog にあるがまま ( 信頼できる情報源 ) にメタデータを維持する場合はこのオプションを選択します新しい列が検出されると追加されますこれにはネストされたデータ型も含まれますただし既存の列は削除されずそのタイプは変更されません Amazon S3 のテーブル属性が大幅に変わる場合はテーブルを廃止としてマークし互換性のない属性を解決する必要があるという警告をログに記録しますクローラが以前にクロールしたデータストアに対して実行される場合新規または変更されたパーティションが検出される場合がありますデフォルトでは変更が行われると新しいパーティションが追加され既存のパーティションは更新されますさらにクローラの設定オプションを InheritFromTable に設定できますこのオプションは AWS Glue コンソールの [Update all new and existing partitions with metadata from the table] ( すべての新規および既存のパーティションを更新してテーブルのメタデータを反映する ) オプションに対応しますこのオプションを設定すると親テーブルのメタデータプロパティ ( 分類入力形式出力形式 SerDe 情報スキーマなど ) がパーティションに継承されます親テーブルでのすべてのプロパティの変更はそのパーティションに伝播されますこの設定オプションを既存のクローラに設定すると既存のパーティションは次回クローラが実行されるときに親テーブルのプロパティと一致するよう更新されますこの動作はクローラ API の Configuration フィールドで設定しますたとえば次の JSON オブジェクトを文字列として指定します { } "Version": 1.0, "CrawlerOutput": { "Partitions": { "AddOrUpdateBehavior": "InheritFromTable" } } クローラ API の Configuration フィールドでは複数の設定オプションを設定できますたとえばパーティションとテーブルの両方のクローラ出力を設定するには次の JSON オブジェクトの文字列表現を指定できます { } "Version": 1.0, "CrawlerOutput": { "Partitions": { "AddOrUpdateBehavior": "InheritFromTable" }, "Tables": {"AddOrUpdateBehavior": "MergeNewColumns" } } データストアで削除されたオブジェクトを検出したときのクローラの動作を決定するには以下のいずれかのアクションを選択できますクローラ API の SchemaChangePolicy 構造の DeleteBehavior フィールドでは削除されたオブジェクトを検出したときのクローラの動作を設定します DELETE_FROM_DATABASE テーブルを Data Catalog から削除します LOG 変更を無視し Data Catalog でテーブルを更新しません 62

70 AWS Glue 開発者ガイドクローラのスケジュール DEPRECATE_IN_DATABASE テーブルを Data Catalog で廃止としてマークしますこれがデフォルトの設定です既存のスキーマをクローラで変更しないための方法 Amazon S3 テーブル定義の既存のフィールドに対する更新をクローラで上書きしない場合はコンソールでオプションとして [Add new columns only] ( 新しい列のみ追加 ) を選択するか設定オプションとして MergeNewColumns を設定しますこれはテーブルとパーティションに適用されます (Partitions.AddOrUpdateBehavior を InheritFromTable で上書きしていない場合 ) クローラの実行時にテーブルスキーマを一切変更しない場合はスキーマ変更ポリシーを LOG に設定します設定オプションによりテーブルから継承するようにパーティションスキーマを設定することもできますコンソールでクローラを設定する場合は以下のアクションを選択できます変更を無視し Data Catalog でテーブルを更新しないすべての新規および既存のパーティションを更新してテーブルのメタデータを反映する API を使用してクローラを設定する場合は以下のパラメータを設定します SchemaChangePolicy 構造の UpdateBehavior フィールドを LOG に設定しますクローラ API で次の JSON オブジェクトの文字列表現を使用して Configuration フィールドを設定します { } "Version": 1.0, "CrawlerOutput": { "Partitions": { "AddOrUpdateBehavior": "InheritFromTable" } } AWS Glue クローラのスケジュール AWS Glue クローラはオンデマンドでまたは定期的なスケジュールで実行できますクローラスケジュールは cron 形式で表すことができます詳細については Wikipedia の cron を参照してくださいスケジュールに基づいてクローラを作成する場合はクローラの実行頻度実行する曜日実行時間などの特定の制約を指定できますこれらの制約は cron に基づいていますクローラスケジュールを設定するときは cron の機能と制限を考慮する必要がありますたとえばクローラを毎月 31 日に実行することを選択する場合 31 日がない月もあることに注意してください cron を使用してジョブおよびクローラをスケジュールする方法の詳細についてはジョブとクローラの時間ベースのスケジュール (p. 136) を参照してください AWS Glue コンソールでのクローラの使用クローラはデータストアにアクセスしメタデータを抽出してテーブル定義を AWS Glue データカタログに作成します AWS Glue コンソールの [Crawlers] ( クローラ ) タブには作成したクローラがすべて一覧表示されますリストにはクローラの最後の実行のステータスとメトリクスが表示されますコンソールを使用してクローラを追加するには 63

71 AWS Glue 開発者ガイドコンソールでのクローラの使用 1. AWS マネジメントコンソールにサインインしてから AWS Glue コンソールを開きます [Crawlers] ( クローラ ) タブを選択します 2. [Add crawler] ( クローラの追加 ) を選択して [Add crawler] ( クローラの追加 ) ウィザードの手順に従います Note クローラの追加の詳細な手順については AWS Glue コンソール ( console.aws.amazon.com/glue/) のナビゲーションペインにある [Add crawler] ( クローラの追加 ) チュートリアルのリンクを参照してくださいまた [Add crawler] ( クローラの追加 ) ウィザードを使用して Amazon S3 データストアのアクセス権限を含むポリシーをアタッチする IAM ロールの作成と変更ができます Amazon S3 データストアではエクスクルードパターンはインクルードパスを基準とする相対パスです glob パターンの詳細についてはクロール可能なデータストア (p. 55) を参照してください JDBC データストアをクロールするときは接続が必要です詳細については AWS Glue コンソールでの接続の操作 (p. 82) を参照してくださいエクスクルードパスはインクルードパスを基準とする相対パスですたとえば JDBC データストア内のテーブルを除外するにはエクスクルードパスにテーブル名を入力しますクローラ結果の表示クローラの結果を表示するにはリストからクローラ名を探し [Logs] ( ログ ) リンクを選択しますこのリンクは CloudWatch Logs へつながっていて AWS Glue データカタログで作成されたテーブルの詳細と発生したエラーを確認できます CloudWatch コンソールでログの保持期間を管理できますデフォルトのログ保持期間は Never Expire です保持期間を変更する方法の詳細については CloudWatch Logs でログデータ保持を変更するを参照してくださいクローラの詳細を表示するにはリスト内のクローラ名を選択しますクローラの詳細には [Add crawler] ( クローラの追加 ) ウィザードを使用してクローラを作成したときに定義した情報が含まれますクローラの実行が完了したら [Tables] ( テーブル ) タブを選択して指定したデータベースにクローラにより作成されたテーブルを表示します Note クローラは定義する時に指定する [IAM role] (IAM ロール ) のアクセス権限があるものと想定していますこの IAM ロールにはデータストアからデータを抽出して Data Catalog に書き込むためのアクセス権限が必要です AWS Glue コンソールには AWS Glue プリンシパルサービスの信頼ポリシーがアタッチされた IAM ロールだけがリスト表示されていますコンソールからクローラがアクセスする Amazon S3 データストアにアクセスするための IAM ポリシーを持つ IAM ロールを作成できます AWS Glue のロール提供の詳細についてはアイデンティティベースのポリシー (IAM ポリシー ) を使用する (p. 38) を参照してくださいクローラの最後の実行に関する重要なプロパティやメトリクスを以下に示します名前クローラを作成する場合一意の名前を付ける必要がありますスケジュールクローラをオンデマンドで実行するかまたはスケジュールで頻度を選択できますクローラのスケジュールの詳細についてはクローラのスケジュール (p. 63) を参照してくださいステータスクローラには準備完了開始中停止中スケジュールありスケジュール停止などの状態があります実行中のクローラは開始中から停止中に向かって処理していきますクローラにアタッチされたスケジュールを再開または一時停止できます 64

72 AWS Glue 開発者ガイドデータカタログでのデータベースの定義ログクローラの最後の実行からの使用可能なログにリンクします最後の実行時間クローラを最後に実行した際に実行にかかった時間ランタイムの中央値クローラの作成時から実行にかかった中間の時間更新したテーブルクローラの最後の実行により更新された AWS Glue データカタログのテーブルの数追加したテーブルクローラの最後の実行により AWS Glue データカタログに追加されたテーブルの数データカタログでのデータベースの定義 AWS Glue データカタログでテーブルを定義するとデータベースに追加しますデータベースは AWS Glue でテーブルを整理するために使用されますクローラを使用してまたは AWS Glue コンソールを使用してテーブルを整理できますテーブルは一度に 1 つのデータベースでのみとなりますデータベースには数多くのさまざまなデータストアからのデータを定義するテーブルを含めることができますこのデータには Amazon Simple Storage Service (Amazon S3) のオブジェクトおよび Amazon Relational Database Service. のリレーショナルテーブルを含むことができます Note データベースを削除するとデータベース内のすべてのテーブルも削除されます AWS Glue コンソールを使用したデータベースの定義の詳細については AWS Glue コンソールでデータベースを使用する (p. 65) を参照してください AWS Glue コンソールでデータベースを使用する AWS Glue データカタログのデータベースはテーブルを保持するコンテナですデータベースを使用してテーブルを別々のカテゴリに整理しますデータベースはクローラを実行するか手動でテーブルを追加したときに作成されます AWS Glue コンソールのデータベースリストにはすべてのデータベースの説明が表示されますデータベースのリストを表示するには AWS マネジメントコンソールにサインインし console.aws.amazon.com/glue/ で AWS Glue コンソールを開きます [Databases] ( データベース ) を選択しリスト内のデータベース名を選択して詳細を表示します AWS Glue コンソールの [Databases] ( データベース ) タブからデータベースの追加編集削除ができます新しいデータベースを作成するには [Add database] ( データベースを追加 ) を選択し名前と説明を指定します Apache Hive などその他のメタデータストアとの互換性を考慮して名前は小文字に変換されます Note Amazon Athena からデータベースにアクセスする場合は英数字とアンダースコア文字のみを使用して名前を指定します詳細については Athena の名前に関するドキュメントを参照してくださいデータベースの説明を編集するにはデータベース名の横にあるチェックボックスをオンにし [Action] ( アクション ) [Edit database] ( データベースを編集 ) の順に選択します 65

73 AWS Glue 開発者ガイドクローラに分類子を追加するデータベースを削除するにはデータベース名の横にあるチェックボックスをオンにし [Action] ( アクション ) [Delete database] ( データベースを削除 ) の順に選択しますデータベースに含まれているテーブルのリストを表示するにはデータベース名の横にあるチェックボックスをオンにし [View tables] ( テーブルの表示 ) を選択しますクローラで書き込みが行われたデータベースを変更するにはクローラ定義を変更する必要があります詳細についてはクローラを使用してテーブルを分類する (p. 55) を参照してくださいクローラに分類子を追加する分類子はデータをデータストアに読み取りますデータの形式を認識するとスキーマが生成されます分類子も形式の認識がどれほど確実かを示す確信度数を返します AWS Glue では一連の組み込み分類子が用意されていますがカスタム分類子を作成することもできます AWS Glue はクローラ定義で指定した順序でカスタム分類子を最初に呼び出しますカスタム分類子から返された結果に応じて AWS Glue が組み込みの分類子を呼び出す場合もあります処理中に分類子が certainty=1.0 を返した場合正しいスキーマを 100% 確実に作成できることを示しています次に AWS Glue はその分類子の出力を使用します分類子が certainty=1.0 を返さない場合 AWS Glue は最も高い確実性を持つ分類子の出力を使用しますどの分類子からも 0.0 以上の確実性が返されない場合 AWS Glue は UNKNOWN のデフォルト分類文字列を返します分類子を使用するタイミングデータストアをクロールして AWS Glue データカタログでメタデータテーブルを定義する際に分類子を使用します順序が設定された一連の分類子を使用してクローラをセットアップできますクローラが分類子を呼び出す際分類子はデータが認識されるかどうかを判断します分類子でデータを認識できないか 100% 確実ではない場合クローラはリストにある次の分類子を呼び出してデータを認識できるかどうか判断します AWS Glue コンソールを使用して分類子を作成する方法の詳細については AWS Glue コンソールでの分類子の操作 (p. 79) を参照してくださいカスタム分類子分類子の出力にはファイルの分類や形式 ( たとえば json) およびファイルのスキーマを示す文字列が含まれますカスタム分類子の場合は分類子のタイプに基づいてスキーマを作成するためのロジックを定義します分類子のタイプには grok パターン XML タグおよび JSON パスに基づくスキーマの定義が含まれています分類子の定義を変更すると変更前の分類子を使用してクロールしたデータは再分類されませんクローラは以前にクロールしたデータを追跡します新しいデータは更新された分類子で分類されるためスキーマが更新される場合がありますデータのスキーマが更新された場合はクローラの実行時に分類子を更新してスキーマの変更を反映してくださいデータを再分類して不正な分類子を修正するには更新された分類子を使用して新しいクローラを作成します AWS Glue でカスタム分類子を作成する方法についてはカスタム分類子の書き込み (p. 69) を参照してください Note 組み込み分類子のいずれかでデータ形式が認識される場合カスタム分類子を作成する必要はありません 66

74 AWS Glue 開発者ガイド AWS Glue の組み込み分類子 AWS Glue の組み込み分類子 AWS Glue は JSON CSV ウェブログおよび多くのデータベースシステムを含むさまざまな形式の組み込み分類子を提供します AWS Glue が入力データ形式に適したカスタム分類子を 100% の確実度で検出できない場合次の表に示すような順番で組み込み分類子を呼び出します組み込み分類子は形式が一致するか (certainty=1.0) または一致しないか (certainty=0.0) どうかを示す結果を返します certainty=1.0 を持つ最初の分類子は Data Catalog での分類文字列とメタデータテーブルのスキーマを提供します分類子タイプ分類文字列コメント Apache Avro avro ファイルの先頭から読み取って形式を判断します Apache ORC orc ファイルのメタデータを読み取って形式を判断します Apache Parquet parquet ファイルの先頭から読み取って形式を判断します JSON json ファイルの先頭から読み取って形式を判断しますバイナリ JSON bson ファイルの先頭から読み取って形式を判断します XML xml ファイルの先頭から読み取って形式を判断します AWS Glue はドキュメントの XML タグに基づいてテーブルスキーマを判定しますカスタム XML を作成してドキュメントの行を指定するには XML カスタム分類子の書き込み (p. 73) を参照してください Ion ログ ion ファイルの先頭から読み取って形式を判断します Combined Apache ログ combined_apache grok パターンを通じてログ形式を判断します Apache ログ apache grok パターンを通じてログ形式を判断します Linux カーネルログ linux_kernel grok パターンを通じてログ形式を判断します Microsoft ログ microsoft_log grok パターンを通じてログ形式を判断します Ruby ログ ruby_logger ファイルの先頭から読み取って形式を判断します Squid 3.x ログ squid ファイルの先頭から読み取って形式を判断します Redis 監視ログ redismonlog ファイルの先頭から読み取って形式を判断します Redis ログ redislog ファイルの先頭から読み取って形式を判断します CSV csv 次の区切り記号をチェックしますカンマ (,) パイプ ( ) タブ (\t) セミコロン (;) および Ctrl-A (\u0001) Ctrl-A は Start Of Heading の Unicode 制御文字です Amazon Redshift redshift JDBC 接続を使用してメタデータをインポートします 67

75 AWS Glue 開発者ガイド AWS Glue の組み込み分類子分類子タイプ分類文字列コメント MySQL mysql JDBC 接続を使用してメタデータをインポートします PostgreSQL postgresql JDBC 接続を使用してメタデータをインポートします Oracle データベース oracle JDBC 接続を使用してメタデータをインポートします Microsoft SQL Server sqlserver JDBC 接続を使用してメタデータをインポートします以下の圧縮形式のファイルは分類できます ZIP ( アーカイブ形式としてではなく圧縮形式として ) BZIP GZIP LZ4 Snappy (Hadoop ネイティブ Snappy 形式としてではなく標準 Snappy 形式として ) 組み込みの CSV 分類子組み込みの CSV 分類子では CSV ファイルの内容を解析して AWS Glue テーブルのスキーマを判断しますこの分類子は以下の区切り記号を確認しますカンマ (,) パイプ ( ) タブ (\t) セミコロン (;) Ctrl-A (\u0001) Ctrl-A は Start Of Heading の Unicode 制御文字です CSV として分類されるためにはテーブルのスキーマに少なくとも 2 つのデータ列と 2 つのデータ行が必要です CSV 分類子ではいくつかのヒューリスティックを使用して特定のファイルにヘッダーがあるかどうかを判断します分類子で最初のデータ行にヘッダーを確認できない場合は列のヘッダーが col1 col2 col3 のように表示されます組み込みの CSV 分類子では以下のファイルの特性を評価することでヘッダーを推測するかどうかを決めますヘッダー候補の各列が STRING データ型として解析されます最後の列を除きヘッダー候補の列ごとに 150 文字未満のコンテンツがあります末尾の区切り記号を許可するにはファイル全体で最後の列を空にすることができますヘッダー候補の各列が AWS Glue の列名に関する regex 要件を満たす必要がありますヘッダー行はデータ行と十分に異なっている必要がありますこれを判断するには 1 つ以上の行が STRING 型以外として解析されることを確認しますすべての列が STRING 型である場合最初のデータ行は以降の行と十分に異なっていないためヘッダーとして使用できません 68

76 AWS Glue 開発者ガイドカスタム分類子の書き込み Note 組み込みの CSV 分類子で必要な AWS Glue テーブルが作成されない場合は以下のいずれかの代替方法を使用できます Data Catalog で列名を変更し SchemaChangePolicy を LOG に設定して将来のクローラ実行に関してパーティションの出力設定を InheritFromTable に設定しますデータを分類するためのカスタム grok 分類子を作成し必要な列を割り当てます組み込みの CSV 分類子では LazySimpleSerDe をシリアル化ライブラリとして参照するテーブルを作成しますこれは型の推定に適していますただし CSV データ内に引用符で囲まれた文字列がある場合はテーブル定義を編集して SerDe ライブラリを OpenCSVSerDe に変更します推定した型を STRING に調整し SchemaChangePolicy を LOG に設定して将来のクローラ実行に関してパーティションの出力設定を InheritFromTable に設定します SerDe ライブラリの詳細については Amazon Athena ユーザーガイドの SerDe リファレンスを参照してくださいカスタム分類子の書き込み AWS Glue で grok パターンまたは XML タグを使用してデータを分類するためのカスタム分類子を提供できますクローラがカスタム分類子を呼び出します分類子がデータを認識するとデータの分類とスキーマがクローラに返されます組み込みの分類子にデータが一致しない場合またはクローラにより作成されたテーブルをカスタマイズする場合はカスタム分類子を定義する必要があるかもしれません AWS Glue コンソールを使用して分類子を作成する方法の詳細については AWS Glue コンソールでの分類子の操作 (p. 79) を参照してください AWS Glue は組み込みの分類子の前に指定した順序でカスタム分類子を実行しますクローラがデータに一致する分類子を検出すると分類の文字列とスキーマが AWS Glue データカタログに書き込まれるテーブルの定義で使用されます Grok カスタム分類子の書き込み Grok は一致するパターンによりテキストデータを解析するために使用するツールです grok パターンは名前のついた一連の正規表現 (regex) で一度に 1 行のデータごとに一致させるために使用されます AWS Glue は grok パターンを使用してデータのスキーマを推測します grok パターンがデータと一致すると AWS Glue はそのパターンを使用してデータの構造を判断しフィールドにマッピングします AWS Glue は数多くの組み込みパターンを提供しますまたは独自のパターンを定義することもできます組み込みパターンとカスタム分類子の定義にあるカスタムパターンを使用して grok パターンを作成できます grok パターンをカスタマイズしてカスタムテキストファイル形式を分類できます grok パターンのコンポーネントの基本的な構文を以下に示します %{PATTERN:field-name} 名付けられた PATTERN に一致するデータはスキーマの field-name 列にデフォルトのデータ型 string でマッピングされます必要に応じてフィールドのデータ型は結果のスキーマの byte, boolean, double, short, int, long, or float にキャストできます %{PATTERN:field-name:data-type} たとえば num フィールドを int データ型にキャストするには以下のパターンを使用することができます %{NUMBER:num:int} 69

77 AWS Glue 開発者ガイドカスタム分類子の書き込みパターンは他のパターンで構成できますたとえば SYSLOG タイムスタンプのパターンを月日時間のパターン (Feb 1 06:25:43 など ) で定義できますこのデータの場合次のパターンを定義できます SYSLOGTIMESTAMP %{MONTH} +%{MONTHDAY} %{TIME} Note grok パターンは一度に 1 行ずつしか処理できません複数行のパターンはサポートされていませんまたパターン内の改行はサポートされていません AWS Glue のカスタム分類子の値 grok 分類子を定義する場合 AWS Glue に以下の値を指定しカスタム分類子を作成します名前分類分類子の名前分類されたデータの形式を説明するために記述されたテキスト文字列 ( 例 : special-logs) Grok パターンデータストアに適用される一連のパターンで一致があるかどうかを決定しますこれらのパターンは AWS Glue の組み込み (p. 70) パターンと定義されたカスタムパターンによるものです grok パターンのシンプルな例を次に示します %{TIMESTAMP_ISO8601:timestamp} \[%{MESSAGEPREFIX:message_prefix}\] %{CRAWLERLOGLEVEL:loglevel} : %{GREEDYDATA:message} データが TIMESTAMP_ISO8601 と一致するとスキーマの列 timestamp が作成されます動作は例にある他の名前付きパターンに似ていますカスタムパターン独自に定義するオプションのカスタムパターンこれらのパターンはデータを分類する grok パターンにより参照されますデータに適用される grok パターンでこれらのカスタムパターンを参照できます各カスタムコンポーネントパターンは別々の行にある必要があります正規表現 (regex) 構文はパターンを定義するために使用されます以下はカスタムパターンを使用する例です CRAWLERLOGLEVEL (BENCHMARK ERROR WARN INFO TRACE) MESSAGEPREFIX.*-.*-.*-.*-.* 最初の名前付きカスタムパターンである CRAWLERLOGLEVEL は列挙された文字列の 1 つとデータが一致するときに一致となります 2 番目のカスタムパターン MESSAGEPREFIX はメッセージのプレフィックス文字列との一致を試みます AWS Glue は作成日時最終更新時間分類子のバージョンを追跡します AWS Glue 組み込みパターン AWS Glue はカスタム分類子を構築するために使用できる多くの一般的なパターンを提供します分類子の定義の grok pattern に名前付きパターンを追加します 70

78 AWS Glue 開発者ガイドカスタム分類子の書き込み次のリストは各パターンの行です各行でパターン名の後に定義があります正規表現 (regex) 構文はパターンを定義するために使用されます #AWS Glue Built-in patterns USERNAME [a-za-z0-9._-]+ USER %{USERNAME:UNWANTED} INT (?:[+-]?(?:[0-9]+)) BASE10NUM (?<![0-9.+-])(?>[+-]?(?:(?:[0-9]+(?:\.[0-9]+)?) (?:\.[0-9]+))) NUMBER (?:%{BASE10NUM:UNWANTED}) BASE16NUM (?<![0-9A-Fa-f])(?:[+-]?(?:0x)?(?:[0-9A-Fa-f]+)) BASE16FLOAT \b(?<![0-9a-fa-f.])(?:[+-]?(?:0x)?(?:(?:[0-9a-fa-f]+(?:\.[0-9a-fa-f]*)?) (?:\. [0-9A-Fa-f]+)))\b BOOLEAN (?i)(true false) POSINT \b(?:[1-9][0-9]*)\b NONNEGINT \b(?:[0-9]+)\b WORD \b\w+\b NOTSPACE \S+ SPACE \s* DATA.*? GREEDYDATA.* #QUOTEDSTRING (?:(?<!\\)(?:"(?:\\. [^\\"])*" (?:'(?:\\. [^\\'])*') (?:`(?:\\. [^\\`])*`))) QUOTEDSTRING (?>(?<!\\)(?>"(?>\\. [^\\"]+)+" "" (?>'(?>\\. [^\\']+)+') '' (?>`(?>\\. [^\ \`]+)+`) ``)) UUID [A-Fa-f0-9]{8}-(?:[A-Fa-f0-9]{4}-){3}[A-Fa-f0-9]{12} # Networking MAC (?:%{CISCOMAC:UNWANTED} %{WINDOWSMAC:UNWANTED} %{COMMONMAC:UNWANTED}) CISCOMAC (?:(?:[A-Fa-f0-9]{4}\.){2}[A-Fa-f0-9]{4}) WINDOWSMAC (?:(?:[A-Fa-f0-9]{2}-){5}[A-Fa-f0-9]{2}) COMMONMAC (?:(?:[A-Fa-f0-9]{2}:){5}[A-Fa-f0-9]{2}) IPV6 ((([0-9A-Fa-f]{1,4}:){7}([0-9A-Fa-f]{1,4} :)) (([0-9A-Fa-f]{1,4}:){6}(:[0-9A-Faf]{1,4} ((25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)(\.(25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)){3}) :)) (([0-9A-Fa-f]{1,4}:){5}(((:[0-9A-Fa-f]{1,4}){1,2}) :((25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)(\. (25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)){3}) :)) (([0-9A-Fa-f]{1,4}:){4}(((:[0-9A-Fa-f]{1,4}) {1,3}) ((:[0-9A-Fa-f]{1,4})?:((25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)(\.(25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)){3})) :)) (([0-9A-Fa-f]{1,4}:){3}(((:[0-9A-Fa-f]{1,4}){1,4}) ((:[0-9A-Fa-f]{1,4}) {0,2}:((25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)(\.(25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)){3})) :)) (([0-9A-Fa-f]{1,4}:){2}(((:[0-9A-Fa-f]{1,4}){1,5}) ((:[0-9A-Fa-f]{1,4}){0,3}:((25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)(\.(25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)){3})) :)) (([0-9A-Fa-f]{1,4}:) {1}(((:[0-9A-Fa-f]{1,4}){1,6}) ((:[0-9A-Fa-f]{1,4}){0,4}:((25[0-5] 2[0-4]\d 1\d\d [1-9]? \d)(\.(25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)){3})) :)) (:(((:[0-9A-Fa-f]{1,4}){1,7}) ((:[0-9A- Fa-f]{1,4}){0,5}:((25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)(\.(25[0-5] 2[0-4]\d 1\d\d [1-9]?\d)) {3})) :)))(%.+)? IPV4 (?<![0-9])(?:(?:25[0-5] 2[0-4][0-9] [0-1]?[0-9]{1,2})[.](?:25[0-5] 2[0-4][0-9] [0-1]? [0-9]{1,2})[.](?:25[0-5] 2[0-4][0-9] [0-1]?[0-9]{1,2})[.](?:25[0-5] 2[0-4][0-9] [0-1]?[0-9] {1,2}))(?![0-9]) IP (?:%{IPV6:UNWANTED} %{IPV4:UNWANTED}) HOSTNAME \b(?:[0-9a-za-z][0-9a-za-z-_]{0,62})(?:\.(?:[0-9a-za-z][0-9a-za-z-_] {0,62}))*(\.? \b) HOST %{HOSTNAME:UNWANTED} IPORHOST (?:%{HOSTNAME:UNWANTED} %{IP:UNWANTED}) HOSTPORT (?:%{IPORHOST}:%{POSINT:PORT}) # paths PATH (?:%{UNIXPATH} %{WINPATH}) UNIXPATH (?>/(?>[\w_%!$@:.,~-]+ \\.)*)+ #UNIXPATH (?<![\w\/])(?:/[^\/\s?*]*)+ TTY (?:/dev/(pts tty([pq])?)(\w+)?/?(?:[0-9]+)) WINPATH (?>[A-Za-z]+: \\)(?:\\[^\\?*]*)+ URIPROTO [A-Za-z]+(\+[A-Za-z+]+)? URIHOST %{IPORHOST}(?::%{POSINT:port})? # uripath comes loosely from RFC1738, but mostly from what Firefox # doesn't turn into %XX URIPATH (?:/[A-Za-z0-9$.+!*'(){},~:;=@#%_\-]*)+ 71

79 AWS Glue 開発者ガイドカスタム分類子の書き込み #URIPARAM \?(?:[A-Za-z0-9]+(?:=(?:[^&]*))?(?:&(?:[A-Za-z0-9]+(?:=(?:[^&]*))?)?)*)? URIPARAM \?[A-Za-z0-9$.+!*' URIPATHPARAM %{URIPATH}(?:%{URIPARAM})? URI # Months: January, Feb, 3, 03, 12, December MONTH \b(?:jan(?:uary)? Feb(?:ruary)? Mar(?:ch)? Apr(?:il)? May Jun(?:e)? Jul(?:y)? Aug(?:ust)? Sep(?:tember)? Oct(?:ober)? Nov(?:ember)? Dec(?:ember)?)\b MONTHNUM (?:0?[1-9] 1[0-2]) MONTHNUM2 (?:0[1-9] 1[0-2]) MONTHDAY (?:(?:0[1-9]) (?:[12][0-9]) (?:3[01]) [1-9]) # Days: Monday, Tue, Thu, etc... DAY (?:Mon(?:day)? Tue(?:sday)? Wed(?:nesday)? Thu(?:rsday)? Fri(?:day)? Sat(?:urday)? Sun(?:day)?) # Years? YEAR (?>\d\d){1,2} # Time: HH:MM:SS #TIME \d{2}:\d{2}(?::\d{2}(?:\.\d+)?)? # TIME %{POSINT<24}:%{POSINT<60}(?::%{POSINT<60}(?:\.%{POSINT})?)? HOUR (?:2[0123] [01]?[0-9]) MINUTE (?:[0-5][0-9]) # '60' is a leap second in most time standards and thus is valid. SECOND (?:(?:[0-5]?[0-9] 60)(?:[:.,][0-9]+)?) TIME (?!<[0-9])%{HOUR}:%{MINUTE}(?::%{SECOND})(?![0-9]) # datestamp is YYYY/MM/DD-HH:MM:SS.UUUU (or something like it) DATE_US %{MONTHNUM}[/-]%{MONTHDAY}[/-]%{YEAR} DATE_EU %{MONTHDAY}[./-]%{MONTHNUM}[./-]%{YEAR} DATESTAMP_US %{DATE_US}[- ]%{TIME} DATESTAMP_EU %{DATE_EU}[- ]%{TIME} ISO8601_TIMEZONE (?:Z [+-]%{HOUR}(?::?%{MINUTE})) ISO8601_SECOND (?:%{SECOND} 60) TIMESTAMP_ISO8601 %{YEAR}-%{MONTHNUM}-%{MONTHDAY}[T ]%{HOUR}:?%{MINUTE}(?::?%{SECOND})? %{ISO8601_TIMEZONE}? TZ (?:[PMCE][SD]T UTC) DATESTAMP_RFC822 %{DAY} %{MONTH} %{MONTHDAY} %{YEAR} %{TIME} %{TZ} DATESTAMP_RFC2822 %{DAY}, %{MONTHDAY} %{MONTH} %{YEAR} %{TIME} %{ISO8601_TIMEZONE} DATESTAMP_OTHER %{DAY} %{MONTH} %{MONTHDAY} %{TIME} %{TZ} %{YEAR} DATESTAMP_EVENTLOG %{YEAR}%{MONTHNUM2}%{MONTHDAY}%{HOUR}%{MINUTE}%{SECOND} CISCOTIMESTAMP %{MONTH} %{MONTHDAY} %{TIME} # Syslog Dates: Month Day HH:MM:SS SYSLOGTIMESTAMP %{MONTH} +%{MONTHDAY} %{TIME} PROG (?:[\w._/%-]+) SYSLOGPROG %{PROG:program}(?:\[%{POSINT:pid}\])? SYSLOGHOST %{IPORHOST} SYSLOGFACILITY <%{NONNEGINT:facility}.%{NONNEGINT:priority}> HTTPDATE %{MONTHDAY}/%{MONTH}/%{YEAR}:%{TIME} %{INT} # Shortcuts QS %{QUOTEDSTRING:UNWANTED} # Log formats SYSLOGBASE %{SYSLOGTIMESTAMP:timestamp} (?:%{SYSLOGFACILITY} )?%{SYSLOGHOST:logsource} %{SYSLOGPROG}: MESSAGESLOG %{SYSLOGBASE} %{DATA} COMMONAPACHELOG %{IPORHOST:clientip} %{USER:ident} %{USER:auth} \[%{HTTPDATE:timestamp}\] "(?:%{WORD:verb} %{NOTSPACE:request}(?: HTTP/%{NUMBER:httpversion})? %{DATA:rawrequest})" %{NUMBER:response} (?:%{Bytes:bytes=%{NUMBER} -}) COMBINEDAPACHELOG %{COMMONAPACHELOG} %{QS:referrer} %{QS:agent} COMMONAPACHELOG_DATATYPED %{IPORHOST:clientip} %{USER:ident;boolean} %{USER:auth} \[%{HTTPDATE:timestamp;date;dd/MMM/yyyy:HH:mm:ss Z}\] "(?:%{WORD:verb;string} 72

80 AWS Glue 開発者ガイドカスタム分類子の書き込み %{NOTSPACE:request}(?: HTTP/%{NUMBER:httpversion;float})? %{DATA:rawrequest})" %{NUMBER:response;int} (?:%{NUMBER:bytes;long} -) # Log Levels LOGLEVEL ([A a]lert ALERT [T t]race TRACE [D d]ebug DEBUG [N n]otice NOTICE [I i]nfo INFO [W w]arn?(?:ing)? WARN?(?:ING)? [E e]rr?(?:or)? ERR?(?:OR)? [C c]rit?(?:ical)? CRIT? (?:ICAL)? [F f]atal FATAL [S s]evere SEVERE EMERG(?:ENCY)? [Ee]merg(?:ency)?) XML カスタム分類子の書き込み XML (Extensible Markup Language) はファイル内のタグを使用してドキュメントの構造を定義します XML カスタム分類子で行の定義に使用されるタグ名を指定できます AWS Glue のカスタム分類子の値 XML 分類子を定義する場合 AWS Glue に以下の値を指定し分類子を作成しますこの分類子の分類フィールドは xml に設定してあります名前行タグ分類子の名前 XML ドキュメントでテーブル行を定義する XML タグ名山括弧 < > なし名前は XML タグ規則に沿って命名する必要があります Note 行データを含む要素は自動で閉じる空の要素にすることはできませんたとえば次の空の要素は AWS Glue によって解析されません <row att1= xx att2= yy /> 空の要素は次のように記述できます <row att1= xx att2= yy > </row> AWS Glue は作成日時最終更新時間分類子のバージョンを追跡しますたとえば次 XML ファイルがあるとします筆者と役職の列のみを含む AWS Glue テーブルを作成するには行タグとして AnyCompany を使用し AWS Glue コンソールで分類子を作成します次にこのカスタム分類子を使用するクローラを追加して実行します <?xml version="1.0"?> <catalog> <book id="bk101"> <AnyCompany> <author>rivera, Martha</author> <title>anycompany Developer Guide</title> </AnyCompany> </book> 73

81 AWS Glue 開発者ガイドカスタム分類子の書き込み <book id="bk102"> <AnyCompany> <author>stiles, John</author> <title>style Guide for AnyCompany</title> </AnyCompany> </book> </catalog> JSON カスタム分類子の書き込み JSON (JavaScript Object Notation) はデータ交換形式です名前と値のペアまたは順序付きの値のリストでデータ構造を定義します JSON カスタム分類子ではデータ構造への JSON パスを指定しそれを使用してテーブルのスキーマを定義できます AWS Glue のカスタム分類子の値 JSON 分類子を定義する場合 AWS Glue に以下の値を指定し分類子を作成しますこの分類子の分類フィールドは json に設定してあります名前分類子の名前 JSON パステーブルスキーマを定義するために使用されるオブジェクトを指す JSON パス JSON パスはドット表記またはブラケット表記で記述できます以下の演算子がサポートされています演説明算子 $JSON オブジェクトのルート要素すべてのパス式はこれで始まります * ワイルドカード文字 JSON パスで名前または数値が必要な箇所でいつでも使用可能.<name> ドット表記の子 JSON オブジェクトの子フィールドを指定します ['<name>'] ブラケット表記の子 JSON オブジェクトの子フィールドを指定します [<number>] 配列インデックスインデックスにより配列の値を指定します AWS Glue は作成日時最終更新時間分類子のバージョンを追跡します Example JSON 分類子を使用して配列からレコードをプルする JSON データがレコードの配列だとしますたとえばファイルの最初の数行は次のようになります [ { "type": "constituency", "id": "ocd-division\/country:us\/state:ak", "name": "Alaska" }, { "type": "constituency", "id": "ocd-division\/country:us\/state:al\/cd:1", "name": "Alabama's 1st congressional district" 74

82 AWS Glue 開発者ガイドカスタム分類子の書き込み ] }, { "type": "constituency", "id": "ocd-division\/country:us\/state:al\/cd:2", "name": "Alabama's 2nd congressional district" }, { "type": "constituency", "id": "ocd-division\/country:us\/state:al\/cd:3", "name": "Alabama's 3rd congressional district" }, { "type": "constituency", "id": "ocd-division\/country:us\/state:al\/cd:4", "name": "Alabama's 4th congressional district" }, { "type": "constituency", "id": "ocd-division\/country:us\/state:al\/cd:5", "name": "Alabama's 5th congressional district" }, { "type": "constituency", "id": "ocd-division\/country:us\/state:al\/cd:6", "name": "Alabama's 6th congressional district" }, { "type": "constituency", "id": "ocd-division\/country:us\/state:al\/cd:7", "name": "Alabama's 7th congressional district" }, { "type": "constituency", "id": "ocd-division\/country:us\/state:ar\/cd:1", "name": "Arkansas's 1st congressional district" }, { "type": "constituency", "id": "ocd-division\/country:us\/state:ar\/cd:2", "name": "Arkansas's 2nd congressional district" }, { "type": "constituency", "id": "ocd-division\/country:us\/state:ar\/cd:3", "name": "Arkansas's 3rd congressional district" }, { "type": "constituency", "id": "ocd-division\/country:us\/state:ar\/cd:4", "name": "Arkansas's 4th congressional district" } 組み込み JSON 分類子を使用してクローラを実行する場合ファイル全体がスキーマを定義するために使用されます JSON パスを指定しないのでクローラはデータを 1 つのオブジェクトつまりただの配列として処理しますたとえばスキーマは次のようになります root -- record: array ただし JSON 配列の各レコードに基づいたスキーマを作成するにはカスタム JSON 分類子を作成し JSON パスを $[*] として指定しますこの JSON パスを指定すると分類子は配列内の 12 レコー 75

83 AWS Glue 開発者ガイドカスタム分類子の書き込みドすべてに問合せてスキーマを決定します結果のスキーマには各オブジェクトに次のような個別のフィールドが含まれています root -- type: string -- id: string -- name: string Example JSON 分類子を使用してファイルの一部を確認する JSON データがから取られた JSON ファイルの例 s3://awsgluedatasets/examples/us-legislators/all/areas.json のパターンと同様だとします JSON ファイル内のオブジェクトの例は次のようになります { } { "type": "constituency", "id": "ocd-division\/country:us\/state:ak", "name": "Alaska" "type": "constituency", "identifiers": [ { "scheme": "dmoz", "identifier": "Regional\/North_America\/United_States\/Alaska\/" }, { "scheme": "freebase", "identifier": "\/m\/0hjy" }, { "scheme": "fips", "identifier": "US02" }, { "scheme": "quora", "identifier": "Alaska-state" }, { "scheme": "britannica", "identifier": "place\/alaska" }, { "scheme": "wikidata", "identifier": "Q797" } ], "other_names": [ { "lang": "en", "note": "multilingual", "name": "Alaska" }, { "lang": "fr", "note": "multilingual", "name": "Alaska" }, { "lang": "nov", "note": "multilingual", 76

84 AWS Glue 開発者ガイドカスタム分類子の書き込み "name": "Alaska" } ], "id": "ocd-division\/country:us\/state:ak", "name": "Alaska" } 組み込み JSON 分類子を使用してクローラを実行する場合ファイル全体がスキーマを作成するために使用されます最終的に次のようなスキーマになります root -- type: string -- id: string -- name: string -- identifiers: array -- element: struct -- scheme: string -- identifier: string -- other_names: array -- element: struct -- lang: string -- note: string -- name: string ただし id オブジェクトだけを使用してスキーマを作成するにはカスタム JSON 分類子を作成し JSON パスを $.id と指定しますその後スキーマは id フィールドのみに基づくものとなります root -- record: string このスキーマで抽出されたデータの最初の数行は次のようになります {"record": "ocd-division/country:us/state:ak"} {"record": "ocd-division/country:us/state:al/cd:1"} {"record": "ocd-division/country:us/state:al/cd:2"} {"record": "ocd-division/country:us/state:al/cd:3"} {"record": "ocd-division/country:us/state:al/cd:4"} {"record": "ocd-division/country:us/state:al/cd:5"} {"record": "ocd-division/country:us/state:al/cd:6"} {"record": "ocd-division/country:us/state:al/cd:7"} {"record": "ocd-division/country:us/state:ar/cd:1"} {"record": "ocd-division/country:us/state:ar/cd:2"} {"record": "ocd-division/country:us/state:ar/cd:3"} {"record": "ocd-division/country:us/state:ar/cd:4"} {"record": "ocd-division/country:us/state:as"} {"record": "ocd-division/country:us/state:az/cd:1"} {"record": "ocd-division/country:us/state:az/cd:2"} {"record": "ocd-division/country:us/state:az/cd:3"} {"record": "ocd-division/country:us/state:az/cd:4"} {"record": "ocd-division/country:us/state:az/cd:5"} {"record": "ocd-division/country:us/state:az/cd:6"} {"record": "ocd-division/country:us/state:az/cd:7"} JSON ファイルの identifier のように深くネストされたオブジェクトに基づいてスキーマを作成するにはカスタム JSON 分類子を作成して JSON パスを $.identifiers[*].identifier と指定しま 77

85 AWS Glue 開発者ガイドカスタム分類子の書き込みすスキーマは前の例ととても似ていますが JSON ファイル内の別のオブジェクトに基づいていますスキーマは次のようになります root -- record: string テーブルからのデータの最初の数行のリストにはスキーマが identifier オブジェクトのデータに基づくものであることが示されます {"record": "Regional/North_America/United_States/Alaska/"} {"record": "/m/0hjy"} {"record": "US02"} {"record": " "} {"record": " "} {"record": "destination/alaska"} {"record": " "} {"record": " "} {"record": "n "} {"record": " dec eef6e80fadc3"} {"record": "Alaska-state"} {"record": "place/alaska"} {"record": "Q797"} {"record": "Regional/North_America/United_States/Alabama/"} {"record": "/m/0gyh"} {"record": "US01"} {"record": " "} {"record": " "} {"record": "161950"} {"record": " "} JSON ファイルの other_names 配列の name フィールドのように別の深くネストされたオブジェクトに基づいてテーブルを作成するにはカスタム JSON 分類子を作成して JSON パスを $.other_names[*].name と指定しますスキーマは前の例ととても似ていますが JSON ファイル内の別のオブジェクトに基づいていますスキーマは次のようになります root -- record: string テーブルのデータの最初の数行のリストには other_names 配列の name オブジェクトのデータに基づくものであることが示されます {"record": "Alaska"} {"record": "Alaska"} {"record": "######"} {"record": "Alaska"} {"record": "Alaska"} {"record": "Alaska"} {"record": "Alaska"} {"record": "Alaska"} {"record": "Alaska"} {"record": "######"} {"record": "######"} {"record": "######"} {"record": "Alaska"} {"record": "Alyaska"} {"record": "Alaska"} {"record": "Alaska"} 78

86 AWS Glue 開発者ガイドコンソールでの分類子の操作 {"record": "#### ######"} {"record": "######"} {"record": "Alaska"} {"record": "#######"} AWS Glue コンソールでの分類子の操作分類子はデータのスキーマを決定しますカスタムの分類子を記述し AWS Glue から指定します作成したすべての分類子のリストを表示するにはで AWS Glue コンソールを開き [Classifiers] ( 分類子 ) タブを選択しますリストには各分類子に関する次のプロパティが表示されます分類子分類分類子名分類子を作成するときはその名前を指定する必要がありますこの分類子によって推測されたテーブルの分類タイプ最終更新分類子が最後に更新された時刻 AWS Glue コンソールの [Classifiers] ( 分類子 ) リストから分類子の追加編集削除ができます分類子の詳細を表示するにはリスト内の分類子名を選択します詳細には分類子を作成したときに定義した情報が含まれます AWS Glue コンソールに分類子を追加するには [Add classifier] ( 分類子を追加 ) を選択します分類子を定義する場合以下の値を指定します分類子名分類分類子の一意の名前を指定します grok 分類子の場合は分類されたデータの形式または種類を記述またはカスタムラベルを指定します Grok パターン grok 分類子ではこれを使用してデータを構造化スキーマに解析します grok パターンはデータストアの形式を記述する名前付きパターンで構成されていますこの grok パターンは AWS Glue によって提供された名前付きの組み込みパターンと [Custom patterns] ( カスタムパターン ) フィールドに書き込み含まれるカスタムパターンを使用して書き込みます grok デバッガーの結果は AWS Glue の結果と正確には一致しませんが grok デバッガーでサンプルデータを使用してパターンを試すことをお勧めしますウェブ上で grok デバッガーを見つけることができます AWS Glue によって提供される名前付き組み込みパターンは一般にウェブ上で利用可能な grok パターンと互換性があります名前付きパターンを反復的に追加して grok パターンを作成しデバッガーで結果を確認しますこのアクティビティを使用すると AWS Glue クローラが grok パターンを実行するときにデータを解析できるという確信が得られますカスタムパターン grok 分類子の場合これらは記述した [Grok pattern] (Grok パターン ) のオプションの構成要素です組み込みのパターンでデータを解析できない場合はカスタムパターンを記述する必要がありますこれらのカスタムパターンはこのフィールドで定義され [Grok pattern] (Grok パターン ) フィー 79

87 AWS Glue 開発者ガイドデータストアに接続を追加するルドで参照されます各カスタムパターンは個別の行に定義されています組込みパターンと同様に [regular expression (regex)] ( 正規表現 ) 構文を使用する名前付きパターン定義で構成されていますたとえば次の MESSAGEPREFIX という名前はその後に正規表現の定義が続いてデータに適用されパターンに従っているかどうかが判断されます MESSAGEPREFIX.*-.*-.*-.*-.* 行タグ XML 分類子ではこれは XML 文書のテーブル行を定義する XML タグの名前です山括弧 < > を付けずに名前を入力します名前は XML タグ規則に沿って命名する必要があります JSON パス JSON 分類子の場合これは作成するテーブルの行を定義するオブジェクト配列または値への JSON パスです名前をドットで入力するか AWS Glue でサポートされる演算子を使用して JSON 構文を括弧で囲んでください詳細については JSON カスタム分類子の書き込み (p. 74) の演算子のリストを参照してください詳細についてはカスタム分類子の書き込み (p. 69) を参照してくださいデータストアに接続を追加する接続はクローラとジョブが AWS Glue で特定のタイプのデータストアにアクセスするために使用されます AWS Glue コンソールを使用して接続を追加する方法の詳細については AWS Glue コンソールでの接続の操作 (p. 82) を参照してください接続が使用されるタイミングデータストアで必要とされる場合接続はデータストアをクロールして AWS Glue データカタログでメタデータを分類するときに使用されます接続はデータストアをソースまたはターゲットとして使用するジョブでも使用されます AWS Glue データカタログで接続を定義するデータストアの種類によってはデータにアクセスするために追加の接続情報が必要になりますこの情報には追加のユーザー名とパスワード (AWS 認証情報とは異なる ) またはデータストアに接続するために必要なその他の情報が含まれる場合があります AWS Glue が JDBC データストアに接続した後操作を実行するためにデータストアからのアクセス権限が必要になります接続の際に提供するユーザー名は必要なアクセス権限または特権を持っている必要がありますたとえばクローラが JDBC データストアからメタデータを取得するには SELECT 権限が必要です同様に JDBC ターゲットへの書き込みを行うジョブには既存のテーブルにデータを INSERT UPDATE および DELETE する権限が必要です JDBC プロトコルを使用すると AWS Glue は以下のデータストアに接続できます Amazon Redshift Amazon Relational Database Service Amazon Aurora MariaDB 80

88 AWS Glue 開発者ガイド VPC の JDBC データストアに接続する Microsoft SQL Server MySQL Oracle PostgreSQL パブリックにアクセス可能なデータベース Amazon Aurora MariaDB Microsoft SQL Server MySQL Oracle PostgreSQL 通常 Amazon S3 に接続は必要ありませんただし Virtual Private Cloud (VPC) 内から Amazon S3 にアクセスする場合 Amazon S3 VPC エンドポイントが必要です詳細については Amazon S3 における Amazon VPC エンドポイント (p. 25) を参照してください接続情報でデータが VPC を通してアクセスされているかどうかも検討しそれに応じてネットワークパラメータを設定する必要があります VPC の JDBC データストアに接続する通常パブリックインターネットを通じてアクセスできないようにリソースは Amazon Virtual Private Cloud (Amazon VPC) 内に作成しますデフォルトでは AWS Glue から VPC のリソースにアクセスすることはできません AWS Glue が VPC 内のリソースにアクセスできるようにするには VPC サブネット ID やセキュリティグループ ID など追加の VPC 固有設定情報を指定する必要があります AWS Glue はこの情報を関数がプライベート VPC 内の他のリソースに安全に接続できる Elastic Network Interface のセットアップに使用します Elastic Network Interface を使用して VPC データにアクセスする AWS Glue が VPC 内の JDBC データストアに接続する場合 AWS Glue は VPC データにアクセスするためにアカウントに Elastic Network Interface ( プレフィックス Glue_) を作成します AWS Glue にアタッチされている限りこのネットワークインターフェースを削除することはできません Elastic Network Interface 作成の一部として AWS Glue はこれに 1 つ以上のセキュリティグループを関連付けます AWS Glue がネットワークインターフェイスを作成できるようにするにはリソースに関連付けられているセキュリティグループがソースルールを使用したインバウンドアクセスを許可する必要がありますこのルールにはリソースに関連付けられたセキュリティグループが含まれていますこれにより Elastic Network Interface は同じセキュリティグループを持つデータストアにアクセスできるようになります AWS Glue がコンポーネントと通信できるようにするにはすべての TCP ポートに対して自己参照のインバウンドルールを持つセキュリティグループを指定します自己参照ルールを作成することでソースをすべてのネットワークではなく VPC 内の同じセキュリティグループに制限することができます VPC のデフォルトのセキュリティグループにはすでに ALL Traffic の自己参照インバウンドルールがある場合があります Amazon VPC コンソールでルールを作成します AWS マネジメントコンソールを介してルールの設定を更新するには VPC コンソール ( に移動し適切なセキュリティグループを選択します ALL TCP のインバウンドルールを指定して同じセキュリティグループ名をソースとして指定しますセキュリティグループルールの詳細については VPC のセキュリティグループを参照してくださいそれぞれの Elastic Network Interface には指定したサブネット内の IP アドレス範囲からプライベート IP アドレスが割り当てられますネットワークインターフェイスにパブリック IP アドレスが割り当てら 81

89 AWS Glue 開発者ガイドコンソールでの接続の操作れることはありません AWS Glue にはインターネットアクセスが必要です ( たとえば VPC エンドポイントのない AWS サービスにアクセスする場合など ) ネットワークアドレス変換 (NAT) インスタンスを VPC 内で設定するかまたは Amazon VPC NAT ゲートウェイを使用することができます詳細については Amazon VPC ユーザーガイドの NAT ゲートウェイを参照してくださいネットワークインターフェースにはパブリック IP アドレスが必要なため VPC にアタッチされたインターネットゲートウェイをサブネットルートテーブルのルートとして直接使用することはできません VPC ネットワーク属性の enablednshostnames および enablednssupport を true に設定する必要があります詳細については Using DNS with Your VPC を参照してください Important インターネットアクセスのないパブリックサブネットまたはプライベートサブネットにデータストアを配置しないでください代わりに NAT インスタンスまたは Amazon VPC NAT ゲートウェイを介してインターネットアクセスのあるプライベートサブネットにのみ添付してください Elastic Network Interface プロパティ Elastic Network Interface を作成するには次のプロパティを指定する必要があります VPC データストアを含む VPC 名サブネットデータストアを含む VPC 内のサブネットセキュリティグループデータストアに関連付けられているセキュリティグループ AWS Glue は VPC サブネットにアタッチされている Elastic Network Interface にこれらのセキュリティグループを関連付けます AWS Glue コンポーネントの通信を可能にし他のネットワークからのアクセスを禁止するには少なくとも 1 つの選択されたセキュリティグループにおいてすべての TCP ポートの自己参照のインバウンドルールを指定する必要があります Amazon Redshift で VPC を管理する方法については Amazon Virtual Private Cloud (VPC) でクラスターを管理するを参照してください Amazon RDS で VPC を管理する方法については VPC 内の Amazon RDS DB インスタンスの使用を参照してください AWS Glue コンソールでの接続の操作接続にはデータストアにアクセスするために必要なプロパティが含まれています作成したすべての接続のリストを表示するにはで AWS Glue コンソールを開き [Connections] ( 接続 ) タブを選択します [Connections] ( 接続 ) リストには各接続に関する次のプロパティが表示されます名前タイプ接続を作成する場合一意の名前を付ける必要があります接続に成功するために必要なデータストアのタイプとプロパティ AWS Glue では JDBC プロトコルを使用していくつかのタイプのデータストアにアクセスできます 82

90 AWS Glue 開発者ガイドコンソールでの接続の操作作成日接続が作成された日時 (UTC) 最終更新接続が最後に更新された日時 (UTC) 更新者接続を作成または最後に更新したユーザー AWS Glue コンソールの [Connections] ( 接続 ) タブから接続の追加編集削除ができます接続の詳細を表示するにはリスト内の接続名を選択します詳細には接続の作成時に定義した情報が含まれますベストプラクティスとして ETL ジョブのデータストア接続を使用する前に [Test connection] ( 接続のテスト ) を選択します AWS Glue は接続のパラメータを使用してデータストアにアクセスしてエラーを報告できることを確認します Amazon Redshift Amazon Relational Database Service (Amazon RDS) JDBC データストアには接続が必要です詳細については VPC の JDBC データストアに接続する (p. 81) を参照してください Important 現在 ETL ジョブは 1 つの JDBC 接続のみを使用します 1 つのジョブに複数のデータストアがある場合は同じサブネットにある必要がありますデータストアに JDBC 接続を追加する AWS Glue コンソールに接続を追加するには [Add connection] ( 接続を追加 ) を選択しますウィザードではデータストアへの JDBC 接続を作成するために必要なプロパティの追加について説明します Amazon Redshift または Amazon RDS を選択すると AWS Glue は基盤となる JDBC プロパティを決定して接続を作成しようとします接続を定義する場合は次のプロパティの値が必要です接続名接続の一意の名前を入力します接続タイプ Amazon Redshift Amazon RDS または JDBC のいずれかを選択します Amazon Redshift を選択した場合はアカウントで [Cluster] ( クラスター ) [Database name] ( データベース名 ) [Username] ( ユーザー名 ) および [Password] ( パスワード ) を選択し JDBC 接続を作成します Amazon RDS を選択した場合はアカウントで [Instance] ( インスタンス ) [Database name] ( データベース名 ) [Username] ( ユーザー名 ) および [Password] ( パスワード ) を選択し JDBC 接続を作成しますコンソールにはサポートされるデータベースエンジンタイプが一覧表示されます JDBC URL JDBC データストアの URL を入力しますほとんどのデータベースエンジンの場合このフィールドは次の形式になります jdbc:protocol://host:port/db_name データベースエンジンに応じて別の JDBC URL の形式が必要な場合がありますこの形式ではコロン (:) とスラッシュ (/) の使用方法が若干異なるかデータベースを指定するためのキーワードが異なる場合があります 83

91 AWS Glue 開発者ガイドコンソールでの接続の操作 JDBC をデータストアに接続するためにはデータストアの db_name が必要です db_name は指定された username と password を使用してネットワーク接続を確立するために使用されます接続すると AWS Glue はデータストア内の他のデータベースにアクセスしてクローラを実行したり ETL ジョブを実行したりできます次の JDBC URL の例はいくつかのデータベースエンジンの構文を示しています dev データベースを使用して Amazon Redshift クラスターデータストアに接続する jdbc:redshift://xxx.us-east-1.redshift.amazonaws.com:8192/dev employee データベースを使用して Amazon RDS for MySQL データストアに接続する jdbc:mysql://xxx-cluster.cluster-xxx.us-east-1.rds.amazonaws.com:3306/ employee employee データベースを使用して Amazon RDS for PostgreSQL データストアに接続する employee サービス名を使用して Amazon RDS for Oracle データストアに接続する Amazon RDSfor Oracle の構文は次のパターンに従います employee データベースを使用して Amazon RDS for Microsoft SQL Server データストアに接続するユーザー名 jdbc:postgresql://xxx-cluster.cluster-xxx.useast-1.rds.amazonaws.com:5432/employee jdbc:sqlserver://xxx-cluster.cluster-xxx.useast-1.rds.amazonaws.com:1433;database=employee Amazon RDS for SQL Server の構文は次のパターンに従います jdbc:sqlserver://server_name:port;database=db_name jdbc:sqlserver://server_name:port;databasename=db_name JDBC データストアにアクセスする権限を持つユーザー名を指定しますパスワード VPC JDBC データストアへのアクセス権を持つユーザー名のパスワードを入力しますデータストアを含む仮想プライベートクラウド (VPC) の名前を選択します AWS Glue コンソールには現在のリージョンの VPC がすべて表示されますサブネットデータストアを含む VPC 内のサブネットを選択します AWS Glue コンソールには VPC 内のデータストアのすべてのサブネットが一覧表示されますセキュリティグループデータストアに関連付けられているセキュリティグループを選択します AWS Glue には AWS Glue の接続を許可するインバウンドソースルールを持つ 1 つ以上のセキュリティグループが必要です AWS Glue コンソールには VPC へのインバウンドアクセスが許可されているすべてのセキュリティグループが一覧表示されます AWS Glue は VPC サブネットにアタッチされている Elastic Network Interface にこれらのセキュリティグループを関連付けます 84

92 AWS Glue 開発者ガイド AWS CloudFormation テンプレートを使用したデータカタログの事前設定 AWS CloudFormation テンプレートを使用したデータカタログの事前設定 AWS CloudFormation は多くの AWS リソースを作成できるサービスです AWS Glue には AWS Glue データカタログでオブジェクトを作成するための API オペレーションが用意されていますただし AWS Glue オブジェクトや他の関連する AWS リソースオブジェクトを AWS CloudFormation テンプレートファイルで定義して作成するほうが便利な場合がありますこの場合オブジェクトの作成プロセスを自動化できます AWS CloudFormation では簡略化された構文として JSON (JavaScript Object Notation) または YAML (YAML Ain't Markup Language) を使用し AWS リソースの作成を記述します AWS CloudFormation テンプレートを使用してデータベーステーブルパーティションクローラ分類子接続などの Data Catalog オブジェクトを定義できますジョブトリガー開発エンドポイントなどの ETL オブジェクトを定義することもできます必要なすべての AWS リソースを記述するテンプレートを作成するとこれらのリソースが AWS CloudFormation で自動的にプロビジョニングおよび設定されます詳細については AWS CloudFormation とはおよび AWS CloudFormation テンプレートの使用 (AWS CloudFormation ユーザーガイド ) を参照してください管理者として AWS Glue と互換性がある AWS CloudFormation テンプレートを使用する場合は依存する AWS CloudFormation および AWS のサービスとアクションにアクセス権を付与する必要があります AWS CloudFormation リソースを作成するアクセス権限を付与するには AWS CloudFormation を使用する IAM ユーザーに次のポリシーをアタッチします { } "Version": " ", "Statement": [ { "Effect": "Allow", "Action": [ "cloudformation:*" ], "Resource": "*" } ] 次の表は AWS CloudFormation テンプレートで自動的に実行できるアクションの一覧です AWS CloudFormation テンプレートに追加できる AWS リソースタイプやプロパティタイプに関する情報へのリンクが含まれています AWS Glue リソース AWS CloudFormation テンプレート AWS Glue サンプル分類子 AWS::Glue::Classifier Grok 分類子 (p. 90) Connection AWS::Glue::Connection MySQL 接続 (p. 92) クローラ AWS::Glue::Crawler Amazon S3 クローラ (p. 90) MySQL クローラ (p. 93) データベース AWS::Glue::Database 空のデータベース (p. 86) テーブルを含むデータベース (p. 87) 開発エンドポイント AWS::Glue::DevEndpoint 開発エンドポイント (p. 99) 85

93 AWS Glue 開発者ガイドサンプルデータベース AWS Glue リソース AWS CloudFormation テンプレート AWS Glue サンプルジョブ AWS::Glue::Job Amazon S3 ジョブ (p. 95) JDBC ジョブ (p. 96) パーティション AWS::Glue::Partition テーブルのパーティション (p. 87) テーブル AWS::Glue::Table データベース内のテーブル (p. 87) Trigger AWS::Glue::Trigger オンデマンドのトリガー (p. 97) スケジュールされたトリガー (p. 98) 条件付きトリガー (p. 98) 使用を開始するには以下のサンプルテンプレートを独自のメタデータを使用してカスタマイズします次に AWS CloudFormation コンソールを使用して AWS CloudFormation スタックを作成し AWS Glue および関連サービスにオブジェクトを追加します AWS Glue オブジェクトの多くのフィールドはオプションですこれらのテンプレートは必須フィールドを示しており AWS Glue オブジェクトの使用や機能に必要なものです AWS CloudFormation テンプレートは JSON 形式または YAML 形式のいずれかで使用できます以下の例では読みやすい YAML を使用しています各例にはテンプレートで定義されている値を説明するコメント (#) が含まれています AWS CloudFormation テンプレートには Parameters セクションを含めることができますこのセクションはサンプルテキストを編集して変更できますまたは YAML ファイルを AWS CloudFormation コンソールに送信してスタックを作成するときに変更できますテンプレートの Resources セクションには AWS Glue および関連オブジェクトの定義が含まれています AWS CloudFormation テンプレートの構文定義には詳細なプロパティ構文を含むプロパティが含まれている場合がありますすべてのプロパティが AWS Glue オブジェクトの作成に必要なわけではありません以下の例は AWS Glue オブジェクトを作成する場合の一般的なプロパティの値を示しています AWS Glue データベース用のサンプル AWS CloudFormation テンプレート Data Catalog の AWS Glue データベースにはメタデータテーブルが含まれていますこのデータベースは非常に少ないプロパティで構成され AWS CloudFormation テンプレートを使用して Data Catalog に作成できます次のサンプルテンプレートでは使用を開始する方法と AWS Glue での AWS CloudFormation スタックの使い方を示しますこのサンプルテンプレートで作成されるリソースは cfnmysampledatabase というデータベースのみですこのデータベースはサンプルのテキストを編集するか YAML の送信時に AWS CloudFormation コンソールで値を変更することで変更できます次に示すのは AWS Glue データベースを作成するための一般的なプロパティの値の例です AWS Glue 用の AWS CloudFormation データベーステンプレートの詳細については AWS::Glue::Database を参照してください --- AWSTemplateFormatVersion: ' ' # Sample CloudFormation template in YAML to demonstrate creating a database named mysampledatabase # The metadata created in the Data Catalog points to the flights public S3 bucket # 86

94 AWS Glue 開発者ガイドサンプルのデータベーステーブルパーティション # Parameters section contains names that are substituted in the Resources section # These parameters are the names the resources created in the Data Catalog Parameters: CFNDatabaseName: Type: String Default: cfn-mysampledatabse # Resources section defines metadata for the Data Catalog Resources: # Create an AWS Glue database CFNDatabaseFlights: Type: AWS::Glue::Database Properties: # The database is created in the Data Catalog for your account CatalogId:!Ref AWS::AccountId DatabaseInput: # The name of the database is defined in the Parameters section above Name:!Ref CFNDatabaseName Description: Database to hold tables for flights data LocationUri: s3://crawler-public-us-east-1/flight/2016/csv/ #Parameters: Leave AWS database parameters blank AWS Glue データベーステーブルおよびパーティション用のサンプル AWS CloudFormation テンプレート AWS Glue テーブルには ETL スクリプトで処理するデータの構造と場所を定義するメタデータが含まれていますテーブル内にデータを並列処理するためのパーティションを定義できますパーティションはキーを使用して定義したデータのチャンクですたとえばキーとして月を使用すると 1 月のすべてのデータが同じパーティションに含まれます AWS Glue ではデータベースにテーブルを含めテーブルにパーティションを含めることができます次のサンプルでは AWS CloudFormation テンプレートを使用してデータベーステーブルおよびパーティションを事前設定する方法を示します元のデータ形式は csv でありカンマ (,) で区切られていますテーブルを作成するには事前にデータベースが必要でありパーティションを作成するには事前にテーブルが必要であるためテンプレートでは DependsOn ステートメントを使用してこれらのオブジェクトの作成時に相互の依存関係を定義します次のサンプルの値では一般に利用可能な Amazon S3 バケットのフライトデータを含むテーブルを定義しますわかりやすくするためにデータのいくつかの列と 1 つのパーティションキーのみが定義されています 4 つのパーティションも Data Catalog に定義されています基本データのストレージを記述するいくつかのフィールドも StorageDescriptor フィールドに示されています --- AWSTemplateFormatVersion: ' ' # Sample CloudFormation template in YAML to demonstrate creating a database, a table, and partitions # The metadata created in the Data Catalog points to the flights public S3 bucket # # Parameters substituted in the Resources section # These parameters are names of the resources created in the Data Catalog Parameters: CFNDatabaseName: Type: String Default: cfn-database-flights-1 CFNTableName1: Type: String Default: cfn-manual-table-flights-1 # Resources to create metadata in the Data Catalog 87

95 AWS Glue 開発者ガイドサンプルのデータベーステーブルパーティション Resources: ### # Create an AWS Glue database CFNDatabaseFlights: Type: AWS::Glue::Database Properties: CatalogId:!Ref AWS::AccountId DatabaseInput: Name:!Ref CFNDatabaseName Description: Database to hold tables for flights data ### # Create an AWS Glue table CFNTableFlights: # Creating the table waits for the database to be created DependsOn: CFNDatabaseFlights Type: AWS::Glue::Table Properties: CatalogId:!Ref AWS::AccountId DatabaseName:!Ref CFNDatabaseName TableInput: Name:!Ref CFNTableName1 Description: Define the first few columns of the flights table TableType: EXTERNAL_TABLE Parameters: { "classification": "csv" } # ViewExpandedText: String PartitionKeys: # Data is partitioned by month - Name: mon Type: bigint StorageDescriptor: OutputFormat: org.apache.hadoop.hive.ql.io.hiveignorekeytextoutputformat Columns: - Name: year Type: bigint - Name: quarter Type: bigint - Name: month Type: bigint - Name: day_of_month Type: bigint InputFormat: org.apache.hadoop.mapred.textinputformat Location: s3://crawler-public-us-east-1/flight/2016/csv/ SerdeInfo: Parameters: field.delim: "," SerializationLibrary: org.apache.hadoop.hive.serde2.lazy.lazysimpleserde # Partition 1 # Create an AWS Glue partition CFNPartitionMon1: DependsOn: CFNTableFlights Type: AWS::Glue::Partition Properties: CatalogId:!Ref AWS::AccountId DatabaseName:!Ref CFNDatabaseName TableName:!Ref CFNTableName1 PartitionInput: Values: - 1 StorageDescriptor: OutputFormat: org.apache.hadoop.hive.ql.io.hiveignorekeytextoutputformat Columns: - Name: mon Type: bigint InputFormat: org.apache.hadoop.mapred.textinputformat 88

96 AWS Glue 開発者ガイドサンプルのデータベーステーブルパーティション Location: s3://crawler-public-us-east-1/flight/2016/csv/mon=1/ SerdeInfo: Parameters: field.delim: "," SerializationLibrary: org.apache.hadoop.hive.serde2.lazy.lazysimpleserde # Partition 2 # Create an AWS Glue partition CFNPartitionMon2: DependsOn: CFNTableFlights Type: AWS::Glue::Partition Properties: CatalogId:!Ref AWS::AccountId DatabaseName:!Ref CFNDatabaseName TableName:!Ref CFNTableName1 PartitionInput: Values: - 2 StorageDescriptor: OutputFormat: org.apache.hadoop.hive.ql.io.hiveignorekeytextoutputformat Columns: - Name: mon Type: bigint InputFormat: org.apache.hadoop.mapred.textinputformat Location: s3://crawler-public-us-east-1/flight/2016/csv/mon=2/ SerdeInfo: Parameters: field.delim: "," SerializationLibrary: org.apache.hadoop.hive.serde2.lazy.lazysimpleserde # Partition 3 # Create an AWS Glue partition CFNPartitionMon3: DependsOn: CFNTableFlights Type: AWS::Glue::Partition Properties: CatalogId:!Ref AWS::AccountId DatabaseName:!Ref CFNDatabaseName TableName:!Ref CFNTableName1 PartitionInput: Values: - 3 StorageDescriptor: OutputFormat: org.apache.hadoop.hive.ql.io.hiveignorekeytextoutputformat Columns: - Name: mon Type: bigint InputFormat: org.apache.hadoop.mapred.textinputformat Location: s3://crawler-public-us-east-1/flight/2016/csv/mon=3/ SerdeInfo: Parameters: field.delim: "," SerializationLibrary: org.apache.hadoop.hive.serde2.lazy.lazysimpleserde # Partition 4 # Create an AWS Glue partition CFNPartitionMon4: DependsOn: CFNTableFlights Type: AWS::Glue::Partition Properties: CatalogId:!Ref AWS::AccountId DatabaseName:!Ref CFNDatabaseName TableName:!Ref CFNTableName1 PartitionInput: Values: - 4 StorageDescriptor: OutputFormat: org.apache.hadoop.hive.ql.io.hiveignorekeytextoutputformat Columns: 89

97 AWS Glue 開発者ガイドサンプルの分類子 - Name: mon Type: bigint InputFormat: org.apache.hadoop.mapred.textinputformat Location: s3://crawler-public-us-east-1/flight/2016/csv/mon=4/ SerdeInfo: Parameters: field.delim: "," SerializationLibrary: org.apache.hadoop.hive.serde2.lazy.lazysimpleserde AWS Glue 分類子用のサンプル AWS CloudFormation テンプレート AWS Glue 分類子はデータのスキーマを決定します 1 つのタイプのカスタム分類子では grok パターンを使用してデータをマッチングしますパターンがマッチするとカスタム分類子ではテーブルのスキーマを作成し分類子の定義に設定された値に classification を設定しますこのサンプルで作成する分類子では message という列が 1 つあるスキーマを作成し分類を greedy に設定します --- AWSTemplateFormatVersion: ' ' # Sample CFN YAML to demonstrate creating a classifier # # Parameters section contains names that are substituted in the Resources section # These parameters are the names the resources created in the Data Catalog Parameters: # The name of the classifier to be created CFNClassifierName: Type: String Default: cfn-classifier-grok-one-column-1 # # # Resources section defines metadata for the Data Catalog Resources: # Create classifier that uses grok pattern to put all data in one column and classifies it as "greedy". CFNClassifierFlights: Type: AWS::Glue::Classifier Properties: GrokClassifier: #Grok classifier that puts all data in one column Name:!Ref CFNClassifierName Classification: greedy GrokPattern: "%{GREEDYDATA:message}" #CustomPatterns: none Amazon S3& の AWS Glue クローラ用のサンプル AWS CloudFormation テンプレート AWS Glue クローラではデータに対応するメタデータテーブルを Data Catalog に作成します次にこれらのテーブル定義を ETL ジョブのソースおよびターゲットとして使用できますこのサンプルではクローラ必要な IAM ロールおよび AWS Glue データベースを Data Catalog に作成しますこのクローラを実行するとクローラは IAM ロールを引き受けパブリックフライトデータ用のテーブルをデータベースに作成しますテーブルはプレフィックス cfn_sample_1_ を使用して作成されますこのテンプレートで作成された IAM ロールではカスタムロールを作成するために必要なグ 90

98 AWS Glue 開発者ガイドサンプルの Amazon S3 クローラローバルアクセス権が許可されますこの分類子で定義されるカスタム分類子はありません AWS Glue の組み込み分類子がデフォルトで使用されますこのサンプルを AWS CloudFormation コンソールに送信する場合は IAM ロールを作成することを確認する必要があります --- AWSTemplateFormatVersion: ' ' # Sample CFN YAML to demonstrate creating a crawler # # Parameters section contains names that are substituted in the Resources section # These parameters are the names the resources created in the Data Catalog Parameters: # The name of the crawler to be created CFNCrawlerName: Type: String Default: cfn-crawler-flights-1 CFNDatabaseName: Type: String Default: cfn-database-flights-1 CFNTablePrefixName: Type: String Default: cfn_sample_1_ # # # Resources section defines metadata for the Data Catalog Resources: #Create IAM Role assumed by the crawler. For demonstration, this role is given all permissions. CFNRoleFlights: Type: AWS::IAM::Role Properties: AssumeRolePolicyDocument: Version: " " Statement: - Effect: "Allow" Principal: Service: - "glue.amazonaws.com" Action: - "sts:assumerole" Path: "/" Policies: - PolicyName: "root" PolicyDocument: Version: " " Statement: - Effect: "Allow" Action: "*" Resource: "*" # Create a database to contain tables created by the crawler CFNDatabaseFlights: Type: AWS::Glue::Database Properties: CatalogId:!Ref AWS::AccountId DatabaseInput: Name:!Ref CFNDatabaseName Description: "AWS Glue container to hold metadata tables for the flights crawler" #Create a crawler to crawl the flights data on a public S3 bucket CFNCrawlerFlights: 91

99 AWS Glue 開発者ガイドサンプルの接続 Type: AWS::Glue::Crawler Properties: Name:!Ref CFNCrawlerName Role:!GetAtt CFNRoleFlights.Arn #Classifiers: none, use the default classifier Description: AWS Glue crawler to crawl flights data #Schedule: none, use default run-on-demand DatabaseName:!Ref CFNDatabaseName Targets: S3Targets: # Public S3 bucket with the flights data - Path: "s3://crawler-public-us-east-1/flight/2016/csv" TablePrefix:!Ref CFNTablePrefixName SchemaChangePolicy: UpdateBehavior: "UPDATE_IN_DATABASE" DeleteBehavior: "LOG" AWS Glue 接続用のサンプル AWS CloudFormation テンプレート Data Catalog の AWS Glue 接続には JDBC データベースに接続するために必要な JDBC およびネットワーク情報が含まれていますこの情報は JDBC データベースに接続して ETL ジョブをクロールまたは実行するときに使用されますこのサンプルでは Amazon RDS MySQL データベース (devdb) への接続を作成しますこの接続を使用する場合は IAM ロールデータベース認証情報およびネットワーク接続の値も指定する必要がありますテンプレートの必須フィールドの詳細を参照してください --- AWSTemplateFormatVersion: ' ' # Sample CFN YAML to demonstrate creating a connection # # Parameters section contains names that are substituted in the Resources section # These parameters are the names the resources created in the Data Catalog Parameters: # The name of the connection to be created CFNConnectionName: Type: String Default: cfn-connection-mysql-flights-1 CFNJDBCString: Type: String Default: "jdbc:mysql://xxx-mysql.yyyyyyyyyyyyyy.us-east-1.rds.amazonaws.com:3306/devdb" CFNJDBCUser: Type: String Default: "master" CFNJDBCPassword: Type: String Default: " " NoEcho: true # # # Resources section defines metadata for the Data Catalog Resources: CFNConnectionMySQL: Type: AWS::Glue::Connection Properties: CatalogId:!Ref AWS::AccountId ConnectionInput: Description: "Connect to MySQL database." ConnectionType: "JDBC" 92

100 AWS Glue 開発者ガイドサンプルの JDBC クローラ #MatchCriteria: none PhysicalConnectionRequirements: AvailabilityZone: "us-east-1d" SecurityGroupIdList: - "sg-7d52b812" SubnetId: "subnet-84f326ee" ConnectionProperties: { "JDBC_CONNECTION_URL":!Ref CFNJDBCString, "USERNAME":!Ref CFNJDBCUser, "PASSWORD":!Ref CFNJDBCPassword } Name:!Ref CFNConnectionName JDBC の AWS Glue クローラ用のサンプル AWS CloudFormation テンプレート AWS Glue クローラではデータに対応するメタデータテーブルを Data Catalog に作成します次にこれらのテーブル定義を ETL ジョブのソースおよびターゲットとして使用できますこのサンプルではクローラ必要な IAM ロールおよび AWS Glue データベースを Data Catalog に作成しますこのクローラを実行するとクローラは IAM ロールを引き受け MySQL データベースに保存されているパブリックフライトデータ用のテーブルをデータベースに作成しますテーブルはプレフィックス cfn_jdbc_1_ を使用して作成されますこのテンプレートで作成された IAM ロールではカスタムロールを作成するために必要なグローバルアクセス権が許可されます JDBC データに対してはカスタム分類子を定義できません AWS Glue の組み込み分類子がデフォルトで使用されますこのサンプルを AWS CloudFormation コンソールに送信する場合は IAM ロールを作成することを確認する必要があります --- AWSTemplateFormatVersion: ' ' # Sample CFN YAML to demonstrate creating a crawler # # Parameters section contains names that are substituted in the Resources section # These parameters are the names the resources created in the Data Catalog Parameters: # The name of the crawler to be created CFNCrawlerName: Type: String Default: cfn-crawler-jdbc-flights-1 # The name of the database to be created to contain tables CFNDatabaseName: Type: String Default: cfn-database-jdbc-flights-1 # The prefix for all tables crawled and created CFNTablePrefixName: Type: String Default: cfn_jdbc_1_ # The name of the existing connection to the MySQL database CFNConnectionName: Type: String Default: cfn-connection-mysql-flights-1 # The name of the JDBC path (database/schema/table) with wildcard (%) to crawl CFNJDBCPath: Type: String Default: saldev/% # # # Resources section defines metadata for the Data Catalog 93

101 AWS Glue 開発者ガイドサンプルの JDBC クローラ Resources: #Create IAM Role assumed by the crawler. For demonstration, this role is given all permissions. CFNRoleFlights: Type: AWS::IAM::Role Properties: AssumeRolePolicyDocument: Version: " " Statement: - Effect: "Allow" Principal: Service: - "glue.amazonaws.com" Action: - "sts:assumerole" Path: "/" Policies: - PolicyName: "root" PolicyDocument: Version: " " Statement: - Effect: "Allow" Action: "*" Resource: "*" # Create a database to contain tables created by the crawler CFNDatabaseFlights: Type: AWS::Glue::Database Properties: CatalogId:!Ref AWS::AccountId DatabaseInput: Name:!Ref CFNDatabaseName Description: "AWS Glue container to hold metadata tables for the flights crawler" #Create a crawler to crawl the flights data on a public S3 bucket CFNCrawlerFlights: Type: AWS::Glue::Crawler Properties: Name:!Ref CFNCrawlerName Role:!GetAtt CFNRoleFlights.Arn #Classifiers: none, use the default classifier Description: AWS Glue crawler to crawl flights data #Schedule: none, use default run-on-demand DatabaseName:!Ref CFNDatabaseName Targets: JdbcTargets: # JDBC MySQL database with the flights data - ConnectionName:!Ref CFNConnectionName Path:!Ref CFNJDBCPath #Exclusions: none TablePrefix:!Ref CFNTablePrefixName SchemaChangePolicy: UpdateBehavior: "UPDATE_IN_DATABASE" DeleteBehavior: "LOG" 94

102 AWS Glue 開発者ガイド Amazon S3 に書き込む Amazon S3 のサンプルジョブ Amazon S3 に書き込む Amazon S3 の AWS Glue ジョブ用のサンプル AWS CloudFormation テンプレート Data Catalog の AWS Glue ジョブには AWS Glue でスクリプトを実行するために必要なパラメータ値が含まれていますこのサンプルで作成するジョブでは Amazon S3 バケットのフライトデータを csv 形式で読み取り Amazon S3 の Parquet ファイルに書き込みますこのジョブで実行するスクリプトは既存している必要があります環境に応じた ETL スクリプトを AWS Glue コンソールで生成できますこのジョブ実行時に適切なアクセス許可が設定された IAM ロールも指定する必要がありますテンプレートには一般的なパラメータ値が示されていますたとえば AllocatedCapacity (DPU) はデフォルトで 5 になります --- AWSTemplateFormatVersion: ' ' # Sample CFN YAML to demonstrate creating a job using the public flights S3 table in a public bucket # # Parameters section contains names that are substituted in the Resources section # These parameters are the names the resources created in the Data Catalog Parameters: # The name of the job to be created CFNJobName: Type: String Default: cfn-job-s3-to-s3-2 # The name of the IAM role that the job assumes. It must have access to data, script, temporary directory CFNIAMRoleName: Type: String Default: AWSGlueServiceRoleGA # The S3 path where the script for this job is located CFNScriptLocation: Type: String Default: s3://aws-glue-scripts us-east-1/myid/sal-job-test2 # # # Resources section defines metadata for the Data Catalog Resources: # Create job to run script which accesses flightscsv table and write to S3 file as parquet. # The script already exists and is called by this job CFNJobFlights: Type: AWS::Glue::Job Properties: Role:!Ref CFNIAMRoleName #DefaultArguments: JSON object # If script written in Scala, then set DefaultArguments={'--job-language'; 'scala', '--class': 'your scala class'} #Connections: No connection needed for S3 to S3 job # ConnectionsList #MaxRetries: Double Description: Job created with CloudFormation #LogUri: String Command: Name: glueetl ScriptLocation:!Ref CFNScriptLocation # for access to directories use proper IAM role with permission to buckets and folders that begin with "aws-glue-" 95

103 AWS Glue 開発者ガイド Amazon S3 に書き込む JDBC のサンプルジョブ # script uses temp directory from job definition if required (temp directory not used S3 to S3) # script defines target for output as s3://aws-glue-target/sal AllocatedCapacity: 5 ExecutionProperty: MaxConcurrentRuns: 1 Name:!Ref CFNJobName Amazon S3 に書き込む JDBC の AWS Glue ジョブ用のサンプル AWS CloudFormation テンプレート Data Catalog の AWS Glue ジョブには AWS Glue でスクリプトを実行するために必要なパラメータ値が含まれていますこのサンプルで作成するジョブでは cfn-connection-mysql-flights-1 という接続で定義された MySQL JDBC データベースからフライトデータを読み取り Amazon S3 の Parquet ファイルに書き込みますこのジョブで実行するスクリプトは既存している必要があります環境に応じた ETL スクリプトを AWS Glue コンソールで生成できますこのジョブ実行時に適切なアクセス許可が設定された IAM ロールも指定する必要がありますテンプレートには一般的なパラメータ値が示されていますたとえば AllocatedCapacity (DPU) はデフォルトで 5 になります --- AWSTemplateFormatVersion: ' ' # Sample CFN YAML to demonstrate creating a job using a MySQL JDBC DB with the flights data to an S3 file # # Parameters section contains names that are substituted in the Resources section # These parameters are the names the resources created in the Data Catalog Parameters: # The name of the job to be created CFNJobName: Type: String Default: cfn-job-jdbc-to-s3-1 # The name of the IAM role that the job assumes. It must have access to data, script, temporary directory CFNIAMRoleName: Type: String Default: AWSGlueServiceRoleGA # The S3 path where the script for this job is located CFNScriptLocation: Type: String Default: s3://aws-glue-scripts us-east-1/salinero/sal-job-dec4a # The name of the connection used for JDBC data source CFNConnectionName: Type: String Default: cfn-connection-mysql-flights-1 # # # Resources section defines metadata for the Data Catalog Resources: # Create job to run script which accesses JDBC flights table via a connection and write to S3 file as parquet. # The script already exists and is called by this job CFNJobFlights: Type: AWS::Glue::Job Properties: Role:!Ref CFNIAMRoleName 96

104 AWS Glue 開発者ガイドサンプルのオンデマンドトリガー #DefaultArguments: JSON object # For example, if required by script, set temporary directory as DefaultArguments={'--TempDir'; 's3://aws-glue-temporary-xyc/sal'} Connections: Connections: -!Ref CFNConnectionName #MaxRetries: Double Description: Job created with CloudFormation using existing script #LogUri: String Command: Name: glueetl ScriptLocation:!Ref CFNScriptLocation # for access to directories use proper IAM role with permission to buckets and folders that begin with "aws-glue-" # if required, script defines temp directory as argument TempDir and used in script like redshift_tmp_dir = args["tempdir"] # script defines target for output as s3://aws-glue-target/sal AllocatedCapacity: 5 ExecutionProperty: MaxConcurrentRuns: 1 Name:!Ref CFNJobName AWS Glue オンデマンドトリガー用のサンプル AWS CloudFormation テンプレート Data Catalog の AWS Glue トリガーにはトリガーに応じてジョブ実行を開始するために必要なパラメータ値が含まれていますオンデマンドトリガーはこのトリガーを有効にしたときに発生しますこのサンプルで作成するオンデマンドトリガーでは cfn-job-s3-to-s3-1 という 1 つのジョブを開始します --- AWSTemplateFormatVersion: ' ' # Sample CFN YAML to demonstrate creating an on-demand trigger # # Parameters section contains names that are substituted in the Resources section # These parameters are the names the resources created in the Data Catalog Parameters: # The existing job to be started by this trigger CFNJobName: Type: String Default: cfn-job-s3-to-s3-1 # The name of the trigger to be created CFNTriggerName: Type: String Default: cfn-trigger-ondemand-flights-1 # # Resources section defines metadata for the Data Catalog # Sample CFN YAML to demonstrate creating an on-demand trigger for a job Resources: # Create trigger to run an existing job (CFNJobName) on an on-demand schedule. CFNTriggerSample: Type: AWS::Glue::Trigger Properties: Name: Ref: CFNTriggerName Description: Trigger created with CloudFormation Type: ON_DEMAND Actions: - JobName:!Ref CFNJobName # Arguments: JSON object 97

105 AWS Glue 開発者ガイドサンプルのスケジュールされたトリガー #Schedule: #Predicate: AWS Glue のスケジュールされたトリガー用のサンプル AWS CloudFormation テンプレート Data Catalog の AWS Glue トリガーにはトリガーに応じてジョブ実行を開始するために必要なパラメータ値が含まれていますスケジュールされたトリガーはこのトリガーを有効にして cron タイマーがポップすると発生しますこのサンプルで作成するスケジュールされたトリガーでは cfn-job-s3-to-s3-1 という 1 つのジョブを開始しますこのタイマーは平日の 10 分ごとにジョブを実行する cron 式です --- AWSTemplateFormatVersion: ' ' # Sample CFN YAML to demonstrate creating a scheduled trigger # # Parameters section contains names that are substituted in the Resources section # These parameters are the names the resources created in the Data Catalog Parameters: # The existing job to be started by this trigger CFNJobName: Type: String Default: cfn-job-s3-to-s3-1 # The name of the trigger to be created CFNTriggerName: Type: String Default: cfn-trigger-scheduled-flights-1 # # Resources section defines metadata for the Data Catalog # Sample CFN YAML to demonstrate creating a scheduled trigger for a job # Resources: # Create trigger to run an existing job (CFNJobName) on a cron schedule. TriggerSample1CFN: Type: AWS::Glue::Trigger Properties: Name: Ref: CFNTriggerName Description: Trigger created with CloudFormation Type: SCHEDULED Actions: - JobName:!Ref CFNJobName # Arguments: JSON object # # Run the trigger every 10 minutes on Monday to Friday Schedule: cron(0/10 *? * MON-FRI *) #Predicate: AWS Glue の条件付きトリガー用のサンプル AWS CloudFormation テンプレート Data Catalog の AWS Glue トリガーにはトリガーに応じてジョブ実行を開始するために必要なパラメータ値が含まれています条件付きトリガーはこのトリガーを有効にしてその条件が満たされる ( 例 : ジョブが正常に完了する ) と発生しますこのサンプルで作成する条件付きトリガーでは cfn-job-s3-to-s3-1 という 1 つのジョブを開始しますこのジョブは cfn-job-s3-to-s3-2 というジョブが正常に完了すると開始されます 98

106 AWS Glue 開発者ガイドサンプルの開発エンドポイント --- AWSTemplateFormatVersion: ' ' # Sample CFN YAML to demonstrate creating a conditional trigger for a job, which starts when another job completes # # Parameters section contains names that are substituted in the Resources section # These parameters are the names the resources created in the Data Catalog Parameters: # The existing job to be started by this trigger CFNJobName: Type: String Default: cfn-job-s3-to-s3-1 # The existing job that when it finishes causes trigger to fire CFNJobName2: Type: String Default: cfn-job-s3-to-s3-2 # The name of the trigger to be created CFNTriggerName: Type: String Default: cfn-trigger-conditional-1 # Resources: # Create trigger to run an existing job (CFNJobName) when another job completes (CFNJobName2). CFNTriggerSample: Type: AWS::Glue::Trigger Properties: Name: Ref: CFNTriggerName Description: Trigger created with CloudFormation Type: CONDITIONAL Actions: - JobName:!Ref CFNJobName # Arguments: JSON object #Schedule: none Predicate: #Value for Logical is required if more than 1 job listed in Conditions Logical: AND Conditions: - LogicalOperator: EQUALS JobName:!Ref CFNJobName2 State: SUCCEEDED AWS Glue の開発エンドポイント用のサンプル AWS CloudFormation テンプレート AWS Glue の開発エンドポイントは AWS Glue スクリプトの開発およびテストに使用できる環境ですこのサンプルで作成する開発エンドポイントでは正常な作成に最低限必要なネットワークパラメータ値を使用します開発エンドポイントの設定に必要なパラメータの詳細については開発エンドポイント用の環境の設定 (p. 29) を参照してください開発エンドポイントを作成するには既存の IAM ロール ARN (Amazon リソースネーム ) を指定します開発エンドポイントでノートブックサーバーを作成する場合は有効な RSA パブリックキーを指定し対応するプライベートキーを使用可能な状態に保持します Note 作成した開発エンドポイントに関連付けられているすべてのノートブックサーバーを管理しますしたがって開発エンドポイントを削除した場合ノートブックサーバーを削除するには AWS CloudFormation コンソールで AWS CloudFormation スタックを削除する必要があります 99

107 AWS Glue 開発者ガイドサンプルの開発エンドポイント --- AWSTemplateFormatVersion: ' ' # Sample CFN YAML to demonstrate creating a development endpoint # # Parameters section contains names that are substituted in the Resources section # These parameters are the names the resources created in the Data Catalog Parameters: # The name of the crawler to be created CFNEndpointName: Type: String Default: cfn-devendpoint-1 CFNIAMRoleArn: Type: String Default: arn:aws:iam:: /role/awsglueservicerolega # # # Resources section defines metadata for the Data Catalog Resources: CFNDevEndpoint: Type: AWS::Glue::DevEndpoint Properties: EndpointName:!Ref CFNEndpointName #ExtraJarsS3Path: String #ExtraPythonLibsS3Path: String NumberOfNodes: 5 PublicKey: ssh-rsa public...key myuserid-key RoleArn:!Ref CFNIAMRoleArn SecurityGroupIds: - sg-64986c0b SubnetId: subnet-c67cccac 100

108 AWS Glue 開発者ガイドワークフローの概要 AWS Glue でジョブを作成するジョブは AWS Glue で抽出変換およびロード (ETL) 作業を実行するビジネスロジックで構成されますジョブを開始すると AWS Glue はソースからデータを抽出しそのデータを変換してターゲット内にロードするためのスクリプトを実行します AWS Glue コンソールの [ETL] セクションでジョブを作成できます詳細については AWS Glue コンソールでのジョブの使用 (p. 105) を参照してください次の図は AWS Glue でジョブを作成する際の基本的なワークフローとステップを示したものですトピックワークフローの概要 (p. 101) AWS Glue でジョブを追加する (p. 102) AWS Glue でスクリプトを編集する (p. 108) AWS Glue でのジョブのトリガー (p. 111) スクリプトの開発に開発エンドポイントを使用する (p. 113) ワークフローの概要ジョブを作成するときはデータソースターゲットおよびその他の情報の詳細を提供します結果は生成された Apache Spark API (PySpark) スクリプトですその後 AWS Glue データカタログにジョブ定義を保存できます 101

109 AWS Glue 開発者ガイドジョブの追加次に AWS Glue でジョブを作成するプロセス全体を示します 1. ジョブ用のデータソースを選択しますデータソースを表すテーブルは Data Catalog で既に定義されている必要がありますソースに接続が必要な場合接続もジョブ内で参照されます 2. ジョブ用のデータターゲットを選択しますデータターゲットを表すテーブルは Data Catalog で定義することもジョブを実行するときにターゲットテーブルを作成することもできますジョブを作成するときにターゲットの場所を選択しますターゲットに接続が必要な場合接続もジョブ内で参照されます 3. ジョブと生成されたスクリプトの引数を提供することでジョブ処理環境をカスタマイズできます詳細については AWS Glue でジョブを追加する (p. 102) を参照してください 4. 最初 AWS Glue はスクリプトを生成しますがジョブを編集して変換を追加することもできます詳細については組み込み変換 (p. 104) を参照してください 5. オンデマンドで時間ベースのスケジュールまたはイベントによってジョブが呼び出される方法を指定します詳細については AWS Glue でのジョブのトリガー (p. 111) を参照してください 6. 入力された情報により AWS Glue は PySpark または Scala スクリプトを生成しますビジネスのニーズに基づいてスクリプトを調整できます詳細については AWS Glue でスクリプトを編集する (p. 108) を参照してください AWS Glue でジョブを追加するジョブは AWS Glue で抽出変換およびロード (ETL) 作業を実行するビジネスロジックで構成されますジョブ実行をモニタリングして成功継続時間開始時間などのランタイムメトリクスを理解できますジョブの出力は変換されたデータで指定された場所に書き込まれますジョブ実行は起動時にジョブを開始するトリガーによって開始されますジョブにはソースデータに接続しスクリプトのロジックを使用してデータを処理しデータターゲットに書き出すスクリプトが含まれていますジョブは複数のデータソースおよび複数のデータターゲットを持つことができます AWS Glue によって生成されたスクリプトを使用してデータを変換することも独自のスクリプトを提供することもできます AWS Glue コードジェネレーターではソーススキーマとターゲット位置またはスキーマを指定すると Apache Spark API (PySpark) スクリプトを自動的に作成できますこのスクリプトを出発点として使用し目標に合わせて編集できます AWS Glue は JSON CSV ORC (Optimized Row Columnar) Apache Parquet Apache Avro などのいくつかのデータ形式で出力ファイルを書き込むことができます一部のデータ形式では一般的な圧縮形式を記述できますジョブプロパティの定義 AWS Glue コンソール (p. 105) でジョブを定義する場合 AWS Glue ランタイム環境を制御するために次の情報を提供します IAM ロールジョブ実行とデータストアへのアクセスに使用されるリソースへの認証に使用する IAM ロールを指定します AWS Glue でジョブを実行するためのアクセス権限の詳細については AWS Glue リソースへのアクセス権限の管理の概要 (p. 35) を参照してください生成されたスクリプトまたはカスタムスクリプト ETL スクリプトのコードでジョブの手続きロジックを定義します Python または Scala でスクリプトを記述できますジョブが実行するスクリプトを AWS Glue によって生成するのかそれとも自分で提供するのかを選択できますスクリプトの名前と Amazon Simple Storage Service (Amazon S3) 内の場所を指定しますパスのスクリプトディレクトリと同じ名前のファイルが存在していないことを確認しますスクリプトの使用の詳細については AWS Glue でスクリプトを編集する (p. 108) を参照してください 102

110 AWS Glue 開発者ガイドジョブプロパティの定義 Scala クラス名スクリプトが Scala で記述されている場合はクラス名を指定する必要があります AWS Glue 生成スクリプトのデフォルトのクラス名は [GlueApp] です一時ディレクトリ AWS Glue がスクリプトを実行するときに一時的な中間結果が書き込まれる Amazon S3 の作業ディレクトリの場所を指定しますパスの一時ディレクトリと同じ名前のファイルが存在していないことを確認しますこのディレクトリは AWS Glue から Amazon Redshift に読み書きするときに使用しますまた特定の AWS Glue 変換で使用しますジョブのブックマークジョブ実行時に AWS Glue が状態情報を処理する方法を指定します以前に処理されたデータの記憶状態情報の更新または状態情報の無視を指定できますサーバー側の暗号化このオプションを選択すると ETL ジョブが Amazon S3 に書き込むときにデータは SSE-S3 暗号化を使用して保管時に暗号化されます Amazon S3 のデータターゲットと Amazon S3 の一時ディレクトリに書き込まれるデータは両方とも暗号化されています詳細については Amazon S3 で管理された暗号化キーによるサーバー側の暗号化 (SSE-S3) を使用したデータの保護を参照してくださいスクリプトライブラリスクリプトで必要な場合は以下の場所を指定できます Python ライブラリパス依存 JARS パス参照されるファイルパスジョブを定義するときにこれらのライブラリのコンマで区切られた Amazon S3 パスを定義できますジョブ実行時にこれらのパスを上書きできます詳細については独自のカスタムスクリプトを提供する (p. 110) を参照してくださいジョブ実行あたりの同時 DPU データ処理単位 (DPU) はジョブによって使用される処理能力の相対的な尺度です 2~100 の整数を選択しますデフォルト値は 10 です単一の DPU は 4 vcpu コンピューティングと 16 GB のメモリで構成される処理能力を提供します最大同時実行数このジョブで許可される同時実行の最大数を設定しますデフォルト値は 1 ですこのしきい値に達するとエラーが返されます指定できる最大値はサービスの制限によって制御されますたとえば新しいインスタンスの開始時に前回のジョブがまだ実行されている場合同じジョブの 2 つのインスタンスが同時に実行されないようにエラーを戻すことができますジョブのタイムアウト最大の実行時間 ( 分 ) を設定しますデフォルト値は 2880 分ですこの制限値をジョブ実行時間が超えるとジョブ実行状態は TIMEOUT に変わります再試行回数失敗した場合に AWS Glue がジョブを自動的に再起動する回数を 0 10 の間で指定しますジョブパラメータジョブによって呼び出されるスクリプトに名前付きパラメータとして渡される一連のキーと値のペアこれらのデフォルト値はスクリプトの実行時に使用されますがランタイムに上書きできますキー名の先頭には -- が付けられ --mykey のようになりますさらに多くの例について 103

111 AWS Glue 開発者ガイド組み込み変換は AWS Glue の Python パラメータの受け渡しとアクセス (p. 158) の Python パラメータを参照してくださいターゲットパス Amazon S3 ターゲットの場所については AWS Glue がスクリプトを実行するときに出力が書き込まれる Amazon S3 ディレクトリの場所を指定しますパスのターゲットパスディレクトリと同じ名前のファイルが存在していないことを確認します AWS Glue コンソールを使用してジョブを追加する方法の詳細については AWS Glue コンソールでのジョブの使用 (p. 105) を参照してください組み込み変換 AWS Glue にはデータを処理するために使用できる一式の組み込み変換が用意されていますこれらの変換は ETL スクリプトから呼び出すことができますデータは変換から変換へと DynamicFrame というデータ構造で渡されますこれは Apache Spark SQL DataFrame を拡張したものです DynamicFrame にはデータが含まれておりデータを処理するためにそのスキーマを参照しますこれらの変換の詳細については AWS Glue PySpark 変換リファレンス (p. 197) を参照してください AWS Glue では以下の組み込み変換が用意されています ApplyMapping DynamicFrame のソース列とデータ型を返された DynamicFrame のターゲット列とデータ型にマッピングしますソース列ソース型ターゲット列およびターゲット型を含むタプルのリストであるマッピング引数を指定します DropFields DynamicFrame からフィールドを削除します出力 DynamicFrame には入力より少ないフィールドが含まれています paths 引数を使用して削除するフィールドを指定します paths 引数はドット表記法を使用してスキーマツリー構造内のフィールドを指しますたとえばツリー内のフィールド A の子であるフィールド B を削除するにはそのパスに A.B と入力します DropNullFields DynamicFrame から null フィールドを削除します出力 DynamicFrame のスキーマには Null 型のフィールドが含まれていませんフィルタ参加マップ DynamicFrame からレコードを選択しフィルタリングされた DynamicFrame を返します Lambda 関数などの関数を指定しレコードが出力されるかどうかを指定します出力される場合は関数で true が返され出力されない場合は false が返されます 2 つの DynamicFrames を等価結合しますキーフィールドを各フレームのスキーマに指定して等価性を比較します出力 DynamicFrame にはキーが一致する行が含まれています DynamicFrame のレコードに関数を適用し変換された DynamicFrame を返します指定された関数は各入力レコードに適用され出力レコードに変換されますマップ変換では外部 API オペレーションを使用してフィールドの追加フィールドの削除ルックアップの実行を行うことができます例外があった場合処理は継続されレコードがエラーとしてマークされます MapToCollection DynamicFrameCollection の各 DynamicFrame に変換が適用されます 104

112 AWS Glue 開発者ガイドコンソールでのジョブ関係付け DynamicFrame をリレーショナル ( 行と列 ) 形式に変換しますデータのスキーマに基づいてこの変換はネストされた構造を平坦化し配列構造から DynamicFrames を作成します出力は複数のテーブルにデータを書き込むことができる DynamicFrames のコレクションです RenameField DynamicFrame のフィールドの名前を変更します出力は指定されたフィールドの名前が変更された DynamicFrame ですスキーマ内の新しい名前とパスを名前を変更するフィールドに指定します ResolveChoice ResolveChoice を使用して列に複数タイプの値が含まれている場合の処理方法を指定します列を単一のデータ型にキャストするか 1 つ以上の型を破棄するかまたはすべての型を別々の列または構造体に保持するかを選択できます列ごとに異なる解決ポリシーを選択するかすべての列に適用されるグローバルポリシーを指定できます SelectFields 保持するフィールドを DynamicFrame から選択します出力は選択したフィールドのみを持つ DynamicFrame です保持するフィールドへのパスをスキーマ内に指定します SelectFromCollection DynamicFrame のコレクションから 1 つの DynamicFrames を選択します出力は選択された DynamicFrame です DynamicFrame のインデックスを指定して選択しますスピゴット DynamicFrame からサンプルデータを書き込みます出力は Amazon S3 の JSON ファイルです Amazon S3 の場所と DynamicFrame のサンプリング方法を指定しますサンプリングはファイルの先頭から指定された数のレコードまたは書き込むレコードを選択する確率係数とすることができます SplitFields フィールドを 2 つの DynamicFrames に分割します出力は DynamicFrames のコレクションです一方は選択されたフィールドを持ち他方は残りのフィールドを持ちます選択するフィールドへのパスをスキーマ内に指定します SplitRows Unbox 述語に基づいて DynamicFrame の行を分割します出力は 2 つの DynamicFrames のコレクションです一方は選択された行を持ち他方は残りの行を持ちますスキーマのフィールドによって比較を指定しますたとえば A > 4 と指定します DynamicFrame から文字列フィールドをアンボックスします出力は選択された文字列フィールドが再フォーマットされた DynamicFrame です文字列フィールドが解析されいくつかのフィールドに置き換えられますスキーマ内で再フォーマットする文字列フィールドと現在のフォーマットタイプのパスを指定しますたとえば JSON 形式 {"a": 3, "b": "foo", "c": 1.2} の 1 つのフィールドを持つ CSV ファイルがあるとしますこの変換では JSON を int string および double の 3 つのフィールドに再フォーマットできます AWS Glue コンソールでのジョブの使用 AWS Glue でのジョブは抽出変換およびロード (ETL) 作業を実行するビジネスロジックで構成されます AWS Glue コンソールの [ETL] セクションでジョブを作成できます既存のジョブを表示するには AWS マネジメントコンソールにサインインし console.aws.amazon.com/glue/ で AWS Glue コンソールを開きますその後 AWS Glue の [Jobs] ( ジョ 105

113 AWS Glue 開発者ガイドコンソールでのジョブブ ) タブを選択します [Jobs] ( ジョブ ) リストはジョブが最後に変更されたとき各ジョブに関連付けられたスクリプトの場所および現在のジョブのブックマークオプションを表示します [Jobs] ( ジョブ ) リストから以下の操作を実行できます既存のジョブを開始するには [Action] ( アクション ) を選択し [Run job] ( ジョブの実行 ) を選択します Running または Starting を停止するには [Action] ( アクション ) を選択し [Stop job run] ( ジョブ実行の停止 ) を選択しますジョブを開始するトリガーを追加するには [Action] ( アクション ) [Choose job triggers] ( ジョブ選択トリガー ) の順に選択します既存のジョブを変更するには [Action] ( アクション ) を選択し [Edit job] ( ジョブの編集 ) または [Delete] ( 削除 ) を選択しますジョブに関連付けられたスクリプトを変更するには [Action] ( アクション ) [Edit script] ( スクリプトの編集 ) の順に選択しますジョブに関して AWS Glue が保存した状態情報をリセットするには [Action] ( アクション ) [Reset job bookmark] ( ジョブブックマークのリセット ) の順に選択しますこのジョブのプロパティで開発エンドポイントを作成するには [Action] ( アクション ) [Create development endpoint] ( 開発エンドポイントの作成 ) の順に選択しますコンソールを使用して新しいジョブを追加するには 1. AWS Glue コンソールを開き [Jobs] ( ジョブ ) タブを選択します 2. [Add job] ( ジョブの追加 ) を選択して [Add job] ( ジョブの追加 ) ウィザードの手順に従いますジョブのスクリプトを AWS Glue で生成することに決定した場合はジョブプロパティデータソースおよびデータターゲットを指定しソース列をターゲット列にマッピングするスキーマを確認します生成されたスクリプトは ETL 作業を実行するためにコードを追加する開始点となりますスクリプトでコードを確認しビジネスニーズに合わせて変更します Note 生成されたスクリプトでジョブを追加するための詳細な手順についてはコンソールの [Add job] ( ジョブの追加 ) チュートリアルを参照してくださいスクリプトを提供または記述した場合ジョブがソースターゲットおよび変換を定義しますただしジョブのスクリプトで必要な接続を指定する必要があります独自のスクリプトの作成については独自のカスタムスクリプトを提供する (p. 110) を参照してください Note ジョブは作成時に指定する [IAM role] (IAM ロール ) のアクセス権限があるものと想定していますこの IAM ロールにはデータストアからデータを抽出してターゲットに書き込むためのアクセス権限が必要です AWS Glue コンソールには AWS Glue プリンシパルサービスの信頼ポリシーがアタッチされた IAM ロールだけがリスト表示されています AWS Glue のロール提供の詳細についてはアイデンティティベースのポリシー (IAM ポリシー ) を使用する (p. 38) を参照してください Important ジョブ実行における既知の問題については AWS Glue のエラーのトラブルシューティング (p. 143) を確認してください各ジョブに必要なプロパティの詳細についてはジョブプロパティの定義 (p. 102) を参照してください 106

114 AWS Glue 開発者ガイドコンソールでのジョブ生成されたスクリプトでジョブを追加するための詳細な手順については AWS Glue コンソールの [Add job] ( ジョブの追加 ) チュートリアルを参照してくださいジョブの詳細の表示ジョブの詳細を表示するには [Jobs] ( ジョブ ) リストでジョブを選択し以下のタブにある情報を表示します履歴詳細 Script 履歴 [History] ( 履歴 ) タブにはジョブ実行の履歴とジョブの過去の成功の度合いが表示されますジョブごとに実行メトリクスには次のものが含まれます [Run ID] ( 実行 ID) はこのジョブの実行ごとに AWS Glue によって作成される識別子です [Retry attempt] ( 再試行試行 ) は AWS Glue が自動的に再試行する必要の合ったジョブの試行回数を示します [Run status] ( 実行ステータス ) は最新の実行を一番上にそれぞれの実行の成功が表示されますジョブが Running または Starting である場合この列のアクションアイコンを選択して停止できます [Error] ( エラー ) には実行が正常に行われなかった場合のエラーメッセージの詳細が表示されます [Logs] はこのジョブ実行の stdout に書き込まれたログへのリンクを示します [Logs] のリンクは CloudWatch Logs へつながっていて AWS Glue データカタログで作成されたテーブルのすべての詳細と発生したエラーを確認できます CloudWatch コンソールでログの保持期間を管理できますデフォルトのログ保持期間は Never Expire です保持期間を変更する方法の詳細については CloudWatch Logs でログデータ保持を変更するを参照してください [Error logs] ( エラーログ ) はこのジョブ実行の stderr に書き込まれたログへのリンクを示しますこのリンクをクリックすると CloudWatch Logs に移動し発生したエラーに関する詳細を表示できます CloudWatch コンソールでログの保持期間を管理できますデフォルトのログ保持期間は Never Expire です保持期間を変更する方法の詳細については CloudWatch Logs でログデータ保持を変更するを参照してください [Execution time] ( 実行時間 ) はジョブ実行でリソースを消費した時間を示しますジョブ実行でリソースの消費を開始した時点から終了した時点までの時間が計算されます [Timeout] ( タイムアウト ) はジョブ実行が停止してタイムアウトステータスに移行するまでにリソースを消費できる最大実行時間を示します [Triggered by] ( トリガー元 ) にはこのジョブ実行を開始するために発生したトリガーが表示されます [Start time] ( 開始時間 ) にはジョブが開始した日付と時刻 ( 現地時間 ) が表示されます [End time] ( 終了時間 ) にはジョブが終了した日付と時刻 ( 現地時間 ) が表示されます詳細 [Details] ( 詳細 ) タブにはジョブの属性が含まれていますジョブ定義の詳細が表示されこのジョブを開始できるトリガーが一覧表示されますリスト内のいずれかのトリガーが発生するたびにジョブが開始されますトリガーのリストについては詳細には次のものがあります [Trigger name] ( トリガー名 ) には発生するとこのジョブを開始するトリガーの名前が表示されます [Trigger type] ( トリガータイプ ) にはこのジョブを開始するトリガーのタイプが一覧表示されます [Trigger status] ( トリガーのステータス ) にはトリガーが作成済み有効化無効化のいずれかが表示されます 107

115 AWS Glue 開発者ガイドスクリプトの編集 [Trigger parameters] ( トリガーのパラメータ ) にはトリガーが発生する時を定義するパラメータが表示されます [Jobs to trigger] ( トリガーするジョブ ) にはこのトリガーが発生したら開始するジョブのリストが表示されます Script [Script] ( スクリプト ) タブにはジョブが開始したら実行するスクリプトが表示されますこのタブから [Edit script] ( スクリプトの編集 ) ビューを呼び出すことができます AWS Glue コンソールでのスクリプトエディタの詳細については AWS Glue コンソールでのスクリプトの操作 (p. 109) を参照してくださいスクリプトで呼び出される関数については Python で AWS Glue ETL スクリプトをプログラムする (p. 156) を参照してください AWS Glue でスクリプトを編集するスクリプトにはソースからデータを抽出し変換しターゲットにロードするコードが含まれています AWS Glue はジョブを開始するときにスクリプトを実行します Python または Scala で AWS Glue ETL スクリプトを記述できます Python スクリプトは抽出変換およびロード (ETL) ジョブのための PySpark Python ダイアレクトの拡張機能である言語を使用しますスクリプトには ETL 変換を処理する拡張構造が含まれます自動でジョブのソースコードロジックを生成するときにスクリプトが作成されますこのスクリプトを編集するかまたは独自のスクリプトを指定して ETL 作業を処理することができます AWS Glue コンソールを使用したスクリプトの定義と編集の詳細については AWS Glue コンソールでのスクリプトの操作 (p. 109) を参照してくださいスクリプトの定義ソースとターゲットがあると AWS Glue はデータを変換するスクリプトを生成できますこの提案されたスクリプトはソースとターゲットを埋める最初のバージョンで PySpark での変換を提案していますスクリプトを確認してビジネスニーズに合わせて変更できます AWS Glue のスクリプトエディタを使用してソースとターゲットを指定する引数および実行に必要なその他の引数を追加しますスクリプトはジョブによって実行されジョブはスケジュールやイベントに基づくトリガーによって開始されますトリガーについての詳細は AWS Glue でのジョブのトリガー (p. 111) を参照してください AWS Glue コンソールではスクリプトはコードとして表されますスクリプトをスクリプトに埋め込まれた注釈 (##) を使用する図として表示することもできますこれらの注釈は AWS Glue コンソールで図を生成するのに使用されるパラメータ変換タイプ引数入力その他のスクリプトの特性を説明しますスクリプトの図は以下を示しますスクリプトへのソース入力変換スクリプトにより書き込まれたターゲット出力スクリプトには以下の注釈を含めることができます使用スクリプトが必要とする ETL ジョブからのパラメータ 108

116 AWS Glue 使用変換タイプデータソースまたはデータシンクなどの図のノードのタイプ入力データへの参照を除くノードに渡される引数スクリプトから返される変数ノードへの入力データスクリプト内のコード構文については Python で AWS Glue ETL スクリプトをプログラムする (p. 156) を参照してください AWS Glue コンソールでのスクリプトの操作スクリプトには抽出変換ロード (ETL) ワークを実行するコードが含まれます独自のスクリプトを提供することもできますしお客様のガイダンスで AWS Glue がスクリプトを生成することもできます独自のスクリプトの作成については独自のカスタムスクリプトを提供する (p. 110) を参照してくださいスクリプトは AWS Glue コンソールで編集できますスクリプトを編集する場合ソースターゲットおよび変換を追加することができますスクリプトを編集するには 1. AWS マネジメントコンソールにサインインし AWS Glue コンソール ( console.aws.amazon.com/glue/) を開きますその後 [Jobs] ( ジョブ ) タブを選択します 2. リストでジョブを選択し次に [Action] ( アクション ) [Edit script] ( スクリプトの編集 ) を選択してスクリプトエディタを開きますジョブ詳細ページからスクリプトエディタにアクセスすることもできます [ Script] ( スクリプト ) タブを選択し次に [Edit script] ( スクリプトの編集 ) を選択しますスクリプトエディタ AWS Glue スクリプトエディタを使用してスクリプトのソースターゲット変換を挿入変更および削除できますスクリプトエディタにはスクリプトとダイアグラムの両方が表示されデータの流れを視覚化しやすくなりますスクリプトのダイアグラムを作成するには [Generate diagram] ( ダイアグラムの生成 ) を選択します AWS Glue は ## で始まるスクリプトの注釈行を使用してダイアグラムをレンダリングしますダイアグラムでスクリプトを正しく表すために注釈のパラメータと Apache Spark コードのパラメータの同期を保つ必要がありますスクリプトエディタを使用してスクリプトのカーソルが置かれている任意の場所にコードテンプレートを追加することができますエディタの上部で次のオプションから選択しますソーステーブルをスクリプトに追加するには [Source] ( ソース ) を選択しますターゲットテーブルをスクリプトに追加するには [Target] ( ターゲット ) を選択しますターゲット位置をスクリプトに追加するには [Target location] ( ターゲット位置 ) を選択します変換をスクリプトに追加するには [Transform] ( 変換 ) を選択しますスクリプトで呼び出される関数については Python で AWS Glue ETL スクリプトをプログラムする (p. 156) を参照してくださいスピゴット変換をスクリプトに追加するには [Spigot] ( スピゴット ) を選択します 109

117 AWS Glue 開発者ガイド独自のカスタムスクリプトを提供する挿入されたコードで注釈および Apache Spark コード両方の parameters を変更しますたとえばスピゴット変換を追加したら path 注釈行および output コード行の両方で置き換えられていることを検証します [Logs] ( ログ ) タブでは実行されるジョブに関連するログが表示されます最新の 1,000 行が表示されます [Schema] ( スキーマ ) タブでは Data Catalog で使用可能な場合選択されたソースとターゲットのスキーマが表示されます独自のカスタムスクリプトを提供するスクリプトは AWS Glue で抽出変換およびロード (ETL) 作業を実行しますスクリプトは自動でジョブのソースコードロジックを生成するときに作成されますこの生成されたスクリプトを編集することもできますし独自のカスタムスクリプトを指定することもできます Important カスタムスクリプトは Apache Spark と互換性がある必要があります AWS Glue で独自のカスタムスクリプトを提供するには以下の一般的な手順に従います 1. AWS マネジメントコンソールにサインインし AWS Glue コンソール ( console.aws.amazon.com/glue/) を開きます 2. [Jobs] ( ジョブ ) タブを選択し [Add job] ( ジョブの追加 ) を選択して [Add job] ( ジョブの追加 ) ウィザードを開始します 3. [Job properties] ( ジョブプロパティ ) 画面でカスタムスクリプトを実行するのに必要な [IAM role] (IAM ロール ) を選択するようにします詳細については AWS Glue に対する認証とアクセスコントロール (p. 34) を参照してください 4. [This job runs] ( このジョブ実行 ) で次のいずれかを選択しますユーザーが提供する既存のスクリプトユーザーが作成する新しいスクリプト 5. スクリプトが参照する接続を選択しますこれらのオブジェクトは目的の JDBC データストアに接続するために必要です Elastic Network Interface は仮想プライベートクラウド (VPC) でインスタンスにアタッチできる仮想ネットワークインターフェイスですスクリプトで使用されているデータストアに接続するのに必要な Elastic Network Interface を選択します 6. スクリプトに追加のライブラリやファイルが必要な場合は次のように指定できます Python ライブラリパススクリプトで必要とされる Python ライブラリへのカンマ区切りの Amazon Simple Storage Service (Amazon S3) パス Note 依存 JARS パス純粋な Python ライブラリのみを使用できます pandas Python データ解析ライブラリなど C 拡張機能に依存するライブラリはまだサポートされていませんスクリプトで必要とされる JAR ファイルへのカンマ区切りの Amazon S3 パスです Note 現在純粋な Java または Scala (2.11) ライブラリのみを使用できます 110

118 AWS Glue 開発者ガイドジョブのトリガー参照されるファイルパススクリプトに必要な追加のファイル ( たとえば設定ファイル ) へのカンマで区切られた Amazon S3 パス 7. 必要に応じてジョブにスケジュールを追加することができますスケジュールを変更するにはこの既存のスケジュールを削除して新しく追加する必要があります AWS Glue におけるジョブ追加の詳細については AWS Glue でジョブを追加する (p. 102) を参照してください詳細な手順については AWS Glue コンソールの [Add job] ( ジョブ追加 ) チュートリアルを参照してください AWS Glue でのジョブのトリガー抽出変換およびロード (ETL) のジョブを AWS Glue で実行するトリガーを決定しますトリガーの条件はスケジュール (cron 式で指定 ) またはイベントに基づきますオンデマンドでジョブを実行することもできますスケジュールやイベントに基づいてジョブをトリガーするスケジュールに基づいてジョブのトリガーを作成する場合はジョブの実行頻度実行する曜日実行時間などの制約を指定できますこれらの制約は cron に基づいていますトリガーにスケジュールを設定するときは cron の機能と制限を考慮する必要がありますたとえば毎月 31 日にクローラを実行することを選択した場合いくつかの月には 31 日間はないことに注意してください cron の詳細についてはジョブとクローラの時間ベースのスケジュール (p. 136) を参照してくださいイベントに基づいてトリガーを作成するときは別のジョブが成功したときなどトリガーを起動するために監視するイベントを指定しますジョブイベントトリガーに基づく条件付きのトリガーではジョブのリストを指定しリスト中のすべてのジョブまたはいずれかのジョブが成功失敗停止したときにトリガーを起動しますトリガーが起動すると依存するジョブの実行が開始されますトリガータイプを指定するトリガーは次のいずれかのタイプですスケジュール cron に基づく時間ベースのトリガージョブイベント ( 条件付き ) 以前のジョブまたは複数のジョブがリストの条件を満たすときに起動されるイベントベースのトリガージョブのリストを提供し実行状態が succeeded failed または stopped になるタイミングを監視しますこのトリガーはいずれかまたはすべての条件が満たされるまで起動を待機します Important 依存するジョブは完了したジョブがトリガーにより ( アドホックの実行ではない ) 開始されるまでは開始しませんジョブの依存関係のチェーンを作成するにはチェーンの最初のジョブを [schedule] または [on-demand] トリガーで開始します 111

119 AWS Glue 開発者ガイドコンソールでのトリガーの使用オンデマンド開始するとトリガーが起動しますジョブが完了したら完了を監視しているトリガーも起動し依存するジョブが開始します AWS Glue コンソールを使用したトリガーの指定の詳細については AWS Glue コンソールでのトリガーの使用 (p. 112) を参照してください AWS Glue コンソールでのトリガーの使用 ETL ジョブが AWS Glue で実行されるとトリガーが制御されます既存のトリガーを表示するには AWS マネジメントコンソールにサインインしで AWS Glue コンソールを開きます [Triggers] ( トリガー ) タブを選択します [Triggers] ( トリガー ) リストでトリガーごとのプロパティが表示されますトリガー名トリガーを作成したときに指定した一意の名前ですトリガータイプトリガーが時間ベース ([Schedule] ( スケジュール )) イベントベース ([Job events] ( ジョブイベント )) またはユーザーによって開始された ([On-demand] ( オンデマンド )) かどうかを示しますトリガーのステータストリガーが [Enabled] ( 有効 ) または [ACTIVATED] ( 有効化 ) になっているかどうかまたトリガーの起動時に関連するジョブを呼び出す準備ができているかどうかを示しますまたトリガーはジョブが呼び出されたかどうかを判断しないように [Disabled] ( 無効 ) または [DEACTIVATED] ( 無効化 ) および一時停止することもできますトリガーパラメータ [Schedule] ( スケジュール ) トリガーの場合トリガーを起動する頻度と時間の詳細が含まれます [Job events] ( ジョブイベント ) トリガーの場合実行状態に応じてトリガーを起動する可能性のあることを監視するジョブのリストが表示されますイベントのあるジョブの監視リストのトリガーの詳細を参照してくださいトリガーするジョブこのトリガーが起動したときに呼び出されるトリガーに関連付けられたジョブを一覧表示しますトリガーの追加と編集トリガーを編集削除開始するにはリスト内のトリガーの横にあるチェックボックスをオンにして [Action] ( アクション ) を選択しますまたトリガーを無効にして関連するジョブを開始しないようにしたりトリガーを有効にして起動時に関連するジョブを開始したりすることもできますトリガーの詳細を表示するにはリスト内のトリガーを選択しますトリガーの詳細にはトリガーを作成したときに定義した情報が含まれます新しいトリガーを追加するには [Add trigger] ( トリガーを追加 ) を選択し [Add trigger] ( トリガーを追加 ) ウィザードの手順に従います以下のプロパティを指定します名前トリガーに一意の名前を付けます 112

120 AWS Glue 開発者ガイド開発エンドポイントの使用トリガータイプ次のいずれかを指定します Schedule ( スケジュール ): 特定の時刻にトリガーが起動します Job events ( ジョブイベント ): リスト内のジョブの一部またはすべてが選択されたジョブイベントと一致するとトリガーが起動しますトリガーを起動するには監視されたジョブがトリガーによって開始されている必要がありますどのジョブを選択した場合でも監視できるジョブイベントは 1 つのみです On-demand: ( オンデマンド ): トリガーはトリガーリストのページから開始すると起動しますトリガーするジョブこのトリガーによって開始されたジョブのリストです詳細については AWS Glue でのジョブのトリガー (p. 111) を参照してくださいスクリプトの開発に開発エンドポイントを使用する AWS Glue により抽出変換およびロード (ETL) スクリプトを反復的に開発してテストする環境を作成できますノートブックでスクリプトを開発できます AWS Glue エンドポイントを指してテストします開発プロセスの結果に満足したらスクリプトを実行する ETL ジョブを作成しますこのプロセスによりインタラクティブな方法で機能を追加してスクリプトをデバッグできます Note AWS Glue 開発エンドポイントがまだ Python 3 をサポートしていないため Python スクリプトは Python 2.7 をターゲットとしている必要があります開発環境の管理 AWS Glue を使用して開発エンドポイントを作成編集削除することができます開発環境をプロビジョニングするための設定値を提供しますこれらの値は開発エンドポイントに安全にアクセスしまたエンドポイントがデータストアにアクセスできるようにネットワークを設定する方法を AWS Glue に指定します次に開発エンドポイントに接続するノートブックを作成しノートブックを使用して ETL スクリプトを作成しテストします AWS Glue コンソールを使用して開発エンドポイントを管理する方法の詳細については AWS Glue コンソールでの開発エンドポイントの操作 (p. 131) を参照してください開発エンドポイントを使用する方法開発エンドポイントを使用するには以下のワークフローに従います 1. コンソールまたは API で AWS Glue 開発エンドポイントを作成しますこのエンドポイントは Virtual Private Cloud (VPC) 内で定義されたセキュリティグループとともに起動されます 2. コンソールまたは API は開発エンドポイントがプロビジョニングされ使用可能になるまでポーリングできます準備が整ったら開発エンドポイントに接続して AWS Glue スクリプトの作成およびテストを行いますローカルマシンに Apache Zeppelin ノートブックをインストールし開発エンドポイントに接続してからブラウザを使用して開発します AWS Glue コンソールを使用してアカウントの独自の Amazon EC2 インスタンスで Apache Zeppelin ノートブックサーバーを作成しブラウザを使用して接続します開発エンドポイントに直接接続するためのターミナルウィンドウを開きます 113

121 AWS Glue 開発者ガイド開発エンドポイントへのアクセス JetBrains PyCharm Python IDE の Professional エディションがある場合開発エンドポイントに接続してインタラクティブな開発が行えますスクリプトで pydevd ステートメントを挿入すると PyCharm はリモートブレークポイントをサポートします 3. 開発エンドポイントでのデバッグとテストが完了したら削除することができます開発エンドポイントへのアクセス開発エンドポイントにパブリックアドレスがある場合開発エンドポイントの SSH プライベートキーを使用してこのアドレスが到達可能であることを確認します以下に例を示します ssh -i dev-endpoint-private-key.pem 開発エンドポイントにプライベートアドレスがあり VPC サブネットがパブリックインターネットからルーティング可能でそのセキュリティグループがクライアントからのインバウンドアクセスを許可する場合は以下の手順に従って開発エンドポイントに Elastic IP をアタッチしインターネットからのアクセスを許可できます 1. AWS Glue コンソールで開発エンドポイントの詳細ページに移動します次のステップで使用するためにプライベートアドレスを書き留めます 2. Amazon EC2 コンソールで [Network and Security] ( ネットワークとセキュリティ ) に移動し [ ネットワークインターフェイス ] を選択します AWS Glue コンソールの開発エンドポイントの詳細ページでプライベートアドレスに対応するプライベート DNS (IPv4) を検索します必要に応じて Amazon EC2 コンソールでどの列を表示するかを変更しますこのアドレスのネットワークインターフェイス ID (ENI) を書き留めます例 : eni Amazon EC2 コンソールで [Network and Security] ( ネットワークとセキュリティ ) に移動し [Elastic IP] を選択します [ 新しいアドレスの割り当て ] [ 割り当て ] の順に選択して新しい Elastic IP を割り当てます 4. [Elastic IP] ページで新しく割り当てた Elastic IP を選択します [ アクション ] [ アドレスの関連付け ] の順に選択します 5. [ アドレスの関連付け ] ページで以下の選択を行います [ リソースタイプ ] で [ ネットワークインターフェイス ] を選択します [ ネットワークインターフェイス ] フィールドにプライベートアドレスのネットワークインターフェイス ID (ENI) を入力します [ 関連付け ] を選択します 6. 新しく関連付けた Elastic IP が開発エンドポイントに関連付けられた SSH プライベートキーを使用して到達可能であることを確認します以下に例を示します ssh -i dev-endpoint-private-key.pem glue@elastic-ip チュートリアルセットアップ : 開発エンドポイントチュートリアルの前提条件開発エンドポイントは ETL スクリプトを AWS Glue ジョブとして実行する前にインタラクティブにさまざまな方法で ETL スクリプトをテストおよびデバッグできる環境を作成しますこのセクションのチュートリアルではさまざまな IDE を使用してこれを行う方法を示しますこれらのすべては次のセクションの手順を使用して開発エンドポイントをセットアップしサンプルデータをクロールして AWS Glue データカタログにテーブルを作成することを前提としています 114

122 AWS Glue 開発者ガイドチュートリアルの前提条件 Note AWS Glue 開発エンドポイントがまだ Python 3 をサポートしていないため Python スクリプトは Python 2.7 をターゲットとしている必要があります場合によっては Amazon Simple Storage Service (Amazon S3) データのみを使用し JDBC と Amazon S3 データを他と組み合わせるため仮想プライベートクラウド (VPC) にはない 1 つの開発エンドポイントと仮想プライベートクラウド (VPC) にある 1 つの開発エンドポイントを設定しますチュートリアルで使用されるサンプルデータのクローリング最初の手順では一部のサンプルデータをクロールしそのデータカタログのメタデータを Data Catalog のテーブルに記録できるクローラを作成します使用されるサンプルデータはから取得されチュートリアルの目的のため少し変更されていますこれには米国国会議員と米国下院および上院の議席についての JSON 形式のデータが含まれています 1. Sign in to the AWS マネジメントコンソール and open the AWS Glue console at console.aws.amazon.com/glue/. AWS Glue コンソールで [Databases] ( データベース ) を選択し [Add database] ( データベースの追加 ) を選択しますデータベースに legislators という名前を付けます 2. [Crawlers] ( クローラ ) [Add crawler] ( クローラの追加 ) の順に選択しますクローラに legislator_crawler という名前を付けて AWS Glue ロールを割り当てて [Next] ( 次へ ) を選択します 3. Amazon S3 はデータストアのままにしておきます [Crawl data in] ( クロールするデータの場所 ) で [Specified path in another account] ( 別のアカウントで指定されたパス ) を選択します次に [Include path] ( インクルードパス ) ボックスに s3://awsglue-datasets/examples/us-legislators/ all と入力します [Next] ( 次へ ) を選択し [Next] ( 次へ ) をもう一度選択して別のデータストアを追加しないことを確認します [Next] ( 次へ ) を選択してこのクローラがオンデマンドで実行されることを確認します 4. [Database] ( データベース ) に legislators データベースを選択します [Next] ( 次へ ) を選択し [Finish] ( 完了 ) を選択して新しいクローラの作成を完了します 5. ナビゲーションペインで [Crawlers] ( クローラ ) を再度選択します新しい legislator_crawler クローラの横にあるチェックボックスを選択して [Run crawler] ( クローラの実行 ) を選択します 6. ナビゲーションペインで [Databases] ( データベース ) を選択します legislators データベースを選択して [Tables in legislators] (legislators のテーブル ) を選択しますクローラが取得したメタデータを含む Data Catalog 内のクローラによって作成された 6 つのテーブルが表示されます Amazon S3 データの開発エンドポイントの作成次に Amazon S3 データの開発エンドポイントを作成します JDBC データソースまたはターゲットを使用する場合は開発エンドポイントを VPC で作成する必要がありますただしこのチュートリアルで Amazon S3 にのみアクセスする場合は必要ありません 1. AWS Glue コンソールで [Dev endpoints] ( 開発エンドポイント ) を選択します [Add endpoint] ( エンドポイントの追加 ) を選択します 2. demo-endpoint などのエンドポイント名を指定します 3. AWS Glue ETL ジョブ実行に使用する [IAM role] (IAM ロール ) と同様の権限を持つ IAM ロールを選択します詳細についてはステップ 2: AWS Glue 用の IAM ロールを作成する (p. 13) を参照してください [ 次へ ] を選択します 4. [Networking] ( ネットワーク ) で [Skip networking information] ( ネットワーキング情報をスキップ ) を選択したままにして [Next] ( 次へ ) を選択します 5. [SSH Public Key] (SSH パブリックキー ) に SSH キー生成プログラムによって生成されたパブリックキーを入力します (Amazon EC2 キーペアは使用しないでください ) 対応するプライベートキーを保存し後で SSH を使用して開発用エンドポイントに接続します [ 次へ ] を選択します 115

123 AWS Glue 開発者ガイドチュートリアルの前提条件 Note Microsoft Windows でキーを生成する場合は最新バージョンの PuTTYgen を使用して PuTTYgen ウィンドウから AWS Glue コンソール内にパブリックキーを貼り付けます RSA キーを生成しますパブリックキーを使用してファイルをアップロードしないでください代わりに [Public key for pasting into OpenSSH authorized_keys file] (OpenSSH authorized_keys ファイル内に貼り付けるパブリックキー ) フィールドで生成したキーを使用します PuTTY で対応するプライベートキー (.ppk) を使用して開発エンドポイントに接続します Windows で SSH を使用して開発エンドポイントに接続するには PuTTYgen の [Conversion] ( 変換 ) メニューを使用してプライベートキーを.ppk 形式から OpenSSH の.pem 形式に変換します詳細については PuTTY を使用した Windows から Linux インスタンスへの接続を参照してください 6. [Review] ( 確認 ) で [Finish] ( 完了 ) を選択します開発エンドポイントが作成されたらプロビジョニングのステータスが [READY] ( 準備完了 ) になるのを待ちます出力に使用する Amazon S3 の場所の作成バケットがない場合はバケットの作成の手順に従って Amazon S3 にサンプル ETL スクリプトの出力を保存するバケットをセットアップできます VPC での開発エンドポイントの作成このチュートリアルでは必要ありませんが Amazon S3 データストアと JDBC データストアの両方に ETL ステートメントからアクセスする場合は VPC 開発エンドポイントが必要ですこの場合開発エンドポイントの作成時に JDBC データストアを含む Virtual Private Cloud (Amazon VPC) のネットワークプロパティを指定します始める前に開発エンドポイント用の環境の設定 (p. 29) で説明されているように環境をセットアップします 1. AWS Glue コンソールのナビゲーションペインで [Dev endpoints] ( 開発エンドポイント ) を選択します次に [Add endpoint] ( エンドポイントの追加 ) を選択します 2. vpc-demo-endpoint などのエンドポイント名を指定します 3. AWS Glue ETL ジョブ実行に使用する [IAM role] (IAM ロール ) と同様の権限を持つ IAM ロールを選択します詳細についてはステップ 2: AWS Glue 用の IAM ロールを作成する (p. 13) を参照してください [ 次へ ] を選択します 4. [Networking] ( ネットワーキング ) で Amazon VPC サブネットおよびセキュリティグループを指定しますこの情報はデータリソースに安全に接続できる開発エンドポイントを作成するために使用されますエンドポイントのプロパティを入力する際には以下の提案を考慮しますデータストアへの接続をすでに設定している場合は同じ接続を使用してエンドポイントの Amazon VPC サブネットおよびセキュリティグループを判断できますそれ以外の場合は個別にこれらのパラメータを指定します Amazon VPC の [DNS ホスト名の編集 ] が [ はい ] に設定されていることを確認してくださいこのパラメータは Amazon VPC コンソール ( で設定できます詳細については VPC での DNS のセットアップ (p. 24) を参照してくださいこのチュートリアルでは選択した Amazon VPC に Amazon S3 VPC エンドポイントがあることを確認してください Amazon S3 VPC エンドポイントを作成する方法については Amazon S3 における Amazon VPC エンドポイント (p. 25) を参照してください開発エンドポイントのパブリックサブネットを選択しますインターネットゲートウェイにルートを追加することによりサブネットをパブリックサブネットにすることができます IPv4 トラフィックの場合は [Destination] ( 送信先 ) /0 ルートを作成しインターネットゲートウェイ ID を [Target] ( ターゲット ) にしますサブネットのルートテーブルは NAT ゲートウェイではなくインターネットゲートウェイに関連付けられている必要がありますこの情報は Amazon VPC コンソール ( で設定できます以下に例を示します 116

AWS Glue 開発者ガイドチュートリアルの前提条件詳細についてはインターネットゲートウェイのルートテーブルを参照してくださいインターネットゲートウェイを作成する方法についてはインターネットゲートウェイを参照してくださいインバウンドの自己参照ルールがあるセキュリティグループを選択したことを確認しますこの情報は Amazon VPC コンソール (https://console.

124 AWS Glue 開発者ガイドチュートリアルの前提条件詳細についてはインターネットゲートウェイのルートテーブルを参照してくださいインターネットゲートウェイを作成する方法についてはインターネットゲートウェイを参照してくださいインバウンドの自己参照ルールがあるセキュリティグループを選択したことを確認しますこの情報は Amazon VPC コンソール ( で設定できます以下に例を示しますサブネットを設定する方法の詳細については開発エンドポイント用の環境の設定 (p. 29) を参照してください [ 次へ ] を選択します 5. [SSH Public Key] (SSH パブリックキー ) に SSH キー生成プログラムによって生成されたパブリックキーを入力します (Amazon EC2 キーペアは使用しないでください ) 対応するプライベートキーを保存し後で SSH を使用して開発用エンドポイントに接続します [ 次へ ] を選択します Note Microsoft Windows でキーを生成する場合は最新バージョンの PuTTYgen を使用して PuTTYgen ウィンドウから AWS Glue コンソール内にパブリックキーを貼り付けます RSA キーを生成しますパブリックキーを使用してファイルをアップロードしないでください代わりに [Public key for pasting into OpenSSH authorized_keys file] (OpenSSH authorized_keys ファイル内に貼り付けるパブリックキー ) フィールドで生成したキーを使用します PuTTY で対応するプライベートキー (.ppk) を使用して開発エンドポイントに接続します Windows で SSH を使用して開発エンドポイントに接続するには PuTTYgen の [Conversion] ( 変換 ) メニューを使用してプライベートキーを.ppk 形式から OpenSSH の.pem 形式に変換します詳細については PuTTY を使用した Windows から Linux インスタンスへの接続を参照してください 117

125 AWS Glue 開発者ガイドチュートリアル : ローカル Zeppelin ノートブック 6. [Review] ( 確認 ) で [Finish] ( 完了 ) を選択します開発エンドポイントが作成されたらプロビジョニングのステータスが [READY] ( 準備完了 ) になるのを待ちますこれでこのセクションのチュートリアルを試す準備ができましたチュートリアル : ローカル Apache Zeppelin ノートブックをセットアップして ETL スクリプトをテストしリモートでデバッグする (p. 118) チュートリアル : Amazon EC2 で Apache Zeppelin ノートブックをセットアップする (p. 121) チュートリアル : 開発エンドポイントで REPL シェルを使用する (p. 123) チュートリアル : ローカル Apache Zeppelin ノートブックをセットアップして ETL スクリプトをテストしリモートでデバッグするこのチュートリアルではローカルマシン上の Apache Zeppelin ノートブックを開発エンドポイントに接続してデプロイする前に AWS Glue ETL ( 抽出変換ロード ) スクリプトをインタラクティブに実行デバッグおよびテストできるようにしますこのチュートリアルではチュートリアルの前提条件 (p. 114) にまとめられているステップが実行済みであることを前提としています Apache Zeppelin ノートブックのインストール 1. ローカルマシンに Java の最新バージョンがインストールされていることを確認してください ( 最新バージョンについては Java のホームページを参照してください ) Microsoft Windows で実行している場合は JAVA_HOME 環境変数が適切な Java ディレクトリを指していることを確認しますこの変数を更新せずに Java が更新される可能性があります変数が存在しなくなったフォルダを指していると Zeppelin は起動に失敗します 2. Zeppelin のダウンロードページからローカルマシンに Apache Zeppelin ( すべてのインタプリタがあるバージョン ) をダウンロードしますダウンロードページのメニューバーで [Quick Start] ( クイックスタート ) を選択しインストール手順に従います [Quick Start] ( クイックスタート ) ページで説明されているとおりオペレーティングシステムに適した方法で Zeppelin を開始します Zeppelin 使用中ノートブックサーバーを開始するターミナルウィンドウは開けたままにしておきますサーバーが正常に起動されたら "Done, zeppelin server started." で終わる行がコンソールに表示されます 3. に移動してブラウザで Zeppelin を開きます 4. ブラウザの Zeppelin でページの右上隅にある [anonymous] ( 匿名 ) のドロップダウンメニューを開き [Interpreter] ( インタープリタ ) を選択します [interpreters] ( インタープリタ ) ページで spark を検索して右側にある [edit] ( 編集 ) を選択します以下の変更を加えます [Connect to existing process] ( 既存のプロセスに接続 ) チェックボックスを選択し [Host] ( ホスト ) を localhost に [Port] ( ポート ) を 9007 ( またはポート転送に使用している任意の他のポート ) に設定します [Properties] ( プロパティ ) で [master] ( マスター ) に yarn-client を設定します spark.executor.memory プロパティがある場合は [action] ( アクション ) 列で [x] を選択してそのプロパティを削除します spark.driver.memory プロパティがある場合は [action] ( アクション ) 列で [x] を選択してそのプロパティを削除します 118

126 AWS Glue 開発者ガイドチュートリアル : ローカル Zeppelin ノートブックページの下部にある [Save] ( 保存 ) を選択し次に [OK] を選択してインタープリタを更新して再起動することを確定しますブラウザの [back] ( 戻る ) ボタンを使用して Zeppelin 開始ページに戻ります DevEndpoint に接続するための SSH ポート転送の開始次に SSH ローカルポート転送を使用してローカルポート ( ここでは 9007) をリモート送信先 :9007 に転送します SSH セキュアシェルプロトコルへのアクセスができるターミナルウィンドウを開きます Microsoft Windows の場合 Git for Windows が提供する BASH シェルを使用するか Cygwin をインストールすることができます次のように変更した以下の SSH コマンドを実行します private-key-file-path を開発エンドポイントを作成するのに使用したパブリックキーに対応するプライベートキーを含む.pem ファイルへのパスに置き換えます 9007 とは異なるポートを転送している場合は 9007 をローカルで実際に使用しているポート番号に置き換えます (2 番目の 9007 はリモートポートです ) dev-endpoint-public-dns を開発エンドポイントのパブリック DNS アドレスで置き換えますこのアドレスを確認するには AWS Glue コンソールで開発エンドポイントに移動して名前を選択し [Endpoint details] ( エンドポイントの詳細 ) ページに一覧表示されている [Public address] ( パブリックアドレス ) をコピーします ssh -i private-key-file-path -NTL 9007: :9007 glue@dev-endpoint-public-dns 以下のような警告メッセージが表示されます The authenticity of host 'ec2-xx-xxx-xxx-xx.us-west-2.compute.amazonaws.com (xx.xxx.xxx.xx)' can't be established. ECDSA key fingerprint is SHA256:4e97875Brt+1wKzRko +JflSnp21X7aTP3BcFnHYLEts. Are you sure you want to continue connecting (yes/no)? yes と入力し Zeppelin ノートブックを使用中はターミナルウィンドウを開けたままにしておきますノートブックの段落におけるシンプルスクリプトフラグメントの実行 Zeppelin 開始ページで [Create new note] ( 新しいメモの作成 ) を選択します新しいメモに Legislators という名前を付け spark がインタープリタであることを確認します次のスクリプトフラグメントをノートブックに入力して実行します AWS Glue データカタログにあるその人物のメタデータを使用してサンプルデータから DynamicFrame を作成します次にこのデータの項目数およびスキーマが出力されます %pyspark import sys from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.transforms import * 119

127 AWS Glue 開発者ガイドチュートリアル : ローカル Zeppelin ノートブック # Create a Glue context gluecontext = GlueContext(SparkContext.getOrCreate()) # Create a DynamicFrame using the 'persons_json' table persons_dyf = gluecontext.create_dynamic_frame.from_catalog(database="legislators", table_name="persons_json") # Print out information about this data print "Count: ", persons_dyf.count() persons_dyf.printschema() スクリプトの出力は次のとおりです Count: 1961 root -- family_name: string -- name: string -- links: array -- element: struct -- note: string -- url: string -- gender: string -- image: string -- identifiers: array -- element: struct -- scheme: string -- identifier: string -- other_names: array -- element: struct -- note: string -- name: string -- lang: string -- sort_name: string -- images: array -- element: struct -- url: string -- given_name: string -- birth_date: string -- id: string -- contact_details: array -- element: struct -- type: string -- value: string -- death_date: string ローカルノートブック接続のトラブルシューティング接続拒否エラーが発生した場合古い開発エンドポイントを使用している可能性があります新しい開発エンドポイントを作成して再接続してみます接続がタイムアウトになったり何らかの理由で機能しなくなった場合に復元するのに以下のステップの実行が必要な場合があります 1. Zeppelin でページの右上隅にあるドロップダウンメニューの [Interpretors] ( インタープリタ ) を選択します [interpreters] ( インタプリタ ) ページで spark を検索します [edit] ( 編集 ) を選択し [Connect to existing process] ( 既存のプロセスに接続 ) チェックボックスをオフにしますページの下部にある [Save] ( 保存 ) を選択します 2. 前述のとおり SSH ポート転送を開始します 3. Zeppelin で spark インタープリタの [Connect to existing process] ( 既存のプロセスに接続 ) 設定を再度有効にして再び保存します 120

128 AWS Glue 開発者ガイドチュートリアル : Amazon EC2 Zeppelin ノートブックこのようにインタープリタをリセットすることで接続が復元するはずですこれを実現するもう 1 つの方法は [Interpreters] ( インタープリタ ) ページで Spark インタープリタの [restart] ( 再起動 ) を選択することですその後リモートインタープリタが確実に再起動されるように最大 30 秒間待機しますチュートリアル : Amazon EC2 で Apache Zeppelin ノートブックをセットアップするこのチュートリアルでは Amazon EC2 インスタンスでホストされる Apache Zeppelin ノートブックサーバーを作成しますノートブックは開発エンドポイントのいずれかに接続してデプロイする前に AWS Glue ETL ( 抽出変換ロード ) スクリプトをインタラクティブに実行デバッグおよびテストできるようにしますこのチュートリアルではチュートリアルの前提条件 (p. 114) にまとめられているステップが実行済みであることを前提としています Amazon EC2 インスタンスでの Apache Zeppelin ノートブックサーバーの作成 Amazon EC2 でノートブックサーバーを作成するには AWS CloudFormation Amazon EC2 およびその他のサービスでリソースを作成するためのアクセス許可が必要です必要なユーザーアクセス権限の詳細についてはステップ 3: AWS Glue にアクセスする IAM ユーザーにポリシーをアタッチする (p. 14) を参照してください 1. AWS Glue コンソールで [Dev endpoints] ( 開発エンドポイント ) を選択して開発エンドポイントのリストに移動します 2. 横にあるボックスを選択してエンドポイントを選択しますそれから [Actions] ( アクション ) を選択し [Create notebook server] ( ノートブックサーバーの作成 ) を選択しますノートブックサーバーをホストするため Amazon EC2 インスタンスは開発エンドポイントで AWS CloudFormation スタックを使用してスピンアップされ Zeppelin ノートブック HTTP サーバーはポート 443 で起動されます 3. 英数字とハイフンのみを使用し demo-cf などの AWS CloudFormation スタックサーバー名を入力します 4. ステップ 5: ノートブック用の IAM ロールを作成する (p. 23) で説明されているように Amazon EC2 への信頼関係を設定した IAM ロールを選択します 5. Amazon EC2 コンソール ( で生成した Amazon EC2 キーペアを選択するか [Create EC2 key pair] (EC2 キーペアの作成 ) を選択して新しいキーペアを生成しますそのペアのプライベートキー部分をダウンロードして保存した場所を忘れないでくださいこのキーペアは開発エンドポイント作成時に使用した SSH キーとは異なります (Amazon EC2 が使用するキーは 2048-bit SSH-2 RSA キーです ) Amazon EC2 キーについての詳細は Amazon EC2 のキーペアを参照してください誤って変更されないようプライベートキーファイルが書き込み禁止であるのを確認することを一般的にお勧めします macos および Linux システムの場合ターミナルを開いて chmod 400 private-key-file path を入力することでこれを行います Windows の場合コンソールを開いて attrib -r private-key-file path を入力します 6. ユーザー名とパスワードを選択して Zeppelin ノートブックにアクセスします 7. ノートブック状態を保存する先の Amazon S3 パスを選択します 8. [Create] を選択します AWS CloudFormation コンソールの [Events] ( イベント ) タブ ( cloudformation) で AWS CloudFormation スタックのステータスを表示できます Amazon EC2 コンソール 121

129 AWS Glue 開発者ガイドチュートリアル : Amazon EC2 Zeppelin ノートブック ( で AWS CloudFormation が作成した Amazon EC2 インスタンスを表示できますキー名 aws-glue-dev-endpoint と開発エンドポイントの名前の値でタグ付けされたインスタンスを検索しますノートブックサーバーの作成後ステータスは Amazon EC2 で CREATE_COMPLETE に変わりますサーバーに関する詳細情報は開発エンドポイントの詳細ページにも表示されます作成が完了すると新しいサーバーのノートブックに接続できます Note 作成した開発エンドポイントに関連付けられているすべてのノートブックサーバーを管理しますしたがって開発エンドポイントを削除した場合ノートブックサーバーを削除するには AWS CloudFormation コンソールで AWS CloudFormation スタックを削除する必要があります Amazon EC2 でのノートブックサーバーへの接続 1. AWS Glue コンソールで [Dev endpoints] ( 開発エンドポイント ) を選択して開発エンドポイントのリストに移動しますノートブックサーバーを作成した開発エンドポイントの名前を選択します名前を選択すると詳細ページが開きます 2. [Endpoint details] ( エンドポイントの詳細 ) ページの下部で Notebook Server URL ( ノートブックサーバー URL) というラベルが付いた URL をコピーします 3. ウェブブラウザを開きそのノートブックサーバー URL を貼り付けますこれによりポート 443 で HTTPS を使用してサーバーにアクセスできますブラウザがサーバーの証明書を認識しない場合がありますこの場合保護を上書きして続行する必要があります 4. ノートブックサーバーの作成時に指定したユーザー名とパスワードを使用して Zeppelin にログインしますノートブックの段落におけるシンプルスクリプトフラグメントの実行 1. [Create new note] ( 新しいメモの作成 ) を選択してそれに Legislators という名前を付けます spark が Default Interpreter ( デフォルトインタープリタ ) であることを確認します 2. ステートメント spark.version を入力して実行することでノートブックが正しくセットアップされていることを検証できますこれはノートブックサーバーで実行されている Apache Spark のバージョンを返します 3. 次のスクリプトをノートブックの次の段落に入力して実行しますこのスクリプトはクローラが作成した persons_json テーブルからメタデータを読み取り基になるデータから DynamicFrame を作成しレコード数とデータのスキーマを表示します %pyspark import sys from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.transforms import * from awsglue.utils import getresolvedoptions # Create a Glue context gluecontext = GlueContext(SparkContext.getOrCreate()) # Create a DynamicFrame using the 'persons_json' table persons_dyf = gluecontext.create_dynamic_frame.from_catalog(database="legislators", table_name="persons_json") # Print out information about this data print "Count: ", persons_dyf.count() 122

130 AWS Glue 開発者ガイドチュートリアル : REPL シェルの使用 persons_dyf.printschema() スクリプトの出力は以下のようになります Count: 1961 root -- family_name: string -- name: string -- links: array -- element: struct -- note: string -- url: string -- gender: string -- image: string -- identifiers: array -- element: struct -- scheme: string -- identifier: string -- other_names: array -- element: struct -- note: string -- name: string -- lang: string -- sort_name: string -- images: array -- element: struct -- url: string -- given_name: string -- birth_date: string -- id: string -- contact_details: array -- element: struct -- type: string -- value: string -- death_date: string チュートリアル : 開発エンドポイントで REPL シェルを使用する AWS Glue では開発エンドポイントを作成してから REPL (Read-Evaluate-Print Loop) シェルを呼び出して PySpark コードを増分的に実行し ETL スクリプトをデプロイする前にインタラクティブにデバッグできるようにしますこのチュートリアルではチュートリアルの前提条件 (p. 114) にまとめられているステップが実行済みであることを前提としています 1. AWS Glue コンソールで [Dev endpoints] ( 開発エンドポイント ) を選択して開発エンドポイントのリストに移動します開発エンドポイントの名前を選択して詳細ページを開きます 2. [SSH to Python REPL] (Python REPL への SSH) というラベルが付いた SSH コマンドをコピーしテキストエディタに貼り付けます <private-key.pem> テキストを開発エンドポイントの作成に使用したパブリックキーに対応するプライベートキーの.pem ファイルへのパスに置き換えますパスには区切り記号としてバックスラッシュではなくスラッシュを使用します 3. ローカルコンピュータで SSH コマンドを実行できるターミナルウィンドウを開き編集した SSH コマンドを貼り付けますコマンドを実行します出力は次のようになります download: s3://aws-glue-jes-prod-us-east-1-assets/etl/jars/glue-assembly.jar to../../ usr/share/aws/glue/etl/jars/glue-assembly.jar 123

131 AWS Glue 開発者ガイドチュートリアル : PyCharm Professional を使用する download: s3://aws-glue-jes-prod-us-east-1-assets/etl/python/pyglue.zip to../../usr/ share/aws/glue/etl/python/pyglue.zip Python (default, Sep , 22:14:00) [GCC (Red Hat )] on linux2 Type "help", "copyright", "credits" or "license" for more information. Setting default log level to "WARN". To adjust logging level use sc.setloglevel(newlevel). For SparkR, use setloglevel(newlevel). SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/usr/share/aws/glue/etl/jars/glue-assembly.jar!/org/ slf4j/impl/staticloggerbinder.class] SLF4J: Found binding in [jar:file:/usr/lib/spark/jars/slf4j-log4j jar!/org/ slf4j/impl/staticloggerbinder.class] SLF4J: See for an explanation. SLF4J: Actual binding is of type [org.slf4j.impl.log4jloggerfactory] Welcome to / / / / \ \/ _ \/ _ `/ / '_/ / /. /\_,_/_/ /_/\_\ version /_/ Using Python version (default, Sep :14:00) SparkSession available as 'spark'. >>> 4. ステートメント print spark.version を入力して REPL シェルが正常に動作しているかテストします Spark のバージョンが表示されれば REPL を使用する準備ができたことになります 5. シェルで次のシンプルなスクリプトを行単位で実行することができます import sys from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.transforms import * gluecontext = GlueContext(SparkContext.getOrCreate()) persons_dyf = gluecontext.create_dynamic_frame.from_catalog(database="legislators", table_name="persons_json") print "Count: ", persons_dyf.count() persons_dyf.printschema() チュートリアル : 開発エンドポイントで PyCharm Professional をセットアップするこのチュートリアルではローカルマシンで実行中の PyCharm Professional Python IDE を開発エンドポイントに接続し AWS Glue ETL ( 抽出転送およびロード ) スクリプトをデプロイ前にインタラクティブに実行デバッグおよびテストします開発エンドポイントをインタラクティブに接続するには PyCharm Professional がインストールされている必要があります無料版を使用してこれを行うことはできませんこのチュートリアルではチュートリアルの前提条件 (p. 114) にまとめられているステップが実行済みであることを前提としています PyCharm Professional を開発エンドポイントに接続する 1. PyCharm に legislators という名前の新しい純粋な Python プロジェクトを作成します 2. プロジェクトに get_person_schema.py という名前のファイルを次の内容で作成します 124

132 AWS Glue 開発者ガイドチュートリアル : PyCharm Professional を使用する import sys import pydevd from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.transforms import * def main(): # Invoke pydevd pydevd.settrace(' ', port=9001, stdouttoserver=true, stderrtoserver=true) # Create a Glue context gluecontext = GlueContext(SparkContext.getOrCreate()) # Create a DynamicFrame using the 'persons_json' table persons_dyf = gluecontext.create_dynamic_frame.from_catalog(database="legislators", table_name="persons_json") # Print out information about this data print "Count: ", persons_dyf.count() persons_dyf.printschema() if name == " main ": main() 3. AWS Glue Python ライブラリファイル PyGlue.zip をからローカルマシンの便利な場所にダウンロードします 4. PyCharm のプロジェクトのコンテンツルートとして PyGlue.zip を追加します PyCharm で [File] ( ファイル ) [Settings] ( 設定 ) の順に選択し [Settings] ( 設定 ) ダイアログボックスを開きます ( ツールバーの歯車とレンチのアイコンを使用することもできますまたは Ctrl +Alt+S を押します ) legislators プロジェクトを展開し [Project Structure] ( プロジェクト構造 ) を選択します次に右ペインで [+Add Content Root] (+ コンテンツルートの追加 ) を選択します PyGlue.zip を保存した場所に移動して選択し [Apply] ( 適用 ) を選択します [Settings] ( 設定 ) 画面は以下のようになります 125

133 AWS Glue 開発者ガイドチュートリアル : PyCharm Professional を使用する [Apply] ( 適用 ) を選択した後は [Settings] ( 設定 ) ダイアログボックスを開いたままにします 5. デプロイオプションを設定し SFTP を使用してローカルスクリプトを開発エンドポイントにアップロードします ( この機能は PyCharm Professional でのみ使用できます ) [Settings] ( 設定 ) ダイアログボックスで [Build, Execution, Deployment] ( ビルド実行デプロイ ) セクションを展開します [Deployment] ( デプロイ ) サブセクションを選択します中央のペインの一番上にある [+] アイコンを選択し新しいサーバーを追加します名前をつけて [Type] ( タイプ ) を SFTP に設定します詳細ページに示されているように [SFTP host] (SFTP ホスト ) を開発エンドポイントの [Public address] ( パブリックアドレス ) に設定します ( 詳細ページを表示するには AWS Glue コンソールで開発エンドポイントの名前を選択します ) [User name] ( ユーザー名 ) を glue に設定します [Auth type] ( 認証タイプ ) を [Key pair (OpenSSH or Putty)] ( キーペア OpenSSH または Putty) に設定します開発エンドポイントのプライベートキーファイルがある場所を参照しプライベートキーファイルを設定します PyCharm はキータイプとして DSA RSA ECDSA OpenSSH のみサポートします最新バージョンの ssh-keygen を使用して PyCharm が受け入れるキーペアタイプを生成できます [Test SFTP connection] (SFTP 接続のテスト ) を選択し接続をテストします接続が成功したら [Apply] ( 適用 ) を選択します [Settings] ( 設定 ) 画面は以下のようになります 126

134 AWS Glue 開発者ガイドチュートリアル : PyCharm Professional を使用する再び [Apply] ( 適用 ) を選択した後は [Settings] ( 設定 ) ダイアログボックスを開いたままにします 6. ローカルディレクトリをデプロイ用のリモートディレクトリにマッピングします右のペインの [Deployment] ( デプロイ ) ページで [Mappings] ( マッピング ) と書かれた中央上部のタブを選択します [Deployment Path] ( デプロイパス ) 列でプロジェクトパスのデプロイ用に /home/glue/ scripts/ の下にパスを入力します [Apply] を選択します [Settings] ( 設定 ) 画面は以下のようになります 127

開発エンドポイントにスクリプトをデプロイするには [Tools] ( ツール ) [Deployment] ( デプロイ )

135 AWS Glue 開発者ガイドチュートリアル : PyCharm Professional を使用する [OK] を選択し [ Settings] ダイアログボックスを閉じます開発エンドポイントにスクリプトをデプロイする開発エンドポイントにスクリプトをデプロイするには [Tools] ( ツール ) [Deployment] ( デプロイ ) の順に選択した後次の図に示すように開発エンドポイントをセットアップする名前を選択しますスクリプトがデプロイされた後画面の下部は次のようになります 128

AWS Glue 開発者ガイドチュートリアル : PyCharm Professional を使用する localhost とローカルポートでデバッグサーバーを起動するデバッグサーバーを起動するには次の手順を実行します 1. [Run] ( 実行 ) [Edit Configuration] ( 設定の編集 ) の順に選択します 2.

この画面の手順の項目 2 と 3 に注目します作成したスクリプトファイルは pydevd をインポートしますただし settrace を呼び出すと localhost を 169.254.76.0 に置き換えますこれは開発エンドポイントにアクセスできる特別なリンクのローカル IP アドレスです 5.

136 AWS Glue 開発者ガイドチュートリアル : PyCharm Professional を使用する localhost とローカルポートでデバッグサーバーを起動するデバッグサーバーを起動するには次の手順を実行します 1. [Run] ( 実行 ) [Edit Configuration] ( 設定の編集 ) の順に選択します 2. 左ペインの [Defaults] ( デフォルト ) を展開し [Python Remote Debug] (Python リモートデバッグ ) を選択します 3. [Port] ( ポート ) に 9001 などのポート番号を入力します 4. この画面の手順の項目 2 と 3 に注目します作成したスクリプトファイルは pydevd をインポートしますただし settrace を呼び出すと localhost をに置き換えますこれは開発エンドポイントにアクセスできる特別なリンクのローカル IP アドレスです 5. [Apply] ( 適用 ) を選択してこのデフォルトの設定を保存します 6. 画面の上部にある [+] アイコンを選択し先程保存したデフォルトに基づいて新しい設定を作成しますドロップダウンメニューから [Python Remote Debug] (Python リモートデバッグ ) を選択しますこの設定に demodevendpoint と名前を付け [OK] を選択します 7. [Run] ( 実行 ) メニューで [Debug 'demodevendpoint'] ('demodevendpoint' のデバッグ ) を選択しますこれで画面は以下のようになります 129

AWS Glue 開発者ガイドチュートリアル : PyCharm Professional を使用するポート転送を開始する SSH によるサイレントモードリモートポート転送を呼び出すには Bash ( または Windows Git Bash など ) の SSH をサポートするターミナルウィンドウを開きます以下の置換を使用してこのコマンドを入力します ssh -i

137 AWS Glue 開発者ガイドチュートリアル : PyCharm Professional を使用するポート転送を開始する SSH によるサイレントモードリモートポート転送を呼び出すには Bash ( または Windows Git Bash など ) の SSH をサポートするターミナルウィンドウを開きます以下の置換を使用してこのコマンドを入力します ssh -i private-key-file-path -nnt -g -R :9001:localhost:9001 glue@ec compute-1.amazonaws.com 置換 private-key-file-path を開発エンドポイントのパブリックキーに対応するプライベートキーの.pem ファイルへのパスに置き換えます ec compute-1.amazonaws.com を開発エンドポイントのパブリックアドレスで置き換えます AWS Glue コンソールで [Dev endpoints] ( 開発エンドポイント ) を選択してパブリックアドレスを確認できます次に開発エンドポイントの名前を選択して [Endpoint details] ( エンドポイントの詳細 ) ページを開きます開発エンドポイントでスクリプトを実行する開発エンドポイントでスクリプトを実行するには SSH をサポートする別のターミナルウィンドウを開きこのコマンドを以下で置き換えて入力します ssh -i private-key-file-path \ 130

$AWS Glue 開発者ガイドコンソールでの開発エンドポイント glue@ec2-12-345-678-9.compute-1.amazonaws.com \ -t gluepython deployed-script-path/script-name 置換 private-key-file-path を開発エンドポイントのパブリックキーに対応するプライベートキーの.$

138 AWS Glue 開発者ガイドコンソールでの開発エンドポイント \ -t gluepython deployed-script-path/script-name 置換 private-key-file-path を開発エンドポイントのパブリックキーに対応するプライベートキーの.pem ファイルへのパスに置き換えます ec compute-1.amazonaws.com を開発エンドポイントのパブリックアドレスで置き換えます AWS Glue コンソールで [Dev endpoints] ( 開発エンドポイント ) へ移動してパブリックアドレスを確認できます次に開発エンドポイントの名前を選択して [Endpoint details] ( エンドポイントの詳細 ) ページを開きます deployed-script-path を [Deployment Mappings] ( デプロイマッピング ) タブで入力したパスに置き換えます ( 例 : /home/glue/scripts/legislators/) script-name をアップロードしたスクリプトの名前に置き換えます ( 例 : get_person_schema.py) これで PyCharm はリモートでデバッグされたものに相当するローカルソースファイルを提供するようプロンプトを表示します [Autodetect] ( 自動検出 ) を選択しますこれで開発エンドポイントでスクリプトをリモートでデバッグするためのセットアップができました AWS Glue コンソールでの開発エンドポイントの操作開発エンドポイントは AWS Glue スクリプトの開発およびテストに使用できる環境です AWS Glue コンソールの [Dev endpoints] ( 開発エンドポイント ) タブで作成したすべての開発エンドポイントが一覧表示されます開発エンドポイントの SSH キーを追加削除または変更できます開発エンドポイントで使用するノートブックを作成することもできます 131

139 AWS Glue 開発者ガイドコンソールでの開発エンドポイント開発エンドポイントの詳細を表示するにはリスト内のエンドポイントを選択しますエンドポイントの詳細には [Add endpoint] ( エンドポイントの追加 ) ウィザードを使用して作成したときに定義した情報が含まれますまたエンドポイントおよびエンドポイントを使用するノートブックに接続するために必要な情報も含まれていますチュートリアルのトピックの指示に従って開発エンドポイントをノートブックで使用する詳しい方法を確認してください開発エンドポイントのいくつかのプロパティを次に示しますエンドポイント名エンドポイントを作成するときに付与する一意の名前プロビジョニングのステータスエンドポイントが作成されているか (PROVISIONING) 使用できる状態か (READY) 終了処理中か (UNHEALTHY_TERMINATING) 終了したか (UNHEALTHY_TERMINATED) 失敗したか (FAILED) または更新中 (UPDATING) かどうかの説明失敗の理由開発エンドポイントの障害の理由パブリックアドレス開発エンドポイントへの接続アドレスパブリックキーの内容開発エンドポイントに関連付けられた現在のパブリック SSH キー Python REPL への SSH コンピュータ ( ノートパソコン ) でターミナルウィンドウを開きこのコマンドを入力し開発エンドポイントと REPL (Read-Eval-Print Loop) シェルとして操作できます Scala REPL への SSH コンピュータ ( ノートパソコン ) でターミナルウィンドウを開きこのコマンドを入力し開発エンドポイントと REPL (Read-Eval-Print Loop) シェルとして操作できますリモートインタープリタへの SSH トンネルコンピュータ ( ノートパソコン ) でターミナルウィンドウを開きこのコマンドを入力し開発エンドポイントへのトンネルを開くことができます次にローカル Apache Zeppelin ノートブックを開きリモートインタープリタとして開発エンドポイントを指定しますインタープリタが設定されたらノートブック内のすべてのノートを使用できます最終更新日時前回この開発エンドポイントが変更されました実行時間開発エンドポイントがプロビジョニングされて READY になった時間エンドポイントを追加するエンドポイントを追加するには AWS マネジメントコンソールにサインインし AWS Glue コンソール ( を開きます [Dev endpoints] ( 開発エンドポイント ) タブを選択し続いて [Add endpoint] ( エンドポイントの追加 ) を選択します AWS Glue [Add endpoint] ( エンドポイントの追加 ) ウィザードの手順に従ってエンドポイントを作成するために必要なプロパティを提供します開発エンドポイントを作成するときは後で開発エンドポイント 132

140 AWS Glue 開発者ガイドコンソールでの開発エンドポイントにアクセスするために SSH プライベートキーを保存します以下のオプションフィールドを指定することができますデータ処理単位 (DPU) 開発エンドポイントで使用する DPU AWS Glue の数を指定できます Python ライブラリパススクリプトで必要とされる Python ライブラリへのカンマ区切りの Amazon Simple Storage Service (Amazon S3) パスです Note 依存 JARS パス純粋な Python ライブラリのみを使用できます pandas Python データ解析ライブラリなど C 拡張機能に依存するライブラリはまだサポートされていませんスクリプトで必要とされる JAR ファイルへのカンマ区切りの Amazon S3 パスです Note 現在純粋な Java または Scala (2.11) ライブラリのみを使用できます Amazon EC2 でホストされているノートブックを作成するローカルマシンに Apache Zeppelin ノートブックをインストールしそれを使用して開発エンドポイントで ETL スクリプトをデバッグおよびテストできますまたは Amazon EC2 インスタンスで Zeppelin ノートブックをホストすることもできます AWS Glue [Create notebook server] ( ノートブックサーバーを作成 ) ウィンドウは Apache Zeppelin ノートブック使用するのに必要なノートブックサーバーを作成するために必要なプロパティをリクエストします Note 作成した開発エンドポイントに関連付けられているすべてのノートブックサーバーを管理しますしたがって開発エンドポイントを削除した場合ノートブックサーバーを削除するには AWS CloudFormation コンソールで AWS CloudFormation スタックを削除する必要があります次のプロパティを指定する必要があります CloudFormation スタック名開発エンドポイントの AWS CloudFormation スタックで作成されたノートブックの名前です名前には aws-glue- が前に付けられますこのノートブックは Amazon EC2 インスタンスで実行されます Zeppelin の HTTP サーバーがポート 443 で開始されます IAM ロール Amazon EC2 インスタンスプロファイルと正確に一致する Amazon EC2 への信頼関係を持つロールです IAM コンソールでロールを作成し [Amazon EC2] を選択しノートブックのポリシー [AWSGlueServiceNotebookRoleDefault] などをアタッチします詳細についてはステップ 5: ノートブック用の IAM ロールを作成する (p. 23) を参照してくださいインスタンスプロファイルの詳細についてはインスタンスプロファイルを参照してください EC2 key pair ノートブックへのアクセスに使用する Amazon EC2 キーです Amazon EC2 コンソール ( console.aws.amazon.com/ec2/) でキーペアを作成できます詳細については Amazon EC2 のキーペアを参照してください 133

141 AWS Glue 開発者ガイドコンソールでの開発エンドポイント開発エンドポイントにアクセスするための SSH プライベートキーノートブックサーバーに関連付けられている開発エンドポイントに接続するために使用されるプライベートキーですこのプライベートキーは開発エンドポイントの現在の SSH パブリックキーに対応しますノートブックのユーザー名 Zeppelin notebook へのアクセスに使用するユーザー名ですノートブックのパスワード Zeppelin notebook へのアクセスに使用するパスワードです引用符やバックティックなどオペレーティング環境で解釈される文字を含めることはできませんノートブックの S3 パスノートブックの状態が保存される場所です Zeppelin ノートブックへの Amazon S3 パスは s3:// bucket-name/username の形式に従う必要がありますサブフォルダはパスに含めることはできませんサブネットノートブックサーバーで利用可能なサブネットですアスタリスク (*) はサブネットにインターネットからアクセスできることを示しますサブネットにアクセスできるようにサブネットのルートテーブルにインターネットゲートウェイ (igw) が必要です詳細については開発エンドポイント用の環境の設定 (p. 29) を参照してくださいセキュリティグループノートブックサーバーで利用可能なセキュリティグループですセキュリティグループには HTTPS ( ポート 443) と SSH ( ポート 22) のインバウンドルールが必要ですルールのソースが /0 であるかノートブックに接続しているマシンの IP アドレスであることを確認しますノートブックサーバーのタグ AWS CloudFormation スタックには常に aws-glue-dev-endpoint というキーと開発エンドポイントの名前の値がタグ付けされています AWS CloudFormation スタックにタグを追加できます AWS Glue の [Development endpoints] ( 開発エンドポイント ) 詳細ウィンドウには開発エンドポイントで作成された各ノートブックのセクションが表示されます次のプロパティが表示されます EC インスタンスノートブックをホストするために作成される Amazon EC2 インスタンスの名前ですこれは Amazon EC2 コンソール ( にリンクしており aws-glue-dev-endpoint というキーと開発エンドポイントの名前の値でインスタンスにタグ付けされています SSH から EC2 サーバーへのコマンドこのコマンドをターミナルウィンドウに入力してノートブックを実行している Amazon EC2 インスタンスに接続しますノートブックサーバーの URL この URL をブラウザに入力してローカルポート上のノートブックに接続します CloudFormation スタックノートブックサーバーの作成に使用された AWS CloudFormation スタックの名前です 134

142 AWS Glue 開発者ガイド AWS Glue の実行とモニタリング ETL ( 抽出変換およびロード ) ジョブの実行を自動化することができます AWS Glue はモニタリングできるクローラとジョブのメトリックも提供します必要なメタデータを使用して AWS Glue データカタログを設定すると AWS Glue は環境のヘルスチェックに関する統計を提供しますクローラとジョブの呼び出しを cron に基づく時間ベースのスケジュールで自動化することができますイベントベースのトリガーが発生したときにジョブをトリガーすることもできます AWS Glue の主な目的はデータをソースからターゲットに抽出して変換する簡単な方法を提供することですこの目的を達成するために ETL ジョブは次の一般的な手順に従います ( 次の図を参照 ) 1. トリガーが発生してジョブの実行が開始されますこのイベントは定期的なスケジュールでまたは依存関係を満たすために設定できます 2. ジョブはソースからデータを抽出します必要に応じて接続プロパティを使用してソースにアクセスします 3. ジョブは作成したスクリプトと引数の値を使用してデータを変換しますこのスクリプトにはデータを変換する Scala または PySpark の Python コードが含まれています 4. 変換されたデータはデータターゲットにロードされます必要に応じて接続プロパティを使用してターゲットにアクセスします 5. ジョブの実行に関する統計が収集され Data Catalog に書き込まれます次の図はこれら 5 つのステップを含む ETL ワークフローを示しています 135

143 AWS Glue 開発者ガイド自動化ツールトピック自動モニタリングツール (p. 136) ジョブとクローラの時間ベースのスケジュール (p. 136) ジョブのブックマーク (p. 138) CloudWatch イベントによる AWS Glue の自動化 (p. 139) AWS CloudTrail を使用した AWS Glue オペレーションのログ記録 (p. 139) 自動モニタリングツールモニタリングは AWS Glue と他の AWS ソリューションの信頼性可用性パフォーマンスを維持するための重要な要素です AWS には AWS Glue を監視したり問題が発生したときに報告したり必要に応じて自動的にアクションを実行するために使用する監視ツールが用意されています以下の自動化されたモニタリングツールを使用して AWS Glue を監視し問題が発生したときにレポートできます Amazon CloudWatch Events は AWS リソースの変更を示すシステムイベントのほぼリアルタイムのストリームを提供します CloudWatch イベントは自動イベント駆動型コンピューティングを有効にします特定のイベントを監視しこれらのイベントが発生したときに他の AWS サービスで自動アクションをトリガーするルールを記述できます詳細については Amazon CloudWatch Events ユーザーガイドを参照してください Amazon CloudWatch Logs を使用して Amazon EC2 インスタンス AWS CloudTrail その他のソースのログファイルをモニタリング保存しそれらのファイルにアクセスできます CloudWatch Logs はログファイル内の情報を監視し特定のしきい値が満たされたときに通知しますまた耐久性の高いストレージにログデータをアーカイブすることもできます詳細については Amazon CloudWatch Logs User Guide を参照してください AWS CloudTrail は AWS アカウントによってまたは AWS アカウントに代わって行われた API 呼び出しおよび関連イベントを取得し指定した Amazon S3 バケットにログファイルを配信します AWS を呼び出すユーザーとアカウント呼び出しの送信元 IP アドレスおよび呼び出しが発生した時刻を特定できます詳細については AWS CloudTrail User Guide を参照してくださいジョブとクローラの時間ベースのスケジュール AWS Glue ではジョブとクローラの時間ベースのスケジュールを定義できますこれらのスケジュールの定義は Unix 互換の cron 構文を使用します協定世界時 (UTC) で時間を指定しますスケジュールの最小精度は 5 分です cron 式 Cron 式には 6 つの必須フィールドがありそれらは空白で区切られます構文 cron(fields) フィールド値ワイルドカード分 0 59, - * / 時間 0 23, - * / 日 1 31, - *? / L W 136

144 AWS Glue 開発者ガイド cron 式フィールド値ワイルドカード月 1 12 or JAN-DEC, - * / 曜日 1 7 or SUN-SAT, - *? / L 年 , - * / ワイルドカードワイルドカード, ( カンマ ) には追加の値が含まれます Month フィールドの JAN,FEB,MAR は 1 月 2 月 3 月を含みますワイルドカード - ( ダッシュ ) は範囲を指定します Day フィールドの 1 15 は指定した月の 1 日から 15 日を含みますワイルドカード * ( アスタリスク ) にはフィールドのすべての値が含まれます Hours フィールドの * にはすべての時間が含まれていますワイルドカード / ( スラッシュ ) で増分を指定します Minutes フィールドで 1/10 と入力してその時間の最初の分から始めて 10 分毎を指定できます (11 分 21 分 31 分など )? ( 疑問符 ) ワイルドカードは任意を意味します Day-of-month フィールドで 7 と入力し 7 日が何曜日であってもかまわない場合 Day-of-week フィールドに? を入力しますフィールドまたはフィールドのワイルドカード L は月または週の最終日を指定します Day-ofmonthDay-of-week フィールドのワイルドカード W は平日を指定します Day-of-monthDay-of-month フィールドで 3W は月の 3 番目の平日に最も近い日を指定します制限 cron 式の Day-of-month フィールドと Day-of-week フィールドを同時に指定することはできません一方のフィールドに値を指定するともう一方のフィールドで? ( 疑問符 ) を使用する必要があります 5 分より短い間隔を導き出す cron 式はサポートされていません曜日フィールドと日フィールドの値の両方を指定することはまだ完全にはサポートされていません ( 現時点では? 文字をこれらのフィールドのいずれかで使用する必要があります ) 例スケジュールを作成するときは以下のサンプルの cron 文字列を使用できます分時間日月曜日年意味 0 10 * *? * 毎日午前 10:00 (UTC) に実行 * *? * 毎日午後 12:15 (UTC) に実行 0 18? * MON-FRI * 毎週月曜日から金曜日まで午後 6:00 (UTC) に実行 137

145 AWS Glue 開発者ガイドジョブのブックマーク分時間日月曜日年意味 *? * 毎月 1 日の午前 8:00 (UTC) に実行 0/15 * * *? * 15 分ごとに実行 0/10 *? * MON-FRI * 月曜日から金曜日まで 10 分ごとに実行 0/5 8 17? * MON-FRI * 月曜日から金曜日まで午前 8:00 から午後 5:55(UTC) の間に 5 分ごとに実行ジョブのブックマーク AWS Glue は以前の抽出変換およびロード (ETL) のジョブの実行によりすでに処理されたデータを追跡しますこの継続状態の情報はジョブのブックマークと呼ばれていますジョブのブックマークはソース変換ターゲットなどさまざまなジョブの要素で構成されていますたとえば ETL ジョブが Amazon S3 ファイルで新しいパーティションを読み込むとします AWS Glue はそのジョブにより正常に処理されたパーティションを追跡し処理の重複およびジョブのターゲットデータストアにデータが重複するのを防ぎます現時点ではジョブのブックマークは一部の Amazon Simple Storage Service (Amazon S3) ソースおよび Relationalize 変換に実装されています AWS Glue では Amazon S3 のソース形式が JSON CSV Avro および XML のジョブのブックマークをサポートしています Parquet と ORC はサポートされていません AWS Glue コンソールでジョブのブックマークオプションはジョブが開始したときにパラメータとして渡されますジョブのブックマーク Enable Disable 一時停止説明以前に処理されたデータを追跡しますジョブが実行されると最後のチェックポイントから新しいデータを処理します常にデータセット全体を処理します以前のジョブ実行の出力はユーザーが管理しますこれがデフォルト値です最後の実行からの増分データを処理します後続の実行が最後のブックマークからのデータを処理するように状態についての情報を更新しないでください以前のジョブからの出力の管理はユーザーが行いますジョブに渡されるパラメータ特にジョブのブックマークの詳細については AWS Glue で使用される特別なパラメータ (p. 151) を参照してください 138

146 AWS Glue 開発者ガイド CloudWatch イベントによる自動化 AWS Glue PySpark の動的フレームの多くのメソッドには transformation_ctx というオプションのパラメータが含まれていますこのパラメータを使用してジョブのブックマークの状態情報が識別されます transformation_ctx パラメータを渡さない場合メソッドで使用されている動的フレームやテーブルに対してジョブのブックマークは有効になりませんたとえば ETL ジョブで 2 つの Amazon S3 ソースを読み取って結合する場合ブックマークを有効にするメソッドに対してのみ transformation_ctx パラメータを渡すことができます DynamicFrameReader クラスの詳細については DynamicFrameReader クラス (p. 192) を参照してください PySpark 拡張の詳細については AWS Glue PySpark 拡張機能リファレンス (p. 175) を参照してください CloudWatch イベントによる AWS Glue の自動化 Amazon CloudWatch Events を使用して AWS サービスを自動化してアプリケーションの可用性の問題やリソースの変更などのシステムイベントに自動的に対応できます AWS サービスからのイベントはほぼリアルタイムに CloudWatch イベントに提供されます簡単なルールを記述して注目するイベントとイベントがルールに一致した場合に自動的に実行するアクションを指定できます自動的にトリガーできるオペレーションには以下が含まれます AWS Lambda 関数の呼び出し Amazon EC2 Run Command の呼び出し Amazon Kinesis Data Streams にイベントを中継する AWS Step Functions ステートマシンのアクティブ化 Amazon SNS トピックまたは AWS SMS キューを通知する AWS Glue で CloudWatch イベントを使用する例をいくつか以下に示します ETL ジョブが成功したときの Lambda 関数のアクティブ化 ETL ジョブが失敗したときの Amazon SNS トピックの通知次の CloudWatch イベントは AWS Glue によって生成されます "detail-type":"glue Job State Change" のイベントは SUCCEEDED FAILED または STOPPED として生成されます "detail-type":"glue Crawler State Change" のイベントは Started Succeeded または Failed として生成されます詳細については Amazon CloudWatch Events ユーザーガイドを参照してください AWS CloudTrail を使用した AWS Glue オペレーションのログ記録 AWS Glue は AWS Glue のユーザーやロールまたは AWS のサービスによって実行されたアクションを記録するサービスである AWS CloudTrail と統合されています証跡を作成する場合は Amazon S3 バケット Amazon CloudWatch Logs Amazon CloudWatch Events への CloudTrail イベントの継続的な配信を有効にすることができます CloudTrail によって収集された情報を使用してリクエストの作成元の IP アドレスリクエストの実行者リクエストの実行日時などの詳細を調べて AWS Glue に対してどのようなリクエストが行われたかを判断できます CloudTrail の詳細 ( 設定する方法や有効にする方法など ) については AWS CloudTrail User Guide を参照してください 139

147 AWS Glue 開発者ガイド CloudTrail 内の情報 CloudTrail 内の AWS Glue 情報各イベントまたはログエントリにはリクエストの生成者に関する情報が含まれますこの ID 情報は以下のことを確認するのに役立ちますリクエストがルートと IAM ユーザー認証情報のどちらを使用して送信されたか. リクエストがロールとフェデレーティッドユーザーのどちらの一時的なセキュリティ認証情報を使用して送信されたか. リクエストが別の AWS サービスによって送信されたかどうか. 詳細については CloudTrail useridentity 要素を参照してください証跡を作成してログファイルをいずれかの Amazon S3 バケットに必要な期間保存することもできます証跡は指定した Amazon S3 バケットにイベントをログファイルとして配信するように設定できます次に Amazon S3 ライフサイクルルールを定義して自動的にログファイルをアーカイブまたは削除できますデフォルトでは Amazon S3 のサーバー側の暗号化 (SSE) を使用してログファイルが暗号化されます CloudTrail ログファイル内のイベントは任意の送信元からの単一のリクエストを表しますこれにはリクエストされたアクションアクションの日時リクエストパラメータなどに関する情報が含まれますこれらのイベントは必ずしもリクエスト順または特定の順序で表示されるとは限りませんすべての AWS Glue アクションが CloudTrail によりログに記録されますたとえば CreateDatabase CreateTable CreateScript を呼び出すとすべて CloudTrail ログファイルにエントリが生成されますただし CloudTrail は呼び出しに関するすべての情報を記録しませんたとえば接続リクエストで使用される ConnectionProperties などの機密情報は記録せず次の API によって返される応答の代わりに null を記録します BatchGetPartition GetCrawlers GetJobs GetTable CreateScript GetCrawlerMetrics GetJobRun GetTables GetCatalogImportStatus GetDatabase GetJobRuns GetTableVersions GetClassifier GetDatabases GetMapping GetTrigger GetClassifiers GetDataflowGraph GetObjects GetTriggers GetConnection GetDevEndpoint GetPartition GetUserDefinedFunction GetConnections GetDevEndpoints GetPartitions GetUserDefinedFunctions GetCrawler GetJob GetPlan ログファイルの配信が通知されるためには新しいログファイルの配信時に Amazon SNS 通知が発行されるように CloudTrail を設定します詳細については Configuring Amazon SNS Notifications for CloudTrail を参照してくださいまた複数の AWS リージョンと複数の AWS アカウントからの AWS Glue ログファイルを 1 つの Amazon S3 バケットに集約することもできます詳細は Receiving CloudTrail Log Files from Multiple Regions と Receiving CloudTrail Log Files from Multiple Accounts を参照してください AWS Glue の CloudTrail ログファイルエントリ以下の例は DeleteCrawler 呼び出しが生成する CloudTrail ログエントリの種類を示しています { "eventversion": "1.05", "useridentity": { "type": "IAMUser", "principalid": "AKIAIOSFODNN7EXAMPLE", 140

148 AWS Glue 開発者ガイド AWS Glue ログファイル } "arn": "arn:aws:iam:: :user/johndoe", "accountid": " ", "accesskeyid": "AKIAIOSFODNN7EXAMPLE", "username": "johndoe" }, "eventtime": " T22:29:49Z", "eventsource": "glue.amazonaws.com", "eventname": "DeleteCrawler", "awsregion": "us-east-1", "sourceipaddress": " ", "useragent": "aws-cli/ Python/3.6.1 Darwin/ botocore/1.7.6", "requestparameters": { "name": "tes-alpha" }, "responseelements": null, "requestid": "b16f4050-aed3-11e7-b0b a46954f", "eventid": "e73dd117-cfd1-47d1-9e2f-d1271cad838c", "eventtype": "AwsApiCall", "recipientaccountid": " " この例は CreateConnection 呼び出しが生成する CloudTrail ログエントリの種類を示しています { } "eventversion": "1.05", "useridentity": { "type": "IAMUser", "principalid": "AKIAIOSFODNN7EXAMPLE", "arn": "arn:aws:iam:: :user/johndoe", "accountid": " ", "accesskeyid": "AKIAIOSFODNN7EXAMPLE", "username": "johndoe" }, "eventtime": " T00:19:19Z", "eventsource": "glue.amazonaws.com", "eventname": "CreateConnection", "awsregion": "us-east-1", "sourceipaddress": " ", "useragent": "aws-cli/ Python/3.6.1 Darwin/ botocore/1.7.6", "requestparameters": { "connectioninput": { "name": "test-connection-alpha", "connectiontype": "JDBC", "physicalconnectionrequirements": { "subnetid": "subnet ", "availabilityzone": "us-east-1a", "securitygroupidlist": [ "sg " ] } } }, "responseelements": null, "requestid": "27136ebc-afac-11e7-a7d6-ab217e5c3f19", "eventid": "e8b3baeb-c f-c16210c60a4a", "eventtype": "AwsApiCall", "recipientaccountid": " " 141

149 AWS Glue 開発者ガイド AWS Glue トラブルシューティング情報の収集 AWS Glue のトラブルシューティングトピック AWS Glue トラブルシューティング情報の収集 (p. 142) AWS Glue での接続の問題のトラブルシューティング (p. 142) AWS Glue のエラーのトラブルシューティング (p. 143) AWS Glue の制限 (p. 150) AWS Glue トラブルシューティング情報の収集 AWS Glue でエラーまたは予期しない動作が発生して AWS サポートに問い合わせる必要がある場合名前 ID および失敗したアクションに関連したログに関する情報をまず収集する必要がありますこの情報が用意してあると AWS サポートは発生している問題を解決しやすくなりますアカウント ID に加えて次の失敗のタイプそれぞれについて以下の情報を収集しますクローラが失敗した場合以下の情報を収集しますクローラ名クローラ実行からのログは /aws-glue/crawlers の下の CloudWatch Logs にありますテスト接続が失敗した場合以下の情報を収集します接続名接続 ID jdbc:protocol://host:port/database-name フォームの JDBC 接続文字列テスト接続からのログは /aws-glue/testconnection の下の CloudWatch Logs にありますジョブが失敗した場合以下の情報を収集しますジョブ名 jr_xxxxx フォームのジョブ実行 ID ジョブ実行からのログは /aws-glue/jobs の下の CloudWatch Logs にあります AWS Glue での接続の問題のトラブルシューティング AWS Glue クローラまたはジョブがデータストアにアクセスするため接続プロパティを使用する場合接続しようとするときにエラーが発生する可能性があります指定した Virtual Private Cloud (VPC) とサブネットで Elastic Network Interface を作成するときに AWS Glue はサブネット内のプライベート IP アドレスを使用します接続で指定されたセキュリティグループは各 Elastic Network Interface に適用されますセキュリティグループがアウトバウンドアクセスを許可しているかどうかまたデータベースクラスターへの接続を許可しているかどうかを確認します 142

150 AWS Glue 開発者ガイドエラーのトラブルシューティングさらに Apache Spark ではドライバーとエグゼキューターノード間の双方向接続が必要ですセキュリティグループのいずれかがすべての TCP ポートの進入ルールを許可する必要があります自己参照のセキュリティグループでセキュリティグループのソースを自身に制限することによって世界に向けて開かれないようにすることができます接続の問題をトラブルシューティングするために行える一般的なアクションをいくつか示します接続のポートアドレスを確認します接続のユーザー名とパスワードの文字列を確認します JDBC データストアの場合着信接続を許可していることを検証しますデータストアが VPC 内でアクセスできることを検証します AWS Glue のエラーのトラブルシューティング AWS Glue でエラーが発生した場合は次の解決策を使用して問題の原因を突き止めて修正してください Note AWS Glue GitHub リポジトリには AWS Glue に関するよくある質問のトラブルシューティングガイダンスの詳細が含まれていますエラー : リソースを利用できません AWS Glue がリソース使用不可メッセージを返す場合はエラーメッセージやログを表示して問題の詳細を確認することができますここではトラブルシューティングするための一般的な方法について説明します使用する接続および開発エンドポイントについてはクラスターに Elastic Network Interface が不足していないかどうかを確認してくださいエラー : VPC の subnetid に S3 エンドポイントまたは NAT ゲートウェイが見つかりませんでした問題の診断に役立つメッセージのサブネット ID と VPC ID を確認します AWS Glue に必要な Amazon S3 VPC エンドポイントが設定されていることを確認してくださいさらに設定の一部である場合には NAT ゲートウェイを確認します詳細については Amazon S3 における Amazon VPC エンドポイント (p. 25) を参照してくださいエラー : 必要なセキュリティグループのインバウンドルール少なくとも 1 つのセキュリティグループのすべての受信ポートを開く必要がありますトラフィックを制限するためにインバウンドルールのソースセキュリティグループを同じセキュリティグループに制限できます使用するすべての接続についてセキュリティグループで自己参照のインバウンドルールを確認します詳細についてはデータストアにアクセスするための環境のセットアップ (p. 25) を参照してください 143

151 AWS Glue 開発者ガイドエラー : 必要なセキュリティグループのアウトバウンドルール開発エンドポイントを使用している場合は自己参照のインバウンドルールのセキュリティグループを確認します詳細についてはデータストアにアクセスするための環境のセットアップ (p. 25) を参照してくださいエラー : 必要なセキュリティグループのアウトバウンドルール少なくとも 1 つのセキュリティグループのすべての発信ポートを開く必要がありますトラフィックを制限するためにアウトバウンドルールのソースセキュリティグループを同じセキュリティグループに制限できます使用するすべての接続についてセキュリティグループで自己参照のアウトバウンドルールを確認します詳細についてはデータストアにアクセスするための環境のセットアップ (p. 25) を参照してください開発エンドポイントを使用している場合は自己参照のアウトバウンドルールのセキュリティグループを確認します詳細についてはデータストアにアクセスするための環境のセットアップ (p. 25) を参照してくださいエラー : カスタム DNS 解決の失敗インターネットの名前解決にカスタム DNS を使用する場合 DNS 前方参照と DNS 逆引き参照の両方を実装する必要がありますそれ以外の場合は次のようなエラーが表示されることがあります逆引き DNS IP 解決の失敗または DNS の DNS 解決の失敗 AWS Glue がメッセージを返す場合はエラーメッセージやログを表示して問題の詳細を確認することができますここではトラブルシューティングするための一般的な方法について説明します逆引きルックアップのないカスタム DNS 設定により AWS Glue が失敗する可能性があります DNS 設定を確認します Route 53 または Microsoft Active Directory を使用している場合前方参照と逆引き参照があることを確認します詳細については VPC での DNS のセットアップ (p. 24) を参照してくださいエラー : ロールにロール継承アクセス権限を付与する必要がある AWS Glue サービスが渡されているためジョブの実行に失敗しましたジョブを定義するユーザーは AWS Glue の iam:passrole のアクセス権限を持っている必要がありますユーザーが AWS Glue ジョブを作成するときそのユーザーのロールに AWS Glue の iam:passrole を含むポリシーが含まれていることを確認します詳細についてはステップ 3: AWS Glue にアクセスする IAM ユーザーにポリシーをアタッチする (p. 14) を参照してくださいエラー : DescribeVpcEndpoints アクションが許可されていません VPC ID vpc-id を検証できません ec2:describevpcendpoints アクセス権限用に AWS Glue に渡されたポリシーを確認してください 144

152 AWS Glue 開発者ガイドエラー : DescribeRouteTables アクションが許可されていません VPC id (vpc-id) の Subnet Id (subnet-id) を検証できませんエラー : DescribeRouteTables アクションが許可されていません VPC id (vpc-id) の Subnet Id (subnet-id) を検証できません ec2:describeroutetables アクセス権限用に AWS Glue に渡されたポリシーを確認してくださいエラー : ec2:describesubnets の呼び出しに失敗しました ec2:describesubnets アクセス権限用に AWS Glue に渡されたポリシーを確認してくださいエラー : ec2:describesecuritygroups の呼び出しに失敗しました ec2:describesecuritygroups アクセス権限用に AWS Glue に渡されたポリシーを確認してくださいエラー : AZ のサブネットが見つかりませんでしたアベイラビリティーゾーンは AWS Glue では使用できない場合がありますメッセージで指定されているものとは異なるアベイラビリティーゾーンに新しいサブネットを作成して使用しますエラー : 複数のサブネットまたは AZ のある接続リストのジョブ実行の例外ジョブの実行時に CONNECTION_LIST_CONNECTION_WITH_MULTIPLE_SUBNET_ID および CONNECTION_LIST_CONNECTION_WITH_MULTIPLE_AZ の例外で検証が失敗しますジョブに複数の接続がある場合複数の異なるアベイラビリティーゾーンまたはサブネットに存在することはできませんジョブ内のすべての接続が同じアベイラビリティーゾーンにあることを確認するかジョブを編集して接続を削除して同じアベイラビリティーゾーンにある接続のみが必要になるようにしますエラー : JDBC ターゲットへの書き込み時のジョブ実行の例外 JDBC ターゲットに書き込むジョブを実行すると以下のシナリオのようにジョブでエラーが発生する可能性がありますジョブが Microsoft SQL Server テーブルに書き込む場合テーブルに Boolean 型として定義された列がある場合には SQL Server データベースでテーブルを事前に定義する必要があります SQL Server ターゲットを使用して AWS Glue コンソールでジョブを定義し [Create tables in your data target] ( データターゲットでテーブルを作成する ) オプションを使用する場合はデータ型が Boolean である 145

153 AWS Glue 開発者ガイドエラー : Amazon S3 タイムアウトターゲット列にソース列をマッピングしないでくださいジョブの実行時にエラーが発生する可能性があります次のようにしてエラーを回避できます [Boolean] ( ブール ) 列を使用して既存のテーブルを選択します ApplyMapping 変換を編集しソース内の [Boolean] ( ブール ) 列をターゲット内の数値または文字列にマップします ApplyMapping 変換を編集して [Boolean] ( ブール ) 列をソースから削除しますジョブが Oracle テーブルに書き込む場合は Oracle オブジェクトの名前の長さを調整する必要があります Oracle の一部のバージョンでは識別子の最大長は 128 バイトまたは 30 バイトに制限されていますこの制限は Oracle ターゲットデータストアのテーブル名および列名に影響を与えます次のようにしてエラーを回避できますご使用のバージョンの制限内で Oracle ターゲットテーブルに名前を付けますデフォルトの列名はデータのフィールド名から生成されます列名が制限よりも長い場合は処理のために ApplyMapping または RenameField 変換を使用して列の名前を制限内に変更しますエラー : Amazon S3 タイムアウト AWS Glue が接続タイムアウトエラーを返す場合は別の AWS リージョンの Amazon S3 バケットにアクセスしようとしている可能性があります Amazon S3 の VPC エンドポイントは AWS リージョン内のバケットにのみトラフィックをルーティングできます他のリージョンのバケットに接続する必要がある場合考えられる回避策は NAT ゲートウェイを使用することです詳細については NAT ゲートウェイを参照してくださいエラー : Amazon S3 アクセスが拒否されました AWS Glue が Amazon S3 バケットまたはオブジェクトのアクセス拒否エラーを返す場合は提供された IAM ロールにデータストアへのアクセス権を持つポリシーがないことが原因です ETL ジョブはソースまたはターゲットとして使用される Amazon S3 データストアにアクセスできる必要がありますクローラはクロールする Amazon S3 データストアにアクセスできる必要があります詳細についてはステップ 2: AWS Glue 用の IAM ロールを作成する (p. 13) を参照してくださいエラー : Amazon S3 アクセスキー ID が存在しませんジョブの実行中に AWS Glue がアクセスキー ID が存在しないというエラーを返す場合は次のいずれかの理由が考えられます ETL ジョブは IAM ロールを使用してデータストアにアクセスしジョブの IAM ロールがジョブの開始前に削除されていないことを確認します IAM ロールにはデータストアにアクセスするためのアクセス許可が含まれており s3:listbucket を含むアタッチされた Amazon S3 ポリシーが正しいことを確認します 146

154 AWS Glue 開発者ガイドエラー : s3a:// URI を使用して Amazon S3 にアクセスするときにジョブ実行が失敗しますエラー : s3a:// URI を使用して Amazon S3 にアクセスするときにジョブ実行が失敗しますジョブ実行から XML ドキュメントをハンドラクラスで解析できませんでしたなどのエラーが返された場合は s3a:// URI を使用して数百のファイルをリストアップしようとして失敗した可能があります代わりに s3:// URI を使用してデータストアにアクセスしてください次の例外トレースを調べてエラーを確認できます 1. com.amazonaws.sdkclientexception: Failed to parse XML document with handler class com.amazonaws.services.s3.model.transform.xmlresponsessaxparser$listbuckethandler 2. at com.amazonaws.services.s3.model.transform.xmlresponsessaxparser.parsexmlinputstream(xmlresponsessaxpar 3. at com.amazonaws.services.s3.model.transform.xmlresponsessaxparser.parselistbucketobjectsresponse(xmlresp 4. at com.amazonaws.services.s3.model.transform.unmarshallers $ListObjectsUnmarshaller.unmarshall(Unmarshallers.java:70) 5. at com.amazonaws.services.s3.model.transform.unmarshallers $ListObjectsUnmarshaller.unmarshall(Unmarshallers.java:59) 6. at com.amazonaws.services.s3.internal.s3xmlresponsehandler.handle(s3xmlresponsehandler.java:62) 7. at com.amazonaws.services.s3.internal.s3xmlresponsehandler.handle(s3xmlresponsehandler.java:31) 8. at com.amazonaws.http.response.awsresponsehandleradapter.handle(awsresponsehandleradapter.java:70) 9. at com.amazonaws.http.amazonhttpclient $RequestExecutor.handleResponse(AmazonHttpClient.java:1554) 10. at com.amazonaws.http.amazonhttpclient $RequestExecutor.executeOneRequest(AmazonHttpClient.java:1272) 11. at com.amazonaws.http.amazonhttpclient $RequestExecutor.executeHelper(AmazonHttpClient.java:1056) 12. at com.amazonaws.http.amazonhttpclient $RequestExecutor.doExecute(AmazonHttpClient.java:743) 13. at com.amazonaws.http.amazonhttpclient $RequestExecutor.executeWithTimer(AmazonHttpClient.java:717) 14. at com.amazonaws.http.amazonhttpclient $RequestExecutor.execute(AmazonHttpClient.java:699) 15. at com.amazonaws.http.amazonhttpclient$requestexecutor.access $500(AmazonHttpClient.java:667) 16. at com.amazonaws.http.amazonhttpclient $RequestExecutionBuilderImpl.execute(AmazonHttpClient.java:649) 17. at com.amazonaws.http.amazonhttpclient.execute(amazonhttpclient.java:513) 18. at com.amazonaws.services.s3.amazons3client.invoke(amazons3client.java:4325) 19. at com.amazonaws.services.s3.amazons3client.invoke(amazons3client.java:4272) 20. at com.amazonaws.services.s3.amazons3client.invoke(amazons3client.java:4266) 21. at com.amazonaws.services.s3.amazons3client.listobjects(amazons3client.java:834) 22. at org.apache.hadoop.fs.s3a.s3afilesystem.getfilestatus(s3afilesystem.java:971) 23. at org.apache.hadoop.fs.s3a.s3afilesystem.deleteunnecessaryfakedirectories(s3afilesystem.java:1155) 24. at org.apache.hadoop.fs.s3a.s3afilesystem.finishedwrite(s3afilesystem.java:1144) 25. at org.apache.hadoop.fs.s3a.s3aoutputstream.close(s3aoutputstream.java:142) 26. at org.apache.hadoop.fs.fsdataoutputstream $PositionCache.close(FSDataOutputStream.java:74) 27. at org.apache.hadoop.fs.fsdataoutputstream.close(fsdataoutputstream.java:108) 28. at org.apache.parquet.hadoop.parquetfilewriter.end(parquetfilewriter.java:467) 29. at org.apache.parquet.hadoop.internalparquetrecordwriter.close(internalparquetrecordwriter.java:117) 30. at org.apache.parquet.hadoop.parquetrecordwriter.close(parquetrecordwriter.java:112) 31. at org.apache.spark.sql.execution.datasources.parquet.parquetoutputwriter.close(parquetoutputwriter.scala 32. at org.apache.spark.sql.execution.datasources.fileformatwriter $SingleDirectoryWriteTask.releaseResources(FileFormatWriter.scala:252) 147

155 AWS Glue 開発者ガイドエラー : ネットワークインターフェイスのプライベート DNS が見つかりません 33. at org.apache.spark.sql.execution.datasources.fileformatwriter$$anonfun $org$apache$spark$sql$execution$datasources$fileformatwriter$$executetask $3.apply(FileFormatWriter.scala:191) 34. at org.apache.spark.sql.execution.datasources.fileformatwriter$$anonfun $org$apache$spark$sql$execution$datasources$fileformatwriter$$executetask $3.apply(FileFormatWriter.scala:188) 35. at org.apache.spark.util.utils$.trywithsafefinallyandfailurecallbacks(utils.scala:1341) 36. at org.apache.spark.sql.execution.datasources.fileformatwriter$.org$apache$spark$sql $execution$datasources$fileformatwriter$$executetask(fileformatwriter.scala:193) 37. at org.apache.spark.sql.execution.datasources.fileformatwriter$$anonfun$write$1$ $anonfun$3.apply(fileformatwriter.scala:129) 38. at org.apache.spark.sql.execution.datasources.fileformatwriter$$anonfun$write$1$ $anonfun$3.apply(fileformatwriter.scala:128) 39. at org.apache.spark.scheduler.resulttask.runtask(resulttask.scala:87) 40. at org.apache.spark.scheduler.task.run(task.scala:99) 41. at org.apache.spark.executor.executor$taskrunner.run(executor.scala:282) 42. at java.util.concurrent.threadpoolexecutor.runworker(threadpoolexecutor.java:1149) 43. at java.util.concurrent.threadpoolexecutor$worker.run(threadpoolexecutor.java:624) 44. at java.lang.thread.run(thread.java:748) エラー : ネットワークインターフェイスのプライベート DNS が見つかりませんジョブが失敗したり開発エンドポイントがプロビジョニングに失敗した場合はネットワーク設定が問題の原因である可能性があります Amazon が提供する DNS を使用している場合は enablednshostnames の値を true に設定する必要があります詳細については DNS を参照してくださいエラー : 開発エンドポイントのプロビジョニングに失敗しました AWS Glue が開発エンドポイントのプロビジョニングに失敗した場合はネットワーク設定が問題の原因である可能性があります開発エンドポイントを定義すると VPC サブネットおよびセキュリティグループが検証され特定の要件を満たしていることが確認されますオプションの SSH パブリックキーを指定した場合有効な SSH パブリックキーになっていることを確認します VPC コンソールで VPC が有効な [DHCP オプションセット ] を使用していることを確認します詳細については DHCP オプションセットを参照してください数分後に開発エンドポイントの [Provisioning status] ( プロビジョニングのステータス ) が FAILED に変わり失敗の理由が DNS 関連である場合 ( たとえば Reverse dns resolution of ip failed) DNS 設定を確認します詳細については VPC での DNS のセットアップ (p. 24) を参照してくださいクラスターが PROVISIONING 状態のままになっている場合は AWS サポートにお問い合わせくださいエラー : ノートブックサーバー CREATE_FAILED AWS Glue が開発エンドポイント用のノートブックサーバーの作成に失敗した場合は次のいずれかの問題が原因である可能性があります 148

156 AWS Glue 開発者ガイドエラー : ローカルノートブックの起動に失敗する AWS Glue はノートブックサーバーの設定時に Amazon EC2 に IAM ロールを渡します IAM ロールは Amazon EC2 との信頼関係が必要です IAM ロールには同じ名前のインスタンスプロファイルが必要です IAM コンソールで Amazon EC2 のロールを作成すると同じ名前のインスタンスプロファイルが自動的に作成されます無効なインスタンスプロファイル名 iaminstanceprofile.name に関するログのエラーをチェックします詳細についてはインスタンスプロファイルの使用を参照してくださいロールにノートブックサーバーを作成するために渡したポリシーの aws-glue* バケットにアクセスする権限があることを確認しますエラー : ローカルノートブックの起動に失敗するローカルノートブックの起動に失敗しディレクトリまたはフォルダが見つからないというエラーが報告された場合は次のいずれかの問題が原因である可能性があります Microsoft Windows で実行している場合は JAVA_HOME 環境変数が適切な Java ディレクトリを指していることを確認しますこの変数を更新せずに Java が更新される可能性があります存在しなくなったフォルダを変数が指していると Zeppelin ノートブックは起動に失敗しますエラー : ノートブック使用エラー Apache Zeppelin ノートブックを使用する場合設定や環境によってエラーが発生する可能性がありますノートブックサーバーの作成時にアタッチされたポリシーを持つ IAM ロールを提供しますポリシーに必要なすべてのアクセス権限が含まれていない場合 assumed-role/nameof-role/i-0bf0fa9d is not authorized to perform some-action AccessDeniedException などのエラーが発生する可能性があります IAM コンソールでノートブックサーバーに渡されるポリシーを確認します Zeppelin ノートブックがウェブブラウザで正しくレンダリングされない場合はブラウザサポートの Zeppelin 要件を確認してくださいたとえば Safari ブラウザに特定のバージョンと設定が必要な場合がありますブラウザを更新するか別のブラウザを使用する必要がありますエラー : クローラの実行に失敗しました AWS Glue がデータをカタログ化するためにクローラを正常に実行できなかった場合は次のいずれかの理由が考えられますまず AWS Glue コンソールのクローラリストにエラーがあるかどうかを確認しますクローラ名の横に感嘆符アイコンがあるかどうかを確認しアイコンの上にカーソルを置いて関連するメッセージを確認します /aws-glue/crawlers の CloudWatch Logs で実行されるクローラのログを確認しますエラー : Athena データカタログのアップグレード Athena データカタログを AWS Glue データカタログにアップグレードする際にエラーが発生した場合は Amazon Athena ユーザーガイドの AWS Glue データカタログへのステップバイステップのアップグレードトピックを参照してください 149

157 AWS Glue 開発者ガイド AWS Glue の制限 AWS Glue の制限 Note AWS サポートに連絡してこちらに記載されている制限の引き上げをリクエストできますリソースデフォルトの制限アカウントあたりのデータベース数 10,000 データベースあたりのテーブル数 100,000 テーブルあたりのパーティションの数 100 万回テーブルあたりのテーブルバージョンの数 100,000 アカウントあたりのテーブル数 100 万回アカウントあたりのパーティションの数 10,000,000 アカウントあたりのテーブルバージョンの数 100 万回アカウントあたりの接続数 1,000 アカウントあたりのクローラ数 25 アカウントあたりのジョブ数 25 アカウントあたりのトリガー数 25 アカウントあたりの同時ジョブの実行数 30 ジョブあたりの同時ジョブの実行数 3 トリガーあたりのジョブ数 10 アカウントごとの開発エンドポイントの数 2 一度に開発エンドポイントによって使用される最大 DPU 数 5 一度にロールによって使用される最大 DPU 数

158 AWS Glue 開発者ガイド一般情報 ETL スクリプトのプログラミング AWS Glue では抽出変換およびロード (ETL) スクリプトの書き込みや自動生成またテストや実行を簡単に行なえますこのセクションでは AWS Glue に導入された Apache Spark の拡張機能について説明し ETL スクリプトを Python と Scala で記述し実行する方法の例を示します AWS Glue ETL スクリプトのプログラミングに関する一般情報以下のセクションでは言語を問わず AWS Glue ETL プログラミングに適用される一般的な手法と値について説明しますトピック AWS Glue で使用される特別なパラメータ (p. 151) AWS Glue の ETL 出力用の形式オプション (p. 152) AWS Glue での ETL 出力のパーティションの管理 (p. 154) 大きなグループの入力ファイルの読み取り (p. 155) AWS Glue で使用される特別なパラメータ AWS Glue に認識され使用される引数名は多くありますそれらを使用してジョブと JobRuns のスクリプト環境をセットアップできます --job-language スクリプトプログラミング言語これは scala または python であることが必要ですこのパラメータが存在しない場合デフォルトで python が使用されます --class Scala スクリプトのエントリポイントとなる Scala クラスこれは --job-language を scala に設定した場合にのみ適用されます --scriptlocation ETL スクリプトが配置されている S3 の場所 (s3://path/to/my/script.py のような形式 ) これは JobCommand オブジェクトで設定されているスクリプトの場所を上書きします --extra-py-files スクリプトを実行する前に AWS Glue が Python パスに追加する追加の Python モジュールへの S3 パス複数の値はコンマ (,) で区切られた完全なパスでなければなりません純粋な Python モジュールだけが現在動作することに注意してください C または他の言語で書かれた拡張モジュールはサポートされていません --extra-jars スクリプトを実行する前に AWS Glue が Java クラスパスに追加する追加 Java.jar ファイルへの S3 パス複数の値はコンマ (,) で区切られた完全なパスでなければなりません --extra-files スクリプトを実行する前に AWS Glue がスクリプトの作業ディレクトリにコピーする設定ファイルなどの追加ファイルへの S3 パス複数の値はコンマ (,) で区切られた完全なパスでなければなりません --job-bookmark-option ジョブブックマークの動作を制御します次のオプション値を設定できます job bookmark option Description 値 job- 以前に処理されたデータを追跡しますジョブが実行されると最後のチェックポイントから新しい bookmark- enable データを処理します 151

159 AWS Glue 開発者ガイド形式オプション job bookmark option Description 値 job- 常にデータセット全体を処理します以前のジョブからの出力の管理はユーザーが行います bookmark- disable job- 最後の実行からの増分データを処理します後続の実行が最後のブックマークからのデータを処理す bookmark- pause るように状態についての情報を更新しないでください以前のジョブからの出力の管理はユーザーが行いますたとえばジョブブックマークを有効にするには引数を渡します '--job-bookmark-option': 'job-bookmark-enable' --TempDir ジョブの一時ディレクトリとして使用できるバケットへの S3 パスを指定しますまた AWS Glue によって内部的に使用されお客様が設定する必要のない複数の引数名があります --conf AWS Glue 内部用設定する必要はありません --debug AWS Glue 内部用設定する必要はありません --mode AWS Glue 内部用設定する必要はありません --JOB_NAME AWS Glue 内部用設定する必要はありません AWS Glue の ETL 出力用の形式オプション AWS Glue の PySpark と Scala のさまざまなメソッドや変換では format パラメータと format_options パラメータを使用して入力 / 出力形式を指定しますこれらのパラメータでは以下の値を使用できます format="avro" この値は Apache Avro データ形式を指定します format="avro" の format_options 値はありません format="csv" この値はデータ形式として comma-separated-values を指定します ( 例については RFC 4180 および RFC 7111 を参照してください ) format="csv" には以下の format_options 値を使用できます separator: 区切り記号文字を指定しますデフォルト値はカンマ ',' です escaper: エスケープに使用する文字を指定しますデフォルト値は "none" です quotechar: 引用に使用する文字を指定しますデフォルト値は二重引用符 '"' です引用を完全に無効にするにはこれを '-1' に設定します multiline: 単一のレコードが複数行にまたがることができるかどうかを指定するブール値これが発生するのはフィールドに引用符で囲まれた改行文字がある場合などです複数行にまたがるレコードがある場合はこのオプションを "true" に設定する必要がありますデフォルト値は "false" であり解析時によりアグレッシブなファイル分割を可能にします 152

160 AWS Glue 開発者ガイド形式オプション withheader: 最初の行をヘッダーとして扱うかどうかを指定するブール値デフォルト値は "false" ですこのオプションは DynamicFrameReader クラスで使用できます writeheader: ヘッダーを出力に書き込むかどうかを指定するブール値デフォルト値は "true" ですこのオプションは DynamicFrameWriter クラスで使用できます skipfirst: 最初のデータ行をスキップするかどうかを指定するブール値デフォルト値は "false" です format="ion" この値はデータ形式として Amazon Ion を指定します詳細については Amazon Ion の仕様に関するドキュメントを参照してください現在 AWS Glue は出力で ion をサポートしていません format="ion" の format_options 値はありません format="groklog" この値は 1 つ以上の Logstash grok パターンで指定されたログデータ形式を指定します ( 例については Logstash リファレンス [6.2]: Grok フィルタプラグインのドキュメントを参照してください ) 現在 AWS Glue は出力で groklog をサポートしていません format="groklog" には以下の format_options 値を使用できます logformat: ログの形式と一致する grok パターンを指定します custompatterns: ここで使用する追加の grok パターンを指定します MISSING: 欠落した値の識別に使用するシグナルを指定しますデフォルト : '-' LineCount: 各ログレコードの行数を指定しますデフォルト値は '1' です現在 1 行のレコードのみがサポートされています StrictMode: 厳格モードを有効にするかどうかを指定するブール値厳格モードではリーダーは自動的な型変換や復旧を行いませんデフォルト値は "false" です format="json" この値は JSON(JavaScript Object Notation) データ形式を指定します format="json" には以下の format_options 値を使用できます jsonpath: 書き込むオブジェクトを識別する JsonPath 式たとえば次の JsonPath 式のターゲットは JSON オブジェクトの id フィールドです format="json", format_options={"jsonpath": "$.id"} multiline: 単一のレコードが複数行にまたがることができるかどうかを指定するブール値これが発生するのはフィールドに引用符で囲まれた改行文字がある場合などです複数行にまたがるレコードがある場合はこのオプションを "true" に設定する必要がありますデフォルト値は "false" であり解析時によりアグレッシブなファイル分割を可能にします format="orc" この値はデータ形式として Apache ORC を指定します詳細については LanguageManual ORC を参照してください 153

161 AWS Glue 開発者ガイドパーティションの管理 format="orc" の format_options 値はありませんただし基になる SparkSQL コードで受け入れられるオプションは connection_options マップパラメータを介して渡すことができます format="parquet" この値はデータ形式として Apache Parquet を指定します format="parquet" の format_options 値はありませんただし基になる SparkSQL コードで受け入れられるオプションは connection_options マップパラメータを介して渡すことができます format="xml" この値はデータ形式として XML を指定しフォークの XML Data Source for Apache Spark パーサーを通じて解析されます format="xml" には以下の format_options 値を使用できます rowtag: 行として扱うファイル内の XML タグを指定します行のタグを自己終了型にすることはできません encoding: 文字エンコードを指定しますデフォルト値は "UTF-8" です excludeattribute: 要素の属性を除外するかどうかを指定するブール値デフォルト値は "false" です treatemptyvaluesasnulls: 空白を null 値として扱うかどうかを指定するブール値デフォルト値は "false" です attributeprefix: 属性を要素から区別するための属性のプレフィックスこのプレフィックスをフィールド名として使用しますデフォルト値は "_" です valuetag: 要素内に子を持たない属性がある場合値に使用するタグデフォルト : "_VALUE" ignoresurroundingspaces: 値を囲む空白を無視するかどうかを指定するブール値デフォルト値は "false" です AWS Glue での ETL 出力のパーティションの管理パーティション分割はデータセットを整理して効率的にクエリを実行可能にする重要な手法です 1 つまたは複数の列の個別の値に基づいてデータを階層形式のディレクトリ構造に整理しますたとえば Amazon Simple Storage Service(Amazon S3) のアプリケーションログを年月日別の日付でパーティション分割できます次に 1 日分のデータに対応するファイルを s3://my_bucket/logs/ year=2018/month=01/day=23/ などのプレフィックス別に配置します Amazon Athena Amazon Redshift Spectrum AWS Glue などのシステムではこれらのパーティションを使用して基になるすべてのデータを Amazon S3 から読み取ることなくパーティション値でデータをフィルタできますクローラはファイルタイプとスキーマを推測するだけでなく AWS Glue データカタログを事前設定するときにデータセットのパーティション構造を自動的に識別しますその結果パーティション列に対して AWS Glue ETL ジョブやクエリエンジン (Amazon Athena など ) でクエリを実行できるようになりますテーブルをクロールした後で AWS Glue コンソールに移動して [View Partitions] ( パーティションの表示 ) を選択するとクローラで作成したパーティションを表示できます Apache Hive 形式のパーティション分割されたパス (key=val 形式 ) の場合クローラは partition_0 partition_1 などのデフォルト名を使用してデータカタログで自動的に列名を事前設定しますコンソールでデフォルト名を変更するにはテーブルに移動して [Edit Schema] ( スキーマの編集 ) を選択しパーティション列の名前を変更します次に ETL スクリプトでパーティション列をフィルタリングできます 154

162 AWS Glue 開発者ガイド入力ファイルのグループ化プッシュダウン述語を使用した事前フィルタ処理多くの場合プッシュダウン述語を使用してパーティションをフィルタリングできますデータセットのすべてのファイルをリストアップして読み取る必要はありませんデータセット全体を読み取って DynamicFrame でフィルタリングする代わりにデータカタログでパーティションのメタデータに直接フィルタを適用できます次に実際に必要なものだけをリストアップして DynamicFrame 内に読み取ることができますたとえば Python では以下のように記述できます glue_context.create_dynamic_frame.from_catalog( database = "my_s3_data_set", table_name = "catalog_data_table", push_down_predicate = my_partition_predicate) これによって作成される DynamicFrame ではデータカタログのパーティションのうち述語式を満たすものだけがロードされますロードするデータのサブセットを絞り込む度合いに応じて処理時間を大幅に短縮できる場合があります述語式として Spark SQL でサポートされている任意のブール式を使用できます Spark SQL クエリで WHERE 句に指定できる条件はすべて正常に動作します詳細については Apache Spark SQL のドキュメントを参照してください特に Scala SQL 関数リファレンスが参考になります Hive 形式の Amazon S3 パスのパーティション分割に加えて Apache Parquet および Apache ORC ファイル形式ではさらに各ファイルを列値を表すデータのブロック単位にパーティション分割します各ブロックにもブロック内のレコードに関する統計情報 ( 列の最小 / 最大値など ) が保存されます AWS Glue は Hive 形式のパーティションとこれらの形式のブロックパーティションの両方でプッシュダウン述語をサポートしていますこれにより Parquet 形式と ORC 形式で不要な Amazon S3 パーティションを取り除き列統計を使用して不要と判断したブロックをスキップできますパーティションの書き込みデフォルトでは DynamicFrame は書き込むときにパーティション分割されませんすべての出力ファイルは指定した出力パスの最上位レベルに書き込まれます最近まで DynamicFrame をパーティションに書き込む唯一の方法は書き込む前に Spark SQL DataFrame に変換することでしたただし DynamicFrames ではキーのシーケンスを使用したネイティブのパーティション分割がサポートされるようになりましたこの場合シンクの作成時に partitionkeys オプションを使用しますたとえば次の Python コードではデータセットを Parquet 形式で Amazon S3 のディレクトリに書き込みますこれらのディレクトリはタイプフィールドに従ってパーティション分割されていますそこから他のシステム (Amazon Athena など ) を使用してこれらのパーティションを処理できます glue_context.write_dynamic_frame.from_options( frame = projectedevents, connection_options = {"path": "$outpath", "partitionkeys": ["type"]}, format = "parquet") 大きなグループの入力ファイルの読み取り AWS Glue の ETL ジョブで Amazon S3 データストアからファイルを読み取るときにこれらのファイルをグループ化するようにテーブルのプロパティを設定できますこれらのプロパティを使用すると各 ETL タスクでは入力ファイルのグループを 1 つのメモリ内パーティションに読み取ることができますこれは Amazon S3 データストアに多数の小さいファイルがある場合に便利です特定のプロパティを設定するときに Amazon S3 データパーティション内のファイルをグループ化し読み取るグループのサイズを設定するように AWS Glue に指示しますまた create_dynamic_frame_from_options メソッドを使用して Amazon S3 データストアから読み取るときにこれらのオプションを設定することもできます 155

163 AWS Glue 開発者ガイド Python での ETL プログラミングテーブルのファイルをグループ化するにはテーブル構造のパラメータフィールドにキーと値のペアを設定しますテーブルのパラメータフィールドに値を設定するには JSON 表記を使用しますテーブルのプロパティを編集する詳しい方法についてはテーブルの詳細の表示と編集 (p. 54) を参照してくださいこのメソッドを使用して Data Catalog で Amazon S3 データストアのテーブルをグループ化できます groupfiles Amazon S3 データパーティション内のファイルをグループ化するには groupfiles を inpartition に設定します AWS Glue では入力ファイル数が 50,000 を超える場合自動的にグループ化を有効にします以下に例を示します '--groupfiles': 'inpartition' groupsize groupsize をグループのターゲットサイズ ( バイト単位 ) に設定します groupsize プロパティはオプションです指定しない場合 AWS Glue はクラスター内のすべての CPU コアを使用すると同時に ETL タスクとメモリ内パーティションの総数を減らすようにサイズを計算しますたとえばグループサイズを 1 MB に設定する方法は次のとおりです '--groupsize': '1024 * 1024' create_dynamic_frame_from_options メソッドを使用して Amazon S3 から直接読み取る場合は以下の接続オプションを追加しますたとえばファイルを 1 MB のグループにグループ化する方法は次のとおりです df = gluecontext.create_dynamic_frame_from_options("s3", {'paths': ["s3://s3path/"], 'groupfiles': 'inpartition', 'groupsize': 1024 * 1024}, format="json") Python で AWS Glue ETL スクリプトをプログラムする AWS Glue 用の Python コード例とユーティリティは GitHub ウェブサイトの AWS Glue サンプルリポジトリにあります AWS Glue での Python の使用 AWS Glue では抽出変換およびロード (ETL) ジョブをスクリプト化するための PySpark Python 方言の拡張機能がサポートされていますこのセクションでは ETL スクリプトと AWS Glue API で Python を使用する方法について説明します AWS Glue で Python を使用するためのセットアップ (p. 157) Python での AWS Glue API の呼び出し (p. 158) AWS Glue での Python ライブラリの使用 (p. 160) AWS Glue Python コードサンプル (p. 161) 156

164 AWS Glue 開発者ガイド拡張機能のリスト AWS Glue PySpark 拡張機能 AWS Glue は PySpark Python 方言に以下の拡張機能を作成しました getresolvedoptions を使用してパラメータにアクセスする (p. 175) PySpark 拡張子型 (p. 176) DynamicFrame クラス (p. 180) DynamicFrameCollection クラス (p. 189) DynamicFrameWriter クラス (p. 190) DynamicFrameReader クラス (p. 192) GlueContext クラス (p. 193) AWS Glue PySpark 変換 AWS Glue は PySpark ETL オペレーションで使用する次の変換クラスを作成しました GlueTransform 基本クラス (p. 198) ApplyMapping クラス (p. 199) DropFields クラス (p. 201) DropNullFields クラス (p. 202) ErrorsAsDynamicFrame クラス (p. 203) フィルタクラス (p. 204) Join クラス (p. 208) マップクラス (p. 209) MapToCollection クラス (p. 212) クラスの関連付け (p. 213) RenameField クラス (p. 214) ResolveChoice クラス (p. 215) SelectFields クラス (p. 217) SelectFromCollection クラス (p. 218) スピゴットクラス (p. 219) SplitFields クラス (p. 220) SplitRows クラス (p. 222) Unbox クラス (p. 223) UnnestFrame クラス (p. 224) AWS Glue で Python を使用するためのセットアップ Python 3 ではなく Python 2.7 を使用して ETL スクリプトを開発しますインタラクティブなテストと開発を提供する AWS Glue 開発エンドポイントは Python 3 では動作しません AWS Glue で Python を使用するためのシステムを設定するには Python をインストールするには以下の手順を実行して AWS Glue API を呼び出せるようにします 1. Python 2.7 がインストールされていない場合は Python.org のダウンロードページからダウンロードしてインストールします 157

165 AWS Glue 開発者ガイド API の呼び出し 2. AWS CLI のドキュメントで説明されているように AWS Command Line Interface (AWS CLI) をインストールします AWS CLI は Python を使用するのに直接必要なわけではありませんただしインストールおよび設定を行うとアカウントの認証情報を使用して AWS を設定しその動作を確認するのに便利です 3. Boto 3 クイックスタートで説明されているように AWS SDK for Python (Boto 3) をインストールします Boto 3 リソース API は AWS Glue にはまだ使用できません現時点では Boto 3 クライアント API のみ使用することができます Boto 3 の詳細については AWS SDK for Python (Boto 3) の使用開始を参照してください AWS Glue 用の Python コード例とユーティリティは GitHub ウェブサイトの AWS Glue サンプルリポジトリにあります Python での AWS Glue API の呼び出し Boto 3 リソース API は AWS Glue にはまだ使用できないことに注意してください現時点では Boto 3 クライアント API のみ使用することができます Python の AWS Glue API 名 Java や他のプログラミング言語での AWS Glue API 名は通常 CamelCased になっていますただし Python から呼び出されるときこれらの一般名はより Python 的にするために小文字に変更され名前の一部がアンダースコア文字で区切られます AWS Glue API (p. 270) リファレンスドキュメントではこれらの Python 用の名前を一般的な CamelCased 形式の名前の後に括弧で囲んで一覧表示していますただし AWS Glue API 名自体は小文字に変換されますがパラメータ名は大文字のままです次のセクションで説明されますが AWS Glue API の呼び出し時にパラメータを名前で渡す必要があるためこの点を覚えておくことが重要です AWS Glue の Python パラメータの受け渡しとアクセス AWS Glue API の Python 呼び出しでは明示的に名前でパラメータを渡すことが最善です以下に例を示します job = glue.create_job(name='sample', Role='Glue_DefaultRole', command={'name': 'glueetl', 'ScriptLocation': 's3://my_script_bucket/scripts/ my_etl_script.py'}) ジョブ構造 (p. 333) または JobRun の構造 (p. 340) の ETL スクリプトに渡す引数として指定する名前と値のタプルのディクショナリを Python が作成することを理解しておくことは役立ちますその後 Boto 3 が REST API 呼び出しを経由して JSON 形式でそれらを AWS Glue に渡しますつまりスクリプトでそれらにアクセスするときは引数の順序に依存することはできませんたとえば Python Lambda ハンドラ関数で JobRun を開始しようとしており複数のパラメータを指定するとしますコードは以下のようになります from datetime import datetime, timedelta client = boto3.client('glue') def lambda_handler(event, context): 158

166 AWS Glue 開発者ガイド API の呼び出し last_hour_date_time = datetime.now() - timedelta(hours = 1) day_partition_value = last_hour_date_time.strftime("%y-%m-%d") hour_partition_value = last_hour_date_time.strftime("%-h") response = client.start_job_run( JobName = 'my_test_job', Arguments = { '--day_partition_key': 'partition_0', '--hour_partition_key': 'partition_1', '--day_partition_value': day_partition_value, '--hour_partition_value': hour_partition_value } ) これらのパラメータに ETL スクリプトで確実にアクセスするには AWS Glue の getresolvedoptions 関数を使用して名前で指定しその後作成されたディクショナリからアクセスします import sys from awsglue.utils import getresolvedoptions args = getresolvedoptions(sys.argv, ['JOB_NAME', 'day_partition_key', 'hour_partition_key', 'day_partition_value', 'hour_partition_value']) print "The day partition key is: ", args['day_partition_key'] print "and the day partition value is: ", args['day_partition_value'] 例 : ジョブを作成し実行する以下の例では Python を使用して AWS Glue API を呼び出し ETL ジョブを作成して実行する方法を示しますジョブを作成し実行するには 1. AWS Glue クライアントのインスタンスを作成します import boto3 glue = boto3.client(service_name='glue', region_name='us-east-1', endpoint_url=' 2. ジョブを作成します次のコードに示すように ETL コマンドの名前として glueetl を使用する必要があります myjob = glue.create_job(name='sample', Role='Glue_DefaultRole', Command={'Name': 'glueetl', 'ScriptLocation': 's3://my_script_bucket/scripts/ my_etl_script.py'}) 3. 前のステップで作成したジョブの新しい実行を開始します mynewjobrun = glue.start_job_run(jobname=myjob['name']) 4. ジョブのステータスを取得します status = glue.get_job_run(jobname=myjob['name'], RunId=myNewJobRun['JobRunId']) 5. ジョブ実行の現在の状態を出力します print status['mynewjobrun']['jobrunstate'] 159

167 AWS Glue 開発者ガイド Python ライブラリ AWS Glue での Python ライブラリの使用純粋な Python で書かれていれば AWS Glue ETL スクリプトで Python 拡張モジュールおよびライブラリを使用できます pandas などの C ライブラリは現在のところサポート外です他の言語で書かれた拡張機能も同様です取り込みのためのライブラリの圧縮ライブラリは 1 つの.py ファイルに含まれていない限り.zip アーカイブにパッケージ化される必要がありますパッケージディレクトリはアーカイブのルートにあってパッケージの init.py ファイルを含んでいる必要がありますそうすると Python は通常の方法でパッケージをインポートできるようになりますライブラリが 1 つの.py ファイルにある 1 つの Python モジュールでのみ構成されている場合.zip ファイルに入れる必要はありません開発エンドポイントへの Python ライブラリのロード異なる ETL スクリプトに異なるライブラリセットを使用している場合各セットに別々の開発エンドポイントをセットアップするかスクリプトを切り替えるたびに開発エンドポイントがロードするライブラリ.zip ファイルを上書きすることができますコンソールを使用して作成時に開発エンドポイントに 1 つまたは複数のライブラリ.zip ファイルを指定できます名前と IAM ロールを割り当てた後 [Script Libraries and job parameters (optional)] ( スクリプトライブラリおよびジョブパラメータ ( オプション )) を選択し [Python library path] (Python ライブラリパス ) ボックスにライブラリ.zip ファイルへの Amazon S3 フルパスを入力します以下に例を示します s3://bucket/prefix/site-packages.zip 必要に応じてファイルへの複数のフルパスを指定できますが以下のようにスペースなしでカンマで区切ります s3://bucket/prefix/lib_a.zip,s3://bucket_b/prefix/lib_x.zip これらの.zip ファイルを後で更新する場合はコンソールを使用して開発エンドポイントにそのファイルを再インポートできます該当する開発エンドポイントに移動し横にあるチェックボックスをオンにして [Action] ( アクション ) メニューから [Update ETL libraries] (ETL ライブラリの更新 ) を選択します同様の方法で AWS Glue API を使用してライブラリファイルを指定できます CreateDevEndpoint アクション (Python: create_dev_endpoint) (p. 354) を呼び出して開発エンドポイントを作成する場合 ExtraPythonLibsS3Path パラメータでライブラリへの 1 つ以上のフルパスを指定できます以下のような呼び出しになります dep = glue.create_dev_endpoint( EndpointName="testDevEndpoint", RoleArn="arn:aws:iam:: ", SecurityGroupIds="sg-7f5ad1ff", SubnetId="subnet-c12fdba4", PublicKey="ssh-rsa AAAAB3NzaC1yc2EAAAADAQABAAABAQCtp04H/y...", NumberOfNodes=3, ExtraPythonLibsS3Path="s3://bucket/prefix/lib_A.zip,s3://bucket_B/prefix/ lib_x.zip") 開発エンドポイントを更新するときに DevEndpointCustomLibraries (p. 353) オブジェクトを使用し UpdateDevEndpoint (update_dev_endpoint) (p. 356) の呼び出し時に UpdateEtlLibraries パラメータを True に設定してロードするライブラリも更新できます 160

168 AWS Glue 開発者ガイド Python サンプル開発エンドポイントで Zeppelin ノートブックを使用している場合.zip ファイルから 1 つ以上のパッケージをインポートする前に以下の PySpark 関数を呼び出す必要があります sc.addpyfile( /home/glue/downloads/python/yourzipfilename.zip ) ジョブまたは JobRun での Python ライブラリの使用コンソールで新しいジョブを作成しているときに [Script Libraries and job parameters (optional)] ( スクリプトライブラリおよびジョブパラメータ ( オプション )) を選択し開発エンドポイント作成時と同じ方法で Amazon S3 ライブラリのフルパスを入力して 1 つ以上のライブラリ.zip ファイルを指定できます s3://bucket/prefix/lib_a.zip,s3://bucket_b/prefix/lib_x.zip CreateJob (create_job) (p. 336) を呼び出している場合は以下のようにデフォルトの --extra-pyfiles パラメータを使用してデフォルトのライブラリへの 1 つ以上のフルパスを指定できます job = glue.create_job(name='samplejob', Role='Glue_DefaultRole', Command={'Name': 'glueetl', 'ScriptLocation': 's3://my_script_bucket/scripts/ my_etl_script.py'}, DefaultArguments={'--extra-py-files': 's3://bucket/prefix/ lib_a.zip,s3://bucket_b/prefix/lib_x.zip'}) その後 JobRun を開始するときにデフォルトのライブラリ設定を別のもので上書きできます runid = glue.start_job_run(jobname='samplejob', Arguments={'--extra-py-files': 's3://bucket/prefix/lib_b.zip'}) AWS Glue Python コードサンプルコード例 : データの結合と関係付け (p. 161) コード例 : ResolveChoice Lambda および ApplyMapping を使用したデータ準備 (p. 170) コード例 : データの結合と関係付けこの例ではから Amazon Simple Storage Service (Amazon S3) s3:// awsglue-datasets/examples/us-legislators/all の sample-dataset バケットにデータセットをダウンロードして使用しますこのデータセットには米国議会議員や米国下院および上院議員の議席に関する JSON 形式のデータが含まれておりこのチュートリアルの目的のため少し変更されていますこの例のソースコードは GitHub ウェブサイトの AWS Glue サンプルリポジトリの join_and_relationalize.py ファイルにありますこのデータを使用してこのチュートリアルでは以下のことを実行する方法を示します AWS Glue クローラを使用して Amazon S3 バケットに保存されているオブジェクトを分類しそのスキーマ AWS Glue データカタログに保存しますクロールの結果のテーブルのメタデータとスキーマを調べますデータカタログのメタデータを使用して Python の抽出転送およびロード (ETL) スクリプトを作成し次の操作を行います異なるソースファイル内のデータをまとめて単一のデータテーブルに結合します ( つまりデータを非正規化します ) 161

169 AWS Glue 開発者ガイド Python サンプル議員のタイプ別に結合テーブルを別のテーブルにフィルタリングします生成されたデータを後で分析するために Apache Parquet ファイルに分割して書き出します Python または PySpark スクリプトをデバッグする最も簡単な方法は開発エンドポイントを作成してコードを実行することです作業する開発エンドポイントを設定することから始めることをお勧めします詳細については the section called コンソールでの開発エンドポイント (p. 131) を参照してくださいステップ 1: Amazon S3 バケット内のデータをクロールする 1. AWS マネジメントコンソールにサインインし AWS Glue コンソール ( console.aws.amazon.com/glue/) を開きます 2. AWS Glue コンソールでのクローラの使用 (p. 63) の手順に従って s3://awsglue-datasets/ examples/us-legislators/all データセットを AWS Glue データカタログの legislators にクロールできる新しいクローラを作成します 3. 新しいクローラを実行し legislators データベースを確認しますクローラは次のメタデータテーブルを作成します persons_json memberships_json organizations_json events_json areas_json countries_r_json これは議員とその履歴を含むテーブルの半正規化されたテーブルの集合ですステップ 2: 開発エンドポイントノートブックに共通スクリプトを追加する次の共通スクリプトを貼り付けて開発エンドポイントノートブックに必要な AWS Glue ライブラリをインポートし 1 つの GlueContext を設定します import sys from awsglue.transforms import * from awsglue.utils import getresolvedoptions from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.job import Job gluecontext = GlueContext(SparkContext.getOrCreate()) ステップ 3: データカタログのスキーマを確認する次に AWS Glue データカタログに記録されたクローラのスキーマを簡単に確認できますたとえば persons_json テーブルのスキーマを表示するにはノートブックに以下を追加します persons = gluecontext.create_dynamic_frame.from_catalog( database="legislators", table_name="persons_json") print "Count: ", persons.count() persons.printschema() 162

170 AWS Glue 開発者ガイド Python サンプルプリントコールの出力を以下に示します Count: 1961 root -- family_name: string -- name: string -- links: array -- element: struct -- note: string -- url: string -- gender: string -- image: string -- identifiers: array -- element: struct -- scheme: string -- identifier: string -- other_names: array -- element: struct -- note: string -- name: string -- lang: string -- sort_name: string -- images: array -- element: struct -- url: string -- given_name: string -- birth_date: string -- id: string -- contact_details: array -- element: struct -- type: string -- value: string -- death_date: string テーブル内の各人は米国議会のメンバーです memberships_json テーブルのスキーマを表示するには次のように入力します memberships = gluecontext.create_dynamic_frame.from_catalog( database="legislators", table_name="memberships_json") print "Count: ", memberships.count() memberships.printschema() 出力は次のとおりです Count: root -- area_id: string -- on_behalf_of_id: string -- organization_id: string -- role: string -- person_id: string -- legislative_period_id: string -- start_date: string -- end_date: string organizations は政党および上院と下院の 2 つの議会です organizations_json テーブルのスキーマを表示するには次のように入力します 163

171 AWS Glue 開発者ガイド Python サンプル orgs = gluecontext.create_dynamic_frame.from_catalog( database="legislators", table_name="organizations_json") print "Count: ", orgs.count() orgs.printschema() 出力は次のとおりです Count: 13 root -- classification: string -- links: array -- element: struct -- note: string -- url: string -- image: string -- identifiers: array -- element: struct -- scheme: string -- identifier: string -- other_names: array -- element: struct -- lang: string -- note: string -- name: string -- id: string -- name: string -- seats: int -- type: string ステップ 4: データをフィルタリングする次に必要なフィールドのみを保持し id の名前を org_id に変更しますデータセットは小さいため全体を表示することができます todf() は DynamicFrame を Apache Spark に変換するので Apache Spark SQL に既に存在する DataFrame 変換を適用できます orgs = orgs.drop_fields(['other_names', 'identifiers']).rename_field( 'id', 'org_id').rename_field( 'name', 'org_name') orgs.todf().show() 以下に出力を示します classification org_id org_name links seats type image party party/al AL null null null null party party/democrat Democrat [[website, null null 164

172 AWS Glue 開発者ガイド Python サンプル party party/democrat-li... Democrat-Liberal [[website, null null null legislature d56acebe-8fdc-47b... House of Represen... null 435 lower house null party party/independent Independent null null null null party party/new_progres... New Progressive [[website, null null party party/popular_dem... Popular Democrat [[website, null null null party party/republican Republican [[website, null null party party/republican-... Republican-Conser... [[website, null null null party party/democrat Democrat [[website, null null party party/independent Independent null null null null party party/republican Republican [[website, null null legislature 8fa6c3d2-71dc Senate null 100 upper house null memberships に表示される organizations を表示するには次のように入力します memberships.select_fields(['organization_id']).todf().distinct().show() 以下に出力を示します organization_id d56acebe-8fdc-47b... 8fa6c3d2-71dc ステップ 5: すべてをまとめるここで AWS Glue を使用してこれらのリレーショナルテーブルを結合し議員の memberships とそれに対応する organizations の 1 つの完全な履歴テーブルを作成します 1. まず persons および memberships を id および person_id と結合します 2. 次に結果を orgs と org_id および organization_id と結合します 3. 次に冗長なフィールド person_id および org_id を削除しますこれらの操作はすべて 1 行の ( 拡張された ) コードで行うことができます l_history = Join.apply(orgs, Join.apply(persons, memberships, 'id', 'person_id'), 'org_id', 'organization_id').drop_fields(['person_id', 'org_id']) print "Count: ", l_history.count() l_history.printschema() 出力は次のとおりです 165

173 AWS Glue 開発者ガイド Python サンプル Count: root -- role: string -- seats: int -- org_name: string -- links: array -- element: struct -- note: string -- url: string -- type: string -- sort_name: string -- area_id: string -- images: array -- element: struct -- url: string -- on_behalf_of_id: string -- other_names: array -- element: struct -- note: string -- name: string -- lang: string -- contact_details: array -- element: struct -- type: string -- value: string -- name: string -- birth_date: string -- organization_id: string -- gender: string -- classification: string -- death_date: string -- legislative_period_id: string -- identifiers: array -- element: struct -- scheme: string -- identifier: string -- image: string -- given_name: string -- family_name: string -- id: string -- start_date: string -- end_date: string これで分析に使用できる最終テーブルが作成されました分析のためのコンパクトで効率的な形式つまり Parquet で AWS Glue Amazon Athena または Amazon Redshift Spectrum で SQL を実行できます次の呼び出しは複数のファイルにわたってテーブルを書き込んで後で解析するときに高速な並列読み込みをサポートします gluecontext.write_dynamic_frame.from_options(frame = l_history, connection_type = "s3", connection_options = {"path": "s3://glue-sample-target/output-dir/ legislator_history"}, format = "parquet") すべての履歴データを 1 つのファイルにまとめるにはデータフレームに変換し再パーティション化して書き出す必要があります 166

174 AWS Glue 開発者ガイド Python サンプル s_history = l_history.todf().repartition(1) s_history.write.parquet('s3://glue-sample-target/output-dir/legislator_single') または上院と下院でそれを分けたい場合 l_history.todf().write.parquet('s3://glue-sample-target/output-dir/legislator_part', partitionby=['org_name']) ステップ 6: リレーショナルデータベースへのデータの書き込み AWS Glue を使用すると Amazon Redshift などのリレーショナルデータベースに半構造化データであってもデータを簡単に書き込むことができますこれによりフレーム内のオブジェクトがどれほど複雑であっても DynamicFrames をフラット化する変換 relationalize が提供されますこの例の l_history DynamicFrame を使用してルートテーブル (hist_root) の名前と一時的な作業パスを relationalize に渡しますこれにより DynamicFrameCollection が返されますその後そのコレクション内の DynamicFrames の名前を一覧表示できます dfc = l_history.relationalize("hist_root", "s3://glue-sample-target/temp-dir/") dfc.keys() keys 呼び出しの出力は次のとおりです [u'hist_root', u'hist_root_contact_details', u'hist_root_links', u'hist_root_other_names', u'hist_root_images', u'hist_root_identifiers'] Relationalize は履歴テーブルを 6 つの新しいテーブルに分割します DynamicFrame の各オブジェクトのレコードを含むルートテーブルおよび配列の補助テーブルですリレーショナルデータベースでの配列の処理は特に配列が大きくなる場合に最適ではないことがあります配列を別のテーブルに分けることでクエリの実行速度が大幅に向上します次に contact_details を調べて分離を確認します l_history.select_fields('contact_details').printschema() dfc.select('hist_root_contact_details').todf().where("id = 10 or id = 75").orderBy(['id','index']).show() show 呼び出しの出力は次のとおりです root -- contact_details: array -- element: struct -- type: string -- value: string id index contact_details.val.type contact_details.val.value fax phone twitter 167

175 AWS Glue 開発者ガイド Python サンプル 10 5 MikeRossUpdates 75 0 fax phone twitter 75 5 SenCapito contact_details フィールドは元の DynamicFrame の構造体の配列ですこれらの配列の各要素は index によってインデックス化された補助テーブルの個別の行ですここで id は contact_details キーを使用する hist_root の外部キーです dfc.select('hist_root').todf().where( "contact_details = 10 or contact_details = 75").select( ['id', 'given_name', 'family_name', 'contact_details']).show() 出力を次に示します id given_name family_name contact_details f4fc30ee-7b Mike Ross 10 e3c60f34-7d1b-4c0... Shelley Capito これらのコマンドでは todf() および where 式を使用して表示する行をフィルタリングすることに注意してくださいしたがって hist_root テーブルを補助テーブルと結合すると次のことが可能になります配列をサポートせずにデータベースにデータをロードします SQL を使用して配列内の各項目にクエリを実行しますすでに redshift3 という名前の接続が設定されています独自の接続の作成方法については the section called データストアに接続を追加する (p. 80) を参照してください次に DynamicFrames を 1 つずつ循環してこのコレクションを Amazon Redshift に書き込みます for df_name in dfc.keys(): m_df = dfc.select(df_name) print "Writing to Redshift table: ", df_name gluecontext.write_dynamic_frame.from_jdbc_conf(frame = m_df, catalog_connection = "redshift3", connection_options = {"dbtable": df_name, "database": "testdb"}, redshift_tmp_dir = "s3://glue-sampletarget/temp-dir/") Amazon Redshift でテーブルは次のように表示されます (psql を使用して Amazon Redshift に接続されています ) testdb=# \d 168

176 AWS Glue 開発者ガイド Python サンプル List of relations schema name type owner public hist_root table test_user public hist_root_contact_details table test_user public hist_root_identifiers table test_user public hist_root_images table test_user public hist_root_links table test_user public hist_root_other_names table test_user (6 rows) testdb=# \d hist_root_contact_details Table "public.hist_root_contact_details" Column Type Modifiers id bigint index integer contact_details.val.type character varying(65535) contact_details.val.value character varying(65535) testdb=# \d hist_root Table "public.hist_root" Column Type Modifiers role character varying(65535) seats integer org_name character varying(65535) links bigint type character varying(65535) sort_name character varying(65535) area_id character varying(65535) images bigint on_behalf_of_id character varying(65535) other_names bigint birth_date character varying(65535) name character varying(65535) organization_id character varying(65535) gender character varying(65535) classification character varying(65535) legislative_period_id character varying(65535) identifiers bigint given_name character varying(65535) image character varying(65535) family_name character varying(65535) id character varying(65535) death_date character varying(65535) start_date character varying(65535) contact_details bigint end_date character varying(65535) Amazon Redshift で SQL を使用してこれらのテーブルにクエリを実行することができるようになりました testdb=# select * from hist_root_contact_details where id = 10 or id = 75 order by id, index; 以下に結果を示します id index contact_details.val.type contact_details.val.value fax

177 AWS Glue 開発者ガイド Python サンプル 10 1 phone twitter ChuckGrassley 75 0 fax phone twitter SenJackReed (6 rows) 結論全体として AWS Glue は非常に柔軟です通常は書くのに数日かかるところを数行のコードで達成できますソースからターゲットへの ETL スクリプトの全体は GitHub の AWS Glue サンプルの Python ファイル join_and_relationalize.py にありますコード例 : ResolveChoice Lambda および ApplyMapping を使用したデータ準備この例で使用されているデータセットは以下の 2 つの Data.CMS.gov サイトからダウンロードされたメディケアプロバイダの支払いデータで構成されています Inpatient Prospective Payment System Provider Summary for the Top 100 Diagnosis-Related Groups - FY2011 および Inpatient Charge Data FY 2011 ですダウンロードした後データを修正してファイルの最後にいくつかの誤ったレコードを追加しましたこの変更されたファイルは s3://awsglue-datasets/examples/medicare/ Medicare_Hospital_Provider.csv のパブリック Amazon S3 バケット内にありますこの例のソースコードは AWS Glue 例 GitHub リポジトリの data_cleaning_and_lambda.py ファイルにあります Python または PySpark スクリプトをデバッグする最も簡単な方法は開発エンドポイントを作成してコードを実行することです作業する開発エンドポイントを設定することから始めることをお勧めします詳細については the section called コンソールでの開発エンドポイント (p. 131) を参照してくださいステップ 1: Amazon S3 バケット内のデータをクロールする 1. AWS マネジメントコンソールにサインインした後にある AWS Glue コンソールを開きます 2. AWS Glue コンソールでのクローラの使用 (p. 63) で説明されているプロセスに従って s3:// awsglue-datasets/examples/medicare/medicare_hospital_provider.csv ファイルをクロールできる新しいクローラを作成し得られた結果のメタデータを AWS Glue データカタログの payments という名前のデータベースに配置します 3. 新しいクローラを実行し payments データベースを確認しますクローラはファイルの最初の 2 MB のデータを読んだ後でデータベースに medicare という名前のメタデータテーブルを作成しています新しい medicare テーブルのスキーマは次のようになります Column name Data type ================================================== drg definition string provider id bigint provider name string provider street address string provider city string provider state string provider zip code bigint hospital referral region description string total discharges bigint average covered charges string average total payments string 170

178 AWS Glue 開発者ガイド Python サンプル average medicare payments string ステップ 2: 開発エンドポイントノートブックに共通スクリプトを追加する次の共通スクリプトを開発エンドポイントノートブックに貼り付けて必要な AWS Glue ライブラリをインポートし単一の GlueContext を設定します import sys from awsglue.transforms import * from awsglue.utils import getresolvedoptions from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.job import Job gluecontext = GlueContext(SparkContext.getOrCreate()) ステップ 3: 異なるスキーマ解析を比較する次に Apache Spark DataFrame によって認識されたスキーマが AWS Glue クローラによって記録されたスキーマと同じかどうかを確認できます以下のコードを実行します medicare = spark.read.format( "com.databricks.spark.csv").option( "header", "true").option( "inferschema", "true").load( 's3://awsglue-datasets/examples/medicare/medicare_hospital_provider.csv') medicare.printschema() printschema 呼び出しの出力は次のとおりです root -- DRG Definition: string (nullable = true) -- Provider Id: string (nullable = true) -- Provider Name: string (nullable = true) -- Provider Street Address: string (nullable = true) -- Provider City: string (nullable = true) -- Provider State: string (nullable = true) -- Provider Zip Code: integer (nullable = true) -- Hospital Referral Region Description: string (nullable = true) -- Total Discharges : integer (nullable = true) -- Average Covered Charges : string (nullable = true) -- Average Total Payments : string (nullable = true) -- Average Medicare Payments: string (nullable = true) 次に AWS Glue DynamicFrame によって生成されるスキーマを確認します medicare_dynamicframe = gluecontext.create_dynamic_frame.from_catalog( database = "payments", table_name = "medicare") medicare_dynamicframe.printschema() printschema の出力は次のとおりです 171

179 AWS Glue 開発者ガイド Python サンプル root -- drg definition: string -- provider id: choice -- long -- string -- provider name: string -- provider street address: string -- provider city: string -- provider state: string -- provider zip code: long -- hospital referral region description: string -- total discharges: long -- average covered charges: string -- average total payments: string -- average medicare payments: string DynamicFrame は provider id が long 型または string 型のいずれかであるスキーマを生成します DataFrame スキーマは Provider Id を string 型としてリストしデータカタログは provider id を bigint 型としてリストします正しいものはどちらでしょうかファイルの末尾にはその列に string 値を持つ 2 つのレコード (160,000 レコードのうち ) がありますこれらは問題を説明するために導入されたエラーのあるレコードですこのような問題に対処するために AWS Glue DynamicFrame では Choice 型の概念を導入していますこの場合 DynamicFrame はその列に long 値と string 値の両方が存在することを示しています AWS Glue クローラはデータの最初の 2 MB のみを考慮しているため string 値を見落としました Apache Spark DataFrame はデータセット全体を考慮しましたが最も一般的な型つまり string 型を強制的に列に割り当てました実際慣れていない複雑な型やバリエーションがある場合にも Spark は最も一般的なケースを使用することがあります provider id 列のクエリを実行するには Choice 型をまず解決する必要があります DynamicFrame で cast:long オプションを指定して resolvechoice 変換メソッドを使用するとこれらの string 値を long 値に変換できます medicare_res = medicare_dynamicframe.resolvechoice(specs = [('provider id','cast:long')]) medicare_res.printschema() この場合 printschema の出力は次のようになります root -- drg definition: string -- provider id: long -- provider name: string -- provider street address: string -- provider city: string -- provider state: string -- provider zip code: long -- hospital referral region description: string -- total discharges: long -- average covered charges: string -- average total payments: string -- average medicare payments: string 値がキャストできない string だった場合に AWS Glue は null を挿入しましたもう 1 つのオプションは両方のタイプの値を保持する struct に Choice 型を変換することです次に異常だった行を確認してみましょう 172

180 AWS Glue 開発者ガイド Python サンプル medicare_res.todf().where("'provider id' is NULL").show() 次のように表示されています drg definition provider id provider name provider street address provider city provider state provider zip code hospital referral region description total discharges average covered charges average total payments average medicare payments SIGNS & SYM... null INC 1050 DIVISION ST MAUSTON WI WI - Madison 12 $ $ $ SIGNS & SYM... null INC- ST JOSEPH 5000 W CHAMBERS ST MILWAUKEE WI WI - Milwaukee 14 $ $ $ 次のように 2 つの不正な形式のレコードを削除します medicare_dataframe = medicare_res.todf() medicare_dataframe = medicare_dataframe.where("'provider id' is NOT NULL") ステップ 4: データのマッピングと Apache Spark Lambda 関数の使用 AWS Glue ではまだユーザー定義関数とも呼ばれる Lambda 関数が直接サポートされていませんしかしいつでも DynamicFrame を Apache Spark DataFrame との間で変換して DynamicFrames の特殊な機能に加えて Spark の機能を利用できます次に支払い情報を数字に変換すると Amazon Redshift や Amazon Athena のような分析エンジンはより迅速に数値処理を実行できます from pyspark.sql.functions import udf from pyspark.sql.types import StringType chop_f = udf(lambda x: x[1:], StringType()) medicare_dataframe = medicare_dataframe.withcolumn( "ACC", chop_f( medicare_dataframe["average covered charges"])).withcolumn( "ATP", chop_f( medicare_dataframe["average total payments"])).withcolumn( "AMP", chop_f( medicare_dataframe["average medicare payments"])) medicare_dataframe.select(['acc', 'ATP', 'AMP']).show() show 呼び出しの出力は次のとおりです ACC ATP AMP

181 AWS Glue 開発者ガイド Python サンプル only showing top 20 rows これらはすべてデータ内ではまだ文字列です強力な apply_mapping 変換メソッドを使用してデータをドロップ名前変更キャストおよびネストし他のデータプログラミング言語やシステムで容易にアクセスできるようにします medicare_tmp_dyf = DynamicFrame.fromDF(medicare_dataframe, gluecontext, "nested") medicare_nest_dyf = medicare_tmp_dyf.apply_mapping([('drg definition', 'string', 'drg', 'string'), ('provider id', 'long', 'provider.id', 'long'), ('provider name', 'string', 'provider.name', 'string'), ('provider city', 'string', 'provider.city', 'string'), ('provider state', 'string', 'provider.state', 'string'), ('provider zip code', 'long', 'provider.zip', 'long'), ('hospital referral region description', 'string','rr', 'string'), ('ACC', 'string', 'charges.covered', 'double'), ('ATP', 'string', 'charges.total_pay', 'double'), ('AMP', 'string', 'charges.medicare_pay', 'double')]) medicare_nest_dyf.printschema() printschema の出力は次のとおりです root -- drg: string -- provider: struct -- id: long -- name: string -- city: string -- state: string -- zip: long -- rr: string -- charges: struct -- covered: double -- total_pay: double -- medicare_pay: double データを Spark DataFrame に戻すと現在どのような状態かが分かります medicare_nest_dyf.todf().show() 出力は次のとおりです 174

182 AWS Glue 開発者ガイド PySpark 拡張機能 drg provider rr charges EXTRACRANIA... [10001,SOUTHEAST... AL - Dothan [ , EXTRACRANIA... [10005,MARSHALL M... AL - Birmingham [ , EXTRACRANIA... [10006,ELIZA COFF... AL - Birmingham [ , EXTRACRANIA... [10011,ST VINCENT... AL - Birmingham [ , EXTRACRANIA... [10016,SHELBY BAP... AL - Birmingham [ , EXTRACRANIA... [10023,BAPTIST ME... AL - Montgomery [ ,6653.8, EXTRACRANIA... [10029,EAST ALABA... AL - Birmingham [ , EXTRACRANIA... [10033,UNIVERSITY... AL - Birmingham [ , EXTRACRANIA... [10039,HUNTSVILLE... AL - Huntsville [ , EXTRACRANIA... [10040,GADSDEN RE... AL - Birmingham [ , EXTRACRANIA... [10046,RIVERVIEW... AL - Birmingham [ , EXTRACRANIA... [10055,FLOWERS HO... AL - Dothan [ , EXTRACRANIA... [10056,ST VINCENT... AL - Birmingham [ , EXTRACRANIA... [10078,NORTHEAST... AL - Birmingham [ , EXTRACRANIA... [10083,SOUTH BALD... AL - Mobile [ , EXTRACRANIA... [10085,DECATUR GE... AL - Huntsville [ , , EXTRACRANIA... [10090,PROVIDENCE... AL - Mobile [ , EXTRACRANIA... [10092,D C H REGI... AL - Tuscaloosa [ , EXTRACRANIA... [10100,THOMAS HOS... AL - Mobile [ ,4968.0, EXTRACRANIA... [10103,BAPTIST ME... AL - Birmingham [ ,5996.0, only showing top 20 rows ステップ 5: Apache Parquet にデータを書き込む AWS Glue はリレーショナルデータベースが効果的に消費できる Apache Parquet のような形式でデータを書き込むことを容易にします gluecontext.write_dynamic_frame.from_options( frame = medicare_nest_dyf, connection_type = "s3", connection_options = {"path": "s3://glue-sample-target/output-dir/ medicare_parquet"}, format = "parquet") AWS Glue PySpark 拡張機能リファレンス AWS Glue は PySpark Python 方言に以下の拡張機能を作成しました getresolvedoptions を使用してパラメータにアクセスする (p. 175) PySpark 拡張子型 (p. 176) DynamicFrame クラス (p. 180) DynamicFrameCollection クラス (p. 189) DynamicFrameWriter クラス (p. 190) DynamicFrameReader クラス (p. 192) GlueContext クラス (p. 193) getresolvedoptions を使用してパラメータにアクセスする AWS Glue getresolvedoptions(args, options) ユーティリティ関数を使用するとジョブの実行時にスクリプトに渡される引数にアクセスできますこの関数を使用するにはまず AWS Glue utils モジュールと sys モジュールからインポートします 175

183 AWS Glue 開発者ガイド PySpark 拡張機能 import sys from awsglue.utils import getresolvedoptions getresolvedoptions(args, options) args - sys.argv に含まれる引数のリスト options - 取得したい引数名の Python 配列 Example JobRun に渡された引数を取得するスクリプト内おそらく Lambda 関数内で JobRun を作成したとします response = client.start_job_run( JobName = 'my_test_job', Arguments = { '--day_partition_key': 'partition_0', '--hour_partition_key': 'partition_1', '--day_partition_value': day_partition_value, '--hour_partition_value': hour_partition_value } ) 渡された引数を取得するには次のように getresolvedoptions 関数を使用できます import sys from awsglue.utils import getresolvedoptions args = getresolvedoptions(sys.argv, ['JOB_NAME', 'day_partition_key', 'hour_partition_key', 'day_partition_value', 'hour_partition_value']) print "The day-partition key is: ", args['day_partition_key'] print "and the day-partition value is: ", args['day_partition_value'] PySpark 拡張子型 AWS Glue PySpark 拡張子で使用される型 DataType 他の AWS Glue 型の基本クラス init (properties={}) properties データ型のプロパティ ( オプション ) typename(cls) AWS Glue 型クラスの種類 ( つまり " 型 " が末尾から削除されたクラス名 ) を返します cls DataType から派生した AWS Glue クラスインスタンス jsonvalue( ) 176

184 AWS Glue 開発者ガイド PySpark 拡張機能データ型とクラスのプロパティが含まれる JSON オブジェクトを返します { } "datatype": typename, "properties": properties AtomicType およびシンプルデリバティブ DataType (p. 176) クラスから継承して拡張しすべての AWS Glue アトミックデータ型の基本クラスとして機能します fromjsonvalue(cls, json_value) JSON オブジェクトからの値を使用してクラスインスタンスを初期化します cls 初期化する AWS Glue 型のクラスインスタンス json_value キーと値のペアのロード元の JSON オブジェクト次の型は AtomicType (p. 177) クラスのシンプルデリバティブです BinaryType バイナリデータ. BooleanType ブール値 ByteType バイト値 DateType 日時値 DoubleType 倍精度浮動小数点値 IntegerType 整数値. LongType 長整数値 NullType null 値 ShortType 短整数値 StringType テキスト文字列 TimestampType タイムスタンプ値 ( 通常は 1970 年 1 月 1 日からの秒数 ) UnknownType 未確認型の値 DecimalType(AtomicType) 10 進数 ( バイナリ 2 進数ではなく 10 進数で表記される数 ) を表わすため AtomicType (p. 177) クラスから継承して拡張します init (precision=10, scale=2, properties={}) precision 10 進数の桁数 ( オプションデフォルトは 10) scale 小数点以下の桁数 ( オプションデフォルトは 2) properties 10 進数のプロパティ ( オプション ) EnumType(AtomicType) 有効なオプションの列挙を表すために AtomicType (p. 177) クラスから継承して拡張します 177

185 AWS Glue 開発者ガイド PySpark 拡張機能 init (options) options 列挙されているオプションのリストコレクション型 ArrayType(DataType) (p. 178) ChoiceType(DataType) (p. 178) MapType(DataType) (p. 178) フィールド ( オブジェクト ) (p. 178) StructType(DataType) (p. 179) EntityType(DataType) (p. 179) ArrayType(DataType) init (elementtype=unknowntype(), properties={}) elementtype 配列の要素の型 ( オプションデフォルトは UnknownType) properties 配列のプロパティ ( オプション ) ChoiceType(DataType) init (choices=[], properties={}) choices 選択肢のリスト ( オプション ) properties これらのオプションのプロパティ ( オプション ) add(new_choice) 可能な選択肢のリストに新しい選択肢を追加します new_choice 可能な選択肢のリストに追加する選択肢 merge(new_choices) 新しい選択肢のリストを既存の選択肢のリストとマージします new_choices 既存の選択肢とマージする新しい選択肢のリスト MapType(DataType) init (valuetype=unknowntype, properties={}) valuetype マップの値の型 ( オプションデフォルトは UnknownType) properties マップのプロパティ ( オプション ) フィールド ( オブジェクト ) DataType (p. 176) から派生したオブジェクトからフィールドオブジェクトを作成します 178

186 AWS Glue 開発者ガイド PySpark 拡張機能 init (name, datatype, properties={}) name フィールドに割り当てる名前 datatype フィールド作成元のオブジェクト properties フィールドのプロパティ ( オプション ) StructType(DataType) データ構造を定義します (struct) init (fields=[], properties={}) fields フィールドのリスト (Field 型 ) 構造に含めます ( オプション ) properties 構造のプロパティ ( オプション ) add(field) field 構造に追加するオブジェクトの Field 型 hasfield(field) この構造に同じ名前のフィールドがある場合は True をそうでない場合は False を返します field フィールド名または名前が使用される Field 型のオブジェクト getfield(field) field フィールド名または名前が使用される Field 型のオブジェクト構造に同じ名前のフィールドがある場合は返されます EntityType(DataType) init (entity, base_type, properties) このクラスはまだ実装されていませんその他のタイプ DataSource ( オブジェクト ) (p. 179) DataSink ( オブジェクト ) (p. 180) DataSource ( オブジェクト ) init (j_source, sql_ctx, name) j_source データソース sql_ctx SQL コンテキスト name データソース名 179

187 AWS Glue 開発者ガイド PySpark 拡張機能 setformat(format, **options) format データソースを設定する形式 options データソースに設定するオプションのコレクション getframe() データソースに DynamicFrame を返します DataSink ( オブジェクト ) init (j_sink, sql_ctx) j_sink 作成するシンク sql_ctx データシンクの SQL コンテキスト setformat(format, **options) format データシンクを設定する形式 options データシンクに設定するオプションのコレクション setaccumulablesize(size) size 設定する累積サイズ ( バイト単位 ) writeframe(dynamic_frame, info="") dynamic_frame 書き込む DynamicFrame info DynamicFrame に関する情報 ( オプション ) write(dynamic_frame_or_dfc, info="") DynamicFrame または DynamicFrameCollection を書き込みます dynamic_frame_or_dfc 書き込む DynamicFrame オブジェクトまたは DynamicFrameCollection オブジェクトのいずれか info 書き込む DynamicFrame または DynamicFrames に関する情報 ( オプション ) DynamicFrame クラス Apache Spark の主要な抽象化の 1 つは SparkSQL DataFrame でこれは R と Pandas にある DataFrame 構造に似ています DataFrame はテーブルと似ており機能スタイル ( マップ / リデュース / フィルタ / その他 ) 操作と SQL 操作 ( 選択プロジェクト集計 ) をサポートしています DataFrames は強力で広く使用されていますが抽出変換およびロード (ETL) 操作に関しては制限があります最も重要なのはデータをロードする前にスキーマを指定する必要があることで 180

188 AWS Glue 開発者ガイド PySpark 拡張機能す SparkSQL はデータに対してパスを 2 つ作ることでこれを解決します 1 つ目はスキーマを推測し 2 つ目はデータをロードしますただしこの推測は限定されており実際の煩雑なデータには対応しませんたとえば同じフィールドが異なるレコードの異なるタイプである可能性があります Apache Spark は多くの場合作業を中断して元のフィールドテキストを使用してタイプを string として報告しますこれは正しくない可能性がありスキーマの不一致を解決する方法を細かく制御する必要がありますまた大規模なデータセットの場合ソースデータに対する追加パスが非常に高価になる可能性がありますこれらの制限に対応するために AWS Glue により DynamicFrame が導入されました DynamicFrame は DataFrame と似ていますが各レコードが自己記述できるため最初はスキーマは必要ありません代わりに AWS Glue は必要に応じてオンザフライでスキーマを計算し選択 ( または共用 ) タイプを使用してスキーマの不一致を明示的にエンコードしますこれらの不整合を解決して固定スキーマを必要とするデータストアとデータセットを互換性のあるものにできます同様に DynamicRecord は DynamicFrame 内の論理レコードを表しますこれは Spark DataFrame の行と似ていますが自己記述型であり固定スキーマに適合しないデータに使用できますスキーマの不一致を解決したら DynamicFrames を DataFrames との間で変換することができます - 作成 - init (p. 181) fromdf (p. 181) todf (p. 181) init init (jdf, glue_ctx, name) jdf - Java 仮想マシン (JVM) 内のデータフレームへの参照 glue_ctx - GlueContext クラス (p. 193) オブジェクト name - オプションの名前文字列デフォルトでは空 fromdf fromdf(dataframe, glue_ctx, name) DataFrame フィールドを DynamicRecord に変換することにより DataFrame を DynamicFrame に変換します新しい DynamicFrame を返します DynamicRecord は DynamicFrame 内の論理レコードを表しますこれは自己記述型であり固定スキーマに適合しないデータに使用できる点を除いて Spark DataFrame の行に似ています dataframe - 変換する Apache Spark SQL DataFrame ( 必須 ) glue_ctx - この変換のコンテキストを指定する GlueContext クラス (p. 193) オブジェクト ( 必須 ) name 結果の DynamicFrame の名前 ( 必須 ) todf todf(options) DynamicRecords を DataFrame フィールドに変換することにより DynamicFrame を Apache Spark DataFrame に変換します新しい DataFrame を返します 181

189 AWS Glue 開発者ガイド PySpark 拡張機能 DynamicRecord は DynamicFrame 内の論理レコードを表しますこれは自己記述型であり固定スキーマに適合しないデータに使用できる点を除いて Spark DataFrame の行に似ています options - オプションのリスト Project と Cast アクションタイプを選択した場合ターゲットのタイプを指定します次に例を示します >>>todf([resolveoption("a.b.c", "KeepAsStruct")]) >>>todf([resolveoption("a.b.c", "Project", DoubleType())]) 情報 count (p. 182) schema (p. 182) printschema (p. 182) show (p. 182) count count( ) - 基盤となる DataFrame の行数を返します schema schema( ) - この DynamicFrame のスキーマを返します使用できない場合は基盤となる DataFrame のスキーマを返します printschema printschema( ) - 基盤となる DataFrame のスキーマを表示します show show(num_rows) - 基盤となる DataFrame から指定された行数を表示します変換 apply_mapping (p. 183) drop_fields (p. 183) フィルター (p. 183) 結合 (p. 184) map (p. 184) 関係付け (p. 184) rename_field (p. 185) resolvechoice (p. 185) select_fields (p. 186) スピゴット (p. 186) split_fields (p. 187) split_rows (p. 187) アンボックス (p. 187) ネスト解除 (p. 188) 書き込み (p. 188) 182

190 AWS Glue 開発者ガイド PySpark 拡張機能 apply_mapping apply_mapping(mappings, transformation_ctx="", info="", stagethreshold=0, totalthreshold=0) 宣言型のマッピングをこの DynamicFrame に適用しそれらのマッピングが適用された新しい DynamicFrame を返します mappings - マッピングタプルのリストでそれぞれが ( ソース列ソースタイプターゲット列ターゲットタイプ ) で構成されます必須 transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) info - この変換のエラー報告に関連付ける文字列 ( オプション ) stagethreshold - この変換中にプロセスで発生するエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) totalthreshold - この変換までに発生したエラーのうちプロセスでエラーとなるエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) drop_fields drop_fields(paths, transformation_ctx="", info="", stagethreshold=0, totalthreshold=0) FlatMap クラス (p. 206) 変換を呼び出して DynamicFrame からフィールドを削除します指定されたフィールドが削除された新しい DynamicFrame を返します paths - それぞれが削除するフィールドノードへのフルパスを含む文字列のリスト transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) info - この変換のエラー報告に関連付ける文字列 ( オプション ) stagethreshold - この変換中にプロセスで発生するエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) totalthreshold - この変換までに発生したエラーのうちプロセスでエラーとなるエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) フィルター filter(f, transformation_ctx="", info="", stagethreshold=0, totalthreshold=0) 指定された述語関数 f を満たす入力 DynamicFrame 内のすべての DynamicRecords を選択することで構築された新しい DynamicFrame を返します f - DynamicFrame に適用する述語関数この関数は DynamicRecord を引数として取り DynamicRecord がフィルタ要件を満たす場合は True を返しそうでない場合は False を返します ( 必須 ) DynamicRecord は DynamicFrame 内の論理レコードを表しますこれは自己記述型であり固定スキーマに適合しないデータに使用できる点を除いて Spark DataFrame の行に似ています transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) info - この変換のエラー報告に関連付ける文字列 ( オプション ) stagethreshold - この変換中にプロセスで発生するエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) totalthreshold - この変換までに発生したエラーのうちプロセスでエラーとなるエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) 183

191 AWS Glue 開発者ガイド PySpark 拡張機能 filter 変換の使用方法の例についてはフィルタクラス (p. 204) を参照してください結合 join(paths1, paths2, frame2, transformation_ctx="", info="", stagethreshold=0, totalthreshold=0) 別の DynamicFrame と等価結合を実行し結果の DynamicFrame を返します paths1 - 結合するこのフレームのキーのリスト paths2 - 結合する別のフレームのキーのリスト frame2 - 結合する他の DynamicFrame transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) info - この変換のエラー報告に関連付ける文字列 ( オプション ) stagethreshold - この変換中にプロセスで発生するエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) totalthreshold - この変換までに発生したエラーのうちプロセスでエラーとなるエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) map map(f, transformation_ctx="", info="", stagethreshold=0, totalthreshold=0) 指定したマッピング関数を元の DynamicFrame のすべてのレコードに適用した結果の新しい DynamicFrame を返します f - DynamicFrame 内のすべてのレコードに適用されるマッピング関数この関数は DynamicRecord を引数として取り新しい DynamicRecord を返す必要があります ( 必須 ) DynamicRecord は DynamicFrame 内の論理レコードを表しますこれは自己記述型であり固定スキーマに適合しないデータに使用できる点を除いて Apache Spark DataFrame の行に似ています transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) info - 変換のエラーに関連付けられた文字列 ( オプション ) stagethreshold - エラーが発生する前に変換で発生する可能性のあるエラーの最大数 ( オプションデフォルトは 0) totalthreshold - エラーを処理する前に全体的に発生する可能性のあるエラーの最大数 ( オプションデフォルトは 0) map 変換の使用方法の例についてはマップクラス (p. 209) を参照してください関係付け relationalize(root_table_name, staging_path, options, transformation_ctx="", info="", stagethreshold=0, totalthreshold=0) ネストされた列をネスト解除し配列の列をピボットすることによって生成されるフレームのリストを生成することにより DynamicFrame を関係付けますピボットされた配列の列はフェーズのネスト解除時に生成された結合キーを使用してルートテーブルに結合できます root_table_name - ルートテーブルの名前 staging_path - ピボットテーブルのパーティションを CSV 形式で保存するパスです (optional) ピボットされたテーブルはこのパスから読み取ります options - オプションのパラメータのディクショナリ 184

192 AWS Glue 開発者ガイド PySpark 拡張機能 transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) info - この変換のエラー報告に関連付ける文字列 ( オプション ) stagethreshold - この変換中にプロセスで発生するエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) totalthreshold - この変換までに発生したエラーのうちプロセスでエラーとなるエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) rename_field rename_field(oldname, newname, transformation_ctx="", info="", stagethreshold=0, totalthreshold=0) この DynamicFrame のフィールドの名前を変更しフィールドの名前が変更された新しい DynamicFrame を返します oldname - 名前を変更するノードへのフルパス古い名前にドットが含まれている場合 RenameField はバックティック (`) で囲まなければ機能しませんたとえば this.old.name を thisnewname に置き換えるには rename_field を次のように呼び出します newdyf = olddyf.rename_field("`this.old.name`", "thisnewname") newname - 完全パスとしての新しい名前 transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) info - この変換のエラー報告に関連付ける文字列 ( オプション ) stagethreshold - この変換中にプロセスで発生するエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) totalthreshold - この変換までに発生したエラーのうちプロセスでエラーとなるエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) resolvechoice resolvechoice(specs = None, option="", transformation_ctx="", info="", stagethreshold=0, totalthreshold=0) この DynamicFrame 内で選択タイプを解決し新しい DynamicFrame を返します specs - それぞれがタプルの形式の解決する特定のあいまいさのリスト (path, action) path 値は特定のあいまいな要素を識別し action 値は対応する解決を識別します specs パラメータおよび option パラメータのうち 1 つのみを使用できます spec パラメータが None ではない場合 option パラメータは空の文字列である必要があります逆に option が空の文字列ではない場合 spec パラメータは None である必要がありますどちらのパラメータも指定されていない場合 AWS Glue はスキーマを解析しそれを使用してあいまいさを解決します specs タプルの action 部分は次の 4 つの解決策のうちの 1 つを指定できます cast: キャストするタイプを指定できます ( 例 : cast:int) make_cols: データを平坦化することで潜在的なあいまいさを解消しますたとえば columna が int または string の場合解決策は作成された DynamicFrame に columna_int および columna_string という名前の 2 つの列を生成することです make_struct: 構造体を使用してデータを表現することで潜在的なあいまいさを解決しますたとえば列のデータが int または string の場合 make_struct アクションを使用すると作成された DynamicFrame にそれぞれが int および string の両方を含む構造体の列が生成されます 185

193 AWS Glue 開発者ガイド PySpark 拡張機能 project: 可能なデータ型の 1 つにすべてのデータを投影することで潜在的なあいまいさを解消しますたとえば列のデータが int または string の場合 project:string アクションを使用するとすべての int 値が文字列に変換されている作成された DynamicFrame に列が生成されます path で配列を識別する場合はあいまいさを避けるために配列名の後に空の角括弧を置きますたとえば使用しているデータが次のように構造化されているとします "mylist": [ { "price": }, { "price": "$100.00" } ] 文字列バージョンではなく数値バージョンの料金を使用する場合は path を "mylist[].price" に設定し action を "cast:double" に設定できます option specs パラメータが None の場合のデフォルトの解決アクションです specs パラメータが None ではない場合空の文字列以外に設定することはできません transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) info - この変換のエラー報告に関連付ける文字列 ( オプション ) stagethreshold - この変換中にプロセスで発生するエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) totalthreshold - この変換までに発生したエラーのうちプロセスでエラーとなるエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) Example df1 = df.resolvechoice(option = "make_cols") df2 = df.resolvechoice(specs = [("a.b", "make_struct"), ("c.d", "cast:double")]) select_fields select_fields(paths, transformation_ctx="", info="", stagethreshold=0, totalthreshold=0) 選択したフィールドを含む新しい DynamicFrame を返します paths - 文字列のリスト各文字列は選択するノードへのフルパスです transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) info - この変換のエラー報告に関連付ける文字列 ( オプション ) stagethreshold - この変換中にプロセスで発生するエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) totalthreshold - この変換までに発生したエラーのうちプロセスでエラーとなるエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) スピゴット spigot(path, options={}) 変換中にサンプルレコードを指定した場所に書き込み追加の書き込みステップで入力 DynamicFrame を返します path - 書き込み先へのパス ( 必須 ) 186

194 AWS Glue 開発者ガイド PySpark 拡張機能 options - オプションを指定するキーと値のペア ( オプション ) "topk" オプションは最初の k レコードを書き込むことを指定します "prob" オプションは書き込むレコードを選択するために使用される指定されたレコードを選択する可能性を指定します transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) split_fields split_fields(paths, name1, name2, transformation_ctx="", info="", stagethreshold=0, totalthreshold=0) 2 つの DynamicFrames を含む新しい DynamicFrameCollection を返します 1 つ目は分割されたすべてのノードを含み 2 つ目には残っているノードが含まれます paths - 文字列のリスト各文字列は新しい DynamicFrame に分割するノードのフルパスです name1 - 分割された DynamicFrame の名前文字列 name2 - 指定されたノードが分割された後に残る DynamicFrame の名前文字列 transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) info - この変換のエラー報告に関連付ける文字列 ( オプション ) stagethreshold - この変換中にプロセスで発生するエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) totalthreshold - この変換までに発生したエラーのうちプロセスでエラーとなるエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) split_rows DynamicFrame の 1 つ以上の行を新しい DynamicFrame に分割します split_rows(comparison_dict, name1, name2, transformation_ctx="", info="", stagethreshold=0, totalthreshold=0) 2 つの DynamicFrames を含む新しい DynamicFrameCollection を返します 1 つ目には分割されたすべての行が入り 2 つ目には残りの行が入ります comparison_dict - キーが列へのパスでありその値が列値が比較される値にコンパレータをマッピングするための別のディクショナリであるディクショナリたとえば {"age": {">": 10, "<": 20}} は age 列の値が 10 より大きく 20 より小さいすべての行を分割します name1 - 分割された DynamicFrame の名前文字列 name2 - 指定されたノードが分割された後に残る DynamicFrame の名前文字列 transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) info - この変換のエラー報告に関連付ける文字列 ( オプション ) stagethreshold - この変換中にプロセスで発生するエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) totalthreshold - この変換までに発生したエラーのうちプロセスでエラーとなるエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) アンボックス unbox(path, format, transformation_ctx="", info="", stagethreshold=0, totalthreshold=0, **options) DynamicFrame の文字列フィールドをアンボックスしアンボックスされた DynamicRecords を含む DynamicFrame を返します 187

195 AWS Glue 開発者ガイド PySpark 拡張機能 DynamicRecord は DynamicFrame 内の論理レコードを表しますこれは自己記述型であり固定スキーマに適合しないデータに使用できる点を除いて Apache Spark DataFrame の行に似ています path - アンボックスする文字列ノードへのフルパス format 形式の仕様 ( オプション ) 複数の形式をサポートする Amazon Simple Storage Service (Amazon S3) やテープ接続に使用しますサポートされる形式については AWS Glue の ETL 出力用の形式オプション (p. 152) を参照してください transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) info - この変換のエラー報告に関連付ける文字列 ( オプション ) stagethreshold - この変換中にプロセスで発生するエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) totalthreshold - この変換までに発生したエラーのうちプロセスでエラーとなるエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) options - 次の 1 つ以上 separator - 区切り文字を含む文字列 escaper - エスケープ文字を含む文字列 skipfirst - 最初のインスタンスをスキップするかどうかを示すブール値 withschema - スキーマを含む文字列 StructType.json( ) を使用して呼び出す必要があります withheader - ヘッダーが含まれているかどうかを示すブール値例 : unbox("a.b.c", "csv", separator=" ") ネスト解除 DynamicFrame 内のネストされたオブジェクトをネスト解除して最上位レベルのオブジェクトにし新しいネストされていない DynamicFrame を返します unnest(transformation_ctx="", info="", stagethreshold=0, totalthreshold=0) DynamicFrame 内のネストされたオブジェクトをネスト解除して最上位レベルのオブジェクトにし新しいネストされていない DynamicFrame を返します transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) info - この変換のエラー報告に関連付ける文字列 ( オプション ) stagethreshold - この変換中にプロセスで発生するエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) totalthreshold - この変換までに発生したエラーのうちプロセスでエラーとなるエラーの数 ( オプション : デフォルトではゼロプロセスがエラーを出力しないことを示します ) 例 : unnest( ) 書き込み write(connection_type, connection_options, format, format_options, accumulator_size) この DynamicFrame の GlueContext クラス (p. 193) から指定された接続タイプの DataSink ( オブジェクト ) (p. 180) を取得しこの DynamicFrame のコンテンツの書式設定および書き込みに使用します指定されたとおりに書式設定され書き込まれる新しい DynamicFrame を返します connection_type - 使用する接続タイプ有効な値には s3 mysql postgresql redshift sqlserver および oracle があります 188

196 AWS Glue 開発者ガイド PySpark 拡張機能 connection_options - 使用する接続オプション ( オプション ) s3 の connection_type では Amazon S3 パスが定義されています connection_options = {"path": "s3://aws-glue-target/temp"} JDBC 接続の場合いくつかのプロパティを定義する必要がありますデータベース名は URL の一部である必要があることに注意してくださいオプションで接続オプションに含めることができます connection_options = {"url": "jdbc-url/database", "user": "username", "password": "password","dbtable": "table-name", "redshifttmpdir": "s3-tempdir-path"} format 形式の仕様 ( オプション ) 複数の形式をサポートする Amazon Simple Storage Service (Amazon S3) やテープ接続に使用しますサポートされる形式については AWS Glue の ETL 出力用の形式オプション (p. 152) を参照してください format_options 指定した形式の形式オプションサポートされる形式については AWS Glue の ETL 出力用の形式オプション (p. 152) を参照してください accumulator_size - 使用する累積サイズ ( オプション ) エラー asserterrorthreshold (p. 189) errorsasdynamicframe (p. 189) errorscount (p. 189) stageerrorscount (p. 189) asserterrorthreshold asserterrorthreshold( ) - この DynamicFrame を作成した変換のエラーのアサーション基盤になる DataFrame から Exception を返します errorsasdynamicframe errorsasdynamicframe( ) - 内部にネストされたエラーレコードを持つ DynamicFrame を返します errorscount errorscount( ) - DynamicFrame 内のエラーの総数を返します stageerrorscount stageerrorscount - この DynamicFrame を生成するプロセスで発生したエラーの数を返します DynamicFrameCollection クラス DynamicFrameCollection は DynamicFrame クラス (p. 180) オブジェクトのディクショナリでそのキーは DynamicFrames の名前値は DynamicFrame オブジェクトです init init (dynamic_frames, glue_ctx) dynamic_frames DynamicFrame クラス (p. 180) オブジェクトのディクショナリ glue_ctx GlueContext クラス (p. 193) オブジェクト 189

197 AWS Glue 開発者ガイド PySpark 拡張機能キー keys( ) このコレクション内のキーのリストを返しますこれは一般的に対応する DynamicFrame 値の名前で構成されます値 values(key) このコレクション内の DynamicFrame 値のリストを返します [ select(key) 指定されたキー ( 一般に DynamicFrame の名前 ) に対応する DynamicFrame を返します key DynamicFrameCollection 内のキー通常は DynamicFrame の名前を表します map map(callable, transformation_ctx="") 渡された関数を使用してこのコレクション内の DynamicFrames に基づいた新しい DynamicFrameCollection を作成して返します callable DynamicFrame と指定された変換コンテキストをパラメータとして取り DynamicFrame を返す関数 transformation_ctx 呼び出し可能なものによって使用される変換コンテキスト ( 省略可能 ) flatmap flatmap(f, transformation_ctx="") 渡された関数を使用しこのコレクション内の DynamicFrames に基づいた新しい DynamicFrameCollection を作成して返します f DynamicFrame をパラメータとして取り DynamicFrame または DynamicFrameCollection を返す関数 transformation_ctx 関数で使用される変換コンテキスト ( 省略可能 ) DynamicFrameWriter クラス方法 init (p. 190) from_options (p. 191) from_catalog (p. 191) from_jdbc_conf (p. 191) init init (glue_context) glue_context - 使用する GlueContext クラス (p. 193) 190

198 AWS Glue 開発者ガイド PySpark 拡張機能 from_options from_options(frame, connection_type, connection_options={}, format=none, format_options={}, transformation_ctx="") 指定された接続と形式を使用して DynamicFrame を書き込みます frame - 書き込む DynamicFrame connection_type - 接続タイプ有効な値には s3 mysql postgresql redshift sqlserver および oracle があります connection_options - 接続オプション ( パスやデータベーステーブルなど ) ( オプション ) s3 の connection_type では Amazon S3 パスが定義されています connection_options = {"path": "s3://aws-glue-target/temp"} JDBC 接続の場合いくつかのプロパティを定義する必要がありますデータベース名は URL の一部である必要があることに注意してくださいオプションで接続オプションに含めることができます connection_options = {"url": "jdbc-url/database", "user": "username", "password": "password","dbtable": "table-name", "redshifttmpdir": "s3-tempdir-path"} format 形式の仕様 ( オプション ) 複数の形式をサポートする Amazon Simple Storage Service (Amazon S3) やテープ接続に使用しますサポートされる形式については AWS Glue の ETL 出力用の形式オプション (p. 152) を参照してください format_options 指定した形式の形式オプションサポートされる形式については AWS Glue の ETL 出力用の形式オプション (p. 152) を参照してください transformation_ctx - 使用する変換コンテキスト ( オプション ) from_catalog from_catalog(frame, name_space, table_name, redshift_tmp_dir="", transformation_ctx="") 指定されたカタログデータベースとテーブル名を使用して DynamicFrame を書き込みます frame - 書き込む DynamicFrame name_space 使用するデータベース table_name - 使用する table_name redshift_tmp_dir - 使用する Amazon Redshift の一時ディレクトリ ( オプション ) transformation_ctx - 使用する変換コンテキスト ( オプション ) from_jdbc_conf from_jdbc_conf(frame, catalog_connection, connection_options={}, redshift_tmp_dir = "", transformation_ctx="") 指定された JDBC 接続情報を使用して DynamicFrame を書き込みます frame - 書き込む DynamicFrame catalog_connection - 使用するカタログ接続 connection_options - 接続オプション ( パスやデータベーステーブルなど ) ( オプション ) redshift_tmp_dir - 使用する Amazon Redshift の一時ディレクトリ ( オプション ) 191

199 AWS Glue 開発者ガイド PySpark 拡張機能 transformation_ctx - 使用する変換コンテキスト ( オプション ) DynamicFrameReader クラス方法 init (p. 192) from_rdd (p. 192) from_options (p. 192) from_catalog (p. 193) init init (glue_context) glue_context - 使用する GlueContext クラス (p. 193) from_rdd from_rdd(data, name, schema=none, sampleratio=none) Resilient Distributed Dataset (RDD) から DynamicFrame を読み取ります data - 読み取り元のデータセット name - 読み取り元の名前 schema - 読み取るスキーマ ( オプション ) sampleratio - サンプル比率 ( オプション ) from_options from_options(connection_type, connection_options={}, format=none, format_options={}, transformation_ctx="") 指定された接続と形式を使用して DynamicFrame を読み込みます connection_type - 接続タイプ有効な値には s3 mysql postgresql redshift sqlserver および oracle があります connection_options - 接続オプション ( パスやデータベーステーブルなど ) ( オプション ) s3 の connection_type の場合 Amazon S3 のパスは配列で定義されます connection_options = {"paths": [ "s3://mybucket/object_a", "s3://mybucket/object_b"]} JDBC 接続の場合いくつかのプロパティを定義する必要がありますデータベース名は URL の一部である必要があることに注意してくださいオプションで接続オプションに含めることができます connection_options = {"url": "jdbc-url/database", "user": "username", "password": "password","dbtable": "table-name", "redshifttmpdir": "s3-tempdir-path"} format 形式の仕様 ( オプション ) 複数の形式をサポートする Amazon Simple Storage Service (Amazon S3) やテープ接続に使用しますサポートされる形式については AWS Glue の ETL 出力用の形式オプション (p. 152) を参照してください 192

200 AWS Glue 開発者ガイド PySpark 拡張機能 format_options 指定した形式の形式オプションサポートされる形式については AWS Glue の ETL 出力用の形式オプション (p. 152) を参照してください transformation_ctx - 使用する変換コンテキスト ( オプション ) from_catalog from_catalog(name_space, table_name, redshift_tmp_dir = "", transformation_ctx="") 指定されたカタログの名前空間とテーブル名を使用して DynamicFrame を読み取ります name_space - 読み取り元のデータベース table_name - 読み取り元のテーブルの名前 redshift_tmp_dir - 使用する Amazon Redshift の一時ディレクトリ ( オプション ) transformation_ctx - 使用する変換コンテキスト ( オプション ) GlueContext クラス Apache SparkSQL SQLContext オブジェクトをラップすることにより Apache Spark プラットフォームとやり取りするためのメカニズムを提供します作成 init (p. 193) getsource (p. 193) create_dynamic_frame_from_rdd (p. 194) create_dynamic_frame_from_catalog (p. 194) create_dynamic_frame_from_options (p. 194) init init (sparkcontext) sparkcontext - 使用する Apache Spark のコンテキスト getsource getsource(connection_type, transformation_ctx = "", **options) 外部ソースから DynamicFrames を読み取るために使用できる DataSource オブジェクトを作成します connection_type - 使用する接続タイプ (Amazon S3 Amazon Redshift JDBC など ) 有効な値には s3 mysql postgresql redshift sqlserver および oracle があります transformation_ctx - 使用する変換コンテキスト ( オプション ) options - オプションの名前と値のペアのコレクション以下は getsource の使用例です >>> data_source = context.getsource("file", paths=["/in/path"]) 193

201 AWS Glue 開発者ガイド PySpark 拡張機能 >>> data_source.setformat("json") >>> myframe = data_source.getframe() create_dynamic_frame_from_rdd create_dynamic_frame_from_rdd(data, name, schema=none, sample_ratio=none, transformation_ctx="") Apache Spark Resilient Distributed Dataset (RDD) から作成された DynamicFrame を返します data - 使用するデータソース name - 使用するデータの名前 schema - 使用するスキーマ ( オプション ) sample_ratio - 使用するサンプル比率 ( オプション ) transformation_ctx - 使用する変換コンテキスト ( オプション ) create_dynamic_frame_from_catalog create_dynamic_frame_from_catalog(database, table_name, redshift_tmp_dir, transformation_ctx = "") カタログデータベースとテーブル名を使用して作成された DynamicFrame を返します Database - 読み込むデータベース table_name - 読み込むテーブルの名前 redshift_tmp_dir - 使用する Amazon Redshift の一時ディレクトリ ( オプション ) transformation_ctx - 使用する変換コンテキスト ( オプション ) create_dynamic_frame_from_options create_dynamic_frame_from_options(connection_type, connection_options={}, format=none, format_options={}, transformation_ctx = "") 指定された接続と形式で作成された DynamicFrame を返します connection_type - 接続タイプ (Amazon S3 Amazon Redshift JDBC など ) 有効な値には s3 mysql postgresql redshift sqlserver および oracle があります connection_options - 接続オプション ( パスやデータベーステーブルなど ) ( オプション ) s3 の connection_type では Amazon S3 パスが定義されています connection_options = {"paths": ["s3://aws-glue-target/temp"]} JDBC 接続の場合いくつかのプロパティを定義する必要がありますデータベース名は URL の一部である必要があることに注意してくださいオプションで接続オプションに含めることができます connection_options = {"url": "jdbc-url/database", "user": "username", "password": "password","dbtable": "table-name", "redshifttmpdir": "s3-tempdir-path"} format 形式の仕様 ( オプション ) 複数の形式をサポートする Amazon Simple Storage Service (Amazon S3) やテープ接続に使用しますサポートされる形式については AWS Glue の ETL 出力用の形式オプション (p. 152) を参照してください 194

202 AWS Glue 開発者ガイド PySpark 拡張機能 format_options 指定した形式の形式オプションサポートされる形式については AWS Glue の ETL 出力用の形式オプション (p. 152) を参照してください transformation_ctx - 使用する変換コンテキスト ( オプション ) 書き込み getsink (p. 195) write_dynamic_frame_from_options (p. 195) write_from_options (p. 196) write_dynamic_frame_from_catalog (p. 196) write_dynamic_frame_from_jdbc_conf (p. 197) write_from_jdbc_conf (p. 197) getsink getsink(connection_type, format = None, transformation_ctx = "", **options) 外部ソースに DynamicFrames を書き込むために使用できる DataSink オブジェクトを取得します期待しているシンクを確実に取得するために SparkSQL format を最初に確認します connection_type - 使用する接続タイプ (Amazon S3 Amazon Redshift JDBC など ) 有効な値には s3 mysql postgresql redshift sqlserver および oracle があります format 使用する SparkSQL 形式 ( オプション ) transformation_ctx - 使用する変換コンテキスト ( オプション ) options - オプションの名前と値のペアのコレクション以下に例を示します >>> data_sink = context.getsink("s3") >>> data_sink.setformat("json"), >>> data_sink.writeframe(myframe) write_dynamic_frame_from_options write_dynamic_frame_from_options(frame, connection_type, connection_options={}, format=none, format_options={}, transformation_ctx = "") 指定された接続と形式を使用して DynamicFrame を書き込み返します frame - 書き込む DynamicFrame connection_type - 接続タイプ (Amazon S3 Amazon Redshift JDBC など ) 有効な値には s3 mysql postgresql redshift sqlserver および oracle があります connection_options - 接続オプション ( パスやデータベーステーブルなど ) ( オプション ) s3 の connection_type では Amazon S3 パスが定義されています connection_options = {"path": "s3://aws-glue-target/temp"} JDBC 接続の場合いくつかのプロパティを定義する必要がありますデータベース名は URL の一部である必要があることに注意してくださいオプションで接続オプションに含めることができます 195

203 AWS Glue 開発者ガイド PySpark 拡張機能 connection_options = {"url": "jdbc-url/database", "user": "username", "password": "password","dbtable": "table-name", "redshifttmpdir": "s3-tempdir-path"} format 形式の仕様 ( オプション ) 複数の形式をサポートする Amazon Simple Storage Service (Amazon S3) やテープ接続に使用しますサポートされる形式については AWS Glue の ETL 出力用の形式オプション (p. 152) を参照してください format_options 指定した形式の形式オプションサポートされる形式については AWS Glue の ETL 出力用の形式オプション (p. 152) を参照してください transformation_ctx - 使用する変換コンテキスト ( オプション ) write_from_options write_from_options(frame_or_dfc, connection_type, connection_options={}, format={}, format_options={}, transformation_ctx = "") 指定された接続および形式情報で作成された DynamicFrame または DynamicFrameCollection を書き込み返します frame_or_dfc - 書き込む DynamicFrame または DynamicFrameCollection connection_type - 接続タイプ (Amazon S3 Amazon Redshift JDBC など ) 有効な値には s3 mysql postgresql redshift sqlserver および oracle があります connection_options - 接続オプション ( パスやデータベーステーブルなど ) ( オプション ) s3 の connection_type では Amazon S3 パスが定義されています connection_options = {"path": "s3://aws-glue-target/temp"} JDBC 接続の場合いくつかのプロパティを定義する必要がありますデータベース名は URL の一部である必要があることに注意してくださいオプションで接続オプションに含めることができます connection_options = {"url": "jdbc-url/database", "user": "username", "password": "password","dbtable": "table-name", "redshifttmpdir": "s3-tempdir-path"} format 形式の仕様 ( オプション ) 複数の形式をサポートする Amazon Simple Storage Service (Amazon S3) やテープ接続に使用しますサポートされる形式については AWS Glue の ETL 出力用の形式オプション (p. 152) を参照してください format_options 指定した形式の形式オプションサポートされる形式については AWS Glue の ETL 出力用の形式オプション (p. 152) を参照してください transformation_ctx - 使用する変換コンテキスト ( オプション ) write_dynamic_frame_from_catalog write_dynamic_frame_from_catalog(frame, database, table_name, redshift_tmp_dir, transformation_ctx = "") カタログデータベースとテーブル名を使用して DynamicFrame を書き込み返します frame - 書き込む DynamicFrame Database - 読み込むデータベース table_name - 読み込むテーブルの名前 redshift_tmp_dir - 使用する Amazon Redshift の一時ディレクトリ ( オプション ) transformation_ctx - 使用する変換コンテキスト ( オプション ) 196

204 AWS Glue 開発者ガイド PySpark 変換 write_dynamic_frame_from_jdbc_conf write_dynamic_frame_from_jdbc_conf(frame, catalog_connection, connection_options={}, redshift_tmp_dir = "", transformation_ctx = "") 指定された JDBC 接続情報を使用して DynamicFrame を書き込み返します frame - 書き込む DynamicFrame catalog_connection - 使用するカタログ接続 connection_options - 接続オプション ( パスやデータベーステーブルなど ) ( オプション ) redshift_tmp_dir - 使用する Amazon Redshift の一時ディレクトリ ( オプション ) transformation_ctx - 使用する変換コンテキスト ( オプション ) write_from_jdbc_conf write_from_jdbc_conf(frame_or_dfc, catalog_connection, connection_options={}, redshift_tmp_dir = "", transformation_ctx = "") 指定された JDBC 接続情報を使用して DynamicFrame または DynamicFrameCollection を書き込み返します frame_or_dfc - 書き込む DynamicFrame または DynamicFrameCollection catalog_connection - 使用するカタログ接続 connection_options - 接続オプション ( パスやデータベーステーブルなど ) ( オプション ) redshift_tmp_dir - 使用する Amazon Redshift の一時ディレクトリ ( オプション ) transformation_ctx - 使用する変換コンテキスト ( オプション ) AWS Glue PySpark 変換リファレンス AWS Glue は PySpark ETL オペレーションで使用する次の変換クラスを作成しました GlueTransform 基本クラス (p. 198) ApplyMapping クラス (p. 199) DropFields クラス (p. 201) DropNullFields クラス (p. 202) ErrorsAsDynamicFrame クラス (p. 203) フィルタクラス (p. 204) Join クラス (p. 208) マップクラス (p. 209) MapToCollection クラス (p. 212) クラスの関連付け (p. 213) RenameField クラス (p. 214) ResolveChoice クラス (p. 215) SelectFields クラス (p. 217) SelectFromCollection クラス (p. 218) スピゴットクラス (p. 219) SplitFields クラス (p. 220) 197

205 AWS Glue 開発者ガイド PySpark 変換 SplitRows クラス (p. 222) Unbox クラス (p. 223) UnnestFrame クラス (p. 224) GlueTransform 基本クラスすべての awsglue.transforms クラスが継承する基本クラスクラスはすべて call メソッドを定義します次のセクションにリストされている GlueTransform クラスのメソッドを上書きするかデフォルトでクラス名を使用して呼び出されますメソッド apply(cls, *args, **kwargs) (p. 198) name(cls) (p. 198) describeargs(cls) (p. 198) describereturn(cls) (p. 199) describetransform(cls) (p. 199) describeerrors(cls) (p. 199) describe(cls) (p. 199) apply(cls, *args, **kwargs) 変換クラスを呼び出して変換を適用し結果を返します cls - self クラスオブジェクト name(cls) 派生変換クラスの名前を返します cls - self クラスオブジェクト describeargs(cls) cls - self クラスオブジェクト名前付き引数にそれぞれ対応する辞書のリストを次の形式で返します [ { "name": "(name of argument)", "type": "(type of argument)", "description": "(description of argument)", "optional": "(Boolean, True if the argument is optional)", "defaultvalue": "(Default value string, or None)(String; the default value, or None)" },... ] 実装されていない派生変換で呼び出されたときに NotImplementedError 例外が発生します 198

206 AWS Glue 開発者ガイド PySpark 変換 describereturn(cls) cls - self クラスオブジェクト戻り型に関する情報を含む辞書を次の形式で返します { } "type": "(return type)", "description": "(description of output)" 実装されていない派生変換で呼び出されたときに NotImplementedError 例外が発生します describetransform(cls) 変換について説明する文字列を返します cls - self クラスオブジェクト実装されていない派生変換で呼び出されたときに NotImplementedError 例外が発生します describeerrors(cls) cls - self クラスオブジェクトこの変換によってスローされる可能性のある例外をそれぞれ説明する辞書のリストを次の形式で返します [ { "type": "(type of error)", "description": "(description of error)" },... ] describe(cls) cls - self クラスオブジェクト次の形式のオブジェクトを返します { } "transform" : { "name" : cls.name( ), "args" : cls.describeargs( ), "returns" : cls.describereturn( ), "raises" : cls.describeerrors( ), "location" : "internal" } ApplyMapping クラス DynamicFrame でマッピングを適用します 199

207 AWS Glue 開発者ガイド PySpark 変換メソッド call (p. 200) 適用 (p. 200) name (p. 200) describeargs (p. 200) describereturn (p. 200) describetransform (p. 200) describeerrors (p. 200) 説明 (p. 201) call (frame, mappings, transformation_ctx = "", info = "", stagethreshold = 0, totalthreshold = 0) 指定された DynamicFrame に宣言型のマッピングを適用します frame マッピングを適用する DynamicFrame ( 必須 ) mappings マッピングタプルのリストでそれぞれが ( ソース列ソースタイプターゲット列ターゲットタイプ ) で構成されます必須 transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) info - 変換のエラーに関連付けられた文字列 ( オプション ) stagethreshold - エラーが発生する前に変換で発生する可能性のあるエラーの最大数 ( オプションデフォルトは 0) totalthreshold - 処理がエラーを出す前に全体的に発生する可能性のあるエラーの最大数 ( オプションデフォルトは 0) マッピングが適用された新しい DynamicFrame を返します apply(cls, *args, **kwargs) 継承元は GlueTransform 適用 (p. 198) name(cls) 継承元は GlueTransform name (p. 198) describeargs(cls) 継承元は GlueTransform describeargs (p. 198) describereturn(cls) 継承元は GlueTransform describereturn (p. 199) describetransform(cls) 継承元は GlueTransform describetransform (p. 199) describeerrors(cls) 継承元は GlueTransform describeerrors (p. 199) 200

208 AWS Glue 開発者ガイド PySpark 変換 describe(cls) 継承元は GlueTransform 説明 (p. 199) DropFields クラス DynamicFrame 内のフィールドを削除しますメソッド call (p. 201) 適用 (p. 201) name (p. 201) describeargs (p. 201) describereturn (p. 201) describetransform (p. 202) describeerrors (p. 202) 説明 (p. 202) call (frame, paths, transformation_ctx = "", info = "", stagethreshold = 0, totalthreshold = 0) DynamicFrame 内のノードを削除します frame ノードを削除する DynamicFrame ( 必須 ) paths 削除するノードへの完全パスのリスト ( 必須 ) transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) info - 変換のエラーに関連付けられた文字列 ( オプション ) stagethreshold - エラーが発生する前に変換で発生する可能性のあるエラーの最大数 ( オプションデフォルトは 0) totalthreshold - 処理がエラーを出す前に全体的に発生する可能性のあるエラーの最大数 ( オプションデフォルトは 0) 指定したフィールドを除く新しい DynamicFrame を返します apply(cls, *args, **kwargs) 継承元は GlueTransform 適用 (p. 198) name(cls) 継承元は GlueTransform name (p. 198) describeargs(cls) 継承元は GlueTransform describeargs (p. 198) describereturn(cls) 継承元は GlueTransform describereturn (p. 199) 201

209 AWS Glue 開発者ガイド PySpark 変換 describetransform(cls) 継承元は GlueTransform describetransform (p. 199) describeerrors(cls) 継承元は GlueTransform describeerrors (p. 199) describe(cls) 継承元は GlueTransform 説明 (p. 199) DropNullFields クラス DynamicFrame でタイプが NullType のすべての null フィールドを削除しますこれらは DynamicFrame データセットのすべてのレコードで値がないか null のフィールドです方法 call (p. 202) 適用 (p. 202) name (p. 202) describeargs (p. 203) describereturn (p. 203) describetransform (p. 203) describeerrors (p. 203) 説明 (p. 203) call (frame, transformation_ctx = "", info = "", stagethreshold = 0, totalthreshold = 0) DynamicFrame でタイプが NullType のすべての null フィールドを削除しますこれらは DynamicFrame データセットのすべてのレコードで値がないか null のフィールドです frame null フィールドを削除する DynamicFrame ( 必須 ) transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) info - 変換のエラーに関連付けられた文字列 ( オプション ) stagethreshold - エラーが発生する前に変換で発生する可能性のあるエラーの最大数 ( オプションデフォルトは 0) totalthreshold - エラーを処理する前に全体的に発生する可能性のあるエラーの最大数 ( オプションデフォルトは 0) null フィールドのない新しい DynamicFrame を返します apply(cls, *args, **kwargs) cls cls name(cls) cls cls 202

210 AWS Glue 開発者ガイド PySpark 変換 describeargs(cls) cls cls describereturn(cls) cls cls describetransform(cls) cls cls describeerrors(cls) cls cls describe(cls) cls cls ErrorsAsDynamicFrame クラスソース DynamicFrame の作成に到達するネストされたエラーレコードを含む DynamicFrame を返しますメソッド call (p. 203) 適用 (p. 203) name (p. 203) describeargs (p. 204) describereturn (p. 204) describetransform (p. 204) describeerrors (p. 204) 説明 (p. 204) call (frame) ソース DynamicFrame に関連するネストされたエラーレコードを含む DynamicFrame を返します frame ソース DynamicFrame ( 必須 ) apply(cls, *args, **kwargs) cls cls name(cls) cls cls 203

211 AWS Glue 開発者ガイド PySpark 変換 describeargs(cls) cls cls describereturn(cls) cls cls describetransform(cls) cls cls describeerrors(cls) cls cls describe(cls) cls cls フィルタクラス指定された述語関数を満たす入力 DynamicFrame からのレコードを選択することにより新しい DynamicFrame を構築します方法 call (p. 204) 適用 (p. 205) name (p. 205) describeargs (p. 205) describereturn (p. 205) describetransform (p. 205) describeerrors (p. 205) 説明 (p. 205) コード例 (p. 205) call (frame, f, transformation_ctx="", info="", stagethreshold=0, totalthreshold=0)) 指定された述語関数を満たす入力 DynamicFrame からのレコードを選択することにより構築された新しい DynamicFrame を返します frame 指定されたフィルタ関数を適用する先のソース DynamicFrame ( 必須 ) f DynamicFrame のそれぞれの DynamicRecord に適用する述語関数この関数は DynamicRecord を引数として取り DynamicRecord がフィルタ要件を満たす場合は True を返しそうでない場合は False を返します ( 必須 ) DynamicRecord は DynamicFrame 内の論理レコードを表しますこれは自己記述型であり固定スキーマに適合しないデータに使用できる点を除いて Spark DataFrame の行に似ています 204

212 AWS Glue 開発者ガイド PySpark 変換 transformation_ctx 状態情報を識別するために使用される一意の文字列 ( オプション ) info - 変換のエラーに関連付けられた文字列 ( オプション ) stagethreshold - エラーが発生する前に変換で発生する可能性のあるエラーの最大数 ( オプションデフォルトは 0) totalthreshold 処理がエラーを出す前に全体的に発生する可能性のあるエラーの最大数 ( オプションデフォルトは 0) apply(cls, *args, **kwargs) 継承元は GlueTransform 適用 (p. 198) name(cls) 継承元は GlueTransform name (p. 198) describeargs(cls) 継承元は GlueTransform describeargs (p. 198) describereturn(cls) 継承元は GlueTransform describereturn (p. 199) describetransform(cls) 継承元は GlueTransform describetransform (p. 199) describeerrors(cls) 継承元は GlueTransform describeerrors (p. 199) describe(cls) GlueTransform 説明 (p. 199) から継承されました AWS Glue Python の例この例では Filter 変換とシンプルな Lambda 関数を使用してサンプルデータをフィルタリングしますここで使用されているデータセットは以下の 2 つの Data.CMS.gov サイトからダウンロードされたメディケアプロバイダーの支払いデータで構成されていますトップ 100 の診断関連グループの入院患者予定支払システムプロバイダーの概要 FY2011 および入院料金データ FY 2011 ですサンプルデータをダウンロードした後に修正してファイルの最後にいくつかエラーのあるレコードを追加しましたこの変更されたファイルは s3://awsglue-datasets/examples/medicare/ Medicare_Hospital_Provider.csv のパブリック Amazon S3 バケット内にありますこのデータセットを使用する別の例についてはコード例 : ResolveChoice Lambda および ApplyMapping を使用したデータ準備 (p. 170) を参照してくださいデータの DynamicFrame を作成して開始します %pyspark from awsglue.context import GlueContext from awsglue.transforms import * from pyspark.context import SparkContext gluecontext = GlueContext(SparkContext.getOrCreate()) 205

213 AWS Glue 開発者ガイド PySpark 変換 dyf = gluecontext.create_dynamic_frame.from_options( 's3', {'paths': ['s3://awsglue-datasets/examples/medicare/ Medicare_Hospital_Provider.csv']}, 'csv', {'withheader': True}) print "Full record count: ", dyf.count() dyf.printschema() 出力は次のようになります Full record count: L root -- DRG Definition: string -- Provider Id: string -- Provider Name: string -- Provider Street Address: string -- Provider City: string -- Provider State: string -- Provider Zip Code: string -- Hospital Referral Region Description: string -- Total Discharges: string -- Average Covered Charges: string -- Average Total Payments: string -- Average Medicare Payments: string 次に Filter 変換を使用してデータセットを圧縮しカリフォルニア州サクラメントまたはアラバマ州モンゴメリからのエントリのみを保持しますフィルタ変換は入力として DynamicRecord を取るすべてのフィルタ関数で動作し DynamicRecord がフィルタ条件を満たす場合は True をそうでない場合は False を返します Note Python のドット表記を使用して DynamicRecord にある多くのフィールドにアクセスできますたとえば dynamic_record_x.column_a のように dynamic_record_x にある column_a フィールドにアクセスできますただしこの方法では英数字やアンダースコア以外のフィールド名は使用できませんスペースやピリオドなど他の文字を含むフィールドの場合は Python のディクショナリ表記にフォールバックする必要がありますたとえば col-b という名前のフィールドにアクセスするには dynamic_record_x["col-b"] を使用します Filter 変換でシンプルな Lambda 関数を使用してサクラメントまたはモンゴメリから発生したのではない DynamicRecords を削除しますこれが成功したことを確認するには残ったレコードの数を出力します sac_or_mon_dyf = Filter.apply(frame = dyf, f = lambda x: x["provider State"] in ["CA", "AL"] and x["provider City"] in ["SACRAMENTO", "MONTGOMERY"]) print "Filtered record count: ", sac_or_mon_dyf.count() 次のような出力が表示されます Filtered record count: 564L FlatMap クラス変換をコレクション内の各 DynamicFrame に適用し結果をフラット化します 206

214 AWS Glue 開発者ガイド PySpark 変換方法 call (p. 207) 適用 (p. 207) name (p. 207) describeargs (p. 207) describereturn (p. 207) describetransform (p. 207) describeerrors (p. 207) 説明 (p. 207) call (dfc, BaseTransform, frame_name, transformation_ctx = "", **base_kwargs) 変換をコレクション内の各 DynamicFrame に適用し結果をフラット化します dfc フラットマップする DynamicFrameCollection ( 必須 ) BaseTransform コレクションの各メンバーに適用する GlueTransform から派生した変換 ( 必須 ) frame_name コレクションの要素を渡す引数名 ( 必須 ) transformation_ctx 状態情報を識別するために使用される一意の文字列 ( オプション ) base_kwargs ベース変換に渡す引数 ( 必須 ) ソース DynamicFrameCollection の各 DynamicFrame に変換を適用して作成された新しい DynamicFrameCollection を返します apply(cls, *args, **kwargs) 継承元は GlueTransform 適用 (p. 198) name(cls) 継承元は GlueTransform name (p. 198) describeargs(cls) 継承元は GlueTransform describeargs (p. 198) describereturn(cls) 継承元は GlueTransform describereturn (p. 199) describetransform(cls) 継承元は GlueTransform describetransform (p. 199) describeerrors(cls) 継承元は GlueTransform describeerrors (p. 199) describe(cls) 継承元は GlueTransform 説明 (p. 199) 207

215 AWS Glue 開発者ガイド PySpark 変換 Join クラス 2 つの DynamicFrames の等値結合を実行します方法 call (p. 208) 適用 (p. 208) name (p. 208) describeargs (p. 208) describereturn (p. 208) describetransform (p. 208) describeerrors (p. 208) 説明 (p. 209) call (frame1, frame2, keys1, keys2, transformation_ctx = "") 2 つの DynamicFrames の等値結合を実行します frame1 - 結合する最初の DynamicFrame ( 必須 ) frame2 - 結合する 2 番目の DynamicFrame ( 必須 ) keys1 - 最初のフレームで結合するキー ( 必須 ) keys2-2 番目のフレームで結合するキー ( 必須 ) transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) 2 つの DynamicFrames の結合により取得した新しい DynamicFrame を返します apply(cls, *args, **kwargs) GlueTransform 適用 (p. 198) から継承されました name(cls) GlueTransform name (p. 198) から継承されました describeargs(cls) GlueTransform describeargs (p. 198) から継承されました describereturn(cls) GlueTransform describereturn (p. 199) から継承されました describetransform(cls) GlueTransform describetransform (p. 199) から継承されました describeerrors(cls) GlueTransform describeerrors (p. 199) から継承されました 208

216 AWS Glue 開発者ガイド PySpark 変換 describe(cls) GlueTransform 説明 (p. 199) から継承されましたマップクラス入力 DynamicFrame ですべてのレコードに関数を適用して新しい DynamicFrame をビルドします方法 call (p. 209) 適用 (p. 209) name (p. 209) describeargs (p. 210) describereturn (p. 210) describetransform (p. 210) describeerrors (p. 210) 説明 (p. 210) コード例 (p. 210) call (frame, f, transformation_ctx="", info="", stagethreshold=0, totalthreshold=0) 指定された関数を元の DynamicFrame ですべての DynamicRecords に適用した結果の新しい DynamicFrame を返します frame - マッピング関数を適用する元の DynamicFrame ( 必須 ) f - DynamicFrame 内のすべての DynamicRecords に適用する関数この関数は DynamicRecord を引数として取りマッピングによって生成された新しい DynamicRecord を返す必要があります ( 必須 ) DynamicRecord は DynamicFrame 内の論理レコードを表しますこれは自己記述型であり固定スキーマに適合しないデータに使用できる点を除いて Apache Spark DataFrame の行に似ています transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) info - 変換のエラーに関連付けられた文字列 ( オプション ) stagethreshold - エラーが発生する前に変換で発生する可能性のあるエラーの最大数 ( オプションデフォルト値は 0) totalthreshold - 処理がエラーを出す前に全体的に発生する可能性のあるエラーの最大数 ( オプションデフォルト値は 0) 指定された関数を元の DynamicFrame ですべての DynamicRecords に適用した結果の新しい DynamicFrame を返します apply(cls, *args, **kwargs) 継承元は GlueTransform 適用 (p. 198) name(cls) 継承元は GlueTransform name (p. 198) 209

217 AWS Glue 開発者ガイド PySpark 変換 describeargs(cls) 継承元は GlueTransform describeargs (p. 198) describereturn(cls) 継承元は GlueTransform describereturn (p. 199) describetransform(cls) 継承元は GlueTransform describetransform (p. 199) describeerrors(cls) 継承元は GlueTransform describeerrors (p. 199) describe(cls) GlueTransform 説明 (p. 199) から継承されました AWS Glue Python の例この例では Map 変換を使用していくつかのフィールドを 1 つの struct 型にマージしますここで使用されているデータセットは以下の 2 つの Data.CMS.gov サイトからダウンロードされたメディケアプロバイダーの支払いデータで構成されています上位 100 位の診断別分類標準定額料金決定システムのプロバイダー概要 (2011 会計年度 ) および入院費用データ (2011 会計年度 ) ですサンプルデータをダウンロードした後に修正してファイルの最後にいくつかエラーのあるレコードを追加しましたこの変更されたファイルは s3://awsglue-datasets/examples/medicare/ Medicare_Hospital_Provider.csv のパブリック Amazon S3 バケット内にありますこのデータセットを使用する別の例についてはコード例 : ResolveChoice Lambda および ApplyMapping を使用したデータ準備 (p. 170) を参照してくださいデータの DynamicFrame を作成して開始します from awsglue.context import GlueContext from awsglue.transforms import * from pyspark.context import SparkContext gluecontext = GlueContext(SparkContext.getOrCreate()) dyf = gluecontext.create_dynamic_frame.from_options( 's3', {'paths': ['s3://awsglue-datasets/examples/medicare/ Medicare_Hospital_Provider.csv']}, 'csv', {'withheader': True}) print "Full record count: ", dyf.count() dyf.printschema() このコードの出力は次のようになります Full record count: L root -- DRG Definition: string -- Provider Id: string -- Provider Name: string 210

218 AWS Glue 開発者ガイド PySpark 変換 -- Provider Street Address: string -- Provider City: string -- Provider State: string -- Provider Zip Code: string -- Hospital Referral Region Description: string -- Total Discharges: string -- Average Covered Charges: string -- Average Total Payments: string -- Average Medicare Payments: string 次にマッピング関数を作成し DynamicRecord 内のプロバイダアドレスフィールドを struct にマージしてから個々のアドレスフィールドを削除します def MergeAddress(rec): rec["address"] = {} rec["address"]["street"] = rec["provider Street Address"] rec["address"]["city"] = rec["provider City"] rec["address"]["state"] = rec["provider State"] rec["address"]["zip.code"] = rec["provider Zip Code"] rec["address"]["array"] = [rec["provider Street Address"], rec["provider City"], rec["provider State"], rec["provider Zip Code"]] del rec["provider Street Address"] del rec["provider City"] del rec["provider State"] del rec["provider Zip Code"] return rec このマッピング関数では rec["address"] = {} という行は新しい構造体を含む入力 DynamicRecord の辞書を作成します Note Python の map フィールドはここではサポートされていませんたとえば次のような行を持つことはできません rec["addresses"] = [] # ILLEGAL! rec["address"]["street"] = rec["provider Street Address"] のような行は Python ディクショナリ構文を使用してフィールドを新しい構造体に追加しますアドレス行が新しい構造体に追加された後 del rec["provider Street Address"] のような行は DynamicRecord から個々のフィールドを削除しますこれで Map 変換を使用して DynamicFrame 内のすべての DynamicRecords にマッピング関数を適用できます mapped_dyf = Map.apply(frame = dyf, f = MergeAddress) mapped_dyf.printschema() 出力は次のとおりです root -- Average Total Payments: string -- Average Covered Charges: string -- DRG Definition: string -- Average Medicare Payments: string -- Hospital Referral Region Description: string -- Address: struct -- Zip.Code: string 211

219 AWS Glue 開発者ガイド PySpark 変換 -- City: string -- Array: array -- element: string -- State: string -- Street: string -- Provider Id: string -- Total Discharges: string -- Provider Name: string MapToCollection クラス指定された DynamicFrameCollection の各 DynamicFrame に変換が適用されます方法 call (p. 212) 適用 (p. 212) name (p. 212) describeargs (p. 212) describereturn (p. 212) describetransform (p. 213) describeerrors (p. 213) 説明 (p. 213) call (dfc, BaseTransform, frame_name, transformation_ctx = "", **base_kwargs) 指定された DynamicFrameCollection の各 DynamicFrame に変換関数が適用されます dfc - 変換関数を適用する DynamicFrameCollection ( 必須 ) callable - コレクションの各メンバーに適用するコール可能な変換関数 ( 必須 ) transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) ソース DynamicFrameCollection の各 DynamicFrame に変換を適用して作成された新しい DynamicFrameCollection を返します apply(cls, *args, **kwargs) GlueTransform 適用 (p. 198) から継承されました name(cls) 継承元は GlueTransform name (p. 198) describeargs(cls) 継承元は GlueTransform describeargs (p. 198) describereturn(cls) 継承元は GlueTransform describereturn (p. 199) 212

220 AWS Glue 開発者ガイド PySpark 変換 describetransform(cls) 継承元は GlueTransform describetransform (p. 199) describeerrors(cls) 継承元は GlueTransform describeerrors (p. 199) describe(cls) 継承元は GlueTransform 説明 (p. 199) クラスの関連付け DynamicFrame のネストされたスキーマをフラット化しフラット化されたフレームから配列列をピボットアウトします方法 call (p. 213) 適用 (p. 214) name (p. 214) describeargs (p. 214) describereturn (p. 214) describetransform (p. 214) describeerrors (p. 214) 説明 (p. 214) call (frame, staging_path=none, name='roottable', options=none, transformation_ctx = "", info = "", stagethreshold = 0, totalthreshold = 0) DynamicFrame を関係付けネストされた列をネスト解除し配列の列をピボットすることによってフレームのリストを生成しますピボットされた配列の列はネスト解除のフェーズで生成された結合キーを使用してルートテーブルに結合できます frame 関連付ける DynamicFrame ( 必須 ) staging_path - ピボットテーブルのパーティションを CSV 形式で保存するパス ( オプション ) ピボットされたテーブルはこのパスから読み取ります name ルートテーブルの名前 ( オプション ) options - オプションのパラメータのディクショナリ transformation_ctx 状態情報を識別するために使用される一意の文字列 ( オプション ) info - 変換のエラーに関連付けられた文字列 ( オプション ) stagethreshold - エラーが発生する前に変換で発生する可能性のあるエラーの最大数 ( オプションデフォルトは 0) totalthreshold エラーを処理する前に全体的に発生する可能性のあるエラーの最大数 ( オプションデフォルトは 0) 関連付けのオペレーションによって生成された DynamicFrames を含む DynamicFrameCollection を返します 213

221 AWS Glue 開発者ガイド PySpark 変換 apply(cls, *args, **kwargs) 継承元は GlueTransform 適用 (p. 198) name(cls) 継承元は GlueTransform name (p. 198) describeargs(cls) 継承元は GlueTransform describeargs (p. 198) describereturn(cls) 継承元は GlueTransform describereturn (p. 199) describetransform(cls) 継承元は GlueTransform describetransform (p. 199) describeerrors(cls) 継承元は GlueTransform describeerrors (p. 199) describe(cls) 継承元は GlueTransform 説明 (p. 199) RenameField クラス DynamicFrame 内のノードの名前を変更します方法 call (p. 214) 適用 (p. 215) name (p. 215) describeargs (p. 215) describereturn (p. 215) describetransform (p. 215) describeerrors (p. 215) 説明 (p. 215) call (frame, old_name, new_name, transformation_ctx = "", info = "", stagethreshold = 0, totalthreshold = 0) DynamicFrame 内のノードの名前を変更します frame - ノードの名前を変更する DynamicFrame ( 必須 ) old_name - 名前を変更するノードへのフルパス ( 必須 ) 古い名前にドットが含まれている場合 RenameField はバックティック (`) で囲まなければ機能しませんたとえば this.old.name を thisnewname に置き換えるには RenameField を次のように呼び出します 214

222 AWS Glue 開発者ガイド PySpark 変換 newdyf = RenameField(oldDyF, "`this.old.name`", "thisnewname") new_name - フルパスを含む新しい名前 ( 必須 ) transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) info - 変換のエラーに関連付けられた文字列 ( オプション ) stagethreshold - エラーが発生する前に変換で発生する可能性のあるエラーの最大数 ( オプションデフォルト値は 0) totalthreshold - エラーを処理する前に全体的に発生する可能性のあるエラーの最大数 ( オプションデフォルト値は 0) 指定されたフィールドの名前が変更された DynamicFrame を返します apply(cls, *args, **kwargs) 継承元は GlueTransform 適用 (p. 198) name(cls) 継承元は GlueTransform name (p. 198) describeargs(cls) 継承元は GlueTransform describeargs (p. 198) describereturn(cls) 継承元は GlueTransform describereturn (p. 199) describetransform(cls) 継承元は GlueTransform describetransform (p. 199) describeerrors(cls) 継承元は GlueTransform describeerrors (p. 199) describe(cls) 継承元は GlueTransform 説明 (p. 199) ResolveChoice クラス DynamicFrame 内で Choice 型を解決します方法 call (p. 216) 適用 (p. 217) name (p. 217) describeargs (p. 217) describereturn (p. 217) describetransform (p. 217) 215

223 AWS Glue 開発者ガイド PySpark 変換 describeerrors (p. 217) 説明 (p. 217) call (frame, specs = None, choice = "", transformation_ctx = "", info = "", stagethreshold = 0, totalthreshold = 0) DynamicFrame 内のあいまいな型を解決するための情報を提供します結果として生じる DynamicFrame を返します frame Choice 型を解決する DynamicFrame ( 必須 ) specs 解決する特定のあいまいさのリストそれぞれがタプルの形式 : (path, action) path 値は特定のあいまいな要素を識別し action 値は対応する解決を識別します spec パラメータおよび choice パラメータのうち 1 つのみを使用できます spec パラメータが None ではない場合 choice パラメータは空の文字列である必要があります逆に choice が空の文字列ではない場合 spec パラメータは None である必要がありますどちらのパラメータも指定されていない場合 AWS Glue はスキーマを解析しそれを使用してあいまいさを解決します specs タプルの action 部分は次の 4 つの解決策のうちの 1 つを指定できます cast: キャストするタイプを指定できます ( 例 :cast:int) make_cols: データを平坦化することで潜在的なあいまいさを解消しますたとえば columna が int または string の場合解決策は DynamicFrame に columna_int および columna_string という名前の 2 つの列を生成することです make_struct: 構造体を使用してデータを表現することで潜在的なあいまいさを解決しますたとえば列のデータが int または string の場合 make_struct アクションを使用すると作成された DynamicFrame に int および string の両方を含む構造体の列が生成されます project: 有効なデータ型の 1 つにすべてのデータを投影することで潜在的なあいまいさを解決しますたとえば列のデータが int または string の場合 project:string アクションを使用すると作成された DynamicFrame に列が生成されすべての int 値が文字列に変換されます path で配列を識別する場合はあいまいさを避けるために配列名の後に空の角括弧を置きますたとえば使用しているデータが次のように構造化されているとします "mylist": [ { "price": }, { "price": "$100.00" } ] 文字列バージョンではなく数値バージョンの料金を使用する場合は path を "mylist[].price" に設定し action を "cast:double" に設定できます choice specs パラメータが None の場合のデフォルトの解決アクションです specs パラメータが None ではない場合空の文字列以外に設定することはできません transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) info - 変換のエラーに関連付けられた文字列 ( オプション ) stagethreshold - エラーが発生する前に変換で発生する可能性のあるエラーの最大数 ( オプションデフォルトは 0) totalthreshold エラーを処理する前に発生する可能性のあるエラーの最大数 ( オプションデフォルトは 0) 解決された選択を持つ DynamicFrame を返します Example 216

224 AWS Glue 開発者ガイド PySpark 変換 df1 = ResolveChoice.apply(df, choice = "make_cols") df2 = ResolveChoice.apply(df, specs = [("a.b", "make_struct"), ("c.d", "cast:double")]) apply(cls, *args, **kwargs) 継承元は GlueTransform 適用 (p. 198) name(cls) 継承元は GlueTransform name (p. 198) describeargs(cls) 継承元は GlueTransform describeargs (p. 198) describereturn(cls) 継承元は GlueTransform describereturn (p. 199) describetransform(cls) 継承元は GlueTransform describetransform (p. 199) describeerrors(cls) 継承元は GlueTransform describeerrors (p. 199) describe(cls) 継承元は GlueTransform 説明 (p. 199) SelectFields クラス DynamicFrame のフィールドを取得します方法 call (p. 217) 適用 (p. 218) name (p. 218) describeargs (p. 218) describereturn (p. 218) describetransform (p. 218) describeerrors (p. 218) 説明 (p. 218) call (frame, paths, transformation_ctx = "", info = "", stagethreshold = 0, totalthreshold = 0) DynamicFrame のフィールド ( ノード ) を取得します frame - フィールドを選択する DynamicFrame ( 必須 ) 217

225 AWS Glue 開発者ガイド PySpark 変換 paths - 選択するフィールドへの完全パスのリスト ( 必須 ) transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) info - 変換のエラーに関連付けられた文字列 ( オプション ) stagethreshold - エラーが発生する前に変換で発生する可能性のあるエラーの最大数 ( オプションデフォルトは 0) totalthreshold - 処理がエラーを出す前に全体的に発生する可能性のあるエラーの最大数 ( オプションデフォルトは 0) 指定したフィールドのみを含む新しい DynamicFrame を返します apply(cls, *args, **kwargs) 継承元は GlueTransform 適用 (p. 198) name(cls) 継承元は GlueTransform name (p. 198) describeargs(cls) 継承元は GlueTransform describeargs (p. 198) describereturn(cls) 継承元は GlueTransform describereturn (p. 199) describetransform(cls) 継承元は GlueTransform describetransform (p. 199) describeerrors(cls) 継承元は GlueTransform describeerrors (p. 199) describe(cls) 継承元は GlueTransform 説明 (p. 199) SelectFromCollection クラス DynamicFrameCollection で DynamicFrame を 1 つ選択します方法 call (p. 219) 適用 (p. 219) name (p. 219) describeargs (p. 219) describereturn (p. 219) describetransform (p. 219) describeerrors (p. 219) 218

226 AWS Glue 開発者ガイド PySpark 変換説明 (p. 219) call (dfc, key, transformation_ctx = "") DynamicFrameCollection から DynamicFrame を 1 つ取得します dfc 選択する DynamicFrame のキー ( 必須 ) transformation_ctx 状態情報を識別するために使用される一意の文字列 ( オプション ) 指定された DynamicFrame を返します apply(cls, *args, **kwargs) 継承元は GlueTransform 適用 (p. 198) name(cls) 継承元は GlueTransform name (p. 198) describeargs(cls) 継承元は GlueTransform describeargs (p. 198) describereturn(cls) 継承元は GlueTransform describereturn (p. 199) describetransform(cls) 継承元は GlueTransform describetransform (p. 199) describeerrors(cls) 継承元は GlueTransform describeerrors (p. 199) describe(cls) 継承元は GlueTransform 説明 (p. 199) スピゴットクラス変換中に指定した場所にサンプルレコードを書き込みます方法 call (p. 220) 適用 (p. 220) name (p. 220) describeargs (p. 220) describereturn (p. 220) describetransform (p. 220) describeerrors (p. 220) 説明 (p. 220) 219

227 AWS Glue 開発者ガイド PySpark 変換 call (frame, path, options, transformation_ctx = "") 変換中に指定した場所にサンプルレコードを書き込みます frame - スピゴットする DynamicFrame ( 必須 ) path - 書き込み先へのパス ( 必須 ) options - オプションを指定する JSON のキーと値のペア ( オプション ) "topk" オプションは最初の k レコードを書き込むことを指定します "prob" オプションは書き込むレコードを選択するために使用される指定されたレコードを選択する可能性を指定します transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) 追加の書き込みステップで入力 DynamicFrame を返します apply(cls, *args, **kwargs) GlueTransform 適用 (p. 198) から継承されました name(cls) GlueTransform name (p. 198) から継承されました describeargs(cls) GlueTransform describeargs (p. 198) から継承されました describereturn(cls) GlueTransform describereturn (p. 199) から継承されました describetransform(cls) GlueTransform describetransform (p. 199) から継承されました describeerrors(cls) GlueTransform describeerrors (p. 199) から継承されました describe(cls) GlueTransform 説明 (p. 199) から継承されました SplitFields クラス指定されたフィールドで DynamicFrame を 2 つに新しく分割します方法 call (p. 221) 適用 (p. 221) name (p. 221) describeargs (p. 221) describereturn (p. 221) describetransform (p. 221) 220

228 AWS Glue 開発者ガイド PySpark 変換 describeerrors (p. 221) 説明 (p. 221) call (frame, paths, name1 = None, name2 = None, transformation_ctx = "", info = "", stagethreshold = 0, totalthreshold = 0) DynamicFrame の 1 つ以上のフィールドを新しい DynamicFrame に分割し残っているフィールドを含む別の新しい DynamicFrame を作成します frame 2 つの新しい DynamicFrame に分割するためのソース ( 必須 ) paths 分割されるフィールドへの完全パスのリスト ( 必須 ) name1 分割されるフィールドを含む DynamicFrame に割り当てる名前 ( 省略可能 ) 名前が指定されていない場合ソースフレームの名前に 1 を付加した名前が使用されます name2 指定されたフィールドが分割された後に残るフィールドを含む DynamicFrame に割り当てる名前 ( 省略可能 ) 名前が指定されていない場合ソースフレームの名前に 2 を付加した名前が使用されます transformation_ctx 状態情報を識別するために使用される一意の文字列 ( 省略可能 ) info - 変換のエラーに関連付けられた文字列 ( オプション ) stagethreshold - エラーが発生する前に変換で発生する可能性のあるエラーの最大数 ( オプションデフォルトは 0) totalthreshold エラーを処理する前に全体的に発生する可能性のあるエラーの最大数 ( 省略可能デフォルトは 0) 2 つの DynamicFrames を含む DynamicFrameCollection を返します 1 つには分割するために指定されたフィールドのみが含まれもう 1 つには残りのフィールドが含まれています apply(cls, *args, **kwargs) 継承元は GlueTransform 適用 (p. 198) name(cls) 継承元は GlueTransform name (p. 198) describeargs(cls) 継承元は GlueTransform describeargs (p. 198) describereturn(cls) 継承元は GlueTransform describereturn (p. 199) describetransform(cls) 継承元は GlueTransform describetransform (p. 199) describeerrors(cls) 継承元は GlueTransform describeerrors (p. 199) describe(cls) 継承元は GlueTransform 説明 (p. 199) 221

229 AWS Glue 開発者ガイド PySpark 変換 SplitRows クラス DynamicFrame を指定された 2 つの行で分割しますメソッド call (p. 222) 適用 (p. 222) name (p. 222) describeargs (p. 222) describereturn (p. 222) describetransform (p. 223) describeerrors (p. 223) 説明 (p. 223) call (frame, comparison_dict, name1="frame1", name2="frame2", transformation_ctx = "", info = None, stagethreshold = 0, totalthreshold = 0) DynamicFrame の 1 つ以上の行を新しい DynamicFrame として分割します frame 2 つの新しい DynamicFrame に分割するためのソース ( 必須 ) comparison_dict キーが列への完全パスであるディクショナリで値はコンパレータを列の値が比較される値にマッピングする別のディクショナリですたとえば {"age": {">": 10, "<": 20}} は "age" の値が 10~20 の行を分割しますただし "age" の値がこの範囲外の行は除外されます ( 必須 ) name1 分割される行を含む DynamicFrame に割り当てる名前 ( 省略可能 ) name2 指定された行が分割された後に残る行を含む DynamicFrame に割り当てる名前 ( 省略可能 ) transformation_ctx 状態情報を識別するために使用される一意の文字列 ( 省略可能 ) info - 変換のエラーに関連付けられた文字列 ( オプション ) stagethreshold - エラーが発生する前に変換で発生する可能性のあるエラーの最大数 ( オプションデフォルトは 0) totalthreshold エラーを処理する前に全体的に発生する可能性のあるエラーの最大数 ( 省略可能デフォルトは 0) 2 つの DynamicFrames を含む DynamicFrameCollection を返します 1 つには分割するよう指定された行のみが含まれもう 1 つには残りの行すべてが含まれています apply(cls, *args, **kwargs) 継承元は GlueTransform 適用 (p. 198) name(cls) 継承元は GlueTransform name (p. 198) describeargs(cls) 継承元は GlueTransform describeargs (p. 198) describereturn(cls) 継承元は GlueTransform describereturn (p. 199) 222

230 AWS Glue 開発者ガイド PySpark 変換 describetransform(cls) 継承元は GlueTransform describetransform (p. 199) describeerrors(cls) 継承元は GlueTransform describeerrors (p. 199) describe(cls) 継承元は GlueTransform 説明 (p. 199) Unbox クラス DynamicFrame の文字列フィールドをアンボックスしますメソッド call (p. 223) 適用 (p. 224) name (p. 224) describeargs (p. 224) describereturn (p. 224) describetransform (p. 224) describeerrors (p. 224) 説明 (p. 224) call (frame, path, format, transformation_ctx = "", info="", stagethreshold=0, totalthreshold=0, **options) DynamicFrame の文字列フィールドをアンボックスします frame アンボックスするフィールドのある DynamicFrame ( 必須 ). path アンボックスする StringNode への完全パス ( 必須 ) format 形式の仕様 ( オプション ) 複数の形式をサポートする Amazon Simple Storage Service (Amazon S3) やテープ接続に使用しますサポートされる形式については AWS Glue の ETL 出力用の形式オプション (p. 152) を参照してください transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) info - 変換のエラーに関連付けられた文字列 ( オプション ) stagethreshold - エラーが発生する前に変換で発生する可能性のあるエラーの最大数 ( オプションデフォルトは 0) totalthreshold エラーを処理する前に全体的に発生する可能性のあるエラーの最大数 ( オプションデフォルトは 0) separator 区切りトークン ( 省略可能 ) escaper エスケープトークン ( 省略可能 ) skipfirst データの最初の行をスキップする必要がある場合は True スキップしない場合は False ( 省略可能 ) withschema アンボックスされるデータのスキーマを含む文字列 ( 省略可能 ) これは常に StructType.json を使用して作成する必要があります 223

231 AWS Glue 開発者ガイド PySpark 変換 withheader 解凍されるデータにヘッダーが含まれている場合は True そうでない場合は False ( 省略可能 ) アンボックスされた DynamicRecords を持つ新しい DynamicFrame を返します apply(cls, *args, **kwargs) 継承元は GlueTransform 適用 (p. 198) name(cls) 継承元は GlueTransform name (p. 198) describeargs(cls) 継承元は GlueTransform describeargs (p. 198) describereturn(cls) 継承元は GlueTransform describereturn (p. 199) describetransform(cls) 継承元は GlueTransform describetransform (p. 199) describeerrors(cls) 継承元は GlueTransform describeerrors (p. 199) describe(cls) 継承元は GlueTransform 説明 (p. 199) UnnestFrame クラス DynamicFrame をネスト解除し入れ子オブジェクトを最上位の要素にフラット化して配列オブジェクトの統合キーを生成しますメソッド call (p. 224) 適用 (p. 225) name (p. 225) describeargs (p. 225) describereturn (p. 225) describetransform (p. 225) describeerrors (p. 225) 説明 (p. 225) call (frame, transformation_ctx = "", info="", stagethreshold=0, totalthreshold=0) DynamicFrame をネスト解除します入れ子オブジェクトを最上位の要素にフラット化して配列オブジェクトの統合キーを生成します 224

232 AWS Glue 開発者ガイド Scala での ETL プログラミング frame - ネスト解除する DynamicFrame ( 必須 ) transformation_ctx - 状態情報を識別するために使用される一意の文字列 ( オプション ) info - 変換のエラーに関連付けられた文字列 ( オプション ) stagethreshold - エラーが発生する前に変換で発生する可能性のあるエラーの最大数 ( オプションデフォルトは 0) totalthreshold - 処理がエラーを出す前に全体的に発生する可能性のあるエラーの最大数 ( オプションデフォルトは 0) ネスト解除された DynamicFrame を返します apply(cls, *args, **kwargs) 継承元は GlueTransform 適用 (p. 198) name(cls) 継承元は GlueTransform name (p. 198) describeargs(cls) 継承元は GlueTransform describeargs (p. 198) describereturn(cls) 継承元は GlueTransform describereturn (p. 199) describetransform(cls) 継承元は GlueTransform describetransform (p. 199) describeerrors(cls) 継承元は GlueTransform describeerrors (p. 199) describe(cls) 継承元は GlueTransform 説明 (p. 199) Scala での AWS Glue ETL スクリプトのプログラミング AWS Glue 用の Scala コード例とユーティリティは GitHub ウェブサイトの AWS Glue サンプルリポジトリにあります AWS Glue では抽出変換およびロード (ETL) ジョブをスクリプト化するための PySpark Scala 言語の拡張機能がサポートされています以下のセクションでは AWS Glue Scala ライブラリと AWS Glue API を ETL スクリプトで使用する方法について説明しますまたライブラリのリファレンス資料を提供します目次 Scala を使用した AWS Glue ETL スクリプトのプログラミング (p. 230) 225

233 AWS Glue 開発者ガイド Scala での ETL プログラミング開発エンドポイントでの Zeppelin ノートブックを使用した Scala ETL プログラムのテスト (p. 230) Scala REPL での Scala ETL プログラムのテスト (p. 231) AWS Glue Scala ライブラリの API のリスト (p. 231) com.amazonaws.services.glue (p. 231) com.amazonaws.services.glue.types (p. 231) com.amazonaws.services.glue.util (p. 232) AWS Glue Scala ChoiceOption API (p. 232) ChoiceOption 特性 (p. 232) ChoiceOption オブジェクト (p. 232) def apply (p. 232) ケースクラス ChoiceOptionWithResolver (p. 232) ケースクラス MatchCatalogSchemaChoiceOption (p. 233) 抽象 DataSink クラス (p. 233) def writedynamicframe (p. 233) def pywritedynamicframe (p. 233) def supportsformat (p. 233) def setformat (p. 233) def withformat (p. 233) def setaccumulablesize (p. 234) def getoutputerrorrecordsaccumulable (p. 234) def errorsasdynamicframe (p. 234) DataSink オブジェクト (p. 234) def recordmetrics (p. 234) AWS Glue Scala DataSource 特性 (p. 234) AWS Glue Scala DynamicFrame API (p. 235) AWS Glue Scala DynamicFrame クラス (p. 236) val errorscount (p. 236) def applymapping (p. 236) def asserterrorthreshold (p. 238) def count (p. 238) def dropfield (p. 238) def dropfields (p. 238) def dropnulls (p. 238) def errorsasdynamicframe (p. 239) def filter (p. 239) def getname (p. 239) def getnumpartitions (p. 239) def getschemaifcomputed (p. 239) def isschemacomputed (p. 239) def javatopython (p. 239) def join (p. 239) def map (p. 240) def printschema 226 (p. 240) def recomputeschema (p. 240) def relationalize (p. 240)

234 AWS Glue 開発者ガイド Scala での ETL プログラミング def renamefield (p. 241) def repartition (p. 242) def resolvechoice (p. 242) def schema (p. 243) def selectfield (p. 243) def selectfields (p. 243) def show (p. 244) def spigot (p. 244) def splitfields (p. 244) def splitrows (p. 245) def stageerrorscount (p. 245) def todf (p. 245) def unbox (p. 246) def unnest (p. 247) def withframeschema (p. 247) def withname (p. 247) def withtransformationcontext (p. 248) DynamicFrame オブジェクト (p. 248) def apply (p. 248) def emptydynamicframe (p. 248) def frompythonrdd (p. 248) def ignoreerrors (p. 248) def inlineerrors (p. 248) def newframewitherrors (p. 248) AWS Glue Scala DynamicRecord クラス (p. 248) def addfield (p. 249) def dropfield (p. 249) def seterror (p. 250) def iserror (p. 250) def geterror (p. 250) def clearerror (p. 250) def write (p. 250) def readfields (p. 250) def clone (p. 250) def schema (p. 250) def getroot (p. 250) def tojson (p. 251) def getfieldnode (p. 251) def getfield (p. 251) def hashcode (p. 251) def equals (p. 251) DynamicRecord オブジェクト (p. 251) def apply (p. 251) 227 RecordTraverser 特性 (p. 251) AWS Glue Scala GlueContext API (p. 252)

235 AWS Glue 開発者ガイド Scala での ETL プログラミング def getcatalogclient (p. 252) def getcatalogsink (p. 252) def getcatalogsource (p. 253) def getjdbcsink (p. 253) def getsink (p. 253) def getsinkwithformat (p. 254) def getsource (p. 254) def getsourcewithformat (p. 255) def getsparksession (p. 255) def this (p. 255) def this (p. 255) def this (p. 256) MappingSpec (p. 256) MappingSpec ケースクラス (p. 256) MappingSpec オブジェクト (p. 256) val orderingbytarget (p. 256) def apply (p. 257) def apply (p. 257) def apply (p. 257) AWS Glue Scala ResolveSpec API (p. 257) ResolveSpec オブジェクト (p. 258) def (p. 258) def (p. 258) ResolveSpec ケースクラス (p. 258) ResolveSpec def メソッド (p. 258) AWS Glue Scala ArrayNode API (p. 258) ArrayNode ケースクラス (p. 259) ArrayNode def メソッド (p. 259) AWS Glue Scala BinaryNode API (p. 259) BinaryNode ケースクラス (p. 259) BinaryNode val フィールド (p. 260) BinaryNode def メソッド (p. 260) AWS Glue Scala BooleanNode API (p. 260) BooleanNode ケースクラス (p. 260) BooleanNode val フィールド (p. 260) BooleanNode def メソッド (p. 260) AWS Glue Scala ByteNode API (p. 260) ByteNode ケースクラス (p. 260) ByteNode val フィールド (p. 260) ByteNode def メソッド (p. 260) AWS Glue Scala DateNode API (p. 261) DateNode ケースクラス (p. 261) DateNode val フィールド 228 (p. 261) DateNode def メソッド (p. 261) AWS Glue Scala DecimalNode API (p. 261)

236 AWS Glue 開発者ガイド Scala での ETL プログラミング DecimalNode ケースクラス (p. 261) DecimalNode val フィールド (p. 261) DecimalNode def メソッド (p. 261) AWS Glue Scala DoubleNode API (p. 261) DoubleNode ケースクラス (p. 261) DoubleNode val フィールド (p. 262) DoubleNode def メソッド (p. 262) AWS Glue Scala DynamicNode API (p. 262) DynamicNode クラス (p. 262) DynamicNode def メソッド (p. 262) DynamicNode オブジェクト (p. 262) DynamicNode def メソッド (p. 262) AWS Glue Scala FloatNode API (p. 263) FloatNode ケースクラス (p. 263) FloatNode val フィールド (p. 263) FloatNode def メソッド (p. 263) AWS Glue Scala IntegerNode API (p. 263) IntegerNode ケースクラス (p. 263) IntegerNode val フィールド (p. 263) IntegerNode def メソッド (p. 263) AWS Glue Scala LongNode API (p. 263) LongNode ケースクラス (p. 263) LongNode val フィールド (p. 264) LongNode def メソッド (p. 264) AWS Glue Scala MapLikeNode API (p. 264) MapLikeNode クラス (p. 264) MapLikeNode def メソッド (p. 264) AWS Glue Scala MapNode API (p. 265) MapNode ケースクラス (p. 265) MapNode def メソッド (p. 265) AWS Glue Scala NullNode API (p. 265) NullNode クラス (p. 265) NullNode ケースオブジェクト (p. 265) AWS Glue Scala ObjectNode API (p. 265) ObjectNode オブジェクト (p. 266) ObjectNode def メソッド (p. 266) ObjectNode ケースクラス (p. 266) ObjectNode def メソッド (p. 266) AWS Glue Scala ScalarNode API (p. 266) ScalarNode クラス (p. 266) ScalarNode def メソッド (p. 267) ScalarNode オブジェクト (p. 267) ScalarNode def 229 メソッド (p. 267) AWS Glue Scala ShortNode API (p. 267) ShortNode ケースクラス (p. 267)

237 AWS Glue 開発者ガイド Scala の使用 ShortNode val フィールド (p. 267) ShortNode def メソッド (p. 268) AWS Glue Scala StringNode API (p. 268) StringNode ケースクラス (p. 268) StringNode val フィールド (p. 268) StringNode def メソッド (p. 268) AWS Glue Scala TimestampNode API (p. 268) TimestampNode ケースクラス (p. 268) TimestampNode val フィールド (p. 268) TimestampNode def メソッド (p. 268) AWS Glue Scala GlueArgParser API (p. 268) GlueArgParser オブジェクト (p. 269) AWS Glue Scala Job API (p. 269) GlueArgParser def メソッド (p. 269) Job オブジェクト (p. 269) Job def メソッド (p. 269) Scala を使用した AWS Glue ETL スクリプトのプログラミング AWS Glue コンソールを使用して Scala ETL プログラムを自動生成しそれを必要に応じて変更した上でジョブに割り当てることができますまたは独自のプログラムを最初から作成することもできます ( 詳細については AWS Glue でジョブを追加する (p. 102) を参照してください ) 次に AWS Glue はサーバーで Scala プログラムをコンパイルしその後関連付けられているジョブを実行しますプログラムをエラーなしでコンパイルして正常に実行するにはジョブで実行する前にプログラムを REPL や Apache Zeppelin ノートブックの開発エンドポイントにロードしテストすることが非常に重要ですコンパイルプロセスはサーバーで実行されるためそこで問題が発生してもよく確認できません開発エンドポイントでの Zeppelin ノートブックを使用した Scala ETL プログラムのテスト AWS Glue 開発エンドポイントを開発エンドポイントの使用 (p. 113) の説明に従ってセットアップします次にコンピュータでローカルに実行されているか EC2 ノートブックサーバーでリモートに実行されている Apache Zeppelin ノートブックに開発エンドポイントを接続します Zeppelin ノートブックのローカルバージョンをインストールするにはチュートリアル : ローカル Zeppelin ノートブック (p. 118) の手順に従います Scala コードの実行とノートブックでの PySpark コードの実行が唯一異なる点はノートブックでは以下を使用して各パラグラフを開始する必要があることです %spark これによりノートブックサーバーがデフォルトで Spark インタープリタの PySpark フレーバーになるのを防止できます 230

238 AWS Glue 開発者ガイド Scala API リスト Scala REPL での Scala ETL プログラムのテスト開発エンドポイントで AWS Glue Scala REPL を使用して Scala プログラムをテストするにはチュートリアル : REPL シェルの使用 (p. 123) の手順に従いますただし異なる点として SSH-to-REPL コマンドの最後の -t gluepyspark を -t glue-spark-shell に置き換えて AWS Glue Scala REPL を呼び出します完了後に REPL を閉じるには sys.exit と入力します AWS Glue Scala ライブラリの API のリスト com.amazonaws.services.glue AWS Glue Scala ライブラリの com.amazonaws.services.glue パッケージには以下の API が含まれています ChoiceOption (p. 232) DataSink (p. 233) DataSource 特性 (p. 234) DynamicFrame (p. 235) DynamicRecord (p. 248) GlueContext (p. 252) MappingSpec (p. 256) ResolveSpec (p. 257) com.amazonaws.services.glue.types AWS Glue Scala ライブラリの com.amazonaws.services.glue.types パッケージには以下の API が含まれています ArrayNode (p. 258) BinaryNode (p. 259) BooleanNode (p. 260) ByteNode (p. 260) DateNode (p. 261) DecimalNode (p. 261) DoubleNode (p. 261) DynamicNode (p. 262) FloatNode (p. 263) IntegerNode (p. 263) LongNode (p. 263) MapLikeNode (p. 264) MapNode (p. 265) NullNode (p. 265) ObjectNode (p. 265) ScalarNode (p. 266) ShortNode (p. 267) 231

239 AWS Glue 開発者ガイド Scala API リスト StringNode (p. 268) TimestampNode (p. 268) com.amazonaws.services.glue.util AWS Glue Scala ライブラリの com.amazonaws.services.glue.util パッケージには以下の API が含まれています GlueArgParser (p. 268) Job (p. 269) AWS Glue Scala ChoiceOption API トピック ChoiceOption 特性 (p. 232) ChoiceOption オブジェクト (p. 232) ケースクラス ChoiceOptionWithResolver (p. 232) ケースクラス MatchCatalogSchemaChoiceOption (p. 233) パッケージ : com.amazonaws.services.glue ChoiceOption 特性 trait ChoiceOption extends Serializable ChoiceOption オブジェクト ChoiceOption object ChoiceOption DynamicFrame のすべての ChoiceType ノードに適用可能な選択肢を解決するための一般的な戦略 val CAST val MAKE_COLS val MAKE_STRUCT val MATCH_CATALOG val PROJECT def apply def apply(choice: String): ChoiceOption ケースクラス ChoiceOptionWithResolver case class ChoiceOptionWithResolver(name: String, choiceresolver: ChoiceResolver) extends ChoiceOption {} 232

240 AWS Glue 開発者ガイド Scala API リストケースクラス MatchCatalogSchemaChoiceOption case class MatchCatalogSchemaChoiceOption() extends ChoiceOption {} 抽象 DataSink クラストピック def writedynamicframe (p. 233) def pywritedynamicframe (p. 233) def supportsformat (p. 233) def setformat (p. 233) def withformat (p. 233) def setaccumulablesize (p. 234) def getoutputerrorrecordsaccumulable (p. 234) def errorsasdynamicframe (p. 234) DataSink オブジェクト (p. 234) パッケージ : com.amazonaws.services.glue abstract class DataSink DataSink は DataSource のライターアナログです DynamicFrame を書き込むことができる書き込み先と形式をカプセル化します def writedynamicframe def writedynamicframe( frame : DynamicFrame, callsite : CallSite = CallSite("Not provided", "") ) : DynamicFrame def pywritedynamicframe def pywritedynamicframe( frame : DynamicFrame, site : String = "Not provided", info : String = "" ) def supportsformat def supportsformat( format : String ) : Boolean def setformat def setformat( format : String, options : JsonOptions ) : Unit def withformat def withformat( format : String, 233

241 AWS Glue 開発者ガイド Scala API リスト options : JsonOptions = JsonOptions.empty ) : DataSink def setaccumulablesize def setaccumulablesize( size : Int ) : Unit def getoutputerrorrecordsaccumulable def getoutputerrorrecordsaccumulable : Accumulable[List[OutputError], OutputError] def errorsasdynamicframe def errorsasdynamicframe : DynamicFrame DataSink オブジェクト object DataSink def recordmetrics def recordmetrics( frame : DynamicFrame, ctxt : String ) : DynamicFrame AWS Glue Scala DataSource 特性パッケージ : com.amazonaws.services.glue これは DynamicFrame を生成するための高水準インターフェイスです trait DataSource { def getdynamicframe : DynamicFrame def getdynamicframe( minpartitions : Int, targetpartitions : Int ) : DynamicFrame def gluecontext : GlueContext def setformat( format : String, options : String ) : Unit def setformat( format : String, options : JsonOptions ) : Unit def supportsformat( format : String ) : Boolean def withformat( format : String, options : JsonOptions = JsonOptions.empty ) : DataSource 234

242 AWS Glue 開発者ガイド Scala API リスト } AWS Glue Scala DynamicFrame API パッケージ : com.amazonaws.services.glue 目次 AWS Glue Scala DynamicFrame クラス (p. 236) val errorscount (p. 236) def applymapping (p. 236) def asserterrorthreshold (p. 238) def count (p. 238) def dropfield (p. 238) def dropfields (p. 238) def dropnulls (p. 238) def errorsasdynamicframe (p. 239) def filter (p. 239) def getname (p. 239) def getnumpartitions (p. 239) def getschemaifcomputed (p. 239) def isschemacomputed (p. 239) def javatopython (p. 239) def join (p. 239) def map (p. 240) def printschema (p. 240) def recomputeschema (p. 240) def relationalize (p. 240) def renamefield (p. 241) def repartition (p. 242) def resolvechoice (p. 242) def schema (p. 243) def selectfield (p. 243) def selectfields (p. 243) def show (p. 244) def spigot (p. 244) def splitfields (p. 244) def splitrows (p. 245) def stageerrorscount (p. 245) def todf (p. 245) def unbox (p. 246) def unnest (p. 247) def withframeschema (p. 247) def withname (p. 247) def withtransformationcontext (p. 248) DynamicFrame オブジェクト (p. 248) def apply (p. 248) def emptydynamicframe (p. 248) 235

243 AWS Glue 開発者ガイド Scala API リスト def frompythonrdd (p. 248) def ignoreerrors (p. 248) def inlineerrors (p. 248) def newframewitherrors (p. 248) AWS Glue Scala DynamicFrame クラスパッケージ : com.amazonaws.services.glue class DynamicFrame extends Serializable with Logging ( val gluecontext : GlueContext, _records : RDD[DynamicRecord], val name : String = s"", val transformationcontext : String = DynamicFrame.UNDEFINED, callsite : CallSite = CallSite("Not provided", ""), stagethreshold : Long = 0, totalthreshold : Long = 0, preverrors : => Long = 0, errorexpr : => Unit = {} ) DynamicFrame は自己記述型の DynamicRecord (p. 248) オブジェクトの分散コレクションです DynamicFrames は ETL オペレーションの柔軟なデータモデルを提供するように設計されていますこれらを作成するのにスキーマは必要なく乱雑または不整合な値や型を持つデータの読み取りと変換に使用できますスキーマはスキーマを必要とするオペレーションでオンデマンドで計算できます DynamicFrames はデータクリーニングと ETL 用の広範な変換を提供しますまた既存のコードと統合するための SparkSQL DataFrames との相互変換や DataFrames が提供する多くの分析オペレーションをサポートしています DynamicFrames を構築する多くの Glue 変換全体で以下のパラメータが共有されます transformationcontext この DynamicFrame の識別子実行間で保持されるジョブのブックマーク状態のキーとして transformationcontext が使用されます callsite エラーレポートのコンテキスト情報を提供するために使用しますこれらの値は Python から呼び出すときに自動的に設定されます stagethreshold この DynamicFrame の計算から例外がスローされるまでのエラーレコードの最大許容数以前の DynamicFrame にあるレコードは除きます totalthreshold 例外がスローされるまでの合計エラーレコードの最大数以前のフレームのレコードも含みます val errorscount val errorscount この DynamicFrame のエラーレコードの数以前のオペレーションのエラーも含みます def applymapping def applymapping( mappings : Seq[Product4[String, String, String, String]], casesensitive : Boolean = true, transformationcontext : String = "", callsite : CallSite = CallSite("Not provided", ""), stagethreshold : Long = 0, totalthreshold : Long = 0 236

244 AWS Glue 開発者ガイド Scala API リスト ) : DynamicFrame mappings 新しい DynamicFrame を構築するためのマッピングのシーケンス casesensitive ソース列で大文字と小文字を区別するかどうかこれを false に設定すると大文字と小文字を区別しないストア (AWS Glue データカタログなど ) と統合するときに役立つ場合がありますマッピングのシーケンスに基づく選択列プロジェクト列およびキャスト列各マッピングはソース列 / タイプとターゲット列 / タイプで構成されますマッピングは 4 タプル (source_path source_type target_path target_type) として指定するか同じ情報を含む MappingSpec (p. 256) オブジェクトとして指定できますマッピングではシンプルなプロジェクションやキャストに加えてパスのコンポーネントを '.' で区切ることでフィールドをネスト / ネスト解除できますたとえば DynamicFrame に次のスキーマがあるとします {{{ root -- name: string -- age: int -- address: struct -- state: string -- zip: int }}} 次の呼び出しを行うことで state フィールドと zip フィールドをネスト解除できます {{{ df.applymapping( Seq(("name", "string", "name", "string"), ("age", "int", "age", "int"), ("address.state", "string", "state", "string"), ("address.zip", "int", "zip", "int"))) }}} 結果のスキーマは次のとおりです {{{ root -- name: string -- age: int -- state: string -- zip: int }}} applymapping を使用して列を再ネストすることもできます次の例では前の変換を反転しターゲットに address という名前の構造体を作成します {{{ df.applymapping( Seq(("name", "string", "name", "string"), ("age", "int", "age", "int"), ("state", "string", "address.state", "string"), ("zip", "int", "address.zip", "int"))) }}} フィールド名に. ( ピリオド ) 文字が含まれている場合はバックティック ('') で囲むことができます 237

245 AWS Glue 開発者ガイド Scala API リスト Note 現在 applymapping メソッドで配列の下にネストされた列をマッピングすることはできません def asserterrorthreshold def asserterrorthreshold : Unit このアクションでは計算を適用しエラーレコード数が stagethreshold と totalthreshold を下回っていることを確認しますいずれかの条件が失敗すると例外をスローします def count lazy def count この DynamicFrame の要素数を返します def dropfield def dropfield( path : String, transformationcontext : String = "", callsite : CallSite = CallSite("Not provided", ""), stagethreshold : Long = 0, totalthreshold : Long = 0 ) : DynamicFrame 指定した列を削除した後の新しい DynamicFrame を返します def dropfields def dropfields( fieldnames : Seq[String], // The column names to drop. transformationcontext : String = "", callsite : CallSite = CallSite("Not provided", ""), stagethreshold : Long = 0, totalthreshold : Long = 0 ) : DynamicFrame 指定した複数の列を削除した後の新しい DynamicFrame を返しますこのメソッドではネストされた列 ( 配列内の列を含む ) は削除できますが特定の配列要素は削除できません def dropnulls def dropnulls( transformationcontext : String = "", callsite : CallSite = CallSite("Not provided", ""), stagethreshold : Long = 0, totalthreshold : Long = 0 ) すべての null 列を削除した後の新しい DynamicFrame を返します Note NullType タイプの列のみが削除されます他の列にある個別の null 値は削除または変更されません 238

246 AWS Glue 開発者ガイド Scala API リスト def errorsasdynamicframe def errorsasdynamicframe この DynamicFrame のエラーレコードを含む新しい DynamicFrame を返します def filter def filter( f : DynamicRecord => Boolean, errormsg : String = "", transformationcontext : String = "", callsite : CallSite = CallSite("Not provided"), stagethreshold : Long = 0, totalthreshold : Long = 0 ) : DynamicFrame 関数 'f' が true を返すレコードのみを含む新しい DynamicFrame を構築しますフィルタ関数 'f' は入力レコードを変更しないものとします def getname def getname : String この DynamicFrame の名前を返します def getnumpartitions def getnumpartitions この DynamicFrame のパーティション数を返します def getschemaifcomputed def getschemaifcomputed : Option[Schema] 計算済みのスキーマを返しますスキーマが計算済みでない場合はデータをスキャンしません def isschemacomputed def isschemacomputed : Boolean この DynamicFrame でスキーマが計算済みの場合は true を返しますこのメソッドから false が返された場合は schema メソッドの呼び出しに対してこの DynamicFrame のレコードを再度渡す必要があります def javatopython def javatopython : JavaRDD[Array[Byte]] def join def join( keys1 : Seq[String], keys2 : Seq[String], frame2 : DynamicFrame, transformationcontext : String = "", 239

247 AWS Glue 開発者ガイド Scala API リスト callsite : CallSite = CallSite("Not provided", ""), stagethreshold : Long = 0, totalthreshold : Long = 0 ) : DynamicFrame keys1 この DynamicFrame の列を結合に使用します keys2 結合に使用する frame2 の列 keys1 と同じ長さにする必要があります frame2 結合先の DynamicFrame 指定したキーを使用して frame2 との等結合を行った結果を返します def map def map( f : DynamicRecord => DynamicRecord, errormsg : String = "", transformationcontext : String = "", callsite : CallSite = CallSite("Not provided", ""), stagethreshold : Long = 0, totalthreshold : Long = 0 ) : DynamicFrame この DynamicFrame の各レコードに指定した関数 'f' を適用することで構築した新しい DynamicFrame を返しますこのメソッドは指定した関数を適用する前に各レコードをコピーするためレコードを安全に変更できます特定のレコードでマッピング関数から例外がスローされた場合そのレコードはエラーとしてマークされスタックトレースがエラーレコードの列として保存されます def printschema def printschema : Unit この DynamicFrame のスキーマを人間が判読できる形式で stdout に出力します def recomputeschema def recomputeschema : Schema スキーマの再計算を強制しますこれにはデータのスキャンが必要ですが現在のスキーマの一部のフィールドがデータに存在しない場合スキーマが強化される場合があります再計算されたスキーマを返します def relationalize def relationalize( roottablename : String, stagingpath : String, options : JsonOptions = JsonOptions.empty, transformationcontext : String = "", callsite : CallSite = CallSite("Not provided"), stagethreshold : Long = 0, totalthreshold : Long = 0 ) : Seq[DynamicFrame] roottablename 出力の基本 DynamicFrame に使用する名前配列をピボットすることで作成した DynamicFrames はこれをプレフィックスとして開始します 240

248 AWS Glue 開発者ガイド Scala API リスト stagingpath 中間データを書き込むための S3 パス options Relationalize のオプションと設定現在使用されていませんすべてのネストされた構造をフラット化し配列を個別のテーブルにピボットしますこのオペレーションではリレーショナルデータベースに取り込むための深くネストされたデータを準備できますネストされた構造体はネスト解除 (p. 247) 変換と同じ方法でフラット化されますさらに配列は個別のテーブルにピボットされ各配列要素が行になりますたとえば DynamicFrame に以下のデータがあるとします {"name": "Nancy", "age": 47, "friends": ["Fred", "Lakshmi"]} {"name": "Stephanie", "age": 28, "friends": ["Yao", "Phil", "Alvin"]} {"name": "Nathan", "age": 54, "friends": ["Nicolai", "Karen"]} 次のコードを実行します {{{ df.relationalize("people", "s3:/my_bucket/my_path", JsonOptions.empty) }}} これにより 2 つのテーブルが生成されます最初のテーブルは people という名前で以下が含まれています {{{ {"name": "Nancy", "age": 47, "friends": 1} {"name": "Stephanie", "age": 28, "friends": 2} {"name": "Nathan", "age": 54, "friends": 3) }}} ここで友人の配列は自動生成された結合キーに置き換えられています別のテーブルは people.friends という名前で作成され以下が含まれています {{{ {"id": 1, "index": 0, "val": "Fred"} {"id": 1, "index": 1, "val": "Lakshmi"} {"id": 2, "index": 0, "val": "Yao"} {"id": 2, "index": 1, "val": "Phil"} {"id": 2, "index": 2, "val": "Alvin"} {"id": 3, "index": 0, "val": "Nicolai"} {"id": 3, "index": 1, "val": "Karen"} }}} このテーブルで 'id' は配列要素の元のレコードを識別する結合キーです 'index' は元の配列内の位置を参照します 'val' は実際の配列エントリです relationalize メソッドはこのプロセスをすべての配列に再帰的に適用することで作成した DynamicFrames のシーケンスを返します Note Glue ライブラリは新しいテーブルの結合キーを自動的に生成します結合キーがすべてのジョブ実行で一意であることを保証するにはジョブのブックマークを有効にする必要があります def renamefield def renamefield( oldname : String, 241

249 AWS Glue 開発者ガイド Scala API リスト newname : String, transformationcontext : String = "", callsite : CallSite = CallSite("Not provided", ""), stagethreshold : Long = 0, totalthreshold : Long = 0 ) : DynamicFrame oldname 列の元の名前 newname 列の新しい名前指定した列の名前を変更した後の新しい DynamicFrame を返しますこのメソッドを使用してネストされたフィールドの名前を変更できますたとえば次のコードはアドレス構造体内の state の名前を state_code に変更します {{{ df.renamefield("address.state", "address.state_code") }}} def repartition def repartition( numpartitions : Int, transformationcontext : String = "", callsite : CallSite = CallSite("Not provided", ""), stagethreshold : Long = 0, totalthreshold : Long = 0 ) : DynamicFrame パーティション数が numpartitions の新しい DynamicFrame を返します def resolvechoice def resolvechoice( specs : Seq[Product2[String, String]] = Seq.empty[ResolveSpec], choiceoption : Option[ChoiceOption] = None, database : Option[String] = None, tablename : Option[String] = None, transformationcontext : String = "", callsite : CallSite = CallSite("Not provided", ""), stagethreshold : Long = 0, totalthreshold : Long = 0 ) : DynamicFrame choiceoption 仕様シーケンスにリストされていない ChoiceType 列に適用するアクション database match_catalog アクションで使用するデータカタログデータベース tablename match_catalog アクションで使用するデータカタログテーブル 1 つ以上の ChoiceTypes をより特殊なタイプに置き換えて新しい DynamicFrame を返します resolvechoice を使用する 2 つの方法があります最初の方法では特定の列のシーケンスと解決方法を指定しますこれらは ( 列アクション ) ペアで構成されたタプルとして指定します指定できるアクションは以下のとおりです cast:type すべての値を指定した型にキャストしようとします make_cols 各区別型を columnname_type という名前の列に変換します make_struct 列を各区別型のキーを持つ構造体に変換します 242

250 AWS Glue 開発者ガイド Scala API リスト project:type 指定した型の値のみを保持します resolvechoice> の他のモードではすべての ChoiceTypes に対して単一の解決策を指定しますこれは実行前に ChoiceTypes の完全なリストが不明な場合に使用できますこのモードでは上に示したアクションに加えて以下のアクションもサポートされています match_catalog 指定したカタログテーブルの対応するタイプへの各 ChoiceType のキャストを試行します例 : user.id 列を解決するために int にキャストし address フィールドで構造体のみを保持します {{{ df.resolvechoice(specs = Seq(("user.id", "cast:int"), ("address", "project:struct"))) }}} すべての ChoiceTypes を解決するために各選択肢を別個の列に変換します {{{ df.resolvechoice(choiceoption = Some(ChoiceOption("make_cols"))) }}} すべての ChoiceTypes を解決するために指定したカタログテーブルのタイプにキャストします {{{ df.resolvechoice(choiceoption = Some(ChoiceOption("match_catalog")), database = Some("my_database"), tablename = Some("my_table")) }}} def schema def schema : Schema この DynamicFrame のスキーマを返します返されたスキーマはこの DynamicFrame のレコード内に存在するすべてのフィールドを含むことが保証されますが例外的に追加のフィールドも含む場合がありますネスト解除 (p. 247) メソッドではこの DynamicFrame のレコードに基づいてスキーマを強化できます def selectfield def selectfield( fieldname : String, transformationcontext : String = "", callsite : CallSite = CallSite("Not provided", ""), stagethreshold : Long = 0, totalthreshold : Long = 0 ) : DynamicFrame DynamicFrame として単一のフィールドを返します def selectfields def selectfields( paths : Seq[String], transformationcontext : String = "", 243

251 AWS Glue 開発者ガイド Scala API リスト callsite : CallSite = CallSite("Not provided", ""), stagethreshold : Long = 0, totalthreshold : Long = 0 ) : DynamicFrame paths 選択する列名のシーケンス指定した複数の列を含む新しい DynamicFrame を返します Note selectfields メソッドでは最上位の列のみを選択できます applymapping (p. 236) メソッドではネストされた列を選択できます def show def show( numrows : Int = 20 ) : Unit numrows 出力する行数この DynamicFrame の行を JSON 形式で出力します def spigot def spigot( path : String, options : JsonOptions = new JsonOptions("{}"), transformationcontext : String = "", callsite : CallSite = CallSite("Not provided"), stagethreshold : Long = 0, totalthreshold : Long = 0 ) : DynamicFrame 同じレコードを返すが副作用としてレコードのサブセットを書き出すパススルー変換 path 出力を s3://bucket//path 形式で書き込む先の S3 のパス options サンプリング動作を記述するオプションの JsonOptions マップこの DynamicFrame と同じレコードを含む DynamicFrame を返しますデフォルトでは path で指定した場所に任意の 100 レコードを書き込みますこの動作は options マップを使用してカスタマイズできます有効なキーは以下のとおりです topk レコードを書き出す総数を指定しますデフォルトは 100 です prob 各レコードを含める確率を指定しますデフォルトは 1 ですたとえば次の呼び出しではデータセットをサンプリングするために 20% の確率で各レコードを選択し 200 レコードを書き出した後で停止します {{{ df.spigot("s3://my_bucket/my_path", JsonOptions(Map("topk" -> 200, "prob" -> 0.2))) }}} def splitfields def splitfields( paths : Seq[String], 244

252 AWS Glue 開発者ガイド Scala API リスト transformationcontext : String = "", callsite : CallSite = CallSite("Not provided", ""), stagethreshold : Long = 0, totalthreshold : Long = 0 ) : Seq[DynamicFrame] paths 最初の DynamicFrame に含めるパス 2 つの DynamicFrame のシーケンスを返します 1 つ目には指定したパスを含め 2 つ目には他のすべての列を含めます def splitrows def splitrows( paths : Seq[String], values : Seq[Any], operators : Seq[String], transformationcontext : String, callsite : CallSite, stagethreshold : Long, totalthreshold : Long ) : Seq[DynamicFrame] 列と定数を比較する述語に基づいて行を分割します paths 比較に使用する列 values 比較に使用する定数値 operators 比較に使用する演算子 2 つの DynamicFrame のシーケンスを返します 1 つ目には述語が true の行を含め 2 つ目には述語が false の行を含めます述語を指定するには 3 つのシーケンスを使用します paths には ( ネストされている可能性が高い ) 列名 values には比較に使用する定数値 operators には比較に使用する演算子を含めます 3 つすべてのシーケンスを同じ長さにする必要があります n 演算子では n 番目の列を n 番目の値と比較します各演算子は "!=" "=" "<=" < ">=" ">" のいずれかであることが必要です次の呼び出しの例では DynamicFrame を分割し 1 つ目の出力フレームには米国の 65 才を超える人々のレコード 2 つ目には他のすべてのレコードを含めています {{{ df.splitrows(seq("age", "address.country"), Seq(65, "USA"), Seq(">=", "=")) }}} def stageerrorscount def stageerrorscount この DynamicFrame の計算中に生じたエラーレコードの数を返しますこの DynamicFrame に入力として渡した以前のオペレーションのエラーは含まれません def todf def todf( specs : Seq[ResolveSpec] = Seq.empty[ResolveSpec] ) : DataFrame 245

253 AWS Glue 開発者ガイド Scala API リストこの DynamicFrame を同じスキーマとレコードを持つ SparkSQL DataFrame に変換します Note DataFrames は ChoiceTypes をサポートしないためこのメソッドは ChoiceType 列を StructTypes に自動的に変換します選択肢を解決するための追加の情報とオプションについては resolvechoice (p. 242) を参照してください def unbox def unbox( path : String, format : String, optionstring : String = "{}", transformationcontext : String = "", callsite : CallSite = CallSite("Not provided"), stagethreshold : Long = 0, totalthreshold : Long = 0 ) : DynamicFrame path 解析する列文字列またはバイナリにする必要があります format 解析に使用する形式 optionstring 形式に渡すオプション (CSV 区切り記号など ) 指定した形式に従って埋め込まれた文字列またはバイナリ列を解析します解析された列は元の列名で構造体の下にネストされますたとえば CSV ファイルに JSON 列が埋め込まれているとします name, age, address Sally, 36, {"state": "NE", "city": "Omaha"}... 最初の解析で次のスキーマを持つ DynamicFrame が取得されます {{{ root -- name: string -- age: int -- address: string }}} アドレス列で unbox を呼び出して特定のコンポーネントを解析できます {{{ df.unbox("address", "json") }}} これにより次のスキーマを持つ DynamicFrame が取得されます {{{ root -- name: string -- age: int -- address: struct -- state: string -- city: string }}} 246

254 AWS Glue 開発者ガイド Scala API リスト def unnest def unnest( transformationcontext : String = "", callsite : CallSite = CallSite("Not Provided"), stagethreshold : Long = 0, totalthreshold : Long = 0 ) : DynamicFrame すべてのネストされた構造がフラット化された新しい DynamicFrame を返します名前は '.' 文字を使用して構築されますたとえば DynamicFrame に次のスキーマがあるとします {{{ root -- name: string -- age: int -- address: struct -- state: string -- city: string }}} 次の呼び出しでアドレス構造体がネスト解除されます {{{ df.unnest() }}} 結果のスキーマは次のとおりです {{{ root -- name: string -- age: int -- address.state: string -- address.city: string }}} このメソッドでは配列内のネストされた構造体もネスト解除されますがこのようなフィールドの名前には先頭に配列名と ".val" が追加されます def withframeschema def withframeschema( getschema : () => Schema ) : DynamicFrame getschema 使用するスキーマを返す関数高価である可能性が高い計算を延期するためにパラメータがゼロである関数として指定しますこの DynamicFrame のスキーマを指定された値に設定します高価なスキーマの再計算を回避するために主に内部で使用されます渡すスキーマにはデータ内に存在するすべての列を含める必要があります def withname def withname( name : String ) : DynamicFrame name 使用する新しい名前 247

255 AWS Glue 開発者ガイド Scala API リストこの DynamicFrame のコピーを新しい名前で返します def withtransformationcontext def withtransformationcontext( ctx : String ) : DynamicFrame この DynamicFrame のコピーを指定した変換コンテキストで返します DynamicFrame オブジェクトパッケージ : com.amazonaws.services.glue object DynamicFrame def apply def apply( df : DataFrame, gluecontext : GlueContext ) : DynamicFrame def emptydynamicframe def emptydynamicframe( gluecontext : GlueContext ) : DynamicFrame def frompythonrdd def frompythonrdd( rdd : JavaRDD[Array[Byte]], gluecontext : GlueContext ) : DynamicFrame def ignoreerrors def ignoreerrors( fn : DynamicRecord => DynamicRecord ) : DynamicRecord def inlineerrors def inlineerrors( msg : String, callsite : CallSite ) : (DynamicRecord => DynamicRecord) def newframewitherrors def newframewitherrors( prevframe : DynamicFrame, rdd : RDD[DynamicRecord], name : String = "", transformationcontext : String = "", callsite : CallSite, stagethreshold : Long, totalthreshold : Long ) : DynamicFrame AWS Glue Scala DynamicRecord クラストピック 248

256 AWS Glue 開発者ガイド Scala API リスト def addfield (p. 249) def dropfield (p. 249) def seterror (p. 250) def iserror (p. 250) def geterror (p. 250) def clearerror (p. 250) def write (p. 250) def readfields (p. 250) def clone (p. 250) def schema (p. 250) def getroot (p. 250) def tojson (p. 251) def getfieldnode (p. 251) def getfield (p. 251) def hashcode (p. 251) def equals (p. 251) DynamicRecord オブジェクト (p. 251) RecordTraverser 特性 (p. 251) パッケージ : com.amazonaws.services.glue class DynamicRecord extends Serializable with Writable with Cloneable DynamicRecord は処理対象のデータセットのデータ行を表す自己記述型のデータ構造です自己記述型とは DynamicRecord が表す行のスキーマをレコード自体を検査することで取得できるという意味です DynamicRecord は Spark の Row に似ています def addfield def addfield( path : String, dynamicnode : DynamicNode ) : Unit 指定したパスに DynamicNode (p. 262) を追加します path 追加するフィールドのパス dynamicnode 指定したパスに追加する DynamicNode (p. 262) def dropfield def dropfield(path: String, underrename: Boolean = false): Option[DynamicNode] 指定したパスに配列がない場合は指定したパスから DynamicNode (p. 262) を削除し削除したノードを返します path 削除するフィールドのパス underrename 名前変更の変換の一部として dropfield が呼び出された場合は true それ以外の場合は false ( デフォルトは false) 249

257 AWS Glue 開発者ガイド Scala API リスト scala.option Option (DynamicNode (p. 262)) を返します def seterror def seterror( error : Error ) error パラメータの指定に従ってこのレコードをエラーレコードとして設定します DynamicRecord を返します def iserror def iserror このレコードがエラーレコードであるかどうかを確認します def geterror def geterror レコードがエラーレコードである場合 Error を受け取りますこのレコードがエラーレコードである場合は scala.some Some ( エラー ) を返しそれ以外の場合は scala.none を返します def clearerror def clearerror Error を scala.none.none に設定します def write override def write( out : DataOutput ) : Unit def readfields override def readfields( in : DataInput ) : Unit def clone override def clone : DynamicRecord このレコードを新しい DynamicRecord に複製して返します def schema def schema レコードを検査して Schema を取得します def getroot def getroot : ObjectNode 250

258 AWS Glue 開発者ガイド Scala API リストレコードのルート ObjectNode を取得します def tojson def tojson : String レコードの json 文字列を取得します def getfieldnode def getfieldnode( path : String ) : Option[DynamicNode] DyanmicNode のオプションとして指定した path でフィールドの値を取得しますフィールドが存在する場合は scala.some Some(DynamicNode (p. 262)) を返しそれ以外の場合は scala.none.none を返します def getfield def getfield( path : String ) : Option[Any] DyanmicNode のオプションとして指定した path でフィールドの値を取得します scala.some Some ( 値 ) を返します def hashcode override def hashcode : Int def equals override def equals( other : Any ) DynamicRecord オブジェクト object DynamicRecord def apply def apply( row : Row, schema : SparkStructType ) メソッドを適用して Spark SQL Row を DynamicRecord (p. 248) に変換します row Spark SQL Row schema 行の Schema DynamicRecord を返します RecordTraverser 特性 trait RecordTraverser { def nullvalue(): Unit 251

259 AWS Glue 開発者ガイド Scala API リスト } def bytevalue(value: Byte): Unit def binaryvalue(value: Array[Byte]): Unit def booleanvalue(value: Boolean): Unit def shortvalue(value: Short) : Unit def intvalue(value: Int) : Unit def longvalue(value: Long) : Unit def floatvalue(value: Float): Unit def doublevalue(value: Double): Unit def decimalvalue(value: BigDecimal): Unit def stringvalue(value: String): Unit def datevalue(value: Date): Unit def timestampvalue(value: Timestamp): Unit def objectstart(length: Int): Unit def objectkey(key: String): Unit def objectend(): Unit def mapstart(length: Int): Unit def mapkey(key: String): Unit def mapend(): Unit def arraystart(length: Int): Unit def arrayend(): Unit AWS Glue Scala GlueContext API パッケージ : com.amazonaws.services.glue class GlueContext extends SQLContext(sc) val sc : SparkContext, val defaultsourcepartitioner : PartitioningStrategy ) GlueContext は S3 データカタログ JDBC などに対して DynamicFrame (p. 235) を読み書きするエントリポイントですこのクラスが提供するユーティリティ関数によって DataSource 特性 (p. 234) オブジェクトと DataSink (p. 233) オブジェクトが作成されこれらのオブジェクトを使用して DynamicFrames を読み書きできますまた GlueContext ではソースから作成されたパーティションの数がパーティションの最小しきい値 ( デフォルトは 10) を下回る場合に DynamicFrame のパーティションのターゲット数 ( デフォルトは 20) を設定することもできます def getcatalogclient def getcatalogclient : CatalogService ジョブ定義に指定されている IAM ロールを使用して CatalogService オブジェクトを作成します def getcatalogsink def getcatalogsink( database : String, tablename : String, redshifttmpdir : String = "", transformationcontext : String = "" ) : DataSink データカタログに定義されているテーブルの指定場所に書き込みを行う DataSink (p. 233) を作成します database データカタログのデータベース名 tablename データカタログのテーブル名 252

260 AWS Glue 開発者ガイド Scala API リスト redshifttmpdir 特定のデータシンクで使用する一時的なステージングディレクトリデフォルトでは空に設定されます transformationcontext ジョブのブックマークで使用するシンクに関連付けられている変換コンテキストデフォルトでは空に設定されます DataSink を返します def getcatalogsource def getcatalogsource( database : String, tablename : String, redshifttmpdir : String = "", transformationcontext : String = "" ) : DataSource データカタログのテーブル定義からデータを読み取る DataSource 特性 (p. 234) を作成します database データカタログのデータベース名 tablename データカタログのテーブル名 redshifttmpdir 特定のデータシンクで使用する一時的なステージングディレクトリデフォルトでは空に設定されます transformationcontext ジョブのブックマークで使用するシンクに関連付けられている変換コンテキストデフォルトでは空に設定されます DataSource を返します def getjdbcsink def getjdbcsink( catalogconnection : String, options : JsonOptions, redshifttmpdir : String = "", transformationcontext : String = "" ) : DataSink データカタログの Connection オブジェクトに指定されている JDBC データベースに書き込みを行う DataSink (p. 233) を作成します Connection オブジェクトには URL ユーザー名パスワード VPC サブネットセキュリティグループなど JDBC シンクに接続するための情報があります catalogconnection データカタログの接続の名前 options JDBC データベースへの書き込みに必要な追加情報 ( テーブル名など ) を提供する JSON 形式の名前と値のペアの文字列 redshifttmpdir 特定のデータシンクで使用する一時的なステージングディレクトリデフォルトでは空に設定されます transformationcontext ジョブのブックマークで使用するシンクに関連付けられている変換コンテキストデフォルトでは空に設定されます DataSink を返します def getsink def getsink( connectiontype : String, options : JsonOptions, transformationcontext : String = "" 253

261 AWS Glue 開発者ガイド Scala API リスト ) : DataSink S3 JDBC データカタログなどの書き込み先にデータを書き込む DataSink (p. 233) を作成します connectiontype 接続のタイプ options データシンクとの接続を確立するための追加情報を提供する JSON 形式の名前と値のペアの文字列 transformationcontext ジョブのブックマークで使用するシンクに関連付けられている変換コンテキストデフォルトでは空に設定されます DataSink を返します def getsinkwithformat def getsinkwithformat( connectiontype : String, options : JsonOptions, transformationcontext : String = "", format : String = null, formatoptions : JsonOptions = JsonOptions.empty ) : DataSink S3 JDBC データカタログなどの書き込み先にデータを書き込みさらに書き込むデータの形式を設定する DataSink (p. 233) を作成します connectiontype 接続のタイプサポートされている接続タイプのリストについては DataSink (p. 233) を参照してください options データシンクとの接続を確立するための追加情報を提供する JSON 形式の名前と値のペアの文字列 transformationcontext ジョブのブックマークで使用するシンクに関連付けられている変換コンテキストデフォルトでは空に設定されます format 書き込み先に書き込むデータの形式 formatoptions 書き込み先でデータをフォーマットするための追加オプションを提供する JSON 形式の名前と値のペアの文字列形式オプション (p. 152) を参照してください DataSink を返します def getsource def getsource( connectiontype : String, connectionoptions : JsonOptions, transformationcontext : String = "" ) : DataSource S3 JDBC データカタログなどのソースからデータを読み取る DataSource 特性 (p. 234) を作成します connectiontype 接続のタイプ options データソースとの接続を確立するための追加情報を提供する JSON 形式の名前と値のペアの文字列 transformationcontext ジョブのブックマークで使用するシンクに関連付けられている変換コンテキストデフォルトでは空に設定されます DataSource を返します 254

262 AWS Glue 開発者ガイド Scala API リスト def getsourcewithformat def getsourcewithformat( connectiontype : String, options : JsonOptions, transformationcontext : String = "", format : String = null, formatoptions : JsonOptions = JsonOptions.empty ) : DataSource S3 JDBC データカタログなどのソースからデータを読み取りさらにソースに保存されているデータの形式を設定する DataSource 特性 (p. 234) を作成します connectiontype 接続のタイプ options データソースとの接続を確立するための追加情報を提供する JSON 形式の名前と値のペアの文字列 transformationcontext ジョブのブックマークで使用するシンクに関連付けられている変換コンテキストデフォルトでは空に設定されます format ソースに保存されているデータの形式 formatoptions ソースでデータを解析するための追加オプションを提供する JSON 形式の名前と値のペアの文字列形式オプション (p. 152) を参照してください DataSource を返します def getsparksession def getsparksession : SparkSession この GlueContext に関連付けられている SparkSession オブジェクトを取得しますこの SparkSession オブジェクトでは DynamicFrames から作成した DataFrame で使用するテーブルと UDF を登録します SparkSession を返します def this def this( sc : SparkContext, minpartitions : Int, targetpartitions : Int ) 指定した SparkContext 最小限のパーティションおよびターゲットパーティションを使用して GlueContext オブジェクトを作成します sc SparkContext minpartitions 最小限のパーティション数 targetpartitions ターゲットパーティション数 GlueContext を返します def this def this( sc : SparkContext ) 指定した SparkContext を使用して GlueContext オブジェクトを作成します最小限のパーティション数を 10 に設定しターゲットパーティション数を 20 に設定します 255

263 AWS Glue 開発者ガイド Scala API リスト sc SparkContext GlueContext を返します def this def this( sparkcontext : JavaSparkContext ) 指定した JavaSparkContext を使用して GlueContext オブジェクトを作成します最小限のパーティション数を 10 に設定しターゲットパーティション数を 20 に設定します sparkcontext JavaSparkContext GlueContext を返します MappingSpec パッケージ : com.amazonaws.services.glue MappingSpec ケースクラス case class MappingSpec( sourcepath: SchemaPath, sourcetype: DataType, targetpath: SchemaPath, targettype: DataTyp ) extends Product4[String, String, String, String] { override def _1: String = sourcepath.tostring override def _2: String = ExtendedTypeName.fromDataType(sourceType) override def _3: String = targetpath.tostring override def _4: String = ExtendedTypeName.fromDataType(targetType) } sourcepath ソースフィールドの SchemaPath sourcetype ソースフィールドの DataType targetpath ターゲットフィールドの SchemaPath targettype ターゲットフィールドの DataType MappingSpec はソースパスとソースデータ型からターゲットパスとターゲットデータ型へのマッピングを指定しますソーフフレームのソースパスの値はターゲットフレームのターゲットパスに表示されますソースデータ型はターゲットデータ型にキャストされます Product4 からの拡張であるため applymapping インターフェイスですべての Product4 を処理できます MappingSpec オブジェクト object MappingSpec MappingSpec オブジェクトには以下のメンバーがあります val orderingbytarget val orderingbytarget: Ordering[MappingSpec] 256

264 AWS Glue 開発者ガイド Scala API リスト def apply def apply( sourcepath : String, sourcetype : DataType, targetpath : String, targettype : DataType ) : MappingSpec MappingSpec を作成します sourcepath ソースパスの文字列表現 sourcetype ソース DataType targetpath ターゲットパスの文字列表現 targettype ターゲット DataType MappingSpec を返します def apply def apply( sourcepath : String, sourcetypestring : String, targetpath : String, targettypestring : String ) : MappingSpec MappingSpec を作成します sourcepath ソースパスの文字列表現 sourcetype ソースデータ型の文字列表現 targetpath ターゲットパスの文字列表現 targettype ターゲットデータ型の文字列表現 MappingSpec を返します def apply def apply( product : Product4[String, String, String, String] ) : MappingSpec MappingSpec を作成します product ソースパスの Product4 ソースデータ型ターゲットパスターゲットデータ型 MappingSpec を返します AWS Glue Scala ResolveSpec API トピック ResolveSpec オブジェクト (p. 258) ResolveSpec ケースクラス (p. 258) パッケージ : com.amazonaws.services.glue 257

265 AWS Glue 開発者ガイド Scala API リスト ResolveSpec オブジェクト ResolveSpec object ResolveSpec def def apply( path : String, action : String ) : ResolveSpec ResolveSpec を作成します path 解決する必要がある選択肢フィールドの文字列表現 action 解決アクションアクションは Project KeepAsStruct Cast のいずれかになります ResolveSpec を返します def def apply( product : Product2[String, String] ) : ResolveSpec ResolveSpec を作成します product Product2 ( ソースパス解決アクション ) ResolveSpec を返します ResolveSpec ケースクラス case class ResolveSpec extends Product2[String, String] ( path : SchemaPath, action : String ) ResolveSpec を作成します path 解決する必要がある選択肢フィールドの SchemaPath action 解決アクションアクションは Project KeepAsStruct Cast のいずれかになります ResolveSpec def メソッド def _1 : String def _2 : String AWS Glue Scala ArrayNode API パッケージ : com.amazonaws.services.glue.types 258

266 AWS Glue 開発者ガイド Scala API リスト ArrayNode ケースクラス ArrayNode case class ArrayNode extends DynamicNode ( value : ArrayBuffer[DynamicNode] ) ArrayNode def メソッド def add( node : DynamicNode ) def clone def equals( other : Any ) def get( index : Int ) : Option[DynamicNode] def getvalue def hashcode : Int def isempty : Boolean def nodetype def remove( index : Int ) def this def toiterator : Iterator[DynamicNode] def tojson : String def update( index : Int, node : DynamicNode ) AWS Glue Scala BinaryNode API パッケージ : com.amazonaws.services.glue.types BinaryNode ケースクラス BinaryNode case class BinaryNode extends ScalarNode(value, TypeCode.BINARY) ( value : Array[Byte] ) 259

267 AWS Glue 開発者ガイド Scala API リスト BinaryNode val フィールド ordering BinaryNode def メソッド def clone def equals( other : Any ) def hashcode : Int AWS Glue Scala BooleanNode API パッケージ : com.amazonaws.services.glue.types BooleanNode ケースクラス BooleanNode case class BooleanNode extends ScalarNode(value, TypeCode.BOOLEAN) ( value : Boolean ) BooleanNode val フィールド ordering BooleanNode def メソッド def equals( other : Any ) AWS Glue Scala ByteNode API パッケージ : com.amazonaws.services.glue.types ByteNode ケースクラス ByteNode case class ByteNode extends ScalarNode(value, TypeCode.BYTE) ( value : Byte ) ByteNode val フィールド ordering ByteNode def メソッド def equals( other : Any ) 260

268 AWS Glue 開発者ガイド Scala API リスト AWS Glue Scala DateNode API パッケージ : com.amazonaws.services.glue.types DateNode ケースクラス DateNode case class DateNode extends ScalarNode(value, TypeCode.DATE) ( value : Date ) DateNode val フィールド ordering DateNode def メソッド def equals( other : Any ) def this( value : Int ) AWS Glue Scala DecimalNode API パッケージ : com.amazonaws.services.glue.types DecimalNode ケースクラス DecimalNode case class DecimalNode extends ScalarNode(value, TypeCode.DECIMAL) ( value : BigDecimal ) DecimalNode val フィールド ordering DecimalNode def メソッド def equals( other : Any ) def this( value : Decimal ) AWS Glue Scala DoubleNode API パッケージ : com.amazonaws.services.glue.types DoubleNode ケースクラス DoubleNode case class DoubleNode extends ScalarNode(value, TypeCode.DOUBLE) ( value : Double ) 261

269 AWS Glue 開発者ガイド Scala API リスト DoubleNode val フィールド ordering DoubleNode def メソッド def equals( other : Any ) AWS Glue Scala DynamicNode API トピック DynamicNode クラス (p. 262) DynamicNode オブジェクト (p. 262) パッケージ : com.amazonaws.services.glue.types DynamicNode クラス抽象 DynamicNode class DynamicNode extends Serializable with Cloneable DynamicNode def メソッド def getvalue : Any プレーンな値を取得して現在のレコードにバインドする def nodetype : TypeCode def tojson : String デバッグのメソッド def torow( schema : Schema, options : Map[String, ResolveOption] ) : Row def typename : String DynamicNode オブジェクト DynamicNode object DynamicNode DynamicNode def メソッド def quote( field : String, 262

270 AWS Glue 開発者ガイド Scala API リスト usequotes : Boolean ) : String def quote( node : DynamicNode, usequotes : Boolean ) : String AWS Glue Scala FloatNode API パッケージ : com.amazonaws.services.glue.types FloatNode ケースクラス FloatNode case class FloatNode extends ScalarNode(value, TypeCode.FLOAT) ( value : Float ) FloatNode val フィールド ordering FloatNode def メソッド def equals( other : Any ) AWS Glue Scala IntegerNode API パッケージ : com.amazonaws.services.glue.types IntegerNode ケースクラス IntegerNode case class IntegerNode extends ScalarNode(value, TypeCode.INT) ( value : Int ) IntegerNode val フィールド ordering IntegerNode def メソッド def equals( other : Any ) AWS Glue Scala LongNode API パッケージ : com.amazonaws.services.glue.types LongNode ケースクラス LongNode 263

271 AWS Glue 開発者ガイド Scala API リスト case class LongNode extends ScalarNode(value, TypeCode.LONG) ( value : Long ) LongNode val フィールド ordering LongNode def メソッド def equals( other : Any ) AWS Glue Scala MapLikeNode API パッケージ : com.amazonaws.services.glue.types MapLikeNode クラス抽象 MapLikeNode class MapLikeNode extends DynamicNode ( value : mutable.map[string, DynamicNode] ) MapLikeNode def メソッド def clear : Unit def get( name : String ) : Option[DynamicNode] def getvalue def has( name : String ) : Boolean def isempty : Boolean def put( name : String, node : DynamicNode ) : Option[DynamicNode] def remove( name : String ) : Option[DynamicNode] def toiterator : Iterator[(String, DynamicNode)] def tojson : String def tojson( usequotes : Boolean ) : String 例 : 次の JSON の場合 : {"foo": "bar"} usequotes == true であれば tojson は {"foo": "bar"} を生成し usequotes == fase であれば tojson は {foo: を生成します 264

272 AWS Glue 開発者ガイド Scala API リスト AWS Glue Scala MapNode API パッケージ : com.amazonaws.services.glue.types MapNode ケースクラス MapNode case class MapNode extends MapLikeNode(value) ( value : mutable.map[string, DynamicNode] ) MapNode def メソッド def clone def equals( other : Any ) def hashcode : Int def nodetype def this AWS Glue Scala NullNode API トピック NullNode クラス (p. 265) NullNode ケースオブジェクト (p. 265) パッケージ : com.amazonaws.services.glue.types NullNode クラス NullNode class NullNode NullNode ケースオブジェクト NullNode case object NullNode extends NullNode AWS Glue Scala ObjectNode API トピック ObjectNode オブジェクト (p. 266) ObjectNode ケースクラス (p. 266) 265

273 AWS Glue 開発者ガイド Scala API リストパッケージ : com.amazonaws.services.glue.types ObjectNode オブジェクト ObjectNode object ObjectNode ObjectNode def メソッド def apply( framekeys : Set[String], v1 : mutable.map[string, DynamicNode], v2 : mutable.map[string, DynamicNode], resolvewith : String ) : ObjectNode ObjectNode ケースクラス ObjectNode case class ObjectNode extends MapLikeNode(value) ( val value : mutable.map[string, DynamicNode] ) ObjectNode def メソッド def clone def equals( other : Any ) def hashcode : Int def nodetype def this AWS Glue Scala ScalarNode API トピック ScalarNode クラス (p. 266) ScalarNode オブジェクト (p. 267) パッケージ : com.amazonaws.services.glue.types ScalarNode クラス抽象 ScalarNode class ScalarNode extends DynamicNode ( value : Any, scalartype : TypeCode ) 266

274 AWS Glue 開発者ガイド Scala API リスト ScalarNode def メソッド def compare( other : Any, operator : String ) : Boolean def getvalue def hashcode : Int def nodetype def tojson ScalarNode オブジェクト ScalarNode object ScalarNode ScalarNode def メソッド def apply( v : Any ) : DynamicNode def compare( tv : Ordered[T], other : T, operator : String ) : Boolean def compareany( v : Any, y : Any, o : String ) def withescapedspecialcharacters( jsontoescape : String ) : String AWS Glue Scala ShortNode API パッケージ : com.amazonaws.services.glue.types ShortNode ケースクラス ShortNode case class ShortNode extends ScalarNode(value, TypeCode.SHORT) ( value : Short ) ShortNode val フィールド ordering 267

275 AWS Glue 開発者ガイド Scala API リスト ShortNode def メソッド def equals( other : Any ) AWS Glue Scala StringNode API パッケージ : com.amazonaws.services.glue.types StringNode ケースクラス StringNode case class StringNode extends ScalarNode(value, TypeCode.STRING) ( value : String ) StringNode val フィールド ordering StringNode def メソッド def equals( other : Any ) def this( value : UTF8String ) AWS Glue Scala TimestampNode API パッケージ : com.amazonaws.services.glue.types TimestampNode ケースクラス TimestampNode case class TimestampNode extends ScalarNode(value, TypeCode.TIMESTAMP) ( value : Timestamp ) TimestampNode val フィールド ordering TimestampNode def メソッド def equals( other : Any ) def this( value : Long ) AWS Glue Scala GlueArgParser API パッケージ : com.amazonaws.services.glue.util 268

276 AWS Glue 開発者ガイド Scala API リスト GlueArgParser オブジェクト GlueArgParser object GlueArgParser これは AWSGlueDataplanePython パッケージの Python バージョンの utils.getresolvedoptions と厳密に整合します GlueArgParser def メソッド def getresolvedoptions( args : Array[String], options : Array[String] ) : Map[String, String] def initparser( useroptionsset : mutable.set[string] ) : ArgumentParser AWS Glue Scala Job API パッケージ : com.amazonaws.services.glue.util Job オブジェクトジョブ object Job Job def メソッド def commit def init( jobname : String, gluecontext : GlueContext, args : java.util.map[string, String] = Map[String, String]().asJava ) : this.type def init( jobname : String, gluecontext : GlueContext, endpoint : String, args : java.util.map[string, String] ) : this.type def isinitialized def reset def runid 269

277 AWS Glue 開発者ガイド AWS Glue API 目次 Catalog API (p. 275) データベース API (p. 275) データ型 (p. 275) データベース構造 (p. 275) DatabaseInput 構造 (p. 276) オペレーション (p. 276) CreateDatabase アクション (Python: create_database) (p. 276) UpdateDatabase アクション (Python: update_database) (p. 277) DeleteDatabase アクション (Python: delete_database) (p. 277) GetDatabase アクション (Python: get_database) (p. 278) GetDatabases アクション (Python: get_databases) (p. 278) テーブル API (p. 279) データ型 (p. 279) テーブル構造 (p. 279) TableInput 構造 (p. 280) 列の構造 (p. 281) StorageDescriptor 構造 (p. 281) SerDeInfo 構造 (p. 282) 順序の構造 (p. 283) SkewedInfo 構造 (p. 283) TableVersion 構造 (p. 283) TableError 構造 (p. 283) TableVersionError 構造 (p. 284) 運用 (p. 284) CreateTable アクション (Python: create_table) (p. 284) UpdateTable アクション (Python: update_table) (p. 285) DeleteTable アクション (Python: delete_table) (p. 285) BatchDeleteTable アクション (Python: batch_delete_table) (p. 286) GetTable アクション (Python:get_table) (p. 287) GetTables アクション (Python: get_tables) (p. 287) GetTableVersion アクション (Python: get_table_version) (p. 288) GetTableVersions アクション (Python: get_table_versions) (p. 289) DeleteTableVersion アクション (Python: delete_table_version) (p. 289) BatchDeleteTableVersion アクション (Python: batch_delete_table_version) (p. 290) パーティション API (p. 291) データ型 (p. 291) パーティションの構造 (p. 291) PartitionInput の構造 (p. 292) PartitionSpecWithSharedStorageDescriptor 構造 (p. 292) PartitionListComposingSpec 構造 (p. 292) PartitionSpecProxy 構造 (p. 292) 270

278 AWS Glue 開発者ガイド PartitionValueList 構造 (p. 293) セグメント構造 (p. 293) PartitionError 構造 (p. 293) 運用 (p. 294) CreatePartition アクション (Python: create_partition) (p. 294) BatchCreatePartition アクション (Python: batch_create_partition) (p. 294) UpdatePartition アクション (Python: update_partition) (p. 295) DeletePartition アクション (Python: delete_partition) (p. 296) BatchDeletePartition アクション (Python: batch_delete_partition) (p. 296) GetPartition アクション (Python: get_partition) (p. 297) GetPartitions アクション (Python: get_partitions) (p. 298) BatchGetPartition アクション (Python: batch_get_partition) (p. 299) 接続 API (p. 299) データ型 (p. 299) Connection の構造 (p. 299) ConnectionInput の構造 (p. 300) PhysicalConnectionRequirements の構造 (p. 301) GetConnectionsFilter の構造 (p. 301) オペレーション (p. 301) CreateConnection アクション (Python: create_connection) (p. 301) DeleteConnection アクション (Python: delete_connection) (p. 302) GetConnection アクション (Python: get_connection) (p. 302) GetConnections アクション (Python: get_connections) (p. 303) UpdateConnection アクション (Python: update_connection) (p. 304) BatchDeleteConnection アクション (Python: batch_delete_connection) (p. 304) ユーザー定義関数 API (p. 305) データ型 (p. 305) UserDefinedFunction 構造 (p. 305) UserDefinedFunctionInput 構造 (p. 305) オペレーション (p. 306) CreateUserDefinedFunction アクション (Python: create_user_defined_function) (p. 306) UpdateUserDefinedFunction アクション (Python: update_user_defined_function) (p. 307) DeleteUserDefinedFunction アクション (Python: delete_user_defined_function) (p. 307) GetUserDefinedFunction アクション (Python: get_user_defined_function) (p. 308) GetUserDefinedFunctions アクション (Python: get_user_defined_functions) (p. 308) Athena カタログを AWS Glue にインポートする (p. 309) データ型 (p. 309) CatalogImportStatus 構造 (p. 309) 運用 (p. 310) ImportCatalogToGlue アクション (Python: import_catalog_to_glue) (p. 310) 271 GetCatalogImportStatus アクション (Python: get_catalog_import_status) (p. 310) クローラおよび分類子 API (p. 311)

279 AWS Glue 開発者ガイド分類子 API (p. 311) データ型 (p. 311) 分類子の構造 (p. 311) GrokClassifier の構造 (p. 311) XMLClassifier の構造 (p. 312) JsonClassifier の構造 (p. 313) CreateGrokClassifierRequest の構造 (p. 313) UpdateGrokClassifierRequest の構造 (p. 313) CreateXMLClassifierRequest の構造 (p. 314) UpdateXMLClassifierRequest の構造 (p. 314) CreateJsonClassifierRequest の構造 (p. 314) UpdateJsonClassifierRequest の構造 (p. 315) オペレーション (p. 315) CreateClassifier アクション (Python: create_classifier) (p. 315) DeleteClassifier アクション (Python: delete_classifier) (p. 316) GetClassifier アクション (Python: get_classifier) (p. 316) GetClassifiers アクション (Python: get_classifiers) (p. 316) UpdateClassifier アクション (Python: update_classifier) (p. 317) クローラ API (p. 317) データ型 (p. 317) クローラの構造 (p. 318) スケジュールの構造 (p. 319) CrawlerTargets の構造 (p. 319) S3Target 構造 (p. 319) JdbcTarget 構造 (p. 319) CrawlerMetrics 構造 (p. 320) SchemaChangePolicy 構造 (p. 320) LastCrawlInfo 構造 (p. 321) 運用 (p. 321) CreateCrawler アクション (Python: create_crawler) (p. 321) DeleteCrawler アクション (Python: delete_crawler) (p. 322) GetCrawler アクション (Python: get_crawler) (p. 323) GetCrawlers アクション (Python: get_crawlers) (p. 323) GetCrawlerMetrics アクション (Python: get_crawler_metrics) (p. 324) UpdateCrawler アクション (Python: update_crawler) (p. 324) StartCrawler アクション (Python: start_crawler) (p. 325) StopCrawler アクション (Python: stop_crawler) (p. 326) クローラスケジューラ API (p. 326) データ型 (p. 326) スケジュールの構造 (p. 326) 運用 (p. 326) UpdateCrawlerSchedule アクション (Python: update_crawler_schedule) (p. 327) StartCrawlerSchedule アクション 272 (Python: start_crawler_schedule) (p. 327) StopCrawlerSchedule アクション (Python: stop_crawler_schedule) (p. 328) ETL スクリプトの自動生成用 AWS Glue API (p. 328)

280 AWS Glue 開発者ガイドデータ型 (p. 328) CodeGenNode 構造 (p. 328) CodeGenNodeArg 構造 (p. 329) CodeGenEdge 構造 (p. 329) 場所の構造 (p. 329) CatalogEntry 構造 (p. 330) MappingEntry 構造 (p. 330) 運用 (p. 330) CreateScript アクション (Python: create_script) (p. 330) GetDataflowGraph アクション (Python: get_dataflow_graph) (p. 331) GetMapping アクション (Python: get_mapping) (p. 332) GetPlan アクション (Python: get_plan) (p. 332) ジョブ API (p. 333) ジョブ (p. 333) データ型 (p. 333) ジョブ構造 (p. 333) ExecutionProperty 構造 (p. 334) JobCommand 構造 (p. 335) ConnectionsList 構造 (p. 335) JobUpdate 構造 (p. 335) 運用 (p. 336) CreateJob アクション (Python: create_job) (p. 336) UpdateJob アクション (Python: update_job) (p. 337) GetJob アクション (Python: get_job) (p. 338) GetJobs アクション (Python: get_jobs) (p. 338) DeleteJob アクション (Python: delete_job) (p. 339) ジョブ実行 (p. 339) データ型 (p. 339) JobRun の構造 (p. 340) 先行構造 (p. 341) JobBookmarkEntry 構造 (p. 341) BatchStopJobRunSuccessfulSubmission 構造 (p. 341) BatchStopJobRunError 構造 (p. 342) 運用 (p. 342) StartJobRun アクション (Python: start_job_run) (p. 342) BatchStopJobRun アクション (Python: batch_stop_job_run) (p. 343) GetJobRun アクション (Python: get_job_run) (p. 344) GetJobRuns アクション (Python: get_job_runs) (p. 344) ResetJobBookmark アクション (Python: reset_job_bookmark) (p. 345) トリガ (p. 345) データ型 (p. 345) トリガー構造 (p. 346) TriggerUpdate 構造 (p. 346) 273 述語構造 (p. 347) 条件の構造 (p. 347)

281 AWS Glue 開発者ガイドアクション構造 (p. 347) 運用 (p. 348) CreateTrigger アクション (Python: create_trigger) (p. 348) StartTrigger アクション (Python: start_trigger) (p. 349) GetTrigger アクション (Python: get_trigger) (p. 349) GetTriggers アクション (Python: get_triggers) (p. 350) UpdateTrigger アクション (Python: update_trigger) (p. 350) StopTrigger アクション (Python: stop_trigger) (p. 351) DeleteTrigger アクション (Python: delete_trigger) (p. 351) AWS Glue 開発エンドポイント API (p. 352) データ型 (p. 352) DevEndpoint 構造 (p. 352) DevEndpointCustomLibraries 構造 (p. 353) オペレーション (p. 354) CreateDevEndpoint アクション (Python: create_dev_endpoint) (p. 354) UpdateDevEndpoint アクション (Python: update_dev_endpoint) (p. 356) DeleteDevEndpoint アクション (Python: delete_dev_endpoint) (p. 356) GetDevEndpoint アクション (Python: get_dev_endpoint) (p. 357) GetDevEndpoints アクション (Python: get_dev_endpoints) (p. 357) 共通データ型 (p. 358) タグ構造 (p. 358) DecimalNumber 構造 (p. 358) ErrorDetail 構造 (p. 358) PropertyPredicate 構造 (p. 359) ResourceUri 構造 (p. 359) 文字列パターン (p. 359) 例外 (p. 360) AccessDeniedException 構造 (p. 360) AlreadyExistsException 構造 (p. 360) ConcurrentModificationException 構造 (p. 360) ConcurrentRunsExceededException 構造 (p. 360) CrawlerNotRunningException 構造 (p. 360) CrawlerRunningException 構造 (p. 361) CrawlerStoppingException 構造 (p. 361) EntityNotFoundException 構造 (p. 361) IdempotentParameterMismatchException 構造 (p. 361) InternalServiceException 構造 (p. 361) InvalidExecutionEngineException 構造 (p. 362) InvalidInputException 構造 (p. 362) InvalidTaskStatusTransitionException 構造 (p. 362) JobDefinitionErrorException 構造 (p. 362) JobRunInTerminalStateException 構造 (p. 362) JobRunInvalidStateTransitionException 274 構造 (p. 363) JobRunNotInTerminalStateException 構造 (p. 363) LateRunnerException 構造 (p. 363)

282 AWS Glue 開発者ガイド Catalog API NoScheduleException 構造 (p. 363) OperationTimeoutException 構造 (p. 364) ResourceNumberLimitExceededException 構造 (p. 364) SchedulerNotRunningException 構造 (p. 364) SchedulerRunningException 構造 (p. 364) SchedulerTransitioningException 構造 (p. 364) UnrecognizedRunnerException 構造 (p. 365) ValidationException 構造 (p. 365) VersionMismatchException 構造 (p. 365) Catalog API トピックデータベース API (p. 275) テーブル API (p. 279) パーティション API (p. 291) 接続 API (p. 299) ユーザー定義関数 API (p. 305) Athena カタログを AWS Glue にインポートする (p. 309) データベース API データ型データベース構造 (p. 275) DatabaseInput 構造 (p. 276) データベース構造 Database オブジェクトは Hive メタストアまたは RDBMS に存在する可能性のあるテーブルの論理グループを表しますフィールド Name Single-line string pattern (p. 359) に一致する文字列必須データベースの名前 Hive 互換性のためにこれは保存時に小文字で表示されます Description URI address multi-line string pattern (p. 359) に一致する説明文字列データベースの説明 LocationUri URI address multi-line string pattern (p. 359) に一致する統一されたリソース識別子 (uri) データベースの場所 ( たとえば HDFS パスなど ) Parameters UTF-8 文字列から UTF-8 文字列へのマッピングの配列データベースのパラメータとプロパティを定義するキーと値のペアのリスト CreateTime タイムスタンプ 275

283 AWS Glue 開発者ガイドデータベースメタデータデータベースがカタログに作成された時刻 DatabaseInput 構造データベースの作成または更新に使用される構造体フィールド Name Single-line string pattern (p. 359) に一致する文字列必須データベースの名前 Hive 互換性のためにこれは保存時に小文字で表示されます Description URI address multi-line string pattern (p. 359) に一致する説明文字列データベースの説明 LocationUri URI address multi-line string pattern (p. 359) に一致する統一されたリソース識別子 (uri) データベースの場所 ( たとえば HDFS パスなど ) Parameters UTF-8 文字列から UTF-8 文字列へのマッピングの配列データベースのパラメータとプロパティを定義するキーと値のペアのリストオペレーション CreateDatabase アクション (Python: create_database) (p. 276) UpdateDatabase アクション (Python: update_database) (p. 277) DeleteDatabase アクション (Python: delete_database) (p. 277) GetDatabase アクション (Python: get_database) (p. 278) GetDatabases アクション (Python: get_databases) (p. 278) CreateDatabase アクション (Python: create_database) データカタログに新しいデータベースを作成しますリクエスト CatalogId Single-line string pattern (p. 359) に一致するカタログ ID 文字列データベースを作成するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます DatabaseInput DatabaseInput オブジェクト必須カタログに作成するメタデータデータベースを定義する DatabaseInput オブジェクトレスポンス応答パラメータはありませんエラー InvalidInputException 276

284 AWS Glue 開発者ガイドデータベース AlreadyExistsException ResourceNumberLimitExceededException InternalServiceException OperationTimeoutException GlueEncryptionException UpdateDatabase アクション (Python: update_database) データカタログの既存のデータベース定義を更新しますリクエスト CatalogId Single-line string pattern (p. 359) に一致するカタログ ID 文字列メタデータのデータベースが存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます Name Single-line string pattern (p. 359) に一致する文字列必須カタログで更新するデータベースの名前 Hive 互換性のためにこれは小文字で表記されます DatabaseInput DatabaseInput オブジェクト必須カタログ内のメタデータデータベースの新しい定義を指定する DatabaseInput オブジェクトレスポンス応答パラメータはありませんエラー EntityNotFoundException InvalidInputException InternalServiceException OperationTimeoutException GlueEncryptionException DeleteDatabase アクション (Python: delete_database) 指定されたデータベースをデータカタログから削除しますリクエスト CatalogId Single-line string pattern (p. 359) に一致するカタログ ID 文字列データベースが存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます Name Single-line string pattern (p. 359) に一致する文字列必須削除するデータベースの名前 Hive 互換性のためにこれはすべて小文字であることが必要ですレスポンス応答パラメータはありません 277

285 AWS Glue 開発者ガイドデータベースエラー EntityNotFoundException InvalidInputException InternalServiceException OperationTimeoutException GetDatabase アクション (Python: get_database) 指定されたデータベースの定義を取得しますリクエスト CatalogId Single-line string pattern (p. 359) に一致するカタログ ID 文字列データベースが存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます Name Single-line string pattern (p. 359) に一致する文字列必須取得するデータベースの名前 Hive 互換性のためにこれはすべて小文字にする必要がありますレスポンス Database データベースオブジェクトカタログ内の指定されたデータベースの定義エラー InvalidInputException EntityNotFoundException InternalServiceException OperationTimeoutException GlueEncryptionException GetDatabases アクション (Python: get_databases) 指定されたデータカタログで定義されているすべてのデータベースを取得しますリクエスト CatalogId - Single-line string pattern (p. 359) に一致するカタログ ID 文字列 Databases を取得するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます NextToken 文字列継続トークン ( これが継続呼び出しの場合 ) MaxResults 数値 ( 整数 ) 1 回の応答で返すデータベースの最大数 278

286 AWS Glue 開発者ガイドテーブルレスポンス DatabaseList データベース (p. 275) の配列 ( 必須 ) 指定されたカタログの Database オブジェクトのリスト NextToken 文字列返されたトークンのリストをページ区切りするための継続トークンリストの現在のセグメントが最後のセグメントでない場合に返されますエラー InvalidInputException InternalServiceException OperationTimeoutException GlueEncryptionException テーブル API データ型テーブル構造 (p. 279) TableInput 構造 (p. 280) 列の構造 (p. 281) StorageDescriptor 構造 (p. 281) SerDeInfo 構造 (p. 282) 順序の構造 (p. 283) SkewedInfo 構造 (p. 283) TableVersion 構造 (p. 283) TableError 構造 (p. 283) TableVersionError 構造 (p. 284) テーブル構造列と行で構成されている関連データのコレクションを表しますフィールド Name Single-line string pattern (p. 359) に一致する文字列必須テーブルの名前. Hive 互換性のためにこれはすべて小文字であることが必要です DatabaseName Single-line string pattern (p. 359) に一致する文字列テーブルメタデータが存在するメタデータデータベースの名前 Hive 互換性のためにこれはすべて小文字であることが必要です Description URI address multi-line string pattern (p. 359) に一致する説明文字列テーブルの説明 Owner Single-line string pattern (p. 359) に一致する文字列 279

287 AWS Glue 開発者ガイドテーブルテーブルの所有者 CreateTime タイムスタンプ. データカタログでテーブル定義が作成された時刻 UpdateTime タイムスタンプ. テーブルが最後に更新された時刻 LastAccessTime タイムスタンプ. テーブルに最後にアクセスした時刻これは通常 HDFS から取得され信頼できない場合があります LastAnalyzedTime タイムスタンプ. このテーブルの列統計が最後に計算された時刻 Retention 数値 ( 整数 ) このテーブルの保持時間 StorageDescriptor StorageDescriptor オブジェクトこのテーブルの物理ストレージに関する情報を含むストレージ記述子 PartitionKeys 列 (p. 281) の配列テーブルがパーティション分割される列のリストパーティションキーとしてプリミティブ型のみがサポートされています ViewOriginalText 文字列. テーブルが表示される場合表示されるオリジナルテキストその他の場合は null ViewExpandedText 文字列. テーブルが表示される場合表示される展開されたテキストその他の場合は null TableType 文字列. このテーブルの種類 (EXTERNAL_TABLE VIRTUAL_VIEW など ) Parameters UTF 8 文字列から UTF 8 文字列へのマッピングの配列キーと値のペアのリストとしてこのテーブルに関連付けられているプロパティ CreatedBy Single-line string pattern (p. 359) に一致する文字列テーブルを作成した個人または団体 TableInput 構造テーブルを作成または更新するために使用された構造フィールド Name Single-line string pattern (p. 359) に一致する文字列必須テーブルの名前. Hive 互換性のためにこれは保存時に小文字で表示されます Description URI address multi-line string pattern (p. 359) に一致する説明文字列テーブルの説明 Owner Single-line string pattern (p. 359) に一致する文字列テーブルの所有者 280

288 AWS Glue 開発者ガイドテーブル LastAccessTime タイムスタンプ. テーブルに最後にアクセスした時刻 LastAnalyzedTime タイムスタンプ. このテーブルの列統計が最後に計算された時刻 Retention 数値 ( 整数 ) このテーブルの保持時間 StorageDescriptor StorageDescriptor オブジェクトこのテーブルの物理ストレージに関する情報を含むストレージ記述子 PartitionKeys 列 (p. 281) の配列テーブルがパーティション分割される列のリストパーティションキーとしてプリミティブ型のみがサポートされています ViewOriginalText 文字列. テーブルが表示される場合表示されるオリジナルテキストその他の場合は null ViewExpandedText 文字列. テーブルが表示される場合表示される展開されたテキストその他の場合は null TableType 文字列. このテーブルの種類 (EXTERNAL_TABLE VIRTUAL_VIEW など ) Parameters UTF 8 文字列から UTF 8 文字列へのマッピングの配列キーと値のペアのリストとしてこのテーブルに関連付けられているプロパティ列の構造 Table の列フィールド Name Single-line string pattern (p. 359) に一致する文字列必須 Column の名前 Type Single-line string pattern (p. 359) に一致する文字列 Column のデータのデータ型 Comment Single-line string pattern (p. 359) に一致するコメント列自由形式のテキストコメント StorageDescriptor 構造テーブルデータの物理ストレージについて説明しますフィールド Columns 列 (p. 281) の配列テーブル内の Columns のリストです 281

289 AWS Glue 開発者ガイドテーブル Location URI address multi-line string pattern (p. 359) に一致する場所文字列テーブルの物理的な場所デフォルトではウェアハウスの場所その後にウェアハウス内のデータベースの場所その後にテーブル名が続く形式になります InputFormat Single-line string pattern (p. 359) に一致する形式文字列入力形式 : SequenceFileInputFormat ( バイナリ ) または TextInputFormat もしくはカスタム形式 OutputFormat Single-line string pattern (p. 359) に一致する形式文字列出力形式 : SequenceFileOutputFormat ( バイナリ ) または IgnoreKeyTextOutputFormat もしくはカスタム形式 Compressed Boolean. テーブル内のデータが圧縮されている場合は True そうでない場合は False NumberOfBuckets 数値 ( 整数 ) テーブルにディメンション列が含まれている場合指定する必要があります SerdeInfo SerDeInfo オブジェクトシリアライズ / デシリアライズ (SerDe) 情報 BucketColumns UTF 8 文字列の配列テーブルのリデューサーグループ化列クラスター列およびバケット列のリスト SortColumns Order (p. 283) の配列テーブル内の各バケットのソート順を指定するリスト Parameters UTF 8 文字列から UTF 8 文字列へのマッピングの配列キーと値の形式でのユーザーが指定したプロパティ SkewedInfo SkewedInfo オブジェクト列に非常に高い頻度で表示される値 ( 歪んだ値 ) に関する情報 StoredAsSubDirectories Boolean. テーブルデータがサブディレクトリに保管されている場合は True そうでない場合は False SerDeInfo 構造エクストラクターおよびローダーとして機能するシリアライズ / デシリアライズプログラム (SerDe) に関する情報フィールド Name Single-line string pattern (p. 359) に一致する文字列 SerDe 名 SerializationLibrary Single-line string pattern (p. 359) に一致する文字列通常 SerDe を実装するクラス例 : org.apache.hadoop.hive.serde2.columnar.columnarserde Parameters UTF 8 文字列から UTF 8 文字列へのマッピングの配列キーと値の形式での SerDe の初期化パラメータのリスト 282

290 AWS Glue 開発者ガイドテーブル順序の構造ソートされた列のソート順を指定しますフィールド Column Single-line string pattern (p. 359) に一致する文字列必須列の名前 SortOrder 数値 ( 整数 ) 必須列が昇順 (== 1) または降順 (==0) でソートされていることを指定します SkewedInfo 構造テーブルで歪んだ値を指定します歪んだとは非常に高い頻度で発生する値のことですフィールド SkewedColumnNames UTF 8 文字列の配列歪んだ値を含む列名のリスト SkewedColumnValues UTF 8 文字列の配列頻繁に出現するため歪んだとみなされる値のリスト SkewedColumnValueLocationMaps UTF 8 文字列から UTF 8 文字列へのマッピングの配列歪んだ値が含まれている列へのマッピング TableVersion 構造テーブルのバージョンを指定しますフィールド Table テーブルオブジェクト該当するテーブル VersionId Single-line string pattern (p. 359) に一致する文字列このテーブルのバージョンを特定する ID 値 TableError 構造テーブルオペレーションのエラーレコードフィールド TableName Single-line string pattern (p. 359) に一致する文字列テーブルの名前. Hive 互換性のためにこれはすべて小文字であることが必要です ErrorDetail ErrorDetail オブジェクトエラーの詳細 283

291 AWS Glue 開発者ガイドテーブル TableVersionError 構造テーブルバージョンオペレーションのエラーレコードフィールド TableName Single-line string pattern (p. 359) に一致する文字列該当するテーブルの名前 VersionId Single-line string pattern (p. 359) に一致する文字列該当するバージョンの ID 値 ErrorDetail ErrorDetail オブジェクトエラーの詳細運用 CreateTable アクション (Python: create_table) (p. 284) UpdateTable アクション (Python: update_table) (p. 285) DeleteTable アクション (Python: delete_table) (p. 285) BatchDeleteTable アクション (Python: batch_delete_table) (p. 286) GetTable アクション (Python:get_table) (p. 287) GetTables アクション (Python: get_tables) (p. 287) GetTableVersion アクション (Python: get_table_version) (p. 288) GetTableVersions アクション (Python: get_table_versions) (p. 289) DeleteTableVersion アクション (Python: delete_table_version) (p. 289) BatchDeleteTableVersion アクション (Python: batch_delete_table_version) (p. 290) CreateTable アクション (Python: create_table) データカタログで新しいテーブル定義を作成しますリクエスト CatalogId Single-line string pattern (p. 359) に一致するカタログ ID 文字列 Table を作成するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます DatabaseName Single-line string pattern (p. 359) に一致する文字列必須新しいテーブルを作成するカタログデータベース Hive 互換性のためにこの名前はすべて小文字であることが必要です TableInput TableInput オブジェクト必須カタログで作成するメタデータテーブルを定義する TableInput オブジェクトレスポンス応答パラメータはありません 284

292 AWS Glue 開発者ガイドテーブルエラー AlreadyExistsException InvalidInputException EntityNotFoundException ResourceNumberLimitExceededException InternalServiceException OperationTimeoutException GlueEncryptionException UpdateTable アクション (Python: update_table) データカタログのメタデータテーブルを更新しますリクエスト CatalogId Single-line string pattern (p. 359) に一致するカタログ ID 文字列テーブルが存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます DatabaseName Single-line string pattern (p. 359) に一致する文字列必須テーブルが存在するカタログデータベースの名前 Hive 互換性のためにこの名前はすべて小文字であることが必要です TableInput TableInput オブジェクト必須カタログのメタデータテーブルを定義する更新された TableInput オブジェクト SkipArchive Boolean. UpdateTable はデフォルトでは更新する前に常にテーブルのアーカイブされたバージョンを作成しますただし skiparchive を true に設定した場合 UpdateTable はアーカイブされたバージョンを作成しませんレスポンス応答パラメータはありませんエラー EntityNotFoundException InvalidInputException InternalServiceException OperationTimeoutException ConcurrentModificationException ResourceNumberLimitExceededException GlueEncryptionException DeleteTable アクション (Python: delete_table) データカタログからテーブル定義を削除します 285

293 AWS Glue 開発者ガイドテーブルリクエスト CatalogId Single-line string pattern (p. 359) に一致するカタログ ID 文字列テーブルが存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます DatabaseName Single-line string pattern (p. 359) に一致する文字列必須テーブルが存在するカタログデータベースの名前 Hive 互換性のためにこの名前はすべて小文字であることが必要です Name Single-line string pattern (p. 359) に一致する文字列必須削除するテーブルの名前 Hive 互換性のためにこの名前はすべて小文字であることが必要ですレスポンス応答パラメータはありませんエラー EntityNotFoundException InvalidInputException InternalServiceException OperationTimeoutException BatchDeleteTable アクション (Python: batch_delete_table) 一度に複数のテーブルを削除しますリクエスト CatalogId Single-line string pattern (p. 359) に一致するカタログ ID 文字列テーブルが存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます DatabaseName Single-line string pattern (p. 359) に一致する文字列必須削除するテーブルが存在するカタログデータベースの名前 Hive 互換性のためにこの名前はすべて小文字であることが必要です TablesToDelete UTF 8 文字列の配列必須削除するテーブルのリストレスポンス Errors TableError (p. 283) の配列指定されたテーブルの削除試行中に発生したエラーのリストエラー InvalidInputException EntityNotFoundException 286

294 AWS Glue 開発者ガイドテーブル InternalServiceException OperationTimeoutException GetTable アクション (Python:get_table) 指定されたテーブルのデータカタログでの Table 定義を取得しますリクエスト CatalogId Single-line string pattern (p. 359) に一致するカタログ ID 文字列テーブルが存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます DatabaseName Single-line string pattern (p. 359) に一致する文字列必須テーブルが存在するカタログのデータベースの名前 Hive 互換性のためにこの名前はすべて小文字であることが必要です Name Single-line string pattern (p. 359) に一致する文字列必須定義を取得するテーブルの名前です Hive 互換性のためにこの名前はすべて小文字であることが必要ですレスポンス Table テーブルオブジェクト指定したテーブルを定義する Table オブジェクトエラー EntityNotFoundException InvalidInputException InternalServiceException OperationTimeoutException GlueEncryptionException GetTables アクション (Python: get_tables) 特定の Database 内の一部またはすべてのテーブル定義を取得しますリクエスト CatalogId Single-line string pattern (p. 359) に一致するカタログ ID 文字列テーブルが存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます DatabaseName Single-line string pattern (p. 359) に一致する文字列必須テーブルを一覧表示するカタログ内のデータベース Hive 互換性のためにこの名前はすべて小文字であることが必要です Expression Single-line string pattern (p. 359) に一致する文字列 287

295 AWS Glue 開発者ガイドテーブル正規表現パターン存在する場合パターンに名前が一致するテーブルのみが返されます NextToken 文字列. 含まれる継続トークン ( これが継続呼び出しの場合 ) MaxResults 数値 ( 整数 ) 1 回の応答で返されるテーブルの最大数レスポンス TableList 表 (p. 279) の配列リクエストされた Table オブジェクトのリスト NextToken 文字列. 継続トークン ( 現在のリストセグメントが最後のセグメントでない場合のみ ) エラー EntityNotFoundException InvalidInputException OperationTimeoutException InternalServiceException GlueEncryptionException GetTableVersion アクション (Python: get_table_version) テーブルの指定されたバージョンを取得しますリクエスト CatalogId Single-line string pattern (p. 359) に一致するカタログ ID 文字列テーブルが存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます DatabaseName Single-line string pattern (p. 359) に一致する文字列必須テーブルが存在するカタログのデータベース Hive 互換性のためにこの名前はすべて小文字であることが必要です TableName Single-line string pattern (p. 359) に一致する文字列必須テーブルの名前 Hive 互換性のためにこの名前はすべて小文字であることが必要です VersionId Single-line string pattern (p. 359) に一致する文字列取得するテーブルバージョンの ID 値レスポンス TableVersion TableVersion オブジェクトリクエストされたテーブルバージョン 288

296 AWS Glue 開発者ガイドテーブルエラー EntityNotFoundException InvalidInputException InternalServiceException OperationTimeoutException GlueEncryptionException GetTableVersions アクション (Python: get_table_versions) 指定したテーブルの使用可能なバージョンを指定する文字列のリストを取得しますリクエスト CatalogId Single-line string pattern (p. 359) に一致するカタログ ID 文字列テーブルが存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます DatabaseName Single-line string pattern (p. 359) に一致する文字列必須テーブルが存在するカタログのデータベース Hive 互換性のためにこの名前はすべて小文字であることが必要です TableName Single-line string pattern (p. 359) に一致する文字列必須テーブルの名前 Hive 互換性のためにこの名前はすべて小文字であることが必要です NextToken 文字列. 継続トークン ( これが最初の呼び出しでない場合 ) MaxResults 数値 ( 整数 ) 1 回の応答で返すテーブルバージョンの最大数レスポンス TableVersions TableVersion (p. 283) の配列指定したテーブルの使用可能なバージョンを指定する文字列のリスト NextToken 文字列. 使用可能なバージョンのリストに最後のバージョンが含まれていない場合は継続トークンエラー EntityNotFoundException InvalidInputException InternalServiceException OperationTimeoutException GlueEncryptionException DeleteTableVersion アクション (Python: delete_table_version) テーブルの指定されたバージョンを削除します 289

297 AWS Glue 開発者ガイドテーブルリクエスト CatalogId Single-line string pattern (p. 359) に一致するカタログ ID 文字列テーブルが存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます DatabaseName Single-line string pattern (p. 359) に一致する文字列必須テーブルが存在するカタログのデータベース Hive 互換性のためにこの名前はすべて小文字であることが必要です TableName Single-line string pattern (p. 359) に一致する文字列必須テーブルの名前 Hive 互換性のためにこの名前はすべて小文字であることが必要です VersionId Single-line string pattern (p. 359) に一致する文字列必須削除するテーブルバージョンの ID レスポンス応答パラメータはありませんエラー EntityNotFoundException InvalidInputException InternalServiceException OperationTimeoutException BatchDeleteTableVersion アクション (Python: batch_delete_table_version) テーブルの指定されたバージョンのバッチを削除しますリクエスト CatalogId Single-line string pattern (p. 359) に一致するカタログ ID 文字列テーブルが存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます DatabaseName Single-line string pattern (p. 359) に一致する文字列必須テーブルが存在するカタログのデータベース Hive 互換性のためにこの名前はすべて小文字であることが必要です TableName Single-line string pattern (p. 359) に一致する文字列必須テーブルの名前 Hive 互換性のためにこの名前はすべて小文字であることが必要です VersionIds UTF 8 文字列の配列必須削除するバージョンの ID のリストレスポンス Errors TableVersionError (p. 284) の配列 290

298 AWS Glue 開発者ガイドパーティション指定されたテーブルバージョンを削除しようとしているときに発生したエラーのリストエラー EntityNotFoundException InvalidInputException InternalServiceException OperationTimeoutException パーティション API データ型パーティションの構造 (p. 291) PartitionInput の構造 (p. 292) PartitionSpecWithSharedStorageDescriptor 構造 (p. 292) PartitionListComposingSpec 構造 (p. 292) PartitionSpecProxy 構造 (p. 292) PartitionValueList 構造 (p. 293) セグメント構造 (p. 293) PartitionError 構造 (p. 293) パーティションの構造テーブルデータのスライスを表しますフィールド Values - UTF-8 文字列の配列パーティションの値 DatabaseName - Single-line string pattern (p. 359) に一致する文字列該当する表があるカタログデータベースの名前 TableName - Single-line string pattern (p. 359) に一致する文字列該当するテーブルの名前 CreationTime タイムスタンプパーティションが作成された時刻 LastAccessTime タイムスタンプパーティションが最後にアクセスされた時刻 StorageDescriptor - StorageDescriptor オブジェクトパーティションが格納されている物理的な場所に関する情報を提供します Parameters - UTF-8 文字列から UTF-8 文字列へのマッピングの配列キーと値のペアのリストの形式でのパーティションパラメータ 291

299 AWS Glue 開発者ガイドパーティション LastAnalyzedTime タイムスタンプこのパーティションの列統計が最後に計算された時刻 PartitionInput の構造パーティションの作成と更新に使用される構造フィールド Values - UTF-8 文字列の配列パーティションの値 LastAccessTime タイムスタンプパーティションが最後にアクセスされた時刻 StorageDescriptor - StorageDescriptor オブジェクトパーティションが格納されている物理的な場所に関する情報を提供します Parameters - UTF-8 文字列から UTF-8 文字列へのマッピングの配列キーと値のペアのリストの形式でのパーティションパラメータ LastAnalyzedTime タイムスタンプこのパーティションの列統計が最後に計算された時刻 PartitionSpecWithSharedStorageDescriptor 構造物理的な場所を共有するパーティションのパーティション仕様フィールド StorageDescriptor - StorageDescriptor オブジェクト共有物理ストレージ情報 Partitions - パーティション (p. 291) の配列この物理的な場所を共有するパーティションのリスト PartitionListComposingSpec 構造関連するパーティションを一覧表示しますフィールド Partitions - パーティション (p. 291) の配列構成仕様のパーティションのリスト PartitionSpecProxy 構造指定されたパーティションへのルートパスを提供します 292

300 AWS Glue 開発者ガイドパーティションフィールド DatabaseName - Single-line string pattern (p. 359) に一致する文字列パーティションが存在するカタログデータベース TableName - Single-line string pattern (p. 359) に一致する文字列パーティションを含んでいるテーブルの名前 RootPath - Single-line string pattern (p. 359) に一致する文字列パーティションをアドレス指定するためのプロキシのルートパス PartitionSpecWithSharedSD - PartitionSpecWithSharedStorageDescriptor オブジェクト同じ物理ストレージの場所を共有するパーティションの仕様 PartitionListComposingSpec - PartitionListComposingSpec オブジェクトパーティションのリストを指定します PartitionValueList 構造パーティションを定義する値のリストが含まれていますフィールド Values - UTF-8 文字列の配列必須値のリストセグメント構造テーブルのパーティションの重複しないリージョンを定義し複数のリクエストを並行して実行できるようにしますフィールド SegmentNumber - 数値 ( 整数 ) 必須このセグメントのゼロベースのインデックス番号たとえばセグメントの合計数が 4 の場合 SegmentNumber の値の範囲は 0 から 3 です TotalSegments - 数値 ( 整数 ) 必須セグメントの合計数 PartitionError 構造パーティションのエラーに関する情報が含まれますフィールド PartitionValues - UTF-8 文字列の配列パーティションを定義する値 ErrorDetail - ErrorDetail オブジェクト 293

301 AWS Glue 開発者ガイドパーティションパーティションエラーの詳細運用 CreatePartition アクション (Python: create_partition) (p. 294) BatchCreatePartition アクション (Python: batch_create_partition) (p. 294) UpdatePartition アクション (Python: update_partition) (p. 295) DeletePartition アクション (Python: delete_partition) (p. 296) BatchDeletePartition アクション (Python: batch_delete_partition) (p. 296) GetPartition アクション (Python: get_partition) (p. 297) GetPartitions アクション (Python: get_partitions) (p. 298) BatchGetPartition アクション (Python: batch_get_partition) (p. 299) CreatePartition アクション (Python: create_partition) 新しいパーティションを作成しますリクエスト CatalogId - Single-line string pattern (p. 359) に一致するカタログ ID 文字列パーティションを作成するカタログの ID 現在これは AWS アカウント ID である必要があります DatabaseName - Single-line string pattern (p. 359) に一致する文字列必須パーティションが作成されるメタデータデータベースの名前 TableName - Single-line string pattern (p. 359) に一致する文字列必須パーティションが作成されるメタデータテーブルの名前 PartitionInput - PartitionInput オブジェクト必須作成されるパーティションを定義する PartitionInput 構造レスポンス応答パラメータはありませんエラー InvalidInputException AlreadyExistsException ResourceNumberLimitExceededException InternalServiceException EntityNotFoundException OperationTimeoutException GlueEncryptionException BatchCreatePartition アクション (Python: batch_create_partition) バッチオペレーションで 1 つ以上のパーティションを作成します 294

302 AWS Glue 開発者ガイドパーティションリクエスト CatalogId - Single-line string pattern (p. 359) に一致するカタログ ID 文字列パーティションを作成するカタログの ID 現在これは AWS アカウント ID である必要があります DatabaseName - Single-line string pattern (p. 359) に一致する文字列必須パーティションが作成されるメタデータデータベースの名前 TableName - Single-line string pattern (p. 359) に一致する文字列必須パーティションが作成されるメタデータテーブルの名前 PartitionInputList - PartitionInput (p. 292) の配列 ( 必須 ) 作成されるパーティションを定義する PartitionInput 構造のリストレスポンス Errors - PartitionError (p. 293) の配列リクエストされたパーティションを作成しようとしたときにエラーが発生しましたエラー InvalidInputException AlreadyExistsException ResourceNumberLimitExceededException InternalServiceException EntityNotFoundException OperationTimeoutException GlueEncryptionException UpdatePartition アクション (Python: update_partition) パーティションを更新しますリクエスト CatalogId - Single-line string pattern (p. 359) に一致するカタログ ID 文字列更新されるパーティションが存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます DatabaseName Single-line string pattern (p. 359) に一致する文字列必須該当する表が存在するカタログデータベースの名前 TableName - Single-line string pattern (p. 359) に一致する文字列必須更新するパーティションが存在するテーブルの名前 PartitionValueList - UTF-8 文字列の配列必須パーティションを定義する値のリスト PartitionInput - PartitionInput オブジェクト必須パーティションを更新する新しいパーティションオブジェクト 295

303 AWS Glue 開発者ガイドパーティションレスポンス応答パラメータはありませんエラー EntityNotFoundException InvalidInputException InternalServiceException OperationTimeoutException GlueEncryptionException DeletePartition アクション (Python: delete_partition) 指定したパーティションを削除しますリクエスト CatalogId - Single-line string pattern (p. 359) に一致するカタログ ID 文字列削除されるパーティションが存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます DatabaseName Single-line string pattern (p. 359) に一致する文字列必須該当する表が存在するカタログデータベースの名前 TableName - Single-line string pattern (p. 359) に一致する文字列必須削除するパーティションが存在するテーブルの名前 PartitionValues - UTF-8 文字列の配列必須パーティションを定義する値レスポンス応答パラメータはありませんエラー EntityNotFoundException InvalidInputException InternalServiceException OperationTimeoutException BatchDeletePartition アクション (Python: batch_delete_partition) バッチオペレーションで 1 つ以上のパーティションを削除しますリクエスト CatalogId - Single-line string pattern (p. 359) に一致するカタログ ID 文字列 296

304 AWS Glue 開発者ガイドパーティション削除されるパーティションが存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます DatabaseName Single-line string pattern (p. 359) に一致する文字列必須該当する表が存在するカタログデータベースの名前 TableName - Single-line string pattern (p. 359) に一致する文字列必須削除するパーティションが存在するテーブルの名前 PartitionsToDelete - PartitionValueList (p. 293) の配列 ( 必須 ) 削除されるパーティションを定義する PartitionInput 構造のリストレスポンス Errors - PartitionError (p. 293) の配列リクエストされたパーティションを削除しようとしたときにエラーが発生しましたエラー InvalidInputException EntityNotFoundException InternalServiceException OperationTimeoutException GetPartition アクション (Python: get_partition) 指定したパーティションに関する情報を取得しますリクエスト CatalogId - Single-line string pattern (p. 359) に一致するカタログ ID 文字列該当するパーティションが存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます DatabaseName Single-line string pattern (p. 359) に一致する文字列必須パーティションが存在するカタログデータベースの名前 TableName Single-line string pattern (p. 359) に一致する文字列必須パーティションのテーブルの名前 PartitionValues - UTF-8 文字列の配列必須パーティションを定義する値レスポンス Partition - パーティションオブジェクト Partition オブジェクトの形式でリクエストされた情報 297

305 AWS Glue 開発者ガイドパーティションエラー EntityNotFoundException InvalidInputException InternalServiceException OperationTimeoutException GlueEncryptionException GetPartitions アクション (Python: get_partitions) テーブルのパーティションについての情報を取得しますリクエスト CatalogId - Single-line string pattern (p. 359) に一致するカタログ ID 文字列該当するパーティションが存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます DatabaseName Single-line string pattern (p. 359) に一致する文字列必須パーティションが存在するカタログデータベースの名前 TableName - Single-line string pattern (p. 359) に一致する文字列必須パーティションのテーブルの名前 Expression - URI address multi-line string pattern (p. 359) に一致する述語文字列返されるパーティションをフィルタリングする式 NextToken 文字列これらのパーティションを取得する最初の呼び出しでない場合は継続トークン Segment - セグメントオブジェクトこのリクエストでスキャンするテーブルのパーティションのセグメント MaxResults - 数値 ( 整数 ) 1 回の応答で返されるパーティションの最大数レスポンス Partitions - パーティション (p. 291) の配列リクエストされたパーティションのリスト NextToken 文字列戻されたパーティションのリストに最後のパーティションが含まれていない場合は継続トークンエラー EntityNotFoundException InvalidInputException OperationTimeoutException InternalServiceException 298

306 AWS Glue 開発者ガイド接続 GlueEncryptionException BatchGetPartition アクション (Python: batch_get_partition) バッチリクエストのパーティションを取得しますリクエスト CatalogId - Single-line string pattern (p. 359) に一致するカタログ ID 文字列該当するパーティションが存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます DatabaseName Single-line string pattern (p. 359) に一致する文字列必須パーティションが存在するカタログデータベースの名前 TableName - Single-line string pattern (p. 359) に一致する文字列必須パーティションのテーブルの名前 PartitionsToGet - PartitionValueList (p. 293) の配列 ( 必須 ) 取得するパーティションを識別するパーティション値のリストレスポンス Partitions - パーティション (p. 291) の配列リクエストされたパーティションのリスト UnprocessedKeys - PartitionValueList (p. 293) の配列パーティションが返されなかったリクエスト内のパーティション値のリストエラー InvalidInputException EntityNotFoundException OperationTimeoutException InternalServiceException GlueEncryptionException 接続 API データ型 Connection の構造 (p. 299) ConnectionInput の構造 (p. 300) PhysicalConnectionRequirements の構造 (p. 301) GetConnectionsFilter の構造 (p. 301) Connection の構造データソースへの接続を定義します 299

307 AWS Glue 開発者ガイド接続フィールド Name Single-line string pattern (p. 359) に一致する文字列接続定義の名前 Description - URI address multi-line string pattern (p. 359) に一致する説明文字列接続の説明 ConnectionType - 文字列 ( 有効な値 : JDBC SFTP) 接続のタイプ現時点では JDBC のみがサポートされており SFTP はサポート外です MatchCriteria - UTF-8 文字列の配列この接続を選択する際に使用可能な条件のリスト ConnectionProperties - UTF-8 文字列から UTF-8 文字列へのマッピングの配列この接続のパラメータとして使用されるキーと値のペアのリスト PhysicalConnectionRequirements - PhysicalConnectionRequirements オブジェクト VPC や SecurityGroup などこの接続を正常に行うのに必要な物理接続要件のマップ CreationTime タイムスタンプこの接続定義が作成された時刻 LastUpdatedTime タイムスタンプこの接続定義が更新された最終時刻 LastUpdatedBy - Single-line string pattern (p. 359) に一致する文字列この接続定義を最終更新したユーザーグループまたはロール ConnectionInput の構造作成または更新する接続を指定するために使用される構造フィールド Name Single-line string pattern (p. 359) に一致する文字列必須コレクションの名前 Description - URI address multi-line string pattern (p. 359) に一致する説明文字列接続の説明 ConnectionType - 文字列 ( 有効な値 : JDBC SFTP) 必須接続のタイプ現時点では JDBC のみがサポートされており SFTP はサポート外です MatchCriteria - UTF-8 文字列の配列この接続を選択する際に使用可能な条件のリスト ConnectionProperties - UTF-8 文字列から UTF-8 文字列へのマッピングの配列必須この接続のパラメータとして使用されるキーと値のペアのリスト PhysicalConnectionRequirements - PhysicalConnectionRequirements オブジェクト VPC や SecurityGroup などこの接続を正常に行うのに必要な物理接続要件のマップ 300

308 AWS Glue 開発者ガイド接続 PhysicalConnectionRequirements の構造接続の物理的な要件を指定しますフィールド SubnetId - Single-line string pattern (p. 359) に一致する文字列接続で使用されるサブネット ID SecurityGroupIdList - UTF-8 文字列の配列接続で使用されるセキュリティグループ ID のリスト AvailabilityZone - Single-line string pattern (p. 359) に一致する文字列接続のアベイラビリティゾーンこのフィールドは廃止されており何も実行しません GetConnectionsFilter の構造 GetConnections API によって返される接続定義をフィルタリングしますフィールド MatchCriteria - UTF-8 文字列の配列接続定義を返すためにその接続定義に記録された条件と一致する必要がある条件文字列 ConnectionType - 文字列 ( 有効な値 : JDBC SFTP) 返す接続のタイプ現時点では JDBC のみがサポートされており SFTP はサポート外ですオペレーション CreateConnection アクション (Python: create_connection) (p. 301) DeleteConnection アクション (Python: delete_connection) (p. 302) GetConnection アクション (Python: get_connection) (p. 302) GetConnections アクション (Python: get_connections) (p. 303) UpdateConnection アクション (Python: update_connection) (p. 304) BatchDeleteConnection アクション (Python: batch_delete_connection) (p. 304) CreateConnection アクション (Python: create_connection) データカタログで接続定義を作成しますリクエスト CatalogId - Single-line string pattern (p. 359) に一致するカタログ ID 文字列接続を作成するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます ConnectionInput - ConnectionInput オブジェクト必須作成する接続を定義する ConnectionInput オブジェクト 301

309 AWS Glue 開発者ガイド接続レスポンス応答パラメータはありませんエラー AlreadyExistsException InvalidInputException OperationTimeoutException ResourceNumberLimitExceededException GlueEncryptionException DeleteConnection アクション (Python: delete_connection) データカタログから接続を削除しますリクエスト CatalogId - Single-line string pattern (p. 359) に一致するカタログ ID 文字列接続が存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます ConnectionName Single-line string pattern (p. 359) に一致する文字列必須削除する接続の名前レスポンス応答パラメータはありませんエラー EntityNotFoundException OperationTimeoutException InvalidInputException GetConnection アクション (Python: get_connection) データカタログから接続定義を取得しますリクエスト CatalogId - Single-line string pattern (p. 359) に一致するカタログ ID 文字列接続が存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます Name Single-line string pattern (p. 359) に一致する文字列必須取得する接続定義の名前 302

310 AWS Glue 開発者ガイド接続レスポンス Connection - Connection オブジェクトリクエストされた接続定義エラー EntityNotFoundException OperationTimeoutException InvalidInputException GlueEncryptionException GetConnections アクション (Python: get_connections) データカタログから接続定義のリストを取得しますリクエスト CatalogId - Single-line string pattern (p. 359) に一致するカタログ ID 文字列接続が存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます Filter - GetConnectionsFilter オブジェクト返される接続を制御するフィルタ NextToken 文字列継続トークン ( これが継続呼び出しの場合 ) MaxResults - 数値 ( 整数 ) 1 回の応答で返す接続の最大数レスポンス ConnectionList - Connection (p. 299) の配列リクエストされた接続定義のリスト NextToken 文字列返された接続のリストにフィルタリングされた接続の最後のものが含まれていない場合は継続トークンエラー EntityNotFoundException OperationTimeoutException InvalidInputException GlueEncryptionException 303

311 AWS Glue 開発者ガイド接続 UpdateConnection アクション (Python: update_connection) データカタログで接続定義を更新しますリクエスト CatalogId - Single-line string pattern (p. 359) に一致するカタログ ID 文字列接続が存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます Name Single-line string pattern (p. 359) に一致する文字列必須更新する接続定義の名前 ConnectionInput - ConnectionInput オブジェクト必須該当する接続を再定義する ConnectionInput オブジェクトレスポンス応答パラメータはありませんエラー InvalidInputException EntityNotFoundException OperationTimeoutException InvalidInputException GlueEncryptionException BatchDeleteConnection アクション (Python: batch_delete_connection) データカタログから接続定義のリストを削除しますリクエスト CatalogId - Single-line string pattern (p. 359) に一致するカタログ ID 文字列接続が存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます ConnectionNameList - UTF-8 文字列の配列必須削除する接続の名前のリストレスポンス Succeeded - UTF-8 文字列の配列正常に削除された接続定義の名前のリスト Errors - UTF-8 文字列から ErrorDetail (p. 358) へのマッピングの配列エラーの詳細への正常に削除されなかった接続の名前のマップ 304

312 AWS Glue 開発者ガイドユーザー定義関数エラー InternalServiceException OperationTimeoutException InvalidInputException ユーザー定義関数 API データ型 UserDefinedFunction 構造 (p. 305) UserDefinedFunctionInput 構造 (p. 305) UserDefinedFunction 構造 Hive ユーザー定義関数 (UDF) 定義と同等のものを表しますフィールド FunctionName - Single-line string pattern (p. 359) に一致する文字列関数の名前 ClassName - Single-line string pattern (p. 359) に一致する文字列関数コードを含む Java クラス OwnerName - Single-line string pattern (p. 359) に一致する文字列関数の所有者 OwnerType - 文字列 ( 有効な値 : USER ROLE GROUP) 所有者のタイプ CreateTime タイムスタンプ関数の作成時刻 ResourceUris - ResourceUri (p. 359) の配列関数のリソース URI UserDefinedFunctionInput 構造ユーザー定義関数の作成または更新に使用される構造フィールド FunctionName - Single-line string pattern (p. 359) に一致する文字列関数の名前 ClassName - Single-line string pattern (p. 359) に一致する文字列関数コードを含む Java クラス OwnerName - Single-line string pattern (p. 359) に一致する文字列 305

313 AWS Glue 開発者ガイドユーザー定義関数関数の所有者 OwnerType - 文字列 ( 有効な値 : USER ROLE GROUP) 所有者のタイプ ResourceUris - ResourceUri (p. 359) の配列関数のリソース URI オペレーション CreateUserDefinedFunction アクション (Python: create_user_defined_function) (p. 306) UpdateUserDefinedFunction アクション (Python: update_user_defined_function) (p. 307) DeleteUserDefinedFunction アクション (Python: delete_user_defined_function) (p. 307) GetUserDefinedFunction アクション (Python: get_user_defined_function) (p. 308) GetUserDefinedFunctions アクション (Python: get_user_defined_functions) (p. 308) CreateUserDefinedFunction アクション (Python: create_user_defined_function) データカタログで新しい関数定義を作成しますリクエスト CatalogId - Single-line string pattern (p. 359) に一致するカタログ ID 文字列関数を作成するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます DatabaseName Single-line string pattern (p. 359) に一致する文字列必須関数を作成するカタログデータベースの名前 FunctionInput - UserDefinedFunctionInput オブジェクト必須データカタログで作成する関数を定義する FunctionInput オブジェクトレスポンス応答パラメータはありませんエラー AlreadyExistsException InvalidInputException InternalServiceException EntityNotFoundException OperationTimeoutException ResourceNumberLimitExceededException GlueEncryptionException 306

314 AWS Glue 開発者ガイドユーザー定義関数 UpdateUserDefinedFunction アクション (Python: update_user_defined_function) データカタログで既存の関数定義を更新しますリクエスト CatalogId - Single-line string pattern (p. 359) に一致するカタログ ID 文字列更新する関数が存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます DatabaseName Single-line string pattern (p. 359) に一致する文字列必須更新する関数が存在するカタログデータベースの名前 FunctionName - Single-line string pattern (p. 359) に一致する文字列必須関数の名前 FunctionInput - UserDefinedFunctionInput オブジェクト必須データカタログで関数を再定義する FunctionInput オブジェクトレスポンス応答パラメータはありませんエラー EntityNotFoundException InvalidInputException InternalServiceException OperationTimeoutException GlueEncryptionException DeleteUserDefinedFunction アクション (Python: delete_user_defined_function) データカタログから既存の関数定義を削除しますリクエスト CatalogId - Single-line string pattern (p. 359) に一致するカタログ ID 文字列削除する関数が存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます DatabaseName Single-line string pattern (p. 359) に一致する文字列必須削除する関数が存在するカタログデータベースの名前 FunctionName - Single-line string pattern (p. 359) に一致する文字列必須削除する関数定義の名前 307

315 AWS Glue 開発者ガイドユーザー定義関数レスポンス応答パラメータはありませんエラー EntityNotFoundException InvalidInputException InternalServiceException OperationTimeoutException GetUserDefinedFunction アクション (Python: get_user_defined_function) データカタログから指定された関数定義を取得しますリクエスト CatalogId - Single-line string pattern (p. 359) に一致するカタログ ID 文字列取得する関数が存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます DatabaseName Single-line string pattern (p. 359) に一致する文字列必須削除する関数が存在するカタログデータベースの名前 FunctionName - Single-line string pattern (p. 359) に一致する文字列必須関数の名前レスポンス UserDefinedFunction - UserDefinedFunction オブジェクトリクエストされた関数定義エラー EntityNotFoundException InvalidInputException InternalServiceException OperationTimeoutException GlueEncryptionException GetUserDefinedFunctions アクション (Python: get_user_defined_functions) データカタログから複数の関数定義を取得しますリクエスト CatalogId - Single-line string pattern (p. 359) に一致するカタログ ID 文字列 308

316 AWS Glue 開発者ガイド Athena カタログをインポートする取得する関数が存在するデータカタログの ID 提供されない場合は AWS アカウント ID がデフォルトで使用されます DatabaseName Single-line string pattern (p. 359) に一致する文字列必須関数が存在するカタログデータベースの名前 Pattern - Single-line string pattern (p. 359) に一致する文字列必須返される関数定義をフィルタリングするオプションの function-name パターン文字列 NextToken 文字列継続トークン ( これが継続呼び出しの場合 ) MaxResults - 数値 ( 整数 ) 1 回の応答で返す関数の最大数レスポンス UserDefinedFunctions - UserDefinedFunction (p. 305) の配列リクエストされた関数定義のリスト NextToken 文字列戻された関数のリストに最後のリクエストされた関数が含まれていない場合は継続トークンエラー EntityNotFoundException InvalidInputException OperationTimeoutException InternalServiceException GlueEncryptionException Athena カタログを AWS Glue にインポートするデータ型 CatalogImportStatus 構造 (p. 309) CatalogImportStatus 構造移行ステータス情報を含む構造フィールド ImportCompleted Boolean. 移行が完了した場合は True それ以外の場合は False です ImportTime タイムスタンプ. 移行を開始した時刻 309

317 AWS Glue 開発者ガイド Athena カタログをインポートする ImportedBy - Single-line string pattern (p. 359) に一致する文字列移行を開始したユーザーの名前運用 ImportCatalogToGlue アクション (Python: import_catalog_to_glue) (p. 310) GetCatalogImportStatus アクション (Python: get_catalog_import_status) (p. 310) ImportCatalogToGlue アクション (Python: import_catalog_to_glue) 既存の Athena データカタログを AWS Glue にインポートするリクエスト CatalogId - Single-line string pattern (p. 359) に一致するカタログ ID 文字列インポートするカタログの ID 現在これは AWS アカウント ID である必要がありますレスポンス応答パラメータはありませんエラー InternalServiceException OperationTimeoutException GetCatalogImportStatus アクション (Python: get_catalog_import_status) 移行操作のステータスを取得しますリクエスト CatalogId - Single-line string pattern (p. 359) に一致するカタログ ID 文字列移行するカタログの ID 現在これは AWS アカウント ID である必要がありますレスポンス ImportStatus - CatalogImportStatus オブジェクト指定したカタログ移行のステータスエラー InternalServiceException OperationTimeoutException 310

318 AWS Glue 開発者ガイドクローラおよび分類子クローラおよび分類子 API トピック分類子 API (p. 311) クローラ API (p. 317) クローラスケジューラ API (p. 326) 分類子 API データ型分類子の構造 (p. 311) GrokClassifier の構造 (p. 311) XMLClassifier の構造 (p. 312) JsonClassifier の構造 (p. 313) CreateGrokClassifierRequest の構造 (p. 313) UpdateGrokClassifierRequest の構造 (p. 313) CreateXMLClassifierRequest の構造 (p. 314) UpdateXMLClassifierRequest の構造 (p. 314) CreateJsonClassifierRequest の構造 (p. 314) UpdateJsonClassifierRequest の構造 (p. 315) 分類子の構造分類子はクロールタスクでトリガーされます分類子は指定されたファイルが処理可能な形式であるかどうかをチェックし処理できる形式であればそのデータ形式に一致する StructType オブジェクトの形式でスキーマを作成します AWS Glue が提供する標準の分類子を使用するか独自の分類子を作成してデータソースの最適な分類を行いこれらに使用する適切なスキーマを指定できます分類子として Classifier オブジェクトの各フィールドに指定されている grok 分類子 XML 分類子 JSON 分類子のいずれかを使用できますフィールド GrokClassifier GrokClassifier オブジェクト GrokClassifier オブジェクト XMLClassifier XMLClassifier オブジェクト XMLClassifier オブジェクト JsonClassifier JsonClassifier オブジェクト JsonClassifier オブジェクト GrokClassifier の構造 grok パターンを使用する分類子 311

319 AWS Glue 開発者ガイド分類子フィールド Name Single-line string pattern (p. 359) に一致する文字列必須クラシファイア名 Classification 文字列必須 Twitter JSON Omniture ログなど分類子が一致するデータ形式の識別子 CreationTime タイムスタンプ分類子が登録された時間 LastUpdated タイムスタンプ分類子が最後に更新された時刻 Version 数値 (long) 分類子のバージョン GrokPattern A Logstash Grok string pattern (p. 359) に一致する文字列必須分類子によってデータストアに適用される grok パターン詳細についてはカスタム分類子の作成の組み込みパターンを参照してください CustomPatterns URI address multi-line string pattern (p. 359) に一致する文字列この分類子によって定義されたオプションのカスタム Grok パターン詳細についてはカスタム分類子の作成のカスタムパターンを参照してください XMLClassifier の構造 XML コンテンツの分類子フィールド Name Single-line string pattern (p. 359) に一致する文字列必須クラシファイア名 Classification 文字列必須分類子が一致するデータ形式の識別子 CreationTime タイムスタンプ分類子が登録された時間 LastUpdated タイムスタンプ分類子が最後に更新された時刻 Version 数値 (long) 分類子のバージョン RowTag 文字列解析中の XML ドキュメントの各レコードを含む要素を指定する XML タグこれは自己終了要素 (/> で終了 ) を識別できないことに注意してください属性のみを含む空の行要素は終了タグで終わる場合は解析できます ( 例 : <row item_a="a" item_b="b"></row> は解析できますが <row item_a="a" item_b="b" /> は解析できません ) 312

320 AWS Glue 開発者ガイド分類子 JsonClassifier の構造 JSON コンテンツの分類子フィールド Name Single-line string pattern (p. 359) に一致する文字列必須クラシファイア名 CreationTime タイムスタンプ分類子が登録された時間 LastUpdated タイムスタンプ分類子が最後に更新された時刻 Version 数値 (long) 分類子のバージョン JsonPath 文字列必須分類のための分類子の JSON データを定義する JsonPath 文字列 AWS Glue は JsonPath カスタム分類子の作成で説明されている JsonPath サブセットをサポートしています CreateGrokClassifierRequest の構造作成する CreateClassifier の grok 分類子を指定しますフィールド Classification 文字列必須 Twitter JSON Omniture ログ Amazon CloudWatch ログなど分類子が一致するデータ形式の識別子 Name - Single-line string pattern (p. 359) に一致する文字列必須新しい分類子の名前 GrokPattern A Logstash Grok string pattern (p. 359) に一致する文字列必須この分類子によって使用される grok パターン CustomPatterns URI address multi-line string pattern (p. 359) に一致する文字列この分類子によって使用されたオプションのカスタム Grok パターン UpdateGrokClassifierRequest の構造 UpdateClassifier に渡すときに更新する grok 分類子を指定しますフィールド Name Single-line string pattern (p. 359) に一致する文字列必須 GrokClassifier の名前 Classification 文字列 Twitter JSON Omniture ログ Amazon CloudWatch ログなど分類子が一致するデータ形式の識別子 313

321 AWS Glue 開発者ガイド分類子 GrokPattern A Logstash Grok string pattern (p. 359) に一致する文字列この分類子によって使用される grok パターン CustomPatterns URI address multi-line string pattern (p. 359) に一致する文字列この分類子によって使用されたオプションのカスタム Grok パターン CreateXMLClassifierRequest の構造作成する CreateClassifier の XML 分類子を指定しますフィールド Classification 文字列必須分類子が一致するデータ形式の識別子 Name Single-line string pattern (p. 359) に一致する文字列必須クラシファイア名 RowTag 文字列解析中の XML ドキュメントの各レコードを含む要素を指定する XML タグこれは自己終了要素 (/> で終了 ) を識別できないことに注意してください属性のみを含む空の行要素は終了タグで終わる場合は解析できます ( 例 : <row item_a="a" item_b="b"></row> は解析できますが <row item_a="a" item_b="b" /> は解析できません ) UpdateXMLClassifierRequest の構造更新する XML 分類子を指定しますフィールド Name Single-line string pattern (p. 359) に一致する文字列必須クラシファイア名 Classification 文字列分類子が一致するデータ形式の識別子 RowTag 文字列解析中の XML ドキュメントの各レコードを含む要素を指定する XML タグこれは自己終了要素 (/> で終了 ) を識別できないことに注意してください属性のみを含む空の行要素は終了タグで終わる場合は解析できます ( 例 : <row item_a="a" item_b="b"></row> は解析できますが <row item_a="a" item_b="b" /> は解析できません ) CreateJsonClassifierRequest の構造作成する CreateClassifier の JSON 分類子を指定しますフィールド Name Single-line string pattern (p. 359) に一致する文字列必須クラシファイア名 JsonPath 文字列必須 314

322 AWS Glue 開発者ガイド分類子分類のための分類子の JSON データを定義する JsonPath 文字列 AWS Glue は JsonPath カスタム分類子の作成で説明されている JsonPath サブセットをサポートしています UpdateJsonClassifierRequest の構造更新する JSON 分類子を指定しますフィールド Name Single-line string pattern (p. 359) に一致する文字列必須クラシファイア名 JsonPath 文字列分類のための分類子の JSON データを定義する JsonPath 文字列 AWS Glue は JsonPath カスタム分類子の作成で説明されている JsonPath サブセットをサポートしていますオペレーション CreateClassifier アクション (Python: create_classifier) (p. 315) DeleteClassifier アクション (Python: delete_classifier) (p. 316) GetClassifier アクション (Python: get_classifier) (p. 316) GetClassifiers アクション (Python: get_classifiers) (p. 316) UpdateClassifier アクション (Python: update_classifier) (p. 317) CreateClassifier アクション (Python: create_classifier) ユーザーのアカウントに分類子を作成しますこれはどのリクエストのフィールドが存在するかに応じて GrokClassifier XMLClassifier または省略形の JsonClassifier である場合がありますリクエスト GrokClassifier CreateGrokClassifierRequest オブジェクト作成する分類子を指定する GrokClassifier オブジェクト XMLClassifier CreateXMLClassifierRequest オブジェクト作成する分類子を指定する XMLClassifier オブジェクト JsonClassifier CreateJsonClassifierRequest オブジェクト作成する分類子を指定する JsonClassifier オブジェクトレスポンス応答パラメータはありませんエラー AlreadyExistsException InvalidInputException OperationTimeoutException 315

323 AWS Glue 開発者ガイド分類子 DeleteClassifier アクション (Python: delete_classifier) データカタログから分類子を削除しますリクエスト Name Single-line string pattern (p. 359) に一致する文字列必須削除する分類子の名前レスポンス応答パラメータはありませんエラー EntityNotFoundException OperationTimeoutException GetClassifier アクション (Python: get_classifier) 分類子を名前で取得しますリクエスト Name Single-line string pattern (p. 359) に一致する文字列必須取得する分類子の名前レスポンス Classifier 分類子オブジェクトリクエストされた分類子エラー EntityNotFoundException OperationTimeoutException GetClassifiers アクション (Python: get_classifiers) データカタログの分類子オブジェクトのすべてを一覧表示しますリクエスト MaxResults 数値 ( 整数 ) 返されるリストのサイズ ( オプション ) NextToken 文字列オプションの継続トークン 316

324 AWS Glue 開発者ガイドクローラレスポンス Classifiers 分類子 (p. 311) の配列分類子オブジェクトのリクエストされたリスト NextToken 文字列継続トークンエラー OperationTimeoutException UpdateClassifier アクション (Python: update_classifier) 既存の分類子を変更します ( フィールドが存在するかどうかに応じて GrokClassifier XMLClassifier または JsonClassifier) リクエスト GrokClassifier UpdateGrokClassifierRequest オブジェクトフィールドが更新された GrokClassifier オブジェクト XMLClassifier UpdateXMLClassifierRequest オブジェクトフィールドが更新された XMLClassifier オブジェクト JsonClassifier UpdateJsonClassifierRequest オブジェクトフィールドが更新された JsonClassifier オブジェクトレスポンス応答パラメータはありませんエラー InvalidInputException VersionMismatchException EntityNotFoundException OperationTimeoutException クローラ API データ型クローラの構造 (p. 318) スケジュールの構造 (p. 319) CrawlerTargets の構造 (p. 319) S3Target 構造 (p. 319) JdbcTarget 構造 (p. 319) CrawlerMetrics 構造 (p. 320) 317

325 AWS Glue 開発者ガイドクローラ SchemaChangePolicy 構造 (p. 320) LastCrawlInfo 構造 (p. 321) クローラの構造データソースを検査し分類子を使用してスキーマを判別しようとするクローラプログラムを指定します成功するとクローラはデータソースに関するメタデータを AWS Glue データカタログに記録しますフィールド Name Single-line string pattern (p. 359) に一致する文字列クローラの名前 Role 文字列. Amazon S3 のデータなど顧客リソースへのアクセスに使用される IAM ロール ( または IAM ロールの ARN) Targets CrawlerTargets オブジェクトクロールするターゲットのコレクション DatabaseName 文字列. このクローラによってメタデータが書き込まれるデータベース Description URI address multi-line string pattern (p. 359) に一致する説明文字列クローラの説明 Classifiers - UTF-8 文字列の配列クローラに関連付けられているカスタム分類子のリスト SchemaChangePolicy SchemaChangePolicy オブジェクトクローラが変更または削除されたオブジェクトを検出したときの動作を設定します State 文字列 ( 有効な値 : READY RUNNING STOPPING) クローラが実行中かどうかまたは実行が保留中かどうかを示します TablePrefix 文字列. 作成されたテーブルの名前に追加されるプレフィックス Schedule スケジュールオブジェクトスケジュールされたクローラの場合クローラが実行されるスケジュール CrawlElapsedTime 数値 (long) クローラが実行されている場合は最後のクロールが開始されてから経過した合計時間が含まれます CreationTime タイムスタンプ. クローラが作成された時刻 LastUpdated タイムスタンプ. クローラが最後に更新された時刻 LastCrawl LastCrawlInfo オブジェクト最後のクロールのステータスおよびエラーが発生した場合のエラー情報 318

326 AWS Glue 開発者ガイドクローラ Version 数値 (long) クローラのバージョン Configuration 文字列. クローラの設定情報このバージョン付きの JSON 文字列ではクローラの動作特性を指定できます詳細についてはクローラの設定を参照してくださいスケジュールの構造 cron ステートメントを使用してイベントをスケジュールするスケジューリングオブジェクトフィールド ScheduleExpression 文字列. スケジュールを指定するために使用される cron 式 ( ジョブとクローラの時間ベースのスケジュールを参照してくださいたとえば毎日 12:15 UTC に何かを実行するには cron(15 12 * *? *) を指定します State 文字列 ( 有効な値 : SCHEDULED NOT_SCHEDULED TRANSITIONING) スケジュールの状態 CrawlerTargets の構造クロールするデータストアを指定しますフィールド S3Targets - S3Target (p. 319) の配列 Amazon S3 ターゲットを指定します JdbcTargets - JdbcTarget (p. 319) の配列 JDBC ターゲットを指定します S3Target 構造 Amazon S3 のデータストアを指定しますフィールド Path 文字列. Amazon S3 ターゲットへのパス Exclusions - UTF-8 文字列の配列クロールから除外するために使用される glob パターンのリスト詳細についてはクローラを使用したカタログテーブルを参照してください JdbcTarget 構造クロールする JDBC データストアを指定します 319

327 AWS Glue 開発者ガイドクローラフィールド ConnectionName 文字列. JDBC ターゲットに接続するために使用する接続名 Path 文字列. JDBC ターゲットのパス Exclusions - UTF-8 文字列の配列クロールから除外するために使用される glob パターンのリスト詳細についてはクローラを使用したカタログテーブルを参照してください CrawlerMetrics 構造指定されたクローラのメトリクスフィールド CrawlerName - Single-line string pattern (p. 359) に一致する文字列クローラ名 TimeLeftSeconds 数値 (double) 実行中のクロールを完了までの予測時間 StillEstimating Boolean. クローラがこの実行を完了するのにどれくらいの時間がかかるかをまだ見積もっている場合は true です LastRuntimeSeconds 数値 (double) クローラの最新の実行にかかる時間 ( 秒単位 ) MedianRuntimeSeconds 数値 (double) このクローラの実行時間の中央値 ( 秒単位 ) TablesCreated - 数値 ( 整数 ) このクローラで作成されたテーブルの数 TablesUpdated - 数値 ( 整数 ) このクローラで更新されたテーブルの数 TablesDeleted - 数値 ( 整数 ) このクローラで削除されたテーブルの数 SchemaChangePolicy 構造更新と削除動作のクローラポリシーフィールド UpdateBehavior - 文字列 ( 有効な値 : LOG UPDATE_IN_DATABASE) クローラが変更されたスキーマを検出したときの更新動作 320

328 AWS Glue 開発者ガイドクローラ DeleteBehavior 文字列 ( 有効な値 : LOG DELETE_FROM_DATABASE DEPRECATE_IN_DATABASE) クローラが削除されたオブジェクトを検出したときの削除動作 LastCrawlInfo 構造最新のクロールについてのステータスとエラー情報フィールド Status 文字列 ( 有効な値 : SUCCEEDED CANCELLED FAILED) 最後のクロールのステータス ErrorMessage URI address multi-line string pattern (p. 359) に一致する説明文字列エラーが発生した場合最後のクロールに関するエラー情報 LogGroup Log group string pattern (p. 359) に一致する文字列最後のクロールのロググループ LogStream Log-stream string pattern (p. 359) に一致する文字列最後のクロールのログストリーム MessagePrefix Single-line string pattern (p. 359) に一致する文字列このクロールについてのメッセージのプレフィックス StartTime タイムスタンプ. クロールが開始された時刻運用 CreateCrawler アクション (Python: create_crawler) (p. 321) DeleteCrawler アクション (Python: delete_crawler) (p. 322) GetCrawler アクション (Python: get_crawler) (p. 323) GetCrawlers アクション (Python: get_crawlers) (p. 323) GetCrawlerMetrics アクション (Python: get_crawler_metrics) (p. 324) UpdateCrawler アクション (Python: update_crawler) (p. 324) StartCrawler アクション (Python: start_crawler) (p. 325) StopCrawler アクション (Python: stop_crawler) (p. 326) CreateCrawler アクション (Python: create_crawler) 指定されたターゲットロール設定およびオプションのスケジュールを使用して新しいクローラを作成します s3targets または jdbctargets フィールドのいずれかに少なくとも 1 つのクロールターゲットを指定する必要がありますリクエスト Name Single-line string pattern (p. 359) に一致する文字列必須新しいクローラの名前 Role 文字列. 必須 321

329 AWS Glue 開発者ガイドクローラ新しいクローラが顧客リソースにアクセスするために使用する IAM ロール ( または IAM ロールの ARN) DatabaseName 文字列. 必須 arn:aws:daylight:us-east-1::database/sometable/* などの結果が書き込まれる AWS Glue データベース Description URI address multi-line string pattern (p. 359) に一致する説明文字列新しいクローラの説明 Targets CrawlerTargets オブジェクト必須クロールするターゲットのコレクションのリスト Schedule 文字列. スケジュールを指定するために使用される cron 式 ( ジョブとクローラの時間ベースのスケジュールを参照してくださいたとえば毎日 12:15 UTC に何かを実行するには cron(15 12 * *? *) を指定します Classifiers UTF-8 文字列の配列ユーザーが登録したカスタム分類子のリストデフォルトではすべての組み込みの分類子がクロールに含まれますがこれらのカスタム分類子によって常に分類別のデフォルトの分類子が上書きされます TablePrefix 文字列. 作成されたカタログテーブルに使用されるテーブルプレフィックス SchemaChangePolicy SchemaChangePolicy オブジェクトクローラの更新と削除動作のためのポリシー Configuration 文字列. クローラの設定情報このバージョン付きの JSON 文字列ではクローラの動作特性を指定できます詳細についてはクローラの設定を参照してくださいレスポンス応答パラメータはありませんエラー InvalidInputException AlreadyExistsException OperationTimeoutException ResourceNumberLimitExceededException DeleteCrawler アクション (Python: delete_crawler) クローラの状態が RUNNING でないかぎり指定したクローラをデータカタログから削除しますリクエスト Name Single-line string pattern (p. 359) に一致する文字列必須削除するクローラの名前 322

330 AWS Glue 開発者ガイドクローラレスポンス応答パラメータはありませんエラー EntityNotFoundException CrawlerRunningException SchedulerTransitioningException OperationTimeoutException GetCrawler アクション (Python: get_crawler) 指定されたクローラのメタデータを取得しますリクエスト Name Single-line string pattern (p. 359) に一致する文字列必須メタデータを取得するクローラの名前レスポンス Crawler Crawler オブジェクト指定されたクローラのメタデータエラー EntityNotFoundException OperationTimeoutException GetCrawlers アクション (Python: get_crawlers) 顧客アカウントで定義されたすべてのクローラのメタデータを取得しますリクエスト MaxResults 数値 ( 整数 ) 各呼び出しで返されるクローラの数 NextToken 文字列. 継続トークン ( これが継続リクエストの場合 ) レスポンス Crawlers クローラ (p. 318) の配列クローラメタデータのリスト NextToken 文字列. 323

331 AWS Glue 開発者ガイドクローラ継続トークン ( 返されるリストがこの顧客アカウントで定義されたリストの最後に達していない場合 ) エラー OperationTimeoutException GetCrawlerMetrics アクション (Python: get_crawler_metrics) 指定されたクローラに関するメトリクスを取得しますリクエスト CrawlerNameList UTF-8 文字列の配列メトリクスを取得するクローラの名前のリスト MaxResults - 数値 ( 整数 ) 返されるリストの最大サイズ NextToken 文字列. 継続トークン ( これが継続呼び出しの場合 ) レスポンス CrawlerMetricsList CrawlerMetrics (p. 320) の配列指定されたクローラのメトリクスのリスト NextToken 文字列. 継続トークン ( 戻されたリストに最後に使用可能なメトリクスが含まれていない場合 ) エラー OperationTimeoutException UpdateCrawler アクション (Python: update_crawler) クローラを更新しますクローラが実行されている場合クローラを更新する前に StopCrawler を使用してクローラを停止する必要がありますリクエスト Name Single-line string pattern (p. 359) に一致する文字列必須新しいクローラの名前 Role 文字列. 新しいクローラが顧客リソースにアクセスするために使用する IAM ロール ( または IAM ロールの ARN) DatabaseName 文字列. arn:aws:daylight:us-east-1::database/sometable/* などの結果が保存される AWS Glue データベース 324

332 AWS Glue 開発者ガイドクローラ Description URI address multi-line string pattern (p. 359) に一致する文字列新しいクローラの説明 Targets CrawlerTargets オブジェクトクロールするターゲットのリスト Schedule 文字列. スケジュールを指定するために使用される cron 式 ( ジョブとクローラの時間ベースのスケジュールを参照してくださいたとえば毎日 12:15 UTC に何かを実行するには cron(15 12 * *? *) を指定します Classifiers UTF-8 文字列の配列ユーザーが登録したカスタム分類子のリストデフォルトではすべての組み込みの分類子がクロールに含まれますがこれらのカスタム分類子によって常に分類別のデフォルトの分類子が上書きされます TablePrefix 文字列. 作成されたカタログテーブルに使用されるテーブルプレフィックス SchemaChangePolicy SchemaChangePolicy オブジェクトクローラの更新と削除動作のためのポリシー Configuration 文字列. クローラの設定情報このバージョン付きの JSON 文字列ではクローラの動作特性を指定できます詳細についてはクローラの設定を参照してくださいレスポンス応答パラメータはありませんエラー InvalidInputException VersionMismatchException EntityNotFoundException CrawlerRunningException OperationTimeoutException StartCrawler アクション (Python: start_crawler) スケジュールされているものに関係なく指定されたクローラを使用してクロールを開始しますクローラがすでに実行中である場合は CrawlerRunningException が返されますリクエスト Name Single-line string pattern (p. 359) に一致する文字列必須開始するクローラの名前レスポンス応答パラメータはありません 325

333 AWS Glue 開発者ガイドスケジューラエラー EntityNotFoundException CrawlerRunningException OperationTimeoutException StopCrawler アクション (Python: stop_crawler) 指定されたクローラが実行されている場合はクロールを停止しますリクエスト Name Single-line string pattern (p. 359) に一致する文字列必須停止するクローラの名前レスポンス応答パラメータはありませんエラー EntityNotFoundException CrawlerNotRunningException CrawlerStoppingException OperationTimeoutException クローラスケジューラ API データ型スケジュールの構造 (p. 326) スケジュールの構造 cron ステートメントを使用してイベントをスケジュールするスケジューリングオブジェクトフィールド ScheduleExpression 文字列. スケジュールを指定するために使用される cron 式 ( ジョブとクローラの時間ベースのスケジュールを参照してくださいたとえば毎日 12:15 UTC に何かを実行するには cron(15 12 * *? *) を指定します State 文字列 ( 有効な値 : SCHEDULED NOT_SCHEDULED TRANSITIONING) スケジュールの状態運用 UpdateCrawlerSchedule アクション (Python: update_crawler_schedule) (p. 327) 326

334 AWS Glue 開発者ガイドスケジューラ StartCrawlerSchedule アクション (Python: start_crawler_schedule) (p. 327) StopCrawlerSchedule アクション (Python: stop_crawler_schedule) (p. 328) UpdateCrawlerSchedule アクション (Python: update_crawler_schedule) cron 式を使用してクローラのスケジュールを更新しますリクエスト CrawlerName Single-line string pattern (p. 359) に一致する文字列必須スケジュールを更新するクローラの名前 Schedule 文字列. スケジュールを指定するために使用される更新された cron 式 ( ジョブとクローラの時間ベースのスケジュールを参照 ) たとえば毎日 12:15 UTC に何かを実行するには cron(15 12 * *? *) を指定しますレスポンス応答パラメータはありませんエラー EntityNotFoundException InvalidInputException VersionMismatchException SchedulerTransitioningException OperationTimeoutException StartCrawlerSchedule アクション (Python: start_crawler_schedule) クローラがすでに実行中またはスケジュールの状態がすでに SCHEDULED でなければ指定されたクローラのスケジュールの状態を SCHEDULED に変更しますリクエスト CrawlerName Single-line string pattern (p. 359) に一致する文字列必須スケジュールするクローラの名前レスポンス応答パラメータはありませんエラー EntityNotFoundException 327

335 AWS Glue 開発者ガイド ETL スクリプトの自動生成 SchedulerRunningException SchedulerTransitioningException NoScheduleException OperationTimeoutException StopCrawlerSchedule アクション (Python: stop_crawler_schedule) 指定されたクローラのスケジュールの状態を NOT_SCHEDULED に設定しますがクローラがすでに実行中の場合は停止されませんリクエスト CrawlerName Single-line string pattern (p. 359) に一致する文字列必須スケジュールの状態を設定するクローラの名前レスポンス応答パラメータはありませんエラー EntityNotFoundException SchedulerNotRunningException SchedulerTransitioningException OperationTimeoutException ETL スクリプトの自動生成用 AWS Glue API データ型 CodeGenNode 構造 (p. 328) CodeGenNodeArg 構造 (p. 329) CodeGenEdge 構造 (p. 329) 場所の構造 (p. 329) CatalogEntry 構造 (p. 330) MappingEntry 構造 (p. 330) CodeGenNode 構造 Directed Acyclic Graph (DAG) でノードを表すフィールド Id Identifier string pattern (p. 359) に一致する文字列必須ノードのグラフ内で一意のノード識別子 328

336 AWS Glue 開発者ガイド CodeGenNodeArg NodeType 文字列. 必須このノードのタイプ Args - CodeGenNodeArg (p. 329) の配列 ( 必須 ) ノードのプロパティ名前と値のペアの形式 LineNumber - 数値 ( 整数 ) ノードの行数 CodeGenNodeArg 構造ノードの引数またはプロパティフィールド Name 文字列. 必須引数またはプロパティの名前 Value 文字列. 必須引数またはプロパティの値 Param Boolean. 値がパラメータとして使用される場合は True CodeGenEdge 構造 Directed Acyclic Graph (DAG) で方向のエッジを表しますフィールド Source Identifier string pattern (p. 359) に一致する文字列必須エッジが始まるノードの ID Target - Identifier string pattern (p. 359) に一致する文字列必須エッジが終了するノードの ID TargetParameter 文字列. エッジのターゲット場所の構造リソースの場所フィールド Jdbc CodeGenNodeArg (p. 329) の配列 JDBC の場所 S3 - CodeGenNodeArg (p. 329) の配列 329

337 AWS Glue 開発者ガイド CatalogEntry Amazon S3 の場所 CatalogEntry 構造データカタログでテーブル定義を指定しますフィールド DatabaseName Single-line string pattern (p. 359) に一致する文字列必須テーブルメタデータが存在するデータベース TableName - Single-line string pattern (p. 359) に一致する文字列必須該当するテーブルの名前 MappingEntry 構造マッピングを定義しますフィールド SourceTable 文字列. ソーステーブルの名前 SourcePath 文字列. ソースパス SourceType 文字列. ソースタイプ TargetTable 文字列. ターゲットテーブル TargetPath 文字列. ターゲットパス TargetType 文字列. ターゲットのタイプ運用 CreateScript アクション (Python: create_script) (p. 330) GetDataflowGraph アクション (Python: get_dataflow_graph) (p. 331) GetMapping アクション (Python: get_mapping) (p. 332) GetPlan アクション (Python: get_plan) (p. 332) CreateScript アクション (Python: create_script) Directed Acyclic Graph (DAG) をコードに変換します 330

338 AWS Glue 開発者ガイド GetDataflowGraph (get_dataflow_graph) リクエスト DagNodes - CodeGenNode (p. 328) の配列 DAG 内のノードのリスト DagEdges CodeGenEdge (p. 329) の配列 DAG 内のエッジのリスト Language - 文字列 ( 有効な値 : PYTHON SCALA) DAG から生成されたコードのプログラミング言語レスポンス PythonScript 文字列. DAG から生成された Python スクリプト ScalaCode 文字列. DAG から生成された Scala コードエラー InvalidInputException InternalServiceException OperationTimeoutException GetDataflowGraph アクション (Python: get_dataflow_graph) Python スクリプトを Directed Acyclic Graph (DAG) に変換しますリクエスト PythonScript 文字列. 変換する Python スクリプトレスポンス DagNodes - CodeGenNode (p. 328) の配列結果の DAG 内のノードのリスト DagEdges - CodeGenEdge (p. 329) の配列結果の DAG 内のエッジのリストエラー InvalidInputException InternalServiceException 331

339 AWS Glue 開発者ガイド GetMapping (get_mapping) OperationTimeoutException GetMapping アクション (Python: get_mapping) マッピングを作成しますリクエスト Source CatalogEntry オブジェクト必須ソーステーブルを指定します Sinks - CatalogEntry (p. 330) の配列ターゲットテーブルのリスト Location 場所のオブジェクトマッピングのパラメータレスポンス Mapping - MappingEntry (p. 330) の配列 ( 必須 ) 指定されたターゲットへのマッピングのリストエラー InvalidInputException InternalServiceException OperationTimeoutException EntityNotFoundException GetPlan アクション (Python: get_plan) 指定されたマッピングを実行するコードを取得しますリクエスト Mapping - MappingEntry (p. 330) の配列 ( 必須 ) ソーステーブルからターゲットテーブルへのマッピングのリスト Source CatalogEntry オブジェクト必須ソーステーブル Sinks - CatalogEntry (p. 330) の配列ターゲットテーブル Location 場所のオブジェクトマッピングのパラメータ Language - 文字列 ( 有効な値 : PYTHON SCALA) マッピングを実行するコードのプログラミング言語 332

340 AWS Glue 開発者ガイドジョブ API レスポンス PythonScript 文字列. マッピングを実行する Python スクリプト ScalaCode 文字列. マッピングを実行する Scala コードエラー InvalidInputException InternalServiceException OperationTimeoutException EntityNotFoundException ジョブ API トピックジョブ (p. 333) ジョブ実行 (p. 339) トリガ (p. 345) ジョブデータ型ジョブ構造 (p. 333) ExecutionProperty 構造 (p. 334) JobCommand 構造 (p. 335) ConnectionsList 構造 (p. 335) JobUpdate 構造 (p. 335) ジョブ構造ジョブ定義を指定しますフィールド Name Single-line string pattern (p. 359) に一致する文字列このジョブ定義に割り当てる名前 Description URI address multi-line string pattern (p. 359) に一致する説明文字列定義するジョブの説明 LogUri 文字列. このフィールドは将来の利用のために予約されています Role 文字列. 333

341 AWS Glue 開発者ガイドジョブこのジョブに関連付けられている IAM ロールの名前または ARN CreatedOn タイムスタンプ. このジョブ定義を作成した日時 LastModifiedOn タイムスタンプ. このジョブ定義を変更した最後の時点 ExecutionProperty - ExecutionProperty オブジェクトこのジョブに許可される同時実行の最大数を指定する ExecutionProperty Command - JobCommand オブジェクトこのジョブを実行する JobCommand DefaultArguments - UTF-8 文字列から UTF-8 文字列へのマッピングの配列名前と値のペアとして指定されたこのジョブのデフォルトの引数独自のジョブ実行スクリプトが使用する引数だけでなく AWS Glue が使用する引数もここで指定できます独自のジョブ引数を指定および使用する方法については開発者ガイドの Python での AWS Glue API の呼び出しトピックを参照してください AWS Glue がジョブを設定するために使用するキーと値のペアについては開発者ガイドの AWS Glue で使用される特別なパラメータトピックを参照してください Connections - ConnectionsList オブジェクトこのジョブに使用される接続 MaxRetries - 数値 ( 整数 ) ジョブ実行の失敗後にこのジョブを再試行する最大回数 AllocatedCapacity 数値 ( 整数 ) このジョブの実行に割り当てられた AWS Glue データ処理ユニット (DPU) の数 2~100 DPU の範囲で割り当てることができますデフォルトは 10 です DPU は処理能力を相対的に測定するもので 4 個の vcpu のコンピューティング性能と 16 GB のメモリで構成されています詳細については AWS Glue 料金表ページを参照してください Timeout 数値 ( 整数 ) ジョブのタイムアウト ( 分 ) ジョブ実行が終了済みになって TIMEOUT ステータスに入るまでにジョブ実行でリソースを消費できる最大時間ですデフォルト値は 2,880 分 (48 時間 ) です ExecutionProperty 構造ジョブの実行プロパティフィールド MaxConcurrentRuns - 数値 ( 整数 ) ジョブの同時実行の最大許容数デフォルトは 1 ですこのしきい値に達するとエラーが返されます指定できる最大値はサービス制限によって制御されます 334

342 AWS Glue 開発者ガイドジョブ JobCommand 構造ジョブの実行時に実行されるコードを指定しますフィールド Name 文字列. ジョブコマンドの名前 : glueetl である必要があります ScriptLocation 文字列. ジョブを実行するスクリプトへの S3 パスを指定します ( 必須 ) ConnectionsList 構造ジョブが使用する接続を指定しますフィールド Connections - UTF-8 文字列の配列ジョブが使用する接続のリスト JobUpdate 構造既存のジョブ定義を更新するための情報を指定します以前のジョブ定義はこの情報によって完全に上書きされることに注意してくださいフィールド Description - URI address multi-line string pattern (p. 359) に一致する説明文字列定義するジョブの説明 LogUri 文字列. このフィールドは将来の利用のために予約されています Role 文字列. このジョブに関連付けられている IAM ロールの名前または ARN ( 必須 ) ExecutionProperty - ExecutionProperty オブジェクトこのジョブに許可される同時実行の最大数を指定する ExecutionProperty Command - JobCommand オブジェクトこのジョブを実行する JobCommand ( 必須 ) DefaultArguments - UTF-8 文字列から UTF-8 文字列へのマッピングの配列このジョブのデフォルトの引数独自のジョブ実行スクリプトが使用する引数だけでなく AWS Glue が使用する引数もここで指定できます独自のジョブ引数を指定および使用する方法については開発者ガイドの Python での AWS Glue API の呼び出しトピックを参照してください 335

343 AWS Glue 開発者ガイドジョブ AWS Glue がジョブを設定するために使用するキーと値のペアについては開発者ガイドの AWS Glue で使用される特別なパラメータトピックを参照してください Connections - ConnectionsList オブジェクトこのジョブに使用される接続 MaxRetries - 数値 ( 整数 ) 失敗した場合にこのジョブを再試行する最大回数 AllocatedCapacity - 数値 ( 整数 ) このジョブに割り当てる AWS Glue データ処理ユニット (DPU) の数 2~100 DPU の範囲で割り当てることができますデフォルトは 10 です DPU は処理能力を相対的に測定するもので 4 個の vcpu のコンピューティング性能と 16 GB のメモリで構成されています詳細については AWS Glue 料金表ページを参照してください Timeout 数値 ( 整数 ) ジョブのタイムアウト ( 分 ) ジョブ実行が終了済みになって TIMEOUT ステータスに入るまでにジョブ実行でリソースを消費できる最大時間ですデフォルト値は 2,880 分 (48 時間 ) です運用 CreateJob アクション (Python: create_job) (p. 336) UpdateJob アクション (Python: update_job) (p. 337) GetJob アクション (Python: get_job) (p. 338) GetJobs アクション (Python: get_jobs) (p. 338) DeleteJob アクション (Python: delete_job) (p. 339) CreateJob アクション (Python: create_job) 新しいジョブ定義を作成しますリクエスト Name Single-line string pattern (p. 359) に一致する文字列必須このジョブ定義に割り当てる名前アカウント内で一意にする必要があります Description - URI address multi-line string pattern (p. 359) に一致する説明文字列定義するジョブの説明 LogUri 文字列. このフィールドは将来の利用のために予約されています Role 文字列. 必須このジョブに関連付けられている IAM ロールの名前または ARN ExecutionProperty - ExecutionProperty オブジェクトこのジョブに許可される同時実行の最大数を指定する ExecutionProperty Command - JobCommand オブジェクト必須このジョブを実行する JobCommand DefaultArguments - UTF-8 文字列から UTF-8 文字列へのマッピングの配列 336

344 AWS Glue 開発者ガイドジョブこのジョブのデフォルトの引数独自のジョブ実行スクリプトが使用する引数だけでなく AWS Glue が使用する引数もここで指定できます独自のジョブ引数を指定および使用する方法については開発者ガイドの Python での AWS Glue API の呼び出しトピックを参照してください AWS Glue がジョブを設定するために使用するキーと値のペアについては開発者ガイドの AWS Glue で使用される特別なパラメータトピックを参照してください Connections - ConnectionsList オブジェクトこのジョブに使用される接続 MaxRetries - 数値 ( 整数 ) 失敗した場合にこのジョブを再試行する最大回数 AllocatedCapacity - 数値 ( 整数 ) このジョブに割り当てる AWS Glue データ処理ユニット (DPU) の数 2~100 DPU の範囲で割り当てることができますデフォルトは 10 です DPU は処理能力を相対的に測定するもので 4 個の vcpu のコンピューティング性能と 16 GB のメモリで構成されています詳細については AWS Glue 料金表ページを参照してください Timeout 数値 ( 整数 ) ジョブのタイムアウト ( 分 ) ジョブ実行が終了済みになって TIMEOUT ステータスに入るまでにジョブ実行でリソースを消費できる最大時間ですデフォルト値は 2,880 分 (48 時間 ) ですレスポンス Name Single-line string pattern (p. 359) に一致する文字列このジョブ定義に指定された一意の名前エラー InvalidInputException IdempotentParameterMismatchException AlreadyExistsException InternalServiceException OperationTimeoutException ResourceNumberLimitExceededException ConcurrentModificationException UpdateJob アクション (Python: update_job) 既存のジョブ定義を更新しますリクエスト JobName Single-line string pattern (p. 359) に一致する文字列必須更新するジョブ定義の名前 337

345 AWS Glue 開発者ガイドジョブ JobUpdate - JobUpdate オブジェクト必須ジョブ定義の更新に使用する値を指定しますレスポンス JobName Single-line string pattern (p. 359) に一致する文字列更新されたジョブ定義の名前を返しますエラー InvalidInputException EntityNotFoundException InternalServiceException OperationTimeoutException ConcurrentModificationException GetJob アクション (Python: get_job) 既存のジョブ定義を取得しますリクエスト JobName Single-line string pattern (p. 359) に一致する文字列必須取得するジョブ定義の名前レスポンス Job - ジョブオブジェクトリクエストされたジョブ定義エラー InvalidInputException EntityNotFoundException InternalServiceException OperationTimeoutException GetJobs アクション (Python: get_jobs) すべての現在のジョブ定義を取得しますリクエスト NextToken 文字列. 継続トークン ( これが継続呼び出しの場合 ) MaxResults - 数値 ( 整数 ) 338

346 AWS Glue 開発者ガイドジョブ実行レスポンスの最大サイズレスポンス Jobs ジョブ (p. 333) の配列ジョブ定義のリスト NextToken 文字列. 一部のジョブ定義がまだ返されていない場合は継続トークンエラー InvalidInputException EntityNotFoundException InternalServiceException OperationTimeoutException DeleteJob アクション (Python: delete_job) 指定したジョブ定義を削除しますジョブ定義が見つからない場合例外はスローされませんリクエスト JobName Single-line string pattern (p. 359) に一致する文字列必須削除するジョブ定義の名前レスポンス JobName Single-line string pattern (p. 359) に一致する文字列削除されたジョブ定義の名前エラー InvalidInputException InternalServiceException OperationTimeoutException ジョブ実行データ型 JobRun の構造 (p. 340) 先行構造 (p. 341) JobBookmarkEntry 構造 (p. 341) BatchStopJobRunSuccessfulSubmission 構造 (p. 341) 339

347 AWS Glue 開発者ガイドジョブ実行 BatchStopJobRunError 構造 (p. 342) JobRun の構造ジョブ実行についての情報が含まれていますフィールド Id Single-line string pattern (p. 359) に一致する文字列このジョブ実行の ID Attempt - 数値 ( 整数 ) このジョブを実行しようと試みた回数 PreviousRunId - Single-line string pattern (p. 359) に一致する文字列このジョブの以前の実行の ID たとえば StartJobRun アクションで指定された JobRunId TriggerName - Single-line string pattern (p. 359) に一致する文字列このジョブ実行を開始したトリガーの名前 JobName - Single-line string pattern (p. 359) に一致する文字列この実行で使用されているジョブ定義の名前 StartedOn タイムスタンプこのジョブ実行が開始された日付と時刻 LastModifiedOn タイムスタンプこのジョブ実行が最後に変更された時刻 CompletedOn タイムスタンプこのジョブ実行が完了した日付と時刻 JobRunState 文字列 ( 有効な値 : STARTING RUNNING STOPPING STOPPED SUCCEEDED FAILED TIMEOUT) 現在のジョブ実行の状態 Arguments - UTF-8 文字列から UTF-8 文字列へのマッピングの配列この実行に関連付けられているジョブの引数これらはジョブに設定されている同様のデフォルトの引数を上書きします独自のジョブ実行スクリプトが使用する引数だけでなく AWS Glue が使用する引数もここで指定できます独自のジョブ引数を指定および使用する方法については開発者ガイドの Python での AWS Glue API の呼び出しトピックを参照してください AWS Glue がジョブを設定するために使用するキーと値のペアについては開発者ガイドの AWS Glue で使用される特別なパラメータトピックを参照してください ErrorMessage 文字列このジョブ実行に関連付けられているエラーメッセージ PredecessorRuns - 先行 (p. 341) の配列このジョブ実行に先行するもののリスト 340

348 AWS Glue 開発者ガイドジョブ実行 AllocatedCapacity - 数値 ( 整数 ) この JobRun に割り当てられた AWS Glue データ処理ユニット (DPU) の数 2~100 DPU の範囲で割り当てることができますデフォルト値は 10 です DPU は処理能力を相対的に測定するもので 4 個の vcpu のコンピューティング性能と 16 GB のメモリで構成されています詳細については AWS Glue 料金表ページを参照してください ExecutionTime 数値 ( 整数 ) ジョブ実行でリソースを消費した時間 ( 秒 ) Timeout 数値 ( 整数 ) JobRun タイムアウト ( 分 ) ジョブ実行が終了済みになって TIMEOUT ステータスに入るまでにジョブ実行でリソースを消費できる最大時間ですデフォルト値は 2,880 分 (48 時間 ) ですこれにより親ジョブで設定したタイムアウト値が上書きされます先行構造このジョブ実行をトリガーした条件トリガーの述語に使用されたジョブ実行フィールド JobName Single-line string pattern (p. 359) に一致する文字列先行するジョブ実行で使用したジョブ定義の名前 RunId - Single-line string pattern (p. 359) に一致する文字列先行するジョブ実行のジョブ実行 ID JobBookmarkEntry 構造ジョブの処理を再開できるポイントを定義しますフィールド JobName 文字列該当するジョブの名前 Version - 数値 ( 整数 ) ジョブのバージョン Run 数値 ( 整数 ) 実行 ID 番号 Attempt - 数値 ( 整数 ) 試行 ID 番号 JobBookmark 文字列ブックマーク自体 BatchStopJobRunSuccessfulSubmission 構造指定された JobRun を停止するリクエストの成功を記録します 341

349 AWS Glue 開発者ガイドジョブ実行フィールド JobName Single-line string pattern (p. 359) に一致する文字列停止したジョブ実行で使用したジョブ定義の名前 JobRunId Single-line string pattern (p. 359) に一致する文字列停止したジョブ実行の JobRunId BatchStopJobRunError 構造指定したジョブ実行を停止しようとして発生したエラーを記録しますフィールド JobName Single-line string pattern (p. 359) に一致する文字列該当するジョブ実行で使用したジョブ定義の名前 JobRunId Single-line string pattern (p. 359) に一致する文字列該当するジョブ実行の JobRunId ErrorDetail ErrorDetail オブジェクト発生したエラーに関する詳細を指定します運用 StartJobRun アクション (Python: start_job_run) (p. 342) BatchStopJobRun アクション (Python: batch_stop_job_run) (p. 343) GetJobRun アクション (Python: get_job_run) (p. 344) GetJobRuns アクション (Python: get_job_runs) (p. 344) ResetJobBookmark アクション (Python: reset_job_bookmark) (p. 345) StartJobRun アクション (Python: start_job_run) ジョブ定義を使用してジョブ実行を開始しますリクエスト JobName Single-line string pattern (p. 359) に一致する文字列必須使用するジョブ定義の名前 JobRunId - Single-line string pattern (p. 359) に一致する文字列再試行する以前の JobRun ID Arguments - UTF-8 文字列から UTF-8 文字列へのマッピングの配列特にこの実行のためのジョブの引数ジョブ定義自体に設定されている同等のデフォルト引数を上書きします独自のジョブ実行スクリプトが使用する引数だけでなく AWS Glue が使用する引数もここで指定できます 342

350 AWS Glue 開発者ガイドジョブ実行独自のジョブ引数を指定および使用する方法については開発者ガイドの Python での AWS Glue API の呼び出しトピックを参照してください AWS Glue がジョブを設定するために使用するキーと値のペアについては開発者ガイドの AWS Glue で使用される特別なパラメータトピックを参照してください AllocatedCapacity - 数値 ( 整数 ) この JobRun に割り当てる AWS Glue データ処理ユニット (DPU) の数 2~100 DPU の範囲で割り当てることができますデフォルト値は 10 です DPU は処理能力を相対的に測定するもので 4 個の vcpu のコンピューティング性能と 16 GB のメモリで構成されています詳細については AWS Glue 料金表ページを参照してください Timeout 数値 ( 整数 ) JobRun タイムアウト ( 分 ) ジョブ実行が終了済みになって TIMEOUT ステータスに入るまでにジョブ実行でリソースを消費できる最大時間ですデフォルト値は 2,880 分 (48 時間 ) ですこれにより親ジョブで設定したタイムアウト値が上書きされますレスポンス JobRunId - Single-line string pattern (p. 359) に一致する文字列このジョブ実行に割り当てられた ID エラー InvalidInputException EntityNotFoundException InternalServiceException OperationTimeoutException ResourceNumberLimitExceededException ConcurrentRunsExceededException BatchStopJobRun アクション (Python: batch_stop_job_run) 指定したジョブ定義の 1 つ以上のジョブ実行を停止しますリクエスト JobName Single-line string pattern (p. 359) に一致する文字列必須ジョブ実行を停止するジョブ定義の名前 JobRunIds - UTF-8 文字列の配列必須このジョブ定義で停止する JobRunId のリストレスポンス SuccessfulSubmissions - BatchStopJobRunSuccessfulSubmission (p. 341) の配列正常に送信された停止対象の JobRun のリスト Errors - BatchStopJobRunError (p. 342) の配列 343

351 AWS Glue 開発者ガイドジョブ実行 JobRun を停止しようとして発生したエラーのリスト各エラーが発生した JobRunId とエラーの詳細が含まれますエラー InvalidInputException InternalServiceException OperationTimeoutException GetJobRun アクション (Python: get_job_run) 指定されたジョブ実行のメタデータを取得しますリクエスト JobName Single-line string pattern (p. 359) に一致する文字列必須実行中のジョブ定義の名前 RunId Single-line string pattern (p. 359) に一致する文字列必須ジョブ実行の ID PredecessorsIncluded ブール値以前の実行のリストが返される場合は true ですレスポンス JobRun JobRun オブジェクトリクエスト済みのジョブ実行のメタデータエラー InvalidInputException EntityNotFoundException InternalServiceException OperationTimeoutException GetJobRuns アクション (Python: get_job_runs) 特定のジョブ定義に該当するすべての実行のメタデータを取得しますリクエスト JobName Single-line string pattern (p. 359) に一致する文字列必須すべてのジョブ実行を取得する先のジョブ定義の名前 NextToken 文字列継続トークン ( これが継続呼び出しの場合 ) MaxResults - 数値 ( 整数 ) 344

352 AWS Glue 開発者ガイドトリガレスポンスの最大サイズレスポンス JobRuns - JobRun (p. 340) の配列ジョブ実行のメタデータオブジェクトのリスト NextToken 文字列リクエストされたジョブ実行のすべてがまだ返されていない場合は継続トークンエラー InvalidInputException EntityNotFoundException InternalServiceException OperationTimeoutException ResetJobBookmark アクション (Python: reset_job_bookmark) ブックマークエントリをリセットしますリクエスト JobName 文字列必須該当するジョブの名前レスポンス JobBookmarkEntry JobBookmarkEntry オブジェクトブックマークエントリのリセットエラー EntityNotFoundException InvalidInputException InternalServiceException OperationTimeoutException トリガデータ型トリガー構造 (p. 346) TriggerUpdate 構造 (p. 346) 述語構造 (p. 347) 条件の構造 (p. 347) 345

353 AWS Glue 開発者ガイドトリガアクション構造 (p. 347) トリガー構造特定のトリガーに関する情報ですフィールド Name Single-line string pattern (p. 359) に一致する文字列トリガーの名前 Id Single-line string pattern (p. 359) に一致する文字列将来の利用のために予約されています Type 文字列 ( 有効な値 : SCHEDULED CONDITIONAL ON_DEMAND) これがトリガーのタイプです State 文字列 ( 有効な値 : CREATING CREATED ACTIVATING ACTIVATED DEACTIVATING DEACTIVATED DELETING UPDATING) 現在のトリガーの状態 Description URI address multi-line string pattern (p. 359) に一致する説明文字列このトリガーの説明 Schedule 文字列. スケジュールを指定するために使用される cron 式 ( ジョブとクローラの時間ベースのスケジュールを参照してくださいたとえば毎日 12:15 UTC に何かを実行するには cron(15 12 * *? *) を指定します Actions アクション (p. 347) の配列このトリガーによって開始されるアクション Predicate 述語オブジェクトこのトリガーの述語はいつトリガーを起動するかを定義します TriggerUpdate 構造トリガーの更新に使用する情報を提供するために使用される構造ですこのオブジェクトは前のトリガー定義を完全に上書きして更新しますフィールド Name Single-line string pattern (p. 359) に一致する文字列将来の利用のために予約されています Description URI address multi-line string pattern (p. 359) に一致する説明文字列このトリガーの説明 Schedule 文字列. スケジュールを指定するために使用される cron 式 ( ジョブとクローラの時間ベースのスケジュールを参照してくださいたとえば毎日 12:15 UTC に何かを実行するには cron(15 12 * *? *) を指定します Actions アクション (p. 347) の配列 346

354 AWS Glue 開発者ガイドトリガこのトリガーによって開始されるアクション Predicate 述語オブジェクトこのトリガーの述語はいつトリガーを起動するかを定義します述語構造トリガーがいつ起動するかを決定するトリガーの述語を定義しますフィールド Logical 文字列 ( 有効な値 : AND ANY) 1 つの条件のみが表示されている場合のオプションフィールドです複数の条件が表示されている場合このフィールドは必須です Conditions 条件 (p. 347) の配列トリガーがいつ起動するかを決定する条件のリスト条件の構造トリガーが起動する条件を定義しますフィールド LogicalOperator 文字列 ( 有効な値 : EQUALS) 論理演算子 JobName Single-line string pattern (p. 359) に一致する文字列 JobRuns のこの条件が適用されこのトリガーが待機するジョブの名前 State 文字列 ( 有効な値 : STARTING RUNNING STOPPING STOPPED SUCCEEDED FAILED TIMEOUT) 条件の状態現在サポートされている値は SUCCEEDED STOPPED TIMEOUT FAILED ですアクション構造トリガーによって開始されるアクションを定義しますフィールド JobName Single-line string pattern (p. 359) に一致する文字列実行されるジョブの名前 Arguments UTF-8 文字列から UTF-8 文字列へのマッピングの配列ジョブに渡される引数です独自のジョブ実行スクリプトが使用する引数だけでなく AWS Glue が使用する引数もここで指定できます独自のジョブ引数を指定および使用する方法については開発者ガイドの Python での AWS Glue API の呼び出しトピックを参照してください 347

355 AWS Glue 開発者ガイドトリガ AWS Glue がジョブを設定するために使用するキーと値のペアについては開発者ガイドの AWS Glue で使用される特別なパラメータトピックを参照してください Timeout - 数値 ( 整数 ) JobRun タイムアウト ( 分 ) ジョブ実行が終了済みになって TIMEOUT ステータスに入るまでにジョブ実行でリソースを消費できる最大時間ですデフォルト値は 2,880 分 (48 時間 ) ですこれにより親ジョブで設定したタイムアウト値が上書きされます運用 CreateTrigger アクション (Python: create_trigger) (p. 348) StartTrigger アクション (Python: start_trigger) (p. 349) GetTrigger アクション (Python: get_trigger) (p. 349) GetTriggers アクション (Python: get_triggers) (p. 350) UpdateTrigger アクション (Python: update_trigger) (p. 350) StopTrigger アクション (Python: stop_trigger) (p. 351) DeleteTrigger アクション (Python: delete_trigger) (p. 351) CreateTrigger アクション (Python: create_trigger) 新しいトリガーを作成しますリクエスト Name Single-line string pattern (p. 359) に一致する文字列必須トリガーの名前 Type 文字列 ( 有効な値 : SCHEDULED CONDITIONAL ON_DEMAND) 必須新しいトリガーのタイプ Schedule 文字列. スケジュールを指定するために使用される cron 式 ( ジョブとクローラの時間ベースのスケジュールを参照してくださいたとえば毎日 12:15 UTC に何かを実行するには cron(15 12 * *? *) を指定しますこのフィールドはトリガータイプが SCHEDULED の場合に必要です Predicate 述語オブジェクト新しいトリガーがいつ起動するかを指定する述語ですこのフィールドはトリガータイプが CONDITIONAL の場合に必要です Actions アクション (p. 347) の配列 ( 必須 ) このトリガーが起動したときに開始されるアクション Description URI address multi-line string pattern (p. 359) に一致する説明文字列新しいトリガーの説明 StartOnCreation Boolean. true に設定すると SCHEDULED トリガーと CONDITIONAL トリガーの作成時にこれらのトリガーが開始されます ON_DEMAND トリガーでは true はサポートされていません 348

356 AWS Glue 開発者ガイドトリガレスポンス Name Single-line string pattern (p. 359) に一致する文字列トリガーの名前エラー AlreadyExistsException InvalidInputException IdempotentParameterMismatchException InternalServiceException OperationTimeoutException ResourceNumberLimitExceededException ConcurrentModificationException StartTrigger アクション (Python: start_trigger) 既存のトリガーを開始しますさまざまなタイプのトリガーの開始方法についてはジョブのトリガーを参照してくださいリクエスト Name Single-line string pattern (p. 359) に一致する文字列必須開始するトリガーの名前レスポンス Name Single-line string pattern (p. 359) に一致する文字列開始されたトリガーの名前エラー InvalidInputException InternalServiceException EntityNotFoundException OperationTimeoutException ResourceNumberLimitExceededException ConcurrentRunsExceededException GetTrigger アクション (Python: get_trigger) トリガーの定義を取得しますリクエスト Name Single-line string pattern (p. 359) に一致する文字列必須取得するトリガーの名前 349

357 AWS Glue 開発者ガイドトリガレスポンス Trigger Trigger オブジェクトリクエストされたトリガー定義エラー EntityNotFoundException InvalidInputException InternalServiceException OperationTimeoutException GetTriggers アクション (Python: get_triggers) ジョブに関連付けられているすべてのトリガーを取得しますリクエスト NextToken 文字列. 継続トークン ( これが継続呼び出しの場合 ) DependentJobName Single-line string pattern (p. 359) に一致する文字列トリガーを取得するジョブの名前このジョブを開始できるトリガーが返されますこのようなトリガーがない場合すべてのトリガーが返されます MaxResults 数値 ( 整数 ) レスポンスの最大サイズレスポンス Triggers Trigger (p. 346) の配列指定されたジョブのトリガーのリスト NextToken 文字列. リクエストされたトリガーのすべてがまだ返されていない場合は継続トークンエラー EntityNotFoundException InvalidInputException InternalServiceException OperationTimeoutException UpdateTrigger アクション (Python: update_trigger) トリガー定義を更新しますリクエスト Name Single-line string pattern (p. 359) に一致する文字列必須 350

358 AWS Glue 開発者ガイドトリガ更新するトリガーの名前 TriggerUpdate TriggerUpdate オブジェクト必須トリガーの更新に使用する新しい値レスポンス Trigger Trigger オブジェクト結果として生じるトリガー定義エラー InvalidInputException InternalServiceException EntityNotFoundException OperationTimeoutException ConcurrentModificationException StopTrigger アクション (Python: stop_trigger) 指定されたトリガーを停止しますリクエスト Name Single-line string pattern (p. 359) に一致する文字列必須停止するトリガーの名前レスポンス Name Single-line string pattern (p. 359) に一致する文字列停止したトリガーの名前エラー InvalidInputException InternalServiceException EntityNotFoundException OperationTimeoutException ConcurrentModificationException DeleteTrigger アクション (Python: delete_trigger) 指定されたトリガーを削除しますトリガーが見つからない場合例外はスローされませんリクエスト Name Single-line string pattern (p. 359) に一致する文字列必須 351

359 AWS Glue 開発者ガイド DevEndpoint API 削除するトリガーの名前レスポンス Name Single-line string pattern (p. 359) に一致する文字列削除されたトリガーの名前エラー InvalidInputException InternalServiceException OperationTimeoutException ConcurrentModificationException AWS Glue 開発エンドポイント API データ型 DevEndpoint 構造 (p. 352) DevEndpointCustomLibraries 構造 (p. 353) DevEndpoint 構造開発者が ETL スクリプトをリモートでデバッグする開発エンドポイントフィールド EndpointName 文字列 DevEndpoint の名前 RoleArn - AWS ARN string pattern (p. 359) に一致する文字列この DevEndpoint で使用される IAM ロールの AWS ARN SecurityGroupIds - UTF-8 文字列の配列この DevEndpoint で使用されるセキュリティグループ識別子のリスト SubnetId 文字列この DevEndpoint のサブネット ID YarnEndpointAddress 文字列この DevEndpoint で使用される YARN エンドポイントアドレス PrivateAddress 文字列 DevEndpoint が VPC 内に作成されている場合は VPC 内の DevEndpoint にアクセスするためのプライベート DNS ZeppelinRemoteSparkInterpreterPort - 数値 ( 整数 ) 352

360 AWS Glue 開発者ガイド DevEndpointCustomLibraries リモート Apache Spark インタープリタの Apache Zeppelin ポート PublicAddress 文字列この DevEndpoint で使用するパブリック VPC アドレス Status 文字列この DevEndpoint の現在のステータス NumberOfNodes - 数値 ( 整数 ) この DevEndpoint に割り当てられた AWS Glue データ処理ユニット (DPU) の数 AvailabilityZone 文字列この DevEndpoint が配置されている AWS アベイラビリティーゾーン VpcId 文字列この DevEndpoint によって使用される Virtual Private Cloud (VPC) の ID ExtraPythonLibsS3Path 文字列 DevEndpoint. にロードする S3 バケットの 1 つ以上の Python ライブラリへのパス複数の値はコンマで区切られた完全なパスでなければなりません現在 DevEndpoint では純粋な Python ライブラリのみを使用できます pandas Python データ解析ライブラリなど C の拡張機能に依存するライブラリはまだサポートされていません ExtraJarsS3Path 文字列 DevEndpoint にロードする S3 バケットの 1 つ以上の Java Jars へのパス現在 DevEndpoint では純粋な Java/Scala ライブラリのみを使用できます FailureReason 文字列この DevEndpoint で現在障害が発生している原因 LastUpdateStatus 文字列最終更新のステータス CreatedTimestamp タイムスタンプこの DevEndpoint が作成された時点 LastModifiedTimestamp タイムスタンプこの DevEndpoint が最後に変更された時点 PublicKey 文字列この DevEndpoint が認証に使用するパブリックキー DevEndpointCustomLibraries 構造 DevEndpoint にロードされるカスタムライブラリフィールド ExtraPythonLibsS3Path 文字列 DevEndpoint. にロードする S3 バケットの 1 つ以上の Python ライブラリへのパス複数の値はコンマで区切られた完全なパスでなければなりません 353

361 AWS Glue 開発者ガイドオペレーション現在 DevEndpoint では純粋な Python ライブラリのみを使用できます pandas Python データ解析ライブラリなど C の拡張機能に依存するライブラリはまだサポートされていません ExtraJarsS3Path 文字列 DevEndpoint にロードする S3 バケットの 1 つ以上の Java Jars へのパス現在 DevEndpoint では純粋な Java/Scala ライブラリのみを使用できますオペレーション CreateDevEndpoint アクション (Python: create_dev_endpoint) (p. 354) UpdateDevEndpoint アクション (Python: update_dev_endpoint) (p. 356) DeleteDevEndpoint アクション (Python: delete_dev_endpoint) (p. 356) GetDevEndpoint アクション (Python: get_dev_endpoint) (p. 357) GetDevEndpoints アクション (Python: get_dev_endpoints) (p. 357) CreateDevEndpoint アクション (Python: create_dev_endpoint) 新しい DevEndpoint を作成しますリクエスト EndpointName 文字列必須新しい DevEndpoint に割り当てる名前 RoleArn - AWS ARN string pattern (p. 359) に一致する文字列必須 DevEndpoint の IAM ロール SecurityGroupIds - UTF-8 文字列の配列新しい DevEndpoint によって使用されるセキュリティグループのセキュリティグループ ID SubnetId 文字列使用する新しい DevEndpoint のサブネット ID PublicKey 文字列認証に使用するパブリックキー NumberOfNodes - 数値 ( 整数 ) この DevEndpoint に割り当てる AWS Glue データ処理ユニット (DPU) の数 ExtraPythonLibsS3Path 文字列 DevEndpoint. にロードする S3 バケットの 1 つ以上の Python ライブラリへのパス複数の値はコンマで区切られた完全なパスでなければなりません現在 DevEndpoint では純粋な Python ライブラリのみを使用できます pandas Python データ解析ライブラリなど C の拡張機能に依存するライブラリはまだサポートされていません ExtraJarsS3Path 文字列 DevEndpoint にロードする S3 バケットの 1 つ以上の Java Jars へのパス 354

362 AWS Glue 開発者ガイド CreateDevEndpoint (create_dev_endpoint) レスポンス EndpointName 文字列新しい DevEndpoint に割り当てられた名前 Status 文字列新しい DevEndpoint の現在のステータス SecurityGroupIds - UTF-8 文字列の配列新しい DevEndpoint に割り当てられたセキュリティグループ SubnetId 文字列新しい DevEndpoint に割り当てられたサブネット ID RoleArn - AWS ARN string pattern (p. 359) に一致する文字列新しい DevEndpoint に割り当てられたロールの AWS ARN YarnEndpointAddress 文字列この DevEndpoint で使用される YARN エンドポイントのアドレス ZeppelinRemoteSparkInterpreterPort - 数値 ( 整数 ) リモート Apache Spark インタープリタの Apache Zeppelin ポート NumberOfNodes - 数値 ( 整数 ) この DevEndpoint に割り当てられた AWS Glue データ処理ユニット (DPU) の数 AvailabilityZone 文字列この DevEndpoint が配置されている AWS アベイラビリティーゾーン VpcId 文字列この DevEndpoint で使用される VPC の ID ExtraPythonLibsS3Path 文字列 DevEndpoint. にロードする S3 バケットの 1 つ以上の Python ライブラリへのパス ExtraJarsS3Path 文字列 DevEndpoint にロードする S3 バケットの 1 つ以上の Java Jars へのパス FailureReason 文字列この DevEndpoint で現在障害が発生している原因 CreatedTimestamp タイムスタンプこの DevEndpoint が作成された時点エラー AccessDeniedException AlreadyExistsException IdempotentParameterMismatchException InternalServiceException OperationTimeoutException InvalidInputException 355

363 AWS Glue 開発者ガイド UpdateDevEndpoint (update_dev_endpoint) ValidationException ResourceNumberLimitExceededException UpdateDevEndpoint アクション (Python: update_dev_endpoint) 指定された DevEndpoint を更新しますリクエスト EndpointName 文字列必須更新する DevEndpoint の名前 PublicKey 文字列使用する DevEndpoint のパブリックキー CustomLibraries DevEndpointCustomLibraries オブジェクト DevEndpoint でロードされるカスタム Python または Java ライブラリ UpdateEtlLibraries Boolean. 開発エンドポイントでロードされるカスタムライブラリのリストを更新する必要がある場合は True それ以外の場合は False レスポンス応答パラメータはありませんエラー EntityNotFoundException InternalServiceException OperationTimeoutException InvalidInputException ValidationException DeleteDevEndpoint アクション (Python: delete_dev_endpoint) 指定された DevEndpoint を削除しますリクエスト EndpointName 文字列必須 DevEndpoint の名前レスポンス応答パラメータはありません 356

364 AWS Glue 開発者ガイド GetDevEndpoint (get_dev_endpoint) エラー EntityNotFoundException InternalServiceException OperationTimeoutException InvalidInputException GetDevEndpoint アクション (Python: get_dev_endpoint) 指定した DevEndpoint に関する情報を取得しますリクエスト EndpointName 文字列必須情報を取得する DevEndpoint の名前レスポンス DevEndpoint DevEndpoint オブジェクト DevEndpoint 定義エラー EntityNotFoundException InternalServiceException OperationTimeoutException InvalidInputException GetDevEndpoints アクション (Python: get_dev_endpoints) この AWS アカウントのすべての DevEndpoints を取得しますリクエスト MaxResults - 数値 ( 整数 ) 返される情報の最大サイズ NextToken 文字列継続トークン ( これが継続呼び出しの場合 ) レスポンス DevEndpoints - DevEndpoint (p. 352) の配列 DevEndpoint 定義のリスト 357

365 AWS Glue 開発者ガイド共通データ型 NextToken 文字列 DevEndpoint 定義のすべてがまだ返されていない場合は継続トークンエラー EntityNotFoundException InternalServiceException OperationTimeoutException InvalidInputException 共通データ型タグ構造 AWS タグフィールド key 文字列タグキー value 文字列タグ値 DecimalNumber 構造 10 進数形式の数値が含まれますフィールド UnscaledValue - Blob スケールされていない数値 Scale - 数値 ( 整数 ) スケールされていない値のどの位置に小数点を置くかを決定するスケール ErrorDetail 構造エラーに関する詳細情報が含まれていますフィールド ErrorCode - Single-line string pattern (p. 359) に一致する文字列このエラーに関連付けられたコード ErrorMessage - URI address multi-line string pattern (p. 359) に一致する説明文字列 358

366 AWS Glue 開発者ガイド PropertyPredicate エラーを説明するメッセージ PropertyPredicate 構造プロパティの述語を定義しますフィールド Key - 値の文字列プロパティのキー Value - 値の文字列プロパティの値 Comparator - 文字列 ( 有効な値 : EQUALS GREATER_THAN LESS_THAN GREATER_THAN_EQUALS LESS_THAN_EQUALS) このプロパティを他のプロパティと比較するために使用されたコンパレータ ResourceUri 構造関数リソースの URI フィールド ResourceType - 文字列 ( 有効な値 : JAR FILE ARCHIVE) リソースのタイプ Uri - URI address multi-line string pattern (p. 359) に一致する Uniform Resource Identifier (uri) ( 統一されたリソース識別子 ) リソースにアクセスするための URI 文字列パターン API は次の正規表現を使用してさまざまな文字列パラメータおよびメンバーの有効なコンテンツを定義します単一行の文字列パターン - [\u0020-\ud7ff\ue000-\ufffd\ud800\udc00-\udbff\udfff \t]* URI アドレスの複数行の文字列パターン - [\u0020-\ud7ff\ue000-\ufffd\ud800\udc00- \udbff\udfff\r\n\t]* Logstash Grok 文字列パターン - [\u0020-\ud7ff\ue000-\ufffd\ud800\udc00-\udbff \udfff\r\t]* 識別子文字列パターン - [A-Za-z_][A-Za-z0-9_]* AWS ARN 文字列パターン - arn:aws:iam::\d{12}:role/.* バージョン文字列パターン - ^[a-za-z0-9-_]+$ ロググループ文字列パターン - [\.\-_/#A-Za-z0-9]+ ログストリーム文字列パターン - [^:*]* 359

367 AWS Glue 開発者ガイド例外カスタム文字列パターン #8 "^$ arn:aws:kms:.*" カスタム文字列パターン #9 "arn:aws:glue:.*" 例外 AccessDeniedException 構造リソースへのアクセスが拒否されましたフィールド Message 文字列問題を説明するメッセージ AlreadyExistsException 構造作成または追加するリソースはすでに存在しますフィールド Message 文字列問題を説明するメッセージ ConcurrentModificationException 構造 2 つのプロセスが同時にリソースを変更しようとしていますフィールド Message 文字列問題を説明するメッセージ ConcurrentRunsExceededException 構造同時に実行されているジョブが多すぎますフィールド Message 文字列問題を説明するメッセージ CrawlerNotRunningException 構造指定されたクローラが実行されていません 360

368 AWS Glue 開発者ガイド CrawlerRunningException フィールド Message 文字列問題を説明するメッセージ CrawlerRunningException 構造クローラが既に実行されているためオペレーションを実行できませんフィールド Message 文字列問題を説明するメッセージ CrawlerStoppingException 構造指定されたクローラが停止していますフィールド Message 文字列問題を説明するメッセージ EntityNotFoundException 構造指定されたエンティティは存在しませんフィールド Message 文字列問題を説明するメッセージ IdempotentParameterMismatchException 構造同じ一意の識別子が 2 つの異なるレコードに関連付けられていましたフィールド Message 文字列問題を説明するメッセージ InternalServiceException 構造内部サービスエラーが発生しましたフィールド Message 文字列 361

369 AWS Glue 開発者ガイド InvalidExecutionEngineException 問題を説明するメッセージ InvalidExecutionEngineException 構造不明または無効な実行エンジンが指定されましたフィールド message 文字列問題を説明するメッセージ InvalidInputException 構造指定された入力は無効ですフィールド Message 文字列問題を説明するメッセージ InvalidTaskStatusTransitionException 構造あるタスクから次のタスクへの適切な移行が失敗しましたフィールド message 文字列問題を説明するメッセージ JobDefinitionErrorException 構造ジョブ定義が無効ですフィールド message 文字列問題を説明するメッセージ JobRunInTerminalStateException 構造ジョブ実行の終了状態は失敗を通知しますフィールド message 文字列問題を説明するメッセージ 362

370 AWS Glue 開発者ガイド JobRunInvalidStateTransitionException JobRunInvalidStateTransitionException 構造ジョブ実行でソース状態からターゲット状態への無効な移行が発生しましたフィールド jobrunid - Single-line string pattern (p. 359) に一致する文字列該当するジョブ実行の ID message 文字列問題を説明するメッセージ sourcestate 文字列 ( 有効な値 : STARTING RUNNING STOPPING STOPPED SUCCEEDED FAILED TIMEOUT) ソース状態 targetstate 文字列 ( 有効な値 : STARTING RUNNING STOPPING STOPPED SUCCEEDED FAILED TIMEOUT) ターゲット状態 JobRunNotInTerminalStateException 構造ジョブ実行は終了状態ではありませんフィールド message 文字列問題を説明するメッセージ LateRunnerException 構造ジョブランナーは遅延しますフィールド Message 文字列問題を説明するメッセージ NoScheduleException 構造該当するスケジュールはありませんフィールド Message 文字列問題を説明するメッセージ 363

371 AWS Glue 開発者ガイド OperationTimeoutException OperationTimeoutException 構造オペレーションがタイムアウトしましたフィールド Message 文字列問題を説明するメッセージ ResourceNumberLimitExceededException 構造リソースの数値制限を超えましたフィールド Message 文字列問題を説明するメッセージ SchedulerNotRunningException 構造指定されたスケジューラが実行されていませんフィールド Message 文字列問題を説明するメッセージ SchedulerRunningException 構造指定されたスケジューラは既に実行中ですフィールド Message 文字列問題を説明するメッセージ SchedulerTransitioningException 構造指定されたスケジューラが移行中ですフィールド Message 文字列問題を説明するメッセージ 364

372 AWS Glue 開発者ガイド UnrecognizedRunnerException UnrecognizedRunnerException 構造ジョブランナーが認識されませんでしたフィールド Message 文字列問題を説明するメッセージ ValidationException 構造値を検証できませんでしたフィールド Message 文字列問題を説明するメッセージ VersionMismatchException 構造バージョンの競合がありましたフィールド Message 文字列問題を説明するメッセージ 365

373 AWS Glue 開発者ガイド AWS Glue のドキュメント履歴以下の表は AWS Glue ドキュメントの重要な変更点をまとめたものです最新の API バージョン : 2018 年 04 月 10 日ドキュメントの最終更新日 : 2018 年 4 月 10 日変更説明日付ジョブのタイムアウトのサポート Support Scala ETL スクリプトと追加の実行の状態に基づくトリガージョブ XML データソースと新しいクローラ設定オプションをサポートします新しい変換 Amazon RDS データベースエンジンのサポートおよび開発のエンドポイントの機能強化 AWS Glue 初回リリースジョブ実行時のタイムアウトしきい値の設定に関する情報を追加しました Scala を ETL プログラミング言語として使用することについての追加の情報さらにトリガー API は ( すべての条件に加えて ) いずれかの条件が満たされたときの発生をサポートするようになりましたまたジョブは ( succeeded ジョブ実行に加えて ) failed または stopped のジョブ実行に基いてトリガーすることができます XML データソースとパーティション変更の新しいクローラオプションについての情報を追加しましたマップとフィルタの変換 Amazon RDS Microsoft SQL Server と Amazon RDS Oracle および開発エンドポイントの新機能についての情報を追加しましたこれは AWS Glue 開発者ガイドの最初のリリースです 2018 年 4 月 10 日 2018 年 1 月 12 日 2017 年 11 月 16 日 2017 年 9 月 29 日 2017 年 8 月 14 日 366

374 AWS Glue 開発者ガイド AWS の用語集最新の AWS の用語については AWS General Reference の AWS の用語集を参照してください 367

すべて見る

そこが知りたい！AWSクラウドのセキュリティ

そこが知りたい！AWSクラウドのセキュリティそこが知りたい! AWS クラウドのセキュリティ #AWSRoadshow 1 Twitter で AWS Cloud Roadshow に参加しよう! #AWSRoadshow 皆さんのご意見聞かせてください! 公式アカウント @awscloud_jp 最新技術情報イベント情報お得なクーポン情報など日々更新中! 2 自己紹介名前:鈴木宏昌スズキヒロアキ所属:AWSテクニカルトレーナー