Presentation Title Here - PDF 無料ダウンロード

Amazon Redshift AWS Black Belt Tech Webinar 2015 アマゾンウェブサービスジャパン株式会社下佐粉昭 2015/08/26 (2015/11/25 更新 ) 1

自己紹介名前下佐粉昭しもさこあきら Twitter - @simosako 所属アマゾンデータサービスジャパン株式会社技術本部ソリューションアーキテクト好きなAWSサービス:Redshift, RDS, S3 人間が運用等から開放されて楽になる系のサービスが好きです 2

アジェンダ Amazon Redshiftとはパフォーマンスを意識した表設計 Amazon Redshiftの運用 Workload Management (WLM) ユーザ定義関数 UDF まとめ補足資料 COPYコマンド 3

Amazon Redshift とは? 4

Amazon Redshiftの概要クラウド上のDWH 数クリックで起動使った分だけの支払い高いパフォーマンスハイスケーラビリティ高い汎用性 PostgreSQL互換のSQL 多くのBIツールがサポート 5

MPPとシェアードナッシングがスケールアウトの鍵 MPP : Massive Parallel Processing １つのタスクを複数のノードで分散して実行する仕組み Redshiftではリーダーノードがタスクをコンピュートノードに分散して実行するノードを追加するスケールアウトでパフォーマンス向上可能シェアードナッシングディスクをノードで共有しない構成ディスクを共有するとノード数が増えた時にボトルネックになるためそれを回避ノードとディスクがセットで増えていく 6

Redshiftの構成① リーダーノードがクライアントからSQLを受け取る SELECT * FROM lineitem; １つの表を各ノードのストレージに分散して保存シェアードナッシング Leaderノード Computeノード CPU 7 CPU CPU CPU CPU CPU

Redshiftの構成② スライスメモリとディスクをノード内で分割した論理的な処理単位 SQLをコンパイルコードを生成しコンピュートノードへ配信 SELECT * FROM lineitem; Leaderノードコンピュートノードの追加でパフォーマンス向上スケールアウト Computeノード CPU 8 CPU CPU CPU CPU CPU

ノードタイプ SSDベースのDCとHDDベースのDSから選択データは圧縮されて格納されるためストレージ総量より多くのデータが格納可能最大100ノード 1.6PByteまで拡張可能ノードタイプと数は後から変更可能価格は東京リージョンにおいて2015年11月25日時点のものです DC1 - Dense Compute vcpu メモリ(GB) ストレージノード数 dc1.large 2 15 0.16TB SSD 1~32 $0.314 /1時間 dc1.8xlarge 32 244 2.56TB SSD 2~100 $6.095 /1時間 DS2 Dense Storage 9 価格( ) New!! ds2.xlarge 4 31 2TB HDD 1~32 $1.190 /1時間 ds2.8xlarge 36 244 16TB HDD 2~100 $9.520 /1時間

補足リーダーノードと利用費用リーダーノードもコンピュートノードも同じノードタイプで構成されるリーダーノード分は利用費用が不要１ノード構成にした場合リーダーノードとコンピュートノードが１ノードに同居する 10

IOを削減する① - 列指向型カラムナ DWH用途に適した格納方法行指向型他RDBMS 列指向型 Redshift orderid name price orderid name price 1 Book 100 1 Book 100 2 Pen 50 2 Pen 50 n 11 Eraser 70 n Eraser 70

IOを削減する② - 圧縮データは圧縮してストレージに格納されるカラムナのため類似したデータが集まり高い圧縮率エンコード圧縮アルゴリズムは列ごとに選択可能 COPYコマンドやANALYZEコマンドで圧縮アルゴリズムの推奨を得ることが可能 12 analyze compression listing; Table Column Encoding ---------+----------------+---------listing listid delta listing sellerid delta32k listing eventid delta32k listing dateid bytedict listing numtickets bytedict listing priceperticket delta32k listing totalprice mostly32 listing listtime raw

IOを削減する③ - ゾーンマップ Redshiftはブロック単位でディスクにデータを格納１ブロック１MB 10 324 375 623 ブロック内の最小値と最大値をメモリに保存不要なブロックを読み飛ばすことが可能 13 10 13 14 26 100 245 324 375 393 417 512 549 623 637 637 712 809 959 834 921 959

フルマネージドサービス設計構築運用の手間を削減数クリックで起動１時間単位の費用ノード数やタイプは後から変更可能バックアップ(Snapshot)やモニタリング機能を内蔵 GUI マネジメントコンソール API経由で操作も可能パッチ適用も自動的メンテナンスウィンドウでパッチの時間帯を指定可能 14

Redshiftが向く用途特化型のデータベースのため適した用途に使うことでパフォーマンスを発揮します Redshiftに向くワークロード巨大なデータセット数百GB ペタバイト１つ１つのSQLが複雑だが同時実行SQLは少ないデータの更新は一括導入ユースケースデータウェアハウス DWH ユーザがクエリーを作成する自由クエリー BI等 15

Redshiftの特徴を生かせないユースケース SQLの並列実行数が多い同時接続数ではなく同時実行数 RDS MySQL,PostgreSQL, Oracle, SQL Server)を検討極めて短いレーテンシが必要なケース ElastiCache (インメモリDB)やRDSを検討ランダムかつパラレルな更新アクセス RDSもしくはDynamoDB (NoSQL)を検討巨大なデータを格納するが集計等はしない DynamoDBや大きいインスタンスのRDSを検討 16

Amazon Redshiftの位置づけデータストアの特性に応じた使い分け低レンテンシインメモリトランザクション処理汎用用途 SQL Amazon RDS 17 集計分析処理大容量データ DWH Amazon DynamoDB Amazon ElastiCache 3拠点間でのレプリケーション SSDに永続化 NoSQL Amazon Redshift

パフォーマンスを意識した表設計 18

DDLによるパフォーマンスの最適化ディスクIOを削減するサイズを減らす読む範囲を減らすノード間通信を削減する通信しないようなデータ配置 19

ディスクIOを削減する型を適切に選択する型を適切に選択してサイズを節約する 20 不必要に大きい型を選択しない BIGINT(8バイト)よりも INT(4バイト)やSMALLINT(2バイト) FLOAT(8バイト)よりも REAL(4バイト日付は文字列(CHAR)で格納せずTIME型を使用

Redshiftで利用可能な型下表の型をサポート charはシングルバイトのみサポート varcharはutf-8形式でのマルチバイトをサポート参照 http://docs.aws.amazon.com/ja_jp/redshift/latest/dg/c_unsupported-postgresql-datatypes.html 21

ディスクIOを削減する適切な圧縮方法の選択圧縮を行うことで一度のディスクアクセスで読み込めるデータ量が多くなり速度の向上が見込める圧縮のエンコードアルゴリズムが複数用意されており CREATE TABLEで各列に選択することが可能 CREATE TABLE table_name ( 列名型 ENCODE エンコード, ) 動的には変更できない (作りなおして INSERT SELECT 22

圧縮エンコーディングの種類データの特性に応じたエンコーディングを選択するのが理想 ANALYZE COMPRESSIONコマンドで推奨を確認可能先にデータの投入が必要 LZOは比較的多くのケースで有効 23

圧縮エンコーディングの確認 pg_table_def のencoding列で確認可能 mydb=# select "column",type,encoding from pg_table_def where tablename='customer_enc'; column type encoding --------------+-----------------------+---------c_custkey integer delta c_name character varying(25) lzo c_address character varying(25) lzo c_city character varying(10) bytedict c_nation character varying(15) bytedict c_region character varying(12) bytedict c_phone character varying(15) lzo c_mktsegment character varying(10) bytedict 24 24

ディスクアクセスの範囲を最小にする SORTKEY SORTKEYに応じてディスク上にデータが順序を守って格納クエリーオプティマイザはソート順序を考慮し最適なプランを構築 CREATE TABLE時に指定複数列が指定可能 CREATE TABLE t1( ) SORTKEY (c1,c2 ) SORTKEYの使いどころ頻繁に特定のカラムに対して範囲または等式検索を行う場合例時刻列頻繁にジョインを行う場合該当カラムをSORTKEYおよびDISTKEYとして指定ハッシュジョインの代わりにソートマージジョインが選択される 25 25

SORTKEY の例 orderdate 列をSORTKEY に指定した場合 orderid I0001 I0002 I0003 I0004 orderdate 2013/07/17 2013/07/18 2013/07/18 2003/07/19 SELECT * FROM orders WHERE orderdate BETWEEN 2013-08-01 AND I0020 2013-08-31 ; I0021 I0022 クエリで必要なデータが固まっているた I0023 めディスクアクセス回数が減少 26 2013/08/20 2013/08/21 2013/08/22 2013/08/22

Interleaved Sort Key New!! 新しいSort keyのメカニズム最大８つまでのSort Key列を指定できそれぞれ同等に扱われる CREATE TABLE ~ INTERLEAVED SORTKEY (deptid, locid); 旧来のSortで複数のキーを指定する場合 Compound Sort Key)とは特性が異なり各列を同等に扱う Interleaved Sort Keyが有効なケースどのキーがWHERE句で指定されるか絞り切れないケース複数キーのAND条件で検索されるケース 27

Interleaved Sort Keyのデータ配置イメージ Interleaved Sort Key Compound Sort Key DeptId LocId 28 DeptId LocId DeptId LocId DeptId LocId 1 A 3 A 1 A 3 A 1 B 3 B 1 B 3 B 1 C 3 C 2 A 4 A 1 D 3 D 2 B 4 B 2 A 4 A 1 C 3 C 2 B 4 B 1 C 3 D 2 C 4 C 2 D 4 C 2 D 4 D 2 D 4 D DeptId = 1 -> 1 block LocId = C -> 4 block DeptId = 1 -> 2 block LocId = C -> 2 block DeptId=1 and LocId=C-> 1 block

データの平準化:各ノードのデータサイズが著しく異なるとパフォーマンスに影響が出るノード間のデータ容量の偏りはクエリー実行時間に影響を与える CPU 29 CPU CPU CPU CPU CPU

データの転送を最小限にするリーダーノードに各ノードの結果を集約 30 自ノードに必要なデータがない場合データ転送が発生 - 単一ノード - ブロードキャスト

ディストリビューションの選択 CREATE TABLE t( ) DISTSTYLE { EVEN KEY ALL } EVEN KEY(DISTKEY) ラウンドロビンで均一分散デフォルト Slice 1 Slice 2 Node 1 31 Slice 3 Slice 4 Node 2 同じキーを同じ場所に Slice 1 Slice 2 Node 1 Slice 3 Slice 4 Node 2 ALL 全ノードにデータをコピー Slice 1 Slice 2 Node 1 Slice 3 Slice 4 Node 2

EVEN vs. DISTKEY １ EVEN DISTKEY=p_partkey select trim(name) tablename, slice, sum(rows) from stv_tbl_perm where name='part' group by name, slice order各スライスに均等に分散 by slice; tablename slice sum -----------+-------+--------part 0 1600000 part 1 1600000 part 126 1600000 part 127 1600000 32 キーのカーディナリティに依存 tablename slice sum -----------+-------+--------part 0 1596925 part 1 1597634 part 126 1610452 part 127 1596154

EVEN vs. DISTKEY ２ DISTKEY = p_brand tablename slice sum -----------+-------+--------part 0 0 part 1 0 part 2 0 part 3 0 part 4 8193350 part 118 8193342 part 119 0 part 120 16384823 part 121 8191943 33 カーディナリティの低いカラムではデータの極端な偏りが生じる場合がある = クエリー処理効率の低下

ALL 全レコードが各ノードの特定スライスに集約 34 tablename slice sum -----------+-------+--------part 0 204800000 part 1 0 part 2 0 part 3 0 part 4 0 part 96 204800000 part 97 0 part 98 0 各ノードの先頭スライスに全レコードが格納される

コロケーション１関連するレコードのコロケーションジョイン対象となるレコードを同一ノードに集めるコロケーションの方法 1. ジョインに使用するカラムをDISTKEYとして作成または 2. 分散方式 ALLでテーブルを作成マスターテーブルなど select sum(l_extendedprice* (1 - l_discount)) as revenue from lineitem, part Where (p_partkey = l_partkey 35 1. それぞれをDISTKEYとして作成または 2. テーブルをALLで作成

コロケーション (2):DISTKEY part 6200995 almond pale linen Manufacturer#3 Brand#32 lineitem 5024338535 6200995 0.01 0.08 A F 1992-01-02 1992-02-14 part 2201039 almond pale linen Manufacturer#1 Brand#11 lineitem 121932093 2201039 0.05 0.43 D E 1994-07-11 1994-08-23 36

コロケーション (3):ALL 更新 : 全ノードにレプリケーションクエリー : ジョインはローカルで完結 part p_partkey lineitem part p_partkey lineitem l_partkey l_partkey 37

テーブル設計のポイントディスクIOを最小にする適切な型の選択適切な圧縮アルゴリズムソートキーの設定ネットワーク転送を最小にする小規模なテーブルマスターテーブルはALLで作成する多くのテーブルはEVENで作成するだけで十分なパフォーマンスが出ることが多いジョインのパフォーマンスを最適化するにはジョイン対象のキーを DISTKEYで作成コロケーション大福帳のようなジョイン済非正規化表はEVENで分散 38

Amazon Redshift の運用 39

Amazon Redshiftへのデータ投入オーバービューソースDB AWS Direct Connect Amazon RDS Data Volume Amazon Glacier Amazon Elastic MapReduce EC2/オンプレ (SSH経由) Amazon DynamoDB VPN Connection Amazon S3 logs / files S3 Multipart Upload オンプレミスデータセンター 40 Amazon Redshift AWS Cloud

S3を起点としたRedshift運用の基本的な流れ 1. ロードするデータファイルをS3に置く S3 COPY 2. COPYコマンドでデータを高速ロード 3. Analyze Vacuumを実行 4. バックアップ SNAPSHOT を実行 5. SQLを投入して利用開始 1.へ戻る 41 運用コマンド Redshift SQL 管理者一般ユーザ

S3からデータをCOPYするファイルをS3のバケットに置くカンマや等で区切られたテキストファイル形式(delimiterオプションで指定文字コードはUTF-8(デフォルトとUTF-16をサポートファイルサイズが大きい場合は圧縮し後述マルチパートアップロードする Redshiftに接続してcopyコマンドを実行 S3にアクセスするためのアクセスキーが必要別リージョン内のS3バケットからのCOPYも可能 (REGIONオプションを指定自動圧縮される列にエンコーディング定義がなくかつ1行も導入されていない場合に実施される COMPUPDATE OFFオプションを指定すると自動圧縮無しでCOPY copy customer from 's3://mybucket/customer/customer.tbl credentials 'aws_access_key_id=<access-key-id>;aws_secret_access_key=<secret-access-key> delimiter ' ' 42

COPYの速度を上げるには元ファイルを圧縮する(gzipもしくはlzo) COPYでgzip もしくはlzoオプションを指定ファイルを分割するスライス数の倍数が最適並列にロードされるため高速にロード可能ファイル名は customer.tbl.1.gz, customer.tbl.2.gz のように指定した名前で前方一致出来るように作成 copy customer from 's3://mybucket/customer/customer.tbl credentials 'aws_access_key_id=<access-key-id>;aws_secret_access_key=<secret-access-key> gzip delimiter ' ' 43

制約について Redshiftには制約が存在しないユニーク制約プライマリーキー外部キー検査制約が無いユーザ側の工夫でユニーク性を担保する例一旦データをテンポラリ表にインサートもしくはCOPYし SELECT DISTINCTしたデータをインサートする制約やプライマリーキーの作成は可能作成する事でオプティマイザーにデータの特性情報を伝えることが可能 44

テーブルのANALYZE 統計情報はクエリプラン決定の元データとして利用される ANALYZEコマンドで統計情報を最新に保つことで最適なパフォーマンスを維持データベース全体 ANALYZEコマンド単一のテーブルデータ投入や更新の後定期的にデータベース全体にANALYZEを実行新しいテーブルを作ったらANALYZEを実行 45 テーブルの特定の列 ANALYZEコマンドは行のサンプルを取得し計算を行った後に統計情報を保存統計情報よく使われる列はANALYZEを行うソートやグループ化結合の対象 WHERE句の条件

テーブルのVACUUM Redshiftのデータ更新は追記型削除しても削除がマークされるだけでディスク上にはデータが残っている VACUUMコマンドで不要領域を削除コンパクションし同時にソート順にデータを並べ替える x 1,2,3,4 xxx RFK,JFK,LBJ,GWB xxxxxxxxxxxxxxx 900 Columbus,800 Washington, 700 Foxborough,600 Kansas VACUUM Customer; 1,2,4 46 RFK,JFK,GWB DELETE/UPDATEによって空いた未使用領域はVACUUMコマンドを実行することでコンパクションされる 900 Columbus,800 Washington,600 Kansas

VACUUMコマンド VACUUM [ FULL SORT ONLY DELETE ONLY REINDEX ] [ table_name ] 通常はFULLを実行コンパクションソートコンパクションだけ実行するにはDELETE ONLY ソートだけ実行するにはSORT ONLY Interleaved Sortした表にはREINDEXを指定コンパクション Interleaved Sort順に並べ替えを実行 47

バックアップ機能スナップショットディスクイメージをS3へバックアップ自動スナップショット手動スナップショットユーザが任意のタイミングで実行マネジメントコンソールから Take Snapshot を選択し任意のIDを付けるだけでバックアップ開始 48

他リージョンへのスナップショット既存クラスタのスナップショットを別リージョンに作成可能リテンションピリオド保存期間の指定も可能最大35日 New!! KMS暗号化済のスナップショット転送にも対応リージョン間のデータ転送費用が発生 49

RedshiftのモニタリングコンソールビルトインのGUI リソース使用率 EXPLAIN 実行クエリー履歴等 API経由でデータ取得可能 CloudWatch 50

Redshiftへの接続(1) JDBCとODBCの専用ドライバーが用意されている管理コンソールからラウンロード可能 PostgreSQLとプロトコル互換性が有り PostgreSQLドライバーでも接続可能 psqlコマンドでも接続可能極力Redshift専用ドライバーの利用を推奨 51

Redshiftへの接続(2) RedshiftにパブリックIPを付与して AWS外から直接接続が可能 New!! : 2015/11/20 パブリックIPの付与取り外しは動的に変更可能です考慮点１暗号化 ODBCもJDBCもSSLで暗号化可能ただしJDBCの場合KeytoolでSSL Certificateの導入が必要考慮点２ TCP/IP通信の切断防止長い時間が掛かるSQLやCOPYを実行すると応答を待ちきれずにTCP/IP接続が切断されるケースがありえます JDBCやODBCの接続パラメータもしくはアプリからドライバに対して設定 Redshift専用のJDBC/ODBCドライバではKeep AliveがデフォルトでON もしくはクライアント側のTCP/IP設定を変える OS内の全アプリが影響を受けます 52 https://docs.aws.amazon.com/ja_jp/redshift/latest/mgmt/connecting-sslsupport.html#connecting-ssl-support-java http://docs.aws.amazon.com/redshift/latest/mgmt/connecting-firewall-guidance.html

Workload Management (WLM) 53

Workload Management (WLM) 実行に長い時間を用するクエリーロングクエリーはクラスタ全体のボトルネックとなりショートクエリーを待たせる可能性がある WLMで用途ごとにクエリー並列度の上限を設けた複数のキューを定義することでクエリー処理の制御が可能 54

Workload Management 実行に長い時間を用するクエリー ( ロングクエリー ) はクラスタ全体のボトルネックとなりショートクエリーを待たせる可能性がある WLM で用途ごとにクエリー並列度の上限を設けた複数のキューを定義することでクエリー処理の制御が可能デフォルトでは Redshift クラスタは単一のキューで構成されている Default queue Running 55

WLM の実装 (1) User Group A Long Query Group Long-running queue 56 Short-running queue

WLMの実装２１５ 57

WLMの効果キュー単位でクエリー並列度を保障メモリのアロケーションも指定可能特定ユーザ群によるクラスタ占有を回避最大クエリー実行時間による制御も可能並列度の増加は必ずしも性能の向上にはつながらない -> リソース競合の可能性 58

WLMパラメータとパラメータの動的変更 New!! 新しくWLMのパラメータにdynamicとstaticの区別が用意され dynamicはredshiftを再起動せずにパラメータ変更が可能に dynamic parameter Concurrency(並列実行数), Percent of memory to use (メモリ使用量) static parameter 59 User groups User group wildcard Query groups Query group wildcard Timeout

UDF ( ユーザ定義関数 ) 2015/09/13: 資料追加 60

RedshiftのUDFサポート NEW! クラスターバージョン v.1.0.991以降で利用可能 UDF ユーザ定義関数ユーザが独自の関数を定義できる機能 Python言語で記述スカラー関数の作成をサポートスカラー１つの入力値ごとに１つの値を返す関数 61

UDF定義の例例引数aとbを比較して大きい方を返すUDF CREATE FUNCTION f_greater (a float, b float) RETURNS float STABLE AS $$ if a > b: return a return b $$ LANGUAGE plpythonu; SELECT f_greater (c1, c2) FROM t1 62

UDFの登録~実行 1. 2. 3. UDFを登録リーダーノードでバイトコードにコンパイルし各コンピュートノードに転送 SQLからUDFが呼び出されると各コンピュートノード内でPythonインタプリタが起動して実行 UDFを実行するPythonインタープリタはサンドボックス環境に置かれリソースが制限されている CREATE FUNCTION Python インタープリタバイトコード 63 Python インタープリタバイトコードリーダーノード Python インタープリタバイトコードコンピュートノード

UDFの定義 CREATE [OR REPLACE] FUNCTION f_function_name ( [引数の名前引数の型,... ] ) RETURNS data_type { VOLATILE STABLE IMMUTABLE } AS $$ (ここにコード $$ LANGUAGE plpythonu; 名前は既存関数と被らないように注意引数が異なる関数は別のものとして定義可能オーバーロード可能例 f_を先頭に付けるといったルールでredshift既存関数との名前被りを避ける(f_はRedshiftビルトイン関数では使わない事が保証されているもしくはスキーマで分けるただしデフォルトではビルトイン関数が優先されるので注意 SET search_pathで調整は可能 Redshiftの型はPythonの型に変換されるためその型と Pythonプログラム側の型が合っている必要がある 64

UDFの定義② - 型変換 Redshiftのdecimal がPythonのfloatにマッピングされる点に注意 65 Redshiftの型 Pythonの型 smallint integer bigint long long short long decimal double real float boolean bool char varchar string timestamp datetime

UDFの定義③ - 最適化オプション CREATE [OR REPLACE] FUNCTION f_function_name ( [引数の名前引数の型,... ] ) RETURNS data_type { VOLATILE STABLE IMMUTABLE } AS $$ (ここにコード $$ LANGUAGE plpythonu; VOLATILE デフォルト同じ引数であっても異なる値が変える可能性を指定実行するたびに毎回計算しなおします STABLE １クエリー内での処理中でかつ同一の引数の場合に同じ結果が返る関数に指定オプティマイザーは一度実行した結果をクエリー内で再利用します IMMUTABLE 同一の引数であれば常に同じ結果が返る関数に指定オプティマイザーは関数を即値に置き換えます 66

UDFで利用可能なPythonライブラリ import文でライブラリを読み込み可能 Python 2.7.8標準ライブラリが導入済 https://docs.python.org/2/library/index.html ただし以下は含まない ScrolledText Tix Tkinter tk turtle smtpd 加えて以下のライブラリを含んでいる 67 numpy 1.8.2 pandas 0.14.1 python-dateutil 2.2 pytz 2014.7 scipy 0.12.1 six 1.3.0 wsgiref 0.1.2

カスタムライブラリ機能独自のPythonのライブラリを登録しておいて UDFで使う事が可能 CREATE LIBRARY library_name LANGUAGE plpythonu FROM { 'https://file_url' 's3://bucketname/file_name' [ WITH ] CREDENTIALS [AS] 'aws_access_credentials' [ REGION [AS] 'aws_region' ] [ ENCRYPTED ] } 登録できるのはSuper Userのみ S3もしくはHTTPSアクセス可能なところにライブラリファイルを置き名前を付けて登録 68 *.tar.gzか*.zip形式で保存 Python 2.7.6以降で動くもの PG_LIBRARY表に登録ライブラリ一覧が記録されます CREDENTIALはS3から読み取る場合に必要 AWSのアクセスキー

権限 UDFの作成 Admin以外がUDFを作成にするは権限付与が必要例 GRANT USAGE ON LANGUAGE plpythonu TO ユーザ名; UDFの削除リプレース Admin もしくはUDFの作者のみ可能 UDFの実行 UDFへの実行 EXECUTE)パーミッションが必要ただし新規に作成されるUDFはPUBLICユーザグループのEXECUTE権限で実行が可能上記をやめるには PUBLICからEXECUTE権限をREVOKEする参照 http://docs.aws.amazon.com/ja_jp/redshift/latest/dg/udf-security-andprivileges.html 69

UDF 注意点１ UDFからはネットワークアクセスやファイルIOは出来ないように制限されている２ユーザライブラリの登録は合計100MBまで３ UDFの並列実行はWLM設定の1/4に制限される例 WLMの並列度１５のキューでは UDFの並列度は3 70

まとめ DWH的用途に特化したRDB ペタバイト級まで拡張可能クラウドの良さを活かせるDWH マネージドサービス機器セットアップやインストールの手間なしバックアップスナップショットが自動その他運用に必要な各種機能モニタリング EXPLAIN等をビルトインで提供チューニングポイント 71 ディスクIOの削減圧縮ソートキーネットワーク通信の削減分散の調整 Workload Management

Redshift 参考資料ドキュメント https://aws.amazon.com/jp/documentation/redshift/ フォーラム https://forums.aws.amazon.com/forum.jspa?forumid=155& start=0 新機能アナウンスメント https://forums.aws.amazon.com/thread.jspa?threadid=132 076&tstart=25 Amazon Redshift Utils on github https://github.com/awslabs/amazon-redshift-utils 72

Q&A 次回 Webinar のお申し込み http://aws.amazon.com/jp/event_schedule/ 73

Webinar資料の配置場所 AWS クラウドサービス活用資料集 http://aws.amazon.com/jp/aws-jp-introduction/ 74

公式 Twitter/Facebook AWS の最新情報をお届けします @awscloud_jp 検索最新技術情報イベント情報お役立ち情報お得なキャンペーン情報などを日々更新しています! 75 もしくは http://on.fb.me/1vr8ywm

AWS初心者向けWebinar AWSをこれからご使用になる向けのソリューションカットのオンラインセミナー http://aws.amazon.com/jp/about-aws/events/ 76

ご参加ありがとうございました 77

補足資料 :COPY コマンド 78

MANIFESTファイルによるファイル指定 MANIFESTファイルにより特定のファイル群をS3バケットからCOPYできる { "entries": [ {"url":"s3://mybucket-alpha/2013-10-04-custdata", "mandatory":true}, {"url":"s3://mybucket-alpha/2013-10-05-custdata", "mandatory":true}, {"url":"s3://mybucket-beta/2013-10-04-custdata", "mandatory":true}, {"url":"s3://mybucket-beta/2013-10-05-custdata", "mandatory":true} ] } 79

COPYコマンドその他の機能 JSONファイルのCOPY データ構造の自動認識あるいはJSONPathによる定義 New!! Avroフォーマットへの対応 Amazon EMRからの読み込みクラスタID HDFSのパス copy sales from 'emr:// j-1h7ouo3b52hi5/myoutput/part*' credentials 'aws_access_key_id=<access-key-id>;aws_secret_access_key=<secret-accesskey>'; 80