dynamodb-deepdive-DMM勉強会[30min]1

Amazon DynamoDB Yuko Mori Solutions Architect Amazon Data Services Japan K.K.

自己紹介森祐孝 ( もりゆうこう ) アマゾンデータサービスジャパン株式会社ソリューションアーキテクト経歴 Sier などでアプリケーション開発 PL PM などを担当ゲーム会社 ( テクニカルディレクタ ) ブラウザソーシャルゲームスマートフォン向けソーシャルゲーム担当ソーシャルゲームコンソールゲーム系のお客様の AWS 構築支援

Agenda DyanamoDBとは Table, API, Data Type Indexes Scaring ユースケース & ベストプラクティス DynamoDB Streams

DyanamoDB とは

Amazon DynamoDB の生い立立ち Amazon.com ではかつて全てのアクセスパターンを RDBMS で処理理していた RDBMS のスケールの限界を超えるため開発された Dynamo が祖先結果整合性モデル採用による可用性向上 HW を追加する毎に性能が向上するスケーラビリティシンプルなクエリモデルによる予測可能な性能

Amazon DynamoDB の特徴完全マネージド型の NoSQL データベースサービスストレージの容量量制限がない運用管理理必要なしハイスケーラブル低レイテンシー高可用性 3x レプリケーションシンプル且つパワフル API クライアント

Tables, API, Data Types

Table table items attributes 必須キーバリュー型のアクセスパターンデータ分散に利用される Hash Key Range Key オプション 1:N モデルのリレーションシップ豊富な Query をサポートハッシュキー検索用 ==, <, >, >=, <= begins with between sorted results counts 先頭 / 末尾 N 件ページ単位出力

Table API CreateTable Query UpdateTable Scan DeleteTable DescribeTable BatchGetItem ListTables BatchWriteItem GetItem PutItem UpdateItem DeleteItem DynamoDB In preview Streams API Liststreams DescribeStream GetShardIterator GetRecords

AWS SDKs and CLI 各種言語むけのオフィシャル SDK や CLI を利用 Java Python PHP.NET Ruby nodejs Javascript in the Browser ios Android AWS CLI

Data Types String (S) Number (N) Binary (B) String Set (SS) Number Set (NS) Binary Set (BS) Boolean (BOOL) Null (NULL) List (L) Map (M) JSON 用に定義

Document データ型 (JSON) データタイプ (M, L, BOOL, NULL) として JSON をサポート Document SDKs 単純なプログラミングモデル JSON から JSON への変換 Java, JavaScript, Ruby,.NET Javascript string number boolean null array object DynamoDB S N BOOL NULL L M

Hash Table Hash key は単体でプライマリキーとして利用順序を指定しないハッシュインデックスを構築するためのキーテーブルは性能を確保するために分割 ( パーティショニング ) される場合がある Id = 1 Name = Jim Hash (1) = 7B Id = 2 Name = Andy Dept = Engg Hash (2) = 48 Id = 3 Name = Kim Dept = Ops Hash (3) = CD 00 00 54 55 Key Space A9 AA FF

データは 3 箇所にレプリケーション Id = 2 Name = Andy Dept = Engg Id = 1 Name = Jim Id = 3 Name = Kim Dept = Ops Replica 1 Id = 2 Name = Andy Dept = Engg Id = 1 Name = Jim Id = 3 Name = Kim Dept = Ops Replica 2 Id = 2 Name = Andy Dept = Engg Id = 1 Name = Jim Id = 3 Name = Kim Dept = Ops Replica 3 Partition 1 Partition 2 Partition N

Hash-Range Table Hash + Range でプライマリキーとすることもできる Hash key に該当する複数のデータの順序を保証するために Range key が使われる Hash Key の数に上限はありません (Local Secondary Indexes を使用時は上限あり ) Partition 1 Partition 2 Partition 3 00:0 54: 55 A9: AA FF: Customer# = 2 Order# = 10 Item = Pen Customer# = 2 Order# = 11 Item = Shoes Customer# = 1 Order# = 10 Item = Toy Customer# = 1 Order# = 11 Item = Boots Customer# = 3 Order# = 10 Item = Book Customer# = 3 Order# = 11 Item = Paper Hash (2) = 48 Hash (1) = 7B Hash (3) = CD

DynamoDB の整合性モデル Write 少なくとも 2 つのレプリカでの書き込み完了了が確認とれた時点で Ack Read デフォルト結果整合性のある読み込み最新の書き込み結果が反映されない可能性がある Consistent Read オプションを付けたリクエスト強い整合性のある読み込み Read リクエストを受け取る前までの Write がすべて反映されたレスポンスを保証

Indexes

Local Secondary Index (LSI) Range key 以外に絞り込み検索を行う key を持つことができる Hash key が同一で他のアイテムからの検索のために利用すべての要素 ( テーブルとインデックス ) の合計サイズを各ハッシュキーごとに 10 GB に制限 Table A1 (hash) A2 (range) A3 A4 A5 LSIs A1 (hash) A1 (hash) A1 (hash) A3 (range) A4 (range) A5 (range) A2 (table key) A2 (table key) A2 (table key) KEYS_ONLY A3 (projected) A3 (projected) INCLUDE A3 A4 (projected) ALL

Global Secondary Index (GSI) Hash Key 属性の代わりとなる Hash Key をまたいで検索を行うためのインデックス Table A1 (hash) A2 A3 A4 A5 A2 (hash) A1 (table key) KEYS_ONLY GSIs A5 (hash) A4 (range) A1 (table key) A3 (projected) INCLUDE A3 A4 (hash) A5 (range) A1 (table key) A2 (projected) A3 (projected) ALL

GSI の更新フロー Client Table Primary Primary table Primary table Primary Global table Secondary table Index 2. 非同期 Update (in progress) GSI にはテーブルとは独立したスループットをプロビジョンして利用するため十分なスループットが必要

Scaling

Scaling スループット DynamoDB はテーブル単位で読み書きのスループットを指定する必要がある ( プロビジョニングするスループットキャパシティ ) サイズテーブルには任意の数のアイテムが追加可能 1 つのアイテムの合計サイズは 400 KB local secondary index について異なるハッシュキーの値ごとに最大 10GB のデータを格納

スループットテーブルレベルによってプロビジョニング Read Capacity Units (RCU) 1 秒あたりの読み込み項目数 x 項目のサイズ (4 KB ブロック ) 結果整合性のある読み込みをする場合はスループットが 2 倍例 1) アイテムサイズ :1.2KB(1.2/ 4 = 0.3 1 繰り上げ ) 読み込み項目数 1000 回 / 秒 1000 1 = 1000 RCU 例 2) アイテムサイズ :4.5KB (4.5 / 4 1.1 2 繰り上げ ) 読み込み項目数 1000 回 / 秒 1000 2 = 2000 RCU 結果整合性のある読み込みの場合 1000 2 ½ = 1000 RCU

スループット Write Capacity Units (WCU) 1 秒あたりの書き込み項目数 x 項目のサイズ (1 KB ブロック ) 1KB を下回る場合は繰り上げられて計算例 1) アイテムサイズ :512B(0.512/ 1 0.5 1 繰り上げ ) 書き込み項目数 1000 項目 / 秒 1000 1 = 1000 WCU 例 2) アイテムサイズ :2.5KB (2.5 / 1 = 2.5 3 繰り上げ ) 書き込み項目数 1000 項目 / 秒 1000 3 = 3000 WCU 読み込みと書き込みのキャパシティユニットは独立して設定 RCU WCU

スループットの設定 1 概算の見積もりからキャパシティユニットを大きめに設定 2CloudWatch にて負荷試験実運用で様子を見てキャパシティユニットを調整あまり大きくし設定し過ぎるとパーテション分割時のキャパシティ分割に注意

パーティショニング DynamoDB はプロビジョンされたスループットキャパシティを確保するためにテーブルを複数のパーティションに分散して格納 table ハッシュキーをパーティション間でのデータ分散に利利用し格納ストレージサイズやプロビジョンされたスループットによって自動的にパーティショニングが実施 partitions 1.. N partition 1..N

パーティショニングの算出 11 つのパーティションに対して最大 3,000 個の読み込みキャパシティーユニットまたは 1,000 個の書き込みキャパシティーユニットを割り当てられる # of Partitions (for throughput) = RCU 678 89:;< 3000 RCU + WCU 678 A8BC9< 1000 WCU 2 単一のパーティションには約 10 GB のデータを保持される # of Partitions = (for size) Table Size in GB 10 GB

パーティショニングの算出方法大きいほうを採用 (total) (for size) (for throughput) table partitions 1.. N

パーティショニング算出例スループット # of Partitions (for throughput) ストレージサイズ # of Partitions = M NO PQ NO = 0.8 = 1 (for size) 大きいほうを採用 = Table size = 8 GB, RCUs = 5000, WCUs = 500 RQQQ STU VQQQ WXY + RQQ ZTU PQQQ [XY = 2.17 = 3 (total) RCU と WCU の値は均一に各パーテションに割り当てられます RCUs per partition = 5000/3 = 1666.67 WCUs per partition = 500/3 = 166.67 Data/partition = 8/3 = 2.66 GB

DynamoDB のスループットを最大限に活用 DynamoDB のスループットを最大限に活用するにはテーブルを作成するときにハッシュキー要素に個別の値が多数含まれできるだけランダムかつ均一に値がリクエストされるようにします Space: キーアクセスはなるべく均等になるように Time: リクエストはなるべく均等な間隔で DynamoDB Developer Guide

Example: Hot Keys Partition Heat Time

Example: Periodic spike

DynamoDB の料金体系プロビジョニングされたスループットで決まる時間料金 Read/Write それぞれプロビジョンしたスループットによって時間あたりの料金がきまる大規模に利用するのであればリザーブドキャパシティによる割引もありストレージ利用量保存したデータ容量によって決まる月額利用料金計算は GB あたりの単価が適用される詳細はこちらを参照 http://aws.amazon.com/jp/dynamodb/pricing/

ユースケース及びベストプラクティス

リアルタイム投票システム Write-heavy items

投票システムの要件投票は一回のみ一度投票したものは変えられないリアルタイムに集計投票者の統計分析を行いたい

リアルタイム投票システムのアーキテクチャ投票 Table Voters Voting App 票集計 Table

スケールすることによるボトルネック Voters 200,000 WCUs を設定 Partition 1 1000 WCUs Partition K 1000 WCUs Partition M 1000 WCUs Partition N 1000 WCUs Candidate A Candidate B 投票 Table

シャーディングでの書き込み Voter Candidate A_7 Candidate A_1 Candidate A_4 Candidate A_5 Candidate A_3 Candidate A_2 Candidate B_4 Candidate B_8 Candidate B_5 Candidate B_1 Candidate B_3 Candidate B_7 Candidate A_6 Candidate A_8 投票 Table Candidate B_2 Candidate B_6

シャーディングでの書き込み Voter UpdateItem: CandidateA_ + rand(0, 200) ADD 1 to Votes Candidate A_7 Candidate A_1 Candidate A_4 Candidate A_5 Candidate A_3 Candidate A_2 Candidate B_4 Candidate B_8 Candidate B_5 Candidate B_1 Candidate B_3 Candidate B_7 Candidate A_6 Candidate A_8 投票 Table Candidate B_2 Candidate B_6

正確な投票 1. 投票データの登録重複排除 2. 投票データの集計 Voter 投票 Table UserId Candidate Date 1 A 2013-10-02 2 B 2013-10-02 3 B 2013-10-02 4 A 2013-10-02 投票集計 Table Segment Votes A_1 23 B_2 12 B_1 14 A_2 25

正確な集計は? Voter 投票 Table UserId Candidate Date 1 A 2013-10-02 2 B 2013-10-02 3 B 2013-10-02 4 A 2013-10-02 投票集計 Table Segment Votes A_1 23 B_2 12 B_1 14 A_2 25

DynamoDB Streams In preview

In preview What is DynamoDB Streams? It is a Streams of updates Scales with your table DynamoDB DynamoDB Streams

DynamoDB Streams テーブルの更新の情報を保持非同期に更新シリアライズされたデータアイテム毎の厳密な管理高耐久性テーブルよるスケール有効期限は24 時間 1 秒未満の遅延書き込み

View types 更新情報 (Name = John, Destination = Mars) (Name = John, Destination = Pluto) View Type Destination Old Image 更新前の情報 Name = John, Destination = Mars New Image 更新後の情報 Old and New Images Keys Only Name = John, Destination = Pluto Name = John, Destination = Mars Name = John, Destination = Pluto Name = John

DynamoDB Streams and Amazon Kinesis Client Library Partition 1 Shard 1 KCL Worker DynamoDB クライアントアプリケーション更新 Partition 2 Partition 3 Partition 4 Shard 2 Shard 3 KCL Worker KCL Worker Table Partition 5 Shard 4 KCL Worker テーブル Streams Amazon Kinesis Client Library Application

DynamoDB Streams and AWS Lambda

AWS Lambda イベントをトリガーにコードを実行行するコンピュートサービスイメージのリサイズやサムネイルの作成元画像 1 3 Amazon S3 Bucket イベントサムネイル画像 2 値チェックや別テーブルへのコピー Amazon DynamoDB Table and Streams AWS Lambda AWS Lambda 別テーブルを更更新プッシュ通知特徴 (http://aws.amazon.com/jp/lambda/) OS キャパシティ等インフラの管理不要 S3 Kinesis SNS 等でのイベント発生を元にユーザが用意したコード (Node.js,java 8) を実行ユーザアプリからの同期 / 非同期呼び出し価格体系 (http://aws.amazon.com/jp/lambda/pricing/) コード実行時間 (100ms 単位 ) Lambdaファンクションへのリクエスト回数 1 月あたり100 万リクエスト 400,000GB/ 秒が無料で利用可能

Real-time voting architecture 投票集計 Table Voters Voting app 投票 Table 投票 DynamoDB Streams Your Amazon Kinesis Enabled App Amazon Redshift Amazon EMR

Real-time voting architecture 投票集計 Table Voters Voting app 投票 Table 投票 DynamoDB Streams Your Kinesis-enabled app Amazon Redshift Amazon EMR

Real-time voting architecture 投票者の統計分析投票集計 Table Voters Voting app 投票 Table 投票 DynamoDB Streams Your Kinesis-enabled app Amazon Redshift Amazon EMR

DynamoDB が使われているユースケース KVS として Web アプリケーションのセッションデータベースユーザー情報の格納するデータベース広告やゲームなどのユーザー行動履歴 DB としてユーザー ID ごとに複数の行動履歴を管理するためのデータベースソーシャルアプリのバックエンドとしてモバイルアプリから直接参照できるデータベースとして他にもバッチ処理のロック管理フラッシュマーケティングストレージのインデックス

NoSQL vs RDB NoSQL 得意 / メリットスケーラビリティ不得意 / デメリット複雑なクエリトランザクション RDB 得意 / メリット柔軟なクエリトランザクション不得意 / デメリットスケーラビリティ

ユースケースに合わせて DB 製品を選択 Amazon DynamoDB Managed NoSQL Amazon Redshift Managed data warehouse Elastic Load Balancing Amazon ElastiCache Managed in-memory caching Clients EC2 Amazon RDS Managed SQL BI tools

ありがとうございました!