Amazon Kinesis Data Streams - 開発者ガイド

Amazon Kinesis Data Streams 開発者ガイド

Amazon Kinesis Data Streams 開発者ガイド Amazon Kinesis Data Streams: 開発者ガイド Copyright 2018 Amazon Web Services, Inc. and/or its affiliates. All rights reserved. Amazon's trademarks and trade dress may not be used in connection with any product or service that is not Amazon's, in any manner that is likely to cause confusion among customers, or in any manner that disparages or discredits Amazon. All other trademarks not owned by Amazon are the property of their respective owners, who may or may not be affiliated with, connected to, or sponsored by Amazon.

Amazon Kinesis Data Streams 開発者ガイド Table of Contents Amazon Kinesis Data Streams とは... 1 Kinesis Data Streams の機能... 1 Kinesis Data Streams のメリット... 2 関連サービス... 2 主要なコンセプト... 2 アーキテクチャの概要... 2 用語... 3 Data Streams... 5 Kinesis Data Stream の初期サイズを決定する... 5 ストリームの作成... 6 ストリームの更新... 6 プロデューサー... 7 コンシューマー... 8... 8 制限... 8 API の制限... 9 制限の引き上げ... 9 はじめに... 10 セットアップ... 10 AWS にサインアップする... 10 ライブラリとツールをダウンロードする... 11 開発環境を設定する... 11 チュートリアル : ウェブトラフィックの可視化... 11 Kinesis Data Streams のデータ可視化サンプルアプリケーション... 12 前提条件... 12 ステップ 1: サンプルアプリケーションを起動する... 12 ステップ 2: サンプルアプリケーションのコンポーネントを表示する... 13 ステップ 3: サンプルアプリケーションを削除する... 16 ステップ 4: 次のステップ... 16 チュートリアル : CLI を使用した開始方法... 17 AWS CLI のインストールと設定... 17 基本的なストリームオペレーションの実行... 19 チュートリアル : 株式データのリアルタイム分析... 24 前提条件... 24 ステップ 1: データストリームの作成... 25 ステップ 2: IAM ポリシーとユーザーの作成... 26 ステップ 3: 実装コードのダウンロードおよびビルド... 29 ステップ 4: プロデューサーを実装する... 30 ステップ 5: コンシューマーを実装する... 33 ステップ 6: ( オプション ) コンシューマーを拡張する... 36 ステップ 7: 終了する... 37 ストリームの作成と管理... 39 ストリームの作成... 39 Kinesis Data Streams クライアントの構築... 39 ストリームを作成する... 40 ストリームのリスト... 41 シャードの一覧表示... 42 ストリームからシャードを取得する... 43 ストリームを削除する... 43 ストリームをリシャーディングする... 44 リシャーディングのための戦略... 44 シャードの分割... 45 2 つのシャードを結合する... 46 リシャーディング後... 47 iii

Amazon Kinesis Data Streams 開発者ガイドデータ保持期間の変更... 49 ストリームのタグ付け... 49 タグの基本... 50 タグ付けを使用したコストの追跡... 50 タグの制限... 50 Kinesis Data Streams コンソールを使用したストリームのタグ付け... 51 AWS CLI を使用したストリームのタグ付け... 51 Kinesis Data Streams API を使用したストリームのタグ付け... 52 ストリームのモニタリング... 52 CloudWatch によるサービスのモニタリング... 52 CloudWatch によるエージェントのモニタリング... 62 AWS CloudTrail を使用した Amazon Kinesis Data Streams API コールのログ記録... 63 CloudWatch による KCL のモニタリング... 66 CloudWatch による KPL のモニタリング... 74 アクセスの制御... 78 ポリシー構文... 79 Kinesis Data Streams のアクション... 80 Kinesis Data Streams 用の Amazon リソースネーム (ARN)... 80 Kinesis Data Streams のポリシー例... 80 サーバー側の暗号化の使用... 82 Kinesis Data Streams 用のサーバー側の暗号化とは... 82 コストリージョンおよびパフォーマンスに関する考慮事項... 83 サーバー側の暗号化の使用を開始する方法... 84 ユーザー生成 KMS マスターキーの作成と使用... 85 ユーザー生成 KMS マスターキーを使用するためのアクセス許可... 86 KMS キー権限の確認とトラブルシューティング... 87 インターフェイス VPC エンドポイントの使用... 87 Kinesis Data Streams 用のインターフェイス VPC エンドポイント... 87 Kinesis Data Streams 用のインターフェイス VPC エンドポイントの使用... 87 サポートしているリージョン... 88 コンソールを使用したストリームの管理... 88 ストリームへのデータの書き込み... 90 KPL の使用... 90 KPL のロール... 91 KPL を使用するメリット... 91 KPL の使用が適さない場合... 92 KPL をインストールする... 92 Kinesis Producer Library の Amazon Trust Services (ATS) 証明書への移行... 92 KPL でサポートされているプラットフォーム... 93 KPL の主要なコンセプト... 93 KPL とプロデューサーコードの統合... 95 Kinesis data stream への書き込み... 96 KPL の設定... 97 コンシューマーの集約解除... 98 Kinesis Data Firehose での KPL の使用... 100 API の使用... 100 ストリームへのデータの追加... 101 エージェントの使用... 105 前提条件... 105 エージェントのダウンロードとインストール... 106 エージェントの設定と開始... 106 エージェントの設定... 107 複数のファイルディレクトリを監視し複数のストリームに書き込み... 109 エージェントを使用してデータを事前処理する... 110 エージェント CLI コマンド... 113 トラブルシューティング... 113 プロデューサーアプリケーションの書き込みの速度が予想よりも遅い... 114 iv

Amazon Kinesis Data Streams 開発者ガイド承認されていない KMS マスターキーの権限エラー... 115 高度なトピック... 115 再試行とレート制限... 115 KPL 集約を使用するときの考慮事項... 116 ストリームからのデータの読み取り... 117 コンシューマーの使用... 118 Kinesis Client Library 1.x の使用... 118 Kinesis Client Library 2.0 の使用... 133 API の使用... 137 拡張ファンアウトでコンシューマーを使用する... 141 Kinesis Client Library 2.0 の使用... 142 API の使用... 146 AWS マネジメントコンソールの使用... 147 Kinesis Client Library 1.x から 2.x への移行... 148 レコードプロセッサの移行... 149 レコードプロセッサファクトリーの移行... 152 ワーカーの移行... 153 Amazon Kinesis クライアントの設定... 154 アイドル時間の削除... 156 クライアント設定の削除... 156 トラブルシューティング... 157 Kinesis クライアントライブラリの使用時に一部の Kinesis Data Streams レコードがスキップされる... 157 同じシャードに属するレコードが異なるレコードプロセッサによって同時に処理される... 157 コンシューマーアプリケーションの読み取りの速度が予想よりも遅い... 158 ストリームにデータがある場合でも GetRecords が空の Records 配列を返す... 158 シャードイテレータが予期せずに終了する... 159 コンシューマーレコードの処理が遅れる... 159 承認されていない KMS マスターキーの権限エラー... 160 高度なトピック... 160 状態の追跡... 160 低レイテンシー処理... 161 Kinesis Producer Library での AWS Lambda の使用... 162 リシャーディング拡張並列処理... 162 重複レコードの処理... 163 障害からの復旧... 165 起動シャットダウンスロットリングの処理... 166 ドキュメント履歴... 168 AWS の用語集... 170 v

Amazon Kinesis Data Streams 開発者ガイド Kinesis Data Streams の機能 Amazon Kinesis Data Streams とはデータレコードの大量のストリームをリアルタイムで収集し処理するには Amazon Kinesis Data Streams を使用します Kinesis Data Streams アプリケーションと呼ばれるデータ処理アプリケーションを作成できます一般的な Kinesis Data Streams アプリケーションではデータストリームのデータをデータレコードとして読み取りますこれらのアプリケーションは Kinesis Client Library を使用できますまた Amazon EC2 インスタンスで実行できます処理されたレコードはダッシュボードに送信してアラートの生成や料金設定と広告戦略の動的変更に使用できるほか他のさまざまな AWS のサービスにデータを送信できます Kinesis Data Streams の機能と料金については Amazon Kinesis Data Streams を参照してください Kinesis Data Streams は Kinesis Data Firehose Kinesis ビデオストリーム Kinesis Data Analytics と共に Kinesis ストリーミングデータプラットフォームの一部です AWS ビッグデータソリューションの詳細については AWS でのビッグデータを参照してください AWS ストリーミングデータソリューションの詳細についてはストリーミングデータとは? を参照してくださいトピック Kinesis Data Streams の機能 (p. 1) Kinesis Data Streams のメリット (p. 2) 関連サービス (p. 2) Kinesis Data Streams の主要なコンセプト (p. 2) データストリームの作成および更新 (p. 5) Kinesis Data Streams プロデューサー (p. 7) Kinesis Data Streams コンシューマー (p. 8) Kinesis Data Streams の制限 (p. 8) Kinesis Data Streams の機能 Kinesis Data Streams を使用して高速かつ継続的にデータの取り込みと集約を行うことができます使用されるデータには IT インフラストラクチャのログデータアプリケーションのログソーシャルメディアマーケットデータフィードウェブのクリックストリームデータなどの種類がありますデータの取り込みと処理の応答時間はリアルタイムであるため処理は一般的に軽量です以下に示しているのは Kinesis Data Streams の一般的なユースケースですログとデータフィードの取り込みと処理の高速化プロデューサーからストリームにデータを直接プッシュさせることができますたとえばシステムとアプリケーションのログをプッシュすると数秒で処理可能になりますこれによりフロントエンドサーバーやアプリケーションサーバーで障害が発生してもログデータは失われません Kinesis Data Streams では取り込み用にデータを送信する前にサーバーでデータがバッチ処理されないようにデータフィードの取り込みが加速されますリアルタイムのメトリクスとレポート作成 Kinesis Data Streams に取り込んだデータを使用してリアルタイムのデータ分析とレポート作成を簡単に行うことができますたとえばデータ処理アプリケーションはバッチデータを受け取るまで待つのではなくデータのストリーミング中にシステムおよびアプリケーションのログに関するメトリクスやレポート作成を操作できます 1

Amazon Kinesis Data Streams 開発者ガイド Kinesis Data Streams のメリットリアルタイムデータ分析これにより並行処理の能力がリアルタイムデータの価値と同時に得られますたとえばウェブサイトのクリックストリームをリアルタイムで処理しさらに並行して実行される複数の異なる Kinesis Data Streams アプリケーションを使用してサイトの使いやすさの関与を分析します複雑なストリーム処理 Kinesis Data Streams アプリケーションとデータストリームの Directed Acyclic Graphs (DAG) を作成できます通常ここでは複数の Kinesis Data Streams アプリケーションから別のストリームにデータを出力し別の Kinesis Data Streams アプリケーションによって下流処理が行われるようにします Kinesis Data Streams のメリット Kinesis Data Streams はさまざまなデータストリーミングの問題解決に使用できますが一般的にデータのリアルタイム集計にも使用できます集計データはその後でデータウェアハウスや MapReduce クラスターに読み込むことができますデータは Kinesis ストリームに取り込むことができるため耐久性と伸縮性が確保されますレコードがストリームに取り込まれてから取得されるまでの遅延 ( 入力から取得までの遅延 ) は通常 1 秒未満ですつまり Kinesis Data Streams アプリケーションにデータが追加されると同時にストリームのデータを利用し始めることができます Kinesis Data Streams はマネージド型サービスであるためデータ取り込みパイプラインの作成と実行にかかわる運用負荷が軽くなります MapReduce 型のストリーミングアプリケーションを作成することができます Kinesis Data Streams は伸縮性に優れておりストリームをスケールアップまたはスケールダウンできるため有効期限が切れる前にデータレコードがなくなることはありません複数の Kinesis Data Streams アプリケーションを使用してストリームからデータを消費できるためアーカイブや処理のような複数のアクションを同時に独立して実行できますたとえば 2 つのアプリケーションが同じストリームからデータを読み取ることができます最初のアプリケーションは集計を実行して計算し Amazon DynamoDB テーブルを更新します 2 番目のアプリケーションはデータを圧縮して Amazon Simple Storage Service (Amazon S3) などのデータストアにアーカイブします集計実行中の DynamoDB テーブルはその後最新レポート用にダッシュボードによって読み取られます Kinesis Client Library を使用すると耐障害性を維持しながらストリームのデータを利用でき Kinesis Data Streams アプリケーションのスケーリングも可能になります関連サービス Amazon EMR クラスターを使用して Kinesis データストリームを直接読み取って処理する方法については Kinesis コネクタを参照してください Kinesis Data Streams の主要なコンセプト Amazon Kinesis Data Streams を使用し始めるとアーキテクチャと用語を理解していることが強みになります Kinesis Data Streams のアーキテクチャの概要以下の図に Kinesis Data Streams のアーキテクチャの概要を示しますプロデューサーは継続的にデータを Kinesis Data Streams にプッシュしコンシューマーはリアルタイムでデータを処理しますコンシューマー (Amazon EC2 上で実行されるカスタムアプリケーションや Amazon Kinesis Data Firehose 配 2

Amazon Kinesis Data Streams 開発者ガイド用語信ストリームなど ) は Amazon DynamoDB Amazon Redshift Amazon S3 などの AWS のサービスを使用してその結果を保存できます Kinesis Data Streams の用語 Kinesis Data Stream Kinesis data stream はシャード (p. 4) のセットです各シャードにはデータレコードのシーケンスがあります各データレコードには Kinesis Data Streams によってシーケンス番号 (p. 4) が割り当てられますデータレコードデータレコードは Kinesis data stream (p. 3) に保存されたデータの単位ですデータレコードはシーケンス番号 (p. 4) パーティションキー (p. 4) データ BLOB ( イミュータブルなバイトシーケンス ) で構成されます Kinesis Data Streams で BLOB 内のデータが検査解釈変更されることは一切ありませんデータ BLOB は最大 1 MB にすることができます保持期間保持期間はデータレコードがストリームに追加された後にデータレコードにアクセスできる時間の長さですストリームの保持期間はデフォルトで作成後 24 時間に設定されます IncreaseStreamRetentionPeriod オペレーションを使用して保持期間を最大 168 時間 (7 日 ) まで増やしたり DecreaseStreamRetentionPeriod オペレーションを使用して最短の 24 時間に短縮したりできます 24 時間を超える保持期間が設定されたストリームには追加料金が適用されます詳細については Amazon Kinesis Data Streams 料金表を参照してくださいプロデューサープロデューサーはレコードを Amazon Kinesis Data Streams に送信しますたとえばストリームにログデータを送信するウェブサーバーはプロデューサーですコンシューマーコンシューマーは Amazon Kinesis Data Streams からレコードを取得して処理しますこれらのコンシューマーは Amazon Kinesis Data Streams Application (p. 4) と呼ばれます 3

Amazon Kinesis Data Streams 開発者ガイド用語 Amazon Kinesis Data Streams Application Amazon Kinesis Data Streams application はストリームのコンシューマーで一般的に EC2 インスタンスのフリートで実行されます開発可能なコンシューマーには共有ファンアウトコンシューマーと拡張ファンアウトコンシューマーの 2 種類あります両者間の相違点を確認する方法各種類のコンシューマーを作成する方法については Amazon Kinesis Data Streams からのデータの読み取り (p. 117) を参照してください Kinesis Data Streams アプリケーションの出力を別のストリームの入力にすることでリアルタイムにデータを処理する複雑なトポロジを作成できますアプリケーションはさまざまな他の AWS サービスにデータを送信することもできます複数のアプリケーションが 1 つのストリームを使用して各アプリケーションが同時にかつ独立してストリームからデータを消費できますシャードシャードはストリーム内の一意に識別されたデータレコードのシーケンスですストリームは複数のシャードで構成され各シャードが容量の 1 単位になります各シャードは読み取りは最大 1 秒あたり 5 件のトランザクションデータ読み取りの最大合計レートは 1 秒あたり 2 MB と書き込みについては最大 1 秒あたり 1,000 レコードデータの最大書き込み合計レートは 1 秒あたり 1 MB ( パーティションキーを含む ) をサポートできますストリームのデータ容量はストリームに指定したシャードの数によって決まりますストリームの総容量はシャードの容量の合計ですデータ転送速度が増加した場合ストリームに割り当てられたシャード数を増やしたり減らしたりできますパーティションキーパーティションキーはストリーム内のデータをシャード別にグループ化します Kinesis Data Streams はストリームに属するデータレコードを複数のシャードに分離しますこの際各データレコードに関連付けられたパーティションキーを使用して配分先のシャードを決定しますパーティションキーは最大 256 バイト長の Unicode 文字列です MD5 ハッシュ関数を使用してパーティションキーを 128 ビットの整数値にマッピングし関連付けられたデータレコードをシャードにマッピングしますアプリケーションはストリームにデータを配置するときにパーティションキーを指定する必要がありますシーケンス番号各データレコードには所属するシャード内で一意のシーケンス番号が割り当てられます client.putrecords または client.putrecord を使用してストリームに書き込むと Kinesis Data Streams によってシーケンス番号が割り当てられます同じパーティションキーのシーケンス番号は通常徐々に増加されます書き込みリクエスト間の期間が長くなるほどシーケンス番号は大きくなります Note シーケンス番号は同じストリーム内の一連のデータのインデックスとして使用することはできません一連のデータを論理的に区別するにはパーティションキーを使用するかデータセットごとに個別のストリームを作成します Kinesis Client Library Kinesis Client Library をアプリケーションにコンパイルすることで耐障害性を維持しながらストリームからデータを消費できます Kinesis Client Library によりシャードごとにその実行と処理用のレコードプロセッサが確保されますまたストリームからのデータの読み取りが簡素化されます Kinesis Client Library は Amazon DynamoDB テーブルに制御データを保存しますまたデータを処理するアプリケーションごとに 1 つのテーブルを作成します 4

Amazon Kinesis Data Streams 開発者ガイド Data Streams Kinesis Client Library のメジャーバージョンは 2 種類あります使用するバージョンは作成するコンシューマーの種類によって異なります詳細については Amazon Kinesis Data Streams からのデータの読み取り (p. 117) を参照してくださいアプリケーション名 Amazon Kinesis Data Streams application 名はアプリケーションを識別します各アプリケーションにはアプリケーションが使用する AWS アカウントとリージョンに限定される一意の名前が必要ですこの名前は Amazon DynamoDB では制御テーブルと Amazon CloudWatch メトリクスの名前空間の名前として使用されますサーバー側の暗号化 Amazon Kinesis Data Streams はプロデューサーがストリーム内に入力した機密データを自動的に暗号化できます Kinesis Data Streams は AWS KMS マスターキーを暗号化に使用します詳細についてはサーバー側の暗号化の使用 (p. 82) を参照してください Note 暗号化されたストリームに対して読み書きを行うためにプロデューサーおよびコンシューマーアプリケーションにはマスターキーへのアクセス許可が必要ですプロデューサーおよびコンシューマーアプリケーションにアクセス許可を付与する方法については the section called ユーザー生成 KMS マスターキーを使用するためのアクセス許可 (p. 86) を参照してください Note サーバー側の暗号化を使用すると AWS Key Management Service (AWS KMS) の料金が発生します詳細については AWS Key Management Service の料金を参照してくださいデータストリームの作成および更新 Amazon Kinesis Data Streams は大量のデータをリアルタイムで取り込みそのデータを永続的に保存して消費できるようにします Kinesis Data Streams によって保存されるデータの単位はデータレコードですデータストリームはデータレコードのグループを表しますデータストリームのデータレコードはシャードに配分されますシャードにはストリーム内のデータレコードのシーケンスですストリームを作成するときにストリームのシャード数を指定しますストリームの総容量はシャードの容量の合計です必要に応じてストリームのシャードの数を増減することができますただしシャード単位で請求されますシャードの容量と制限の詳細については Kinesis Data Streams の制限 (p. 8) を参照してくださいプロデューサー (p. 7) はシャードにデータレコードを送信しコンシューマー (p. 8) はシャードからデータレコードを取得します Kinesis Data Stream の初期サイズを決定するストリームの作成前にストリームの初期サイズを決定する必要がありますストリームを作成したら AWS マネジメントコンソールまたは UpdateShardCount API を使用してシャード容量を動的にスケールアップ / ダウンできますストリームからデータを消費する Kinesis Data Streams アプリケーションがある間は更新することができますストリームの初期サイズを決定するには以下の入力値が必要ですストリームに書き込まれるデータレコードの平均サイズ ( 近似の KB 単位まで切り上げられます ) つまりデータサイズ (average_data_size_in_kb) です 1 秒間にストリームで読み書きされるデータレコードの数 (records_per_second) です 5

Amazon Kinesis Data Streams 開発者ガイドストリームの作成ストリームのデータを同時に ( 相互に依存することなく ) 消費する Kinesis Data Streams アプリケーションつまりコンシューマーの数 (number_of_consumers) です KB 単位での受信書き込み帯域幅 (incoming_write_bandwidth_in_kb) average_data_size_in_kb を records_per_second に乗算した値に等しくなります KB 単位の送信読み取り帯域幅 (outgoing_read_bandwidth_in_kb) incoming_write_bandwidth_in_kb を number_of_consumers に乗算した値に等しくなりますストリームに必要なシャードの初期数 (number_of_shards) を計算するには入力値を以下の式にあてはめます number_of_shards = max(incoming_write_bandwidth_in_kb/1000, outgoing_read_bandwidth_in_kb/2000) ストリームの作成ストリームを作成するには Kinesis Data Streams コンソール Kinesis Data Streams API または AWS Command Line Interface (AWS CLI) を使用できますコンソールを使用してデータストリームを作成するには 1. AWS マネジメントコンソールにサインインし https://console.aws.amazon.com/kinesis にある Kinesis コンソールを開きます 2. ナビゲーションバーでリージョンセレクターを展開しリージョンを選択します 3. [ データストリームの作成 ] を選択します 4. [Kinesis ストリームの作成 ] ページでストリームの名前と必要なシャードの数を入力し [Kinesis ストリームの作成 ] をクリックしますストリームの作成中 [Kinesis ストリーム ] ページのストリームの [ ステータス ] は [Creating] になりますストリームを使用する準備が完了すると [ ステータス ] は [Active] に変わります 5. ストリームの名前を選択します [ ストリームの詳細 ] ページにはストリーム設定の概要とモニタリング情報が表示されます Kinesis Data Streams API を使用してストリームを作成するには Kinesis Data Streams API を使用したストリームの作成についてはストリームの作成 (p. 39) を参照してください AWS CLI を使用してストリームを作成するには AWS CLI を使用したストリームの作成については create-stream コマンドを参照してくださいストリームの更新ストリームの詳細は Kinesis Data Streams コンソール Kinesis Data Streams API または AWS CLI を使用して更新できます Note 既存のストリームまたは最近作成したストリームに対してサーバー側の暗号化を有効にすることができます 6

Amazon Kinesis Data Streams 開発者ガイドプロデューサーコンソールを使用してデータストリームを更新するには 1. https://console.aws.amazon.com/kinesis/ にある Amazon Kinesis コンソールを開きます 2. ナビゲーションバーでリージョンセレクターを展開しリージョンを選択します 3. リストのストリームの名前を選択します [ ストリームの詳細 ] ページにはストリーム設定の概要とモニタリング情報が表示されます 4. シャード数を編集するには [ シャード ] セクションの [ 編集 ] を選択し新しいシャード数を入力します 5. データレコードのサーバー側の暗号化を有効にするには [ サーバー側の暗号化 ] セクションの [ 編集 ] を選択します暗号化のマスターキーとして使用する KMS キーを選択するか Kinesis によって管理されるデフォルトのマスターキー aws/kinesis を使用しますストリームの暗号化を有効にし独自の AWS KMS マスターキーを使用する場合はプロデューサーおよびコンシューマーアプリケーションにこの AWS KMS マスターキーへのアクセス権限があることを確認しますユーザーが生成した AWS KMS キーにアクセスするためのアクセス許可をアプリケーションに割り当てるには the section called ユーザー生成 KMS マスターキーを使用するためのアクセス許可 (p. 86) を参照してください 6. データ保持期間を編集するには [ データ保持期間 ] セクションの [ 編集 ] を選択し新しいデータ保持期間を入力します 7. アカウントでカスタムメトリクスを有効にした場合は [ シャードレベルメトリクス ] セクションの [ 編集 ] を選択しストリームのメトリクスを指定します詳細については the section called CloudWatch によるサービスのモニタリング (p. 52) を参照してください API を使用したストリームの更新 API を使用してストリームの詳細を更新するには次の方法を参照してください AddTagsToStream DecreaseStreamRetentionPeriod DisableEnhancedMonitoring EnableEnhancedMonitoring IncreaseStreamRetentionPeriod RemoveTagsFromStream StartStreamEncryption StopStreamEncryption UpdateShardCount AWS CLI を使用したストリームの更新 AWS CLI を使用したストリームの更新については Kinesis CLI リファレンスを参照してください Kinesis Data Streams プロデューサープロデューサーはデータレコードを Amazon Kinesis データストリームに送信しますたとえば Kinesis data stream にログデータを送信するウェブサーバーはプロデューサーですコンシューマー (p. 8) はストリームのデータレコードを処理します Important Kinesis Data Streams はデータストリームのデータレコードの保持期間の変更をサポートしています詳細についてはデータ保持期間の変更 (p. 49) を参照してください 7

Amazon Kinesis Data Streams 開発者ガイドコンシューマーストリームにデータを送信するにはストリームの名前パーティションキーストリームに追加するデータ BLOB を指定する必要がありますパーティションキーはデータレコードが追加されるストリーム内のシャードを決定するために使用されますシャード内のすべてのデータはそのシャードを処理する同じワーカーに送信されます使用するパーティションキーはアプリケーションのロジックによって異なりますパーティションキーの数は通常シャード数よりかなり大きくする必要がありますこれはデータレコードを特定のシャードにマッピングする方法を決定するためにパーティションキーが使用されるからです十分なパーティションキーがある場合ストリーム内のシャードに均等にデータを分散することができます詳細についてはストリームへのデータの追加 (p. 101) (Java のコード例を含む ) Kinesis Data Streams API の PutRecords オペレーションと PutRecord オペレーションまたは put-record コマンドを参照してください Kinesis Data Streams コンシューマーコンシューマーは Amazon Kinesis Data Streams application とも呼ばれ Kinesis データストリームからデータレコードを取得して処理するために構築するアプリケーションです Amazon Simple Storage Service (Amazon S3) Amazon Redshift Amazon Elasticsearch Service (Amazon ES) Splunk などのサービスに直接ストリームレコードを送信する場合はコンシューマーアプリケーションを作成する代わりに Kinesis Data Firehose 配信ストリームを使用できます詳細については Kinesis Data Firehose 開発者ガイドの Amazon Kinesis Firehose 配信システムの作成を参照してくださいただし独自の方法でデータレコードを処理する必要がある場合コンシューマーの作成方法に関するガイダンスは Amazon Kinesis Data Streams からのデータの読み取り (p. 117) を参照してくださいコンシューマーを作成する場合は Amazon Machine Image (AMI) のいずれかに追加して Amazon EC2 インスタンスにデプロイしますコンシューマーをスケールするにはこれを Auto Scaling グループの複数の Amazon EC2 インスタンスで実行します Auto Scaling グループを使用すると EC2 インスタンスに障害が発生した場合に新しいインスタンスを自動的に起動するのに役立ちますまたアプリケーションの負荷の経時変化に応じてインスタンス数を伸縮自在にスケールすることもできます Auto Scaling グループを使用することで一定数の EC2 インスタンスを常に実行状態にすることができます Auto Scaling グループのスケーリングイベントをトリガーするには CPU やメモリの使用率などのメトリクスを指定してストリームからのデータを処理する EC2 インスタンスの数を増減させることができます詳細については Amazon EC2 Auto Scaling ユーザーガイドを参照してください Kinesis Data Streams の制限 Amazon Kinesis Data Streams には次のストリーム制限とシャード制限がありますストリームまたはアカウントに存在できるシャードの数に上限はありません一般的にワークロードでは単一のストリーム内に数千のシャードがありますアカウントに存在できるストリームの数に制限はありません 1 つのシャードは 1 秒あたり最大 1 MiB のデータを取り込むことができ ( パーティションキーを含む ) 書き込みについては 1 秒あたり 1,000 レコードを取り込むことができます同様にストリームを 5,000 シャードにスケールする場合ストリームは 1 秒あたり最大 5 GiB または 500 万レコードを取り込むことができます取り込み容量を増やす必要がある場合は AWS マネジメントコンソールまたは UpdateShardCount API を使用してストリーム内のシャード数を簡単にスケールアップできますデフォルトのシャード上限数は AWS リージョン米国東部 ( バージニア北部 ) 米国西部 ( オレゴン ) および欧州 ( アイルランド ) で 500 シャードですその他のリージョンのデフォルトのシャード制限はすべて 200 シャードです Base64 エンコーディング前のレコードのデータペイロードのサイズは最大 1 MiB です 8

Amazon Kinesis Data Streams 開発者ガイド API の制限 GetRecords では 1 つのシャードから最大 10 MiB のデータを取得でき呼び出しごとに最大 10,000 レコードを取得できます GetRecords への各呼び出しは 1 つの読み込みトランザクションとしてカウントされます各シャードは 1 秒あたり最大 5 件のトランザクションをサポートできます各読み込みトランザクションは最大 10,000 レコードを提供できトランザクションあたり 10 MiB の上限があります各シャードは GetRecords を介して最大 2 MiB/ 秒の合計データ読み取りレートをサポートします GetRecords への呼び出しで 10 MiB が返される場合次の 5 秒以内に行われたそれ以降の呼び出しでは例外がスローされます API の制限ほとんどの AWS API と同様に Kinesis Data Streams API オペレーションにはレート制限があります API コールのレート制限の詳細については Amazon Kinesis API Reference を参照してください API スロットリングが発生した場合は制限の引き上げをリクエストすることをお勧めします制限の引き上げシャード制限または API コールレートの制限を引き上げるには 1. AWS マネジメントコンソール () にサインインします 2. 制限の緩和をリクエストするには Kinesis Data Streams 制限フォームを使用します 9

Amazon Kinesis Data Streams 開発者ガイドセットアップ Amazon Kinesis Data Streams の使用開始このドキュメントは Amazon Kinesis Data Streams を使い始めるのに役立ちます Kinesis Data Streams を初めて利用する場合は Amazon Kinesis Data Streams とは (p. 1) で説明されている概念と用語について理解することから始めてくださいトピック Amazon Kinesis Data Streams のセットアップ (p. 10) チュートリアル : Amazon Kinesis Data Streams を使用したウェブトラフィックの可視化 (p. 11) チュートリアル : AWS CLI を使用した Amazon Kinesis Data Streams の開始方法 (p. 17) チュートリアル : Kinesis Data Streams を使用した株式データのリアルタイム分析 (p. 24) Amazon Kinesis Data Streams のセットアップ Amazon Kinesis Data Streams を初めて使用する場合は事前に以下のタスクをすべて実行してくださいタスク AWS にサインアップする (p. 10) ライブラリとツールをダウンロードする (p. 11) 開発環境を設定する (p. 11) AWS にサインアップするアマゾンウェブサービス (AWS) にサインアップすると AWS アカウントが AWS 内のすべてのサービス (Kinesis Data Streams など ) に自動的にサインアップされます料金が発生するのは実際に使用したサービスの分のみです既に AWS アカウントをお持ちの場合は次のタスクに進んでください AWS アカウントをお持ちでない場合は次に説明する手順にしたがってアカウントを作成してくださいサインアップして AWS アカウントを作成するには 1. https://aws.amazon.com/ を開き [AWS アカウントの作成 ] を選択します Note AWS アカウントのルートユーザー認証情報を使用してすでに AWS マネジメントコンソールにサインインしている場合は [Sign in to a different account ( 別のアカウントにサインインする )] を選択します IAM 認証情報を使用してすでにコンソールにサインインしている場合は [Sign-in using root account credentials ( ルートアカウントの資格情報を使ってサインイン )] を選択します [ 新しい AWS アカウントの作成 ] を選択します 2. オンラインの手順に従います 10

Amazon Kinesis Data Streams 開発者ガイドライブラリとツールをダウンロードするサインアップ手順の一環として通話呼び出しを受け取り電話のキーパッドを用いて確認コードを入力することが求められますライブラリとツールをダウンロードする以下のライブラリとツールは Kinesis Data Streams での作業に役立ちます Amazon Kinesis API Reference は Kinesis Data Streams でサポートされている基本的なオペレーションのセットです Java コードを使用した基本的なオペレーションの実行の詳細については次を参照してください Amazon Kinesis Data Streams API と AWS SDK for Java を使用したプロデューサーの開発 (p. 100) AWS SDK for Java での Kinesis Data Streams API を使用したコンシューマーの開発 (p. 137) ストリームの作成と管理 (p. 39) Go Java JavaScript.NET Node.js PHP Python および Ruby 用の AWS SDK には Kinesis Data Streams のサポートとサンプルが含まれています AWS SDK for Java のお使いのバージョンに Kinesis Data Streams のサンプルが含まれていない場合は GitHub からダウンロードできます Kinesis Client Library (KCL) にはデータ処理用の使いやすいプログラミングモデルが用意されています KCL では Kinesis Data Streams を Java Node.js.NET Python Ruby ですぐに使い始めることができます詳細についてはストリームからのデータの読み取り (p. 117) を参照してください AWS Command Line Interface では Kinesis Data Streams がサポートされています AWS CLI を使用すると複数の AWS サービスをコマンドラインから制御したりスクリプトで自動化したりできます開発環境を設定する KCL を使用するには Java 開発環境が以下の要件を満たしている必要があります Java 1.7 (Java SE 7 JDK) 以降最新の Java ソフトウェアは Oracle ウェブサイトの Java SE ダウンロードからダウンロードできます Apache Commons パッケージ ( コード HTTP クライアントログ記録 ) Jackson JSON プロセッサ AWS SDK for Java ではサードパーティーフォルダに Apache Commons と Jackson が含まれていますただし SDK for Java は Java 1.6 で動作しますが Kinesis Client Library には Java 1.7 が必要ですチュートリアル : Amazon Kinesis Data Streams を使用したウェブトラフィックの可視化このチュートリアルでは Amazon Kinesis Data Streams の使用開始に役立つようにその重要な Kinesis Data Streams コンポーネントについてストリーム (p. 5) データプロデューサー (p. 7) データコンシューマー (p. 8) を中心に概説しますこのチュートリアルではリアルタイムデータ分析の一般的ユースケース ( Amazon Kinesis Data Streams とは (p. 1) で紹介 ) に基づいたサンプルアプリケーションを使用しますこのサンプルのウェブアプリケーションは単純な JavaScript アプリケーションを使用してスライドウィンドウにわたるトップ N 分析の結果を格納している DynamoDB テーブルをポーリングしますアプリケーションはこのデータを受け取り結果を可視化します 11

Amazon Kinesis Data Streams 開発者ガイド Kinesis Data Streams のデータ可視化サンプルアプリケーション Kinesis Data Streams のデータ可視化サンプルアプリケーションこのチュートリアルのデータ可視化サンプルアプリケーションでは Kinesis Data Streams を使用してリアルタイムでデータを取り込み分析する方法を示しますこのサンプルアプリケーションはさまざまな URL からのシミュレート上の閲覧者の数を Kinesis data stream に投入するデータプロデューサーを作成しますストリームはそれらのデータレコードを受け取った順に保持しますデータコンシューマーはストリームからこれらのレコードを取得し特定の URL からの閲覧者の数を計算します最後に単純なウェブアプリケーションは計算結果をリアルタイムでポーリングし計算結果を可視化しますこのサンプルアプリケーションはストリーム処理の一般的なユースケースとしてスライディングウィンドウ分析を 10 秒間行います先ほど示した可視化されたデータはストリームのスライディングウィンドウ分析の結果を反映したものであり継続的に更新されてグラフとして表示されていますさらにデータコンシューマーはデータストリームに対してトップ N 分析を行って上位 3 つの閲覧者を割り出しますその結果は 2 秒ごとに更新されてグラフのすぐ下に表として表示されますすばやく開始できるようにサンプルアプリケーションでは AWS CloudFormation を使用しています AWS CloudFormation ではテンプレートを作成してアプリケーションの実行に必要な AWS リソースおよび関連する依存関係やランタイムパラメータを記述できますサンプルアプリケーションではテンプレートを使用してすべての必要なリソースをすばやく作成しますたとえば Amazon EC2 インスタンスで実行されるプロデューサーとコンシューマーのアプリケーションやレコードの集計数を保存するための Amazon DynamoDB テーブルを作成します Note サンプルアプリケーションの起動後 Kinesis Data Streams の使用に関するわずかな料金が発生しますサンプルアプリケーションではできるだけ AWS 無料利用枠の対象となるリソースを使用しますこのチュートリアルを終了したら AWS リソースを削除して料金が発生しないようにしてください詳細についてはステップ 3: サンプルアプリケーションを削除する (p. 16) を参照してください前提条件このチュートリアルでは Kinesis Data Streams のデータ可視化サンプルアプリケーションをセットアップして実行しその結果を表示する手順を示しますサンプルアプリケーションを使用するには最初に以下の作業をする必要がありますコンピュータをセットアップしインターネット接続を有効にします AWS アカウントにサインアップしますさらにストリーム (p. 5) データプロデューサー (p. 7) データコンシューマー (p. 8) の概念について入門セクションを参照しますステップ 1: サンプルアプリケーションを起動する AWS によって提供された AWS CloudFormation テンプレートを使用してサンプルアプリケーションを起動しますこのサンプルアプリケーションにはランダムにレコードを生成して Kinesis data stream に送信するストリームライターリソースに対する HTTPS リクエスト数をカウントするデータコンシューマーおよびストリーム処理データの出力を継続的に更新されるグラフとして表示するウェブアプリケーションが含まれますアプリケーションを起動するには 1. このチュートリアルの AWS CloudFormation テンプレートを開きます 2. [ テンプレートの選択 ] ページにテンプレートの URL が表示されます [ 次へ ] を選択します 12

Amazon Kinesis Data Streams 開発者ガイドステップ 2: サンプルアプリケーションのコンポーネントを表示する 3. [Specify Details ( 詳細の指定 )] ページでデフォルトのインスタンスタイプが t2.micro になっていることを確認しますただし T2 インスタンスは VPC が必要です AWS アカウントにリージョンのデフォルト VPC がない場合は [InstanceType] を m3.medium などの別のインスタンスタイプに変更する必要があります [ 次へ ] を選択します 4. [ オプション ] ページでタグのキーとタグの値を任意で入力できますこのタグは EC2 インスタンスなどのテンプレートによって作成されたリソースに追加されます [ 次へ ] を選択します 5. [Review ( 確認 )] ページで [I acknowledge that this template might cause AWS CloudFormation to create IAM resources ( このテンプレートでは AWS CloudFormation によって IAM リソースが作成される場合があることを承認します )] を選択し [Create ( 作成 )] を選択しますまずステータスを CREATE_IN_PROGRESS とする KinesisDataVisSample という名前のスタックが表示されますスタックが作成されるまでに数分かかる場合がありますステータスが CREATE_COMPLETE の場合次のステップに進みますステータスが更新されない場合はページを更新してくださいステップ 2: サンプルアプリケーションのコンポーネントを表示するコンポーネント Kinesis Data Stream (p. 13) データプロデューサー (p. 14) データコンシューマー (p. 15) Kinesis Data Stream ストリーム (p. 5) は大量のプロデューサーからリアルタイムでデータを取り込んで保存し複数のコンシューマーに提供しますストリームはデータレコードの順序付けられたシーケンスを意味しますストリームの作成時にストリーム名とシャードの数を指定する必要がありますストリームは 1 つまたは複数のシャードで構成されます各シャードはデータレコードのグループです AWS CloudFormation は自動的にサンプルアプリケーションのストリームを作成します AWS CloudFormation テンプレートのこのセクションは CreateStream オペレーションで使用されるパラメータを示していますストリームの詳細を表示するには 1. [KinesisDataVisSample] スタックを選択します 2. [Outputs ( 出力 )] タブで URL のリンクを選択します URL の形式は http://ec2-xx-xx-xxxx.compute-1.amazonaws.com のようになります 3. アプリケーションスタックを作成しデータ解析グラフで表示する意味のあるデータにするには 10 分程度かかりますリアルタイムのデータ分析グラフは [Kinesis Data Streams Data Visualization Sample] というタイトルの別のページに表示されますこのグラフは 10 秒間に参照元 URL から送信されたリクエストの数を表示し 1 秒ごとに更新されますグラフのスパンは直近の 2 分間です 13

Amazon Kinesis Data Streams 開発者ガイドステップ 2: サンプルアプリケーションのコンポーネントを表示するストリームの詳細を表示するには 1. https://console.aws.amazon.com/kinesis にある Kinesis コンソールを開きます 2. 名前に ( KinesisDataVisSampleApp-KinesisStream-[randomString]) のフォームがあるストリームを選択します 3. ストリームの詳細を表示するにはストリーム名を選択します 4. それらのグラフを見るとデータプロデューサーのアクティビティがストリームにレコードを投入しデータコンシューマーがストリームからデータを取得していることがわかりますデータプロデューサーデータプロデューサー (p. 7) は Kinesis data stream にデータレコードを送信しますストリームにデータを投入するためにプロデューサーはストリームに対して PutRecord オペレーションを呼び出します PutRecord の呼び出しごとにストリーム名とパーティションキーのほかプロデューサーがストリームに追加するデータレコードが必要になりますストリーム名によりレコードが存在することになるストリームが決まりますパーティションキーはデータレコードが追加されるストリーム内のシャードを決定するために使用されます 14

Amazon Kinesis Data Streams 開発者ガイドステップ 2: サンプルアプリケーションのコンポーネントを表示する使用するパーティションキーはアプリケーションのロジックによって異なりますパーティションキーの数は通常シャード数よりかなり多くなりますシャードに対して十分な数のパーティションキーがあることでストリームはデータレコードをストリーム内のシャードに均等に分配できますデータデータプロデューサーは一般的な 6 つの URL を 2 シャード構成のストリームに投入された各レコードのパーティションキーとして使用しますこれらの URL がシミュレート上のページ閲覧者を表します HttpReferrerKinesisPutter コードの行 99~132 は Kinesis Data Streams にデータを送信します 3 つの必要なパラメータを PutRecord の呼び出し前に設定していますパーティションキーを設定するために使用している pair.getresource により HttpReferrerStreamWriter コードの行 85 ~ 92 で作成された 6 つの URL のいずれかがランダムに選択されます Kinesis Data Streams にデータを投入するデータプロデューサーとして使用できるのは EC2 インスタンスクライアントブラウザーモバイルデバイスなどですサンプルアプリケーションではデータプロデューサーとそのデータコンシューマーとして同じ EC2 インスタンスを使用しています一方実際のシナリオではアプリケーションの各コンポーネントとして別々の EC2 インスタンスを使用することになります以下の手順に従ってサンプルアプリケーションの EC2 インスタンスのデータを表示できますコンソールでインスタンスのデータを表示するには 1. https://console.aws.amazon.com/ec2/) にある Amazon EC2 コンソールを開きます 2. ナビゲーションペインで [ インスタンス ] を選択します 3. サンプルアプリケーション用に作成されたインスタンスを選択しますインスタンスが不明な場合該当するインスタンスには KinesisDataVisSample の名前で始まるセキュリティグループがあります 4. [ モニタリング ] タブにサンプルアプリケーションのデータプロデューサーとデータコンシューマーのリソース使用状況が表示されますデータコンシューマーデータコンシューマー (p. 8) は Kinesis data stream 内のシャードからデータレコードを取得して処理します各コンシューマーはそれぞれ特定のシャードからデータを読み取りますコンシューマーは GetShardIterator および GetRecords オペレーションを使用してシャードからデータを取得しますシャードイテレーターはストリームの位置とコンシューマーが読み取るシャードを表しますコンシューマーはストリームからのレコードの読み取りを開始したり読み取り位置を変更したりするときはこのシャードイテレーターを取得しますシャードイテレーターを取得するにはストリーム名シャード ID シャードイテレータイプを提供する必要がありますシャードイテレーター型によりコンシューマーがストリームのどこから読み取りを開始するかを指定できますたとえばデータがリアルタイムで到着する場合はストリームの先頭を指定できますストリームはレコードをバッチにまとめて返しますバッチのサイズは必要に応じて制限パラメータを使用して制御できますデータコンシューマーはアプリケーションの状態情報 ( チェックポイントやワーカーシャードマッピングなど ) を維持するためのテーブルを DynamoDB に作成します各アプリケーションにはそれぞれ DynamoDB テーブルがありますデータコンシューマーは最後の 2 秒間に特定の各 URL からの閲覧者のリクエストをカウントしますこのタイプのリアルタイムアプリケーションはスライディングウィンドウにわたるトップ N 分析を採用していますこの例では上位 N 個はページリクエスト数で上位 3 つの閲覧者でありスライディングウィンドウは 2 秒ですこれは Kinesis Data Streams を使用した実際のデータ分析を示す一般的な処理パターンですこの計算の結果は DynamoDB テーブルに保持されます Amazon DynamoDB テーブルを表示するには 1. https://console.aws.amazon.com/dynamodb/ にある DynamoDB コンソールを開きます 2. ナビゲーションペインで [Tables ( テーブル )] を選択します 3. サンプルアプリケーションによって作成された 2 つのテーブルがあります 15

Amazon Kinesis Data Streams 開発者ガイドステップ 3: サンプルアプリケーションを削除する KinesisDataVisSampleApp-KCLDynamoDBTable-[randomString] は状態情報を管理します KinesisDataVisSampleApp-CountsDynamoDBTable-[randomString] はスライディングウィンドウにわたりトップ N 分析を持続します 4. Select the KinesisDataVisSampleApp-KCLDynamoDBTable-[randomString] テーブルテーブルには 2 つのエントリがあり特定のシャード (leasekey) ストリーム内の位置 (checkpoint) データを読み取るアプリケーション (leaseowner) を示します 5. Select the KinesisDataVisSampleApp-CountsDynamoDBTable-[randomString] テーブルデータコンシューマーがスライディングウィンドウ分析の一部として計算した総閲覧者数 (referrercounts) を確認できます Kinesis クライアントライブラリ (KCL) コンシューマーアプリケーションは Kinesis Client Library (KCL) を使用してストリームの並列処理を簡素化できます KCL は分散コンピューティングに関連する多くの複雑なタスクを処理しますたとえば複数のインスタンス間での負荷分散インスタンスの障害に対する応答処理済みのレコードのチェックポイント作成リシャーディングへの対応が挙げられます KCL によってレコード処理のロジックの記述に集中できますデータコンシューマーは読み取るストリーム内の位置を KCL に渡しますこの例ではストリームの先頭からの最新のデータを読み取るように指定しています KCL はこの位置を使用してコンシューマーに代わって GetShardIterator を呼び出しますコンシューマーコンポーネントは IRecordProcessor という重要な KCL インターフェイスによりレコードに対してどのような処理を行うかも KCL に指定します KCL はコールコンシューマーに代わって GetRecords を呼び出し IRecordProcessor により指定されたようにそれらのレコードを処理します HttpReferrerCounterApplication サンプルコードの行 92~98 は KCL を設定しますこれはデータを読み取るストリーム内の位置の設定など KCL の初期設定になります HttpReferrerCounterApplication サンプルコードの行 104 108 は IRecordProcessor という重要な KCL コンポーネントを使用してレコードを処理するためのロジックを KCL に通知します CountingRecordProcessor サンプルコードの行 186 ~ 203 は IRecordProcessor を使用するトップ N 分析のためのカウントロジックを含んでいますステップ 3: サンプルアプリケーションを削除するサンプルアプリケーションはアプリケーションの実行中にシャードの使用料が発生する 2 つのシャードを作成します AWS アカウントが請求し続けないようにサンプルアプリケーションを終了したら AWS CloudFormation スタックを削除してくださいアプリケーションリソースを削除するには 1. https://console.aws.amazon.com/cloudformation で AWS CloudFormation コンソールを開きます 2. スタックを選択します 3. [ アクション ] [Delete Stack ( スタックの削除 )] の順に選択します 4. 確認を求めるメッセージが表示されたら [Yes, Delete] を選択しますサンプルアプリケーションに関連付けられたリソースを AWS CloudFormation クリーンアップしている間ステータスが [DELETE_IN_PROGRESS] に変わります AWS CloudFormation がリソースのクリーンアップを終了したらリストからスタックを削除しますステップ 4: 次のステップ GitHub でデータ可視化サンプルアプリケーションのソースコードを確認できます 16

Amazon Kinesis Data Streams 開発者ガイドチュートリアル : CLI を使用した開始方法 Kinesis Data Streams API の使用に関するより詳しい資料については Amazon Kinesis Data Streams API と AWS SDK for Java を使用したプロデューサーの開発 (p. 100) AWS SDK for Java での Kinesis Data Streams API を使用したコンシューマーの開発 (p. 137) およびストリームの作成と管理 (p. 39) を参照してください SDK を使用して Kinesis Data Streams からデータを取得するサンプルアプリケーションは AWS SDK for Java にありますチュートリアル : AWS CLI を使用した Amazon Kinesis Data Streams の開始方法このチュートリアルでは AWS Command Line Interface を使用して基本的な Amazon Kinesis Data Streams オペレーションを実行する方法を示します Kinesis Data Streams データフローの基本原則と Kinesis data stream でのデータの入力や取得に必要なステップについて説明します For CLI access, you need an access key ID and secret access key. Use IAM user access keys instead of AWS アカウントのルートユーザー access keys. IAM lets you securely control access to AWS services and resources in your AWS account. For more information about creating access keys, see Understanding and Getting Your Security Credentials in the AWS General Reference. IAM およびセキュリティキーの詳細なセットアップ手順については IAM ユーザーを作成するを参照してくださいこのチュートリアルで説明する特定のコマンドは特定の値が実行のたびに異なる場合を除きそのまま使用しますまた例では米国西部 ( オレゴン ) リージョンを使用していますが Kinesis Data Streams をサポートするリージョンのいずれでもこのチュートリアルを使用できますトピック AWS CLI のインストールと設定 (p. 17) 基本的なストリームオペレーションの実行 (p. 19) AWS CLI のインストールと設定 AWS CLI のインストール次のプロセスを使用して Windows 用と Linux OS X Unix オペレーティングシステム用の AWS CLI をインストールします Windows 1. AWS Command Line Interface ユーザーガイドの完全インストールの手順の Windows セクションから適切な MSI インストーラをダウンロードします 2. ダウンロードした MSI インストーラを実行します 3. 表示される手順に従います Linux, macos, or Unix 以下の手順では Python 2.6.5 以降が必要です問題が発生した場合は AWS Command Line Interface ユーザーガイドの完全インストールの手順を参照してください 1. pip のウェブサイトからインストールスクリプトをダウンロードし実行します 17

Amazon Kinesis Data Streams 開発者ガイド AWS CLI のインストールと設定 curl "https://bootstrap.pypa.io/get-pip.py" -o "get-pip.py" sudo python get-pip.py 2. pip を使用して AWS CLI をインストールします sudo pip install awscli 使用可能なオプションとサービスのリストを表示するには次のコマンドを使用します aws help 使用する Kinesis Data Streams サービスでは次のコマンドを実行して Kinesis Data Streams に関連する AWS CLI サブコマンドを確認できます aws kinesis help このコマンドの出力には使用できる Kinesis Data Streams コマンドが含まれます AVAILABLE COMMANDS o add-tags-to-stream o create-stream o delete-stream o describe-stream o get-records o get-shard-iterator o help o list-streams o list-tags-for-stream o merge-shards o put-record o put-records o remove-tags-from-stream o split-shard o wait このコマンドリストは Amazon Kinesis サービス API リファレンスに記載されている Kinesis Data Streams API に対応していますたとえば create-stream コマンドは CreateStream API アクションに対応しますこれで AWS CLI は正常にインストールされましたがまだ設定されていませんこれについては次のセクションで説明します 18

Amazon Kinesis Data Streams 開発者ガイド基本的なストリームオペレーションの実行 AWS CLI の設定一般的な使用の場合 aws configure コマンドが AWS CLI のインストールをセットアップするための最も簡単な方法です AWS CLI ではセッション間で設定が保存されるためユーザー設定に変更がない場合このセットアップは 1 回限りです aws configure AWS Access Key ID [None]: AKIAIOSFODNN7EXAMPLE AWS Secret Access Key [None]: wjalrxutnfemi/k7mdeng/bpxrficyexamplekey Default region name [None]: us-west-2 Default output format [None]: json AWS CLI によって 4 種類の情報の入力が求められます AWS アクセスキー ID と AWS シークレットアクセスキーはアカウントの認証情報ですキーがない場合はアマゾンウェブサービスへのサインアップを参照してくださいデフォルトのリージョンはデフォルトで呼び出しを実行する対象のリージョンの名前ですこれは通常お客様の最寄りのリージョンですがどのリージョンでもかまいません Note AWS CLI を使用するときは AWS リージョンを指定する必要がありますサービスと利用可能なリージョンのリストについてはリージョンとエンドポイントを参照してくださいデフォルトの出力形式は JSON text table のいずれかです出力形式を指定しない場合 JSON が使用されます aws configure で作成されたファイル追加の設定名前付きプロファイルの詳細については AWS Command Line Interface ユーザーガイドの AWS コマンドラインインターフェイスの設定を参照してください基本的なストリームオペレーションの実行このセクションでは AWS CLI によるコマンドラインからの Kinesis data stream の基本的な使用方法について説明します Kinesis Data Streams の主要なコンセプト (p. 2) とチュートリアル : Amazon Kinesis Data Streams を使用したウェブトラフィックの可視化 (p. 11) で説明されている概念を理解している必要があります Note Kinesis Data Streams は AWS の無料利用枠の対象外であるためストリームの作成後は Kinesis Data Streams の使用に対して少額の料金が発生しますこのチュートリアルを終了したら AWS リソースを削除して料金が発生しないようにしてください詳細については手順 4: クリーンアップ (p. 23) を参照してくださいトピックステップ 1: ストリームを作成する (p. 19) ステップ 2: レコードを入力する (p. 21) ステップ 3: レコードを取得する (p. 21) 手順 4: クリーンアップ (p. 23) ステップ 1: ストリームを作成する最初のステップはストリームを作成し正常に作成されたことを確認することです次のコマンドを使用して Foo という名前のストリームを作成します 19

Amazon Kinesis Data Streams 開発者ガイド基本的なストリームオペレーションの実行 aws kinesis create-stream --stream-name Foo --shard-count 1 --shard-count パラメータは必須でありチュートリアルのこの部分ではストリームで 1 個のシャードを使用しています次に次のコマンドを実行してストリーム作成の進行状況を確認します aws kinesis describe-stream --stream-name Foo 次の例のような出力が得られます { "StreamDescription": { "StreamStatus": "CREATING", "StreamName": "Foo", "StreamARN": "arn:aws:kinesis:us-west-2:account-id:stream/foo", "Shards": [] この例ではストリームのステータスは CREATING であり使用する準備が完全には整っていないことを意味しますしばらくしてからもう一度調べると次の例のような出力が表示されます { "StreamDescription": { "StreamStatus": "ACTIVE", "StreamName": "Foo", "StreamARN": "arn:aws:kinesis:us-west-2:account-id:stream/foo", "Shards": [ { "ShardId": "shardid-000000000000", "HashKeyRange": { "EndingHashKey": "170141183460469231731687303715884105727", "StartingHashKey": "0", "SequenceNumberRange": { "StartingSequenceNumber": "49546986683135544286507457935754639466300920667981217794" ] この出力にはこのチュートリアルで気にする必要がない情報も含まれていますここで重要な項目は "StreamStatus": "ACTIVE" でありストリームを使用する準備ができたこととリクエストした単一のシャードに関する情報が示されていますまた次に示すように list-streams コマンドを使用して新しいストリームの存在を確認することもできます aws kinesis list-streams 出力 : { "StreamNames": [ "Foo" ] 20

Amazon Kinesis Data Streams 開発者ガイド基本的なストリームオペレーションの実行ステップ 2: レコードを入力するアクティブなストリームができたらデータを入力できますこのチュートリアルでは最もシンプルなコマンド put-record を使用して "testdata" というテキストを含む単一のデータレコードをストリームに入力します aws kinesis put-record --stream-name Foo --partition-key 123 --data testdata このコマンドが成功すると出力は次の例のようになります { "ShardId": "shardid-000000000000", "SequenceNumber": "49546986683135544286507457936321625675700192471156785154" これでストリームにデータを追加できました次にストリームからデータを取得する方法を説明しますステップ 3: レコードを取得するストリームからデータを取得するには対象となるシャードのシャードイテレーターを取得する必要がありますシャードイテレーターはコンシューマー ( ここでは get-record コマンド ) が読み取るストリームとシャードの位置を表します次のように get-shard-iterator コマンドを使用します aws kinesis get-shard-iterator --shard-id shardid-000000000000 --shard-iterator-type TRIM_HORIZON --stream-name Foo aws kinesis のコマンドにはその背後に Kinesis Data Streams API があります示されているパラメータに関心がある場合は GetShardIterator API のリファレンスのトピックを参照してください実行に成功すると出力は次の例のようになります ( 出力全体を表示するには水平にスクロールします ) { "ShardIterator": "AAAAAAAAAAHSywljv0zEgPX4NyKdZ5wryMzP9yALs8NeKbUjp1IxtZs1Sp +KEd9I6AJ9ZG4lNR1EMi+9Md/nHvtLyxpfhEzYvkTZ4D9DQVz/mBYWRO6OTZRKnW9gd+efGN2aHFdkH1rJl4BL9Wyrk +ghyg22d2t1da2eynsh1+labk33gqwetjadbdymwlo5r6pqcp2dzhg=" ランダムに見える長い文字列がシャードイテレーターです ( お客様のシャードイテレーターはこれとは異なります ) このシャードイテレーターをコピーして次に示す get コマンドに貼り付ける必要がありますシャードイテレーターの有効期間は 300 秒ですこれはシャードイテレーターをコピーして次のコマンドに貼り付けるのに十分な時間です次のコマンドに貼り付ける前にシャードイテレーターから改行を削除する必要があることに注意してくださいシャードイテレーターが有効ではないことを示すエラーメッセージが表示された場合はもう一度 get-shard-iterator コマンドを実行します get-records コマンドはストリームからデータを取得し Kinesis Data Streams API の GetRecords 呼び出しとして解決されますシャードイテレーターはデータレコードの逐次読み取りを開始するシャード内の位置を指定しますイテレーターが指定するシャードの位置にレコードがない場合 GetRecords は空のリストを返しますシャード内のレコードが含まれる位置に到達するために複数の呼び出しが必要になる場合があることに注意してください get-records コマンドの例を次に示します ( 出力全体を表示するには水平にスクロールします ) aws kinesis get-records --shard-iterator AAAAAAAAAAHSywljv0zEgPX4NyKdZ5wryMzP9yALs8NeKbUjp1IxtZs1Sp+KEd9I6AJ9ZG4lNR1EMi +9Md/nHvtLyxpfhEzYvkTZ4D9DQVz/mBYWRO6OTZRKnW9gd+efGN2aHFdkH1rJl4BL9Wyrk +ghyg22d2t1da2eynsh1+labk33gqwetjadbdymwlo5r6pqcp2dzhg= 21

Amazon Kinesis Data Streams 開発者ガイド基本的なストリームオペレーションの実行 bash など Unix タイプのコマンドプロセッサからこのチュートリアルを実行する場合は次のように入れ子にしたコマンドを使用してシャードイテレーターの取得を自動化できます ( 横方向にスクロールしてコマンド全体を表示 ) SHARD_ITERATOR=$(aws kinesis get-shard-iterator --shard-id shardid-000000000000 --sharditerator-type TRIM_HORIZON --stream-name Foo --query 'ShardIterator') aws kinesis get-records --shard-iterator $SHARD_ITERATOR PowerShell をサポートするシステムからこのチュートリアルを実行する場合次のようなコマンドを使用してシャードのイテレータの取得を自動化できます ( 横方向にスクロールしてコマンド全体を表示 ) aws kinesis get-records --shard-iterator ((aws kinesis get-shard-iterator --shard-id shardid-000000000000 --shard-iterator-type TRIM_HORIZON --stream-name Foo).split('"')[4]) get-records コマンドが正常に終了すると次の例のようにシャードイテレーターを取得するときに指定したシャードに対応するストリーム内のレコードがリクエストされます ( 出力全体を表示するには水平にスクロールします ) { "Records":[ { "Data":"dGVzdGRhdGE=", "PartitionKey":"123, "ApproximateArrivalTimestamp": 1.441215410867E9, "SequenceNumber":"49544985256907370027570885864065577703022652638596431874" ], "MillisBehindLatest":24000, "NextShardIterator":"AAAAAAAAAAEDOW3ugseWPE4503kqN1yN1UaodY8unE0sYslMUmC6lX9hlig5+t4RtZM0/ talfii4qgjunvgjvqsjxjh2alyxaaapr +LaoENQ7eVs4EdYXgKyThTZGPcca2fVXYJWL3yafv9dsDwsYVedI66dbMZFC8rPMWc797zxQkv4pSKvPOZvrUIudb8UkH3VMzx58Is= 上記で get-records をリクエストとして説明しましたがこれはストリーム内にレコードが存在する場合でもゼロ件以上のレコードが返される可能性があり返されたレコードはストリーム内に現存するすべてのレコードを示していない可能性があることを意味しますこれは完全に正常で本稼働用のコードではストリームに対し適切な間隔でレコードに対するポーリングを行います ( このポーリング速度は個々のアプリケーションの設計要件によって異なります ) チュートリアルの当該部分でレコードについて最初に気付く点はデータが文字化けしたように見えることですこれは送信されたクリアテキスト testdata ではありませんこれはバイナリデータを送信できるように put-record では Base64 エンコーディングを使用しているためですただし AWS CLI での Kinesis Data Streams のサポートでは Base64 デコーディングを提供していませんこれは Base64 デコーディングされた raw バイナリコンテンツを stdout に出力すると特定のプラットフォームやターミナルで意図しない動作やセキュリティ上の問題が発生する可能性があるためです Base64 デコーダ (https://www.base64decode.org/ など ) を使用して手動で dgvzdgrhdge= をデコードするとこれが実際に testdata であることを確認できますこのチュートリアルではこれで問題ありませんなぜなら実際には AWS CLI を使用してデータを利用することはまれであり通常は前に示したようにストリームの状態をモニタリングしたり情報を取得したりするために使用されるからです (describe-stream および list-streams) 後のチュートリアルでは Kinesis クライアントライブラリ (KCL) を使用して本稼働品質のコンシューマーアプリケーションを構築する方法を示し Base64 の処理も検討します KCL の詳細については Kinesis Client Library 1.x を使用したコンシューマーの開発 (p. 118) を参照してください get-records によって常にストリーム / シャード内のすべてのレコードが返されるわけではありませんこのような場合は最後の結果から NextShardIterator を使用して次のレコードのセットを取得しますしたがって大量のデータがストリームに入力されていた場合 ( 本稼働アプリケーションでの通常の状況 ) 毎回 get-records を使用してデータのポーリングを継続できますただし 300 秒の 22

Amazon Kinesis Data Streams 開発者ガイド基本的なストリームオペレーションの実行シャードイテレーターの有効期間内に次のシャードイテレーターを使用して get-records を呼び出した場合エラーメッセージが表示され get-shard-iterator コマンドを使用して最新のシャードイテレーターを取得する必要がありますこの出力には MillisBehindLatest も含まれていますこれはストリームの末尾から GetRecords オペレーションのレスポンスまでの時間 ( ミリ秒 ) でありコンシューマーの時間の現在の時刻からの遅れを示します値ゼロはレコード処理が追いついて現在処理する新しいレコードは存在しないことを示しますこのチュートリアルの場合は作業を進めるのに時間をかけているとこの数値がかなり大きくなる可能性がありますこれは問題ではなくデータレコードはストリームに 24 時間留まり取得されるのを待ちますこの期間は保持期間と呼ばれ 168 時間 (7 日 ) まで設定可能です get-records が成功したときの結果は現在ストリームにこれ以上レコードが見つからない場合でも常に NextShardIterator ですこれはプロデューサーがどの時点でもストリームにレコードを入力している可能性があることを前提としたポーリングモデルです独自のポーリングルーチンを記述することもできますが開発中のコンシューマーアプリケーションで前に説明した KCL を使用している場合このポーリングによって処理が実行されますレコードをプルする対象のストリームまたはシャードにそれ以上レコードがなくなるまで get-records を呼び出すと次の例のような空のレコードの出力が表示されます ( 出力全体を表示するには水平にスクロールします ) { "Records": [], "NextShardIterator": "AAAAAAAAAAGCJ5jzQNjmdhO6B/YDIDE56jmZmrmMA/r1WjoHXC/ kpjxc1rckt3tfl55denfe5mengdkycrpupgzjpmgyhaj53c3ncajq6s7zupjxejgoufs5ocufwhp+wul/ EhyNeSs5DYXLSSC5XCapmCAYGFjYER69QSdQjxMmBPE/hiybFDi5qtkT6/PsZNz6kFoqtDk=" 手順 4: クリーンアップ最後にストリームを削除してリソースを解放し前に説明したようにアカウントに対する意図しない料金が発生することを回避できますストリームを作成したが使用する予定がない場合は必ず実際にこれを行ってくださいストリームでデータを入力および取得したかどうかにかかわらずストリームごとに料金が発生するためですクリーンアップコマンドはシンプルです aws kinesis delete-stream --stream-name Foo 成功しても出力はないため describe-stream を使用して削除の進行状況を確認できます aws kinesis describe-stream --stream-name Foo delete コマンドの直後にこのコマンドを実行する場合次の例のような出力が表示されます { "StreamDescription": { "StreamStatus": "DELETING", "StreamName": "Foo", "StreamARN": "arn:aws:kinesis:us-west-2:account-id:stream/foo", "Shards": [] ストリームが完全に削除されると describe-stream は not found エラーを返します A client error (ResourceNotFoundException) occurred when calling the DescribeStream operation: Stream Foo under account 112233445566 not found. 23

Amazon Kinesis Data Streams 開発者ガイドチュートリアル : 株式データのリアルタイム分析チュートリアル : Kinesis Data Streams を使用した株式データのリアルタイム分析このチュートリアルのシナリオでは株式取引をストリームに取り込みストリーム上で計算を実行するシンプルな Amazon Kinesis Data Streams アプリケーションを記述する必要がありますレコードのストリームを Kinesis Data Streams に送信しほぼリアルタイムにレコードを消費および処理するアプリケーションを実装する方法を説明します Important Kinesis Data Streams は AWS の無料利用枠の対象外であるためストリームの作成後は Kinesis Data Streams の使用に対してアカウントに少額の料金が発生しますコンシューマーアプリケーションが起動すると Amazon DynamoDB の使用に伴う料金がわずかに発生しますコンシューマーアプリケーションでは処理状態を追跡する際に DynamoDB を使用しますこのアプリケーションを終了したら AWS リソースを削除して料金が発生しないようにしてください詳細についてはステップ 7: 終了する (p. 37) を参照してくださいこのコードでは実際の株式市場データにアクセスする代わりに株式取引のストリームをシミュレートしますシミュレーションには 2015 年 2 月時点における時価総額上位 25 社の株式に関する実際の市場データを基にしたランダム株式取引ジェネレーターが使用されていますリアルタイムの株式取引のストリームにアクセスできたとしたらそのときに必要としている有益な統計を入手したいと考えるかもしれませんたとえばスライディングウィンドウ分析を実行して過去 5 分間に購入された最も人気のある株式を調べたいと思われるかもしれませんまたは大規模な売り注文 ( 膨大な株式が含まれる売り注文 ) が発生したときに通知を受けたいと思われるかもしれませんこのシリーズのコードを拡張してこのような機能を使用することもできますこのチュートリアルにある手順をデスクトップやノートパソコンで実行し同じマシンまたは定義された要件を満たす任意のプラットフォーム ( 例 : Amazon Elastic Compute Cloud (Amazon EC2)) でプロデューサーおよびコンシューマーのコードのいずれも実行できます例では米国西部 ( オレゴン ) リージョンが使用されていますが Kinesis Data Streams をサポートする AWS リージョンであればいずれのリージョンでも動作しますタスク前提条件 (p. 24) ステップ 1: データストリームの作成 (p. 25) ステップ 2: IAM ポリシーとユーザーの作成 (p. 26) ステップ 3: 実装コードのダウンロードおよびビルド (p. 29) ステップ 4: プロデューサーを実装する (p. 30) ステップ 5: コンシューマーを実装する (p. 33) ステップ 6: ( オプション ) コンシューマーを拡張する (p. 36) ステップ 7: 終了する (p. 37) 前提条件チュートリアル : Kinesis Data Streams を使用した株式データのリアルタイム分析 (p. 24) を作成するための要件を以下に示します Amazon Web Services アカウント開始する前に Kinesis Data Streams の主要なコンセプト (p. 2) とチュートリアル : Amazon Kinesis Data Streams を使用したウェブトラフィックの可視化 (p. 11) で説明されている概念特にストリー 24

Amazon Kinesis Data Streams 開発者ガイドステップ 1: データストリームの作成ムシャードプロデューサーコンシューマーについて理解しておきますまたチュートリアル : Amazon Kinesis Data Streams を使用したウェブトラフィックの可視化 (p. 11) とチュートリアル : AWS CLI を使用した Amazon Kinesis Data Streams の開始方法 (p. 17) を完了していると役立ちます AWS マネジメントコンソールにアクセスするときに AWS アカウントとウェブブラウザが必要になりますコンソールにアクセスするには IAM ユーザー名とパスワードを使用し IAM サインインページから AWS マネジメントコンソールにサインインします IAM では AWS アカウントでの AWS サービスとリソースへのアクセスを安全に制御できますアクセスキーの作成の詳細については How Do I Get Security Credentials? (AWS General Reference) を参照してください IAM の詳細およびセキュリティキーのセットアップ手順については IAM ユーザーを作成するを参照してくださいシステムソフトウェア要件アプリケーションを実行するシステムには Java 7 以上がインストールされている必要があります最新の Java Development Kit (JDK) をダウンロードおよびインストールするには Oracle 社の Java SE インストールサイトを参照してください Eclipse などの Java IDE をお持ちの場合はソースコードを開いて編集ビルドおよび実行できます最新バージョンの AWS SDK for Java が必要です Eclipse を IDE として使用している場合は AWS Toolkit for Eclipse を代わりにインストールできますコンシューマーアプリケーションを使用するには Kinesis Client Library (KCL) バージョン 1.2.1 以上が必要ですこれは GitHub の Kinesis Client Library (Java) から入手できます次のステップステップ 1: データストリームの作成 (p. 25) ステップ 1: データストリームの作成チュートリアル : Kinesis Data Streams を使用した株式データのリアルタイム分析 (p. 24) の最初のステップで後のステップで使用するストリームを作成しますストリームを作成するには 1. AWS マネジメントコンソールにサインインし https://console.aws.amazon.com/kinesis にある Kinesis コンソールを開きます 2. ナビゲーションペインで [ データストリーム ] を選択します 3. ナビゲーションバーでリージョンセレクターを展開しリージョンを選択します 4. [Kinesis ストリームの作成 ] を選択します 5. ストリームの名前 ( 例 : StockTradeStream) を入力します 6. シャード数は 1 と入力しますが [ 必要なシャード数の予想 ] は折りたたんだままにします 7. [Kinesis ストリームの作成 ] を選択します [Kinesis ストリーム ] ページではストリームの作成中のステータスは CREATING になりますストリームを使用する準備ができるとステータスは ACTIVE に変わりますストリームの名前を選択します表示されたページの [ 詳細 ] タブにはストリーム設定の概要が示されます [ モニタリング ] セクションにはストリームのモニタリング情報が表示されます 25

Amazon Kinesis Data Streams 開発者ガイドステップ 2: IAM ポリシーとユーザーの作成シャードに関する追加情報このチュートリアルを除き初めて Kinesis Data Streams を使用する場合はもっと慎重にストリーム作成プロセスを計画する必要がある場合がありますシャードをプロビジョニングするときには予想される最大需要を考慮する必要がありますこのシナリオを例として使用すると米国の株式市場の取引トラフィックは昼間 ( 東部標準時 ) にピークを迎えますその時刻をサンプルとして需要の予測を行う必要がありますその後予想される最大需要に合わせてプロビジョニングするか需要の変動に応じてストリームを拡大または縮小することができますシャードはスループット容量の単位です [Kinesis ストリームの作成 ] ページで [ 必要なシャード数の予想 ] を展開します次のガイドラインに従って平均レコードサイズ 1 秒間に書き込まれる最大レコード数コンシューマーアプリケーションの数を入力します平均レコードサイズ計算される平均レコードサイズの予測この値がわからない場合は予測される最大レコードサイズを使用します書き込まれる最大レコード数データを提供するエンティティの数と各エンティティで 1 秒間に生成されるおよそのレコード数を考慮に入れますたとえば 20 台の取引サーバーから株式取引データを取得し各サーバーで 1 秒間に 250 個の取引が生成される場合 1 秒あたりの合計取引数 ( レコード数 ) は 5,000 になりますコンシューマーアプリケーションの数独立してストリームを読み取りストリームを固有の方法で処理し固有の出力を生成するアプリケーションの数各アプリケーションでは複数のインスタンスを異なるマシン ( つまりクラスター ) で実行することができますこのため大規模なストリームでも遅延することなく処理できます表示された予測シャード数が現在のシャード制限を超えた場合はその数のシャード数を含むストリームを作成する前に制限を引き上げるリクエストの送信が必要な場合がありますシャード制限の引き上げをリクエストするには Kinesis Data Streams 制限のフォームを使用しますストリームおよびシャードの詳細についてはデータストリームの作成および更新 (p. 5) およびストリームの作成と管理 (p. 39) を参照してください次のステップステップ 2: IAM ポリシーとユーザーの作成 (p. 26) ステップ 2: IAM ポリシーとユーザーの作成 AWS ではセキュリティのベストプラクティスとして詳細なアクセス許可を使用して様々なリソースへのアクセスを制御することが推奨されています AWS Identity and Access Management (IAM) を使用すると AWS のユーザーとユーザー許可を管理できます IAM ポリシーは許可されるアクションとそのアクションが適用されるリソースを明示的にリストアップします一般的に Kinesis Data Streams プロデューサーおよびコンシューマーには次の最小アクセス権限が必要になりますプロデューサーアクションリソース目的 DescribeStream Kinesis data stream レコードを書き込む前にプロデューサーはストリームがあります PutRecord PutRecords Kinesis data stream レコードを Kinesis Data Streams に書き込みます 26

Amazon Kinesis Data Streams 開発者ガイドステップ 2: IAM ポリシーとユーザーの作成コンシューマーアクションリソース目的 DescribeStream Kinesis data stream レコードを読み取る前にコンシューマーはストリームリームにシャードが含まれることを確認します GetRecords GetShardIterator Kinesis data stream Kinesis Data Streams シャードからレコードを読み込みま CreateTable DescribeTable GetItem Amazon DynamoDB PutItem Scan Kinesis UpdateItem クライアントライブラリ (KCL) を使用してコンシテーブルンの処理状態を追跡するときに DynamoDB テーブルにア始したコンシューマーによって作成されます DeleteItem PutMetricData Amazon DynamoDB テーブル Amazon CloudWatch ログコンシューマーが Kinesis Data Streams シャードで分割と KCL はアプリケーションをモニタリングするのに便利なすこのアプリケーションでは前述のすべてのアクセス許可を付与する IAM ポリシーを作成します実際にはプロデューサーとコンシューマーに 1 つずつ 2 つのポリシーを作成することになるかもしれません IAM ポリシーを作成するには 1. 新しいストリームの Amazon リソースネーム (ARN) を見つけますこの ARN は [ ストリーム ARN] として [ 詳細 ] タブの上部に表示されます ARN 形式は次のとおりです arn:aws:kinesis:region:account:stream/name リージョンリージョンコード (us-west-2 など ) 詳細についてはリージョンとアベイラビリティーゾーンの概念を参照してくださいアカウント name AWS アカウント ID ( アカウント設定を参照してください ) ステップ 1: データストリームの作成 (p. 25) からのストリームの名前 (StockTradeStream) 2. コンシューマーによって使用される ( 最初のコンシューマーインスタンスによって作成された ) DynamoDB テーブルの ARN を確認します次のような形式になります arn:aws:dynamodb:region:account:table/name リージョンとアカウントは前のステップと同じ場所のものですがこの場合の名前はコンシューマーアプリケーションによって作成および使用されるテーブルの名前となりますコンシューマーによって使用される KCL ではアプリケーション名がテーブル名として使用されます後で使用されるアプリケーション名である StockTradesProcessor を使用します 3. IAM コンソールで [ ポリシー ] (https://console.aws.amazon.com/iam/home#policies) から [ ポリシーの作成 ] を選択します IAM ポリシーを初めて使用する場合は [ 今すぐ始める ] [ ポリシーの作成 ] の順に選択します 4. [ ポリシージェネレーター ] の横の [ 選択 ] を選択します 5. AWS のサービスとして [Amazon Kinesis] を選択します 27

Amazon Kinesis Data Streams 開発者ガイドステップ 2: IAM ポリシーとユーザーの作成 6. 許可されるアクションとして DescribeStream GetShardIterator GetRecords PutRecord および PutRecords を選択します 7. ステップ 1 で作成した ARN を入力します 8. 以下の各項目について [ ステートメントを追加 ] を使用します AWS サービスアクション ARN Amazon DynamoDB CreateTable DeleteItem DescribeTable ステップ 2 で作成した GetItem ARN PutItem S Amazon CloudWatch PutMetricData * ARN を指定するときに使用されるアスタリスク (*) は必要ありません PutMetricData アクションが呼び出される特定のリソースが CloudWatch に存在しない場合などがこれに該当します 9. [Next Step] を選択します 10. [ ポリシー名 ] を StockTradeStreamPolicy に変更しコードを確認して [ ポリシーの作成 ] を選択します取得されたポリシードキュメントには次のような結果が表示されます { "Version": "2012-10-17", "Statement": [ { "Sid": "Stmt123", "Effect": "Allow", "Action": [ "kinesis:describestream", "kinesis:putrecord", "kinesis:putrecords", "kinesis:getsharditerator", "kinesis:getrecords" ], "Resource": [ "arn:aws:kinesis:us-west-2:123:stream/stocktradestream" ], { "Sid": "Stmt456", "Effect": "Allow", "Action": [ "dynamodb:*" ], "Resource": [ "arn:aws:dynamodb:us-west-2:123:table/stocktradesprocessor" ], { "Sid": "Stmt789", "Effect": "Allow", "Action": [ "cloudwatch:putmetricdata" ], "Resource": [ "*" ] ] 28

Amazon Kinesis Data Streams 開発者ガイドステップ 3: 実装コードのダウンロードおよびビルド IAM ユーザーを作成するには 1. https://console.aws.amazon.com/iam/ にある IAM コンソールを開きます 2. [ ユーザー ] ページで [ ユーザーを追加 ] を選択します 3. [User name] に StockTradeStreamUser と入力します 4. [ アクセスの種類 ] で [ プログラムによるアクセス ] を選択し [ 次の手順 : アクセス許可 ] を選択します 5. [Attach existing policies directly] を選択します 6. 作成したポリシーの名前で検索しますポリシー名の左にあるボックスを選択し [ 次の手順 : 確認 ] を選択します 7. 詳細と概要を確認し [ ユーザーの作成 ] を選択します 8. [ アクセスキー ID] をコピーしプライベート用に保存します [ シークレットアクセスキー ] で [ 表示 ] を選択しこのキーもプライベートに保存します 9. アクセスキーとシークレットキーを自分しかアクセスできない安全な場所にあるローカルファイルに貼り付けますこのアプリケーションではアクセス権限を厳しく制限した ~/.aws/ credentials という名前のファイルを作成しますファイル形式は次のようになります [default] aws_access_key_id=access key aws_secret_access_key=secret access key IAM ポリシーをユーザーにアタッチするには 1. IAM コンソールで [ ポリシー ] を開いて [ ポリシーアクション ] を選択します 2. [StockTradeStreamPolicy] および [ アタッチ ] を選択します 3. [StockTradeStreamUser] および [ ポリシーのアタッチ ] を選択します次のステップステップ 3: 実装コードのダウンロードおよびビルド (p. 29) ステップ 3: 実装コードのダウンロードおよびビルドスケルトンコードは the section called チュートリアル : 株式データのリアルタイム分析 (p. 24) 用に提供されていますこのコードには株式取引ストリームの取り込み ( プロデューサー ) およびデータの処理 ( コンシューマー ) のいずれにも使用できるスタブ実装が含まれています次の手順は実装を完了する方法を示しています実装コードをダウンロードおよびビルドするには 1. ソースコードをコンピュータにダウンロードします 2. 提供されたディレクトリ構造に従ってお好みの IDE でソースコードを使用してプロジェクトを作成します 3. プロジェクトに次のライブラリを追加します Amazon Kinesis Client Library (KCL) AWS SDK Apache HttpCore Apache HttpClient 29

Amazon Kinesis Data Streams 開発者ガイドステップ 4: プロデューサーを実装する Apache Commons Lang Apache Commons Logging Guava (Java 用の Google コアライブラリ ) Jackson Annotations Jackson Core Jackson Databind Jackson Dataformat: CBOR Joda Time 4. IDE によってはプロジェクトが自動的にビルドされる場合があります自動的にビルドされない場合は IDE に適切なステップを使用してプロジェクトをビルドします上記のステップが正常に完了したら次のセクション (the section called ステップ 4: プロデューサーを実装する (p. 30)) に進みますビルドのいずれかの段階でエラーが発生した場合は先に進む前に原因を調査の上解決してください次のステップ (p. 30) ステップ 4: プロデューサーを実装するチュートリアル : Kinesis Data Streams を使用した株式データのリアルタイム分析 (p. 24) のアプリケーションでは株式市場取引をモニタリングする実際のシナリオが使用されます次の原理によってこのシナリオをプロデューサーおよびサポートコード構造にマッピングすることができますソースコードを参照し次の情報を確認してください StockTrade クラス株式取引は StockTrade クラスのインスタンスによって個別に表されますこのインスタンスにはティッカーシンボル株価株数取引のタイプ ( 買いまたは売り ) 取引を一意に識別する ID などの属性が含まれますこのクラスは既に実装されていますストリームレコードストリームとは一連のレコードのことですレコードとは JSON 形式による連続する StockTrade インスタンスの 1 つを表しています ( 例 : { "tickersymbol": "AMZN", "tradetype": "BUY", "price": 395.87, "quantity": 16, "id": 3567129045 StockTradeGenerator クラス StockTradeGenerator には呼び出されるたびにランダムに生成された新しい株式取引を返す getrandomtrade() と呼ばれるメソッドが含まれていますこのクラスは既に実装されています StockTradesWriter クラスプロデューサーの main メソッドである StockTradesWriter は継続的にランダム取引を取得し以下のタスクを実行してそれらを Kinesis Data Streams に送信します 30

Amazon Kinesis Data Streams 開発者ガイドステップ 4: プロデューサーを実装する 1. ストリーム名とリージョン名を入力として読み取ります 2. AmazonKinesisClientBuilder を作成します 3. クライアントビルダーを使用してリージョン認証情報およびクライアント構成を設定します 4. クライアントビルダーを使用して AmazonKinesis クライアントを構成します 5. ストリームが存在しアクティブであることを確認します ( そうでない場合はエラーで終了します ) 6. 連続ループで StockTradeGenerator.getRandomTrade() メソッドに続き sendstocktrade メソッドを呼び出して 100 ミリ秒ごとに取引をストリームに送信します sendstocktrade クラスの StockTradesWriter メソッドには次のコードがあります private static void sendstocktrade(stocktrade trade, AmazonKinesis kinesisclient, String streamname) { byte[] bytes = trade.tojsonasbytes(); // The bytes could be null if there is an issue with the JSON serialization by the Jackson JSON library. if (bytes == null) { LOG.warn("Could not get JSON bytes for stock trade"); return; LOG.info("Putting trade: " + trade.tostring()); PutRecordRequest putrecord = new PutRecordRequest(); putrecord.setstreamname(streamname); // We use the ticker symbol as the partition key, explained in the Supplemental Information section below. putrecord.setpartitionkey(trade.gettickersymbol()); putrecord.setdata(bytebuffer.wrap(bytes)); try { kinesisclient.putrecord(putrecord); catch (AmazonClientException ex) { LOG.warn("Error sending record to Amazon Kinesis.", ex); 次のコードの詳細を参照してください PutRecord API はバイト配列を想定するため trade を JSON 形式に変換する必要がありますこの操作は次の 1 行のコードによって行われます byte[] bytes = trade.tojsonasbytes(); 取引を送信する前に新しい PutRecordRequest インスタンス ( この場合 putrecord と呼ばれる ) を作成する必要があります PutRecordRequest putrecord = new PutRecordRequest(); 各 PutRecord の呼び出しにはストリーム名パーティションキーおよびデータ BLOB が必要です次のコードによって putrecord メソッドを使用してこれらのフィールドを setxxxx() オブジェクトに追加します putrecord.setstreamname(streamname); putrecord.setpartitionkey(trade.gettickersymbol()); putrecord.setdata(bytebuffer.wrap(bytes)); この例では株式チケットをパーティションキーとして使用することでレコードを特定のシャードにマッピングしています実際にはレコードがストリーム全体に均等に分散するように 31

Amazon Kinesis Data Streams 開発者ガイドステップ 4: プロデューサーを実装するシャード 1 つあたりに数百個または数千個のパーティションキーを用意する必要がありますストリームにデータを追加する方法の詳細についてはストリームへのデータの追加 (p. 101) を参照してください次に putrecord をクライアントに送信 (put オペレーション ) することができます kinesisclient.putrecord(putrecord); エラーチェックとログ記録はいつでも追加して損はありません次のコードによってエラー状態を記録します if (bytes == null) { LOG.warn("Could not get JSON bytes for stock trade"); return; put オペレーションの前後に try/catch ブロックを追加します try { kinesisclient.putrecord(putrecord); catch (AmazonClientException ex) { LOG.warn("Error sending record to Amazon Kinesis.", ex); これはネットワークエラーやストリームがスループット限界を超えて抑制されたために Kinesis Data Streams put オペレーションが失敗することがあるためですデータが失われることがないように単純な再試行として使用するなど put オペレーションの再試行ポリシーを慎重に検討することをお勧めしますステータスのログ記録は有益ですがオプションです LOG.info("Putting trade: " + trade.tostring()); ここに示されているプロデューサーでは Kinesis Data Streams API のシングルレコード機能 (PutRecord) が使用されています実際には個々のプロデューサーで大量のレコードが生成される場合がありますその場合 PutRecords のマルチレコード機能を使用してレコードのバッチを一度に送信する方が効率的です詳細についてはストリームへのデータの追加 (p. 101) を参照してくださいプロデューサーを実行するには 1. 前のステップ (IAM ユーザーを作成したとき ) で取得したアクセスキーとシークレットキーのペアがファイル ~/.aws/credentials に保存されていることを確認します 2. 次の引数を指定して StockTradeWriter クラスを実行します StockTradeStream us-west-2 us-west-2 以外のリージョンにストリームを作成した場合は代わりにそのリージョンをここで指定する必要があります次のような出力が表示されます Feb 16, 2015 3:53:00 PM com.amazonaws.services.kinesis.samples.stocktrades.writer.stocktradeswriter sendstocktrade INFO: Putting trade: ID 8: SELL 996 shares of BUD for $124.18 32

Amazon Kinesis Data Streams 開発者ガイドステップ 5: コンシューマーを実装する Feb 16, 2015 3:53:00 PM com.amazonaws.services.kinesis.samples.stocktrades.writer.stocktradeswriter sendstocktrade INFO: Putting trade: ID 9: BUY 159 shares of GE for $20.85 Feb 16, 2015 3:53:01 PM com.amazonaws.services.kinesis.samples.stocktrades.writer.stocktradeswriter sendstocktrade INFO: Putting trade: ID 10: BUY 322 shares of WMT for $90.08 Kinesis Data Streams によって株式取引ストリームが取り込まれます次のステップステップ 5: コンシューマーを実装する (p. 33) ステップ 5: コンシューマーを実装するチュートリアル : Kinesis Data Streams を使用した株式データのリアルタイム分析 (p. 24) のコンシューマーアプリケーションでは (p. 30) で作成した株式取引ストリームを継続的に処理しますその後 1 分ごとに売買されている最も人気のある株式を出力しますこのアプリケーションは Kinesis Client Library (KCL) 上に構築されておりコンシューマーアプリケーションに共通する面倒な作業の多くを行います詳細については Kinesis Client Library 1.x を使用したコンシューマーの開発 (p. 118) を参照してくださいソースコードを参照し次の情報を確認してください StockTradesProcessor クラス事前に用意されているコンシューマーのメインクラスで次のタスクを実行します引数として渡されたアプリケーションストリームおよびリージョン名を読み取ります ~/.aws/credentials から認証情報を読み取ります RecordProcessorFactory のインスタンスとして機能し RecordProcessor インスタンスによって実装される StockTradeRecordProcessor インスタンスを作成します RecordProcessorFactory インスタンスおよび標準設定 ( 例 : ストリーム名認証情報アプリケーション名 ) が指定された KCL ワーカーを作成しますこのワーカーは ( このコンシューマーインスタンスに割り当てられた ) 各シャードに新しいスレッドを作成しますこれにより継続的に Kinesis Data Streams からレコードが読み取られます次に RecordProcessor インスタンスを呼び出して受信したレコードのバッチを処理します StockTradeRecordProcessor クラス RecordProcessor インスタンスを実装したら次に initialize processrecords shutdown の 3 つの必須メソッドを実装します Kinesis Client Library によって使用される initialize および shutdown は名前が示すとおりレコードの受信がいつ開始しいつ終了するかをレコードプロセッサに知らせますこれによりレコードプロセッサはアプリケーションに固有の設定および終了タスクを行うことができますこれらのコードは事前に用意されています主な処理は processrecords メソッドで行われそこでは各レコードの processrecord が使用されます後者のメソッドはほとんどの場合空のスケルトンコードとして提供されます次のステップではこれを実装する方法について説明します詳細は次のステップを参照してくださいまた processrecord のサポートメソッドである reportstats および resetstats の実装にも注目してくださいこれらのメソッドは元のソースコードでは空になっています processsrecords メソッドは既に実装されており次のステップを実行します渡された各レコードについてレコード上で processrecord を呼び出します 33

Amazon Kinesis Data Streams 開発者ガイドステップ 5: コンシューマーを実装する最後のレポートから 1 分間以上経過した場合は reportstats() を呼び出して最新の統計を出力し次の間隔に新しいレコードのみ含まれるように resetstats() を呼び出して統計を消去します次のレポート時間を設定します最後のチェックポイントから 1 分間以上経過した場合は checkpoint() を呼び出します次のチェックポイント時間を設定しますこのメソッドでは 60 秒間間隔でレポートおよびチェックポイント時間が設定されていますチェックポイントの詳細についてはコンシューマーに関する追加情報 (p. 35) を参照してください StockStats クラスこのクラスではデータを保持し最も人気のある株式の経時的な統計を示すことができますこのコードは事前に用意されており次のメソッドが含まれています addstocktrade(stocktrade): 指定された StockTrade を実行中の統計に取り込みます tostring(): 特定の形式の文字列として統計を返しますこのクラスは各株式の合計取引数と最大取引数を継続的にカウントすることで最も人気のある株式を追跡しますこれらの数は株式取引を受け取る度に更新されます次のステップに示されているコードを StockTradeRecordProcessor クラスのメソッドに追加しますコンシューマーを実装するには 1. processrecord メソッドを実装するにはサイズの正しい StockTrade オブジェクトを開始しそれにレコードデータを追加しますまた問題が発生した場合に警告がログに記録されるようにします StockTrade trade = StockTrade.fromJsonAsBytes(record.getData().array()); if (trade == null) { LOG.warn("Skipping record. Unable to parse record into StockTrade. Partition Key: " + record.getpartitionkey()); return; stockstats.addstocktrade(trade); 2. 簡単な reportstats メソッドを実装します出力形式は好みに応じて自由に変更することができます System.out.println("****** Shard " + kinesisshardid + " stats for last 1 minute ****** \n" + stockstats + "\n" + "**************************************************************** \n"); 3. 最後に新しい resetstats インスタンスを作成する stockstats メソッドを実装します stockstats = new StockStats(); コンシューマーを実行するには 1. (p. 30) で記述したプロデューサーを実行しシミュレートした株式取引レコードをストリームに取り込みます 2. 前のステップ (IAM ユーザーを作成したとき ) で取得したアクセスキーとシークレットキーのペアがファイル ~/.aws/credentials に保存されていることを確認します 3. 次の引数を指定して StockTradesProcessor クラスを実行します 34

Amazon Kinesis Data Streams 開発者ガイドステップ 5: コンシューマーを実装する StockTradesProcessor StockTradeStream us-west-2 us-west-2 以外のリージョンにストリームを作成した場合は代わりにそのリージョンをここで指定する必要があります 1 分後次のような出力が表示されますその後 1 分間ごとに出力が更新されます ****** Shard shardid-000000000001 stats for last 1 minute ****** Most popular stock being bought: WMT, 27 buys. Most popular stock being sold: PTR, 14 sells. **************************************************************** コンシューマーに関する追加情報 Kinesis Client Library 1.x を使用したコンシューマーの開発 (p. 118) などで説明されている Kinesis Client Library のメリットに詳しい方であればここで使用することに疑問を感じるかもしれません 1 つのシャードストリームとそれを処理する 1 つのコンシューマーインスタンスしか使用しない場合でも KCL を使用して簡単にコンシューマーを実装することができますプロデューサーセクションとコンシューマーセクションのコードの実装手順を比較するとコンシューマーの実装の方が比較的に簡単であることがわかりますこれは KCL で提供されているサービスが大きく関係していますこのアプリケーションでは個別のレコードを処理できるレコードプロセッサクラスの実装に焦点を合わせてきました新しいレコードが使用可能になると KCL がレコードを取得してレコードプロセッサを呼び出すため Kinesis Data Streams からレコードを取得する方法を心配しなくて済みますまたシャード数やコンシューマーインスタンス数についても心配しなくて済みますストリームがスケールアップされても複数のシャードやコンシューマーインスタンスを処理するためにアプリケーションを書き直す必要はありませんチェックポイントとはストリームにおける特定のポイントのことでそれまでに消費および処理されたデータレコードが記録されますこのためアプリケーションがクラッシュしてもストリームの始めからではなくそのポイントからストリームが読み取られますチェックポイントやそのさまざまな設計パターンおよびベストプラクティスはこの章の範囲外ですただし本番環境ではこのような問題に直面することがあります (p. 30) で説明したように Kinesis Data Streams API の put オペレーションではパーティションキーを入力として受け取ります Kinesis Data Streams では複数のシャード間でレコードを分割する方法としてパーティションキーを使用します ( ストリームに複数のシャードがある場合 ) 同じパーティションキーは常に同じシャードにルーティングされますこのため同じパーティションキーを持つレコードはそのコンシューマーにのみ送信され他のコンシューマーに送信されることはないと仮定して特定のシャードを処理するコンシューマーを設計できますしたがってコンシューマーのワーカーは必要なデータが欠落しているかもしれないと心配することなく同じパーティションキーを持つすべてのレコードを集計できますこのアプリケーションではコンシューマーによるレコードの処理の負荷は高くないため 1 つのシャードを使用して KCL スレッドと同じスレッドで処理することができますただし実際にはまずシャードの数のスケールアップを検討しますレコードの処理が大変になることが予想される場合は異なるスレッドに処理を切り替えたりスレッドプールを使用したりする必要があるかもしれませんこのようにその他のスレッドがレコードを並列処理していても KCL は新しいレコードを迅速に取得できます一般的にマルチスレッド設計は簡単ではなく高度な技術が必要になるためシャードの数を増やすことが最も効果的で簡単な拡張方法です次のステップステップ 6: ( オプション ) コンシューマーを拡張する (p. 36) 35

Amazon Kinesis Data Streams 開発者ガイドステップ 6: ( オプション ) コンシューマーを拡張するステップ 6: ( オプション ) コンシューマーを拡張するチュートリアル : Kinesis Data Streams を使用した株式データのリアルタイム分析 (p. 24) のアプリケーションはすでに目的を十分に果たしているかもしれませんこのオプションのセクションではさらに複雑なシナリオにも対応できるようにコンシューマーコードを拡張する方法について説明します 1 分ごとに最大の売り注文を知るには 3 箇所の StockStats クラスを変更し新しい優先順位を組み込みますカスタマーを拡張するには 1. 新しいインスタンス変数を追加します // Ticker symbol of the stock that had the largest quantity of shares sold private String largestsellorderstock; // Quantity of shares for the largest sell order trade private long largestsellorderquantity; 2. 次のコードを addstocktrade に追加します if (type == TradeType.SELL) { if (largestsellorderstock == null trade.getquantity() > largestsellorderquantity) { largestsellorderstock = trade.gettickersymbol(); largestsellorderquantity = trade.getquantity(); 3. tostring メソッドを変更し追加情報を出力します public String tostring() { return String.format( "Most popular stock being bought: %s, %d buys.%n" + "Most popular stock being sold: %s, %d sells.%n" + "Largest sell order: %d shares of %s.", getmostpopularstock(tradetype.buy), getmostpopularstockcount(tradetype.buy), getmostpopularstock(tradetype.sell), getmostpopularstockcount(tradetype.sell), largestsellorderquantity, largestsellorderstock); コンシューマーを今すぐ実行すると ( プロデューサーも忘れずに実行してください ) 次のような出力が表示されます ****** Shard shardid-000000000001 stats for last 1 minute ****** Most popular stock being bought: WMT, 27 buys. Most popular stock being sold: PTR, 14 sells. Largest sell order: 996 shares of BUD. **************************************************************** 次のステップステップ 7: 終了する (p. 37) 36

Amazon Kinesis Data Streams 開発者ガイドステップ 7: 終了するステップ 7: 終了する Kinesis data stream の使用には料金がかかるため作業が終わったらストリームおよび対応する Amazon DynamoDB テーブルは必ず削除してくださいレコードを送信したり取得したりしていなくてもストリームがアクティブなだけでわずかな料金が発生しますその理由としてアクティブなストリームでは受信レコードを継続的に " リッスン " しレコードを取得するようにリクエストすることにリソースが使用されるためですストリームおよびテーブルを削除するには 1. 実行しているプロデューサーおよびコンシューマーをすべてシャットダウンします 2. https://console.aws.amazon.com/kinesis にある Kinesis コンソールを開きます 3. このアプリケーション用に作成したストリームを選択します (StockTradeStream) 4. [ ストリームの削除 ] を選択します 5. https://console.aws.amazon.com/dynamodb/ にある DynamoDB コンソールを開きます 6. StockTradesProcessor テーブルを削除します概要ほぼリアルタイムで大量のデータを処理するために魔法のコードを記述したり大規模なインフラストラクチャを開発したりする必要はありません Kinesis Data Streams を使用すれば少量のデータを処理するロジックを記述する (processrecord(record) を記述するなど ) 場合と同じように簡単にスケールして大量のストリーミングデータに対応できます処理のスケール方法を心配する必要はありません Kinesis Data Streams が代わりに処理してくれますすることと言えばストリームレコードを Kinesis Data Streams に送信し受信した新しい各レコードを処理するロジックを記述するだけですこのアプリケーションについて考えられる拡張機能は次のとおりですすべてのシャードで集計する現在は単一のワーカーが単一のシャードから受け取ったデータレコードの集約に基づく統計が取得されます ( 複数のワーカーが同時に単一のアプリケーションからシャードを処理することはできません ) 拡張するときに複数のシャードがある場合すべてのシャードで集計しようと考えるかもしれませんそのためにはパイプラインアーキテクチャを用意しますパイプラインアーキテクチャでは各ワーカーの出力が単一のシャードを持つ別のストリームに供給され第 1 段階の出力を集計するワーカーによってそのストリームが処理されます第 1 段階のデータが制限 ( シャードおよび 1 分間あたり 1 つのサンプル ) されるためシャードごとに処理しやすくなります処理の拡張多数のシャードが含まれるようにストリームを拡張する場合 ( 多数のプロデューサーがデータを送信している場合 ) 処理を拡張するにはより多くのワーカーを追加します複数のワーカーは Amazon EC2 インスタンスで実行し Auto Scaling グループを使用できます Amazon S3/DynamoDB/Amazon Redshift/Storm へのコネクタを使用するストリームは継続的に処理されるため出力を他の保存先に送信することができます AWS には Kinesis Data Streams を他の AWS のサービスおよびサードパーティー製ツールと統合するためのコネクタが用意されています次のステップ Kinesis Data Streams API オペレーションの使用方法については Amazon Kinesis Data Streams API と AWS SDK for Java を使用したプロデューサーの開発 (p. 100) AWS SDK for Java での Kinesis Data Streams API を使用したコンシューマーの開発 (p. 137) およびストリームの作成と管理 (p. 39) を参照してください 37

Amazon Kinesis Data Streams 開発者ガイドステップ 7: 終了する Kinesis Client Library の詳細については Kinesis Client Library 1.x を使用したコンシューマーの開発 (p. 118) を参照してくださいアプリケーションを最適化する方法については高度なトピック (p. 160) を参照してください 38

Amazon Kinesis Data Streams 開発者ガイドストリームの作成ストリームの作成と管理以下の例では Amazon Kinesis Data Streams API について説明し AWS SDK for Java を使用して Kinesis data stream を作成削除および操作する方法を示しますこの章で紹介する Java サンプルコードは基本的な Kinesis Data Streams API オペレーションを実行する方法を示しておりオペレーションタイプ別に論理的に分割されていますこれらのサンプルはすべての例外を確認しているわけではなくすべてのセキュリティやパフォーマンスの側面を考慮しているわけでもない点で本稼働環境に使用できるコードを表すものではありませんまた他のプログラミング言語を使用して Kinesis Data Streams API を呼び出すこともできますすべての利用可能な AWS SDK の詳細についてはアマゾンウェブサービスを使用した開発の開始を参照してくださいトピックストリームの作成 (p. 39) ストリームのリスト (p. 41) シャードの一覧表示 (p. 42) ストリームからシャードを取得する (p. 43) ストリームを削除する (p. 43) ストリームをリシャーディングする (p. 44) データ保持期間の変更 (p. 49) Amazon Kinesis Data Streams でのストリームのタグ付け (p. 49) Amazon Kinesis Data Streams のストリームのモニタリング (p. 52) Amazon Kinesis Data Streams による IAM リソースに対するアクセスの制御 (p. 78) サーバー側の暗号化の使用 (p. 82) Amazon Kinesis Data Streams とインターフェイス VPC エンドポイントの使用 (p. 87) コンソールを使用した Kinesis データストリームの管理 (p. 88) ストリームの作成次の手順に従って Kinesis data stream を作成します Kinesis Data Streams クライアントの構築 Kinesis data stream を使用する前にクライアントオブジェクトを構築する必要があります次の Java コードはクライアントビルダーをインスタンス化しそれを使用してリージョン認証情報およびクライアント設定を指定します次にクライアントオブジェクトを構築します AmazonKinesisClientBuilder clientbuilder = AmazonKinesisClientBuilder.standard(); clientbuilder.setregion(regionname); clientbuilder.setcredentials(credentialsprovider); clientbuilder.setclientconfiguration(config); AmazonKinesis client = clientbuilder.build(); 39

Amazon Kinesis Data Streams 開発者ガイドストリームを作成する詳細については AWS General Reference の Kinesis Data Streams のリージョンとエンドポイントを参照してくださいストリームを作成する Kinesis Data Streams クライアントを作成したら使用するストリームを作成できますこの作業は Kinesis Data Streams コンソールまたはプログラムから実行できますプログラムでストリームを作成するには CreateStreamRequest オブジェクトをインスタンス化しストリームの名前とストリームが使用するシャードの数を指定します CreateStreamRequest createstreamrequest = new CreateStreamRequest(); createstreamrequest.setstreamname( mystreamname ); createstreamrequest.setshardcount( mystreamsize ); ストリーム名はストリームを識別するために使用されますこの名前のスコープはアプリケーションが使用する AWS アカウントに限定されますまたリージョンにも限定されますつまり 2 つの異なる AWS アカウント内の 2 つのストリームを同じ名前にすることができ同じ AWS アカウントで 2 つの異なるリージョン内の 2 つのストリームを同じ名前にすることができますが同じアカウントで同じリージョン内の 2 つのストリームを同じ名前にすることはできませんストリームのスループットはシャードの数によって決まりますプロビジョンドスループットを高くするほど必要になるシャードの数は増えますシャードが増えるとストリームに対して請求される AWS のコストも増えますアプリケーションに適切なシャードの数の計算の詳細については Kinesis Data Stream の初期サイズを決定する (p. 5) を参照してください createstreamrequest オブジェクトを設定した後クライアントの createstream メソッドを呼び出すことでストリームを作成します createstream の呼び出し後ストリームに対してさらにオペレーションを実行するにはストリームが ACTIVE 状態になるまで待機しますストリームの状態を確認するには describestream メソッドを呼び出しますただしストリームが存在しない場合 describestream は例外をスローしますそのために describestream の呼び出しは try/ catch ブロックで囲みます client.createstream( createstreamrequest ); DescribeStreamRequest describestreamrequest = new DescribeStreamRequest(); describestreamrequest.setstreamname( mystreamname ); long starttime = System.currentTimeMillis(); long endtime = starttime + ( 10 * 60 * 1000 ); while ( System.currentTimeMillis() < endtime ) { try { Thread.sleep(20 * 1000); catch ( Exception e ) { try { DescribeStreamResult describestreamresponse = client.describestream( describestreamrequest ); String streamstatus = describestreamresponse.getstreamdescription().getstreamstatus(); if ( streamstatus.equals( "ACTIVE" ) ) { break; // // sleep for one second // try { Thread.sleep( 1000 ); catch ( Exception e ) { catch ( ResourceNotFoundException e ) { 40

Amazon Kinesis Data Streams 開発者ガイドストリームのリスト if ( System.currentTimeMillis() >= endtime ) { throw new RuntimeException( "Stream " + mystreamname + " never went active" ); ストリームのリスト前のセクションで説明したようにストリームのスコープは Kinesis Data Streams クライアントのインスタンス化に使用される AWS の認証情報に関連付けられた AWS アカウントに限定されますまたこのクライアントに指定されたリージョンにも限定されます AWS アカウントを使用して多数のストリームを 1 度にアクティブにできますストリームは Kinesis Data Streams コンソールでリストするかプログラムによってリストすることができますこのセクションのコードでは AWS アカウントのすべてのストリームをリスト表示する方法を示します ListStreamsRequest liststreamsrequest = new ListStreamsRequest(); liststreamsrequest.setlimit(20); ListStreamsResult liststreamsresult = client.liststreams(liststreamsrequest); List<String> streamnames = liststreamsresult.getstreamnames(); このコード例では最初に ListStreamsRequest の新しいインスタンスを作成しその setlimit メソッドを呼び出して最大 20 個のストリームが liststreams の呼び出しごとに返されるように指定しています setlimit の値を指定しない場合はアカウント内のストリーム数以下のストリームが Kinesis Data Streams によって返されます次にコードはクライアントの liststreamsrequest メソッドに liststreams を渡します liststreams の戻り値は ListStreamsResult オブジェクトに格納されますコードはこのオブジェクトの getstreamnames メソッドを呼び出して返されたストリームの名前を streamnames リストに格納しますアカウントとリージョンにこの制限で指定したよりも多くのストリームがある場合でも Kinesis Data Streams によって返されるストリームの数が指定した制限に満たないことがあります確実にすべてのストリームを取得するには次のコード例で説明している gethasmorestreams メソッドを使用します while (liststreamsresult.gethasmorestreams()) { if (streamnames.size() > 0) { liststreamsrequest.setexclusivestartstreamname(streamnames.get(streamnames.size() - 1)); liststreamsresult = client.liststreams(liststreamsrequest); streamnames.addall(liststreamsresult.getstreamnames()); このコードは gethasmorestreams の liststreamsrequest メソッドを呼び出して liststreams の最初の呼び出しで返されたストリームの数よりも多いストリームがあるかどうかを確認しますある場合コードは setexclusivestartstreamname メソッドを呼び出して liststreams の前の呼び出しで返された最後のストリームの名前を指定します setexclusivestartstreamname メソッドは liststreams の次の呼び出しをそのストリームの後から開始しますその呼び出しによって返されたストリーム名のグループが streamnames リストに追加されますすべてのストリームの名前がリストに収集されるまでこの処理を続行します liststreams で返されるストリームは以下のいずれかの状態になります CREATING ACTIVE UPDATING DELETING 41

Amazon Kinesis Data Streams 開発者ガイドシャードの一覧表示前の describestream で示したストリームの作成 (p. 39) メソッドを使用してストリームの状態を確認できますシャードの一覧表示ストリームは 1 つ以上のシャードを持つことができます次の例ではストリーム内のシャードを一覧表示する方法を示しますこの例で使用しているメインオペレーションとこのオペレーションで設定できるすべてのパラメータの詳細については ListShards を参照してください import software.amazon.awssdk.services.kinesis.kinesisasyncclient; import software.amazon.awssdk.services.kinesis.model.listshardsrequest; import software.amazon.awssdk.services.kinesis.model.listshardsresponse; import java.util.concurrent.timeunit; public class ShardSample { public static void main(string[] args) { KinesisAsyncClient client = KinesisAsyncClient.builder().build(); ListShardsRequest request = ListShardsRequest.builder().streamName("myFirstStream").build(); try { ListShardsResponse response = client.listshards(request).get(5000, TimeUnit.MILLISECONDS); System.out.println(response.toString()); catch (Exception e) { System.out.println(e.getMessage()); 前のコード例を実行するには次のような POM ファイルを使用できます <?xml version="1.0" encoding="utf-8"?> <project xmlns="http://maven.apache.org/pom/4.0.0" xmlns:xsi="http://www.w3.org/2001/xmlschema-instance" xsi:schemalocation="http://maven.apache.org/pom/4.0.0 http://maven.apache.org/xsd/ maven-4.0.0.xsd"> <modelversion>4.0.0</modelversion> <groupid>kinesis.data.streams.samples</groupid> <artifactid>shards</artifactid> <version>1.0-snapshot</version> <build> <plugins> <plugin> <groupid>org.apache.maven.plugins</groupid> <artifactid>maven-compiler-plugin</artifactid> <configuration> <source>8</source> <target>8</target> </configuration> </plugin> </plugins> </build> <dependencies> 42

Amazon Kinesis Data Streams 開発者ガイドストリームからシャードを取得する <dependency> <groupid>software.amazon.awssdk</groupid> <artifactid>kinesis</artifactid> <version>2.0.0</version> </dependency> </dependencies> </project> ストリームからシャードを取得する describestream メソッドによって返された応答オブジェクトを使用するとストリームを構成するシャードについて情報を取得できますシャードを取得するにはこのオブジェクトの getshards メソッドを呼び出しますこのメソッドは 1 回の呼び出しでストリームからすべてのシャードを返すとは限りません以下のコードでは gethasmoreshards の getstreamdescription メソッドを使用して返されなかったシャードがあるかどうかを確認していますある場合つまりこのメソッドが true を返した場合はループ内で getshards の呼び出しを繰り返して返されたシャードの新しいバッチをシャードのリストに追加していきます gethasmoreshards が false を返した場合はループが終了しますつまりすべてのシャードが返されたことになります getshards は状態のシャードを返さないことに注意してください EXPIRED シャードの状態 (EXPIRED 状態など ) の詳細についてはリシャーディング後のデータのルーティングデータの永続化シャードの状態 (p. 48) を参照してください DescribeStreamRequest describestreamrequest = new DescribeStreamRequest(); describestreamrequest.setstreamname( mystreamname ); List<Shard> shards = new ArrayList<>(); String exclusivestartshardid = null; do { describestreamrequest.setexclusivestartshardid( exclusivestartshardid ); DescribeStreamResult describestreamresult = client.describestream( describestreamrequest ); shards.addall( describestreamresult.getstreamdescription().getshards() ); if (describestreamresult.getstreamdescription().gethasmoreshards() && shards.size() > 0) { exclusivestartshardid = shards.get(shards.size() - 1).getShardId(); else { exclusivestartshardid = null; while ( exclusivestartshardid!= null ); ストリームを削除するストリームは Kinesis Data Streams コンソールで削除するかプログラムによって削除することができますストリームをプログラムで削除するには次のコードに示されているように DeleteStreamRequest を使用します DeleteStreamRequest deletestreamrequest = new DeleteStreamRequest(); deletestreamrequest.setstreamname(mystreamname); client.deletestream(deletestreamrequest); ストリームを削除する前にそのストリーム上で動作しているアプリケーションをすべてシャットダウンします削除したストリームとアプリケーションがやり取りしようとすると ResourceNotFound 例外を受け取りますまた前のストリームと同じ名前で新しいストリームを作成した場合前のストリームとやり取りしていたアプリケーションが実行されているとこれらのアプリケーションは前のストリームと同じように新しいストリームとやり取りしようするため予期しない動作が生じることがあります 43

Amazon Kinesis Data Streams 開発者ガイドストリームをリシャーディングするストリームをリシャーディングする Important UpdateShardCount API を使用してストリームのシャードを組み直すことができますそれ以外の場合はここで説明したように分割とマージを実行できます Amazon Kinesis Data Streams ではリシャーディングがサポートされていますリシャーディングではストリーム内のシャードの数を調整してストリームのデータフロー率の変化に適応させることができますリシャーディングは高度なオペレーションと見なされます Kinesis Data Streams を初めて使用する場合は Kinesis Data Streams の他のあらゆる機能に詳しくなってからこのトピックをお読みくださいリシャーディングにはシャードの分割と結合という 2 種類のオペレーションがありますシャードの分割では 1 つのシャードを 2 つシャードに分けますシャードの結合では 2 つシャードを 1 つのシャードに組み合わせますリシャーディングは 1 回のオペレーションでシャードに分割できる数と 1 回のオペレーションで結合できるシャードの数が 2 個以下に限られるという意味で常にペアワイズですリシャーディングオペレーションの対象となるシャードまたはシャードペアは親シャードと呼ばれますリシャーディングオペレーションを実行した結果のシャードまたはシャードペアは子シャードと呼ばれます分割によりストリーム内のシャードの数が増えしたがってストリームのデータ容量は増えますシャード単位で請求されるため分割によりストリームのコストが増えます同様に結合によりストリーム内のシャードの数が減るためストリームのデータ容量 ( コスト ) は減りますリシャーディングは通常プロデューサー ( 入力 ) アプリケーションやコンシューマー ( 取得 ) アプリケーションとは別の管理アプリケーションによって実行されますこのような管理アプリケーションは Amazon CloudWatch が提供するメトリクスまたはプロデューサーとコンシューマーから収集されたメトリクスに基づいてストリームの全体的なパフォーマンスを監視します管理アプリケーションにはコンシューマーまたはプロデューサーよりも広範な IAM アクセス許可も必要になりますコンシューマーとプロデューサーは通常リシャーディングに使用される API にアクセスする必要がないためです Kinesis Data Streams の IAM アクセス許可の詳細については Amazon Kinesis Data Streams による IAM リソースに対するアクセスの制御 (p. 78) を参照してくださいトピックリシャーディングのための戦略 (p. 44) シャードの分割 (p. 45) 2 つのシャードを結合する (p. 46) リシャーディング後 (p. 47) リシャーディングのための戦略 Amazon Kinesis Data Streams におけるリシャーディングの目的はストリームをデータの流量の変化に適応させることですシャードを分割するとストリームの容量 ( およびコスト ) が増えますシャードを結合するとストリームのコスト ( および容量 ) が減りますリシャーディングの 1 つの方法としてストリーム内のすべてのシャードを分割するとストリームの容量は倍増しますただし実際に必要になるよりも多くの容量が追加されるため不要なコストが生じる可能性がありますメトリックを使用してシャードがホットであるかコールドであるかつまり想定より過多なデータを受け取っているか過少なデータを受け取っているかを判断できますホットシャードは分割してそれらのハッシュキーに対応した容量を増やすことができます同様にコールドシャードは結合して未使用の容量をより有効に活用できます 44

Amazon Kinesis Data Streams 開発者ガイドシャードの分割 Kinesis Data Streams が発行する Amazon CloudWatch メトリクスからストリームのパフォーマンスデータを取得できますただしストリームについて独自のメトリックを収集することもできます 1 つのアプローチとして考えられるのはデータレコードのパーティションキーによって生成されたハッシュキー値をログに記録することですストリームにレコードを追加するときにパーティションキーを指定していることを思い出してください putrecordrequest.setpartitionkey( String.format( "mypartitionkey" ) ); Kinesis Data Streams では MD5 を使用してパーティションキーからハッシュキーを計算しますレコードのパーティションキーを指定しているため MD5 を使用してそのレコードのハッシュキー値を計算しログに記録できますまたデータレコードが割り当てられているシャードの ID をログに記録することもできますシャード ID は getshardid メソッドによって返される putrecordresults オブジェクトおよび putrecords メソッドによって返される putrecordresult オブジェクトの putrecord メソッドを使用することによって利用できます String shardid = putrecordresult.getshardid(); シャード ID とハッシュキー値を使用すると最も多いまたは少ないトラフィックを受け取っているシャードとハッシュキーを特定できますその後リシャーディングによりこれらのハッシュキーに対応した容量を増やすか減らすことができますシャードの分割 Amazon Kinesis Data Streams のシャードを分割するには親シャードのハッシュキー値を子シャードに再配分する方法を指定する必要がありますデータレコードをストリームに追加するとレコードはハッシュキー値に基づいてシャードに割り当てられますハッシュキー値はストリームに追加するデータレコードに指定するパーティションキーの MD5 ハッシュですパーティションキーが同じデータレコードはハッシュキー値も同じです指定したシャードに使用可能なハッシュキー値は順序付けられた連続する正の整数で構成されますハッシュキーの一連の値は以下の式を使用して導き出します shard.gethashkeyrange().getstartinghashkey(); shard.gethashkeyrange().getendinghashkey(); シャードを分割するときはこの一連の値を指定しますそのハッシュキー値とそれより上位のすべてのハッシュキー値はいずれかの子シャードの配分されますそれより下位のすべてのハッシュキー値はその他の子のシャードに配分されます以下のコードでは子シャード間でハッシュキーを均等に再配分し親シャードを半分に分割する基本的なシャード分割オペレーションを示しますこれは親シャードを分割する方法の 1 つに過ぎませんたとえば親シャードの下位 1/3 のキーを 1 つの子シャードに配分し上位 2/3 のキーをその他の子シャードに配分してシャードを分割することもできますただし多くアプリケーションに効果的なのはシャードを半分に分割することです以下のコードでは mystreamname にストリームの名前が格納されオブジェクト変数 shard に分割するシャードが格納されるとします新しい splitshardrequest オブジェクトをインスタンス化しストリーム名とシャード ID を設定することから始めます SplitShardRequest splitshardrequest = new SplitShardRequest(); splitshardrequest.setstreamname(mystreamname); splitshardrequest.setshardtosplit(shard.getshardid()); 45

Amazon Kinesis Data Streams 開発者ガイド 2 つのシャードを結合するシャード内の最小値と最大値の中間にあるハッシュキー値を決定しますこれは子シャードの開始ハッシュキー値になり親シャードのハッシュキーの上位半分が含まれますこの値を setnewstartinghashkey メソッドで指定します指定する必要があるのはこの値のみですこの値より下位のハッシュキーは分割によって作成されたその他の子シャードに Kinesis Data Streams によって自動的に配分されます最後のステップとして Kinesis Data Streams クライアントで splitshard メソッドを呼び出します BigInteger startinghashkey = new BigInteger(shard.getHashKeyRange().getStartingHashKey()); BigInteger endinghashkey = new BigInteger(shard.getHashKeyRange().getEndingHashKey()); String newstartinghashkey = startinghashkey.add(endinghashkey).divide(new BigInteger("2")).toString(); splitshardrequest.setnewstartinghashkey(newstartinghashkey); client.splitshard(splitshardrequest); この方法の後の最初の手順はストリームが再度アクティブになるまで待機する (p. 47) に示されています 2 つのシャードを結合するシャードの結合オペレーションは指定した 2 つのシャードを取得し 1 つシャードに組み合わせます結合後 1 つの子シャードは 2 つの親シャードのすべてのハッシュキー値のデータを受け取りますシャードの隣接 2 つのシャードを結合するにはシャードが隣接している必要があります 2 つのシャードのハッシュキー範囲が途切れておらず連続している場合 2 つのシャードは隣接していると考えられますたとえば 2 つのシャードがあり 1 つのハッシュキー範囲が 276 381 もう 1 つのハッシュキー範囲が 382 454 であるとしますこの 2 つのシャードは 1 つのシャードに結合可能であり結合した場合のハッシュキー範囲は 276 454 となります別の例として 2 つのシャードがあり 1 つのハッシュキー範囲が 276 381 もう 1 つのハッシュキー範囲が 455 560 であるとしますこの 2 つのシャードは結合できませんこれらの間に 1 つ以上のシャード ( ハッシュキー範囲が 382 454) が介在している可能性がありますストリーム内の OPEN 状態にあるすべてのシャードのセット ( グループ ) は常に MD5 ハッシュキー値の全範囲にまたがりますシャードの状態 (CLOSED など ) の詳細についてはリシャーディング後のデータのルーティングデータの永続化シャードの状態 (p. 48) を参照してください結合候補になるシャードを特定するには CLOSED 状態にあるすべてのシャードを除外する必要があります OPEN 状態のシャード (CLOSED 状態でないシャード ) の終了シーケンス番号は null です以下のコードを使用してシャードの終了シーケンス番号をテストできます if( null == shard.getsequencenumberrange().getendingsequencenumber() ) { // Shard is OPEN, so it is a possible candidate to be merged. CLOSED 状態のシャードを除外した後各シャードでサポートされている最大ハッシュキー値で残りのシャードを並べ替えます以下のコード使用してこの値を取得できます shard.gethashkeyrange().getendinghashkey(); このフィルタリングして並び替えたリストで 2 つシャードが隣接している場合それらのシャードは結合できます結合オペレーションのコード 46

Amazon Kinesis Data Streams 開発者ガイドリシャーディング後以下のコードでは 2 つシャードを結合しています mystreamname にはストリームの名前が格納されオブジェクト変数 shard1 と shard2 には結合する 2 つの隣接するシャードが格納されるとします結合オペレーションの場合新しい mergeshardsrequest オブジェクトをインスタンス化することから始めます setstreamname メソッドでストリーム名を指定します次に setshardtomerge と setadjacentshardtomerge のメソッドを使用して結合する 2 つのシャードを指定します最後に Kinesis Data Streams クライアントで mergeshards メソッドを呼び出してこのオペレーションを実行します MergeShardsRequest mergeshardsrequest = new MergeShardsRequest(); mergeshardsrequest.setstreamname(mystreamname); mergeshardsrequest.setshardtomerge(shard1.getshardid()); mergeshardsrequest.setadjacentshardtomerge(shard2.getshardid()); client.mergeshards(mergeshardsrequest); この方法の後の最初の手順はストリームが再度アクティブになるまで待機する (p. 47) に示されていますリシャーディング後 Amazon Kinesis Data Streams でリシャーディングの手順が終了し通常のレコード処理を再開する前に必要な手順や検討事項があります以下のセクションではこれらについて説明しますトピックストリームが再度アクティブになるまで待機する (p. 47) リシャーディング後のデータのルーティングデータの永続化シャードの状態 (p. 48) ストリームが再度アクティブになるまで待機するリシャーディングオペレーションとして splitshard または mergeshards のいずれかを呼び出した後ストリームが再びアクティブになるまで待機する必要があります使用するコードはストリームの作成 (p. 39) 後にストリームがアクティブになるまで待機する場合のものと同じですコードは次のとおりです DescribeStreamRequest describestreamrequest = new DescribeStreamRequest(); describestreamrequest.setstreamname( mystreamname ); long starttime = System.currentTimeMillis(); long endtime = starttime + ( 10 * 60 * 1000 ); while ( System.currentTimeMillis() < endtime ) { try { Thread.sleep(20 * 1000); catch ( Exception e ) { try { DescribeStreamResult describestreamresponse = client.describestream( describestreamrequest ); String streamstatus = describestreamresponse.getstreamdescription().getstreamstatus(); if ( streamstatus.equals( "ACTIVE" ) ) { break; // // sleep for one second // 47

Amazon Kinesis Data Streams 開発者ガイドリシャーディング後 try { Thread.sleep( 1000 ); catch ( Exception e ) { catch ( ResourceNotFoundException e ) { if ( System.currentTimeMillis() >= endtime ) { throw new RuntimeException( "Stream " + mystreamname + " never went active" ); リシャーディング後のデータのルーティングデータの永続化シャードの状態 Kinesis Data Streams はリアルタイムのデータストリーミングサービスですつまりアプリケーションではデータがストリーム内のシャードに連続的に流れていることが前提になりますリシャーディングすると親シャードに流れていたデータレコードはデータレコードのパーティションキーがマッピングされるハッシュキー値に基づいて子シャードに流れるように再ルーティングされますただしリシャーディング前に親シャードにあったデータレコードはすべてそれらのシャードに残りますつまりリシャーディング後に親シャードが失われることはありませんそれらのシャードはリシャーディング前に格納されていたデータと共に保持されます親シャード内のデータレコードにアクセスするには Kinesis Data Streams API の getsharditerator オペレーションと getrecords (p. 137) のオペレーションを使用するか Kinesis Client Library を使用できます Note データレコードは現在の保持期間にストリームを追加した時間からアクセスできますこれはその期間内のストリームのシャードの変更に関係なく当てはまりますストリームの保持期間の詳細についてはデータ保持期間の変更 (p. 49) を参照してくださいリシャーディングの過程で親シャードは OPEN 状態から CLOSED 状態にさらに EXPIRED 状態へと移行します OPEN: リシャーディングオペレーションに先立って親シャードは OPEN 状態にありますつまりデータレコードはシャードに追加したりシャードから取得したりできます CLOSED: リシャーディングオペレーション後に親シャードは CLOSED 状態に移行しますつまりデータレコードはシャードに追加されなくなりますこのシャードに追加されることになっていたデータレコードは子シャードに追加されるようになりますただしデータレコードは引き続き制限された時間内にシャードから取得できます EXPIRED: ストリーム保持期間の有効期限が切れると親シャードのすべてのデータレコードが期限切れとなりアクセスできなくなりますこの時点でシャード自体は EXPIRED 状態に移行します getstreamdescription().getshards を呼び出してストリーム内のシャードを列挙しても返されるシャードのリストには状態のシャードは含まれません EXPIRED ストリームの保持期間の詳細についてはデータ保持期間の変更 (p. 49) を参照してくださいリシャーディング後ストリームが再び ACTIVE 状態になるとすぐに子シャードからのデータの読み取りを開始できますただしリシャーディング後に残った親シャードにはリシャーディング前にストリームに追加されてまだ読み取られていないデータがそのまま格納されている可能性があります親シャードからすべてのデータを読み取る前に子シャードからデータを読み取った場合は特定のハッシュキーが原因で読み取ったデータがデータレコードのシーケンス番号に基づいた順序に並ばない可能性がありますしたがってデータの順序が重要である場合はリシャーディング後そのデータを使い切るまで親シャードからのデータの読み取りを続行する必要があります子シャードからのデータの読み取りは必ずその後で開始してください getrecordsresult.getnextsharditerator がを返した場合は親シャード内のすべてのデータを読み取ったということです nullkinesis Client Library を使用してデータを読み取る場合はリシャーディング後でも正しい順序でデータを受け取ることができます 48

Amazon Kinesis Data Streams 開発者ガイドデータ保持期間の変更データ保持期間の変更 Amazon Kinesis Data Streams ではストリームのデータレコードの保持期間の変更をサポートしています Kinesis data stream はデータレコードの順序付けられたシーケンスでリアルタイムで書き込みと読み取りができることが前提となっていますしたがってデータレコードはシャードに一時的に保存されますレコードが追加されてからアクセスできなくなるまでの期間は保持期間と呼ばれますデフォルトで Kinesis data stream は 24 時間レコードを保持し最大値は 168 時間です IncreaseStreamRetentionPeriod オペレーションを使用して保持期間を最長 168 時間まで増やすことができますまた DecreaseStreamRetentionPeriod オペレーションを使用して保持期間を最短 24 時間まで減らすことができます両方のオペレーションに対するリクエスト構文には時間にストリーム名と保存期間が含まれます最後に DescribeStream オペレーションを呼び出すことでストリームの現在の保持期間を確認できますオペレーションはどちらも簡単に行うことができます AWS CLI を使用して保持期間を変更する例を以下に示します aws kinesis increase-stream-retention-period --stream-name retentionperioddemo --retentionperiod-hours 72 Kinesis Data Streams は数分間延長した保持期間内で古い保持期間のアクセス停止を解除することができますたとえば保持期間を 24 時間から 48 時間に変更すると 23 時間 55 分前にストリームに追加されたレコードはさらに 24 時間後まで使用できます Kinesis Data Streams は保持期間が短縮されると新しい保持期間よりも古いレコードをほぼ即座にアクセス不能にしますそのため DecreaseStreamRetentionPeriod オペレーションを呼び出すときは細心の注意が必要です問題が発生した場合は期限が切れる前にデータを読めるように保持期間を設定しますレコード処理ロジックの問題または長期間にわたるダウンストリームの依存関係などあらゆる可能性を慎重に検討してくださいデータコンシューマーの回復時間に余裕が出るように保持期間は慎重に設定します保持期間 API オペレーションではこの期間を事前に設定したりオペレーションイベントにリアクティブに対応したりできます 24 時間を超える保持期間を設定されたストリームに追加料金が適用されます詳細については Amazon Kinesis Data Streams 料金表を参照してください Amazon Kinesis Data Streams でのストリームのタグ付け Amazon Kinesis Data Streams で作成したストリームに独自のメタデータを割り当てるためにタグ形式を使用できますタグはストリームに対して定義するキーと値のペアですタグの使用は AWS リソースの管理やデータ ( 請求データなど ) の整理を行うシンプルかつ強力な方法ですコンテンツタグの基本 (p. 50) タグ付けを使用したコストの追跡 (p. 50) タグの制限 (p. 50) Kinesis Data Streams コンソールを使用したストリームのタグ付け (p. 51) AWS CLI を使用したストリームのタグ付け (p. 51) 49

Amazon Kinesis Data Streams 開発者ガイドタグの基本 Kinesis Data Streams API を使用したストリームのタグ付け (p. 52) タグの基本 Kinesis Data Streams コンソール AWS CLI または Kinesis Data Streams API を使用して以下のタスクを実行しますストリームにタグを追加するストリームのタグを一覧表示するストリームからタグを削除するタグを使用するとストリームを分類できますたとえば目的所有者環境などに基づいてストリームを分類できますタグごとにキーと値を定義するため特定のニーズを満たすためのカテゴリのカスタムセットを作成できますたとえば所有者と関連するアプリケーションに基づいてストリームを追跡するのに役立つタグのセットを定義できます次にいくつかのタグの例を示しますプロジェクト : プロジェクト名所有者 : 名前目的 : 負荷テストアプリケーション : アプリケーション名環境 : 本稼働タグ付けを使用したコストの追跡タグを使用して AWS コストを分類して追跡できます AWS リソース ( ストリームなど ) にタグを適用すると AWS のコスト配分レポートにタグ別に集計された使用状況とコストが表示されます自社のカテゴリ ( たとえばコストセンターアプリケーション名所有者 ) を表すタグを適用すると複数のサービスにわたってコストを分類することができます詳細については AWS Billing and Cost Management ユーザーガイドのコスト配分タグを使用したカスタム請求レポートを参照してくださいタグの制限タグには次の制限があります基本制限リソース ( ストリーム ) あたりのタグの最大数は 50 ですタグのキーと値は大文字と小文字が区別されます削除されたストリームのタグを変更または編集することはできませんタグキーの制限各タグキーは一意である必要があります既に使用されているキーを含むタグを追加すると新しいタグで既存のキーと値のペアが上書きされます aws: は AWS が使用するように予約されているためこのプレフィックスを含むタグキーで開始することはできません AWS ではユーザーの代わりにこのプレフィックスで始まるタグを作成しますがユーザーはこれらのタグを編集または削除することはできませんタグキーの長さは 1~128 文字 (Unicode) にする必要がありますタグキーは次の文字で構成する必要があります Unicode 文字数字空白特殊文字 (_. / = + - @) 50

Amazon Kinesis Data Streams 開発者ガイド Kinesis Data Streams コンソールを使用したストリームのタグ付けタグ値の制限タグ値の長さは 0~255 文字 (Unicode) にする必要がありますタグ値は空白にすることができます空白にしない場合は次の文字で構成する必要があります Unicode 文字数字空白特殊文字 (_. / = + - @) Kinesis Data Streams コンソールを使用したストリームのタグ付け Kinesis Data Streams コンソールを使用してタグの追加一覧表示および削除を行うことができますストリームのタグを表示するには 1. Kinesis Data Streams コンソールを開きますナビゲーションバーでリージョンセレクターを展開しリージョンを選択します 2. [ ストリームリスト ] ページでストリームを選択します 3. [ ストリームの詳細 ] ページで [ タグ ] タブをクリックしますストリームにタグを追加するには 1. Kinesis Data Streams コンソールを開きますナビゲーションバーでリージョンセレクターを展開しリージョンを選択します 2. [ ストリームリスト ] ページでストリームを選択します 3. [ ストリームの詳細 ] ページで [ タグ ] タブをクリックします 4. [ キー ] フィールドにタグキーを指定しオプションとして [ 値 ] フィールドにタグ値を指定した後で [ タグの追加 ] をクリックします [ タグの追加 ] ボタンが有効でない場合は指定したタグキーまたはタグ値のいずれかがタグの制限を満たしていません詳細についてはタグの制限 (p. 50) を参照してください 5. [ タグ ] タブのリストに新しいタグを表示するには更新アイコンをクリックしますストリームからタグを削除するには 1. Kinesis Data Streams コンソールを開きますナビゲーションバーでリージョンセレクターを展開しリージョンを選択します 2. [Stream List] ページでストリームを選択します 3. [ ストリームの詳細 ] ページで [ タグ ] タブをクリックしタグの [ 削除 ] アイコンをクリックします 4. [ タグの削除 ] ダイアログボックスで [ はい削除する ] をクリックします AWS CLI を使用したストリームのタグ付け AWS CLI を使用してタグの追加一覧表示および削除を行うことができます例については次のドキュメントを参照してください add-tags-to-stream 指定したストリームのタグを追加または更新します list-tags-for-stream 指定したストリームのタグを一覧表示します 51

Amazon Kinesis Data Streams 開発者ガイド Kinesis Data Streams API を使用したストリームのタグ付け remove-tags-from-stream 指定したストリームからタグを削除します Kinesis Data Streams API を使用したストリームのタグ付け Kinesis Data Streams API を使用してタグの追加一覧表示および削除を行うことができます例については次のドキュメントを参照してください AddTagsToStream 指定したストリームのタグを追加または更新します ListTagsForStream 指定したストリームのタグを一覧表示します RemoveTagsFromStream 指定したストリームからタグを削除します Amazon Kinesis Data Streams のストリームのモニタリング次の機能を使用して Amazon Kinesis Data Streams のデータストリームをモニタリングできます CloudWatch メトリクス (p. 52) Kinesis Data Streams は Amazon CloudWatch に各ストリームの詳細モニタリングのカスタムメトリクスを送信します Kinesis エージェント (p. 62) Kinesis エージェントはカスタム CloudWatch メトリクスを発行してエージェントが期待どおりに動作しているかどうかを確認します API ログ記録 (p. 63) Kinesis Data Streams は AWS CloudTrail を使用して API コールをログに記録しそのデータを Amazon S3 バケットに保存します Kinesis クライアントライブラリ (p. 66) Kinesis Client Library (KCL) はシャードワーカーおよび KCL アプリケーションあたりのメトリクスを提供します Kinesis プロデューサーライブラリ (p. 74) Kinesis Producer Library (KPL) はシャードワーカーおよび KPL アプリケーションあたりのメトリクスを提供します Amazon CloudWatch による Amazon Kinesis Data Streams サービスのモニタリング Amazon Kinesis Data Streams と Amazon CloudWatch は統合されているため Kinesis データストリームの CloudWatch メトリクスを収集表示および分析できますたとえばシャードの使用状況の追跡に PutRecords.Bytes メトリックス GetRecords.Bytes とメトリックスをモニタリングしストリーム内のシャード数と比較できますストリーム用に設定するメトリクスは自動的に収集され 1 分おきに CloudWatch にプッシュされます 2 週間分のメトリクスがアーカイブされその期間が経過したデータは破棄されます次の表は Kinesis データストリームの基本的なストリームレベルと拡張シャードレベルのモニタリングについて説明しています 52

Amazon Kinesis Data Streams 開発者ガイド CloudWatch によるサービスのモニタリングタイプベーシック ( ストリームレベル ) 拡張 ( シャードレベル ) 説明ストリームレベルのデータは 1 分間ごとに自動的に送信されます料金は発生しませんシャードレベルのデータは 1 分ごとに送信されます追加料金が発生しますこのレベルのデータを取得するには EnableEnhancedMonitoring 操作を使用してストリームを明示的に有効にする必要があります料金の詳細については Amazon CloudWatch 製品ページを参照してください Amazon Kinesis Data Streams のディメンションおよびメトリクス Kinesis Data Streams はストリームレベルとオプションのシャードレベルの 2 つのレベルでメトリクスを CloudWatch に送信しますストリームレベルのメトリクスは通常の条件での最も一般的なモニタリングのユースケース用ですシャードレベルのメトリクスは通常トラブルシューティングに関連する特定のモニタリングタスクで EnableEnhancedMonitoring 操作を使用して有効になります CloudWatch メトリクスから収集された統計の説明については Amazon CloudWatch ユーザーガイドの CloudWatch の統計を参照してくださいトピック基本ストリームレベルメトリクス (p. 53) 拡張シャードレベルメトリクス (p. 58) Amazon Kinesis Data Streams メトリクスのディメンション (p. 60) 推奨 Amazon Kinesis Data Streams メトリクス (p. 61) 基本ストリームレベルメトリクス AWS/Kinesis 名前空間には次のストリームレベルメトリクスが含まれます Kinesis Data Streams は 1 分ごとにこれらのストリームレベルメトリクスを CloudWatch に送信しますこれらのメトリクスは常に利用することができますメトリクス GetRecords.Bytes 説明指定された期間に測定された Kinesis ストリームから取得したバイト数 Minimum Maximum および Average の統計は指定した期間内のストリームの単一 GetRecords オペレーションでのバイト数ですシャードレベルメトリクス名 : OutgoingBytes ディメンション : StreamName 統計 : Minimum Maximum Average Sum Samples 単位 : バイト 53

Amazon Kinesis Data Streams 開発者ガイド CloudWatch によるサービスのモニタリングメトリクス GetRecords.IteratorAge 説明このメトリクスは廃止されました GetRecords.IteratorAgeMilliseconds を使用します GetRecords.IteratorAgeMilliseconds Kinesis ストリームに対して行われたすべての GetRecords 呼び出しの最後のレコードの期間 ( 指定された期間に測定 ) 期間は現在の時刻と GetRecords 呼び出しの最後のレコードがストリームに書き込まれた時刻の差です Minimum および Maximum 統計は Kinesis コンシューマーアプリケーションのプロセスを追跡するのに使用できます値がゼロの場合は読み取り中のレコードがストリームに完全に追いついていることを示しますシャードレベルメトリクス名 : IteratorAgeMilliseconds ディメンション : StreamName 統計 : Minimum Maximum Average Samples 単位 : ミリ秒 GetRecords.Latency 指定された期間に測定された GetRecords オペレーションごとにかかった時間ディメンション : StreamName 統計 : Minimum Maximum Average 単位 : ミリ秒 GetRecords.Records 指定された期間に測定されたシャードから取得したレコード数 Minimum Maximum および Average の統計は指定した期間内のストリームの単一 GetRecords オペレーションでのレコード数ですシャードレベルメトリクス名 : OutgoingRecords ディメンション : StreamName 統計 : Minimum Maximum Average Sum Samples 単位 : Count GetRecords.Success 指定された期間に測定されたストリームごとの成功した GetRecords オペレーションの数ディメンション : StreamName 統計 : Average Sum Samples 単位 : Count 54

Amazon Kinesis Data Streams 開発者ガイド CloudWatch によるサービスのモニタリングメトリクス IncomingBytes 説明指定された期間に Kinesis ストリームに正常に送信されたバイト数このメトリクスには PutRecord および PutRecords オペレーションのバイト数も含まれます Minimum Maximum および Average の統計は指定した期間内のストリームの単一 put オペレーションでのバイト数ですシャードレベルメトリクス名 : IncomingBytes ディメンション : StreamName 統計 : Minimum Maximum Average Sum Samples 単位 : バイト IncomingRecords 指定された期間に Kinesis ストリームに正常に送信されたレコードの数このメトリクスには PutRecord および PutRecords オペレーションのレコード数も含まれます Minimum Maximum および Average の統計は指定した期間内のストリームの単一 put オペレーションでのレコード数ですシャードレベルメトリクス名 : IncomingRecords ディメンション : StreamName 統計 : Minimum Maximum Average Sum Samples 単位 : Count PutRecord.Bytes 指定された期間に PutRecord オペレーションを使用して Kinesis ストリームに送信されたバイト数ディメンション : StreamName 統計 : Minimum Maximum Average Sum Samples 単位 : バイト PutRecord.Latency 指定された期間に測定された PutRecord オペレーションごとにかかった時間ディメンション : StreamName 統計 : Minimum Maximum Average 単位 : ミリ秒 PutRecord.Success 指定された期間に測定された Kinesis ストリームごとの成功した PutRecord オペレーションの数 Average はストリームへの書き込み成功率を反映していますディメンション : StreamName 統計 : Average Sum Samples 単位 : Count 55

Amazon Kinesis Data Streams 開発者ガイド CloudWatch によるサービスのモニタリングメトリクス PutRecords.Bytes 説明指定された期間に PutRecords オペレーションを使用して Kinesis ストリームに送信されたバイト数ディメンション : StreamName 統計 : Minimum Maximum Average Sum Samples 単位 : バイト PutRecords.Latency 指定された期間に測定された PutRecords オペレーションごとにかかった時間ディメンション : StreamName 統計 : Minimum Maximum Average 単位 : ミリ秒 PutRecords.Records 指定された期間に測定された Kinesis ストリームごとの PutRecords オペレーションの正常なレコード数ディメンション : StreamName 統計 : Minimum Maximum Average Sum Samples 単位 : Count PutRecords.Success 指定された期間に測定された Kinesis ストリームあたりの最低 1 つのレコードが成功した PutRecords オペレーションの数ディメンション : StreamName 統計 : Average Sum Samples 単位 : Count ReadProvisionedThroughputExceeded 指定された期間のストリームで調整された GetRecords 呼び出し回数このメトリクスで最も一般的に使用される統計は Average です Minimum の統計の値が 1 の場合指定された期間にストリームについてすべてのレコードが調整されました Maximum の統計の値が 0 ( ゼロ ) の場合指定された期間にストリームについてどのレコードも調整されていませんシャードレベルメトリクス名 : ReadProvisionedThroughputExceeded ディメンション : StreamName 統計 : Minimum Maximum Average Sum Samples 単位 : Count 56

Amazon Kinesis Data Streams 開発者ガイド CloudWatch によるサービスのモニタリングメトリクス SubscribeToShard.RateExceeded SubscribeToShard.Success 説明このメトリックスは同じコンシューマーによるアクティブなサブスクリプションがすでにあるため新しいサブスクリプションが失敗したときまたはこのオペレーションで許可される 1 秒あたりの呼び出し回数を超えた場合に出力されますディメンション : StreamName ConsumerName このメトリックスは SubscribeToShard サブスクリプションが正常に確立されたかどうかを記録しますこのサブスクリプションの有効期間は最大で 5 分のみですしたがってこのメトリックスは少なくとも 5 分に 1 回発行されますディメンション : StreamName ConsumerName SubscribeToShardEvent.Bytes 指定された期間に測定されたシャードから受信したバイト数 Minimum Maximum および Average の統計は指定した期間内の単一イベントで発行されたバイト数ですシャードレベルメトリクス名 : OutgoingBytes ディメンション : StreamName ConsumerName 統計 : Minimum Maximum Average Sum Samples 単位 : バイト SubscribeToShardEvent.MillisBehindLatest 現在の時刻と SubscribeToShard イベントの最後のレコードがストリームに書き込まれた時刻の差ですディメンション : StreamName ConsumerName 統計 : Minimum Maximum Average Samples 単位 : ミリ秒 SubscribeToShardEvent.Records 指定された期間に測定されたシャードから受信したレコード数 Minimum Maximum および Average の統計は指定した期間内の単一イベント内のレコードですシャードレベルメトリクス名 : OutgoingRecords ディメンション : StreamName ConsumerName 統計 : Minimum Maximum Average Sum Samples 単位 : Count SubscribeToShardEvent.Success このメトリックスはイベントが正常に発行されるたびに出力されますこれはアクティブなサブスクリプションがある場合にのみ出力されますディメンション : StreamName ConsumerName 統計 : Minimum Maximum Average Sum Samples 単位 : Count 57

Amazon Kinesis Data Streams 開発者ガイド CloudWatch によるサービスのモニタリングメトリクス説明 WriteProvisionedThroughputExceeded 指定された期間にストリームのスロットリングにより拒否されたレコードの数このメトリクスには PutRecord および PutRecords オペレーションのスロットリングも含まれますこのメトリクスで最も一般的に使用される統計は Average です Minimum の統計がゼロ以外の値の場合指定された期間にストリームについてレコードが調整中でした Maximum の統計の値が 0 ( ゼロ ) の場合指定された期間のストリームでどのレコードも調整中ではありませんでしたシャードレベルメトリクス名 : WriteProvisionedThroughputExceeded ディメンション : StreamName 統計 : Minimum Maximum Average Sum Samples 単位 : Count 拡張シャードレベルメトリクス AWS/Kinesis 名前空間には次のシャードレベルメトリクスが含まれます Kinesis は 1 分ごとに次のシャードレベルメトリクスを CloudWatch に送信しますデフォルトではこれらのメトリクスは有効ではありません Kinesis から発生した拡張メトリクスには料金がかかります詳細については Amazon CloudWatch 料金表で Amazon CloudWatch カスタムメトリクスの項目を参照してください料金は 1 ヶ月あたりのシャードごとに表示されますメトリクス IncomingBytes 説明指定された期間にシャードに正常に送信されたバイト数このメトリクスには PutRecord および PutRecords オペレーションのバイト数も含まれます Minimum Maximum および Average の統計は指定した期間内のシャードの単一 put オペレーションでのバイト数ですストリームレベルメトリクス名 : IncomingBytes ディメンション : StreamName ShardId 統計 : Minimum Maximum Average Sum Samples 単位 : バイト IncomingRecords 指定された期間にシャードに正常に送信されたレコードの数このメトリクスには PutRecord および PutRecords オペレーションのレコード数も含まれます Minimum Maximum および Average の統計は指定した期間内のシャードの単一 put オペレーションでのレコード数ですストリームレベルメトリクス名 : IncomingRecords 58

Amazon Kinesis Data Streams 開発者ガイド CloudWatch によるサービスのモニタリングメトリクス説明ディメンション : StreamName ShardId 統計 : Minimum Maximum Average Sum Samples 単位 : Count IteratorAgeMilliseconds シャードに対して行われたすべての GetRecords 呼び出しの最後のレコードの期間 ( 指定された時間に測定 ) 期間は現在の時刻と GetRecords 呼び出しの最後のレコードがストリームに書き込まれた時刻の差です Minimum および Maximum 統計は Kinesis コンシューマーアプリケーションのプロセスを追跡するのに使用できます値が 0 ( ゼロ ) の場合は読み取り中のレコードがストリームに完全に追いついていることを示しますストリームレベルメトリクス名 : GetRecords.IteratorAgeMilliseconds ディメンション : StreamName ShardId 統計 : Minimum Maximum Average Samples 単位 : ミリ秒 OutgoingBytes 指定された期間に測定されたシャードから取得したバイト数 Minimum Maximum および Average の統計は指定した期間内のシャードの単一 GetRecords オペレーションで返されたバイト数または単一の SubscribeToShard イベントで発行されたバイト数ですストリームレベルメトリクス名 : GetRecords.Bytes ディメンション : StreamName ShardId 統計 : Minimum Maximum Average Sum Samples 単位 : バイト OutgoingRecords 指定された期間に測定されたシャードから取得したレコード数 Minimum Maximum および Average の統計は指定した期間内のシャードの単一 GetRecords オペレーションで返されたレコードまたは単一の SubscribeToShard イベントで発行されたレコードですストリームレベルメトリクス名 : GetRecords.Records ディメンション : StreamName ShardId 統計 : Minimum Maximum Average Sum Samples 単位 : Count 59

Amazon Kinesis Data Streams 開発者ガイド CloudWatch によるサービスのモニタリングメトリクス説明 ReadProvisionedThroughputExceeded 指定された期間のシャードで調整された GetRecords 呼び出し回数この例外カウントは 1 秒あたり 1 つのシャードあたり 5 回の読み込みまたは 1 つのシャードあたり 1 秒あたり 2 MB の制限のすべてのディメンションを含みますこのメトリクスで最も一般的に使用される統計は Average です Minimum の統計の値が 1 の場合指定された期間にシャードについてすべてのレコードが調整されました Maximum の統計の値が 0 ( ゼロ ) の場合指定された期間にシャードについてどのレコードも調整されていませんストリームレベルメトリクス名 : ReadProvisionedThroughputExceeded ディメンション : StreamName ShardId 統計 : Minimum Maximum Average Sum Samples 単位 : Count WriteProvisionedThroughputExceeded 指定された期間にシャードのスロットリングにより拒否されたレコードの数このメトリクスには PutRecord および PutRecords オペレーションのスロットリングが含まれさらに 1 つのシャードあたり 1 秒あたり 1,000 レコードまたは 1 つのシャードあたり 1 秒あたり 1 MB の制限のすべてのディメンションが含まれますこのメトリクスで最も一般的に使用される統計は Average です Minimum の統計がゼロ以外の値の場合指定された期間にシャードについてレコードが調整中でした Maximum の統計の値が 0 ( ゼロ ) の場合指定された期間のシャードでどのレコードも調整中ではありませんでしたストリームレベルメトリクス名 : WriteProvisionedThroughputExceeded ディメンション : StreamName ShardId 統計 : Minimum Maximum Average Sum Samples 単位 : Count Amazon Kinesis Data Streams メトリクスのディメンション Amazon Kinesis Data Streams のメトリクスをフィルタするには次のディメンションを使用できますディメンション StreamName 説明 Kinesis ストリームの名前 ShardId Kinesis ストリーム内のシャード ID 60

Amazon Kinesis Data Streams 開発者ガイド CloudWatch によるサービスのモニタリング推奨 Amazon Kinesis Data Streams メトリクス Amazon Kinesis Data Streams メトリクスのいくつかは Kinesis Data Streams のお客様に特に重要です次のリストは推奨メトリクスとご利用方法を提供していますメトリクス使用に関する注意事項 GetRecords.IteratorAgeMilliseconds ストリームのすべてのシャードとコンシューマーの読み込み場所を追跡しますイテレータの経過日数が保持期間 ( デフォルトで 24 時間最大で 7 日まで設定可能 ) の 50% を経過するとレコードの有効期限切れによるデータ損失のリスクがありますこの損失がリスクになる前に警告するように最大統計の CloudWatch アラームを使用することをお勧めしますこのメトリクスを使用するシナリオ例はコンシューマーレコードの処理が遅れる (p. 159) を参照してください ReadProvisionedThroughputExceeded コンシューマー側のレコード処理に後れが生じているときにボトルネックがどこにあるかを確認するのは難しい場合がありますこのメトリクスを使用して読み取りスループット制限を超えたために読み取りが調整されているかを判断してくださいこのメトリクスで最も一般的に使用される統計は Average です WriteProvisionedThroughputExceeded これは ReadProvisionedThroughputExceeded メトリクスと同じ目的ですがストリームのプロデューサ (PUT) 側用ですこのメトリクスで最も一般的に使用される統計は Average です PutRecord.Success PutRecords.Success レコードがストリームに後れていることを示す平均統計の CloudWatch アラームを使用することをお勧めしますプロデューサーが使用しているものに応じて一つまたは両方の種類の PUT 種類を選択します Kinesis Producer Library (KPL) を使用している場合は PutRecords.Success を使用します GetRecords.Success レコードがストリームの役に立っていないことを示す平均統計の CloudWatch アラームを使用することをお勧めしますのメトリクスへのアクセス CloudWatch コンソールコマンドラインまたは CloudWatch API を使用して Kinesis Data Streams のメトリクスをモニタリングできます次の手順はこれらのさまざまなメソッドを使用してメトリクスにアクセスする方法を示しています CloudWatch コンソールを使用してメトリクスにアクセスするには 1. https://console.aws.amazon.com/cloudwatch/ にある CloudWatch コンソールを開きます 2. ナビゲーションバーでリージョンを選択します 3. ナビゲーションペインでメトリクスを選択します 4. [ カテゴリ別の CloudWatch メトリクス ] ペインで [Kinesis メトリクス ] を選択します 5. 該当する行をクリックし指定した [MetricName] と [StreamName] の統計を表示します注意 : ほとんどのコンソール統計の名前は [ 読み込みスループット ] と [ 書き込みスループット ] を除いて上記の対応する CloudWatch メトリクス名に一致します次の統計は 5 分間隔で計算されます [ 書き込みスループット ] は IncomingBytes CloudWatch メトリクスをモニタリングし [ 読み取りスループット ] は GetRecords.Bytes をモニタリングします 6. ( オプション ) グラフペインで統計と期間を選択しこれらの設定を使用して CloudWatch アラームを作成します 61

Amazon Kinesis Data Streams 開発者ガイド CloudWatch によるエージェントのモニタリング AWS CLI を使用してメトリクスにアクセスするには list-metrics コマンドと get-metric-statistics コマンドを使用します CloudWatch CLI を使用してメトリクスにアクセスするには mon-list-metrics コマンドと mon-get-stats コマンドを使用します CloudWatch API を使用してメトリクスにアクセスするには ListMetrics オペレーションと GetMetricStatistics オペレーションを使用します Amazon CloudWatch による Kinesis Data Streams エージェントのヘルスのモニタリングエージェントは AWSKinesisAgent の名前空間でカスタム CloudWatch メトリクスを発行しますこれらのメトリクスを使用してエージェントがデータを指定されたとおりに Kinesis Data Streams にデータを送信しておりエージェントが正常でありデータプロデューサーで適切な量の CPU とメモリリソースを消費しているかを評価できます送信されたレコード数やバイト数などのメトリクスはエージェントがストリームにデータを送信する速度を知るのに便利ですこれらのメトリクスがある程度の割合低下するかゼロになることで期待されるしきい値を下回っている場合は設定の問題ネットワークエラーエージェントの状態の問題を示している場合がありますオンホスト CPU やメモリなどの消費量とエージェントエラーカウンターなどのメトリクスはプロデューサーのリソース使用率を示し潜在的な構成またはホストのエラーに対する洞察を提供します最後にエージェントの問題を調査するのに役立つサービス例外を記録しますこれらのメトリクスはエージェント構成設定 cloudwatch.endpoint で指定されたリージョンで報告されますエージェント設定の詳細についてはエージェントの設定 (p. 107) を参照してください CloudWatch によるモニタリング Kinesis Data Streams エージェントは以下のメトリクスを CloudWatch に送信しますメトリクス BytesSent 説明指定された期間に Kinesis Data Streams に送信されたバイト数単位 : バイト RecordSendAttempts 指定した期間内の PutRecords 呼び出しのレコード数 ( 初回または再試行の ) 単位 : Count RecordSendErrors 指定した期間内の PutRecords への呼び出しの失敗ステータス ( 再試行など ) のレコード数単位 : Count ServiceErrors 指定した期間内のサービスエラー ( スロットリングエラーを除く ) となった PutRecords への呼び出し数単位 : Count 62

Amazon Kinesis Data Streams 開発者ガイド AWS CloudTrail を使用した Amazon Kinesis Data Streams API コールのログ記録 AWS CloudTrail を使用した Amazon Kinesis Data Streams API コールのログ記録 Amazon Kinesis Data Streams はユーザーロールまたはの AWS サービスによって実行されるアクションを記録するサービスと統合されています CloudTrail ではイベントとして Kinesis Data Streams に対するすべての API コールをキャプチャしますキャプチャされた呼び出しには Kinesis Data Streams コンソールの呼び出しと Kinesis Data Streams API オペレーションへのコード呼び出しが含まれます証跡を作成する場合はのイベントなど Amazon S3 バケットへのイベントの継続的な配信を有効にすることができます証跡を設定しない場合でも CloudTrail コンソールの [Event history ( イベント履歴 )] で最新のイベントを表示できます CloudTrail によって収集された情報を使用してリクエストの作成元の IP アドレスリクエストの実行者リクエストの実行日時などの詳細を調べて Kinesis Data Streams に対してどのようなリクエストが行われたかを判断できます CloudTrail の詳細 ( 設定して有効にする方法など ) については AWS CloudTrail User Guide を参照してください内の情報 CloudTrail はアカウント作成時に AWS アカウントで有効になります Kinesis Data Streams でサポートされるイベントアクティビティが発生するとそのアクティビティは CloudTrail イベントとして AWS のサービスの他のイベントとともに [Event history ( イベント履歴 )] に記録されます最近のイベントは AWS アカウントで表示検索ダウンロードできます詳細については CloudTrail イベント履歴でのイベントの表示を参照してくださいのイベントなどアカウントのイベントの継続的な記録については証跡を作成します証跡により CloudTrail はログファイルを Amazon S3 バケットに配信できますデフォルトではコンソールで作成した証跡がすべての AWS リージョンに適用されます証跡では AWS パーティションのすべてのリージョンからのイベントがログに記録され指定した Amazon S3 バケットにログファイルが配信されますさらにより詳細な分析と AWS ログで収集されたデータに基づいた行動のためにその他の CloudTrail サービスを設定できます詳細については以下を参照してください証跡を作成するための概要 CloudTrail でサポートされるサービスと統合 CloudTrail の Amazon SNS 通知の設定複数のリージョンから CloudTrail ログファイルを受け取ると複数のアカウントから CloudTrail ログファイルを受け取る Kinesis Data Streams は以下のアクションをイベントとして CloudTrail ログファイルに記録します AddTagsToStream CreateStream DecreaseStreamRetentionPeriod DeleteStream DeregisterStreamConsumer DescribeStream DescribeStreamConsumer DisableEnhancedMonitoring EnableEnhancedMonitoring IncreaseStreamRetentionPeriod ListStreamConsumers ListStreams ListTagsForStream 63

MergeShards RegisterStreamConsumer RemoveTagsFromStream SplitShard StartStreamEncryption StopStreamEncryption UpdateShardCount Amazon Kinesis Data Streams 開発者ガイド AWS CloudTrail を使用した Amazon Kinesis Data Streams API コールのログ記録各イベントまたはログエントリにはリクエストの生成者に関する情報が含まれますこの ID 情報は以下のことを確認するのに役立ちますリクエストがルートまたは AWS Identity and Access Management (IAM) ユーザー認証情報のどちらを使用して送信されたかどうかリクエストがロールとフェデレーティッドユーザーのどちらの一時的なセキュリティ認証情報を使用して送信されたか. リクエストが別の AWS サービスによって送信されたかどうか詳細については CloudTrail useridentity 要素を参照してください例 : Kinesis Data Streams ログファイルエントリ証跡は指定した Amazon S3 バケットにイベントをログファイルとして配信できる設定です CloudTrail ログファイルには 1 つ以上のログエントリが含まれますイベントは任意の送信元からの単一のリクエストを表しリクエストされたアクションアクションの日時リクエストのパラメータなどに関する情報が含まれます CloudTrail ログファイルはパブリック API コールの順序付けられたスタックトレースではないため特定の順序では表示されません以下の例は CreateStream DescribeStream ListStreams DeleteStream SplitShard MergeShards の各アクションを示す CloudTrail ログエントリです { "Records": [ { "eventversion": "1.01", "useridentity": { "type": "IAMUser", "principalid": "EX_PRINCIPAL_ID", "arn": "arn:aws:iam::012345678910:user/alice", "accountid": "012345678910", "accesskeyid": "EXAMPLE_KEY_ID", "username": "Alice", "eventtime": "2014-04-19T00:16:31Z", "eventsource": "kinesis.amazonaws.com", "eventname": "CreateStream", "awsregion": "us-east-1", "sourceipaddress": "127.0.0.1", "useragent": "aws-sdk-java/unknown-version Linux/x.xx", "requestparameters": { "shardcount": 1, "streamname": "GoodStream", "responseelements": null, "requestid": "db6c59f8-c757-11e3-bc3b-57923b443c1c", "eventid": "b7acfcd0-6ca9-4ee1-a3d7-c4e8d420d99b", 64

Amazon Kinesis Data Streams 開発者ガイド AWS CloudTrail を使用した Amazon Kinesis Data Streams API コールのログ記録 {, {, { "eventversion": "1.01", "useridentity": { "type": "IAMUser", "principalid": "EX_PRINCIPAL_ID", "arn": "arn:aws:iam::012345678910:user/alice", "accountid": "012345678910", "accesskeyid": "EXAMPLE_KEY_ID", "username": "Alice", "eventtime": "2014-04-19T00:17:06Z", "eventsource": "kinesis.amazonaws.com", "eventname": "DescribeStream", "awsregion": "us-east-1", "sourceipaddress": "127.0.0.1", "useragent": "aws-sdk-java/unknown-version Linux/x.xx", "requestparameters": { "streamname": "GoodStream", "responseelements": null, "requestid": "f0944d86-c757-11e3-b4ae-25654b1d3136", "eventid": "0b2f1396-88af-4561-b16f-398f8eaea596" "eventversion": "1.01", "useridentity": { "type": "IAMUser", "principalid": "EX_PRINCIPAL_ID", "arn": "arn:aws:iam::012345678910:user/alice", "accountid": "012345678910", "accesskeyid": "EXAMPLE_KEY_ID", "username": "Alice", "eventtime": "2014-04-19T00:15:02Z", "eventsource": "kinesis.amazonaws.com", "eventname": "ListStreams", "awsregion": "us-east-1", "sourceipaddress": "127.0.0.1", "useragent": "aws-sdk-java/unknown-version Linux/x.xx", "requestparameters": { "limit": 10, "responseelements": null, "requestid": "a68541ca-c757-11e3-901b-cbcfe5b3677a", "eventid": "22a5fb8f-4e61-4bee-a8ad-3b72046b4c4d" "eventversion": "1.01", "useridentity": { "type": "IAMUser", "principalid": "EX_PRINCIPAL_ID", "arn": "arn:aws:iam::012345678910:user/alice", "accountid": "012345678910", "accesskeyid": "EXAMPLE_KEY_ID", "username": "Alice", "eventtime": "2014-04-19T00:17:07Z", "eventsource": "kinesis.amazonaws.com", "eventname": "DeleteStream", "awsregion": "us-east-1", "sourceipaddress": "127.0.0.1", "useragent": "aws-sdk-java/unknown-version Linux/x.xx", "requestparameters": { "streamname": "GoodStream", "responseelements": null, 65

Amazon Kinesis Data Streams 開発者ガイド CloudWatch による KCL のモニタリング ], {, { "requestid": "f10cd97c-c757-11e3-901b-cbcfe5b3677a", "eventid": "607e7217-311a-4a08-a904-ec02944596dd" "eventversion": "1.01", "useridentity": { "type": "IAMUser", "principalid": "EX_PRINCIPAL_ID", "arn": "arn:aws:iam::012345678910:user/alice", "accountid": "012345678910", "accesskeyid": "EXAMPLE_KEY_ID", "username": "Alice", "eventtime": "2014-04-19T00:15:03Z", "eventsource": "kinesis.amazonaws.com", "eventname": "SplitShard", "awsregion": "us-east-1", "sourceipaddress": "127.0.0.1", "useragent": "aws-sdk-java/unknown-version Linux/x.xx", "requestparameters": { "shardtosplit": "shardid-000000000000", "streamname": "GoodStream", "newstartinghashkey": "11111111", "responseelements": null, "requestid": "a6e6e9cd-c757-11e3-901b-cbcfe5b3677a", "eventid": "dcd2126f-c8d2-4186-b32a-192dd48d7e33" "eventversion": "1.01", "useridentity": { "type": "IAMUser", "principalid": "EX_PRINCIPAL_ID", "arn": "arn:aws:iam::012345678910:user/alice", "accountid": "012345678910", "accesskeyid": "EXAMPLE_KEY_ID", "username": "Alice", "eventtime": "2014-04-19T00:16:56Z", "eventsource": "kinesis.amazonaws.com", "eventname": "MergeShards", "awsregion": "us-east-1", "sourceipaddress": "127.0.0.1", "useragent": "aws-sdk-java/unknown-version Linux/x.xx", "requestparameters": { "streamname": "GoodStream", "adjacentshardtomerge": "shardid-000000000002", "shardtomerge": "shardid-000000000001", "responseelements": null, "requestid": "e9f9c8eb-c757-11e3-bf1d-6948db3cd570", "eventid": "77cf0d06-ce90-42da-9576-71986fec411f" Amazon CloudWatch による Kinesis クライアントライブラリのモニタリング Kinesis Client Library (KCL) for Amazon Kinesis Data Streams はユーザーに代わって名前空間として KCL アプリケーションの名前を使用してカスタム Amazon CloudWatch メトリクスを発行します CloudWatch コンソールに移動し [ カスタムメトリクス ] を選択するとこれらのメトリクスを表示 66

Amazon Kinesis Data Streams 開発者ガイド CloudWatch による KCL のモニタリングできますカスタムメトリクスの詳細については Amazon CloudWatch ユーザーガイドのカスタムメトリクスをパブリッシュするを参照してください KCL によって CloudWatch にアップロードされたメトリクスには小額の課金が発生します具体的には Amazon CloudWatch カスタムメトリクスと Amazon CloudWatch API リクエストの料金が適用されます詳細については Amazon CloudWatch 料金表を参照してくださいトピックメトリクスと名前空間 (p. 67) メトリクスレベルとディメンション (p. 67) メトリクスの設定 (p. 67) メトリクスの一覧 (p. 68) メトリクスと名前空間メトリクスのアップロードに使用される名前空間は KCL の起動時に指定されたアプリケーション名ですメトリクスレベルとディメンション CloudWatch にアップロードされるメトリクスを制御する 2 つのオプションがありますメトリクスレベルすべてのメトリクスに個別のレベルが割り当てられますメトリクスのレポートレベルを設定するとレポートレベル以下の個別のレベルのメトリクスは CloudWatch に送信されませんこのレベルとして NONE SUMMARY DETAILED がありますデフォルト設定は DETAILED でありすべてのメトリクスが CloudWatch に送信されますレポートレベル NONE はメトリクスがまったく送信されないことを意味します各メトリクスに割り当てられるメトリクスの詳細についてはメトリクスの一覧 (p. 68) を参照してください有効なディメンション各 KCL メトリクスに関連付けられたディメンションも CloudWatch に送信されます Operation ディメンションは常にアップロードされ無効化できませんデフォルトでは WorkerIdentifier ディメンションは無効となり Operation および ShardId ディメンションのみがアップロードされます CloudWatch メトリクスディメンションの詳細については Amazon CloudWatch ユーザーガイドの Amazon CloudWatch の概念トピックでディメンションセクションを参照してください WorkerIdentifier ディメンションが有効で特定の KCL ワーカーが再起動するたびにワーカー ID プロパティに異なる値が使用される場合新しい WorkerIdentifier ディメンション値を持つ新しいメトリクスのセットが CloudWatch に送信されます特定の KCL ワーカーの再起動で WorkerIdentifier ディメンションの値が同じである必要がある場合各ワーカーの初期化中に同じワーカー ID 値を明示的に指定する必要がありますアクティブな各 KCL ワーカーのワーカー ID 値はすべての KCL ワーカー間で一意である必要がありますメトリクスの設定メトリクスレベルと有効なディメンションは KinesisClientLibConfiguration インスタンスを使用して設定できこのインスタンスは KCL アプリケーションを起動するときにワーカーに渡されます MultiLangDaemon の場合 metricslevel プロパティおよび metricsenableddimensions プロパティは MultiLangDaemon KCL アプリケーションを起動するために使用される.properties ファイルで指定できます 67

Amazon Kinesis Data Streams 開発者ガイド CloudWatch による KCL のモニタリングメトリクスレベルには NONE SUMMARY または DETAILED の 3 つの値のうち 1 つを割り当てることができます有効なディメンションの値は CloudWatch メトリクスで許可されているディメンションのリストを含むカンマ区切りの文字列である必要があります KCL アプリケーションによって使用されるディメンションは Operation ShardId および WorkerIdentifier ですメトリクスの一覧次の表には範囲および操作によってグループ分けされた KCL メトリクスが表示されていますトピック KCL アプリケーションあたりのメトリクス (p. 68) ワーカーあたりのメトリクス (p. 71) シャードあたりのメトリクス (p. 73) KCL アプリケーションあたりのメトリクスこれらのメトリクスは Amazon CloudWatch 名前空間で定義されているようにアプリケーションの範囲内にあるすべての KCL ワーカーにわたって集約されますトピック InitializeTask (p. 68) ShutdownTask (p. 69) ShardSyncTask (p. 70) BlockOnParentTask (p. 70) InitializeTask InitializeTask オペレーションは KCL アプリケーションのレコードプロセッサを初期化しますこのオペレーションのロジックには Kinesis Data Streams からのシャードイテレーターの取得とレコードプロセッサの初期化が含まれていますメトリクス説明 KinesisDataFetcher.getIterator.Success KCL アプリケーションあたりの GetShardIterator オペレーションの成功回数メトリクスレベル : Detailed 単位 : Count KinesisDataFetcher.getIterator.Time 指定された KCL アプリケーションの GetShardIterator オペレーションあたりの所要時間メトリクスレベル : Detailed 単位 : ミリ秒 RecordProcessor.initialize.Time レコードプロセッサの初期化メソッドにかかった時間メトリクスレベル : Summary 単位 : ミリ秒 Success レコードプロセッサの初期化の成功回数メトリクスレベル : Summary 68

Amazon Kinesis Data Streams 開発者ガイド CloudWatch による KCL のモニタリングメトリクス時間説明単位 : Count KCL ワーカーでレコードプロセッサの初期化にかかった時間メトリクスレベル : Summary 単位 : ミリ秒 ShutdownTask ShutdownTask オペレーションはシャード処理のシャットダウンシーケンスを開始しますこれはシャードが分割または結合された場合やシャードリースがワーカーから失われた場合に発生する場合がありますどちらの場合もレコードプロセッサ shutdown() 関数が呼び出されますまたシャードが分割または結合された場合新しいシャードが 1 つまたは 2 つ作成されるため新しいシャードが検出されますメトリクス CreateLease.Success 説明親シャードのシャットダウンの後に新しい子シャードが KCL アプリケーションの DynamoDB テーブルに正常に追加された回数メトリクスレベル : Detailed 単位 : Count CreateLease.Time KCL アプリケーションの DynamoDB テーブルに新しい子シャード情報を追加する所要時間メトリクスレベル : Detailed 単位 : ミリ秒 UpdateLease.Success レコードプロセッサのシャットダウン中に成功した最終チェックポイントの数メトリクスレベル : Detailed 単位 : Count UpdateLease.Time レコードプロセッサのシャットダウン中にチェックポイントオペレーションにかかった時間メトリクスレベル : Detailed 単位 : ミリ秒 RecordProcessor.shutdown.Time レコードプロセッサのシャットダウンメソッドにかかった時間メトリクスレベル : Summary 単位 : ミリ秒 Success シャットダウンタスクの成功回数メトリクスレベル : Summary 単位 : Count 69

Amazon Kinesis Data Streams 開発者ガイド CloudWatch による KCL のモニタリングメトリクス時間説明 KCL ワーカーでシャットダウンタスクにかかった時間メトリクスレベル : Summary 単位 : ミリ秒 ShardSyncTask ShardSyncTask オペレーションは Kinesis data stream のシャード情報に対する変更を検出するため KCL アプリケーションで新しいシャードを処理できますメトリクス CreateLease.Success 説明 KCL アプリケーションの DynamoDB テーブルへの新しいシャード情報の追加が成功した回数メトリクスレベル : Detailed 単位 : Count CreateLease.Time KCL アプリケーションの DynamoDB テーブルに新しいシャード情報を追加する所要時間メトリクスレベル : Detailed 単位 : ミリ秒 Success シャード同期オペレーションの成功回数メトリクスレベル : Summary 単位 : Count 時間シャード同期オペレーションにかかった時間メトリクスレベル : Summary 単位 : ミリ秒 BlockOnParentTask シャードが分割または他のシャードと結合された場合新しい子シャードが作成されます BlockOnParentTask オペレーションは KCL による親シャードの処理が完了するまで新しいシャードのレコード処理が開始されないようにしますメトリクス Success 説明親シャードの完了チェックの成功回数メトリクスレベル : Summary 単位 : Count 時間親シャードが完了するまでにかかった時間メトリクスレベル : Summary 70

Amazon Kinesis Data Streams 開発者ガイド CloudWatch による KCL のモニタリングメトリクス説明単位 : ミリ秒ワーカーあたりのメトリクスこれらのメトリクスは Amazon EC2 インスタンスなど Kinesis data stream のデータを消費するすべてのレコードプロセッサにわたって集約されますトピック RenewAllLeases (p. 71) TakeLeases (p. 72) RenewAllLeases RenewAllLeases オペレーションは特定のワーカーインスタンスによって所有されるシャードリースを定期的に更新しますメトリクス RenewLease.Success 説明ワーカーによるリース更新の成功回数メトリクスレベル : Detailed 単位 : Count RenewLease.Time リース更新オペレーションにかかった時間メトリクスレベル : Detailed 単位 : ミリ秒 CurrentLeases すべてのリースの更新後にワーカーによって所有されているシャードリースの数メトリクスレベル : Summary 単位 : Count LostLeases ワーカーによって所有されているすべてのリースの更新を試みたときに失われたシャードリースの数メトリクスレベル : Summary 単位 : Count Success ワーカーのリース更新オペレーションが成功した回数メトリクスレベル : Summary 単位 : Count 時間ワーカーのすべてのリースを更新するのにかかった時間メトリクスレベル : Summary 単位 : ミリ秒 71

Amazon Kinesis Data Streams 開発者ガイド CloudWatch による KCL のモニタリング TakeLeases TakeLeases オペレーションはすべての KCL ワーカー間でレコード処理の負荷を分散させます現在の KCL ワーカーのシャードリースが必要数を下回る場合過負荷になっている他のワーカーからシャードリースを取得しますメトリクス ListLeases.Success 説明すべてのシャードリースが KCL アプリケーションの DynamoDB テーブルから正常に取得された回数メトリクスレベル : Detailed 単位 : Count ListLeases.Time KCL アプリケーションの DynamoDB テーブルからすべてのシャードリースを取得する所要時間メトリクスレベル : Detailed 単位 : ミリ秒 TakeLease.Success ワーカーが他の KCL ワーカーからシャードリースを正常に取得した回数メトリクスレベル : Detailed 単位 : Count TakeLease.Time ワーカーが取得したリースを使用してリーステーブルを更新するのにかかった時間メトリクスレベル : Detailed 単位 : ミリ秒 NumWorkers 特定のワーカーにより識別されるワーカーの総数メトリクスレベル : Summary 単位 : Count NeededLeases 現在のワーカーがシャード処理の負荷を分散するのに必要なシャードリースの数メトリクスレベル : Detailed 単位 : Count LeasesToTake ワーカーが取得を試みるリースの数メトリクスレベル : Detailed 単位 : Count TakenLeases ワーカーが取得に成功したリースの数メトリクスレベル : Summary 単位 : Count TotalLeases KCL アプリケーションが処理しているシャードの総数 72

Amazon Kinesis Data Streams 開発者ガイド CloudWatch による KCL のモニタリングメトリクス説明メトリクスレベル : Detailed 単位 : Count ExpiredLeases 特定のワーカーによって識別されるどのワーカーでも処理されていないシャードの総数メトリクスレベル : Summary 単位 : Count Success TakeLeases オペレーションが正常に完了した回数メトリクスレベル : Summary 単位 : Count 時間ワーカーの TakeLeases オペレーションにかかった時間メトリクスレベル : Summary 単位 : ミリ秒シャードあたりのメトリクスこれらのメトリクスは単一のレコードプロセッサについて集約されます ProcessTask ProcessTask オペレーションは現在のイテレーター位置を使用して GetRecords を呼び出すことによりストリームからレコードを取得してレコードプロセッサの processrecords 関数を起動しますメトリクス説明 KinesisDataFetcher.getRecords.Success data stream シャードあたりの GetRecords オペレーションの成功回数メトリクスレベル : Detailed 単位 : Count KinesisDataFetcher.getRecords.Time data stream シャードの GetRecords オペレーションあたりの所要時間メトリクスレベル : Detailed 単位 : ミリ秒 UpdateLease.Success 指定されたシャードのレコードプロセッサによってチェックポイントが正常に作成された回数メトリクスレベル : Detailed 単位 : Count UpdateLease.Time 指定されたシャードの各チェックポイントオペレーションにかかった時間メトリクスレベル : Detailed 73

Amazon Kinesis Data Streams 開発者ガイド CloudWatch による KPL のモニタリングメトリクス DataBytesProcessed 説明単位 : ミリ秒 ProcessTask の各呼び出しで処理されたレコードのバイト単位の合計サイズメトリクスレベル : Summary 単位 : バイト RecordsProcessed ProcessTask の各呼び出しで処理されたレコード数メトリクスレベル : Summary 単位 : Count ExpiredIterator GetRecords を呼び出したときに受信した ExpiredIteratorException の数メトリクスレベル : Summary 単位 : Count MillisBehindLatest 現在のイテレーターがシャード内の最新のレコード ( 先端 ) から遅れている時間この値は応答の最新レコードと現在時間における時間差と同じかそれ以下ですこれは最新の応答レコードのタイムスタンプを比較するよりもシャードが先端からどれくらい離れているかを示すより正確な反映ですこの値は各レコードの全タイムスタンプの平均ではなくレコードの最新バッチに適用されますメトリクスレベル : Summary 単位 : ミリ秒 RecordProcessor.processRecords.Time レコードプロセッサの processrecords メソッドにかかった時間メトリクスレベル : Summary 単位 : ミリ秒 Success プロセスタスクオペレーションの成功回数メトリクスレベル : Summary 単位 : Count 時間プロセスタスクオペレーションにかかった時間メトリクスレベル : Summary 単位 : ミリ秒 Amazon CloudWatch による Kinesis プロデューサーライブラリのモニタリング Kinesis Producer Library (KPL) for Amazon Kinesis Data Streams はユーザーに代わってカスタム Amazon CloudWatch メトリクスを発行します CloudWatch コンソールに移動し [ カスタムメトリク 74

Amazon Kinesis Data Streams 開発者ガイド CloudWatch による KPL のモニタリングス ] を選択するとこれらのメトリクスを表示できますカスタムメトリクスの詳細については Amazon CloudWatch ユーザーガイドのカスタムメトリクスをパブリッシュするを参照してください KPL によって CloudWatch にアップロードされたメトリクスには小額の課金が発生します具体的には Amazon CloudWatch カスタムメトリクスと Amazon CloudWatch API リクエストの料金が適用されます詳細については Amazon CloudWatch 料金表を参照してくださいローカルメトリクスの収集では CloudWatch の課金が発生しませんトピックメトリクスディメンションおよび名前空間 (p. 75) メトリクスレベルと詳細度 (p. 75) ローカルアクセスと Amazon CloudWatch へのアップロード (p. 76) メトリクスの一覧 (p. 76) メトリクスディメンションおよび名前空間 KPL の起動時にアプリケーション名を指定できますこれはメトリクスをアップロードする際名前空間の一部として使用されますこれはオプションでありアプリケーション名を設定しない場合は KPL によりデフォルト値が設定されますまたメトリクスに任意の追加ディメンションを追加するように KPL を設定できますこれはより詳細なデータが CloudWatch メトリクスに必要な場合に便利ですたとえばディメンションとしてホスト名を追加できこれによりフリート全体の均一でない負荷分散を特定できますすべての KPL 構成設定はイミュータブルであるため KPL インスタンスを初期化した後これらの追加ディメンションを変更することはできませんメトリクスレベルと詳細度 CloudWatch にアップロードされるメトリクスの数を制御する 2 つのオプションがありますメトリクスレベル詳細度これはメトリクスの重要性を示すおおよその目安ですすべてのメトリクスにレベルが割り当てられますレベルを設定するとそれより下のレベルのメトリクスは CloudWatch に送信されませんこのレベルとして NONE SUMMARY DETAILED がありますデフォルト設定は DETAILED でありすべてのメトリクスが対象です NONE はメトリクスが一切ないことを意味しどのメトリクスもそのレベルに割り当てられませんこれは追加の詳細度レベルで同じメトリクスが出力されるかどうかを制御しますこのレベルとして GLOBAL STREAM SHARD がありますデフォルト設定は SHARD で最も詳細なメトリクスが含まれます SHARD が選択されるとストリーム名とシャード ID をディメンションとしてメトリクスが出力されますまた同じメトリクスはストリーム名のディメンションのみを使用して出力されるためそのメトリクスにはストリーム名がありませんつまりある特定のメトリクスについてそれぞれに 2 つのシャードがある 2 つのストリームから 7 つの CloudWatch メトリクスが生成されます各シャードに 1 つ各ストリームに 1 つ全体に 1 つのメトリクスが生成されこれらはどれも同じ統計情報を記述していますが詳細度のレベルは異なります次の図はこれを説明するものです異なる詳細度から階層が形成されシステム内のすべてのメトリクスからメトリクス名をルートとするツリーが構成されます MetricName (GLOBAL): Metric X Metric Y ----------------- ------------ StreamName (STREAM): Stream A Stream B Stream A Stream B 75

Amazon Kinesis Data Streams 開発者ガイド CloudWatch による KPL のモニタリング -------- --------- ShardID (SHARD): Shard 0 Shard 1 Shard 0 Shard 1 すべてのメトリクスをシャードレベルで使用できるわけではありません一部のメトリクスはストリームレベルまたは本質的にグローバルですこれらはシャードレベルのメトリクスを有効にしてもシャードレベルで生成されません ( 前の図の Metric Y) 追加のディメンションを指定すると tuple:<dimensionname, DimensionValue, Granularity> に値を指定する必要があります詳細度はカスタムディメンションが階層のどこに挿入されたかを判断するのに使用されます GLOBAL は追加のディメンションがメトリクス名の後に挿入されたことを意味し STREAM はストリーム名の後に SHARD は ID シャードの後に挿入されたことをそれぞれ意味します複数の追加ディメンションが詳細度レベルごとに指定された場合それらは指定された順序で挿入されますローカルアクセスと Amazon CloudWatch へのアップロード現在の KPL インスタンスのメトリクスはローカルでリアルタイムに使用できるためいつでも KPL にクエリを実行してメトリクスを取得できます KPL では CloudWatch の場合と同様にすべてのメトリクスの合計平均最小値最大値および個数をローカルで計算しますプログラムの開始から現在の時点までの累積としてまたは過去 N 秒間 (N は 1 から 60 までの整数 ) のローリングウィンドウを使用して統計情報を取得できますすべてのメトリクスは CloudWatch へのアップロードに使用することができますこれは複数のホストモニタリングおよびアラームの間でデータを集約するのに特に役立ちますこの機能はローカルでは使用できません前に説明したようにメトリクスレベルと詳細度の設定を使用してどのメトリクスをアップロードするかを選択できますローカルでメトリクスをアップロードしたり使用したりすることはできませんデータポイントを個別にアップロードするのは高トラフィックの場合毎秒数百万のアップロードが発生するためお勧めしませんそのため KPL はメトリクスをローカルで 1 分間のバケットに集約し有効なメトリクスごとに 1 分あたり 1 回ずつ統計情報オブジェクトを CloudWatch にアップロードしますメトリクスの一覧メトリクス User Records Received 説明入力オペレーションで KPL コアにより受信された論理ユーザーレコードの数シャードレベルでは使用できませんメトリクスレベル : Detailed 単位 : 個 User Records Pending 現在保留状態にあるユーザーレコード数の定期的なサンプリングレコードが現在バッファ処理されていて送信待ちの場合または送信済みでバックエンドサービスで処理中の場合そのレコードは保留状態ですシャードレベルでは使用できません KPL が提供する専用のメソッドを使用してグローバルレベルでこのメトリクスを取得することでお客様は PUT レートを管理できますメトリクスレベル : Detailed 単位 : 個 76

Amazon Kinesis Data Streams 開発者ガイド CloudWatch による KPL のモニタリングメトリクス User Records Put 説明入力に成功した論理ユーザーレコードの数このメトリクスの場合 KPL では失敗したレコードがカウントされませんこのため平均が成功率に個数が総試行回数に個数と合計の差が失敗件数にそれぞれ対応しますメトリクスレベル : Summary 単位 : 個 User Records Data Put 入力に成功した論理ユーザーレコードのバイト数メトリクスレベル : Detailed 単位 : バイト Kinesis Records Put 入力に成功した Kinesis Data Streams レコードの数 ( 各 Kinesis Data Streams レコードには複数のユーザーレコードを含めることができます ) KPL は失敗したレコードに対してゼロを出力しますこのため平均が成功率に個数が総試行回数に個数と合計の差が失敗件数にそれぞれ対応しますメトリクスレベル : Summary 単位 : 個 Kinesis Records Data Put Kinesis Data Streams レコードのバイト数メトリクスレベル : Detailed 単位 : バイト Errors by Code 各種類のエラーコードの数これにより ErrorCode や StreamName などの通常のディメンションに加えディメンション ShardId が追加されますシャードに対してすべてのエラーを追跡することはできません追跡できないエラーはストリームレベルまたはグローバルレベルでのみ出力されますこのメトリクスはスロットリングシャードマッピングの変更内部エラーサービス使用不可タイムアウトなどに関する情報をとらえます Kinesis Data Streams API のエラーは Kinesis Data Streams レコードごとに 1 回カウントされます Kinesis Data Streams レコード内の複数のユーザーレコードで複数回のカウントが生じることはありませんメトリクスレベル : Summary 単位 : 個 All Errors これはコード別のエラーと同じエラーによってトリガーされますがエラーの種類は区別されません異なる種類のすべてのエラーから件数の合計を手計算する必要がなくなるためこれはエラー率の総合的なモニタリングに役立ちますメトリクスレベル : Summary 単位 : 個 77

Amazon Kinesis Data Streams 開発者ガイドアクセスの制御メトリクス説明 Retries per Record ユーザーレコードあたりの再試行の実行回数 1 回の試行でレコードが成功した場合はゼロが出力されますユーザーレコードが終了すると ( 成功した場合またはそれ以上再試行されない場合 ) 直ちにデータが出力されますレコードの有効期限値が大きいとこのメトリクスの出力が大幅に遅延する場合がありますメトリクスレベル : Detailed 単位 : 個 Buffering Time ユーザーレコードが KPL に到着してからバックエンドに送信されるまでの時間この情報はレコード単位でユーザーに返されますが集約された統計情報としても使用できますメトリクスレベル : Summary 単位 : ミリ秒 Request Time PutRecordsRequests の実行にかかる時間メトリクスレベル : Detailed 単位 : ミリ秒 User Records per Kinesis Record 単一の Kinesis Data Streams レコードに集約された論理ユーザーレコードの数メトリクスレベル : Detailed 単位 : 個 Amazon Kinesis Records per PutRecordsRequest 単一の PutRecordsRequest に集約された Kinesis Data Streams レコードの数シャードレベルでは使用できませんメトリクスレベル : Detailed 単位 : 個 User Records per PutRecordsRequest PutRecordsRequest に含まれているユーザーレコードの総数これは前の 2 つのメトリクスの積にほぼ一致しますシャードレベルでは使用できませんメトリクスレベル : Detailed 単位 : 個 Amazon Kinesis Data Streams による IAM リソースに対するアクセスの制御 AWS Identity and Access Management (IAM) では以下を実行できますお客様の AWS アカウントでユーザーとグループを作成するお客様の AWS アカウントでユーザーごとに固有のセキュリティ認証情報を割り当てる AWS のリソースを使用してタスクを実行するために各ユーザーのアクセス許可を制御する 78

Amazon Kinesis Data Streams 開発者ガイドポリシー構文別の AWS アカウントのユーザーがお客様の AWS のリソースを共有できるようにする AWS アカウントにロールを作成しそれを行えるユーザーまたはサービスを定義するお客様の企業用の既存のアイデンティティを使用し AWS のリソースを使用してタスクを実行するようにアクセス許可を与える Kinesis Data Streams と組み合わせて IAM を使用すると組織のユーザーが特定の Kinesis Data Streams API アクションを使用してタスクを実行できるかどうかまた特定の AWS リソースを使用できるかどうかを制御できます Kinesis Client Library (KCL) ライブラリを使用してアプリケーションを開発する場合ポリシーに Amazon DynamoDB と Amazon CloudWatch へのアクセス許可を含める必要があります KCL は DynamoDB を使用してアプリケーションの状態情報を追跡し CloudWatch を使用してユーザーに代わって KCL メトリクスを CloudWatch に送信するためです KCL の詳細については Kinesis Client Library 1.x を使用したコンシューマーの開発 (p. 118) を参照してください IAM の詳細については以下を参照してください AWS Identity and Access Management (IAM) はじめに IAM ユーザーガイド IAM および Amazon DynamoDB の詳細については Amazon DynamoDB 開発者ガイドで IAM を使用した Amazon DynamoDB リソースへのアクセスの制御に関する説明を参照してください IAM と Amazon CloudWatch の詳細については Amazon CloudWatch ユーザーガイドの AWS アカウントへのユーザーアクセスのコントロールを参照してください目次ポリシー構文 (p. 79) Kinesis Data Streams のアクション (p. 80) Kinesis Data Streams 用の Amazon リソースネーム (ARN) (p. 80) Kinesis Data Streams のポリシー例 (p. 80) ポリシー構文 IAM ポリシーは 1 つ以上のステートメントで構成される JSON ドキュメントです各ステートメントは次のように構成されます { "Statement":[{ "Effect":"effect", "Action":"action", "Resource":"arn", "Condition":{ "condition":{ "key":"value" ] ステートメントはさまざまなエレメントで構成されます 79

Amazon Kinesis Data Streams 開発者ガイド Kinesis Data Streams のアクション [Effect]: effect は Allow または Deny にすることができますデフォルトでは IAM ユーザーはリソースおよび API アクションを使用するアクセス許可がないためリクエストはすべて拒否されます明示的な許可はデフォルトに優先します明示的な拒否はすべての許可に優先します [Action]: action はアクセス許可を付与または拒否する対象とする特定の API アクションです [Resource]: アクションによって影響を及ぼされるリソースですステートメント内でリソースを指定するには Amazon リソースネーム (ARN) を使用する必要があります [Condition]: condition はオプションですポリシーの発効条件を指定するために使用します IAM のポリシーを作成および管理するときは IAM Policy Generator と IAM Policy Simulator を使用することもできます Kinesis Data Streams のアクション IAM ポリシーステートメントで IAM をサポートするすべてのサービスから任意の API アクションを指定できます Kinesis Data Streams の場合 API アクションの名前にプレフィックスとして kinesis: を使用します例 : kinesis:createstream kinesis:liststreams および kinesis:describestream 単一のステートメントに複数のアクションを指定するには次のようにコンマで区切ります "Action": ["kinesis:action1", "kinesis:action2"] ワイルドカードを使用して複数のアクションを指定することもできますたとえば Get という単語で始まる名前のすべてのアクションは以下のように指定できます "Action": "kinesis:get*" すべての Kinesis Data Streams オペレーションを指定するには次のように * ワイルドカードを使用します "Action": "kinesis:*" Kinesis Data Streams API アクションの完全なリストについては Amazon Kinesis API Reference を参照してください Kinesis Data Streams 用の Amazon リソースネーム (ARN) 各 IAM ポリシーステートメントは ARN を使用して指定したリソースに適用されます Kinesis data stream には次の ARN リソースフォーマットを使用します arn:aws:kinesis:region:account-id:stream/stream-name ( 例 : "Resource": arn:aws:kinesis:*:111122223333:stream/my-stream Kinesis Data Streams のポリシー例次のポリシーの例は Kinesis data stream へのユーザーアクセスの制御方法について説明しています 80

Amazon Kinesis Data Streams 開発者ガイド Kinesis Data Streams のポリシー例 Example 1: ユーザーがストリームからデータを取得できるようにするこのポリシーではユーザーまたはグループが任意のシステム上の指定したストリームおよび DescribeStream に対して GetShardIterator GetRecords および ListStreams のオペレーションを実行できますこのポリシーは特定のストリームからデータを取得できる必要があるユーザーに適用できます { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kinesis:get*", "kinesis:describestream" ], "Resource": [ "arn:aws:kinesis:us-east-1:111122223333:stream/stream1" ], { "Effect": "Allow", "Action": [ "kinesis:liststreams" ], "Resource": [ "*" ] ] Example 2: ユーザーがアカウントの任意のストリームにデータを追加できるようにするこのポリシーではユーザーまたはグループがアカウントのストリームに対して PutRecord オペレーションを使用できますこのポリシーはアカウントのすべてのストリームにデータレコードを追加できる必要のあるユーザーに適用できます { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kinesis:putrecord" ], "Resource": [ "arn:aws:kinesis:us-east-1:111122223333:stream/*" ] ] Example 3: 特定のストリームに対して任意の Kinesis Data Streams アクションを実行できるようにするこのポリシーではユーザーまたはグループが指定したストリームに対して任意の Kinesis Data Streams オペレーションを実行できますこのポリシーは特定のストリームに対して管理上の制御が必要なユーザーに適用できます { 81

Amazon Kinesis Data Streams 開発者ガイドサーバー側の暗号化の使用 "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "kinesis:*", "Resource": [ "arn:aws:kinesis:us-east-1:111122223333:stream/stream1" ] ] Example 4: 任意のストリームに対して任意の Kinesis Data Streams アクションを実行できるようにするこのポリシーではユーザーまたはグループがアカウントの任意のストリームに対して任意の Kinesis Data Streams オペレーションを実行できますこのポリシーはすべてのストリームへのフルアクセスを許可するため管理者にのみ適用する必要があります { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "kinesis:*", "Resource": [ "arn:aws:kinesis:*:111122223333:stream/*" ] ] サーバー側の暗号化の使用 AWS Key Management Service (AWS KMS) キーを使用してサーバー側の暗号化を行うことで Amazon Kinesis Data Streams 内で保管中のデータを暗号化して厳密なデータ管理要件を簡単に満たすことができますトピック Kinesis Data Streams 用のサーバー側の暗号化とは (p. 82) コストリージョンおよびパフォーマンスに関する考慮事項 (p. 83) サーバー側の暗号化の使用を開始する方法 (p. 84) ユーザー生成 KMS マスターキーの作成と使用 (p. 85) ユーザー生成 KMS マスターキーを使用するためのアクセス許可 (p. 86) KMS キー権限の確認とトラブルシューティング (p. 87) Kinesis Data Streams 用のサーバー側の暗号化とはサーバー側の暗号化はユーザーが指定する AWS KMS カスタマーマスターキー (CMK) を使用して保管中になる前にデータを自動的に暗号化する Amazon Kinesis Data Streams の機能ですデータは Kinesis ストリームストレージレイヤーに書き込まれる前に暗号化されストレージから取得された後で復号されますその結果 Kinesis Data Streams サービス内で保管中のデータは暗号化されますこれにより厳格な規制要件を満たしデータのセキュリティを強化できます 82

Amazon Kinesis Data Streams 開発者ガイドコストリージョンおよびパフォーマンスに関する考慮事項サーバー側の暗号化を使用すると Kinesis ストリームプロデューサーとコンシューマーがマスターキーや暗号化オペレーションを管理する必要はありませんデータは Kinesis Data Streams サービスに出入りするときに自動的に暗号化されるため保管中のデータは暗号化されています AWS KMS はサーバー側の暗号化機能で使用されるすべてのマスターキーを提供します AWS KMS により AWS で管理される Kinesis 用の CMK ユーザーが指定した AWS KMS CMK または AWS KMS サービスにインポートされたマスターキーを簡単に使用できます Note サーバー側の暗号化では暗号化が有効になって初めて受信データが暗号化されます暗号化されていないストリームに既に存在するデータはサーバー側の暗号化が有効になってからも暗号化されませんコストリージョンおよびパフォーマンスに関する考慮事項サーバー側の暗号化を適用すると AWS KMS API の使用状況とキーのコストが適用されますカスタム KMS マスターキーとは異なり (Default) aws/kinesis カスタマーマスターキー (CMK) は無料で提供されていますただし引き続きユーザーに代わって Amazon Kinesis Data Streams によって発生する API の使用料を支払う必要があります API 使用料金はすべての CMK ( カスタム CMK を含む ) に適用されます Kinesis Data Streams はデータキーを更新する場合約 5 分ごとに AWS KMS を呼び出します 1 か月 (30 日 ) では Kinesis ストリームによって開始された AWS KMS API コールの合計コストは数ドル未満になるはずです各ユーザー認証情報には AWS KMS に対する独自の API コールが必要なためコストはユーザーのデータプロデューサーおよびコンシューマーに対して使用するユーザー認証情報の数で増大します認証に IAM ロールを使用すると各ロールの継承コールは一意のユーザー認証情報になります KMS コストを節約するためにロールの継承コールによって返されたユーザー認証情報をキャッシュしたい場合があります以下にリソース別の料金を示しますキー AWS で管理される Kinesis 用の CMK ( エイリアス = aws/kinesis) は無料ですユーザーが生成した KMS キーは KMS キー料金の対象となります詳細については AWS Key Management Service の料金を参照してください KMS API の使用法暗号化されたストリームごとに Kinesis サービスは AWS KMS サービスを約 5 分ごとに呼び出して新しいデータ暗号化キーを作成します暗号化された各ストリームは 1 か月 (30 日 ) で約 8,640 KMS API リクエストを生成します新しいデータ暗号化キーを生成する API リクエストは AWS KMS 使用料の対象となります詳細については AWS Key Management Service の料金 : 使用量を参照してくださいリージョン別のサーバー側の暗号化の可用性 Kinesis ストリームのサーバー側の暗号化は次のリージョンで利用できますリージョン名米国東部 ( オハイオ ) サービス対象 us-east-2 83

Amazon Kinesis Data Streams 開発者ガイドサーバー側の暗号化の使用を開始する方法リージョン名米国東部 ( バージニア北部 ) 米国西部 ( オレゴン ) 米国西部 ( 北カリフォルニア ) AWS GovCloud (US-West) カナダ ( 中部 ) 欧州 ( アイルランド ) 欧州 ( ロンドン ) 欧州 ( フランクフルト ) アジアパシフィック ( 東京 ) リージョンアジアパシフィック ( ソウル ) リージョンアジアパシフィック ( シンガポール ) アジアパシフィック ( ムンバイ ) アジアパシフィック ( シドニー ) 南米 ( サンパウロ ) サービス対象 us-east-1 us-west-2 us-west-1 us-gov-west-1 ca-central-1 eu-west-1 eu-west-2 eu-central-1 ap-northeast-1 ap-northeast-2 ap-southeast-1 ap-south-1 ap-southeast-2 sa-east-1 パフォーマンスに関する考慮事項暗号化の適用によるサービスのオーバーヘッドによりサーバー側の暗号化を適用とすると PutRecord PutRecords GetRecords の標準的なレイテンシーが増えます (100μs 未満 ) サーバー側の暗号化の使用を開始する方法サーバー側の暗号化の使用を開始する最も簡単な方法は AWS マネジメントコンソールと Amazon Kinesis KMS サービスキー aws/kinesis を使用することです次の手順では Kinesis ストリームに対してサーバー側の暗号化を有効にする方法を示します Kinesis ストリームに対してサーバー側の暗号化を有効にするには 1. AWS マネジメントコンソールにサインインして Amazon Kinesis Data Streams コンソールを開きます 2. Kinesis で AWS マネジメントコンソールストリームを作成または選択します 3. [ 詳細 ] タブを選択します 4. [ サーバー側の暗号化 ] の [ 編集 ] を選択します 84

Amazon Kinesis Data Streams 開発者ガイドユーザー生成 KMS マスターキーの作成と使用 5. ユーザーが生成した KMS マスターキーを使用する場合を除き KMS マスターキーとして aws/kinesis ( デフォルト ) が選択されていることを確認しますこれは Kinesis サービスによって生成される KMS マスターキーです [ 有効 ] を選択し [ 保存 ] を選択します Note デフォルトの Kinesis サービスマスターキーは無料ですが AWS KMS サービスに対して Kinesis によって行われる API コールには KMS 使用料がかかります 6. ストリームは途中で保留中状態になりますストリームの状態が暗号化を有効にしてアクティブ状態に戻るとそのストリームに書き込まれるすべての着信データはユーザーが選択した KMS マスターキーを使用して暗号化されます 7. サーバー側の暗号化を無効にするには AWS マネジメントコンソールの [ サーバー側の暗号化 ] で [ 無効 ] を選択し [ 保存 ] を選択しますユーザー生成 KMS マスターキーの作成と使用このセクションでは Amazon Kinesis によって管理されるマスターキーを使用する代わりにユーザー独自の KMS マスターキーを作成して使用する方法について説明しますユーザー生成 KMS マスターキーの作成ユーザー独自のマスターキーを作成する手順については AWS Key Management Service Developer Guide のキーの作成を参照してくださいアカウントのキーを作成すると Kinesis Data Streams サービスはこれらのキーを [KMS マスターキー ] リストで返しますユーザー生成 KMS マスターキーの使用正しいアクセス許可がコンシューマープロデューサーおよび管理者に適用されたら自分の AWS アカウントまたは他の AWS アカウントでカスタム KMS マスターキーを使用できますアカウントのすべての KMS マスターキーは AWS マネジメントコンソール内の [KMS マスターキー ] リストに表示されます別のアカウントにあるカスタム KMS マスターキーを使用するにはそれらのキーを使用するためのアクセス許可が必要です AWS マネジメントコンソールの ARN 入力ボックスで KMS マスターキーの ARN を指定する必要もあります 85

Amazon Kinesis Data Streams 開発者ガイドユーザー生成 KMS マスターキーを使用するためのアクセス許可ユーザー生成 KMS マスターキーを使用するためのアクセス許可サーバー側の暗号化をユーザー生成 KMS マスターキーと共に使用する前にストリームの暗号化およびストリームレコードの暗号化と復号を許可するように AWS KMS キーポリシーを設定する必要があります AWS KMS アクセス許可の例と詳細については AWS KMS API のアクセス権限 : アクションとリソースのリファレンスを参照してください Note 暗号化のためのデフォルトサービスキーの使用ではカスタム IAM アクセス許可の適用は必要ありませんユーザー生成 KMS マスターキーを使用する前に Kinesis ストリームプロデューサーおよびコンシューマー (IAM プリンシパル ) が KMS マスターキーポリシーでユーザーになっていることを確認しますそれ以外の場合ストリームに対する読み取りと書き込みは失敗します最終的はデータの損失処理の遅延またはアプリケーションのハングにつながる可能性があります IAM ポリシーを使用して KMS キーのアクセス許可を管理できます詳細については AWS KMS での IAM ポリシーの使用を参照してくださいプロデューサーのアクセス許可の例 Kinesis ストリームプロデューサーには kms:generatedatakey アクセス許可が必要です { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:generatedatakey" ], "Resource": "arn:aws:kms:uswest-2:123456789012:key/1234abcd-12ab-34cd-56ef-1234567890ab", { "Effect": "Allow", "Action": [ "kinesis:putrecord", "kinesis:putrecords" ], "Resource": "arn:aws:kinesis:*:123456789012:mystream" ] コンシューマーのアクセス許可の例 Kinesis ストリームコンシューマーには kms:decrypt アクセス許可が必要です { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:decrypt" ], 86

Amazon Kinesis Data Streams 開発者ガイド KMS キー権限の確認とトラブルシューティング "Resource": "arn:aws:kms:uswest-2:123456789012:key/1234abcd-12ab-34cd-56ef-1234567890ab", { "Effect": "Allow", "Action": [ "kinesis:getrecords", "kinesis:describestream" ], "Resource": "arn:aws:kinesis:*:123456789012:mystream" ] Amazon Kinesis Data Analytics と AWS Lambda はロールを使って Kinesis ストリームを消費しますこれらのコンシューマーが使用するロールに kms:decrypt 権限を確実に追加してくださいストリーム管理者権限 Kinesis ストリーム管理者には kms:list* と kms:describekey* を呼び出す権限が必要です KMS キー権限の確認とトラブルシューティング Kinesis ストリームで暗号化を有効にしたら次の Amazon CloudWatch メトリクスを使用して putrecord putrecords および getrecords の呼び出しの成功をモニタリングすることをお勧めします PutRecord.Success PutRecords.Success GetRecords.Success Amazon Kinesis Data Streams とインターフェイス VPC エンドポイントの使用 Kinesis Data Streams 用のインターフェイス VPC エンドポイントインターフェイス VPC エンドポイントを使用して Amazon VPC と Kinesis Data Streams 間のトラフィックが Amazon ネットワークから離れないように維持できますインターフェイス VPC エンドポイントはインターネットゲートウェイ NAT デバイス VPN 接続または AWS Direct Connect 接続を必要としませんインターフェイス VPC エンドポイントは AWS PrivateLink を使用していますこれは Amazon VPC で Elastic Network Interface とプライベート IP を使用して AWS のサービス間のプライベート通信を可能にする AWS のテクノロジーです詳細については Amazon Virtual Private Cloud を参照してください Kinesis Data Streams 用のインターフェイス VPC エンドポイントの使用使用を開始するためにストリームプロデューサーまたはコンシューマーの設定を変更する必要はありません Amazon VPC リソースとの間の Kinesis Data Streams のトラフィックがインターフェイス 87

Amazon Kinesis Data Streams 開発者ガイドサポートしているリージョン VPC エンドポイントを経由して流れるようにインターフェイス VPC エンドポイントを作成するだけです Kinesis Producer Library (KPL) および Kinesis Consumer Library (KCL) はパブリックエンドポイントまたはプライベートインターフェイス VPC エンドポイントのどちらか ( 使用中のもの ) を使って Amazon CloudWatch や Amazon DynamoDB などの AWS のサービスを呼び出しますたとえば KPL アプリケーションが DynamoDB インターフェイス VPC エンドポイントを有効にして VPC で実行されている場合 DynamoDB と KCL アプリケーション間の呼び出しはそのインターフェイス VPC エンドポイントを経由して流れますサポートしているリージョン現在インターフェイス VPC エンドポイントは次のリージョン内でサポートされています米国西部 ( オレゴン ) EU ( パリ ) 米国東部 ( バージニア北部 ) 欧州 ( アイルランド ) アジアパシフィック ( ムンバイ ) 米国東部 ( オハイオ ) 欧州 ( フランクフルト ) 南米 ( サンパウロ ) アジアパシフィック ( ソウル ) 欧州 ( ロンドン ) アジアパシフィック ( 東京 ) 米国西部 ( 北カリフォルニア ) アジアパシフィック ( シンガポール ) アジアパシフィック ( シドニー ) カナダ ( 中部 ) コンソールを使用した Kinesis データストリームの管理次の手順では AWS マネジメントコンソールを使用して Amazon Kinesis データストリームを作成削除および操作する方法を示しますストリームを作成するには 1. AWS マネジメントコンソールにサインインし https://console.aws.amazon.com/kinesis にある Kinesis コンソールを開きます 2. ナビゲーションバーで [ データストリーム ] を選択します 3. [Kinesis ストリームの作成 ] を選択します 4. ストリームの名前 ( 例 : StockTradeStream) を入力します 5. シャード数を指定しますヘルプが必要な場合は [ 必要なシャード数の予想 ] を展開します 6. [Kinesis ストリームの作成 ] を選択しますストリームを一覧表示するには 1. https://console.aws.amazon.com/kinesis にある Kinesis コンソールを開きます 88

Amazon Kinesis Data Streams 開発者ガイドコンソールを使用したストリームの管理 2. ナビゲーションバーで [ データストリーム ] を選択します 3. ( オプション ) ストリームについての詳細を表示するにはストリーム名を選択しますストリームを編集するには 1. https://console.aws.amazon.com/kinesis にある Kinesis コンソールを開きます 2. ナビゲーションバーで [ データストリーム ] を選択します 3. ストリームの名前を選択します 4. シャード容量を拡張するには以下を実行します a. [ シャード ] で [ 編集 ] を選択します b. 新しいシャード数を指定します c. [Save] を選択します 5. データ保持期間を編集するには以下を実行します a. [ データ保持期間 ] で [ 編集 ] を選択します b. 24 ~ 168 時間の期間を指定しますレコードがこの期間のストリームに保存されます追加料金は 24 時間を超過する期間に適用されます詳細については Amazon Kinesis Data Streams 料金表を参照してください c. [Save] を選択します 6. シャードレベルのメトリクスを有効または無効にするには以下を実行します a. [ シャードレベルメトリクス ] で [ 編集 ] を選択します b. モニタリングするためのメトリクスを選択します詳細については拡張シャードレベルメトリクス (p. 58) を参照してください c. [Save] を選択しますストリームを削除するには 1. https://console.aws.amazon.com/kinesis にある Kinesis コンソールを開きます 2. ナビゲーションバーで [ データストリーム ] を選択します 3. 削除するストリームの横にあるチェックボックスを選択します 4. [ Actions] で [Delete ] を選択します 5. 確認を求めるメッセージが表示されたら [Delete] を選択します 89

Amazon Kinesis Data Streams 開発者ガイド KPL の使用 Amazon Kinesis Data Streams へのデータの書き込みプロデューサーは Amazon Kinesis Data Streams にデータを書き込むアプリケーションです Kinesis Data Streams のプロデューサーは AWS SDK for Java および Kinesis プロデューサーライブラリを使用して構築できます Kinesis Data Streams を初めて利用する場合は Amazon Kinesis Data Streams とは (p. 1) と Amazon Kinesis Data Streams の使用開始 (p. 10) に説明されている概念と用語について理解することから始めてください目次 Amazon Kinesis Producer Library を使用したプロデューサーの開発 (p. 90) Amazon Kinesis Data Streams API と AWS SDK for Java を使用したプロデューサーの開発 (p. 100) Kinesis エージェントを使用した Amazon Kinesis Data Streams への書き込み (p. 105) Amazon Kinesis Data Streams プロデューサーのトラブルシューティング (p. 113) Kinesis Data Streams プロデューサーについての高度なトピック (p. 115) Amazon Kinesis Producer Library を使用したプロデューサーの開発 Amazon Kinesis Data Streams プロデューサーはユーザーデータレコードを Kinesis data stream に配置する ( データの取り込みとも呼ばれます ) アプリケーションです Kinesis Producer Library (KPL) を使用するとプロデューサーアプリケーションの開発が簡素化され開発者は Kinesis data stream に対する優れた書き込みスループットを実現できます Amazon CloudWatch を使用して KPL をモニタリングできます詳細については Amazon CloudWatch による Kinesis プロデューサーライブラリのモニタリング (p. 74) を参照してください目次 KPL のロール (p. 91) KPL を使用するメリット (p. 91) KPL の使用が適さない場合 (p. 92) KPL をインストールする (p. 92) Kinesis Producer Library の Amazon Trust Services (ATS) 証明書への移行 (p. 92) KPL でサポートされているプラットフォーム (p. 93) KPL の主要なコンセプト (p. 93) KPL とプロデューサーコードの統合 (p. 95) KPL を使用した Kinesis Data Stream への書き込み (p. 96) Kinesis Producer Library の設定 (p. 97) コンシューマーの集約解除 (p. 98) 90

Amazon Kinesis Data Streams 開発者ガイド KPL のロール Kinesis Data Firehose での KPL の使用 (p. 100) KPL のロール KPL は使いやすく Kinesis data stream への書き込みに役立つ高度な設定が可能なライブラリですこれはプロデューサーアプリケーションのコードと Kinesis Data Streams API アクション間の仲介として機能します KPL は次の主要なタスクを実行します自動的で設定可能な再試行メカニズムにより 1 つ以上の Kinesis data stream へ書き込むレコードを収集し PutRecords を使用してリクエストごとに複数シャードへ複数レコードを書き込むユーザーレコードを集約しペイロードサイズを増加させスループットを改善するコンシューマーで Kinesis Client Library (KCL) とシームレスに統合してバッチ処理されたレコードを集約解除する Amazon CloudWatch メトリクスをユーザーに代わって送信しプロデューサーのパフォーマンスを確認可能にする KPL は AWS SDK で使用できる Kinesis Data Streams API とは異なることに注意してください Kinesis Data Streams API では Kinesis Data Streams の多くの機能 ( ストリームの作成リシャーディングレコードの入力と取得など ) を管理できます KPL ではデータの取り込みに特化した抽象化レイヤーを提供します Kinesis Data Streams API の詳細については Amazon Kinesis API Reference を参照してください KPL を使用するメリット Kinesis Data Streams プロデューサーの開発に KPL を使用する主な利点を以下に示します KPL は同期または非同期のユースケースで使用できます同期動作を使用する特別な理由がないかぎり非同期インターフェイスの優れたパフォーマンスを使用することを推奨しますこれら 2 つのユースケースの詳細とコード例については KPL を使用した Kinesis Data Stream への書き込み (p. 96) を参照してくださいパフォーマンスのメリット KPL は高性能のプロデューサーの構築に役立ちます Amazon EC2 インスタンスをプロキシとして使用し 100 バイトのイベントを数百または数千の低電力デバイスから収集してレコードを Kinesis data stream に書き込む場合を考えてみますこれらの EC2 インスタンスはそれぞれ毎秒数千イベントをデータストリームに書き込む必要があります必要なスループットを実現するにはお客様の側で再試行ロジックとレコード集約解除に加えバッチ処理やマルチスレッドなどの複雑なロジックをプロデューサーに実装する必要があります KPL がこれらのタスクをすべて実行しますコンシューマー側の使いやすさコンシューマー側の開発者が Java で KCL 使用する場合追加作業なしで KPL が統合されます KCL で複数の KPL ユーザーレコードで構成されている集約された Kinesis Data Streams レコードを取得するときは自動的に KPL が呼び出され個々のユーザーレコードが抽出されユーザーに返されます KCL を使用せずに API オペレーション GetRecords を直接使用するコンシューマー側の開発者の場合 KPL Java ライブラリを使用して個々のユーザーレコードを抽出してこれらのレコードをユーザーに返すことができますプロデューサーのモニタリング Amazon CloudWatch と KPL を使用して Kinesis Data Streams プロデューサーを収集モニタリング分析できます KPL はスループットエラーおよびその他のメトリクスをユーザーに代わっ 91

Amazon Kinesis Data Streams 開発者ガイド KPL の使用が適さない場合て CloudWatch に送信しストリームシャードまたはプロデューサーレベルでモニタリングするように設定できます非同期アーキテクチャ KPL はレコードを Kinesis Data Streams に送信する前にそれらのレコードをバッファ処理する場合があるため実行を続行する前にレコードがサーバーに到着したことを確認するために発信者アプリケーションを強制的にブロックし待機させることはしませんレコードを KPL に配置する呼び出しは必ずすぐに処理が戻りレコードの送信やサーバーからの応答の受信を待ちません代わりにレコードを Kinesis Data Streams に送信した結果を後で受信するための Future オブジェクトが作成されますこれは AWS SDK の非同期クライアントと同じ動作です KPL の使用が適さない場合 KPL ではライブラリ内で最大 RecordMaxBufferedTime まで追加の処理遅延が生じる場合があります ( ユーザーが設定可能 ) RecordMaxBufferedTime の値が大きいほどパッキング効率とパフォーマンスが向上しますこの追加的な遅延を許容できないアプリケーションは AWS SDK を直接使用することが必要になる場合があります AWS SDK を Kinesis Data Streams と組み合わせて使用する方法については Amazon Kinesis Data Streams API と AWS SDK for Java を使用したプロデューサーの開発 (p. 100) を参照してください KPL の RecordMaxBufferedTime などのユーザー設定可能なプロパティの詳細については Kinesis Producer Library の設定 (p. 97) を参照してください KPL をインストールする Amazon では macos Windows 最新の Linux ディストリビューション向けに C++ Kinesis Producer Library (KPL) のビルド済みバイナリを提供しています ( サポートされているプラッフォームの詳細については次のセクションを参照してください ) これらのバイナリは Java の.jar ファイルの一部としてパッケージ化されており Maven を使用してパッケージをインストールする場合自動的に呼び出され使用されます KPL と KCL の最新バージョンを確認するには次の Maven 検索リンクをご利用ください KPL KCL Linux のバイナリは GNU コンパイラコレクション (GCC) でコンパイルされ Linux の libstdc++ に静的にリンクされていますこれらのバイナリは glibc バージョン 2.5 以降を含むすべての 64 ビット Linux ディストリビューションで動作することが推定されています以前のバージョンの Linux ディストリビューションのユーザーは GitHub のソースとともに提供されるビルド手順で KPL をビルドできます KPL を GitHub からダウンロードするには Kinesis Producer Library を参照してください Kinesis Producer Library の Amazon Trust Services (ATS) 証明書への移行 2018 年 2 月 9 日の午前 9:00 ( 太平洋標準時 ) に Amazon Kinesis Data Streams は ATS 証明書をインストールしました Kinesis Producer Library (KPL) を使用して Kinesis Data Streams にレコードを継続して書き込むには KPL のインストールをバージョン 0.12.6 以降にアップグレードする必要がありますこの変更はすべての AWS リージョンに影響があります ATS への移行の詳細については独自の認証機関への AWS の移行の準備方法に関する記事を参照してください問題が発生し技術サポートが必要な場合は AWS サポートセンターでサポートケースを作成してください 92

Amazon Kinesis Data Streams 開発者ガイド KPL でサポートされているプラットフォーム KPL でサポートされているプラットフォーム Kinesis Producer Library (KPL) は C++ で書かれておりメインユーザープロセスの子プロセスとして実行されますプリコンパイルされている 64 ビットのネイティブバイナリは Java ベースにバンドルされており Java wrapper によって管理されます次のオペレーティングシステムでは追加ライブラリをインストールすることなく Java のパッケージを実行できますカーネルバージョン 2.6.18 (2006 年 9 月 ) の Linux ディストリビューション以降 Apple OS X 10.9 以降 Windows Server 2008 以降 KPL は 64 ビット版のみであることに注意してくださいソースコード KPL のインストールで提供されるバイナリがお客様の環境に適さない場合は KPL のコアが C++ のモジュールとして書き込まれます C++ モジュールと Java インターフェイスのソースコードは Amazon パブリックライセンスの下で公開され GitHub の Kinesis Producer Library で入手できます KPL は最近の規格に準拠した C++ コンパイラと JRE を使用できるすべてのプラットフォームで使用できますが Amazon ではサポートされるプラットフォームの一覧にないプラットフォームを正式にはサポートしません KPL の主要なコンセプト以下のセクションでは Kinesis Producer Library (KPL) を理解しその利点を引き出すために必要な概念と用語について説明しますトピックレコード (p. 93) バッチ処理 (p. 93) 集約 (p. 94) Collection (p. 94) レコードこのガイドでは KPL ユーザーレコードと Kinesis Data Streams レコードを区別します修飾語を付けずにレコードという用語を使用する場合は KPL ユーザーレコードを意味します Kinesis Data Streams レコードを意味するときは明示的に Kinesis Data Streams レコードと表現します KPL ユーザーレコードはユーザーにとって特定の意味のあるデータの BLOB ですたとえばウェブサイトの UI イベントまたはウェブサーバーのログエントリを表す JSON BLOB がそれに該当します Kinesis Data Streams レコードは Kinesis Data Streams サービス API で定義された Record データ構造のインスタンスですこれにはパーティションキーシーケンス番号データの BLOB が含まれていますバッチ処理バッチ処理は各項目に対して単一のアクションを繰り返し実行する代わりに複数の項目に対してそのアクションを実行することを意味します 93

Amazon Kinesis Data Streams 開発者ガイド KPL の主要なコンセプトここでは項目はレコードに対応しアクションはレコードを Kinesis Data Streams に送信することに対応しますバッチ処理を使用しない場合各レコードを別々の Kinesis Data Streams レコードに配置しそれぞれを Kinesis Data Streams に送信するたびに HTTP リクエストを実行しますバッチ処理では各 HTTP リクエストにより 1 つではなく複数のレコードを処理できます KPL では 2 種類のバッチ処理がサポートされます集約複数のレコードを単一の Kinesis Data Streams レコードに格納します収集 API オペレーション PutRecords を使用して Kinesis data stream 内の 1 つ以上のシャードに複数の Kinesis Data Streams レコードを送信します 2 種類の KPL バッチ処理は共存できるように設計されており互いに独立して有効または無効にできますデフォルトではどちらも有効です集約集約は複数レコードを 1 つの Kinesis Data Streams レコードに保存することを意味します集約を使用すると API 呼び出しごとに送信されるレコード数を増やすことができ効率的にプロデューサーのスループットを高めることができます Kinesis Data Streams シャードは 1 秒あたり最大で 1,000 Kinesis Data Streams レコードまたは 1 MB のスループットをサポートします 1 秒あたりの Kinesis Data Streams レコードの制限によりお客様のレコードは 1 KB 未満に制限されますレコードの集約を使用すると複数のレコードを単一の Kinesis Data Streams レコードに結合できますそのためお客様はシャードあたりのスループットを改善することができますリージョンが us-east-1 の 1 つのシャードで 1 つが 512 バイトのレコードを 1 秒あたり 1,000 レコードの一定割合で処理する場合を考えます KPL の集約を使用すると 1,000 レコードを 10 Kinesis Data Streams レコードに詰めることができ RPS を 10 に減らすことができます ( それぞれ 50 KB) Collection 収集は各 Kinesis Data Streams レコードをそれぞれの HTTP リクエストで送信するのではなく複数の Kinesis Data Streams レコードをバッチ処理し API オペレーション PutRecords を呼び出して単一の HTTP リクエストでそれらを送信することを意味しますこれにより個別の HTTP リクエストを多数実行するオーバーヘッドが減るため収集を使用しない場合に比べスループットが向上します実際 PutRecords 自体がこの目的のために設計されています収集は Kinesis Data Streams レコードのグループを使用している点で集約と異なります収集された Kinesis Data Streams レコードにはユーザーの複数のレコードをさらに含めることができますこの関係は次のように図示できます record 0 -- record 1 [ Aggregation ]... --> Amazon Kinesis record 0 --... record A --...... record K -- record L [ Collection ]... --> Amazon Kinesis record C -- --> PutRecords Request... record S --...... record AA-- 94

Amazon Kinesis Data Streams 開発者ガイド KPL とプロデューサーコードの統合 record BB... --> Amazon Kinesis record M --... record ZZ-- KPL とプロデューサーコードの統合 Kinesis Producer Library (KPL) は独立したプロセスで実行され IPC を使用して親ユーザープロセスと通信しますこのアーキテクチャはマイクロサービスと呼ばれる場合があり次の 2 つの主な理由からこれが選択されます 1) KPL がクラッシュしてもユーザープロセスはクラッシュしませんプロセスには Kinesis Data Streams と無関係なタスクが含まれている場合があり KPL がクラッシュしてもオペレーションを続行できますまた親ユーザープロセスが KPL を再起動し完全に機能する状態に復旧することもできます ( この機能は正式なラッパーに含まれています ) メトリクスを Kinesis Data Streams に送信するウェブサーバーがその例ですこのサーバーは Kinesis Data Streams 部分が動作を停止してもページの提供を続行できますそのため KPL のバグが原因でサーバー全体がクラッシュすると不要なサービス停止が発生します 2) 任意のクライアントをサポートできます正式にサポートされている言語以外の言語を使用するお客様もいますこれらのお客様も KPL を簡単に使用できます推奨される使用状況使用状況の異なるユーザーに推奨される設定を次の表に示しますこの表を参考に KPL を使用できるかどうかどのように使用できるかを判断できます集約が有効な場合コンシューマー側で集約解除を使用してレコードを抽出する必要があることにも注意してくださいプロデューサー側の言語コンシューマー側の言語 KCL バージョンチェックポイントロジック KPL の使用可否注意 Java 以外 * * * いいえ該当なし Java Java Java SDK を直接使用 Java Java 以外 SDK を直接使用該当なしはい集約を使用する場合 GetRecords を呼び出した後に提供された集約解除ライブラリを使用する必要があります該当なしはい集約を無効にする必要があります Java Java 1.3.x 該当なしはい集約を無効にする必要があります Java Java 1.4.x 引数なしでチェックポイントを呼び出すはいなし 95

Amazon Kinesis Data Streams 開発者ガイド Kinesis data stream への書き込みプロデューサー側の言語コンシューマー側の言語 KCL バージョンチェックポイントロジック KPL の使用可否注意 Java Java 1.4.x 明示的なシーケンス番号を使用してチェックポイントを呼び出すはい集約を無効にするかコードを変更しチェックポイント作成用の拡張されたシーケンス番号を使用します Java Java 以外 1.3.x + 複数言語デーモン + 言語固有のラッパー該当なしはい集約を無効にする必要があります KPL を使用した Kinesis Data Stream への書き込み以下のセクションでは最もシンプルな最低限のプロデューサーから完全に非同期なコードまで順にサンプルコードを示します最低限のプロデューサーコード次のコードは最小限の機能するプロデューサーを書くために必要なものがすべて含まれています Kinesis Producer Library (KPL) ユーザーレコードはバックグラウンドで処理されます // KinesisProducer gets credentials automatically like // DefaultAWSCredentialsProviderChain. // It also gets region automatically from the EC2 metadata service. KinesisProducer kinesis = new KinesisProducer(); // Put some records for (int i = 0; i < 100; ++i) { ByteBuffer data = ByteBuffer.wrap("myData".getBytes("UTF-8")); // doesn't block kinesis.adduserrecord("mystream", "mypartitionkey", data); // Do other stuff... 結果に対する同期的な応答前のコード例では KPL ユーザーレコードが成功したかどうかをチェックしませんでした KPL は失敗に対処するために必要な再試行を実行しますただし結果を確認する必要がある場合は次の例 ( 分かりやすくするため前の例を使用しています ) のように adduserrecord から返される Future オブジェクトを使用して結果を確認します KinesisProducer kinesis = new KinesisProducer(); // Put some records and save the Futures List<Future<UserRecordResult>> putfutures = new LinkedList<Future<UserRecordResult>>(); for (int i = 0; i < 100; i++) { ByteBuffer data = ByteBuffer.wrap("myData".getBytes("UTF-8")); // doesn't block putfutures.add( kinesis.adduserrecord("mystream", "mypartitionkey", data)); // Wait for puts to finish and check the results for (Future<UserRecordResult> f : putfutures) { 96

Amazon Kinesis Data Streams 開発者ガイド KPL の設定 UserRecordResult result = f.get(); // this does block if (result.issuccess()) { System.out.println("Put record into shard " + result.getshardid()); else { for (Attempt attempt : result.getattempts()) { // Analyze and respond to the failure 結果に対する非同期的な応答前の例では get() オブジェクトに対して Future を呼び出しているため実行がブロックされます実行のブロックを避ける必要がある場合には次の例に示すように非同期コールバックを使用できます KinesisProducer kinesis = new KinesisProducer(); FutureCallback<UserRecordResult> mycallback = new FutureCallback<UserRecordResult>() { @Override public void onfailure(throwable t) { /* Analyze and respond to the failure */ ; @Override public void onsuccess(userrecordresult result) { /* Respond to the success */ ; ; for (int i = 0; i < 100; ++i) { ByteBuffer data = ByteBuffer.wrap("myData".getBytes("UTF-8")); ListenableFuture<UserRecordResult> f = kinesis.adduserrecord("mystream", "mypartitionkey", data); // If the Future is complete by the time we call addcallback, the callback will be invoked immediately. Futures.addCallback(f, mycallback); Kinesis Producer Library の設定デフォルト設定のままでほとんどのユースケースに問題なく使用できますがデフォルト設定の一部を変更することでニーズに合わせて KinesisProducer の動作を調整することができますそれには KinesisProducerConfiguration クラスのインスタンスを KinesisProducer コンストラクタに渡しますたとえば次のようにします KinesisProducerConfiguration config = new KinesisProducerConfiguration().setRecordMaxBufferedTime(3000).setMaxConnections(1).setRequestTimeout(60000).setRegion("us-west-1"); final KinesisProducer kinesisproducer = new KinesisProducer(config); プロパティファイルから設定をロードすることもできます KinesisProducerConfiguration config = KinesisProducerConfiguration.fromPropertiesFile("default_config.properties"); ユーザープロセスがアクセスできる任意のパスとファイル名に置き換えることができますさらにこのようにして作成した KinesisProducerConfiguration インスタンスに対して設定メソッドを呼び出して設定をカスタマイズできます 97

Amazon Kinesis Data Streams 開発者ガイドコンシューマーの集約解除プロパティファイルでは PascalCase 内の名前を使用してパラメータを指定する必要がありますその名前は KinesisProducerConfiguration クラスの設定メソッドで使用されるものと一致します ( 例 : RecordMaxBufferedTime = 100 MaxConnections = 4 RequestTimeout = 6000 Region = us-west-1 設定パラメータの使用方法と値の制限の詳細については GitHub のサンプル設定プロパティファイルを参照してください KinesisProducer の初期化後に使用した KinesisProducerConfiguration インスタンスを変更しても何の変化もないことに注意してください現在 KinesisProducer は動的設定をサポートしていませんコンシューマーの集約解除 KCL はリリース 1.4.0 から KPL ユーザーレコードの自動集計解除をサポートしています以前のバージョンの KCL で書かれたコンシューマーアプリケーションのコードは KCL を更新した後コードを何も修正せずにコンパイルできますただしプロデューサー側で KPL の集約を使用している場合チェックポイントが多少関係してきます集約されたレコード内のすべてのサブレコードは同じシーケンス番号を持っているためサブレコード間の区別が必要な場合チェックポイントを使用して追加のデータを保存する必要がありますこの追加データはサブシーケンス番号と呼ばれます以前のバージョンの KCL からの移行集約とともにチェックポイントを作成する既存の呼び出しを変更する必要はありません Kinesis Data Streams に保存されているすべてのレコードを正しく取得できることが保証されています以下で説明する特定のユースケースをサポートするために現在 KCL には 2 つの新しいチェックポイントオペレーションが用意されています既存のコードが KPL サポート以前の KCL 用に書かれていてチェックポイントオペレーションが引数なしで呼び出される場合そのコードの動作はバッチ内にある最後の KPL ユーザーレコードのシーケンス番号に対するチェックポイントの作成と同等ですシーケンス番号文字列を使用してチェックポイントオペレーションを呼び出す場合は暗黙的なサブシーケンス番号 0 ( ゼロ ) を伴うバッチの指定されたシーケンス番号に対するチェックポイントの作成と同等です引数なしで新しい KCL チェックポイントオペレーション checkpoint() を呼び出すことは暗黙的なサブシーケンス番号 0 ( ゼロ ) を伴うバッチ内の最後の Record 呼び出しのシーケンス番号に対するチェックポイントの作成と意味的に同等です新しい KCL チェックポイントオペレーション checkpoint(record record) を呼び出すことは暗黙的なサブシーケンス番号 0 ( ゼロ ) を伴う指定された Record のシーケンス番号に対するチェックポイントの作成と意味的に同等です Record 呼び出しが実際には UserRecord である場合 UserRecord のシーケンス番号とサブシーケンス番号にチェックポイントが作成されます新しい KCL チェックポイントオペレーション checkpoint(string sequencenumber, long subsequencenumber) を呼び出すと指定されたシーケンス番号とサブシーケンス番号に明示的にチェックポイントが作成されますいずれの場合もチェックポイントが Amazon DynamoDB チェックポイントテーブルに保存された後はアプリケーションがクラッシュして再起動した場合 KCL によりレコードの取得が正常に再開されますさらにレコードがシーケンス内に含まれている場合は最後にチェックポイントが作成されたシーケンス番号が付けられているレコード内の次のサブシーケンス番号のレコードから取得が開始されます前のシーケンス番号のレコードにある最後のサブシーケンス番号が最新のチェックポイントに含まれている場合その次のシーケンス番号が付けられているレコードから取得が開始されます 98

Amazon Kinesis Data Streams 開発者ガイドコンシューマーの集約解除次のセクションではレコードのスキップや重複を避けるために必要なコンシューマーのシーケンスとサブシーケンスのチェックポイントの詳細について説明しますコンシューマーのレコード処理を停止し再起動するときにレコードのスキップや重複が重要でない場合は変更せずに既存のコードを実行してかまいません KPL の集約解除のための KCL の拡張すでに説明したように KPL の集約解除ではサブシーケンスチェックポイントを使用できますサブシーケンスチェックポイントを使いやすくするために UserRecord クラスが KCL に追加されています public class UserRecord extends Record { public long getsubsequencenumber() { /*... */ @Override public int hashcode() { /* contract-satisfying implementation */ @Override public boolean equals(object obj) { /* contract-satisfying implementation */ このクラスは現在 Record の代わりに使用されていますこれは Record のサブクラスであるため既存のコードは影響を受けません UserRecord クラスは実際のサブレコードと通常の集約されていないレコードの両方を表します集約されていないレコードはサブレコードを 1 つだけ含む集約されたレコードと考えることができますさらに 2 つの新しいオペレーションが IRecordProcessorCheckpointer に追加されています public void checkpoint(record record); public void checkpoint(string sequencenumber, long subsequencenumber); サブシーケンス番号チェックポイントの使用を開始するには次の変更を行います次のフォームコードを変更します checkpointer.checkpoint(record.getsequencenumber()); 新しいフォームコードは次のようになります checkpointer.checkpoint(record); サブシーケンスチェックポイントでは checkpoint(record record) フォームを使用することをお勧めしますただしチェックポイントの作成で使用する文字列にすでに sequencenumbers を保存している場合は次の例に示すように subsequencenumber も保存する必要があります String sequencenumber = record.getsequencenumber(); long subsequencenumber = ((UserRecord) record).getsubsequencenumber(); //... do other processing checkpointer.checkpoint(sequencenumber, subsequencenumber); この実装では内部で Record を必ず使用するため UserRecord から UserRecord へのキャストは必ず成功しますシーケンス番号の計算を実行する必要がない場合この方法はお勧めしません KPL ユーザーレコードの処理中に KCL はサブシーケンス番号を Amazon DynamoDB に各行の追加フィールドとして書き込みます以前のバージョンの KCL ではチェックポイントを再開するときに AFTER_SEQUENCE_NUMBER を使用してレコードを取得していました KPL サポートを含む現在の KCL で 99

Amazon Kinesis Data Streams 開発者ガイド Kinesis Data Firehose での KPL の使用は代わりに AT_SEQUENCE_NUMBER を使用しますチェックポイントが作成されたシーケンス番号のレコードを取得するときチェックポイントが作成されたサブシーケンス番号がチェックされサブレコードが必要に応じて削除されます ( 最後のサブレコードにチェックポイントが作成されている場合すべてのサブレコードが削除されます ) ここでも集約されていないレコードは単一のサブレコードを含む集約されたレコードと考えることができ集約されたレコードと集約されていないレコードの両方で同じアルゴリズムを使用できます GetRecords の直接的な使用 KCL の使用を選択せずに API オペレーション GetRecords を直接呼び出して Kinesis Data Streams レコードを取得することもできますこれらの取得したレコードを元の KPL ユーザーレコードに解凍するには UserRecord.java にある次の静的なオペレーションの 1 つを呼び出します public static List<Record> deaggregate(list<record> records) public static List<UserRecord> deaggregate(list<userrecord> records, BigInteger startinghashkey, BigInteger endinghashkey) 最初のオペレーションでは startinghashkey のデフォルト値 0 ( ゼロ ) と endinghashkey のデフォルト値 2^128-1 を使用しますこれらの各オペレーションは Kinesis Data Streams レコードの指定されたリストを KPL ユーザーレコードのリストに集約解除します KPL ユーザーレコードの明示的なハッシュキーまたはパーティションキーが startinghashkey と endinghashkey の範囲 ( 境界を含む ) 外にある場合これらのユーザーレコードは返されるレコードのリストから破棄されます Kinesis Data Firehose での KPL の使用 Kinesis Producer Library (KPL) を使用して Kinesis データストリームにデータを書き込む場合集約を使用してその Kinesis データストリームに書き込むレコードを結合できますその後そのデータストリームを Kinesis Data Firehose 配信ストリームのソースとして使用する場合 Kinesis Data Firehose はレコードの集約を解除してから送信先に配信しますデータを変換するように配信ストリームを設定する場合 Kinesis Data Firehose はレコードの集約を解除してから AWS Lambda に配信します詳細については Kinesis Data Streams を使用した Kinesis Data Firehose への書き込みを参照してください Amazon Kinesis Data Streams API と AWS SDK for Java を使用したプロデューサーの開発 Amazon Kinesis Data Streams API と AWS SDK for Java を使用してプロデューサーを開発できます Kinesis Data Streams を初めて利用する場合は Amazon Kinesis Data Streams とは (p. 1) と Amazon Kinesis Data Streams の使用開始 (p. 10) に説明されている概念と用語について理解することから始めてください以下の例では Kinesis Data Streams API について説明し AWS SDK for Java を使用してストリームにデータを追加 ( 入力 ) しますただしほとんどのユースケースでは Kinesis Data Streams KPL ライブラリを使用します詳細については Amazon Kinesis Producer Library を使用したプロデューサーの開発 (p. 90) を参照してくださいこの章で紹介する Java サンプルコードは基本的な Kinesis Data Streams API オペレーションを実行する方法を示しておりオペレーションタイプ別に論理的に分割されていますこれらのサンプルはすべての例外を確認しているわけではなくすべてのセキュリティやパフォーマンスの側面を考慮しているわけでもない点で本稼働環境に使用できるコードを表すものではありませんまた他のプログラミング言語を使用して Kinesis Data Streams API を呼び出すこともできますすべての利用可能な AWS SDK の詳細についてはアマゾンウェブサービスを使用した開発の開始を参照してください 100

Amazon Kinesis Data Streams 開発者ガイドストリームへのデータの追加各タスクには前提条件がありますたとえばストリームを作成するまではストリームにデータを追加できずストリームを作成するにはクライアントを作成する必要があります詳細についてはストリームの作成と管理 (p. 39) を参照してくださいストリームへのデータの追加ストリームを作成したらレコードの形式でストリームにデータを追加できますレコードはデータ BLOB の形式で処理するデータを格納するデータ構造ですデータをレコードに格納した後 Kinesis Data Streams ではいずれの方法でもデータが検査解釈または変更されることはありません各レコードにはシーケンス番号とパーティションキーも関連付けられます Kinesis Data Streams API にはストリームにデータを追加するオペレーションとして PutRecords と PutRecord の 2 つの異なるオペレーションがあります PutRecords オペレーションは HTTP リクエストごとストリームに複数のレコードを送信し単数形の PutRecord オペレーションは一度に 1 つずつストリームにレコードを送信します ( 各レコードについて個別の HTTP リクエストが必要です ) データプロデューサーあたりのスループットが向上するためほとんどのアプリケーションでは PutRecords を使用してくださいこれらの各オペレーションの詳細については後のそれぞれのサブセクションを参照してくださいトピック PutRecords を使用した複数のレコードの追加 (p. 101) PutRecord を使用した単一レコードの追加 (p. 104) ソースアプリケーションは Kinesis Data Streams API を使用してストリームにデータを追加するため 1 つ以上のコンシューマーアプリケーションが同時にストリームからデータを取得して処理する可能性があることを常に念頭に置いてくださいコンシューマーが Kinesis Data Streams API を使用してデータを取得する方法の詳細についてはストリームからのデータの取得 (p. 137) を参照してください Important データ保持期間の変更 (p. 49) PutRecords を使用した複数のレコードの追加 PutRecords オペレーションは 1 つのリクエストで Kinesis Data Streams に複数のレコードを送信します PutRecords を使用することによってプロデューサーは Kinesis data stream にデータを送信するときに高スループットを実現できます各 PutRecords リクエストで最大 500 レコードをサポートできますリクエストに含まれる各レコードは 1 MB のサイズリクエスト全体の上限はパーティションキーを含めて最大 5 MB 後で説明する単一の PutRecord オペレーションと同様に PutRecords はシーケンス番号とパーティションキーを使用しますただし PutRecord の SequenceNumberForOrdering パラメータは PutRecords の呼び出しには含まれません PutRecords オペレーションではリクエストの自然な順序ですべてのレコードを処理するよう試みます各データレコードには一意のシーケンス番号がありますシーケンス番号は client.putrecords を呼び出してストリームにデータレコードを追加した後に Kinesis Data Streams によって割り当てられます同じパーティションキーのシーケンス番号は一般的に時間の経過とともに大きくなります PutRecords リクエスト間の期間が長くなるほどシーケンス番号は大きくなります Note シーケンス番号は同じストリーム内の一連のデータのインデックスとして使用することはできません一連のデータを論理的に区別するにはパーティションキーを使用するかデータセットごとに個別のストリームを作成します PutRecords リクエストには異なるパーティションキーのレコードを含めることができますリクエストのスコープはストリームです各リクエストにはリクエストの制限までパーティションキーとレコードのあらゆる組み合わせを含めることができます複数の異なるパーティションキーを使用して複数の異なるシャードを含むストリームに対して実行されたリクエストは少数のパーティションキーを使 101

Amazon Kinesis Data Streams 開発者ガイドストリームへのデータの追加用して少数のシャードに対して実行されたリクエストよりも一般的に高速ですレイテンシーを低減しスループットを最大化するにはパーティションキーの数をシャードの数よりも大きくする必要があります PutRecords の例次のコードではシーケンシャルなパーティションキーを持つ 100 件のデータレコードを作成し DataStream という名前のストリームに格納しています AmazonKinesisClientBuilder clientbuilder = AmazonKinesisClientBuilder.standard(); clientbuilder.setregion(regionname); clientbuilder.setcredentials(credentialsprovider); clientbuilder.setclientconfiguration(config); AmazonKinesis kinesisclient = clientbuilder.build(); PutRecordsRequest putrecordsrequest = new PutRecordsRequest(); putrecordsrequest.setstreamname(streamname); List <PutRecordsRequestEntry> putrecordsrequestentrylist = new ArrayList<>(); for (int i = 0; i < 100; i++) { PutRecordsRequestEntry putrecordsrequestentry = new PutRecordsRequestEntry(); putrecordsrequestentry.setdata(bytebuffer.wrap(string.valueof(i).getbytes())); putrecordsrequestentry.setpartitionkey(string.format("partitionkey-%d", i)); putrecordsrequestentrylist.add(putrecordsrequestentry); putrecordsrequest.setrecords(putrecordsrequestentrylist); PutRecordsResult putrecordsresult = kinesisclient.putrecords(putrecordsrequest); System.out.println("Put Result" + putrecordsresult); PutRecords のレスポンスにはレスポンスの Records の配列が含まれますレスポンス配列の各レコードはリクエスト配列内のレコードと自然な順序 ( リクエストやレスポンスの上から下へ ) で直接相互に関連付けられますレスポンスの Records 配列には常にリクエスト配列と同じ数のレコードが含まれます PutRecords 使用時のエラーの処理デフォルトではリクエスト内の個々のレコードでエラーが発生しても PutRecords リクエスト内のそれ以降のレコードの処理は停止されませんつまりレスポンスの Records 配列には正常に処理されたレコードと正常に処理されなかったレコードの両方が含まれていることを意味します正常に処理されなかったレコードを検出しそれ以降の呼び出しに含める必要があります正常に処理されたレコードには SequenceNumber 値と ShardID 値が正常に処理されなかったレコードには ErrorCode 値と ErrorMessage 値が含まれます ErrorCode パラメータはエラーのタイプを反映し ProvisionedThroughputExceededException または InternalFailure のいずれかの値になります ErrorMessage は ProvisionedThroughputExceededException 例外に関するより詳細な情報としてスロットリングされたレコードのアカウント ID ストリーム名シャード ID などを示します次の例では PutRecords リクエストに 3 つのレコードがあります 2 番目のレコードは失敗しレスポンスに反映されます Example PutRecords リクエストの構文 { "Records": [ { "Data": "XzxkYXRhPl8w", "PartitionKey": "partitionkey1", { 102

Amazon Kinesis Data Streams 開発者ガイドストリームへのデータの追加 "Data": "AbceddeRFfg12asd", "PartitionKey": "partitionkey1", { "Data": "KFpcd98*7nd1", "PartitionKey": "partitionkey3" ], "StreamName": "mystream" Example PutRecords レスポンスの構文 { "FailedRecordCount : 1, "Records": [ { "SequenceNumber": "21269319989900637946712965403778482371", "ShardId": "shardid-000000000001", { ErrorCode": ProvisionedThroughputExceededException, ErrorMessage": "Rate exceeded for shard shardid-000000000001 in stream examplestreamname under account 111111111111.", { "SequenceNumber": "21269319989999637946712965403778482985", "ShardId": "shardid-000000000002" ] 正常に処理されなかったレコードは以降の PutRecords リクエストに含めることができます最初に FailedRecordCount の putrecordsresult パラメータを調べてリクエスト内にエラーとなったレコードがあるかどうかを確認しますこのようなレコードがある場合は putrecordsentry が ErrorCode 以外である各 null を以降のリクエストに追加してくださいこのタイプのハンドラーの例については次のコードを参照してください Example PutRecords エラーハンドラー PutRecordsRequest putrecordsrequest = new PutRecordsRequest(); putrecordsrequest.setstreamname(mystreamname); List<PutRecordsRequestEntry> putrecordsrequestentrylist = new ArrayList<>(); for (int j = 0; j < 100; j++) { PutRecordsRequestEntry putrecordsrequestentry = new PutRecordsRequestEntry(); putrecordsrequestentry.setdata(bytebuffer.wrap(string.valueof(j).getbytes())); putrecordsrequestentry.setpartitionkey(string.format("partitionkey-%d", j)); putrecordsrequestentrylist.add(putrecordsrequestentry); putrecordsrequest.setrecords(putrecordsrequestentrylist); PutRecordsResult putrecordsresult = amazonkinesisclient.putrecords(putrecordsrequest); while (putrecordsresult.getfailedrecordcount() > 0) { final List<PutRecordsRequestEntry> failedrecordslist = new ArrayList<>(); final List<PutRecordsResultEntry> putrecordsresultentrylist = putrecordsresult.getrecords(); for (int i = 0; i < putrecordsresultentrylist.size(); i++) { final PutRecordsRequestEntry putrecordrequestentry = putrecordsrequestentrylist.get(i); 103

Amazon Kinesis Data Streams 開発者ガイドストリームへのデータの追加 final PutRecordsResultEntry putrecordsresultentry = putrecordsresultentrylist.get(i); if (putrecordsresultentry.geterrorcode()!= null) { failedrecordslist.add(putrecordrequestentry); putrecordsrequestentrylist = failedrecordslist; putrecordsrequest.setrecords(putrecordsrequestentrylist); putrecordsresult = amazonkinesisclient.putrecords(putrecordsrequest); PutRecord を使用した単一レコードの追加 PutRecord の各呼び出しは 1 つのレコードに対して動作しますアプリケーションで常にリクエストごとに 1 つのレコードを送信する必要がある場合や PutRecords を使用できないその他の理由がある場合を除いて PutRecords を使用した複数のレコードの追加 (p. 101) で説明している PutRecords オペレーションを使用します各データレコードには一意のシーケンス番号がありますシーケンス番号は client.putrecord を呼び出してストリームにデータレコードが追加された後に Kinesis Data Streams によって割り当てられます同じパーティションキーのシーケンス番号は一般的に時間の経過とともに大きくなります PutRecord リクエスト間の期間が長くなるほどシーケンス番号は大きくなります入力が立て続けに行われた場合返されるシーケンス番号は大きくなるとは限りません入力オペレーションが基本的に Kinesis Data Streams に対して同時に実行されるためです同じパーティションキーに対して厳密にシーケンス番号が大きくなるようにするには SequenceNumberForOrdering のサンプルコードに示しているように PutRecord の例 (p. 104) パラメータを使用します SequenceNumberForOrdering を使用するかどうかにかかわらず Kinesis Data Streams が GetRecords の呼び出しを通じて受け取るレコードは厳密にシーケンス番号順になります Note シーケンス番号は同じストリーム内の一連のデータのインデックスとして使用することはできません一連のデータを論理的に区別するにはパーティションキーを使用するかデータセットごとに個別のストリームを作成しますパーティションキーはストリーム内のデータをグループ化するために使用されますデータレコードはそのパーティションキーに基づいてストリーム内でシャードに割り当てられます具体的には Kinesis Data Streams ではパーティションキー ( および関連するデータ ) を特定のシャードにマッピングするハッシュ関数への入力としてパーティションキーを使用しますこのハッシュメカニズムの結果としてパーティションキーが同じすべてのデータレコードはストリーム内で同じシャードにマッピングされますただしパーティションキーの数がシャードの数を超えている場合一部のシャードにパーティションキーが異なるレコードが格納されることがあります設計の観点からすべてのシャードが適切に使用されるようにするにはシャードの数 (setshardcount の CreateStreamRequest メソッドで指定 ) を一意のパーティションキーの数よりも大幅に少なくする必要がありますまた 1 つのパーティションキーへのデータの流量をシャードの容量より大幅に小さくする必要があります PutRecord の例以下のコードでは 2 つのパーティションキーに配分される 10 件のデータレコードを作成し mystreamname という名前のストリームに格納しています for (int j = 0; j < 10; j++) { PutRecordRequest putrecordrequest = new PutRecordRequest(); putrecordrequest.setstreamname( mystreamname ); putrecordrequest.setdata(bytebuffer.wrap( String.format( "testdata-%d", j ).getbytes() )); 104

Amazon Kinesis Data Streams 開発者ガイドエージェントの使用 putrecordrequest.setpartitionkey( String.format( "partitionkey-%d", j/5 )); putrecordrequest.setsequencenumberforordering( sequencenumberofpreviousrecord ); PutRecordResult putrecordresult = client.putrecord( putrecordrequest ); sequencenumberofpreviousrecord = putrecordresult.getsequencenumber(); 上記のコード例では setsequencenumberforordering を使用して各パーティションキー内で順番が厳密に増えるようにしていますこのパラメータを効果的に使用するには現在のレコード ( レコード n) の SequenceNumberForOrdering を前のレコード ( レコード n-1) のシーケンス番号に設定しますストリームに追加されたレコードのシーケンス番号を取得するには getsequencenumber の結果に対して putrecord を呼び出します SequenceNumberForOrdering パラメータを使用すると同じクライアントが PutRecord を呼び出したときにパーティションキーが同じであってもシーケンス番号が必ず大きくなります SequenceNumberForOrdering は複数の同時実行アプリケーションから追加されたレコード間や複数のパーティションキー間の順番を保証するものではありません Kinesis エージェントを使用した Amazon Kinesis Data Streams への書き込み Kinesis エージェントはスタンドアロンの Java ソフトウェアアプリケーションでデータを収集して Kinesis Data Streams に送信する簡単な方法を提供しますこのエージェントは一連のファイルを継続的に監視し新しいデータをストリームに送信しますエージェントはファイルのローテーションチェックポイント失敗時の再試行を処理しますタイムリーで信頼性の高い簡単な方法ですべてのデータを提供しますまたストリーミング処理のモニタリングとトラブルシューティングに役立つ Amazon CloudWatch メトリクスも出力しますデフォルトではレコードは改行文字 ('\n') に基づいて各ファイルから解析されますしかし複数行レコードを解析するようエージェントを設定することもできます ( エージェントの設定 (p. 107) を参照 ) このエージェントはウェブサーバーログサーバーおよびデータベースサーバーなど Linux ベースのサーバー環境にインストールできますエージェントをインストールした後でモニタリング用のファイルとデータストリームを指定して設定しますエージェントが設定されるとファイルから永続的にデータを収集してストリームに安全にデータを送信しますトピック前提条件 (p. 105) エージェントのダウンロードとインストール (p. 106) エージェントの設定と開始 (p. 106) エージェントの設定 (p. 107) 複数のファイルディレクトリを監視し複数のストリームに書き込み (p. 109) エージェントを使用してデータを事前処理する (p. 110) エージェント CLI コマンド (p. 113) 前提条件オペレーティングシステムは Amazon Linux AMI バージョン 2015.09 以降または Red Hat Enterprise Linux バージョン 7 以降でなければなりません Amazon EC2 を使用してエージェントを実行している場合は EC2 インスタンスを起動します次のいずれかの方法を使用して AWS 認証情報を管理します 105

Amazon Kinesis Data Streams 開発者ガイドエージェントのダウンロードとインストール EC2 インスタンスを起動する際に IAM ロールを指定しますエージェントを設定する際に AWS 認証情報を指定します (awsaccesskeyid (p. awssecretaccesskey (p. ) を参照してください ) ) および /etc/sysconfig/aws-kinesis-agent を編集してリージョンと AWS アクセスキーを指定します EC2 インスタンスが他の AWS アカウントにある場合 Kinesis Data Streams サービスへのアクセス権を付与する IAM ロールを作成しエージェントを設定するときにそのロールを指定します (assumerolearn (p. ) と assumeroleexternalid (p. ) を参照 ) 前のいずれかの方法を使用してこのロールを引き受ける権限がある他のアカウントのユーザーの AWS 認証情報を指定します指定した IAM ロールまたは AWS 認証情報には Kinesis Data Streams PutRecords オペレーションを実行してエージェントからストリームにデータを送信するためのアクセス許可が必要ですエージェントの CloudWatch モニタリングを有効にしている場合は CloudWatch PutMetricData オペレーションを実行する権限も必要になります詳細については Amazon Kinesis Data Streams による IAM リソースに対するアクセスの制御 (p. 78) Amazon CloudWatch による Kinesis Data Streams エージェントのヘルスのモニタリング (p. 62) および CloudWatch のアクセスコントロールを参照してくださいエージェントのダウンロードとインストール最初にインスタンスに接続します詳細については Linux インスタンス用 Amazon EC2 ユーザーガイドのインスタンスへの接続を参照してください接続できない場合は Linux インスタンス用 Amazon EC2 ユーザーガイドのインスタンスへの接続に関するトラブルシューティングを参照してください Amazon Linux AMI を使用してエージェントを設定するには次のコマンドを使用してエージェントをダウンロードしてインストールします sudo yum install y aws-kinesis-agent Red Hat Enterprise Linux を使用してエージェントを設定する次のコマンドを使用してエージェントをダウンロードしてインストールします sudo yum install y https://s3.amazonaws.com/streaming-data-agent/aws-kinesis-agentlatest.amzn1.noarch.rpm GitHub を使用してエージェントを設定する 1. エージェントを awlabs/amazon-kinesis-agent からダウンロードします 2. ダウンロードしたディレクトリまで移動し次のコマンドを実行してエージェントをインストールします sudo./setup --install エージェントの設定と開始エージェントを設定して開始するには 1. 設定ファイル (/etc/aws-kinesis/agent.json) を開き編集します ( デフォルトのファイルアクセス権限を使用している場合はスーパーユーザーとして操作を行います ) 106

Amazon Kinesis Data Streams 開発者ガイドエージェントの設定この設定ファイルでエージェントがデータを集めるファイル ("filepattern") とエージェントがデータを送信するストリーム ("kinesisstream") を指定しますファイル名はパターンでエージェントはファイルローテーションを確認する点に注意してください 1 秒あたりに一度だけファイルを交替または新しいファイルを作成できますエージェントはファイル作成タイムスタンプを使用してどのファイルを追跡してストリームに送信するかを判断します新規ファイルの作成やファイルの交換を 1 秒あたりに一度以上頻繁に交換するとエージェントはそれらを適切に区別できません { "flows": [ { "filepattern": "/tmp/app.log*", "kinesisstream": "yourkinesisstream" ] 2. エージェントを手動で開始する : sudo service aws-kinesis-agent start 3. ( オプション ) システムスタートアップ時にエージェントを開始するように設定します sudo chkconfig aws-kinesis-agent on エージェントはシステムのサービスとしてバックグラウンドで実行されます継続的に指定ファイルをモニタリングし指定されたストリームにデータを送信しますエージェント活動は /var/log/awskinesis-agent/aws-kinesis-agent.log に記録されますエージェントの設定エージェントは 2 つの必須設定 filepattern と kinesisstream さらに追加機能として任意の設定をサポートしています必須およびオプションの設定を /etc/aws-kinesis/agent.json で指定できます設定ファイルを変更した場合は次のコマンドを使用してエージェントを停止および起動する必要があります sudo service aws-kinesis-agent stop sudo service aws-kinesis-agent start または次のコマンドを使用できます sudo service aws-kinesis-agent restart 全般設定は次のとおりです構成設定 assumerolearn 説明ユーザーが引き受けるロールの ARN 詳細については IAM ユーザーガイドの AWS アカウント間の IAM ロールを使用したアクセスの委任を参照してください 107

Amazon Kinesis Data Streams 開発者ガイドエージェントの設定構成設定説明 assumeroleexternalid ロールを引き受けることができるユーザーを決定するオプションの ID 詳細については IAM ユーザーガイドの外部 ID を使用する方法を参照してください awsaccesskeyid デフォルトの認証情報を上書きする AWS アクセスキー ID ですこの設定は他のすべての認証情報プロバイダーに優先されます awssecretaccesskey デフォルトの認証情報を上書きする AWS シークレットキーですこの設定は他のすべての認証情報プロバイダーに優先されます cloudwatch.emitmetrics エージェントがメトリクスを CloudWatch に発行できるようにします (true に設定された場合 ) デフォルト : true cloudwatch.endpoint CloudWatch のリージョンのエンドポイントですデフォルト : monitoring.us-east-1.amazonaws.com kinesis.endpoint Kinesis Data Streams のリージョンのエンドポイントですデフォルト : kinesis.us-east-1.amazonaws.com フロー設定は次のとおりです構成設定説明 dataprocessingoptions ストリームに送信される前に解析された各レコードに適用されるの処理オプションの一覧処理オプションは指定した順序で実行されます詳細についてはエージェントを使用してデータを事前処理する (p. 110) を参照してください kinesisstream filepattern initialposition [ 必須 ] ストリームの名前 [ 必須 ] エージェントによってモニタリングされる必要があるファイルの glob このパターンに一致するすべてのファイルはエージェントによって自動的に選択されモニタリングされますこのパターンに一致するすべてのファイルは読み取り権限を aws-kinesis-agent-user に付与する必要がありますファイルを含むディレクトリには読み取りと実行権限を awskinesis-agent-user に付与する必要がありますファイルの解析が開始される最初の位置有効な値は START_OF_FILE および END_OF_FILE ですデフォルト : END_OF_FILE maxbufferagemillis エージェントがストリームに送信する前にデータをバッファーする最大時間 ( ミリ秒 ) 値の範囲 : 1,000~900,000 (1 秒 ~15 分 ) デフォルト : 60,000 (1 分 ) maxbuffersizebytes エージェントがストリームに送信する前にデータをバッファーする最大サイズ ( バイト ) 値の範囲 : 1~4,194,304 (4 MB) 108

Amazon Kinesis Data Streams 開発者ガイド複数のファイルディレクトリを監視し複数のストリームに書き込み構成設定説明デフォルト : 4,194,304 (4 MB) maxbuffersizerecords エージェントがストリームに送信する前にデータをバッファーするレコードの最大数値の範囲 : 1 ~ 500 デフォルト : 500 mintimebetweenfilepollsmillis エージェントが新しいデータのモニタリング対象ファイルをポーリングし解析する時間間隔 ( ミリ秒単位 ) 値の範囲 : 1 以上デフォルト : 100 multilinestartpattern レコードの開始を識別するパターンレコードはパターンに一致する 1 行とそれに続くパターンに一致しない行で構成されます有効な値は正規表現ですデフォルトではログファイルのそれぞれの改行は 1 つのレコードとして解析されます partitionkeyoption パーティションのキーを生成する方法有効な値は RANDOM ( ランダムに生成される整数 ) と DETERMINISTIC ( データから計算されるハッシュ値 ) ですデフォルト : RANDOM skipheaderlines モニタリング対象ファイルの始めにエージェントが解析をスキップするの行数値の範囲 : 0 以上デフォルト : 0 ( ゼロ ) truncatedrecordterminator レコードのサイズが Kinesis Data Streams レコードの許容サイズを超えたときに解析されたレコードを切り捨てるためにエージェントが使用する文字列 (1,000 KB) デフォルト : '\n'( 改行 ) 複数のファイルディレクトリを監視し複数のストリームに書き込み複数のフロー設定を指定することによってエージェントが複数のファイルディレクトリを監視し複数のストリームにデータを送信するように設定できます以下の設定例ではエージェントが 2 つのファイルディレクトリをモニタリングしそれぞれ Kinesis ストリームと Kinesis Data Firehose 配信ストリームにデータを送信します Kinesis ストリームと Kinesis Data Firehose 配信ストリームが同じリージョンにある必要がないように Kinesis Data Streams と Kinesis Data Firehose に異なるエンドポイントを指定できます { "cloudwatch.emitmetrics": true, "kinesis.endpoint": "https://your/kinesis/endpoint", "firehose.endpoint": "https://your/firehose/endpoint", "flows": [ { "filepattern": "/tmp/app1.log*", 109

Amazon Kinesis Data Streams 開発者ガイドエージェントを使用してデータを事前処理する ], { "kinesisstream": "yourkinesisstream" "filepattern": "/tmp/app2.log*", "deliverystream": "yourfirehosedeliverystream" Kinesis Data Firehose によるエージェントの使用の詳細については Kinesis エージェントによる Amazon Kinesis Data Firehose への書き込みを参照してくださいエージェントを使用してデータを事前処理するエージェントはストリームにレコードを送信する前にモニタリング対象ファイルから解析したレコードを事前処理できますファイルフローに dataprocessingoptions 設定を追加することでこの機能を有効にできます 1 つ以上の処理オプションを追加できまた指定されている順序で実行されますエージェントはリストされた次の処理オプションに対応していますエージェントはオープンソースであるため処理オプションを開発および拡張できます Kinesis エージェントからエージェントをダウンロードできます処理オプション SINGLELINE 改行文字先頭のスペース末尾のスペースを削除することで複数行レコードを単一行レコードに変換します { "optionname": "SINGLELINE" CSVTOJSON 区切り形式から JSON 形式にレコードを変換します { "optionname": "CSVTOJSON", "customfieldnames": [ "field1", "field2",... ], "delimiter": "yourdelimiter" customfieldnames [ 必須 ] 各 JSON キー値のペアでキーとして使用されるフィールド名たとえば ["f1", "f2"] を指定した場合はレコード v1 v2 は {"f1":"v1","f2":"v2" に変換されます delimiter LOGTOJSON レコードで区切り記号として使用する文字列デフォルトはカンマ (,) ですログ形式から JSON 形式にレコードを変換しますサポートされているログ形式は Apache Common Log Apache Combined Log Apache Error Log および RFC3164 Syslog です { "optionname": "LOGTOJSON", "logformat": "logformat", "matchpattern": "yourregexpattern", 110

Amazon Kinesis Data Streams 開発者ガイドエージェントを使用してデータを事前処理する "customfieldnames": [ "field1", "field2", ] logformat [ 必須 ] ログエントリ形式以下の値を指定できます COMMONAPACHELOG Apache Common Log 形式各ログエントリはデフォルトで次のパターン %{host %{ident %{authuser [%{datetime] \"%{request\" %{response %{bytes になります COMBINEDAPACHELOG Apache Combined Log 形式各ログエントリはデフォルトで次のパターン %{host %{ident %{authuser [%{datetime] \"%{request\" %{response %{bytes %{referrer %{agent になります APACHEERRORLOG Apache Error Log 形式各ログエントリはデフォルトで次のパターン [%{timestamp] [%{module:%{severity] [pid %{processid:tid %{threadid] [client: %{client] %{message になります SYSLOG RFC3164 Syslog 形式各ログエントリはデフォルトで次のパターン %{timestamp %{hostname %{program[%{processid]: %{message になります matchpattern ログエントリから値を取得するために使用する正規表現パターンこの設定はログエントリが定義されたログ形式の一つとして存在していない場合に使用されますこの設定を使用する場合は customfieldnames を指定する必要があります customfieldnames JSON キー値のペアでキーとして使用されるカスタムフィールド名 matchpattern から抽出した値のフィールド名を定義するためにまたは事前定義されたログ形式のデフォルトのフィールド名を上書きするためにこの設定を使用できます Example : LOGTOJSON 設定 JSON 形式に変換された Apache Common Log エントリの LOGTOJSON 設定の一つの例を次に示します { "optionname": "LOGTOJSON", "logformat": "COMMONAPACHELOG" 変換前 : 64.242.88.10 - - [07/Mar/2004:16:10:02-0800] "GET /mailman/listinfo/hsdivision HTTP/1.1" 200 6291 変換後 : {"host":"64.242.88.10","ident":null,"authuser":null,"datetime":"07/ Mar/2004:16:10:02-0800","request":"GET /mailman/listinfo/hsdivision HTTP/1.1","response":"200","bytes":"6291" Example : カスタムフィールドがある LOGTOJSON 設定こちらは LOGTOJSON 設定の別の例です { "optionname": "LOGTOJSON", 111

Amazon Kinesis Data Streams 開発者ガイドエージェントを使用してデータを事前処理する "logformat": "COMMONAPACHELOG", "customfieldnames": ["f1", "f2", "f3", "f4", "f5", "f6", "f7"] この設定では前の例からの同じ Apache Common Log エントリは次のように JSON 形式に変換されます {"f1":"64.242.88.10","f2":null,"f3":null,"f4":"07/mar/2004:16:10:02-0800","f5":"get / mailman/listinfo/hsdivision HTTP/1.1","f6":"200","f7":"6291" Example : Apache Common Log エントリの変換次のフロー設定は Apache Common Log エントリを JSON 形式の単一行レコードに変換します { "flows": [ { "filepattern": "/tmp/app.log*", "kinesisstream": "my-stream", "dataprocessingoptions": [ { "optionname": "LOGTOJSON", "logformat": "COMMONAPACHELOG" ] ] Example : 複数行レコードの変換次のフロー設定は最初の行が [SEQUENCE= で開始している複数行レコードを解析します各レコードはまず単一行レコードに変換されます次に値はタブの区切り記号に基づいたレコードから取得されます取得された値は指定された customfieldnames 値にマッピングされ JSON 形式の単一行レコードを形成します { "flows": [ { "filepattern": "/tmp/app.log*", "kinesisstream": "my-stream", "multilinestartpattern": "\\[SEQUENCE=", "dataprocessingoptions": [ { "optionname": "SINGLELINE", { "optionname": "CSVTOJSON", "customfieldnames": [ "field1", "field2", "field3" ], "delimiter": "\\t" ] ] Example : 一致パターンで LOGTOJSON 設定こちらは最後のフィールド ( バイト ) が省略された JSON 形式に変換された Apache Common Log エントリの LOGTOJSON 設定の一例です 112

Amazon Kinesis Data Streams 開発者ガイドエージェント CLI コマンド { "optionname": "LOGTOJSON", "logformat": "COMMONAPACHELOG", "matchpattern": "^([\\d.]+) (\\S+) (\\S+) \\[([\\w:/]+\\s[+\\-]\\d{4)\\] \"(.+?)\" (\ \d{3)", "customfieldnames": ["host", "ident", "authuser", "datetime", "request", "response"] 変換前 : 123.45.67.89 - - [27/Oct/2000:09:27:09-0400] "GET /java/javaresources.html HTTP/1.0" 200 変換後 : {"host":"123.45.67.89","ident":null,"authuser":null,"datetime":"27/oct/2000:09:27:09-0400","request":"get /java/javaresources.html HTTP/1.0","response":"200" エージェント CLI コマンドシステムスタートアップ時のエージェントの自動的開始 : sudo chkconfig aws-kinesis-agent on エージェントのステータスの確認 : sudo service aws-kinesis-agent status エージェントの停止 : sudo service aws-kinesis-agent stop この場所からエージェントのログファイルを読む : /var/log/aws-kinesis-agent/aws-kinesis-agent.log エージェントのアンインストール : sudo yum remove aws-kinesis-agent Amazon Kinesis Data Streams プロデューサーのトラブルシューティング以下のセクションでは Amazon Kinesis Data Streams プロデューサーの操作中に発生する可能性がある一般的な問題に対する解決策を示しますプロデューサーアプリケーションの書き込みの速度が予想よりも遅い (p. 114) 承認されていない KMS マスターキーの権限エラー (p. 115) 113

Amazon Kinesis Data Streams 開発者ガイドプロデューサーアプリケーションの書き込みの速度が予想よりも遅いプロデューサーアプリケーションの書き込みの速度が予想よりも遅い書き込みのスループットが予想よりも遅くなる最も一般的な理由は次のとおりですサービスの制限を超過している (p. 114) プロデューサーの最適化 (p. 114) サービスの制限を超過しているサービスの制限を超過している呼び出しによって制限が異なることに注意して Kinesis Data Streams の制限 (p. 8) を確認してくださいたとえば書き込みと読み取りのシャードレベルの制限は最もよく知られていますが以下のようなストリームレベルの制限もあります CreateStream DeleteStream ListStreams GetShardIterator MergeShards DescribeStream DescribeStreamSummary CreateStream DeleteStream ListStreams GetShardIterator MergeShards のオペレーションは 1 秒あたり 5 個の呼び出しに制限されます DescribeStream オペレーションは 1 秒あたり 10 個の呼び出しに制限されます DescribeStreamSummary オペレーションは 1 秒あたり 20 個の呼び出しに制限されますこのような呼び出しが原因でない場合は選択したパーティションキーを使用してすべてのシャードに put オペレーションを均等に分散できることどのパーティションキーもサービスの制限に達していないことを確認しますこれにはピークスループットを測定してストリームのシャードの数を考慮する必要がありますストリーム管理の詳細についてはストリームの作成と管理 (p. 39) を参照してください Tip シングルレコードオペレーション PutRecord ではスループットスロットリングの計算結果がキロバイト単位に四捨五入されますマルチレコードオペレーション PutRecords では各セルのレコードの累計が四捨五入されますたとえば PutRecords は 1.1 KB になる 600 レコードのリクエストをスロットリングしませんプロデューサーの最適化プロデューサーの最適化を始める前に完了しておかなければならない重要なタスクがいくつかあります最初にレコードのサイズと 1 秒あたりのレコード数で必要となるスループットピークを特定します次に制限要素としてのストリーム容量を除外します ( サービスの制限を超過している (p. 114)) ストリーム容量を除外している場合は以下のプロデューサーの 2 つの一般的なタイプのトラブルシューティングのヒントと最適化のガイドラインを使用しますラージプロデューサーラージプロデューサーは通常オンプレミスサーバーまたは Amazon EC2 インスタンスから実行されますラージプロデューサーからより高いスループットを必要とするお客様は通常レコードあたりのレイテンシーに注意を払いますレイテンシーを処理する戦略としてお客様がレコードをマイクロバッチ / バッファできる場合は Kinesis Producer Library ( 高度な集約ロジックがある ) を使用するかマルチレ 114

Amazon Kinesis Data Streams 開発者ガイド承認されていない KMS マスターキーの権限エラーコードオペレーション PutRecords を使用するかレコードをより大きいファイルに集約してからシングルレコードオペレーション PutRecord を使用しますバッチ / バッファを使用できない場合は複数のスレッドを使用して Kinesis Data Streams サービスに同時に書き込みます AWS SDK for Java とその他の SDK にはごく少数のコードでこれを実行できる非同期クライアントが含まれますスモールプロデューサースモールプロデューサーは通常モバイルアプリケーション IoT デバイスまたはウェブクライアントですモバイルアプリケーションの場合は PutRecords オペレーションを使用するか AWS モバイル SDK の Kinesis レコーダーを使用することをお勧めします詳細については AWS Mobile SDK for Android 入門ガイドおよび AWS Mobile SDK for ios Getting Started Guide を参照してくださいモバイルアプリケーションは本来断続的な接続を処理する必要があり PutRecords のようなバッチ put タイプを必要とします何らかの理由でバッチを使用できない場合は上記のラージプロデューサーの情報を参照してくださいプロデューサーがブラウザの場合生成されるデータの量は通常非常に小さなものとなりますただしアプリケーションの重要なパスに put オペレーションを配置することはお勧めしません承認されていない KMS マスターキーの権限エラーこのエラーはプロデューサーアプリケーションが KMS マスターキーに対するアクセス許可なしで暗号化されたストリームに書き込みを行うときに発生します KMS キーにアクセスする権限をアプリケーションに割り当てる方法については AWS KMS でのキーポリシーの使用および AWS KMS での IAM ポリシーの使用を参照してください Kinesis Data Streams プロデューサーについての高度なトピックこのセクションでは Amazon Kinesis Data Streams プロデューサーを最適化する方法について説明しますトピック KPL の再試行とレート制限 (p. 115) KPL 集約を使用するときの考慮事項 (p. 116) KPL の再試行とレート制限 KPL adduserrecord() オペレーションを使用して Kinesis Producer Library (KPL) ユーザーレコードを追加するとレコードはタイムスタンプが付けられて RecordMaxBufferedTime 設定パラメータで期限が設定されたバッファに追加されますこのタイムスタンプと期限の組み合わせによりバッファの優先順位が設定されますレコードは次の条件に基づいてバッファからフラッシュされますバッファの優先度集約設定収集設定バッファの動作に影響を与える集約および収集の設定パラメータは次のとおりです AggregationMaxCount AggregationMaxSize CollectionMaxCount 115

Amazon Kinesis Data Streams 開発者ガイド KPL 集約を使用するときの考慮事項 CollectionMaxSize さらにフラッシュされたレコードは Kinesis Data Streams API オペレーション PutRecords への呼び出しを使用して Amazon Kinesis Data Streams レコードとして Kinesis data stream に送信されます PutRecords オペレーションはストリームにリクエストを送信しますがすべての失敗または部分的な失敗を示す場合があります失敗したレコードは自動的に KPL バッファに戻されます新しい期限は次の 2 つの値のうち小さい方に基づいて設定されます現在の RecordMaxBufferedTime 設定の半分レコードの有効期限値この戦略では再試行する KPL ユーザーレコードをそれ以降の Kinesis Data Streams API コールに含めることができ Kinesis Data Streams レコードの有効期限値を適用しながらスループットを改善し複雑さを減らすことができますバックオフアルゴリズムがないためこれは比較的積極的な再試行戦略です過剰な再試行による大量送信は次のセクションで説明するレート制限により防止できますレート制限 KPL にはレート制限機能があり 1 つのプロデューサーからの送信されるシャード単位のスループットを制限できますレート制限は Kinesis Data Streams のレコードとバイトに別々のバケットを使用するトークンバケットアルゴリズムを使用して実装されています Kinesis data stream への書き込みが成功するたびに特定のしきい値に達するまで各バケットに 1 つまたは複数のトークンが追加されますこのしきい値は設定できますがデフォルトでは実際のシャード制限より 50 パーセント大きく設定され単一のプロデューサーによるシャードの飽和が許されていますこの制限を小さくすることにより過剰な再試行による大量送信を抑制できますただしベストプラクティスは各プロデューサーについて最大スループットまで積極的に再試行することとストリームの容量を拡大し適切なパーティションキー戦略を実装することにより結果的に過剰と判断されたスロットリングを適切に処理することです KPL 集約を使用するときの考慮事項結果として得られた Amazon Kinesis Data Streams レコードのシーケンス番号方式は同じままですが集約された Kinesis Data Streams レコードに含まれる Kinesis Producer Library (KPL) ユーザーレコードのインデックス作成は 0 ( ゼロ ) から始まりますただしシーケンス番号に依存しない方法で KPL ユーザーレコードを一意に識別する限り集約 (KPL ユーザーレコードの Kinesis Data Streams レコードへの集約 ) とその後の集約解除 (Kinesis Data Streams レコードの KPL ユーザーレコードへの集約解除 ) で自動的に考慮されるためこのようにインデックス作成が 0 ( ゼロ ) から始まることをコード上は無視してかまいませんこれはコンシューマーが KCL と AWS SDK のどちらを使用している場合でも適用されます AWS SDK で提供される API を使用してコンシューマーが書かれている場合この集約機能を使用するには KPL の Java 部分をビルドに組み込む必要があります KPL ユーザーレコードの一意な識別子としてシーケンス番号を使用する場合 Record および UserRecord に提供されている契約に順守した public int hashcode() および public boolean equals(object obj) オペレーションを使用して KPL ユーザーレコードの比較を有効にすることをお勧めしますさらに KPL ユーザーレコードのサブシーケンス番号を調べる必要がある場合はそのユーザーレコードを UserRecord インスタンスにキャストしてそのサブシーケンス番号を取得できます詳細についてはコンシューマーの集約解除 (p. 98) を参照してください 116

Amazon Kinesis Data Streams 開発者ガイド Amazon Kinesis Data Streams からのデータの読み取りコンシューマーは Kinesis データストリームからのすべてのデータを処理するアプリケーションですコンシューマーで拡張ファンアウトを使用すると独自の 2 MiB/ 秒の読み込みスループットが割り当てられ読み取りスループットが他のコンシューマーと競合することなく複数のコンシューマーが並行して同じストリームからデータを読み取ることができますシャードの拡張ファンアウト機能を使用するには拡張ファンアウトでコンシューマーを使用する (p. 141) を参照してくださいデフォルトではストリーム内のシャードの読み込みスループットは 2 MiB/ 秒 ( シャードあたり ) ですこのスループットは指定されたシャードから読み取りを行うすべてのコンシューマー間で共有されますつまりデフォルトの 2 MiB/ 秒のシャードあたりのスループットはそのシャードから読み取りを行う複数のコンシューマーがある場合でも固定ですこのデフォルトのシャードのスループットを使用するには Amazon Kinesis Data Streams コンシューマーの開発 (p. 118) を参照してください次の表で拡張ファンアウトのデフォルトのスループットを比較しますメッセージ伝達遅延時間はペイロードを送信する API (PutRecord や PutRecords など ) を使用して送信されたペイロードがペイロードを消費する API (GetRecords や SubscribeToShard など ) を経由してコンシューマーアプリケーションに到達するまでにかかった時間 ( ミリ秒 ) として定義されます特徴シャードの読み取りスループットメッセージ伝達遅延拡張ファンアウトを使用しない未登録コンシューマーシャードあたり合計 2MiB/ 秒で固定同じシャードから読み取るコンシューマーが複数ある場合それらのすべてがこのスループットを共有しますこれらがシャードから受け取るスループットの合計は 2 MiB/ 秒を超えませんストリームから読み取るコンシューマーが 1 つの場合は平均約 200 ms ですコンシューマーが 5 つの場合この平均は最大約 1000 ms まで上がります拡張ファンアウトを使用する登録済みコンシューマー拡張ファンアウトを使用するコンシューマーが登録されるにつれてスケールされます拡張ファンアウトを使用するように登録された各コンシューマーは他のコンシューマーとは関係なくシャードごとに独自の読み取りスループットを最大 2MiB/ 秒まで受け取りますコンシューマーが 1 つまたは 5 つかによって一般的に平均 70 ms です Cost 該当なしデータ取得コストおよびコンシューマー - シャード時間料金がかかります詳細については Amazon Kinesis Data Streams の料金表を参照してくださいレコードの配信モデル GetRecords を使用した HTTP 経由のプルモデル Kinesis Data Streams は SubscribeToShard を使用し HTTP/2 経由でレコードをユーザーにプッシュしますトピック 117

Amazon Kinesis Data Streams 開発者ガイドコンシューマーの使用 Amazon Kinesis Data Streams コンシューマーの開発 (p. 118) 拡張ファンアウトでコンシューマーを使用する (p. 141) Kinesis Client Library 1.x から 2.x への移行 (p. 148) Amazon Kinesis Data Streams コンシューマーのトラブルシューティング (p. 157) Amazon Kinesis Data Streams コンシューマーについての高度なトピック (p. 160) Amazon Kinesis Data Streams コンシューマーの開発 Kinesis Data Streams からデータを受け取る際に専用スループットを必要としない場合で 200 ms 以下の読み取り伝達遅延を必要としない場合は以下のトピックで説明しているようにコンシューマーアプリケーションを構築できますトピック Kinesis Client Library 1.x を使用したコンシューマーの開発 (p. 118) Kinesis Client Library 2.0 を使用したコンシューマーの開発 (p. 133) AWS SDK for Java での Kinesis Data Streams API を使用したコンシューマーの開発 (p. 137) 専用スループットを使用して Kinesis データストリームからレコードを受信できるコンシューマーの構築の詳細については拡張ファンアウトでコンシューマーを使用する (p. 141) を参照してください Kinesis Client Library 1.x を使用したコンシューマーの開発 Kinesis Client Library (KCL) を使用して Amazon Kinesis Data Streams のコンシューマーアプリケーションを開発できます Kinesis Data Streams API を使用して Kinesis data stream からデータを取得することはできますが KCL が提供するコンシューマーアプリケーションの設計パターンとコードを使用することをお勧めします Amazon CloudWatch を使用して KCL をモニタリングできます詳細については Amazon CloudWatch による Kinesis クライアントライブラリのモニタリング (p. 66) を参照してください目次 Kinesis Client Library (p. 118) KCL のロール (p. 119) Java での Kinesis Client Library コンシューマーの開発 (p. 119) Node.js での Kinesis Client Library コンシューマーの開発 (p. 124).NET での Kinesis Client Library コンシューマーの開発 (p. 127) Python での Kinesis Client Library コンシューマーの開発 (p. 130) Ruby での Kinesis Client Library コンシューマーの開発 (p. 132) Kinesis Client Library Kinesis Client Library (KCL) では Kinesis data stream のデータを使用および処理できますこのタイプのアプリケーションはコンシューマーとも呼ばれます KCL は分散コンピューティングに関連する多くの複雑なタスクを処理しますたとえば複数のインスタンス間での負荷分散インスタンスの障害 118

Amazon Kinesis Data Streams 開発者ガイド Kinesis Client Library 1.x の使用に対する応答処理済みのレコードのチェックポイント作成リシャーディングへの対応が挙げられます KCL を使用すればレコード処理のロジックの記述に集中することができます KCL は AWS SDK で使用できる Kinesis Data Streams API とは異なります Kinesis Data Streams API では Kinesis Data Streams の多くの機能 ( ストリームの作成リシャーディングレコードの入力と取得など ) を管理できます KCL はコンシューマーロールでのデータ処理専用の抽象化レイヤーを提供します Kinesis Data Streams API の詳細については Amazon Kinesis API Reference を参照してください KCL は Java ライブラリです Java 以外の言語のサポートは MultiLangDaemon という多言語インターフェイスを使用して提供されますこのデーモンは Java ベースで Java 以外の KCL 言語を使用するときに実行されますたとえば KCL for Python をインストールしてコンシューマーアプリケーションをすべて Python で書く場合でも MultiLangDaemon を使用するために Java をシステムにインストールする必要がありますさらに MultiLangDaemon には接続先の AWS リージョンなどのユースケースに合わせてカスタマイズする必要のあるデフォルト設定例があります GitHub の MultiLangDaemon の詳細については KCL MultiLangDaemon project のページを参照してください KCL アプリケーションはランタイムに設定情報を使用してワーカーをインスタンス化し次にレコードプロセッサを使用して Kinesis data stream から取得したデータを処理します KCL アプリケーションは任意の数のインスタンスで実行できます同じアプリケーションの複数のインスタンスが障害発生時に連係し動的な負荷分散を行いますスループットの制限を条件として複数の KCL アプリケーションで同じストリームを処理することもできます KCL のロール KCL はレコード処理ロジックと Kinesis Data Streams の仲介として機能します KCL アプリケーションは起動時に KCL を呼び出してワーカーをインスタンス化しますこの呼び出しはアプリケーションの設定情報 ( ストリーム名や AWS の認証情報など ) を KCL に提供します KCL は次のタスクを実行しますストリームに接続するシャードを列挙するシャードと他のワーカー ( 存在する場合 ) の関連付けを調整するレコードプロセッサで管理する各シャードのレコードプロセッサをインスタンス化するストリームからデータレコードを取得する対応するレコードプロセッサにレコードを送信する処理されたレコードのチェックポイントを作成するワーカーのインスタンス数が変化したときにシャードとワーカーの関連付けを調整するシャードが分割またはマージされたときにシャードとワーカーの関連付けを調整する Java での Kinesis Client Library コンシューマーの開発 Kinesis データストリームのデータを処理するアプリケーションを構築するには Kinesis Client Library (KCL) を使用できます Kinesis Client Library は複数の言語で使用できますこのトピックでは Java について説明します Javadoc リファレンスを表示するには AWS Javadoc topic for Class AmazonKinesisClient を参照してください GitHub から Java KCL をダウンロードするには Kinesis Client Library (Java) を参照してください Apache Maven で Java KCL を検索するには KCL 検索結果のページを参照してください Java KCL コンシューマーアプリケーションのサンプルコードをダウンロードするには GitHub の KCL for Java sample project ページを参照してくださいこのサンプルアプリケーションは Apache Commons Logging を使用しますログ設定は configure ファイルで定義されている静的な AmazonKinesisApplicationSample.java メソッドを使用して変更 119

Amazon Kinesis Data Streams 開発者ガイド Kinesis Client Library 1.x の使用できます Apache Commons Logging を Log4j や AWS Java アプリケーションで使用する方法の詳細については AWS SDK for Java Developer Guide の Log4j を使用したログ記録を参照してください Java で KCL コンシューマーアプリケーションを実装する場合は次のタスクを完了する必要がありますタスク IRecordProcessor メソッドを実装する (p. 120) IRecordProcessor インターフェイスのクラスファクトリを実装する (p. 122) ワーカーの作成 (p. 123) 設定プロパティを変更する (p. 123) レコードプロセッサインターフェイスのバージョン 2 への移行 (p. 124) IRecordProcessor メソッドを実装する KCL は現在 IRecordProcessor インターフェイスの 2 つのバージョンをサポートしています元のインターフェイスは最初のバージョンの KCL で利用可能ですバージョン 2 は KCL バージョン 1.5.0 から利用可能です両方のインターフェイスが完全にサポートされています選択するインターフェイスはお使いのシナリオの要件によって異なります相違点をすべて確認するにはローカルに作成した Javadocs またはソースコードを参照してください以下のセクションでは使い始めの最小限の実装を概説します IRecordProcessor バージョンオリジナルインターフェイス ( バージョン 1) (p. 120) 更新されたインターフェイス ( バージョン 2) (p. 122) オリジナルインターフェイス ( バージョン 1) オリジナルな IRecordProcessor interface (package com.amazonaws.services.kinesis.clientlibrary.interfaces) はコンシューマーが実装しているべき次のレコードプロセッサメソッドを公開しますこのサンプルでは開始点として使用できる実装を提供しています (AmazonKinesisApplicationSampleRecordProcessor.java を参照してください ) public void initialize(string shardid) public void processrecords(list<record> records, IRecordProcessorCheckpointer checkpointer) public void shutdown(irecordprocessorcheckpointer checkpointer, ShutdownReason reason) initialize KCL はレコードプロセッサがインスタンス化されると initialize メソッドを呼び出し特定のシャード ID をパラメータとして渡しますこのレコードプロセッサはこのシャードのみを処理し通常その逆も真です ( このシャードはこのレコードプロセッサによってのみ処理されます ) ただしコンシューマーではデータレコードが複数回処理される可能性に対応する必要があります Kinesis Data Streams では少なくとも 1 回をセマンティクスとしておりシャードの各データレコードはコンシューマーのワーカーによって 1 回以上処理されるためです特定のシャードが複数のワーカーによって処理される可能性がある場合の詳細についてはリシャーディング拡張並列処理 (p. 162) を参照してください public void initialize(string shardid) processrecords 120

Amazon Kinesis Data Streams 開発者ガイド Kinesis Client Library 1.x の使用 KCL は processrecords メソッドを呼び出し initialize(shardid) メソッドで指定されたシャードのデータレコードのリストを渡しますレコードプロセッサはコンシューマーのセマンティクスに従ってこれらのレコードのデータを処理しますたとえばワーカーはデータの変換を実行しその結果を Amazon Simple Storage Service (Amazon S3) バケットに保存する場合があります public void processrecords(list<record> records, IRecordProcessorCheckpointer checkpointer) データ自体に加えてレコードにもシーケンス番号とパーティションキーが含まれますワーカーはデータを処理するときにこれらの値を使用できますたとえばワーカーはパーティションのキーの値に基づいてデータを格納する S3 バケットを選択できます Record クラスはレコードのデータシーケンス番号およびパーティションキーへのアクセスを提供する次のメソッドを公開します record.getdata() record.getsequencenumber() record.getpartitionkey() サンプルではプライベートメソッド processrecordswithretries にワーカーでレコードのデータシーケンス番号およびパーティションキーにアクセスする方法を示すコードが含まれています Kinesis Data Streams ではシャードで既に処理されたレコードを追跡するためにレコードプロセッサが必要です KCL はチェックポインタ (IRecordProcessorCheckpointer) を processrecords に渡すことでこの追跡をユーザーに代わって処理しますレコードプロセッサはこのインターフェイスで checkpoint メソッドを呼び出しシャード内のレコードの処理の進行状況を KCL に知らせますワーカーでエラーが発生すると KCL はこの情報を使用して処理されたことが分かっている最後のレコードからシャードの処理を再開します分割または結合オペレーションの場合 KCL は元のシャードのプロセッサが checkpoint を呼び出して元のシャードの処理がすべて完了したことを通知するまで新しいシャードの処理を開始しませんパラメータを渡さないと checkpoint への呼び出しはレコードプロセッサに最後のレコードを渡した時点までのすべてのレコードが処理済みであることを意味すると KCL で見なされますしたがってレコードプロセッサは渡されたリストにあるすべてのレコードの処理が完了した場合にのみ checkpoint を呼び出す必要がありますレコードプロセッサは checkpoint の各呼び出しで processrecords を呼び出す必要はありませんたとえばプロセッサは checkpoint を 3 回呼び出すたびに processrecords を呼び出すことができますオプションでレコードの正確なシーケンス番号をパラメータとして checkpoint に指定できますこの場合 KCL はすべてのレコードがそのレコードまで処理されたと見なしますこのサンプルではプライベートメソッド checkpoint で適切な例外処理と再試行のロジックを使用する IRecordProcessorCheckpointer.checkpoint を呼び出す方法を示しています KCL は processrecords を使用してデータレコードの処理から発生するすべての例外を処理します例外が processrecords からスローされた場合 KCL は例外発生前に渡されたデータレコードをスキップしますつまりこれらのレコードは例外をスローしたレコードプロセッサまたはコンシューマーの他のレコードプロセッサに再送信されません shutdown KCL は処理が終了した場合 ( シャットダウンの理由は TERMINATE) またはワーカーが応答していない場合 ( シャットダウンの理由は ZOMBIE) shutdown メソッドを呼び出します public void shutdown(irecordprocessorcheckpointer checkpointer, ShutdownReason reason) シャードが分割または結合されたかストリームが削除されたためレコードプロセッサがシャードからこれ以上レコードを受信しない場合は処理が終了します 121

Amazon Kinesis Data Streams 開発者ガイド Kinesis Client Library 1.x の使用 KCL はまた IRecordProcessorCheckpointer インターフェイスを shutdown に渡しますシャットダウンの理由が TERMINATE である場合レコードプロセッサはすべてのデータレコードの処理を終了しこのインターフェイスの checkpoint メソッドを呼び出します更新されたインターフェイス ( バージョン 2) 更新された IRecordProcessor interface (package com.amazonaws.services.kinesis.clientlibrary.interfaces.v2) はコンシューマーが実装しているべき次のレコードプロセッサメソッドを公開します void initialize(initializationinput initializationinput) void processrecords(processrecordsinput processrecordsinput) void shutdown(shutdowninput shutdowninput) コンテナオブジェクトのメソッドの呼び出しでインターフェイスのオリジナルバージョンのすべての引数にアクセスできますたとえば processrecords() でレコードのリストを取得には processrecordsinput.getrecords() が使用できますこのインターフェイスのバージョン 2 (KCL 1.5.0 以降 ) 0 ではオリジナルインターフェースで提供される入力に加えて次の新しい入力が使用できますシーケンス番号の開始 InitializationInput オペレーションへ渡される initialize() オブジェクトでは開始シーケンス番号はレコードプロセッサのインスタンスに配信されるレコードですこのシーケンス番号は同じシャードで処理されたレコードプロセッサインスタンスの最後のチェックポイントですこれはアプリケーションでこの情報が必要になる場合のために提供されます保留チェックポイントシーケンス番号 initialize() オペレーションへ渡される InitializationInput オブジェクトの保留チェックポイントシーケンス番号 ( ある場合 ) とは前のレコードプロセッサインスタンスが停止する前にコミットできなかったものを示します IRecordProcessor インターフェイスのクラスファクトリを実装するレコードプロセッサのメソッドを実装するクラスのファクトリも実装する必要がありますコンシューマーはワーカーをインスタンス化するときにこのファクトリへの参照を渡しますサンプルではオリジナルのレコードプロセッサインターフェースを使用した AmazonKinesisApplicationSampleRecordProcessorFactory.java ファイルのファクトリクラスを実装しますクラスファクトリでバージョン 2 レコードプロセッサを作成する場合には com.amazonaws.services.kinesis.clientlibrary.interfaces.v2 とい名のパッケージを使用してください public class SampleRecordProcessorFactory implements IRecordProcessorFactory { /** * Constructor. */ public SampleRecordProcessorFactory() { super(); /** * {@inheritdoc */ @Override public IRecordProcessor createprocessor() { return new SampleRecordProcessor(); 122

Amazon Kinesis Data Streams 開発者ガイド Kinesis Client Library 1.x の使用ワーカーの作成 IRecordProcessor メソッドを実装する (p. 120) で説明しているように KCL レコードプロセッサには選択できる 2 バージョンがありどちらを選ぶかでワーカーの作成方法に影響しますオリジナルレコードプロセッサインターフェイスは次のコードストラクチャを使用してワーカーを作成します final KinesisClientLibConfiguration config = new KinesisClientLibConfiguration(...) final IRecordProcessorFactory recordprocessorfactory = new RecordProcessorFactory(); final Worker worker = new Worker(recordProcessorFactory, config); レコードプロセッサインターフェイスのバージョン 2 では Worker.Builder を使用してワーカを作成できどのコンストラクタを使うかや引数の順序を考慮する必要はありません更新されたレコードプロセッサインターフェイスは次のコードストラクチャを使用してワーカーを作成します final KinesisClientLibConfiguration config = new KinesisClientLibConfiguration(...) final IRecordProcessorFactory recordprocessorfactory = new RecordProcessorFactory(); final Worker worker = new Worker.Builder().recordProcessorFactory(recordProcessorFactory).config(config).build(); 設定プロパティを変更するこのサンプルでは設定プロパティのデフォルト値を提供しますワーカーのこの設定データは KinesisClientLibConfiguration オブジェクトにまとめられていますワーカーをインスタンス化する呼び出しでこのオブジェクトと IRecordProcessor のクラスファクトリへの参照が渡されます Java の properties ファイルを使用してこれらのプロパティを独自の値にオーバーライドできます (AmazonKinesisApplicationSample.java を参照してください ) アプリケーション名 KCL には複数のアプリケーション間および同じリージョン内の Amazon DynamoDB テーブル間で一意のアプリケーション名が必要です次のようにアプリケーション名の設定値を使用しますこのアプリケーション名と関連付けられたすべてのワーカーは連係して同じストリームを処理していると見なされますこれらのワーカーは複数のインスタンスに分散している場合もあります同じアプリケーションコードの追加のインスタンスを実行するときにアプリケーション名が異なる場合 KCL は 2 番目のインスタンスを同じストリームで動作するまったく別のアプリケーションと見なします KCL はアプリケーション名を使用して DynamoDB テーブルを作成しこのテーブルを使用してアプリケーションの状態情報 ( チェックポイントやワーカーとシャードのマッピングなど ) を保存します各アプリケーションにはそれぞれ DynamoDB テーブルがあります詳細については Amazon Kinesis Data Streams Application の状態の追跡 (p. 160) を参照してください認証情報の設定デフォルトの認証情報プロバイダチェーンのいずれかの認証情報プロバイダで AWS の認証情報を使用できるようにする必要がありますたとえば EC2 インスタンスでコンシューマーを実行している場合は IAM ロールでインスタンスを起動することをお勧めしますこの IAM ロールに関連付けられたアクセス許可を反映する AWS の認証情報はインスタンスメタデータを通じてインスタンス上のアプリケーションで使用できるようになりますこれは EC2 インスタンスで実行されるコンシューマーの認証情報を管理するための最も安全な方法ですサンプルアプリケーションは最初にインスタンスメタデータから IAM の認証情報を取得しようとします 123

Amazon Kinesis Data Streams 開発者ガイド Kinesis Client Library 1.x の使用 credentialsprovider = new InstanceProfileCredentialsProvider(); サンプルアプリケーションはインスタンスメタデータから認証情報を取得できない場合 properties ファイルから認証情報を取得しようとします credentialsprovider = new ClasspathPropertiesFileCredentialsProvider(); インスタンスメタデータの詳細については Linux インスタンス用 Amazon EC2 ユーザーガイドのインスタンスメタデータを参照してください複数のインスタンスへのワーカー ID の使用サンプルの初期化コードは次のコードスニペットに示すようにローカルコンピュータ名にグローバル一意識別子を追加してワーカーの ID (workerid) を作成しますこのアプローチによって 1 台のコンピュータでコンシューマーアプリケーションの複数のインスタンスを実行するシナリオに対応できます String workerid = InetAddress.getLocalHost().getCanonicalHostName() + ":" + UUID.randomUUID(); レコードプロセッサインターフェイスのバージョン 2 への移行オリジナルインターフェースで使われるコードを移行するためには上記のステップに加えて次の手順が必要となります 1. レコードプロセッサのクラスを変更してバージョン 2 レコードプロセッサインターフェイスにインポートします import com.amazonaws.services.kinesis.clientlibrary.interfaces.v2.irecordprocessor; 2. コンテナオブジェクトで get メソッドを使用するには入力するリファレンスを変更しますたとえば shutdown() オペレーションで checkpointer を shutdowninput.getcheckpointer() に変更します 3. レコードプロセッサのファクトリークラスを変更してバージョン 2 レコードプロセッサファクトリーインターフェイスにインポートします import com.amazonaws.services.kinesis.clientlibrary.interfaces.v2.irecordprocessorfactory; 4. ワーカーのコンストラクチャを変更して Worker.Builder を使います例 : final Worker worker = new Worker.Builder().recordProcessorFactory(recordProcessorFactory).config(config).build(); Node.js での Kinesis Client Library コンシューマーの開発 Kinesis データストリームのデータを処理するアプリケーションを構築するには Kinesis Client Library (KCL) を使用できます Kinesis Client Library は複数の言語で使用できますこのトピックでは Node.js について説明します KCL は Java ライブラリです Java 以外の言語のサポートは MultiLangDaemon という多言語インターフェイスを使用して提供されますこのデーモンは Java ベースで Java 以外の KCL 言語を使用するときに実行されますそのため KCL for Node.js をインストールしてコンシューマーアプリケーションをす 124

Amazon Kinesis Data Streams 開発者ガイド Kinesis Client Library 1.x の使用べて Node.js で書く場合でも MultiLangDaemon を使用するために Java をシステムにインストールする必要がありますさらに MultiLangDaemon には接続先の AWS リージョンなどユースケースに合わせてカスタマイズする必要のあるデフォルト設定例があります GitHub の MultiLangDaemon の詳細については KCL MultiLangDaemon project のページを参照してください GitHub から Node.js KCL をダウンロードするには Kinesis Client Library (Node.js) を参照してくださいサンプルコードのダウンロード Node.js の KCL で使用可能な 2 つのサンプルコードがあります基本サンプル Node.js で KCL コンシューマーアプリケーションを構築する方法の基本を説明する次のセクションで使用されます click-stream-sample 基本サンプルコードを理解したあとのやや上級で実際のシナリオを使用したサンプルこのサンプルはここでは説明しませんが詳細を説明した README ファイルがあります Node.js で KCL コンシューマーアプリケーションを実装する場合は次のタスクを完了する必要がありますタスクレコードプロセッサを実装する (p. 125) 設定プロパティを変更する (p. 126) レコードプロセッサを実装する KCL for Node.js を使用した最もシンプルなコンシューマーは recordprocessor 関数を実装する必要がありますこの関数には initialize processrecords および shutdown の各関数が含まれますこのサンプルでは開始点として使用できる実装を提供しています (sample_kcl_app.js を参照してください ) function recordprocessor() { // return an object that implements initialize, processrecords and shutdown functions. initialize レコードプロセッサが起動すると KCL は initialize 関数を呼び出しますこのレコードプロセッサは initializeinput.shardid として渡されるシャード ID のみを処理し通常その逆も真です ( このシャードはこのレコードプロセッサによってのみ処理されます ) ただしコンシューマーではデータレコードが複数回処理される可能性に対応する必要がありますこれは Kinesis Data Streams では少なくとも 1 回をセマンティクスとしておりシャードの各データレコードがコンシューマーのワーカーによって 1 回以上処理されるためです特定のシャードが複数のワーカーによって処理される可能性がある場合の詳細についてはリシャーディング拡張並列処理 (p. 162) を参照してください initialize: function(initializeinput, completecallback) processrecords KCL はこの関数を呼び出すために initialize 関数に指定したシャードのデータレコードのリストが含まれている入力を使用します実装するレコードプロセッサはコンシューマーのセマンティクスに従ってこれらのレコードのデータを処理しますたとえばワーカーはデータの変換を実行しその結果を Amazon Simple Storage Service (Amazon S3) バケットに保存する場合があります 125

Amazon Kinesis Data Streams 開発者ガイド Kinesis Client Library 1.x の使用 processrecords : function (processrecordsinput, completecallback) データ自体に加えてレコードにもシーケンス番号とパーティションキーが含まれワーカーはデータを処理するときにこれらを使用できますたとえばワーカーはパーティションのキーの値に基づいてデータを格納する S3 バケットを選択できます record ディクショナリはレコードのデータシーケンス番号およびパーティションキーにアクセスする次のキーと値のペアを公開します record.data record.sequencenumber record.partitionkey データは Base64 でエンコードされていることに注意してください基本サンプルでは関数 processrecords にワーカーでレコードのデータシーケンス番号およびパーティションキーにアクセスする方法を示すコードが含まれています Kinesis Data Streams ではシャードで既に処理されたレコードを追跡するためにレコードプロセッサが必要です KCL は processrecordsinput.checkpointer として渡した checkpointer オブジェクトを使用してこの追跡を処理しますレコードプロセッサは checkpointer.checkpoint 関数を呼び出してシャード内のレコードの処理の進行状況を KCL に知らせますワーカーでエラーが発生した場合シャードの処理を再開するときに処理されたことが分かっている最後のレコードから再開するように KCL はこの情報を使用します分割または結合オペレーションの場合 KCL は元のシャードのプロセッサが checkpoint を呼び出して元のシャードの処理がすべて完了したことを通知するまで新しいシャードの処理を開始しません checkpoint 関数にシーケンス番号を渡さないと checkpoint への呼び出しはレコードプロセッサに最後のレコードを渡した時点までのすべてのレコードが処理済みであることを意味すると KCL で見なされますしたがってレコードプロセッサは渡されたリストにあるすべてのレコードの処理が完了した場合に限り checkpoint を呼び出す必要がありますレコードプロセッサは checkpoint の各呼び出しで processrecords を呼び出す必要はありませんたとえばプロセッサは checkpoint を 3 回の呼び出しごとに呼び出したりレコードプロセッサの外部イベント ( 実装したカスタムの認証または検証サービスなど ) で呼び出したりできますオプションでレコードの正確なシーケンス番号をパラメータとして checkpoint に指定できますこの場合 KCL はすべてのレコードがそのレコードまで処理されたと見なします基本サンプルアプリケーションでは checkpointer.checkpoint 関数の最もシンプルな呼び出しを示します関数のこの時点でコンシューマーに必要な他のチェックポイントロジックを追加できます shutdown KCL は処理が終了した場合 (shutdowninput.reason は TERMINATE) またはワーカーが応答していない場合 (shutdowninput.reason は ZOMBIE) shutdown 関数を呼び出します shutdown: function(shutdowninput, completecallback) シャードが分割または結合されたかストリームが削除されたためレコードプロセッサがシャードからこれ以上レコードを受信しない場合は処理が終了しますまた KCL は shutdowninput.checkpointer オブジェクトを shutdown に渡しますシャットダウンの理由が TERMINATE である場合レコードプロセッサがすべてのデータレコードの処理を終了したことを確認しこのインターフェイスの checkpoint 関数を呼び出します設定プロパティを変更するこのサンプルでは設定プロパティのデフォルト値を提供しますこれらのプロパティを独自の値にオーバーライドできます ( 基本サンプルの sample.properties を参照してください ) 126

Amazon Kinesis Data Streams 開発者ガイド Kinesis Client Library 1.x の使用アプリケーション名 KCL には複数のアプリケーション間および同じリージョン内の Amazon DynamoDB テーブル間で一意のアプリケーションが必要です次のようにアプリケーション名の設定値を使用しますこのアプリケーション名と関連付けられたすべてのワーカーは連係して同じストリームを処理していると見なされますこれらのワーカーは複数のインスタンスに分散している場合もあります同じアプリケーションコードの追加のインスタンスを実行するときにアプリケーション名が異なる場合 KCL は 2 番目のインスタンスを同じストリームで動作するまったく別のアプリケーションと見なします KCL はアプリケーション名を使用して DynamoDB テーブルを作成しこのテーブルを使用してアプリケーションの状態情報 ( チェックポイントやワーカーとシャードのマッピングなど ) を保存します各アプリケーションにはそれぞれ DynamoDB テーブルがあります詳細については Amazon Kinesis Data Streams Application の状態の追跡 (p. 160) を参照してください認証情報の設定デフォルトの認証情報プロバイダチェーンのいずれかの認証情報プロバイダで AWS の認証情報を使用できるようにする必要があります AWSCredentialsProvider プロパティを使用して認証情報プロバイダーを設定できます sample.properties ファイルではデフォルトの認証情報プロバイダーチェーンのいずれかの認証情報プロバイダーに対してユーザーの認証情報を使用可能にする必要があります Amazon EC2 インスタンスでコンシューマーを実行している場合はインスタンスに IAM ロールを設定することをお勧めしますこの IAM ロールに関連付けられたアクセス許可を反映する AWS の認証情報はインスタンスメタデータを通じてインスタンス上のアプリケーションで使用できるようになりますこれは EC2 インスタンスで実行されるコンシューマーアプリケーションの認証情報を管理するための最も安全な方法です次の例では KCL を設定し sample_kcl_app.js で指定されているレコードプロセッサを使用して kclnodejssample という Kinesis data stream を処理します # The Node.js executable script executablename = node sample_kcl_app.js # The name of an Amazon Kinesis stream to process streamname = kclnodejssample # Unique KCL application name applicationname = kclnodejssample # Use default AWS credentials provider chain AWSCredentialsProvider = DefaultAWSCredentialsProviderChain # Read from the beginning of the stream initialpositioninstream = TRIM_HORIZON.NET での Kinesis Client Library コンシューマーの開発 Kinesis データストリームのデータを処理するアプリケーションを構築するには Kinesis Client Library (KCL) を使用できます Kinesis Client Library は複数の言語で使用できますこのトピックでは.NET について説明します KCL は Java ライブラリです Java 以外の言語のサポートは MultiLangDaemon という多言語インターフェイスを使用して提供されますこのデーモンは Java ベースで Java 以外の KCL 言語を使用するときに実行されますそのため KCL for.net をインストールしてコンシューマーアプリケーションをすべて.NET で書く場合でも MultiLangDaemon を使用するために Java をシステムにインストールする必要がありますさらに MultiLangDaemon には接続先の AWS リージョンなどユースケースに合わせてカスタマイズする必要のあるデフォルト設定例があります GitHub の MultiLangDaemon の詳細については KCL MultiLangDaemon project のページを参照してください GitHub から.NET KCL をダウンロードするには Kinesis Client Library (.NET) にアクセスしてください.NET KCL コンシューマーアプリケーションのサンプルコードをダウンロードするには GitHub で KCL for.net sample consumer project のページにアクセスしてください 127

Amazon Kinesis Data Streams 開発者ガイド Kinesis Client Library 1.x の使用.NET で KCL コンシューマーアプリケーションを実装する場合は次のタスクを完了する必要がありますタスク IRecordProcessor クラスのメソッドを実装する (p. 128) 設定プロパティを変更する (p. 129) IRecordProcessor クラスのメソッドを実装するコンシューマーでは IRecordProcessor の次のメソッドを実装する必要があります出発点として使用できる実装がサンプルコンシューマーに提供されています (SampleRecordProcessor の SampleConsumer/AmazonKinesisSampleConsumer.cs クラスを参照してください ) public void Initialize(InitializationInput input) public void ProcessRecords(ProcessRecordsInput input) public void Shutdown(ShutdownInput input) Initialize KCL はレコードプロセッサがインスタンス化されるとこの関数を呼び出して input パラメータの特定のシャード ID (input.shardid) を渡しますこのレコードプロセッサはこのシャードのみを処理し通常その逆も真です ( このシャードはこのレコードプロセッサによってのみ処理されます ) ただしコンシューマーではデータレコードが複数回処理される可能性に対応する必要がありますこれは Kinesis Data Streams では少なくとも 1 回をセマンティクスとしておりシャードの各データレコードがコンシューマーのワーカーによって 1 回以上処理されるためです特定のシャードが複数のワーカーによって処理される可能性がある場合の詳細についてはリシャーディング拡張並列処理 (p. 162) を参照してください public void Initialize(InitializationInput input) ProcessRecords KCL はこの関数を呼び出し Initialize メソッドで指定されたシャードの input パラメータにあるデータレコードのリスト (input.records) を渡します実装するレコードプロセッサはコンシューマーのセマンティクスに従ってこれらのレコードのデータを処理しますたとえばワーカーはデータの変換を実行しその結果を Amazon Simple Storage Service (Amazon S3) バケットに保存する場合があります public void ProcessRecords(ProcessRecordsInput input) データ自体に加えてレコードにもシーケンス番号とパーティションキーが含まれますワーカーはデータを処理するときにこれらの値を使用できますたとえばワーカーはパーティションのキーの値に基づいてデータを格納する S3 バケットを選択できます Record クラスは以下を公開しレコードのデータシーケンス番号およびパーティションキーのアクセスを可能にします byte[] Record.Data string Record.SequenceNumber string Record.PartitionKey サンプルではメソッド ProcessRecordsWithRetries にワーカーでレコードのデータシーケンス番号およびパーティションキーにアクセスする方法を示すコードが含まれています Kinesis Data Streams ではシャードで既に処理されたレコードを追跡するためにレコードプロセッサが必要です KCL は Checkpointer オブジェクトを ProcessRecords に渡すことでこの追跡をユーザーに代わって処理します (input.checkpointer) レコードプロセッサ 128

Amazon Kinesis Data Streams 開発者ガイド Kinesis Client Library 1.x の使用は Checkpointer.Checkpoint メソッドを呼び出してシャード内のレコード処理の進行状況を KCL に知らせますワーカーでエラーが発生すると KCL はこの情報を使用して処理されたことが分かっている最後のレコードからシャードの処理を再開します分割または結合オペレーションの場合 KCL は元のシャードのプロセッサが Checkpointer.Checkpoint を呼び出して元のシャードの処理がすべて完了したことを通知するまで新しいシャードの処理を開始しませんパラメータを渡さないと Checkpointer.Checkpoint への呼び出しはレコードプロセッサに最後のレコードを渡した時点までのすべてのレコードが処理済みであることを意味すると KCL で見なされますしたがってレコードプロセッサは渡されたリストにあるすべてのレコードの処理が完了した場合にのみ Checkpointer.Checkpoint を呼び出す必要がありますレコードプロセッサは Checkpointer.Checkpoint の各呼び出しで ProcessRecords を呼び出す必要はありませんたとえばプロセッサは 3 回または 4 回呼び出すたびに Checkpointer.Checkpoint を呼び出すことができますオプションでレコードの正確なシーケンス番号をパラメータとして Checkpointer.Checkpoint に指定できますこの場合 KCL はレコード処理がそのレコードまで完了したと見なしますサンプルではプライベートメソッド Checkpoint(Checkpointer checkpointer) で適切な例外処理と再試行のロジックを使用する Checkpointer.Checkpoint メソッドを呼び出す方法を示しています KCL for.net では例外を処理する方法が他の KCL 言語ライブラリとは異なりデータレコードの処理から発生した例外を扱いませんユーザーコードからの例外がキャッチされないとプログラムがクラッシュしますシャットダウン KCL は処理が終了した場合 ( シャットダウンの理由は TERMINATE) またはワーカーが応答していない場合 ( シャットダウンの input.reason の値は ZOMBIE) Shutdown メソッドを呼び出します public void Shutdown(ShutdownInput input) シャードが分割または結合されたかストリームが削除されたためレコードプロセッサがシャードからこれ以上レコードを受信しない場合は処理が終了しますまた KCL は Checkpointer オブジェクトを shutdown に渡しますシャットダウンの理由が TERMINATE である場合レコードプロセッサはすべてのデータレコードの処理を終了しこのインターフェイスの checkpoint メソッドを呼び出します設定プロパティを変更するこのサンプルコンシューマーでは設定プロパティのデフォルト値を提供しますこれらのプロパティを独自の値にオーバーライドできます (SampleConsumer/kcl.properties を参照してください ) アプリケーション名 KCL には複数のアプリケーション間および同じリージョン内の Amazon DynamoDB テーブル間で一意のアプリケーションが必要です次のようにアプリケーション名の設定値を使用しますこのアプリケーション名と関連付けられたすべてのワーカーは連係して同じストリームを処理していると見なされますこれらのワーカーは複数のインスタンスに分散している場合もあります同じアプリケーションコードの追加のインスタンスを実行するときにアプリケーション名が異なる場合 KCL は 2 番目のインスタンスを同じストリームで動作するまったく別のアプリケーションと見なします KCL はアプリケーション名を使用して DynamoDB テーブルを作成しこのテーブルを使用してアプリケーションの状態情報 ( チェックポイントやワーカーとシャードのマッピングなど ) を保存します各アプリケーションにはそれぞれ DynamoDB テーブルがあります詳細については Amazon Kinesis Data Streams Application の状態の追跡 (p. 160) を参照してください 129

Amazon Kinesis Data Streams 開発者ガイド Kinesis Client Library 1.x の使用認証情報の設定デフォルトの認証情報プロバイダチェーンのいずれかの認証情報プロバイダで AWS の認証情報を使用できるようにする必要があります AWSCredentialsProvider プロパティを使用して認証情報プロバイダーを設定できます sample.properties ではデフォルトの認証情報プロバイダーチェーンのいずれかの認証情報プロバイダーに対してユーザーの認証情報を使用可能にする必要があります EC2 インスタンスでコンシューマーアプリケーションを実行している場合はインスタンスに IAM ロールを設定することをお勧めしますこの IAM ロールに関連付けられたアクセス許可を反映する AWS の認証情報はインスタンスメタデータを通じてインスタンス上のアプリケーションで使用できるようになりますこれは EC2 インスタンスで実行されるコンシューマーの認証情報を管理するための最も安全な方法ですサンプルのプロパティファイルでは AmazonKinesisSampleConsumer.cs で指定されているレコードプロセッサを使用して words という Kinesis data stream を処理するように KCL を設定します Python での Kinesis Client Library コンシューマーの開発 Kinesis データストリームのデータを処理するアプリケーションを構築するには Kinesis Client Library (KCL) を使用できます Kinesis Client Library は複数の言語で使用できますこのトピックでは Python について説明します KCL は Java ライブラリです Java 以外の言語のサポートは MultiLangDaemon という多言語インターフェイスを使用して提供されますこのデーモンは Java ベースで Java 以外の KCL 言語を使用するときに実行されますそのため KCL for Python をインストールしてコンシューマーアプリケーションをすべて Python で書く場合でも MultiLangDaemon を使用するために Java をシステムにインストールする必要がありますさらに MultiLangDaemon には接続先の AWS リージョンなどユースケースに合わせてカスタマイズする必要のあるデフォルト設定例があります GitHub の MultiLangDaemon の詳細については KCL MultiLangDaemon project のページを参照してください GitHub から Python KCL をダウンロードするには Kinesis Client Library (Python) にアクセスしてください Python KCL コンシューマーアプリケーションのサンプルコードをダウンロードするには GitHub で KCL for Python sample project ページにアクセスしてください Python で KCL コンシューマーアプリケーションを実装する場合は次のタスクを完了する必要がありますタスク RecordProcessor クラスのメソッドを実装する (p. 130) 設定プロパティを変更する (p. 132) RecordProcessor クラスのメソッドを実装する RecordProcess クラスでは RecordProcessorBase を拡張して次のメソッドを実装する必要がありますこのサンプルでは開始点として使用できる実装を提供しています (sample_kclpy_app.py を参照してください ) def initialize(self, shard_id) def process_records(self, records, checkpointer) def shutdown(self, checkpointer, reason) initialize KCL はレコードプロセッサがインスタンス化されると initialize メソッドを呼び出し特定のシャード ID をパラメータとして渡しますこのレコードプロセッサはこのシャードのみを処理し通常その逆も真です ( このシャードはこのレコードプロセッサによってのみ処理されます ) ただしコンシューマーではデータレコードが複数回処理される可能性に対応する必要がありますこれは Kinesis Data Streams では少なくとも 1 回をセマンティクスとしておりシャードの各データレコードがコン 130

Amazon Kinesis Data Streams 開発者ガイド Kinesis Client Library 1.x の使用シューマーのワーカーによって 1 回以上処理されるためです特定のシャードが複数のワーカーによって処理される可能性がある場合の詳細についてはリシャーディング拡張並列処理 (p. 162) を参照してください def initialize(self, shard_id) process_records KCL はこのメソッドを呼び出し initialize メソッドで指定されたシャードのデータレコードのリストを渡します実装するレコードプロセッサはコンシューマーのセマンティクスに従ってこれらのレコードのデータを処理しますたとえばワーカーはデータの変換を実行しその結果を Amazon Simple Storage Service (Amazon S3) バケットに保存する場合があります def process_records(self, records, checkpointer) データ自体に加えてレコードにもシーケンス番号とパーティションキーが含まれますワーカーはデータを処理するときにこれらの値を使用できますたとえばワーカーはパーティションのキーの値に基づいてデータを格納する S3 バケットを選択できます record ディクショナリはレコードのデータシーケンス番号およびパーティションキーにアクセスする次のキーと値のペアを公開します record.get('data') record.get('sequencenumber') record.get('partitionkey') データは Base64 でエンコードされていることに注意してくださいサンプルではメソッド process_records にワーカーでレコードのデータシーケンス番号およびパーティションキーにアクセスする方法を示すコードが含まれています Kinesis Data Streams ではシャードで既に処理されたレコードを追跡するためにレコードプロセッサが必要です KCL は Checkpointer オブジェクトを process_records に渡すことでこの追跡をユーザーに代わって処理しますレコードプロセッサはこのオブジェクトの checkpoint メソッドを呼び出してシャード内のレコードの処理の進行状況を KCL に通知しますワーカーでエラーが発生すると KCL はこの情報を使用して処理されたことが分かっている最後のレコードからシャードの処理を再開します分割または結合オペレーションの場合 KCL は元のシャードのプロセッサが checkpoint を呼び出して元のシャードの処理がすべて完了したことを通知するまで新しいシャードの処理を開始しませんパラメータを渡さないと checkpoint への呼び出しはレコードプロセッサに最後のレコードを渡した時点までのすべてのレコードが処理済みであることを意味すると KCL で見なされますしたがってレコードプロセッサは渡されたリストにあるすべてのレコードの処理が完了した場合にのみ checkpoint を呼び出す必要がありますレコードプロセッサは checkpoint の各呼び出しで process_records を呼び出す必要はありませんたとえばプロセッサは 3 回呼び出すたびに checkpoint を呼び出すことができますオプションでレコードの正確なシーケンス番号をパラメータとして checkpoint に指定できますこの場合 KCL はすべてのレコードがそのレコードまで処理されたと見なしますサンプルではプライベートメソッド checkpoint で適切な例外処理と再試行のロジックを使用する Checkpointer.checkpoint メソッドを呼び出す方法を示しています KCL は process_records を使用してデータレコードの処理から発生するすべての例外を処理します例外が process_records からスローされた場合 KCL は例外発生前に process_records に渡されたデータレコードをスキップしますつまりこれらのレコードは例外をスローしたレコードプロセッサまたはコンシューマーの他のレコードプロセッサに再送信されません shutdown 131

Amazon Kinesis Data Streams 開発者ガイド Kinesis Client Library 1.x の使用 KCL は処理が終了した場合 ( シャットダウンの理由は TERMINATE) またはワーカーが応答していない場合 ( シャットダウンの reason は ZOMBIE) shutdown メソッドを呼び出します def shutdown(self, checkpointer, reason) シャードが分割または結合されたかストリームが削除されたためレコードプロセッサがシャードからこれ以上レコードを受信しない場合は処理が終了しますまた KCL は Checkpointer オブジェクトを shutdown に渡しますシャットダウンの reason が TERMINATE である場合レコードプロセッサはすべてのデータレコードの処理を終了しこのインターフェイスの checkpoint メソッドを呼び出します設定プロパティを変更するこのサンプルでは設定プロパティのデフォルト値を提供しますこれらのプロパティを独自の値にオーバーライドできます (sample.properties を参照してください ) アプリケーション名 KCL には複数のアプリケーション間および同じリージョン内の Amazon DynamoDB テーブル間で一意のアプリケーションが必要です次のようにアプリケーション名の設定値を使用しますこのアプリケーション名と関連付けられたワーカーはすべて同じストリーム上で連携して処理しているとみなされますこれらのワーカーは複数のインスタンスに分散している場合があります同じアプリケーションコードの追加のインスタンスを実行するときにアプリケーション名が異なる場合 KCL は 2 番目のインスタンスを同じストリームで動作するまったく別のアプリケーションと見なします KCL はアプリケーション名を使用して DynamoDB テーブルを作成しこのテーブルを使用してアプリケーションの状態情報 ( チェックポイントやワーカーとシャードのマッピングなど ) を保存します各アプリケーションにはそれぞれ DynamoDB テーブルがあります詳細については Amazon Kinesis Data Streams Application の状態の追跡 (p. 160) を参照してください認証情報の設定デフォルトの認証情報プロバイダチェーンのいずれかの認証情報プロバイダで AWS の認証情報を使用できるようにする必要があります AWSCredentialsProvider プロパティを使用して認証情報プロバイダーを設定できます sample.properties ではデフォルトの認証情報プロバイダーチェーンのいずれかの認証情報プロバイダーに対してユーザーの認証情報を使用可能にする必要があります Amazon EC2 インスタンスでコンシューマーアプリケーションを実行している場合はインスタンスに IAM を設定することをお勧めしますこの IAM ロールに関連付けられたアクセス許可を反映する AWS の認証情報はインスタンスメタデータを通じてインスタンス上のアプリケーションで使用できるようになりますこれは EC2 インスタンスで実行されるコンシューマーアプリケーションの認証情報を管理するための最も安全な方法ですサンプルのプロパティファイルでは sample_kclpy_app.py で指定されているレコードプロセッサを使用して words という Kinesis data stream を処理するように KCL を設定します Ruby での Kinesis Client Library コンシューマーの開発 Kinesis データストリームのデータを処理するアプリケーションを構築するには Kinesis Client Library (KCL) を使用できます Kinesis Client Library は複数の言語で使用できますこのトピックでは Ruby について説明します KCL は Java ライブラリです Java 以外の言語のサポートは MultiLangDaemon という多言語インターフェイスを使用して提供されますこのデーモンは Java ベースで Java 以外の KCL 言語を使用するときに実行されますそのため KCL for.ruby をインストールしてコンシューマーアプリケーションをすべて Ruby で書く場合でも MultiLangDaemon を使用するために Java をシステムにインストールする 132

Amazon Kinesis Data Streams 開発者ガイド Kinesis Client Library 2.0 の使用必要がありますさらに MultiLangDaemon には接続先の AWS リージョンなどユースケースに合わせてカスタマイズする必要のあるデフォルト設定例があります GitHub の MultiLangDaemon の詳細については KCL MultiLangDaemon project のページを参照してください GitHub から Ruby KCL をダウンロードするには Kinesis Client Library (Ruby) にアクセスしてください Ruby KCL コンシューマーアプリケーションのサンプルコードをダウンロードするには GitHub で KCL for Ruby sample project ページにアクセスしてください KCL の Ruby サポートライブラリの詳細については KCL Ruby Gems Documentation を参照してください Kinesis Client Library 2.0 を使用したコンシューマーの開発このトピックではバージョン 2.0 の Kinesis Client Library (KCL) を使用する方法について説明します KCL の詳細については Kinesis クライアントライブラリ 1.x を使用したコンシューマーの開発に示されている概要を参照してくださいコンテンツ Java での Kinesis クライアントライブラリコンシューマーの開発 (p. 133) Java での Kinesis クライアントライブラリコンシューマーの開発次のコードは ProcessorFactory および RecordProcessor の Java のサンプル実装を示しています拡張ファンアウト機能を活用する方法については拡張ファンアウトでコンシューマーを使用するを参照してください /* * Copyright 2018 Amazon.com, Inc. or its affiliates. All Rights Reserved. * * Licensed under the Apache License, Version 2.0 (the "License"). * You may not use this file except in compliance with the License. * A copy of the License is located at * * http://www.apache.org/licenses/license-2.0 * * or in the "license" file accompanying this file. This file is distributed * on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either * express or implied. See the License for the specific language governing * permissions and limitations under the License. */ import java.io.bufferedreader; import java.io.ioexception; import java.io.inputstreamreader; import java.util.uuid; import java.util.concurrent.executionexception; import java.util.concurrent.executors; import java.util.concurrent.future; import java.util.concurrent.scheduledexecutorservice; import java.util.concurrent.scheduledfuture; import java.util.concurrent.timeunit; import java.util.concurrent.timeoutexception; import org.apache.commons.lang3.objectutils; import org.apache.commons.lang3.randomstringutils; import org.apache.commons.lang3.randomutils; import org.slf4j.logger; import org.slf4j.loggerfactory; 133

Amazon Kinesis Data Streams 開発者ガイド Kinesis Client Library 2.0 の使用 import org.slf4j.mdc; import software.amazon.awssdk.core.sdkbytes; import software.amazon.awssdk.regions.region; import software.amazon.awssdk.services.cloudwatch.cloudwatchasyncclient; import software.amazon.awssdk.services.dynamodb.dynamodbasyncclient; import software.amazon.awssdk.services.kinesis.kinesisasyncclient; import software.amazon.awssdk.services.kinesis.model.putrecordrequest; import software.amazon.kinesis.common.configsbuilder; import software.amazon.kinesis.coordinator.scheduler; import software.amazon.kinesis.exceptions.invalidstateexception; import software.amazon.kinesis.exceptions.shutdownexception; import software.amazon.kinesis.lifecycle.events.initializationinput; import software.amazon.kinesis.lifecycle.events.leaselostinput; import software.amazon.kinesis.lifecycle.events.processrecordsinput; import software.amazon.kinesis.lifecycle.events.shardendedinput; import software.amazon.kinesis.lifecycle.events.shutdownrequestedinput; import software.amazon.kinesis.processor.shardrecordprocessor; import software.amazon.kinesis.processor.shardrecordprocessorfactory; public class SampleSingle { private static final Logger log = LoggerFactory.getLogger(SampleSingle.class); public static void main(string... args) { if (args.length < 1) { log.error("at a minimum stream name is required as the first argument. Region may be specified as the second argument"); System.exit(1); String streamname = args[0]; String region = null; if (args.length > 1) { region = args[1]; new SampleSingle(streamName, region).run(); private final String streamname; private final Region region; private final KinesisAsyncClient kinesisclient; private SampleSingle(String streamname, String region) { this.streamname = streamname; this.region = Region.of(ObjectUtils.firstNonNull(region, "us-east-2")); this.kinesisclient = KinesisAsyncClient.builder().region(this.region).build(); private void run() { ScheduledExecutorService producerexecutor = Executors.newSingleThreadScheduledExecutor(); ScheduledFuture<?> producerfuture = producerexecutor.scheduleatfixedrate(this::publishrecord, 10, 1, TimeUnit.SECONDS); DynamoDbAsyncClient dynamoclient = DynamoDbAsyncClient.builder().region(region).build(); CloudWatchAsyncClient cloudwatchclient = CloudWatchAsyncClient.builder().region(region).build(); ConfigsBuilder configsbuilder = new ConfigsBuilder(streamName, streamname, kinesisclient, dynamoclient, cloudwatchclient, UUID.randomUUID().toString(), new SampleRecordProcessorFactory()); Scheduler scheduler = new Scheduler( configsbuilder.checkpointconfig(), 134

Amazon Kinesis Data Streams 開発者ガイド Kinesis Client Library 2.0 の使用 configsbuilder.coordinatorconfig(), configsbuilder.leasemanagementconfig(), configsbuilder.lifecycleconfig(), configsbuilder.metricsconfig(), configsbuilder.processorconfig(), configsbuilder.retrievalconfig().retrievalspecificconfig(new PollingConfig(streamName, kinesisclient)) ); Thread schedulerthread = new Thread(scheduler); schedulerthread.setdaemon(true); schedulerthread.start(); System.out.println("Press enter to shutdown"); BufferedReader reader = new BufferedReader(new InputStreamReader(System.in)); try { reader.readline(); catch (IOException ioex) { log.error("caught exception while waiting for confirm. Shutting down", ioex); log.info("cancelling producer, and shutting down excecutor."); producerfuture.cancel(true); producerexecutor.shutdownnow(); Future<Boolean> gracefulshutdownfuture = scheduler.startgracefulshutdown(); log.info("waiting up to 20 seconds for shutdown to complete."); try { gracefulshutdownfuture.get(20, TimeUnit.SECONDS); catch (InterruptedException e) { log.info("interrupted while waiting for graceful shutdown. Continuing."); catch (ExecutionException e) { log.error("exception while executing graceful shutdown.", e); catch (TimeoutException e) { log.error("timeout while waiting for shutdown. Scheduler may not have exited."); log.info("completed, shutting down now."); private void publishrecord() { PutRecordRequest request = PutRecordRequest.builder().partitionKey(RandomStringUtils.randomAlphabetic(5, 20)).streamName(streamName).data(SdkBytes.fromByteArray(RandomUtils.nextBytes(10))).build(); try { kinesisclient.putrecord(request).get(); catch (InterruptedException e) { log.info("interrupted, assuming shutdown."); catch (ExecutionException e) { log.error("exception while sending data to Kinesis will try again next cycle", e); private static class SampleRecordProcessorFactory implements ShardRecordProcessorFactory { public ShardRecordProcessor shardrecordprocessor() { return new SampleRecordProcessor(); private static class SampleRecordProcessor implements ShardRecordProcessor { 135

Amazon Kinesis Data Streams 開発者ガイド Kinesis Client Library 2.0 の使用 private static final String SHARD_ID_MDC_KEY = "ShardId"; private static final Logger log = LoggerFactory.getLogger(software.amazon.kinesis.sample.SampleRecordProcessor.class); private String shardid; public void initialize(initializationinput initializationinput) { shardid = initializationinput.shardid(); MDC.put(SHARD_ID_MDC_KEY, shardid); try { log.info("initializing @ Sequence: {", initializationinput.extendedsequencenumber()); finally { MDC.remove(SHARD_ID_MDC_KEY); public void processrecords(processrecordsinput processrecordsinput) { MDC.put(SHARD_ID_MDC_KEY, shardid); try { log.info("processing { record(s)", processrecordsinput.records().size()); processrecordsinput.records().foreach(r -> log.info("processing record pk: { -- Seq: {", r.partitionkey(), r.sequencenumber())); catch (Throwable t) { log.error("caught throwable while processing records. Aborting"); Runtime.getRuntime().halt(1); finally { MDC.remove(SHARD_ID_MDC_KEY); public void leaselost(leaselostinput leaselostinput) { MDC.put(SHARD_ID_MDC_KEY, shardid); try { log.info("lost lease, so terminating."); finally { MDC.remove(SHARD_ID_MDC_KEY); public void shardended(shardendedinput shardendedinput) { MDC.put(SHARD_ID_MDC_KEY, shardid); try { log.info("reached shard end checkpointing."); shardendedinput.checkpointer().checkpoint(); catch (ShutdownException InvalidStateException e) { log.error("exception while checkpointing at shard end. Giving up", e); finally { MDC.remove(SHARD_ID_MDC_KEY); public void shutdownrequested(shutdownrequestedinput shutdownrequestedinput) { MDC.put(SHARD_ID_MDC_KEY, shardid); try { log.info("scheduler is shutting down, checkpointing."); shutdownrequestedinput.checkpointer().checkpoint(); catch (ShutdownException InvalidStateException e) { log.error("exception while checkpointing at requested shutdown. Giving up", e); finally { MDC.remove(SHARD_ID_MDC_KEY); 136

Amazon Kinesis Data Streams 開発者ガイド API の使用 AWS SDK for Java での Kinesis Data Streams API を使用したコンシューマーの開発 Amazon Kinesis Data Streams API と AWS SDK for Java を使用してコンシューマーを開発できます Kinesis Data Streams を初めて利用する場合は Amazon Kinesis Data Streams とは (p. 1) と Amazon Kinesis Data Streams の使用開始 (p. 10) に説明されている概念と用語について理解することから始めてください以下の例では Kinesis Data Streams API について説明し AWS SDK for Java を使用してストリームからデータを取得しますただしほとんどのユースケースでは Kinesis Client Library (KCL) ライブラリを使用します詳細については Kinesis Client Library 1.x を使用したコンシューマーの開発 (p. 118) を参照してくださいこのセクションで紹介する Java サンプルコードは基本的な Kinesis Data Streams API オペレーションを実行する方法を示しておりオペレーションタイプ別に論理的に分割されていますこの例に示すコードは本稼働環境に使用できるコードではありません考えられる例外は確認されておらず想定されるセキュリティやパフォーマンスも考慮されていませんまた他のプログラミング言語を使用して Kinesis Data Streams API を呼び出すこともできますすべての利用可能な AWS SDK の詳細についてはアマゾンウェブサービスを使用した開発の開始を参照してください各タスクには前提条件がありますたとえばストリームを作成するまではストリームにデータを追加できずストリームを作成するにはクライアントを作成する必要があります詳細についてはストリームの作成と管理 (p. 39) を参照してくださいトピックストリームからのデータの取得 (p. 137) シャードイテレーターを使用する (p. 138) GetRecords を使用する (p. 139) リシャーディングに適応する (p. 140) ストリームからのデータの取得 Kinesis Data Streams API にはストリームからデータを取得するための getsharditerator メソッドと getrecords メソッドが用意されていますこれはプルモデルでコードはストリームのシャードからデータを直接取得します Kinesis Client Library (KCL) で提供されているレコードプロセッサのサポートを使用してコンシューマーアプリケーションのストリームデータを取得することをお勧めしますこれはデータを処理するコードを組み込むプッシュモデルです KCL はストリームからデータレコードを取り出しアプリケーションコードに配信しますさらに KCL にはフェイルオーバーリカバリ負荷分散の機能が用意されています詳細については Kinesis Client Library 1.x を使用したコンシューマーの開発 (p. 118) を参照してくださいただし状況によっては AWS SDK for Java とともに Kinesis Data Streams API を使用した方がよい場合がありますたとえばストリームのモニタリングやデバッグのためのカスタムツールを実装する場合です Important Kinesis Data Streams はデータストリームのデータレコードの保持期間の変更をサポートしています詳細についてはデータ保持期間の変更 (p. 49) を参照してください 137

Amazon Kinesis Data Streams 開発者ガイド API の使用シャードイテレーターを使用するストリームからシャード単位でレコードを取得しますシャードごとにそのシャードから取得するレコードのバッチごとにシャードイテレーターを取得する必要がありますシャードイテレーターを getrecordsrequest オブジェクトで使用してレコードの取得元になるシャードを指定しますシャードイテレーターに関連付ける型によりシャード内でレコードの取得元になる位置が決まります ( 詳細についてはこのセクションの後半を参照 ) ストリームからシャードを取得する (p. 43) で説明したようにシャードイテレーターを使用する前にシャードを取得する必要があります最初のシャードイテレーターは getsharditerator メソッドを使用して取得しますレコードのその他のバッチのシャードイテレーターは getnextsharditerator メソッドによって返された getrecordsresult オブジェクトの getrecords メソッドを使用して取得しますシャードイテレーターは 5 分間有効です有効な間にシャードイテレーターを使用すると新しいシャードイテレーターを取得します使用された後でも各シャードイテレーターは 5 分間有効です最初のシャードイテレーターを取得するには GetShardIteratorRequest をインスタンス化し getsharditerator メソッドに渡しますリクエストを設定するにはストリームとシャード ID を指定する必要があります AWS アカウントのストリームを取得する方法についてはストリームのリスト (p. 41) を参照してくださいストリーム内のシャードを取得する方法についてはストリームからシャードを取得する (p. 43) を参照してください String sharditerator; GetShardIteratorRequest getsharditeratorrequest = new GetShardIteratorRequest(); getsharditeratorrequest.setstreamname(mystreamname); getsharditeratorrequest.setshardid(shard.getshardid()); getsharditeratorrequest.setsharditeratortype("trim_horizon"); GetShardIteratorResult getsharditeratorresult = client.getsharditerator(getsharditeratorrequest); sharditerator = getsharditeratorresult.getsharditerator(); このサンプルコードでは最初のシャードイテレーターを取得するときにイテレーター型として TRIM_HORIZON を指定していますこのイテレーター型を指定することでレコードはまずシャードに直近に追加されたレコード (tip) からではなくシャードに最初に追加されたレコードから返されますイテレーターの種類は次のとおりです AT_SEQUENCE_NUMBER AFTER_SEQUENCE_NUMBER AT_TIMESTAMP TRIM_HORIZON LATEST 詳細については ShardIteratorType を参照してくださいイテレーター型によっては型に加えてシーケンス番号を指定する必要があります以下に例を示します getsharditeratorrequest.setsharditeratortype("at_sequence_number"); getsharditeratorrequest.setstartingsequencenumber(specialsequencenumber); getrecords を使用してレコードを取得したらレコードの getsequencenumber メソッドを呼び出してレコードのシーケンス番号を取得できます record.getsequencenumber() 138

Amazon Kinesis Data Streams 開発者ガイド API の使用さらにデータストリームにレコードを追加するコードでは getsequencenumber の結果に対して putrecord を呼び出すことで追加したレコードのシーケンス番号を取得できます lastsequencenumber = putrecordresult.getsequencenumber(); シーケンス番号を使用するとレコードの順番が厳密に増えるようにできます詳細については PutRecord の例 (p. 104) のサンプルコードを参照してください GetRecords を使用するシャードイテレーターを取得したら GetRecordsRequest オブジェクトをインスタンス化します setsharditerator メソッドを使用してリクエストのイテレーターを指定します必要に応じて setlimit メソッドを使用して取得するレコードの数を設定することもできます getrecords によって返されるレコードの数は常にこの制限以下になりますこの制限を指定しない場合 getrecords は取得したレコードの 10 MB を返します次のサンプルコードではこの制限を 25 個のレコードに設定していますレコードが返されない場合シャードイテレーターによって参照されたシーケンス番号ではこのシャードからどのデータレコードも現在使用できないことになりますこの状況ではストリームのデータソースに対してアプリケーションを適切な時間 (1 秒以上 ) 待機状態にする必要があります次に getrecords の前の呼び出しで返されたシャードイテレーターを使用してシャードからのデータの取得を再試行しますレコードがストリームに追加されてから getrecords で使用できるまでに約 3 秒のレイテンシーが発生します getrecordsrequest メソッドに getrecords を渡し getrecordsresult オブジェクトとして返された値をキャプチャしますデータレコードを取得するには getrecords オブジェクトの getrecordsresult メソッドを呼び出します GetRecordsRequest getrecordsrequest = new GetRecordsRequest(); getrecordsrequest.setsharditerator(sharditerator); getrecordsrequest.setlimit(25); GetRecordsResult getrecordsresult = client.getrecords(getrecordsrequest); List<Record> records = getrecordsresult.getrecords(); getrecords の別の呼び出しに備えて getrecordsresult から次のシャードイテレーターを取得します sharditerator = getrecordsresult.getnextsharditerator(); 最良の結果を得るために getrecords の呼び出し間の 1 秒 (1,000 ミリ秒 ) 以上はスリープ状態にし getrecords の頻度制限を超えないようにしてください try { Thread.sleep(1000); catch (InterruptedException e) { 一般的にテストシナリオで 1 つのレコードを取得するときでも getrecords はループ内で呼び出す必要があります getrecords の 1 回の呼び出しでは後続のシーケンス番号でシャード内にレコードがある場合でも空のレコードのリストが返されることがありますこの状況になった場合は空のレコードのリストと共に返された NextShardIterator によってシャード内の後続のシーケンス番号が参照されて続く getrecords の呼び出しによって最終的にレコードが返されます次のサンプルではループの使用を示しています 139

Amazon Kinesis Data Streams 開発者ガイド API の使用例 : getrecords 以下のコード例にはこのセクションで示した getrecords のヒント ( ループ内での呼び出しなど ) を反映しています // Continuously read data records from a shard List<Record> records; while (true) { // Create a new getrecordsrequest with an existing sharditerator // Set the maximum records to return to 25 GetRecordsRequest getrecordsrequest = new GetRecordsRequest(); getrecordsrequest.setsharditerator(sharditerator); getrecordsrequest.setlimit(25); GetRecordsResult result = client.getrecords(getrecordsrequest); // Put the result into record list. The result can be empty. records = result.getrecords(); try { Thread.sleep(1000); catch (InterruptedException exception) { throw new RuntimeException(exception); sharditerator = result.getnextsharditerator(); Kinesis Client Library を使用している場合はデータを返す前に複数回呼び出しが行われる場合がありますこの動作は仕様であり KCL やデータの問題を示すものではありませんリシャーディングに適応する getrecordsresult.getnextsharditerator によって null が返された場合 A シャードは分割または結合され現在 CLOSED 状態であり使用可能なすべてのデータレコードはこのシャードから読み取り済みであることを表しますこのシナリオではストリーム内のシャードを再び列挙して分割または結合によって作成された新しいシャードを取得する必要があります分割の場合 2 つの新しいシャードの parentshardid はいずれも前に処理されたシャードの ID に一致しますこれらのシャードの adjacentparentshardid の値はいずれも null です結合の場合結合によって作成された 1 つの新しいシャードの parentshardid は親のシャードのいずれかの ID に一致し adjacentparentshardid はその他の親シャードの ID に一致しますアプリケーションはこれらのいずれかのシャードからすべてのデータを読み取り済みですこれは getrecordsresult.getnextsharditerator から null が返されたシャードですアプリケーションでデータの順序が重要である場合結合によって作成された子シャードから新しいデータを読み取る前にその他の親シャードからもすべてのデータを読み取るようにする必要があります複数のプロセッサを使用してストリームからデータを取得し ( たとえばシャードごとに 1 つのプロセッサ ) シャードの分割または結合を行う場合プロセッサの数を増減してシャードの数の変化に適応させますシャードの状態 (CLOSED など ) の説明を含むリシャーディングの詳細についてはストリームをリシャーディングする (p. 44) を参照してください 140

Amazon Kinesis Data Streams 開発者ガイド拡張ファンアウトでコンシューマーを使用する拡張ファンアウトでコンシューマーを使用する Amazon Kinesis Data Streams では拡張ファンアウトと呼ばれる機能を使用するコンシューマーを構築できますこの機能によりコンシューマーはシャードあたり 1 秒間に最大 2 MiB のデータのスループットでストリームからレコードを受け取ることができますこのスループットは専用ですつまり拡張ファンアウトを使用するコンシューマーはストリームからデータを受け取る他のコンシューマーと競合する必要がありません Kinesis Data Streams はストリームのデータレコードを拡張ファンアウトを使用するコンシューマーにプッシュしますそのためこれらのコンシューマーはデータをポーリングする必要はありませんストリームあたり最大 5 つのコンシューマーを登録して拡張ファンアウトを使用できますコンシューマーを 6 つ以上登録する必要がある場合は Kinesis Data Streams 制限フォームを使用して制限の引き上げをリクエストできます拡張ファンアウトのアーキテクチャを以下の図に示しますバージョン 2.0 以降の Amazon Kinesis Client Library (KCL) を使用してコンシューマーを構築する場合 KCL は拡張ファンアウトを使用してストリームのすべてのシャードからデータを受け取るようにコンシューマーを設定します API を使用して拡張ファンアウトを使用するコンシューマーを構築する場合はシャードを個別にサブスクライブできます図に示す内容は以下のとおりです 2 つのシャードを持つストリームストリームからデータを受信するために拡張ファンアウトを使用する 2 つのコンシューマー ( コンシューマー X とコンシューマー Y) 2 つのコンシューマーはそれぞれストリームのすべてのシャードとすべてのレコードにサブスクライブされていますバージョン 2.0 以降の KCL を使用してコンシュー 141

Amazon Kinesis Data Streams 開発者ガイド Kinesis Client Library 2.0 の使用マーを構築する場合 KCL はコンシューマーをストリームのすべてのシャードに自動的にサブスクライブしますこれに対し API を使用してコンシューマーを構築する場合はシャードを個別にサブスクライブできますコンシューマーがストリームからデータを受け取るために使用する拡張ファンアウトパイプを表す矢印拡張されたファンアウトパイプはシャードあたり最大 2 MiB/ 秒のデータを送信します他のパイプやコンシューマーの総数は関係ありませんトピック Kinesis Client Library 2.0 を使用して拡張ファンアウトでコンシューマーを開発する (p. 142) Kinesis Data Streams API を使用して拡張ファンアウトでコンシューマーを開発する (p. 146) AWS マネジメントコンソールを使用して拡張ファンアウトでコンシューマーを管理する (p. 147) Kinesis Client Library 2.0 を使用して拡張ファンアウトでコンシューマーを開発する Amazon Kinesis Data Streams で拡張ファンアウトを使用するコンシューマーはシャードあたり 1 秒間に最大 2 MiB のデータの専用スループットでデータストリームからレコードを受け取ることができますこのタイプのコンシューマーはストリームからデータを受け取っている他のコンシューマーと競合する必要はありません詳細については拡張ファンアウトでコンシューマーを使用する (p. 141) を参照してください拡張ファンアウトを使用してストリームからデータを受け取るアプリケーションを開発するにはバージョン 2.0 以降の Kinesis Client Library (KCL) を使用できます KCL はアプリケーションをストリームのすべてのシャードに自動的にサブスクライブしコンシューマーアプリケーションがシャードあたり 2 MiB/ 秒のスループット値で読み取ることができるようにします拡張ファンアウトをオンにせずに KCL を使用する場合は Kinesis クライアントライブラリ 2.0 を使用したコンシューマーの開発を参照してくださいトピック Java で Kinesis Client Library 2.x を使用したコンシューマーの開発 (p. 142) Java で Kinesis Client Library 2.x を使用したコンシューマーの開発拡張ファンアウトを使用してストリームからデータを受け取るアプリケーションを Amazon Kinesis Data Streams で開発するにはバージョン 2.0 以降の Kinesis Client Library (KCL) を使用できます次のコードは ProcessorFactory および RecordProcessor の Java のサンプル実装を示しています /* * Copyright 2018 Amazon.com, Inc. or its affiliates. All Rights Reserved. * * Licensed under the Apache License, Version 2.0 (the "License"). * You may not use this file except in compliance with the License. * A copy of the License is located at * * http://www.apache.org/licenses/license-2.0 * * or in the "license" file accompanying this file. This file is distributed * on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either * express or implied. See the License for the specific language governing * permissions and limitations under the License. */ 142

Amazon Kinesis Data Streams 開発者ガイド Kinesis Client Library 2.0 の使用 import java.io.bufferedreader; import java.io.ioexception; import java.io.inputstreamreader; import java.util.uuid; import java.util.concurrent.executionexception; import java.util.concurrent.executors; import java.util.concurrent.future; import java.util.concurrent.scheduledexecutorservice; import java.util.concurrent.scheduledfuture; import java.util.concurrent.timeunit; import java.util.concurrent.timeoutexception; import org.apache.commons.lang3.objectutils; import org.apache.commons.lang3.randomstringutils; import org.apache.commons.lang3.randomutils; import org.slf4j.logger; import org.slf4j.loggerfactory; import org.slf4j.mdc; import software.amazon.awssdk.core.sdkbytes; import software.amazon.awssdk.regions.region; import software.amazon.awssdk.services.cloudwatch.cloudwatchasyncclient; import software.amazon.awssdk.services.dynamodb.dynamodbasyncclient; import software.amazon.awssdk.services.kinesis.kinesisasyncclient; import software.amazon.awssdk.services.kinesis.model.putrecordrequest; import software.amazon.kinesis.common.configsbuilder; import software.amazon.kinesis.coordinator.scheduler; import software.amazon.kinesis.exceptions.invalidstateexception; import software.amazon.kinesis.exceptions.shutdownexception; import software.amazon.kinesis.lifecycle.events.initializationinput; import software.amazon.kinesis.lifecycle.events.leaselostinput; import software.amazon.kinesis.lifecycle.events.processrecordsinput; import software.amazon.kinesis.lifecycle.events.shardendedinput; import software.amazon.kinesis.lifecycle.events.shutdownrequestedinput; import software.amazon.kinesis.processor.shardrecordprocessor; import software.amazon.kinesis.processor.shardrecordprocessorfactory; public class SampleSingle { private static final Logger log = LoggerFactory.getLogger(SampleSingle.class); public static void main(string... args) { if (args.length < 1) { log.error("at a minimum stream name is required as the first argument. Region may be specified as the second argument"); System.exit(1); String streamname = args[0]; String region = null; if (args.length > 1) { region = args[1]; new SampleSingle(streamName, region).run(); private final String streamname; private final Region region; private final KinesisAsyncClient kinesisclient; private SampleSingle(String streamname, String region) { this.streamname = streamname; this.region = Region.of(ObjectUtils.firstNonNull(region, "us-east-2")); this.kinesisclient = KinesisAsyncClient.builder().region(this.region).build(); 143

Amazon Kinesis Data Streams 開発者ガイド Kinesis Client Library 2.0 の使用 private void run() { ScheduledExecutorService producerexecutor = Executors.newSingleThreadScheduledExecutor(); ScheduledFuture<?> producerfuture = producerexecutor.scheduleatfixedrate(this::publishrecord, 10, 1, TimeUnit.SECONDS); DynamoDbAsyncClient dynamoclient = DynamoDbAsyncClient.builder().region(region).build(); CloudWatchAsyncClient cloudwatchclient = CloudWatchAsyncClient.builder().region(region).build(); ConfigsBuilder configsbuilder = new ConfigsBuilder(streamName, streamname, kinesisclient, dynamoclient, cloudwatchclient, UUID.randomUUID().toString(), new SampleRecordProcessorFactory()); Scheduler scheduler = new Scheduler( configsbuilder.checkpointconfig(), configsbuilder.coordinatorconfig(), configsbuilder.leasemanagementconfig(), configsbuilder.lifecycleconfig(), configsbuilder.metricsconfig(), configsbuilder.processorconfig(), configsbuilder.retrievalconfig() ); Thread schedulerthread = new Thread(scheduler); schedulerthread.setdaemon(true); schedulerthread.start(); System.out.println("Press enter to shutdown"); BufferedReader reader = new BufferedReader(new InputStreamReader(System.in)); try { reader.readline(); catch (IOException ioex) { log.error("caught exception while waiting for confirm. Shutting down", ioex); log.info("cancelling producer, and shutting down excecutor."); producerfuture.cancel(true); producerexecutor.shutdownnow(); Future<Boolean> gracefulshutdownfuture = scheduler.startgracefulshutdown(); log.info("waiting up to 20 seconds for shutdown to complete."); try { gracefulshutdownfuture.get(20, TimeUnit.SECONDS); catch (InterruptedException e) { log.info("interrupted while waiting for graceful shutdown. Continuing."); catch (ExecutionException e) { log.error("exception while executing graceful shutdown.", e); catch (TimeoutException e) { log.error("timeout while waiting for shutdown. Scheduler may not have exited."); log.info("completed, shutting down now."); private void publishrecord() { PutRecordRequest request = PutRecordRequest.builder().partitionKey(RandomStringUtils.randomAlphabetic(5, 20)).streamName(streamName).data(SdkBytes.fromByteArray(RandomUtils.nextBytes(10))).build(); try { kinesisclient.putrecord(request).get(); catch (InterruptedException e) { log.info("interrupted, assuming shutdown."); 144

Amazon Kinesis Data Streams 開発者ガイド Kinesis Client Library 2.0 の使用 e); catch (ExecutionException e) { log.error("exception while sending data to Kinesis will try again next cycle", private static class SampleRecordProcessorFactory implements ShardRecordProcessorFactory { public ShardRecordProcessor shardrecordprocessor() { return new SampleRecordProcessor(); private static class SampleRecordProcessor implements ShardRecordProcessor { private static final String SHARD_ID_MDC_KEY = "ShardId"; private static final Logger log = LoggerFactory.getLogger(software.amazon.kinesis.sample.SampleRecordProcessor.class); private String shardid; public void initialize(initializationinput initializationinput) { shardid = initializationinput.shardid(); MDC.put(SHARD_ID_MDC_KEY, shardid); try { log.info("initializing @ Sequence: {", initializationinput.extendedsequencenumber()); finally { MDC.remove(SHARD_ID_MDC_KEY); public void processrecords(processrecordsinput processrecordsinput) { MDC.put(SHARD_ID_MDC_KEY, shardid); try { log.info("processing { record(s)", processrecordsinput.records().size()); processrecordsinput.records().foreach(r -> log.info("processing record pk: { -- Seq: {", r.partitionkey(), r.sequencenumber())); catch (Throwable t) { log.error("caught throwable while processing records. Aborting"); Runtime.getRuntime().halt(1); finally { MDC.remove(SHARD_ID_MDC_KEY); public void leaselost(leaselostinput leaselostinput) { MDC.put(SHARD_ID_MDC_KEY, shardid); try { log.info("lost lease, so terminating."); finally { MDC.remove(SHARD_ID_MDC_KEY); public void shardended(shardendedinput shardendedinput) { MDC.put(SHARD_ID_MDC_KEY, shardid); try { log.info("reached shard end checkpointing."); shardendedinput.checkpointer().checkpoint(); catch (ShutdownException InvalidStateException e) { log.error("exception while checkpointing at shard end. Giving up", e); finally { MDC.remove(SHARD_ID_MDC_KEY); 145

Amazon Kinesis Data Streams 開発者ガイド API の使用 public void shutdownrequested(shutdownrequestedinput shutdownrequestedinput) { MDC.put(SHARD_ID_MDC_KEY, shardid); try { log.info("scheduler is shutting down, checkpointing."); shutdownrequestedinput.checkpointer().checkpoint(); catch (ShutdownException InvalidStateException e) { log.error("exception while checkpointing at requested shutdown. Giving up", e); finally { MDC.remove(SHARD_ID_MDC_KEY); Kinesis Data Streams API を使用して拡張ファンアウトでコンシューマーを開発する拡張ファンアウトは Amazon Kinesis Data Streams の機能ですこの機能を使用するとコンシューマーはシャードあたり 1 秒間に最大 2 MiB のデータの専用スループットでデータストリームからレコードを受け取ることができます拡張ファンアウトを使用するコンシューマーはストリームからデータを受け取っている他のコンシューマーと競合する必要はありません詳細については拡張ファンアウトでコンシューマーを使用する (p. 141) を参照してください拡張ファンアウトを Kinesis Data Streams で使用するコンシューマを構築するには API オペレーションを使用します Kinesis Data Streams API を使用して拡張ファンアウトでコンシューマーを登録するには 1. 拡張ファンアウトを使用するコンシューマーとして RegisterStreamConsumer 呼び出してアプリケーションを登録します Kinesis Data Streams はコンシューマーの Amazon リソースネーム (ARN) を生成しそれをレスポンスで返します 2. 特定のシャードに対するリスニングを開始するには SubscribeToShard を呼び出してコンシューマー ARN を渡しますこれにより Kinesis Data Streams はそのシャードのレコードをユーザーにプッシュしますレコードは HTTP/2 接続経由で SubscribeToShardEvent 型のイベントの形式でプッシュされます接続は最大 5 分間開いたままです SubscribeToShard への呼び出しによって返される future が正常または例外的に完了した後も引き続きシャードからレコードを受け取る場合は SubscribeToShard を再度呼び出します 3. 拡張ファンアウトを使用しているコンシューマーの登録を解除するには DeregisterStreamConsumer を呼び出します次のコードはシャードへのコンシューマーのサブスクライブサブスクリプションの定期更新イベントの処理を行う方法の例です import software.amazon.awssdk.services.kinesis.kinesisasyncclient; import software.amazon.awssdk.services.kinesis.model.sharditeratortype; import software.amazon.awssdk.services.kinesis.model.subscribetoshardevent; import software.amazon.awssdk.services.kinesis.model.subscribetoshardrequest; import software.amazon.awssdk.services.kinesis.model.subscribetoshardresponsehandler; import java.util.concurrent.completablefuture; /** 146

Amazon Kinesis Data Streams 開発者ガイド AWS マネジメントコンソールの使用 * See https://github.com/awsdocs/aws-doc-sdk-examples/blob/master/javav2/example_code/ kinesis/src/main/java/com/example/kinesis/kinesisstreamex.java * for complete code and more examples. */ public class SubscribeToShardSimpleImpl { private static final String CONSUMER_ARN = "arn:aws:kinesis:useast-1:123456789123:stream/foobar/consumer/test-consumer:1525898737"; private static final String SHARD_ID = "shardid-000000000000"; public static void main(string[] args) { KinesisAsyncClient client = KinesisAsyncClient.create(); SubscribeToShardRequest request = SubscribeToShardRequest.builder().consumerARN(CONSUMER_ARN).shardId(SHARD_ID).startingPosition(s -> s.type(sharditeratortype.latest)).build(); // Call SubscribeToShard iteratively to renew the subscription periodically. while(true) { // Wait for the CompletableFuture to complete normally or exceptionally. callsubscribetoshardwithvisitor(client, request).join(); // Close the connection before exiting. // client.close(); /** * Subscribes to the stream of events by implementing the SubscribeToShardResponseHandler.Visitor interface. */ private static CompletableFuture<Void> callsubscribetoshardwithvisitor(kinesisasyncclient client, SubscribeToShardRequest request) { SubscribeToShardResponseHandler.Visitor visitor = new SubscribeToShardResponseHandler.Visitor() { @Override public void visit(subscribetoshardevent event) { System.out.println("Received subscribe to shard event " + event); ; SubscribeToShardResponseHandler responsehandler = SubscribeToShardResponseHandler.builder().onError(t -> System.err.println("Error during stream - " + t.getmessage())).subscriber(visitor).build(); return client.subscribetoshard(request, responsehandler); AWS マネジメントコンソールを使用して拡張ファンアウトでコンシューマーを管理する Amazon Kinesis Data Streams で拡張ファンアウトを使用するコンシューマーはシャードあたり 1 秒間に最大 2 MiB のデータの専用スループットでデータストリームからレコードを受け取ることができます詳細については拡張ファンアウトでコンシューマーを使用する (p. 141) を参照してください 147

Amazon Kinesis Data Streams 開発者ガイド Kinesis Client Library 1.x から 2.x への移行特定のストリームで拡張ファンアウトを使用するように登録されているすべてのコンシューマーのリストを表示するには AWS マネジメントコンソールを使用しますこのコンシューマーごとに監視メトリクスやコンシューマーに関連付けられたタグだけでなく ARN ステータス作成日などの詳細が表示されます拡張ファンアウトやそのステータス作成日メトリクスをコンソールで使用するように登録されているコンシューマーを表示するには 1. AWS マネジメントコンソールにサインインし https://console.aws.amazon.com/kinesis にある Kinesis コンソールを開きます 2. ナビゲーションペインで [ データストリーム ] を選択します 3. Kinesis データストリームを選択して詳細を表示します 4. ストリームの詳細ページで [ 拡張ファンアウト ] タブを選択します 5. コンシューマーを選択して名前ステータス登録日を表示しますコンシューマーの登録を解除するには 1. https://console.aws.amazon.com/kinesis にある Kinesis コンソールを開きます 2. ナビゲーションペインで [ データストリーム ] を選択します 3. Kinesis データストリームを選択して詳細を表示します 4. ストリームの詳細ページで [ 拡張ファンアウト ] タブを選択します 5. 登録解除する各コンシューマーの名前の左にあるチェックボックスをオンにします 6. [ コンシューマーの登録解除 ] を選択します Kinesis Client Library 1.x から 2.x への移行このトピックでは Kinesis Client Library (KCL) のバージョン 1.x と 2.x の違いについて説明しますまたコンシューマーを KCL のバージョン 1.x からバージョン 2.x に移行する方法も示しますクライアントを移行すると最後にチェックポイントが作成された場所からレコードの処理が開始されます KCL のバージョン 2.0 では以下のインターフェイスの変更が導入されています KCL インターフェイスの変更 KCL 1.x インターフェイス KCL 2.0 インターフェイス com.amazonaws.services.kinesis.clientlibrary.interfaces.v2.irecordprocessor software.amazon.kinesis.processor.shardrecordproc com.amazonaws.services.kinesis.clientlibrary.interfaces.v2.irecordprocessorfactory software.amazon.kinesis.processor.shardrecordproc com.amazonaws.services.kinesis.clientlibrary.interfaces.v2.ishutdownnotificationaware software.amazon.kinesis.processor.shardrecordproc 内に折りたたみトピックレコードプロセッサの移行 (p. 149) レコードプロセッサファクトリーの移行 (p. 152) ワーカーの移行 (p. 153) Amazon Kinesis クライアントの設定 (p. 154) アイドル時間の削除 (p. 156) クライアント設定の削除 (p. 156) 148

Amazon Kinesis Data Streams 開発者ガイドレコードプロセッサの移行レコードプロセッサの移行以下の例は KCL1.x に実装されたレコードプロセッサを示しています package com.amazonaws.kcl; import com.amazonaws.services.kinesis.clientlibrary.exceptions.invalidstateexception; import com.amazonaws.services.kinesis.clientlibrary.exceptions.shutdownexception; import com.amazonaws.services.kinesis.clientlibrary.interfaces.irecordprocessorcheckpointer; import com.amazonaws.services.kinesis.clientlibrary.interfaces.v2.irecordprocessor; import com.amazonaws.services.kinesis.clientlibrary.interfaces.v2.ishutdownnotificationaware; import com.amazonaws.services.kinesis.clientlibrary.lib.worker.shutdownreason; import com.amazonaws.services.kinesis.clientlibrary.types.initializationinput; import com.amazonaws.services.kinesis.clientlibrary.types.processrecordsinput; import com.amazonaws.services.kinesis.clientlibrary.types.shutdowninput; public class TestRecordProcessor implements IRecordProcessor, IShutdownNotificationAware { @Override public void initialize(initializationinput initializationinput) { // // Setup record processor // @Override public void processrecords(processrecordsinput processrecordsinput) { // // Process records, and possibly checkpoint // @Override public void shutdown(shutdowninput shutdowninput) { if (shutdowninput.getshutdownreason() == ShutdownReason.TERMINATE) { try { shutdowninput.getcheckpointer().checkpoint(); catch (ShutdownException InvalidStateException e) { throw new RuntimeException(e); @Override public void shutdownrequested(irecordprocessorcheckpointer checkpointer) { try { checkpointer.checkpoint(); catch (ShutdownException InvalidStateException e) { // // Swallow exception // e.printstacktrace(); レコードプロセッサのクラスを移行するには 1. インターフェイスを com.amazonaws.services.kinesis.clientlibrary.interfaces.v2.irecordprocessor および com.amazonaws.services.kinesis.clientlibrary.interfaces.v2.ishutdownnotificationaware 149

Amazon Kinesis Data Streams 開発者ガイドレコードプロセッサの移行から software.amazon.kinesis.processor.shardrecordprocessor に変更します以下に例を示します // import com.amazonaws.services.kinesis.clientlibrary.interfaces.v2.irecordprocessor; // import com.amazonaws.services.kinesis.clientlibrary.interfaces.v2.ishutdownnotificationaware; import software.amazon.kinesis.processor.shardrecordprocessor; // public class TestRecordProcessor implements IRecordProcessor, IShutdownNotificationAware { public class TestRecordProcessor implements ShardRecordProcessor { 2. import メソッド initialize とメソッドの processrecords ステートメントを更新します // import com.amazonaws.services.kinesis.clientlibrary.types.initializationinput; import software.amazon.kinesis.lifecycle.events.initializationinput; //import com.amazonaws.services.kinesis.clientlibrary.types.processrecordsinput; import software.amazon.kinesis.lifecycle.events.processrecordsinput; 3. shutdown メソッドを以下の新しいメソッドに置き換えます leaselost shardended および shutdownrequested // @Override // public void shutdownrequested(irecordprocessorcheckpointer checkpointer) { // // // // This is moved to shardended(...) // // // try { // checkpointer.checkpoint(); // catch (ShutdownException InvalidStateException e) { // // // // Swallow exception // // // e.printstacktrace(); // // @Override public void leaselost(leaselostinput leaselostinput) { @Override public void shardended(shardendedinput shardendedinput) { try { shardendedinput.checkpointer().checkpoint(); catch (ShutdownException InvalidStateException e) { // // Swallow the exception // e.printstacktrace(); // @Override // public void shutdownrequested(irecordprocessorcheckpointer checkpointer) { // // // // This is moved to shutdownrequested(shutdownreauestedinput) // // // try { // checkpointer.checkpoint(); // catch (ShutdownException InvalidStateException e) { 150

Amazon Kinesis Data Streams 開発者ガイドレコードプロセッサの移行 // // // // Swallow exception // // // e.printstacktrace(); // // @Override public void shutdownrequested(shutdownrequestedinput shutdownrequestedinput) { try { shutdownrequestedinput.checkpointer().checkpoint(); catch (ShutdownException InvalidStateException e) { // // Swallow the exception // e.printstacktrace(); 以下に示しているのはレコードプロセッサのクラスの更新されたバージョンです package com.amazonaws.kcl; import software.amazon.kinesis.exceptions.invalidstateexception; import software.amazon.kinesis.exceptions.shutdownexception; import software.amazon.kinesis.lifecycle.events.initializationinput; import software.amazon.kinesis.lifecycle.events.leaselostinput; import software.amazon.kinesis.lifecycle.events.processrecordsinput; import software.amazon.kinesis.lifecycle.events.shardendedinput; import software.amazon.kinesis.lifecycle.events.shutdownrequestedinput; import software.amazon.kinesis.processor.shardrecordprocessor; public class TestRecordProcessor implements ShardRecordProcessor { @Override public void initialize(initializationinput initializationinput) { @Override public void processrecords(processrecordsinput processrecordsinput) { @Override public void leaselost(leaselostinput leaselostinput) { @Override public void shardended(shardendedinput shardendedinput) { try { shardendedinput.checkpointer().checkpoint(); catch (ShutdownException InvalidStateException e) { // // Swallow the exception // e.printstacktrace(); @Override public void shutdownrequested(shutdownrequestedinput shutdownrequestedinput) { try { 151

Amazon Kinesis Data Streams 開発者ガイドレコードプロセッサファクトリーの移行 shutdownrequestedinput.checkpointer().checkpoint(); catch (ShutdownException InvalidStateException e) { // // Swallow the exception // e.printstacktrace(); レコードプロセッサファクトリーの移行レコードプロセッサファクトリーはリースが取得された際にレコードプロセッサの作成を担当します以下に示しているのは KCL 1.x ファクトリーの例です package com.amazonaws.kcl; import com.amazonaws.services.kinesis.clientlibrary.interfaces.v2.irecordprocessor; import com.amazonaws.services.kinesis.clientlibrary.interfaces.v2.irecordprocessorfactory; public class TestRecordProcessorFactory implements IRecordProcessorFactory { @Override public IRecordProcessor createprocessor() { return new TestRecordProcessor(); レコードプロセッサファクトリーを移行するには 1. 実装されているインターフェイスを com.amazonaws.services.kinesis.clientlibrary.interfaces.v2.irecordprocessorfactory から software.amazon.kinesis.processor.recordprocessorfactory に変更します以下に例を示します // import com.amazonaws.services.kinesis.clientlibrary.interfaces.v2.irecordprocessor; import software.amazon.kinesis.processor.shardrecordprocessor; // import com.amazonaws.services.kinesis.clientlibrary.interfaces.v2.irecordprocessorfactory; import software.amazon.kinesis.processor.shardrecordprocessorfactory; // public class TestRecordProcessorFactory implements IRecordProcessorFactory { public class TestRecordProcessorFactory implements ShardRecordProcessorFactory { 2. createprocessor の戻り署名を変更します // public IRecordProcessor createprocessor() { public ShardRecordProcessor shardrecordprocessor() { 以下は 2.0 のレコードプロセッサファクトリーの例です package com.amazonaws.kcl; import software.amazon.kinesis.processor.shardrecordprocessor; import software.amazon.kinesis.processor.shardrecordprocessorfactory; public class TestRecordProcessorFactory implements ShardRecordProcessorFactory { @Override 152

Amazon Kinesis Data Streams 開発者ガイドワーカーの移行 public ShardRecordProcessor shardrecordprocessor() { return new TestRecordProcessor(); ワーカーの移行バージョン 2.0 の KCL では新しいクラス Scheduler によって Worker クラスが置き換えられます KCL 1.x のワーカーの例を次に示します final KinesisClientLibConfiguration config = new KinesisClientLibConfiguration(...) final IRecordProcessorFactory recordprocessorfactory = new RecordProcessorFactory(); final Worker worker = new Worker.Builder().recordProcessorFactory(recordProcessorFactory).config(config).build(); ワーカーを移行するには 1. Worker クラスの import ステートメントを Scheduler クラスと ConfigsBuilder クラスのインポートステートメントに変更します // import com.amazonaws.services.kinesis.clientlibrary.lib.worker.worker; import software.amazon.kinesis.coordinator.scheduler; import software.amazon.kinesis.common.configsbuilder; 2. 次の例に示すように ConfigsBuilder と Scheduler を作成します import java.util.uuid; import software.amazon.awssdk.regions.*; import software.amazon.awssdk.services.dynamodb.dynamodbasyncclient; import software.amazon.awssdk.services.cloudwatch.cloudwatchasyncclient; import software.amazon.awssdk.services.kinesis.kinesisasyncclient; import software.amazon.kinesis.common.configsbuilder; import software.amazon.kinesis.coordinator.scheduler;... Region region = Region.AP_NORTHEAST_2; KinesisAsyncClient kinesisclient = KinesisAsyncClient.builder().region(region).build();DynamoDbAsyncClient dynamoclient = DynamoDbAsyncClient.builder().region(region).build(); CloudWatchAsyncClient cloudwatchclient = CloudWatchAsyncClient.builder().region(region).build(); ConfigsBuilder configsbuilder = new ConfigsBuilder(streamName, applicationname, kinesisclient, dynamoclient, cloudwatchclient, UUID.randomUUID().toString(), new SampleRecordProcessorFactory()); Scheduler scheduler = new Scheduler( configsbuilder.checkpointconfig(), configsbuilder.coordinatorconfig(), configsbuilder.leasemanagementconfig(), configsbuilder.lifecycleconfig(), configsbuilder.metricsconfig(), configsbuilder.processorconfig(), configsbuilder.retrievalconfig() ); 153

Amazon Kinesis Data Streams 開発者ガイド Amazon Kinesis クライアントの設定 Amazon Kinesis クライアントの設定 Kinesis Client Library のリリース 2.0 ではクライアントの設定が単一の設定クラス (KinesisClientLibConfiguration) から 6 つの設定クラスに移行されました次の表で移行を説明します設定フィールドとその新しいクラス元のフィールド新しい設定クラス説明 applicationname tablename streamname kinesisendpoint dynamodbendpoint ConfigsBuilder この KCL アプリケーションの名前 tablename および consumername のデフォルトとして使用されます ConfigsBuilderAmazon DynamoDB リーステーブルで使用されるテーブル名の上書きを許可します ConfigsBuilder このアプリケーションがレコードを処理するストリームの名前 ConfigsBuilder このオプションは削除されましたクライアント設定の削除を参照してください ConfigsBuilder このオプションは削除されましたクライアント設定の削除を参照してください initialpositioninstream RetrievalConfig なし kinesiscredentialsprovider ConfigsBuilderこのオプションは削除されましたクライアント設定の削除を参照してください dynamodbcredentialsprovider ConfigsBuilderこのオプションは削除されましたクライアント設定の削除を参照してください cloudwatchcredentialsprovider ConfigsBuilderこのオプションは削除されましたクライアント設定の削除を参照してください failovertimemillis LeaseManagementConfig リース所有者が失敗したとみなすまでの経過時間 ( ミリ秒 ) workeridentifier ConfigsBuilder このアプリケーションプロセッサのインスタンス化を表す一意の識別子一意である必要があります shardsyncintervalmillis LeaseManagementConfig シャード同期コールの間隔 maxrecords PollingConfig Kinesis が返すレコードの最大数の設定を許可します idletimebetweenreadsinmillis CoordinatorConfig このオプションは削除されましたアイドル時間の削除を参照してください callprocessrecordsevenforemptyrecordlist ProcessorConfig 設定すると Kinesis から提供されたレコードがない場合でもレコードプロセッサが呼び出されます parentshardpollintervalmillis CoordinatorConfig 親シャードが完了したかどうかを確認するためにレコードプロセッサがポーリングを行う頻度 cleanupleasesuponshardcompletion LeaseManagementConfig 設定すると子リースの処理が開始されると即時にリースが削除されます ignoreunexpectedchildshards LeaseManagementConfig 設定すると開いているシャードがある子シャードは無視されますこれは主に DynamoDB ストリーム用です 154

Amazon Kinesis Data Streams 開発者ガイド Amazon Kinesis クライアントの設定元のフィールド新しい設定クラス説明 kinesisclientconfigconfigsbuilder このオプションは削除されましたクライアント設定の削除を参照してください dynamodbclientconfigconfigsbuilder このオプションは削除されましたクライアント設定の削除を参照してください cloudwatchclientconfig ConfigsBuilderこのオプションは削除されましたクライアント設定の削除を参照してください taskbackofftimemillis LifecycleConfig 失敗したタスクを再試行するまでの待機時間 metricsbuffertimemillis MetricsConfig CloudWatch メトリックスの発行を制御します metricsmaxqueuesizemetricsconfig CloudWatch メトリックスの発行を制御します metricslevel MetricsConfig CloudWatch メトリックスの発行を制御します metricsenableddimensions MetricsConfig CloudWatch メトリックスの発行を制御します validatesequencenumberbeforecheckpointing CheckpointConfig このオプションは削除されましたチェックポイントシーケンス番号の検証を参照してください regionname ConfigsBuilder このオプションは削除されましたクライアント設定の削除を参照してください maxleasesforworker LeaseManagementConfig アプリケーションの単一のインスタンスが受け入れるリースの最大数 maxleasestostealatonetime LeaseManagementConfig アプリケーションが同時にスティールを試みるリースの最大数 initialleasetablereadcapacity LeaseManagementConfig Kinesis Client Library で新しい DynamoDB リーステーブルを作成する場合に使用する DynamoDB 読み取り IOPS initialleasetablewritecapacity LeaseManagementConfig Kinesis Client Library が新しい DynamoDB リーステーブルを作成する場合に使用する DynamoDB 読み取り IOPS initialpositioninstreamextended ConfigsBuilder アプリケーションが読み取りを開始するストリーム内の初期位置これは最初のリースの作成時にのみ使用されます skipshardsyncatworkerinitializationifleasesexist CoordinatorConfig リーステーブルに既存のリースがある場合シャードデータの同期を無効にします TODO: KinesisEco-438 shardprioritizationcoordinatorconfig どのシャードの優先順位付けを使用するか shutdowngracemillis 該当なしこのオプションは削除されました MultiLang の削除を参照してください timeoutinseconds 該当なしこのオプションは削除されました MultiLang の削除を参照してください retrygetrecordsinseconds PollingConfig GetRecords が失敗した場合の試行間隔の遅延時間を設定します maxgetrecordsthreadpool PollingConfig GetRecords に使用されるスレッドプールのサイズ 155

Amazon Kinesis Data Streams 開発者ガイドアイドル時間の削除元のフィールド新しい設定クラス説明 maxleaserenewalthreads LeaseManagementConfig リース更新スレッドプールのサイズを制御しますアプリケーションが処理するリースの数が多いほどこのプールも大きくする必要があります recordsfetcherfactory PollingConfig ストリームから取得するフェッチャーを作成するために使用されるファクトリーの置換を許可します logwarningfortaskaftermillis LifecycleConfig タスクが完了していない場合に警告がログに記録されるまでの待機期間 listshardsbackofftimeinmillis RetrievalConfig 障害が発生した場合に ListShards を呼び出す間隔 ( ミリ秒 ) maxlistshardsretryattempts RetrievalConfig 失敗とみなすまでの ListShards の再試行の最大回数アイドル時間の削除 KCL の 1.x バージョンでは idletimebetweenreadsinmillis が 2 つの数量に相当しますタスクの送信チェックの間隔 CoordinatorConfig#shardConsumerDispatchPollIntervalMillis を設定することでタスク間の間隔を設定できるようになりました Kinesis Data Streams から返されるレコードがない場合に休止状態になるまでの時間バージョン 2.0 では拡張ファンアウトのレコードはそれぞれのレトリバーからプッシュされますシャードコンシューマーのアクティビティはプッシュされたリクエストが到着した場合にのみ発生しますクライアント設定の削除バージョン 2.0 では KCL はクライアントを作成しなくなりました有効なクライアントの提供はユーザーに任されますこの変更によりクライアントの作成を制御するすべての設定パラメータが削除されましたこれらのパラメータが必要な場合はクライアントを ConfigsBuilder に提供する前にクライアントで設定できます削除されたフィールド同等の設定 kinesisendpoint 優先エンドポイントを指定した SDK KinesisAsyncClient の設定 : KinesisAsyncClient.builder().endpointOverride(URI.create("https:// <kinesis endpoint>")).build(). dynamodbendpoint 優先エンドポイントを指定した SDK DynamoDbAsyncClient の設定 : DynamoDbAsyncClient.builder().endpointOverride(URI.create("https:// <dynamodb endpoint>")).build(). kinesisclientconfig 必要な設定を指定した SDK KinesisAsyncClient の設定 : KinesisAsyncClient.builder().overrideConfiguration(<your configuration>).build() dynamodbclientconfig 必要な設定を指定した SDK DynamoDbAsyncClient の設定 : DynamoDbAsyncClient.builder().overrideConfiguration(<your configuration>).build() 156

Amazon Kinesis Data Streams 開発者ガイドトラブルシューティング削除されたフィールド同等の設定 cloudwatchclientconfig 必要な設定を指定した SDK CloudWatchAsyncClient の設定 : CloudWatchAsyncClient.builder().overrideConfiguration(<your configuration>).build() regionname 優先リージョンを指定して SDK を設定しますこれはすべての SDK クライアントで同じですたとえば KinesisAsyncClient.builder().region(Region.US_WEST_2).build() と指定します Amazon Kinesis Data Streams コンシューマーのトラブルシューティング以下のセクションでは Amazon Kinesis Data Streams コンシューマーの操作中に発生する可能性がある一般的な問題に対する解決策を示します Kinesis クライアントライブラリの使用時に一部の Kinesis Data Streams レコードがスキップされる (p. 157) 同じシャードに属するレコードが異なるレコードプロセッサによって同時に処理される (p. 157) コンシューマーアプリケーションの読み取りの速度が予想よりも遅い (p. 158) ストリームにデータがある場合でも GetRecords が空の Records 配列を返す (p. 158) シャードイテレータが予期せずに終了する (p. 159) コンシューマーレコードの処理が遅れる (p. 159) 承認されていない KMS マスターキーの権限エラー (p. 160) Kinesis クライアントライブラリの使用時に一部の Kinesis Data Streams レコードがスキップされるレコードがスキップされる最も一般的な原因は processrecords からスローされる処理されない例外です Kinesis Client Library (KCL) は processrecords コードを使用してデータレコードの処理で発生するすべての例外を処理します processrecords からスローされるすべての例外は KCL によって吸収されます反復的なエラーに対する無限再試行を回避するために KCL では例外の発生時に処理中であったレコードのバッチを再送信しません KCL はレコードプロセッサを再起動することなくデータレコードの次のバッチで processrecords を呼び出しますこれにより事実上コンシューマーアプリケーションではレコードがスキップされたことになりますレコードのスキップを防止するには processrecords 内ですべての例外を適切に処理します同じシャードに属するレコードが異なるレコードプロセッサによって同時に処理される実行されている Kinesis Client Library (KCL) アプリケーションではシャードの所有者はひとりだけですただし複数のレコードプロセッサが一時的に同じシャードを処理する場合がありますネットワーク接続を紛失したワーカーインスタンスの場合 KCL はフェイルオーバー時間の期限が切れた後に到達できないワーカーはレコードを処理していないと仮定し他のワーカーインスタンスが引き継ぐように指示しますこのとき短時間ですが新しいレコードプロセッサと到達不可能なワーカーのレコードプロセッサが同じシャードのデータを処理する場合があります 157

Amazon Kinesis Data Streams 開発者ガイドコンシューマーアプリケーションの読み取りの速度が予想よりも遅いアプリケーションに適したフェイルオーバー時間を設定する必要があります低レイテンシーアプリケーションの場合 10 秒のデフォルトは待機する最大時間を表している場合がありますただしより頻繁に接続が失われる地域で通話を行うなどの接続問題が予想される場合この数値は低すぎる場合がありますネットワーク接続は通常以前の到達不可能なワーカーに復元されるためアプリケーションではこのシナリオを予期して処理する必要がありますレコードプロセッサのシャードが別のレコードプロセッサに引き継がれた場合レコードプロセッサは正常なシャットダウンを実行するために次の 2 つのケースを処理する必要があります 1. processrecords への現在の呼び出しが完了した後で KCL はシャットダウンの理由 ZOMBIE を使用してレコードプロセッサでシャットダウンメソッドを呼び出しますレコードプロセッサはすべてのリソースを必要に応じて適切にクリーンアップした後終了する必要があります 2. ゾンビワーカーからチェックポイントを作成しようとすると KCL は ShutdownException をスローしますこの例外を受け取った後コードは現在のメソッドを正常に終了する必要があります詳細については重複レコードの処理 (p. 163) を参照してくださいコンシューマーアプリケーションの読み取りの速度が予想よりも遅い読み取りのスループットが予想よりも遅くなる最も一般的な理由は次のとおりです 1. 複数おコンシューマーアプリケーションの読み取りの合計がシャードごとの制限を超えています詳細については Kinesis Data Streams の制限 (p. 8) を参照してくださいこの場合 Kinesis data stream のシャードの数を増やします 2. 呼び出しあたりの GetRecords の最大数を指定する制限に低い値が設定されています KCL を使用している場合はワーカーに設定した maxrecords プロパティの値が低い可能性があります一般的にこのプロパティにはシステムのデフォルトを使用することをお勧めします 3. processrecords 呼び出し内のロジックに予想よりも時間がかかる場合がありますこれにはロジックが CPU を大量に消費する I/O をブロックする同期のボトルネックになっているなど多くの理由が考えられますこれに該当するかどうかをテストするには空のレコードプロセッサをテスト実行し読み取りスループットを比較します受信データに遅れずに対応する方法についてはリシャーディング拡張並列処理 (p. 162) を参照してくださいコンシューマーアプリケーションが 1 つのみである場合通常 PUT レートの少なくとも 2 倍高速に読み取りを実行できますこれは書き込みについては最大 1 秒あたり 1,000 レコードデータの最大書き込み合計レートは 1 秒あたり 1 MB ( パーティションキーを含む ) まで書き込むことができるためです開いている各シャードは読み取りは最大 1 秒あたり 5 件のトランザクションデータ読み取りの最大合計レートは 1 秒あたり 2 MB をサポートできます各読み取り (GetRecords) はレコードのバッチを取得します GetRecords によって返されるデータのサイズはシャードの使用状況によって異なります GetRecords が返すことができるデータの最大サイズは 10 MB です呼び出しがその制限を返す場合次の 5 秒以内に行われるそれ以降の呼び出しは ProvisionedThroughputExceededException をスローしますストリームにデータがある場合でも GetRecords が空の Records 配列を返すレコードの消費つまり取得はプルモデルです開発者はバックオフがない連続ループで GetRecords を呼び出す必要があります GetRecords のすべての呼び出しは ShardIterator 値も返しますこの値はループの次のイテレーションで使用する必要があります 158

Amazon Kinesis Data Streams 開発者ガイドシャードイテレータが予期せずに終了する GetRecords オペレーションはブロックしませんその代わりに関連データレコードまたは空の Records 要素とともに直ちに制御を戻します空の Records 要素は 2 つの条件の下で返されます 1. 現在シャードにはそれ以上のデータがない. 2. シャードの ShardIterator で指定されたパートの近くにデータがない後者の条件は微妙ですがレコードを取得するときに無限のシーク時間 ( レイテンシー ) を回避するために必要な設計上のトレードオフですそのためストリームを使用するアプリケーションはループし GetRecords を呼び出して当然のこととして空のレコードを処理します本稼働シナリオで連続ループが終了するのは NextShardIterator の値が NULL である場合のみにする必要があります NextShardIterator が NULL である場合現在のシャードが閉じられ ShardIterator 値は最後のレコードを過ぎたことを示しますコンシューマーアプリケーションが SplitShard または MergeShards を呼び出さない場合シャードは開いたままになり GetRecords の呼び出しは NextShardIterator である NULL 値を返しません Kinesis Client Library (KCL) を使用する場合お客様に対しては前述の消費パターンは抽象化されますこれには動的に変更する一連のシャードの自動処理が含まれます KCL により開発者は入力レコードを処理するロジックのみを提供しますライブラリが自動的に GetRecords の継続的な呼び出しを行うためこれが可能になりますシャードイテレータが予期せずに終了する新しいシャードのイテレータは GetRecords リクエスト (NextShardIterator として ) 返されますこれは次の GetRecords リクエスト (ShardIterator として ) 使用します通常の場合このシャードイテレーターは使用する前に有効期限が切れることはありませんただし 5 分以上 GetRecords を呼び出さなかったためまたはコンシューマーアプリケーションの再起動を実行したためシャードイテレータの有効期限が切れる場合がありますシャードイテレーターの有効期限がすぐに切れて使用できない場合これは Kinesis で使用している DynamoDB テーブルの容量不足でリースデータを保存できないことを示している可能性がありますこの状況は多数のシャードがある場合により発生する可能性が高くなりますこの問題を解決するにはシャードテーブルに割り当てられた書き込み容量を増やします詳細については Amazon Kinesis Data Streams Application の状態の追跡 (p. 160) を参照してくださいコンシューマーレコードの処理が遅れるほとんどのユースケースでコンシューマーアプリケーションはストリームから最新のデータを読み取ります特定の状況下ではコンシューマーの読み取りが遅れるという好ましくない事態が発生しますコンシューマーの読み取りの遅れ具合を確認したら遅れの最も一般的な理由を参照してください GetRecords.IteratorAgeMilliseconds メトリクスを起動してストリーム内のすべてのシャードとコンシューマーの読み取り位置を追跡しますイテレータの経過日数が保持期間 ( デフォルトで 24 時間最大で 7 日まで設定可能 ) の 50% を経過すると失効する場合レコードの有効期限切れによるデータ損失のリスクがありますとりあえずの解決策は保持期間を長くすることですこれにより問題のトラブルシューティングを行う間に重要なデータが失われるのを防ぎます詳細については Amazon CloudWatch による Amazon Kinesis Data Streams サービスのモニタリング (p. 52) を参照してください次に Kinesis Client Library (KCL) MillisBehindLatest が出力するカスタム CloudWatch メトリクスを使用してコンシューマーアプリケーションの読み取りが各シャードからどのくらい遅れているかを確認します詳細については Amazon CloudWatch による Kinesis クライアントライブラリのモニタリング (p. 66) を参照してくださいコンシューマーが遅れる最も一般的な理由 : GetRecords.IteratorAgeMilliseconds の突然の上昇または MillisBehindLatest は通常ダウンストリームアプリケーションに対する API オペレーションの障害などの一時的な問題を示します 159

Amazon Kinesis Data Streams 開発者ガイド承認されていない KMS マスターキーの権限エラーどちらかのメトリクスが恒常的にこのような動きを示す場合この急激な上昇を調査する必要がありますこれらのメトリクスが徐々に上昇する場合はレコードの処理速度が不十分なためストリームにコンシューマーが追いついていないことを示しますこの状況に共通の原因は物理リソースの不足またはストリームスループットの上昇にレコード処理ロジックが追随できないことです processtask オペレーション (RecordProcessor.processRecords.Time Success RecordsProcessed など ) に関連して KCL が出力する他のカスタム CloudWatch メトリクスを確認することでこの状況を調査できますスループットの増加に伴う processrecords.time メトリクスの上昇が確認された場合レコード処理ロジックを分析してスループットの増加に対応したスケーリングができない理由を調べる必要がありますスループットの上昇とは関連性がない processrecords.time 値の上昇が認められた場合は重要なパスでブロック呼び出しを行っていないか確認しますこれはレコード処理の低下を招きます代替策としてシャードの数を増やして並列処理を増やす方法があります最後にピーク需要時に適切な容量の物理リソース ( メモリ CPU 使用率など ) が基盤の処理ノードに存在することを確認します承認されていない KMS マスターキーの権限エラーこのエラーは KMS マスターキーのアクセス許可なしでコンシューマーアプリケーションが暗号化されたストリームから読み取りを行ったときに発生します KMS キーにアクセスする権限をアプリケーションに割り当てる方法については AWS KMS でのキーポリシーの使用および AWS KMS での IAM ポリシーの使用を参照してください Amazon Kinesis Data Streams コンシューマーについての高度なトピック Amazon Kinesis Data Streams コンシューマーを最適化する方法を説明します目次 Amazon Kinesis Data Streams Application の状態の追跡 (p. 160) 低レイテンシー処理 (p. 161) Kinesis Producer Library での AWS Lambda の使用 (p. 162) リシャーディング拡張並列処理 (p. 162) 重複レコードの処理 (p. 163) Amazon Kinesis Data Streams の障害からの復旧 (p. 165) 起動シャットダウンスロットリングの処理 (p. 166) Amazon Kinesis Data Streams Application の状態の追跡 Amazon Kinesis Data Streams application ごとに KCL は固有の Amazon DynamoDB テーブルを使用してアプリケーションの状態を追跡します KCL では Amazon Kinesis Data Streams application 名からテーブル名を作成するため各アプリケーション名は一意である必要がありますアプリケーションの実行中に Amazon DynamoDB コンソールを使用してテーブルを表示できますアプリケーションの起動時に Amazon Kinesis Data Streams application の Amazon DynamoDB テーブルが存在しない場合はいずれかのワーカーがテーブルを作成し describestream メソッドを呼び出し 160

Amazon Kinesis Data Streams 開発者ガイド低レイテンシー処理てテーブルの値を設定します詳細についてはアプリケーション状態データ (p. 161) を参照してください Important アカウントには Kinesis Data Streams 自体に関連するコストに加えて DynamoDB テーブルに関連するコストが発生しますスループット Amazon Kinesis Data Streams application でプロビジョニングされたスループットの例外が発生した場合は DynamoDB テーブルのプロビジョニングされたスループットを増やす必要があります KCL がテーブルを作成するときにプロビジョニングされるスループットは 1 秒あたりの読み込み 10 回 1 秒あたりの書き込み 10 回ですがこれがユーザーのアプリケーションで十分でない場合がありますたとえば Amazon Kinesis Data Streams application が頻繁にチェックポイントを作成する場合や多くのシャードで構成されるストリームを処理する場合はより多くのスループットが必要になる可能性があります DynamoDB のプロビジョニングされたスループットの詳細については Amazon DynamoDB 開発者ガイドの Amazon DynamoDB でのプロビジョニングされたスループットとテーブルの操作に関する説明を参照してくださいアプリケーション状態データ DynamoDB テーブルの各行はアプリケーションによって処理中のシャードを表しますテーブルのハッシュキーは leasekey でありこれはシャード ID ですシャード ID に加えて各行には次のデータが含まれます checkpoint: シャードの最新チェックポイントのシーケンス番号この値はストリームのすべてのシャードで一意です checkpointsubsequencenumber: Kinesis プロデューサーライブラリの集約機能を使用する場合これは Kinesis レコード内の個別のユーザーレコードを追跡する checkpoint の拡張となります leasecounter: ワーカーのリースが他のワーカーに保持されていることをワーカーが検出できるようにリースのバージョニングに使用されます leasekey: リースの固有識別子各リースはストリームのシャードに固有のもので一度に 1 つのワーカーで保持されます leaseowner: このリースを保持しているワーカー ownerswitchessincecheckpoint: 最後にチェックポイントが書き込まれてからこのリースのワーカーが何回変更されたかを示します parentshardid: 子シャードの処理を開始する前に親シャードが完全に処理済みであることを確認するために使用しますこれによりレコードがストリームに入力されたのと同じ順序で処理されるようになります低レイテンシー処理伝達遅延はレコードがストリームに書き込まれた瞬間からコンシューマーアプリケーションによって読み取られるまでのエンドツーエンドのレイテンシーとして定義されますこの遅延はいくつかの要因によって異なりますが最も大きく影響するのはコンシューマーアプリケーションのポーリング間隔ですほとんどのアプリケーションについてはアプリケーションごとに各シャードを 1 秒に 1 回ポーリングすることをお勧めしますこの設定では Amazon Kinesis Data Streams の制限 (1 秒あたり 5 回の GetRecords 呼び出し ) を超えることなく複数のコンシューマーアプリケーションで同時に 1 つのストリームを処理できますさらに処理するデータバッチが大きくなるとアプリケーション内でネットワークおよび他の下流レイテンシーを効率的に短縮できる可能性が高くなります 161

Amazon Kinesis Data Streams 開発者ガイド Kinesis Producer Library での AWS Lambda の使用 KCL のデフォルト値は毎秒のポーリングのベストプラクティスに従うよう設定されていますこのデフォルト設定により平均的な伝達遅延は通常 1 秒未満になります Kinesis Data Streams レコードは書き込まれた後すぐに読み取り可能になりますこのことを利用しストリームが使用可能になったらすぐにストリームのデータ利用が必要になるユースケースもあります次の例に示されているように KCL のデフォルト設定を上書きしてポーリングの頻度を高くすると伝達遅延を大幅に短縮できます Java KCL の設定コードを次に示します kinesisclientlibconfiguration = new KinesisClientLibConfiguration(applicationName, streamname, credentialsprovider, workerid).withinitialpositioninstream(initialpositioninstream).withidletimebetweenreadsinmillis(250); Python および Ruby KCL のプロパティファイル設定を次に示します idletimebetweenreadsinmillis = 250 Note Kinesis Data Streams にはシャードごとに GetRecords を呼び出す回数として 1 秒あたり 5 回という上限があるため idletimebetweenreadsinmillis プロパティを 200 ms 未満に設定するとアプリケーションで ProvisionedThroughputExceededException 例外が発生する可能性がありますこの例外の発生回数が多くなりすぎるとエクスポネンシャルバックオフにつながり予期しない大幅なレイテンシーが処理中に生じることが考えられますこのプロパティを 200 ms または少し上に設定した場合も複数の処理アプリケーションが実行されていれば同様の調整が発生します Kinesis Producer Library での AWS Lambda の使用 Kinesis Producer Library (KPL) はユーザーがフォーマットした小さなレコードを最大 1 MB のレコードに集約して Amazon Kinesis Data Streams スループットをより有効に使用しますこれらのレコードの集約解除は KCL for Java でサポートされていますがストリームのコンシューマーとして AWS Lambda を使用している場合は特別なモジュールを使用してレコードを集約解除する必要があります必要なプロジェクトコードと指示は GitHub の Kinesis Producer Library Deaggregation Modules for AWS Lambda から取得できますこのプロジェクトのコンポーネントでは Java Node.js および Python で KPL のシリアル化されたデータを AWS Lambda 内で処理できますこれらのコンポーネントは複数言語 KCL アプリケーションの一部として使用することもできますリシャーディング拡張並列処理リシャーディングによってストリームのデータフロー率の変化に合わせてストリーム内のシャード数を増減できますリシャーディングは通常シャードのデータ処理メトリクスを監視する管理アプリケーションによって実行されます KCL 自体はリシャーディングオペレーションを開始しませんがリシャーディングに起因するシャードの数の変化に適応するように設計されています Amazon Kinesis Data Streams Application の状態の追跡 (p. 160) で説明したように KCL は Amazon DynamoDB テーブルを使用してストリーム内のシャードを追跡しますリシャーディングの結果として新しいシャードが作成されるときに KCL は新しいシャードを検出しテーブル内の新しい行に値を入力しますワーカーは自動的に新しいシャードを検出しシャードからのデータを処理するためにプロセッサを作成しますまた KCL はストリーム内のシャードを利用可能なすべてのワーカーとレコードプロセッサに分散させます KCL はリシャーディング前にシャードに存在していたすべてのデータが最初に処理されるようにしますこのデータが処理された後新しいシャードからのデータがレコードプロセッサに送信されますこ 162

Amazon Kinesis Data Streams 開発者ガイド重複レコードの処理のようにして KCL はデータレコードが特定のパーティションキーのストリームに追加された順序を保持します例 : リシャーディング拡張並列処理次の例は KCL を使用してスケーリングとリシャーディングを処理する方法を示していますアプリケーションが 1 つの EC2 インスタンスで実行中であり 4 つのシャードを含む 1 つの Kinesis data stream を処理しているとしますこの 1 つのインスタンスに 1 つの KCL ワーカーと 4 つのレコードプロセッサ ( 各シャードに 1 つのレコードプロセッサ ) がありますこの 4 つのレコードプロセッサは同一プロセス内で並列実行されます次に別のインスタンスを使用するようにアプリケーションを拡張し 2 つのインスタンスで 4 つのシャードを含む 1 つのストリームを処理するとします KCL ワーカーが 2 番目のインスタンスで起動すると最初のインスタンスとの間で負荷分散が行われ各インスタンスで 2 つのシャードが処理されるようになります次に 4 つのシャードを 5 つのシャードに分割するとします KCL は再度インスタンスでの処理を調整します一方のインスタンスが 3 つのシャードを処理しもう一方のインスタンスが 2 つのシャードを処理するように調整されますシャードをマージしたときにも同様の調整が行われます通常 KCL を使用する場合インスタンスの数がシャードの数を超過しないように注意します ( 障害に対するスタンバイを目的とする場合を除く ) 各シャードは厳密に 1 つの KCL ワーカーによって処理され対応するレコードプロセッサが厳密に 1 つ存在するため 1 つのシャードを処理するために複数のインスタンスが必要になることはありませんただし 1 つのワーカーで任意の数のシャードを処理できるためシャードの数がインスタンスの数を超過していても問題はありませんアプリケーションでの処理を拡張するには次のようなアプローチの組み合わせをテストする必要がありますインスタンスのサイズを拡張する ( すべてのレコードプロセッサがプロセス内で並列実行されるため ) 開くことができるシャードの最大数までインスタンスの数を増やす ( シャードを個別に処理できるため ) シャードの数を増やす ( 並列処理のレベルが向上する ) Auto Scaling を使用すると適切なメトリクスに基づいて自動的にインスタンスを拡張できます詳細については Amazon EC2 Auto Scaling ユーザーガイドを参照してくださいリシャーディングによってストリーム内のシャードの数が増加すると対応するレコードプロセッサの数も増加しこれらをホストする EC2 インスタンスの負荷が増大しますこのインスタンスが Auto Scaling グループの一部であり負荷の増加が十分である場合増加した負荷を処理するために Auto Scaling グループにインスタンスが追加されます新しいインスタンスで追加のワーカーやレコードプロセッサがすぐにアクティブになるようにインスタンスの起動時に Amazon Kinesis Data Streams application を起動するように設定してくださいリシャーディングの詳細についてはストリームをリシャーディングする (p. 44) を参照してください重複レコードの処理レコードが複数回 Amazon Kinesis Data Streams application に配信される理由は主にプロデューサーの再試行とコンシューマーの再試行の 2 つになりますアプリケーションは各レコードの複数回処理を予測して適切に処理する必要がありますプロデューサーの再試行プロデューサーで PutRecord を呼び出してから Amazon Kinesis Data Streams の受信確認を受け取るまでの間にネットワーク関連のタイムアウトを発生する場合がありますこの場合プロデューサーはレ 163

Amazon Kinesis Data Streams 開発者ガイド重複レコードの処理コードが Kinesis Data Streams に配信されたかどうかを確認できません各レコードがアプリケーションにとって重要であれば同じデータを使用して呼び出しを再試行するようにプロデューサーが定義されているはずです同じデータを使用した PutRecord の呼び出しが両方とも Kinesis Data Streams に正常にコミットされると Kinesis Data Streams レコードは 2 つになります 2 つのレコードはデータは同じでも一意のシーケンス番号が付けられています厳密な保証を必要とするアプリケーションは後で処理するときに重複を削除するようにレコード内にプライマリキーを埋め込む必要がありますプロデューサーの再試行に起因する重複の数がコンシューマーの再試行に起因する重複の数より通常は少ないことに注意してください Note AWS SDK の PutRecord を使用するとデフォルトの設定により失敗した PutRecord の呼び出しが 3 回まで再試行されますコンシューマーの再試行コンシューマー ( データ処理アプリケーション ) の再試行はレコードプロセッサが再開するときに発生します同じシャードのレコードプロセッサは次の場合に再開します 1. ワーカーが予期せず終了する 2. ワーカーのインスタンスが追加または削除される 3. シャードが結合または分割される 4. アプリケーションがデプロイされるこれらのすべての場合において負荷分散処理に対するシャードとワーカーとレコードプロセッサのマッピングは継続的に更新されます他のインスタンスに移行されたシャードプロセッサは最後のチェックポイントからレコードの処理を再開しますこれにより次の例に示すように重複レコード処理が発生します負荷分散の詳細についてはリシャーディング拡張並列処理 (p. 162) を参照してください例 : コンシューマーの再試行によるレコードの再配信この例ではストリームから継続的にレコードを読み取りローカルファイルにレコードを集約しこのファイルを Amazon S3 にアップロードするアプリケーションがあるとします分かりやすいように 1 つのシャードとこのシャードを処理する 1 つのワーカーがあるとします最後のチェックポイントがレコード番号 10000 であると仮定して次の例の一連のイベントを考えてみます 1. ワーカーでシャードから次のレコードのバッチを読み込みます (10001 から 20000) 2. 次にワーカーでそのレコードのバッチを関連付けられたレコードプロセッサに渡します 3. レコードプロセッサはデータを集約し Amazon S3 ファイルを作成してこのファイルを Amazon S3 に正常にアップロードします 4. 新しいチェックポイントが発生する前にワーカーが予期せず終了します 5. アプリケーションワーカーおよびレコードプロセッサが再開します 6. ワーカーは正常な最後のチェックポイント ( この場合は 10001) から読み込みを開始しましたしたがって 10001 から 20000 のレコードは複数回使用されますコンシューマーの再試行に対する弾力性レコードが複数回処理される可能性がある場合でもアプリケーションはレコードが 1 回だけ処理されたかのように副作用を示すことがあります ( べき等処理 ) この問題に対するソリューションは複雑さと正確性によって異なります最終データの送信先が重複を適切に処理できる場合はべき等処理の実行に最終送信先を使用することをお勧めしますたとえば Elasticsearch でバージョニングと一意の ID の組み合わせを使用して重複処理を回避できます 164

Amazon Kinesis Data Streams 開発者ガイド障害からの復旧前のセクションのサンプルアプリケーションではストリームから継続的にレコードを読み取りローカルファイルにレコードを集約しこのファイルを Amazon S3 にアップロードします図に示すように 10001 から 20000 のレコードが複数回使用されることにより複数の Amazon S3 ファイルのデータは同じになりますこの例の重複を減らす方法の 1 つはステップ 3 で次のスキーマを使用することです 1. レコードプロセッサは各 Amazon S3 ファイルに固定のレコード番号 (5000 など ) を使用します 2. ファイル名にはこのスキーマ (Amazon S3 プレフィックスシャード ID および First- Sequence-Num) を使用しますこの場合 sample-shard000001-10001 のようになります 3. Amazon S3 ファイルをアップロードした後で Last-Sequence-Num を指定してチェックポイントを作成しますこの場合レコード番号 15000 にチェックポイントが作成されますこのスキーマを使用するとレコードが複数回処理されても Amazon S3 ファイルには同じ名前と同じデータが保持されます再試行によってのみ同じファイルに同じデータが複数回書き込まれますリシャーディングオペレーションの場合シャードに残っているレコードの数は必要な一定数より少ないことがありますこの場合 shutdown() メソッドは Amazon S3 にファイルをフラッシュし最後のシーケンス番号でチェックポイントを作成する必要があります前述のスキーマもリシャーディングオペレーションと互換性があります Amazon Kinesis Data Streams の障害からの復旧 Amazon Kinesis Data Streams application を使用してストリームからのデータを処理するときに次のレベルで障害が発生する可能性がありますレコードプロセッサで障害が発生するワーカーで障害が発生するかそのワーカーをインスタンス化したこのアプリケーションのインスタンスで障害が発生するアプリケーションの 1 つ以上のインスタンスをホストしている EC2 インスタンスで障害が発生するレコードプロセッサの障害ワーカーは Java の ExecutorService タスクを使用してレコードプロセッサメソッドを呼び出しますタスクが失敗した場合でもワーカーはレコードプロセッサが処理中であったシャードの制御を保持していますワーカーはこのシャードを処理するために新しいレコードプロセッサタスクを開始します詳細については読み込みのスロットリング (p. 167) を参照してくださいワーカーまたはアプリケーションの障害ワーカー ( または Amazon Kinesis Data Streams application のインスタンス ) に障害が発生した場合状況を検出して処理する必要がありますたとえば Worker.run メソッドが例外をスローする場合この例外をキャッチして処理する必要がありますアプリケーション自体に障害が発生した場合はこれを検出し再起動する必要がありますアプリケーションは起動するときに新しいワーカーをインスタンス化しますこのワーカーが新しいレコードプロセッサをインスタンス化すると処理するシャードが自動的に割り当てられますこれらは障害が発生する前にこれらのレコードプロセッサが処理していたものと同じシャードにすることもこれらのプロセッサで新しいシャードにすることもできますワーカーやアプリケーションで障害が発生したがこの障害を検出しない場合このアプリケーションの他のインスタンスが他の EC2 インスタンスで実行されているときにはこれらのインスタンス上のワーカーが障害を処理しますこれらのインスタンスは障害が発生したワーカーで処理されなくなったシャードを処理するために追加のレコードプロセッサを作成しますこれにより他の EC2 インスタンスの負荷は増加します 165

Amazon Kinesis Data Streams 開発者ガイド起動シャットダウンスロットリングの処理ここで説明するシナリオではワーカーやアプリケーションに障害が発生した場合でもホストしている EC2 インスタンスは実行されているため Auto Scaling グループによって再起動されないことを前提としています Amazon EC2 インスタンスの障害アプリケーションの EC2 インスタンスを Auto Scaling グループで実行することをお勧めしますこのようにすることでいずれかの EC2 インスタンスに障害が発生した場合でも Auto Scaling グループによって自動的にそのインスタンスを置き換える新しいインスタンスが起動されます起動時に Amazon Kinesis Data Streams application を起動するようにこのインスタンスを設定する必要があります起動シャットダウンスロットリングの処理ここでは Amazon Kinesis Data Streams application の設計に取り入れる必要がある追加の考慮事項を示します目次データプロデューサとデータコンシューマーの起動 (p. 166) Amazon Kinesis Data Streams Application のシャットダウン (p. 166) 読み込みのスロットリング (p. 167) データプロデューサとデータコンシューマーの起動デフォルトでは KCL はストリームの末尾 ( 最後に追加されたレコード ) からレコードの読み込みを開始しますこの設定では受信側のレコードプロセッサが実行される前にデータプロデューサーアプリケーションがストリームにレコードを追加した場合レコードプロセッサが起動した後これらのレコードはレコードプロセッサによって読み込まれませんレコードプロセッサの動作を変更して常にストリームの先頭からデータを読み込むには Amazon Kinesis Data Streams application の properties ファイルで次の値を設定します initialpositioninstream = TRIM_HORIZON Amazon Kinesis Data Streams はレコードを 24 ~ 168 時間保持しますこの期間は保持期間と呼ばれます TRIM_HORIZON に起動ポジションを設定すると保持期間で定義されているとおりにストリームの古いデータを使用してレコードプロセッサが起動します TRIM_HORIZON 設定でもレコードプロセッサが保持期間経過後に起動した場合はストリームのデータの一部が使用できなくなりますそのためストリームから読み込むコンシューマーアプリケーションが常に存在しており CloudWatch メトリクス GetRecords.IteratorAgeMilliseconds を使用してアプリケーションが着信データに追随していることをモニタリングする必要がありますシナリオによってはレコードプロセッサでストリームの最初の数レコードが不足していても問題はない場合がありますたとえばストリームがエンドツーエンドで正常に機能していることをテストするためにストリームに最初の数レコードを送信できますこの初期確認を行った後ワーカーを起動しストリームへの本稼働データの送信を開始します TRIM_HORIZON の設定の詳細についてはシャードイテレーターを使用する (p. 138) を参照してください Amazon Kinesis Data Streams Application のシャットダウン Amazon Kinesis Data Streams application が目的のタスクを完了したらアプリケーションが実行されている EC2 インスタンスを削除することによってアプリケーションをシャットダウンする必要がありますインスタンスを終了するには AWS マネジメントコンソールまたは AWS CLI を使用します 166

Amazon Kinesis Data Streams 開発者ガイド起動シャットダウンスロットリングの処理 Amazon Kinesis Data Streams application のシャットダウン後に KCL でアプリケーションの状態を追跡するために使用した Amazon DynamoDB テーブルを削除する必要があります読み込みのスロットリングストリームのスループットはシャードレベルでプロビジョニングされます各シャードの読み込みスループットは読み取りは最大 1 秒あたり 5 件のトランザクションデータ読み取りの最大合計レートは 1 秒あたり 2 MB ですアプリケーション ( または同じストリームで動作するアプリケーションのグループ ) がシャードからデータをより高速に取得しようとすると Kinesis Data Streams は対応する GET オペレーションを調整します Amazon Kinesis Data Streams application ではレコードプロセッサが制限よりも高速にデータを処理する場合 ( フェイルオーバーの場合など ) にスロットリングが発生します Kinesis Client Library (p. 118) によってアプリケーションと Kinesis Data Streams とのやり取りが管理されるためスロットリング例外はアプリケーションコードではなく KCL コードで発生しますただし KCL によってこれらの例外がログに記録されるためログで例外を確認できますアプリケーションのスロットリングが一貫して行われる場合はストリームのシャードの数を増やすことを検討してください 167

Amazon Kinesis Data Streams 開発者ガイドドキュメント履歴以下の表は Amazon Kinesis Data Streams のドキュメントの重要な変更点をまとめたものです変更説明変更日拡張ファンアウトを使用するコンシューマー向けの新規ドキュメントサービスの制限の概要が更新されましたサーバー側の暗号化の新しいコンテンツ拡張 CloudWatch メトリクスの新しいコンテンツ拡張 Kinesis エージェントの新しいコンテンツ Kinesis エージェントを使用するための新しいコンテンツリリース 0.10.0 への KPL コンテンツの更新設定可能なメトリクスの KCL メトリクスのトピックの更新コンテンツの再編成新しい KPL 開発者ガイドのトピック新しい KCL メトリクスのトピック KCL.NET のサポート KCL Node.js のサポート KCL Ruby のサポート詳細については the section called 拡張ファンアウトでコンシューマーを使用する (p. 141) を参照してください Kinesis Data Streams の制限 (p. 8) が追加されましたサーバー側の暗号化の使用 (p. 82) が追加されました更新済み Amazon Kinesis Data Streams のストリームのモニタリング (p. 52). 更新済み Kinesis エージェントを使用した Amazon Kinesis Data Streams への書き込み (p. 105). Kinesis エージェントを使用した Amazon Kinesis Data Streams への書き込み (p. 105) が追加されました Amazon Kinesis Producer Library を使用したプロデューサーの開発 (p. 90) が追加されました Amazon CloudWatch による Kinesis クライアントライブラリのモニタリング (p. 66) が追加されましたコンテンツトピックを大幅に再編成しより簡潔なツリー表示とより論理的なグループ化を行いました Amazon Kinesis Producer Library を使用したプロデューサーの開発 (p. 90) が追加されました Amazon CloudWatch による Kinesis クライアントライブラリのモニタリング (p. 66) が追加されました.NET での Kinesis Client Library コンシューマーの開発 (p. 127) が追加されました Node.js での Kinesis Client Library コンシューマーの開発 (p. 124) が追加されました KCL Ruby ライブラリへのリンクを追加しました 2018 年 8 月 2 日 2018 年 6 月 6 日 2017 年 7 月 7 日 2016 年 4 月 19 日 2016 年 4 月 11 日 2015 年 10 月 2 日 2015 年 7 月 15 日 2015 年 7 月 9 日 2015 年 7 月 01 日 2015 年 6 月 02 日 2015 年 5 月 19 日 2015 年 5 月 1 日 2015 年 3 月 26 日 2015 年 1 月 12 日 168

Amazon Kinesis Data Streams 開発者ガイド変更説明変更日新しい API PutRecords タグ指定のサポート CloudWatch メトリクスの新規追加モニタリングに関する章の新規追加サンプルアプリケーションの新規追加デフォルトのシャード制限デフォルトのシャード制限 API バージョンに合わせた更新 the section called PutRecords を使用した複数のレコードの追加 (p. 101) に新しい PutRecords API に関する情報を追加しました Amazon Kinesis Data Streams でのストリームのタグ付け (p. 49) が追加されました GetRecords.IteratorAgeMilliseconds メトリックを Amazon Kinesis Data Streams のディメンションおよびメトリクス (p. 53) に追加しました Amazon Kinesis Data Streams のストリームのモニタリング (p. 52) と Amazon CloudWatch による Amazon Kinesis Data Streams サービスのモニタリング (p. 52) が追加されましたチュートリアル : Amazon Kinesis Data Streams を使用したウェブトラフィックの可視化 (p. 11) が追加されました Kinesis Data Streams の制限 (p. 8) の更新点 : デフォルトのシャード制限が 5 から 10 に増えました Kinesis Data Streams の制限 (p. 8) の更新点 : デフォルトのシャード制限が 2 から 5 に増えました Kinesis Data Streams API の 2013-12-02 バージョンに合わせた更新 2014 年 12 月 15 日 2014 年 9 月 11 日 2014 年 9 月 3 日 2014 年 7 月 30 日 2014 年 6 月 27 日 2014 年 2 月 25 日 2014 年 1 月 28 日 2014 年 1 月 3 日 2013 年 12 月 12 日初回リリース Amazon Kinesis Developer Guide の初回リリース 2013 年 11 月 14 日 169

Amazon Kinesis Data Streams 開発者ガイド AWS の用語集最新の AWS の用語については AWS General Reference の AWS の用語集を参照してください 170