自己紹介アマゾンウェブサービスジャパン株式会社ソリューションアーキテクト Amazon Kinesis うちうみえいいちろう内海英 Java LMAX Disruptor

AWS Black Belt Online Seminar AWS 上でのリアルタイムデータ分析入門アマゾンウェブサービスジャパン株式会社ソリューションアーキテクト内海英一郎郎 2016.12.06

自己紹介アマゾンウェブサービスジャパン株式会社ソリューションアーキテクト Amazon Kinesis うちうみえいいちろう内海英一郎郎 @eiichirouchiumi Java LMAX Disruptor

内容についての注意点本資料料では 2016 年年 12 月 6 日時点のサービス内容および価格についてご説明しています最新の情報は AWS 公式ウェブサイト (http://aws.amazon.com/) にてご確認ください資料料作成には十分注意しておりますが資料料内の価格と AWS 公式ウェブサイト記載の価格に相違があった場合 AWS 公式ウェブサイトの価格を優先とさせていただきます価格は税抜表記となっています日本居住者のお客様が東京リージョンを使用する場合別途消費税をご請求させていただきます AWS does not offer binding price quotes. AWS pricing is publicly available and is subject to change in accordance with the AWS Customer Agreement available at http://aws.amazon.com/agreement/. Any pricing information included in this document is provided only as an estimate of usage charges for AWS services based on certain information that you have provided. Monthly charges will be based on your actual use of AWS services, and may vary from the estimates provided.

Agenda はじめに Data- at- Rest 分析のリアルタイム化 Data- in- Motion 分析全体アーキテクチャ

はじめに

はるか遠い昔データ分析はヒストリカルレポートやダッシュボードそのものであった M. Gualtieri, Forrester @ AWS re:invent 2014

今日のデータ分析は過去現在を知り近未来を予測するものへと変わっている M. Gualtieri, Forrester @ AWS re:invent 2014

多くのデータは持続的に生成されるモバイルアプリケーション Web クリックストリームアプリケーションログメータリングレコード IoT センサースマートビルディング

データの価値は時間の経過とともに減少する Perishable Insights M. Gualtieri, Forrester 新しいデータほど意思決定における価値が高い ( もしその効力力が失われる前にアクションが起こせるのであれば ) リアルタイム分析の必要性

Data- at- Rest 分析のリアルタイム化蓄積されたデータをリアルタイムに分析するには?

リアルタイムな Data- at- Rest 分析の核となるアプローチ Continuous Load 大きなデータセットを長いインターバルでデータストアにバッチロード小さなデータセットを短いインターバルでデータストアに継続的にロードデータセットインターバルデータセットインターバル大きい長い小さい短い

リアルタイムな Data- at- Rest 分析のパイプライン収集から配信までを継続的に実行行バッチで収集処理理配信を実行行収集処理理配信蓄積分析アクション継続的に収集から配信までを実行行収集収集処理理処理理配信配信蓄積分析アクション

リアルタイムな Data- at- Rest 分析における AWS サービスの選択例例収集収集処理理処理理配信配信蓄積分析アクション Amazon S3 Amazon EMR Amazon Kinesis Streams AWS Lambda Amazon Kinesis Firehose Amazon Redshift Amazon QuickSight Amazon Elasticsearch Service Amazon Elasticsearch Service (Kibana)

Amazon Kinesis Streams ストリーミングデータを処理理するためのアプリケーションを独自に構築 1 管理理が容易易必要なキャパシティをセットしてストリームを作成するだけで利利用可能スループットやデータ量量の変化に応じてスケール 2 独自のリアルタイムアプリケーション Amazon Kinesis Client Library, Apache Spark/Storm, AWS Lambda 等を利利用してストリーム処理理を実装 3 低コストあらゆるスケールのワークロードで高いコスト効果

Kinesis Streams の主要なコンセプトデータレコード Kinesis Streams エンドポイントストリームシャード 0 シャード 1 シャード..N Amazon S3 DynamoDB Amazon Redshift Amazon EMR データ送信側データ処理理側データの種類や処理理の用途に応じてストリームを作成ストリームは 1 つ以上のシャードで構成保存されるデータの単位をデータレコードと呼び保持期間はデフォルトで 24 時間 / 最長で 7 日間 1 データレコードの最大サイズは 1 MB データ送信側のキャパシティは 1 シャードあたり秒間 1 MB もしくは 1,000 PUT レコードデータ処理理側のキャパシティは 1 シャードあたり秒間 2 MB もしくは 5 回の読み取りトランザクションストリーム内のシャード数を増減することでスループットをコントロール

AWS Lambda イベントをトリガーにコードを実行行するコンピュートサービスイメージのリサイズやサムネイルの作成元画像 1 3 Amazon S3 Bucket イベントサムネイル画像 2 値チェックや別テーブルへのコピー Amazon DynamoDB Table and Stream AWS Lambda AWS Lambda 別テーブルを更更新プッシュ通知特徴 (http://aws.amazon.com/jp/lambda/) OS キャパシティ等インフラの管理理不不要 S3 Kinesis SNS 等でのイベント発生を元にユーザが用意したコード (Node.js 等 ) を実行行ユーザアプリからの同期 / 非同期呼び出し価格体系 (http://aws.amazon.com/jp/lambda/pricing/) コード実行行時間 (100ms 単位 ) Lambda ファンクションへのリクエスト回数 1 月あたり 100 万リクエスト 400,000GB/ 秒が無料料で利利用可能

Amazon Kinesis Firehose ストリーミングデータを Amazon S3, Amazon Redshift, Amazon ES へ簡単に配信 1 管理理不不要アプリケーションの実装やインフラストラクチャーの管理理を一切切行行わずに Amazon S3 / Amazon Redshift / Amazon ES にデータを配信可能 2 データストアとダイレクトに統合シンプルな設定でストリーミングデータのバッチ化圧縮暗号化が可能最短 60 秒でデータを配信 3 シームレスにスケールデータのスループットに応じて自動的にスケール

Kinesis Firehose の主要なコンセプトデータレコード Kinesis Firehose エンドポイント Amazon S3 配信ストリーム Amazon Redshift 配信ストリーム Amazon ES 配信ストリーム Amazon S3 Amazon Redshift Amazon ES データ送信側配信先に応じて配信ストリームを作成シャードの作成やパーティションキーの指定不不要 1 データレコードの最大サイズは 1 MB 制限なしにスケールするよう設計米国東部 ( バージニア北北部 )/ 米国西部 ( オレゴン )/ 欧州 ( アイルランド ) リージョンで利利用可能

Amazon Simple Storage Service (S3) マネージドオンラインストレージサービス Amazon S3 特徴 (http://aws.amazon.com/jp/s3/) 高い堅牢牢性 99.999999999% 格納容量量無制限利利用した分のみ課金金様々な AWS サービスと連携するセンターストレージ価格体系 (http://aws.amazon.com/jp/s3/pricing/) データ格納容量量データ転送量量 (OUT) APIリクエスト数

Amazon Redshift フルマネージドのデータウェアハウスサービス Redshift 10Gb Ether SQL クライアント /BI ツール 128GB RAM Leader 16 cores Node 16TB disk JDBC/ODBC 大規模分散処理理で分析 SQL を高速実行行特徴 (http://aws.amazon.com/jp/redshift/) 160GB から最大 2PB まで拡張可能超並列列 (MPP) カラムナ型 DB エンジンによる高速処理理他の AWS サービスとの高い親和性 128GB RAM Compute 16 cores Node 16TB disk 128GB RAM Compute 16 cores Node 16TB disk 128GB RAM Compute 16 cores Node 16TB disk 従来のデータウェアハウスの 1/10 のコスト価格体系 (http://aws.amazon.com/jp/redshift/pricing/) インスタンスタイプに応じ 1 時間単位 ( インスタンスにはストレージを内蔵 ) バックアップストレージは利利用量量に応じて

Amazon Elasticsearch Service ELK(Elasticsearch, Logstash, Kibana)スタックをサポートしたマネージドAnalyticsサービス Data Source Logstash 特徴 ( https://aws.amazon.com/jp/elasticsearch- service/ ) ElasticsearchのAPIをそのまま利利用可能 AWSのサービスと連携した構成を簡単に構築例例) CloudWatch Logs - > Lambda - > Amazon ES DynamoDB Streams - > Logstash - > Amazon ES Amazon ES 検索索ドメインを作成すると同時にKibanaが利利用可能日本語解析に対応 Elasticsearch ICUプラグイン Elasticsearch Kuromojiプラグイン価格体系 ( https://aws.amazon.com/jp/elasticsearch- service/pricing/ ) Elasticsearchインスタンス時間 Amazon EBSストレージ

Amazon Elastic MapReduce (EMR) フルマネージドな Hadoop を提供利利用者は運用を気にせず Hadoop アプリケーションの開発や利利用が可能 Amazon EMR クラスタ Hadoop Hadoop AWS サービスとの連携特徴 (http://aws.amazon.com/jp/elasticmapreduce/) フルマネージド : クラスタの構築から構成変更更破棄まですべてマネージしてくれる自動化 :Amazon EMR の API を利利用するとジョブに合わせてクラスタを起動し実行行させ終了了したらクラスタを破棄というような自動化が容易易 AWS:Amazon S3 や Amazon DynamoDB からデータの入出力力が可能価格体系 (http://aws.amazon.com/jp/elasticmapreduce/pricing/) EMR を使った全体費用考え方時間あたりの EMR 費用 + 時間あたりの EC2(EMR によって起動される Hadoop クラスタを構成する EC2) 費用例例えば東京リージョンで c3.xlarge * 8 のクラスタ (EMR $0.053 + EC2 $0.255) * 8 / hour

Amazon QuickSight 高速 SPICE エンジンと直感的な操作専門家不不要の BI 特徴 (https://aws.amazon.com/jp/quicksight/) 1 ユーザあたり $9/ 月からの安価な費用専門家不不要でデータ分析がすぐに始められる AWS 内外のデータソースと連携 SPICE エンジンによる高速処理理既存 BI システムと SPICE の連携も可能価格体系 (https://aws.amazon.com/jp/quicksight/pricing/) Standard Edition $12/ ユーザ / 月もしくは $9/ ユーザ / 月 (1 年年間契約の場合 ) $0.25/GB/ 月 - SPICE ストレージ (10GB を超えた分 ) Enterprise Edition $24/ ユーザ / 月もしくは $18/ ユーザ / 月 (1 年年間契約の場合 ) 0.38/GB/ 月 - SPICE ストレージ (10GB を超えた分 )

Data- in- Motion 分析流流れているデータを ( リアルタイムに ) 分析するには?

Data- in- Motion 分析の核となるアプローチ Continuous Query アドホックなクエリーを永続化されたデータセットに適用すると都度度結果セットが得られる永続化されたクエリーを継続的にストリーミングデータに適用すると結果ストリームが得られるクエリーデータクエリーデータ一時的永続的永続的一時的

Data- in- Motion 分析のパイプラインデータの蓄積前に分析アクションを継続的に実行行蓄積したデータを分析してアクションを起こす収集収集処理理処理理配信配信蓄積分析アクション分析してアクションを起こした後にデータを配信蓄積収集収集処理理処理理分析分析配信配信蓄積アクションアクション

Data- in- Motion 分析における AWS サービスの選択例例収集収集処理理処理理分析分析配信配信蓄積アクションアクション Amazon S3 Amazon Kinesis Streams Amazon Kinesis Streams Amazon Kinesis Streams AWS Lambda Amazon Kinesis Analytics AWS Lambda Amazon Kinesis Firehose Amazon Redshift Amazon Elasticsearch Service

Amazon Kinesis Analytics ストリーミングデータを標準的な SQL クエリーでリアルタイムに分析 1 標準 SQL 複雑な処理理フレームワークやプログラミング言語の学習不不要 2 リアルタイム分析アプリケーション秒以下のレイテンシーでストリーミングデータを継続的に分析 3 弾力力的にスケールデータのスループットに応じて処理理能力力を伸縮オペレーションの介入不不要

Kinesis Analytics の主要なコンセプトアプリケーションアプリケーション内部出力力ストリーム SQL 参照テーブルストリーミングソース (Kinesis Streams または Kinesis Firehose) アプリケーション内部入力力ストリーム参照ソースアプリケーション内部エラーストリームストリーミングデスティネーション (Kinesis Streams または Kinesis Firehose) 分析単位にアプリケーションを作成し入力力 / 出力力となるストリーミングソース / デスティネーションを設定ストリーミングソース / デスティネーションをアプリケーション内部の入力力 / 出力力ストリームにマッピングアプリケーション内部の入力力ストリームを分析し結果を出力力ストリームへ出力力する SQL を記述 1 入力力行行の最大サイズは 50 KB/ 参照ソースの最大サイズは 1 GB クエリーの複雑さとデータのスループットに応じて処理理能力力 (KPU Kinesis Processing Units) を自動伸縮米国東部 ( バージニア北北部 )/ 米国西部 ( オレゴン )/ 欧州 ( アイルランド ) リージョンで利利用可能

アプリケーション内部ストリームとポンプ内部 ( 入力力 ) ストリームポンプ内部 ( 出力力 ) ストリーム SQL SOURCE_SQL_STREAM_001 STREAM_PUMP DESTINATION_SQL_STREAM CREATE OR REPLACE STREAM "DESTINATION_SQL_STREAM" ( ticker_symbol VARCHAR(4), sector VARCHAR(12), change REAL, price REAL); CREATE OR REPLACE PUMP "STREAM_PUMP" AS INSERT INTO "DESTINATION_SQL_STREAM SELECT STREAM ticker_symbol, sector, change, price FROM "SOURCE_SQL_STREAM_001 ;

様々なタイムスタンプイベント時刻収集時刻処理理時刻 your_own_event_time_column approximate_arrival_time rowtime CREATE OR REPLACE PUMP "STREAM_PUMP" AS INSERT INTO "DESTINATION_SQL_STREAM SELECT STREAM your_own_event_time_column, approximate_arrival_time, rowtime FROM "SOURCE_SQL_STREAM_001";

ウィンドウ問い合わせタンブリングウィンドウ FROM "SOURCE_SQL_STREAM_001" GROUP BY ticker_symbol, FLOOR("SOURCE_SQL_STREAM_001".rowtime TO MINUTE); スライディングウィンドウ FROM "SOURCE_SQL_STREAM_001" WINDOW last_hour AS (PARTITION BY ticker_symbol RANGE INTERVAL '1' HOUR PRECEDING), last_two_rows AS (PARTITION BY ticker_symbol ROWS 2 PRECEDING);

分析準備の例例フィルタリング CREATE OR REPLACE STREAM "DESTINATION_SQL_STREAM" ( ticker_symbol VARCHAR(4), sector VARCHAR(12), change REAL, price REAL); CREATE OR REPLACE PUMP "STREAM_PUMP" AS INSERT INTO "DESTINATION_SQL_STREAM SELECT STREAM ticker_symbol, sector, change, price FROM "SOURCE_SQL_STREAM_001" WHERE sector SIMILAR TO '%TECH%'; 内部 ( 出力力 ) ストリーム "DESTINATION_SQL_STREAM" を宣言ポンプ "STREAM_PUMP" を宣言 sector カラムの値が '%TECH%' に正規表現マッチする行行のみを抽出

分析準備の例例文字列列操作 CREATE OR REPLACE STREAM "DESTINATION_SQL_STREAM" ( ingest_time TIMESTAMP, referrer VARCHAR(32)); CREATE OR REPLACE PUMP "MY_PUMP" AS INSERT INTO "DESTINATION_SQL_STREAM" SELECT STREAM "APPROXIMATE_ARRIVAL_TIME", SUBSTRING(referrer, 12, ( POSITION('.com' IN referrer) - POSITION('www.' IN referrer) - 4)) FROM "SOURCE_SQL_STREAM_001"; 内部 ( 出力力 ) ストリーム "DESTINATION_SQL_STREAM" を宣言ポンプ "MY_PUMP" を宣言 referrer カラムの値から SUBSTRING() 関数にて単純ドメイン名の部分文字列列を抽出

分析準備の例例参照テーブルの結合 CREATE OR REPLACE STREAM "DESTINATION_SQL_STREAM" ( ticker_symbol VARCHAR(4), company VARCHAR(20), sector VARCHAR(12), change DOUBLE, price DOUBLE); CREATE OR REPLACE PUMP "STREAM_PUMP" AS INSERT INTO "DESTINATION_SQL_STREAM" SELECT STREAM ticker_symbol, c."company", sector, change, price FROM "SOURCE_SQL_STREAM_001" LEFT JOIN "CompanyName" c ON "SOURCE_SQL_STREAM_001".ticker_symbol = c."ticker"; ( 参照テーブル "CompanyName" をアプリケーションに事前追加 ) 内部 ( 出力力 ) ストリーム "DESTINATION_SQL_STREAM"/ ポンプ "STREAM_PUMP" を宣言内部 ( 入力力 ) ストリーム "SOURCE_SQL_STREAM_001" に参照テーブルを外部結合ティッカーシンボルが一致した場合に参照テーブルから "Company" カラムの値を出力力

基本的な分析の例例アイテム数のカウント CREATE OR REPLACE STREAM DESTINATION_SQL_STREAM ( number_of_distinct_items BIGINT); CREATE OR REPLACE PUMP "STREAM_PUMP" AS INSERT INTO "DESTINATION_SQL_STREAM SELECT STREAM * FROM TABLE(COUNT_DISTINCT_ITEMS_TUMBLING( CURSOR(SELECT STREAM * FROM "SOURCE_SQL_STREAM_001"), 'ticker_symbol', 60)); 内部 ( 出力力 ) ストリーム "DESTINATION_SQL_STREAM" を宣言ポンプ "STREAM_PUMP" を宣言 COUNT_DISTINCT_ITEMS_TUMBLING() 関数へ "SOURCE_SQL_STREAM_001" へのカーソルを設定出現した ticker_symbol の種類を 60 秒のタンブリングウィンドウからカウントしテーブルへ変換

基本的な分析の例例シンプルなアラート CREATE OR REPLACE STREAM "DESTINATION_SQL_STREAM" ( ticker_symbol VARCHAR(4), avg_change DOUBLE); CREATE OR REPLACE PUMP "STREAM_PUMP" AS INSERT INTO "DESTINATION_SQL_STREAM SELECT STREAM ticker_symbol, avg_change FROM ( SELECT STREAM ticker_symbol, AVG(change) OVER w1 AS avg_change FROM "SOURCE_SQL_STREAM_001 WINDOW w1 AS (PARTITION BY ticker_symbol RANGE INTERVAL '10' SECOND PRECEDING)) WHERE ABS(avg_change) > 1; 内部 ( 出力力 ) ストリーム "DESTINATION_SQL_STREAM" を宣言ポンプ "STREAM_PUMP" を宣言 10 秒のスライディングウィンドウから ticker_symbol ごとに変化量量の平均値を算出変化量量の平均値の絶対値が 1 を超える行行のみを抽出

応用的な分析の例例アノマリーディテクション ( 異異常検出 ) CREATE OR REPLACE STREAM "TEMP_STREAM" ( ticker_symbol VARCHAR(4), change DOUBLE, price DOUBLE, anomaly_score DOUBLE); CREATE OR REPLACE STREAM "DESTINATION_SQL_STREAM" ( ticker_symbol VARCHAR(4), change DOUBLE, price DOUBLE, anomaly_score DOUBLE); CREATE OR REPLACE PUMP "STREAM_PUMP" AS INSERT INTO "TEMP_STREAM SELECT STREAM ticker_symbol, c, p, anomaly_score FROM TABLE(RANDOM_CUT_FOREST(CURSOR( SELECT STREAM ticker_symbol, CAST(change AS DOUBLE) AS c, CAST(price AS DOUBLE) AS p FROM "SOURCE_SQL_STREAM_001"))); CREATE OR REPLACE PUMP "OUTPUT_PUMP" AS INSERT INTO "DESTINATION_SQL_STREAM SELECT STREAM * FROM "TEMP_STREAM ORDER BY FLOOR("TEMP_STREAM".rowtime TO SECOND), anomaly_score DESC; 内部 ( 出力力 ) ストリーム TEMP_SQL_STREAM および "DESTINATION_SQL_STREAM" を宣言ポンプ STREAM_PUMP および OUTPUT_PUMP を宣言 RANDOM_CUT_FOREST() 関数にて変化量量と価格からアノマリースコアを算出 1 秒のタンブリングウィンドウで行行をアノマリースコアの降降順にソート

全体アーキテクチャ

Data- at- Rest 分析と Data- in- Motion 分析のアプローチを統合永続化されたクエリーを継続的にストリーミングデータに適用すると結果ストリームが得られる + 小さなデータセットを短いインターバルでデータストアに継続的にロード分析結果ストリームをデータストアに継続的にロード

Data- at- Rest 分析と Data- in- Motion 分析のパイプラインを統合継続的に収集から配信までを実行収集収集処理処理配信配信蓄積分析アクション + 分析してアクションを起こした後にデータを配信蓄積アクアク収集収集処理処理分析分析配信配信蓄積ションション継続的に分析アクションを起こした後のデータを配信蓄積し繰り返し再分析アクアク収集収集処理理処理理分析分析配信配信ションション蓄積分析アクション

リアルタイムデータ分析における AWS サービスの選択例例アクアク収集収集処理理処理理分析分析配信配信ションション蓄積分析アクション Amazon S3 Amazon EMR Amazon Kinesis Streams Amazon Kinesis Streams Amazon Kinesis Streams AWS Lambda Amazon Kinesis Analytics AWS Lambda Amazon Kinesis Firehose Amazon Redshift Amazon QuickSight Amazon Elasticsearch Service Amazon Elasticsearch Service (Kibana)

オンラインセミナー資料料の配置場所 AWS クラウドサービス活用資料料集 http://aws.amazon.com/jp/aws- jp- introduction/ AWS Solutions Architect ブログ最新の情報セミナー中の Q&A 等が掲載されています http://aws.typepad.com/sajp/

公式 Twitter/Facebook AWS の最新情報をお届けします @awscloud_ jp 検索索もしくは http://on.fb.me/1vr8ywm 最新技術情報イベント情報お役立立ち情報お得なキャンペーン情報などを日々更更新しています!

AWS の導入お問い合わせのご相談 AWS クラウド導入に関するご質問お見見積り資料料請求をご希望のお客様は以下のリンクよりお気軽にご相談ください https://aws.amazon.com/jp/contact- us/aws- sales/ AWS 問い合わせで検索索してください

自 己紹介 アマゾンウェブサービス ジャパン株式会社 ソリューションアーキテクト Amazon Kinesis うちうみえいいちろう 内海英 Java LMAX Disruptor

自己紹介アマゾンウェブサービスジャパン株式会社ソリューションアーキテクト Amazon Kinesis うちうみえいいちろう内海英 Java LMAX Disruptor