データセンターの効率的な資源活用のためのデータ収集・照会システムの設計

データセンターの効率的な資源活用のためのデータ収集照会システムの設計株式会社ネットワーク応用通信研究所前田修吾 2014 年 11 月 20 日

本日のテーマデータセンターの効率的な資源活用のためのデータ収集照会システムの設計時系列データを効率的に扱うための設計 1

システムの目的データセンター内の機器のセンサーなどからデータを取集しその情報を元に機器の制御を行うことで電力消費量を抑制する収集したデータの中長期的なトレンドを分析し上記の制御を効率的に行うために活用する 2

アプリケーションの例直近の値に応じて機器を制御するアプリケーション値の推移をグラフで表示するアプリケーション中長期的なトレンドを分析するためのバッチ処理 3

収集する主なデータ時刻データが発生した時刻 Epochからの経過マイクロ秒数 ( 精度は変更の可能性あり ) 整数値データソースID データの発生源を表すID 整数値値データソースの種別によって意味が異なる値温度湿度 CPU 使用率メモリ使用量消費電力など任意の整数値 4

性能上の課題データ量データソース数 1 コンテナあたり 20,000 点程度データの取得間隔と保存期間レイテンシ取得間隔を 5 秒保存期間を 1 年とすると 1 コンテナあたり約 126G records データの発生 ~ データの登録にかかるレイテンシ問合せ ~ 応答にかかるレイテンシ数百ミリ秒 ~ 数秒同時アクセス数 5

Impala/BigQuery の採用 Impala Hadoop 上で動作する SQL クエリエンジン MapReduce の代りに独自の仕組みでクエリを分散実行する MapReduce を使用した SQL クエリエンジンである Hive に比べてメモリ使用量が大きい代りに高速 BigQuery Google が提供するビッグデータ分析サービスカラム型データストアとツリー構造のサーバ構成によりクエリを高速処理 6

データ登録のレイテンシ Imapala CSV を HDFS に書き込んだ上で Parquet フォーマットに変換 BigQuery レイテンシが高い Google Cloud Storage にアップロードした CSV/JSON ファイルを BigQuery にロードレイテンシが高い Streaming Insert で逐次登録レイテンシが低い quota: 10,000 ~ 100,000 rows per sec コストが高い : $0.01 per 100,000 rows 100,000 rows per sec で一日分 = $864 10 万円 7

レイヤーの分離 Speed layer? DC Batch layer Hadoop BigQuery 8

各レイヤーの役割 Speed layer 機器の制御に利用するようなデータを扱うデータの保存期間は短い低レイテンシ少データ Batch layer 分析に利用するため全データを扱う Speed layer のデータを含むデータの保存期間は長い高レイテンシ多データ Speed layerのデータは一時的なもの時間が経てばBatch layerにすべてのデータが格納される 9

システム構成 Speed layer Data Collector? Worker (Speed) Worker (Speed) API Server MQTT Broker Data Collector Impala Batch layer Worker (Impala) Worker (Impala) Message Queue API Server API Server Data Collector BigQuery Worker (BigQuery) Worker (BigQuery) 10

Speed layer のデータストア RDBMS or KVS? 11

シャーディング行単位でデータを複数サーバに分散シャードキーと呼ばれる特定の列の値によってデータを格納するシャードを決定する方法が一般的シャードキーの選択時刻をキーにする場合そのままシャードキーに使用すると常に現在の時刻が含まれるシャードに登録が集中しシャードの再配置が頻繁に起こるハッシュ値によるシャーディングではその問題はないが参照の局所性が失われるデータソース ID をキーにする場合特定のデータソースのデータを検索する場合は一つのシャードにアクセスするだけでよいため効率的同時刻のすべてのデータが欲しい場合にはすべてのシャードに問合せが必要 12

時刻によるシャーディング node1 0:00~1:00 node2 3:00~4:00 node3 6:00~7:00 1:00~2:00 4:00~5:00 7:00~8:00 2:00~3:00 5:00~6:00 9:00~10:00 select data_source_id, value from log_data where time >= '04:00' and time < '04:05' 10:00~11:00 11:00~12:00 13

データソース ID によるシャーディング node1 データソース 1 node2 データソース 4 node3 データソース 7 データソース 2 データソース 5 データソース 8 データソース 3 データソース 6 データソース 9 select data_source_id, value from log_data where time >= '04:00' and time < '04:05' 14

InfluxDB Time Series Database (TSDB) SQLライクなクエリをサポート時刻の範囲によってシャードを分割各シャード毎にLevelDBにデータを格納 15

LevelDB ネットワーク API を持たないシンプルな KVS キーによってデータがソートされている Sequential Read / Write が高速複数のレベルに分けてデータを保存新しいデータは Level-0 に入り古くなるにつれてより容量の大きいレベルに移動 Bloom filter によって探索するレベルの枝刈り 16

InfluxDB のシャーディング node1 node2 node3 0:00~1:00 1:00~2:00 2:00~3:00 3:00~4:00 4:00~5:00 5:00~6:00 6:00~7:00 7:00~8:00 9:00~10:00 10:00~11:00 11:00~12:00 select data_source_id, value from log_data where time >= '04:00' and time < '04:05' 17

シャードの expire node1 node2 node3 0:00~1:00 1:00~2:00 2:00~3:00 一定期間が過ぎた 3:00~4:00 シャードは削除 4:00~5:00 5:00~6:00 6:00~7:00 7:00~8:00 9:00~10:00 10:00~11:00 18

シャーディングレプリケーションと負荷分散参照は負荷分散できるが登録は負荷分散できないデータソースでシャードを分ければ登録負荷を分散できるが参照時に複数シャードへのアクセスが必要 node1 node2 node3 0:00~1:00 0:00~1:00 1:00~2:00 1:00~2:00 2:00~3:00 2:00~3:00 19

プレーンの分割データソース 8000 点 / 8 コンテナを一つの単位 (= プレーン ) として InfluxDB クラスタを分割クラスタ分割の前段階としてテーブル分割する? InfluxDB Cluster A PlaneID=A InfluxDB Cluster B Worker (Speed) Message Queue API Server App InfluxDB Cluster C 20

まとめスケーラビリティと低レイテンシを両立させるためレイヤーを分割 Speed layerには時系列データに適したinfluxdbを採用 InfluxDBの性能限界を考慮したプレーン分割 21

補足 InfluxDBでは時刻以外の検索や集計処理に時間がかかる Continuous Query 入力データに対して検索集計を継続的に実行結果は別テーブルに保存 22

データソース毎の分割データソース ID 毎に別のテーブルにデータを保存する select * from log_data into log_data.[data_source_id] データソース ID で検索する代りに分割されたテーブルを参照する select * from log_data.213 where time > now() - 1h 23

ダウンサンプリング 1 時間毎の平均値を別のテーブルに保存する select data_source_id, mean(value) from log_data group by time(1h) into log_data.mean.1h 24