アジェンダ WG1( 性能ワーキンググループ ) の今年度テーマ今年度の成果物実施体制活動報告 1: 定点観測 ( スケールアップ検証 ) 活動報告 2: パーティショニング検証活動報告 3: ハードウェア活用 (SSD) 検証活動報告 4: スケールアウト検証 (Postgres-XC)

大規模 DB を見据えた PostgreSQL の性能検証 2013 年度活動成果報告 PostgreSQL エンタープライズコンソーシアム WG1( 性能 WG)

アジェンダ WG1( 性能ワーキンググループ ) の今年度テーマ今年度の成果物実施体制活動報告 1: 定点観測 ( スケールアップ検証 ) 活動報告 2: パーティショニング検証活動報告 3: ハードウェア活用 (SSD) 検証活動報告 4: スケールアウト検証 (Postgres-XC) 2013 年度活動をふりかえって付録 : 検証環境について 2

WG1( 性能ワーキンググループ ) の今年度テーマ定点観測 ( スケールアップ検証 ) 多コア CPU での PostgreSQL 9.3 の到達点を検証 9.2 との比較 page checksum の性能影響パーティショニング検証パーティションテーブルへの投入検索メンテナンス性能検証ハードウェア活用 (SSD) 検証 SSD 採用時の性能向上を配置パターン別アクセスプラン別に検証スケールアウト検証 (Postgres-XC) Postgres-XC のスケールアウト特性を検証 3

今年度の成果物各テーマごとに実施した検証手順および結果を文書化検証環境のハードソフト構成検証結果データを公開 2013 年度 WG1 活動報告として一冊にまとめた冊子を2014 年 4 月に公開 4

実施体制参加企業 ( 企業名順 ) 株式会社アイアイエム株式会社アシスト SRA OSS, Inc. 日本支社 NECソリューションイノベータ株式会社日本電気株式会社日本電信電話株式会社日本ヒューレットパッカード株式会社株式会社日立製作所富士通株式会社 ( 主査 ) 5

活動報告 1 定点観測 ( スケールアップ検証 ) 6

定点観測 ( スケールアップ検証 ) 概要 pgbench で計測スケールファクタ 1000 で初期化 (DB サイズは 15GB) ランダムに10000 行取得するカスタムスクリプトを300 秒ずつ実行 pgbench-sでは十分な負荷がかからないため 3 回の計測結果の中央値を結果とした計測内容は以下 3 項目 9.2 と 9.3 の参照性能の比較 9.3 の pagechecksum 機能有無での参照性能の比較 9.3 の CPU コア数によるスケールアウト 7

9.2 と 9.3 の参照性能の比較コア数と同じ 80 クライアントが最大 TPS となり同傾向 T P S PostgreSQL9.2 PostgreSQL9.3 CPU コア数 :80 クライアント数 :1~128 クライアント数 32 以降で 9.3 は 9.2 より最大 14% 低い 9.3 の方が CPUidle が高い昨年度 9.2 用にカスタマイズしたスクリプトだったので 9.3 では十分な負荷がかからなかった? クライアント数 8

9.3 page checksum 有無での参照性能の比較 (1) pagechecksum のオーバヘッドはおもに計算処理なのでクライアント数が多いと影響が大きい T P S page checksum 無し page checksum ありクライアント数が少なく CPU 利用率が低い場合にはその影響はほとんど無いと言える CPU コア数 :80 クライアント数 :1~128 クライアント数 9

9.3 page checksum 有無での参照性能の比較 (2) Makefile の CFLAGS に -msse4.1 -funroll-loops -ftree-vectorize をつけてインストールした PostgreSQL9.3 同時接続クライアント数が多いときには pagechecksum 無しより有りの方がよい TPS に T P S page checksum 無し page checksum あり page checksum あり ( コンパイルオプションつき ) CPU コア数 :80 クライアント数 :1~128 コンパイルオプションの変更によって pagechecksum 処理以外のところにも良い影響が出た? クライアント数 10

コア数変動での同時実行参照性能同時接続クライアント数を 80 に固定しコア数を変化させた PostgreSQL9.3 TPS はほぼコア数に比例して向上し PostgreSQL のスケールアウト性能が良好と言える CPU コア数 :1~80 クライアント数 :80 CPU コア数 11

活動報告 2 パーティショニング検証 12

検証概要検証目的処理データ量の増大に対する対応手段としてのパーティショニングの効果パーティショニングの更新処理方式による性能差検証検証環境 DB サーバのサーバ環境 ( 測定用クライアントは DB サーバ上で実行 ) 検証シナリオ CPU メモリインテル Xeon プロセッサー E5-2690(2.90GHz, 8C/16T, 20MB)*2 128GB OS Redhat Enterprise Linux 6 アクセスログの格納先としてPostgreSQLのパーティションテーブルを使用 1 日分のデータに対する集計検索を実行一定期間 (1,3,6ヶ月) データを保存し日次で1 日分のデータを削除ログ親テーブル削除子テーブル (3 月 31 日 ) 子テーブル (3 月 30 日 ) 子テーブル (3 月 29 日 ) 子テーブル (1 月 1 日 ) 13

検証項目方法結果検証項目挿入性能検索性能運用性能検証方法トリガ関数の実装別性能静的関数 (PL/pgSQL) 動的関数 (PL/pgSQL) C 言語関数各パーティションへの直接挿入 ( トリガ関数を使用しない ) 1 日分のデータを対象とした集計処理 SeqScan Index_Scan Bitmap_Scan 1 日分のデータ削除および VACUUM パーティションを指定した TRUNCATE 条件指定の DELETE( 非パーティション表 ) VACUUM( 非パーティション表 ) 比較対象トリガ関数の実装別処理時間を比較トリガ関数 / パーティション表への直接挿入比較パーティション表 / 非パーティション表検索比較パーティション表 / 非パーティション表性能比較検証結果高速な順に 1. 直接挿入 2.C 言語関数 3. 動的関数 4. 静的関数静的関数は圧倒的に遅く測定を一部断念いずれの検索プランでもパーティション表の応答時間が 4~6 倍高速今回の検証シナリオではパーティション数が 180 以上の場合でもパーティショニングの利用を推奨 DELETE の応答時間 300 秒に対し TRUNCATE は 0.02 秒と圧倒的にパーティション表が高速 VACUUM の必要性も含め検証シナリオの運用ではパーティションを推奨 14

PostgreSQLのパーティショニングテーブルの継承を利用したデータの分割格納トリガ関数による格納先決定 CHECK 制約を利用した検索先パーティションの選択 SELECT * FROM 親テーブル WHERE 日付 = '3 月 31 日 ' 親テーブル INSERT INTO 親テーブル VALUES ( CHECK 制約によるパーティションの選択 (constraint_exclusion が on か partition の場合 ) トリガ関数ユーザが用意するトリガ関数を使用した格納先パーティションの選択子テーブル (3 月 31 日 ) 子テーブル (3 月 30 日 ) 子テーブル (3 月 29 日 ) 子テーブル (1 月 1 日 ) PostgreSQL では一般的に 100 パーティション以上は非推奨 15

データ挿入性能測定結果応答時間単表 ( )>C 言語関数 > 動的関数 >>> 静的関数トリガ関数を使用せずパーティション表にレコードを直接挿入静的関数のレコード挿入性能は非常に悪く 6 ヶ月のデータ挿入は断念動的関数はある程度良好な性能を記録し実装が簡単でパーティション追加にも対応可能 C 言語関数はトリガ関数を使用した挿入の中では最も高速だが実装は手間がかかり実装ミスによる DB プロセス例外が発生する可能性もあるパーティションへの直接挿入やC 言語関数は高速だが実装は簡単ではないデータ量や要求性能に応じて方式を選択 16

検索性能測定結果 6 ヶ月 ( 約 180 パーティション ) 分のデータを格納したテーブルに対する検索性能 1 日分のデータに対する集計ではいずれの検索プランでもパーティション表の方が高速今回の検証シナリオでは 1 日分のデータサイズがメモリ容量よりはるかに大きく必ず I/O が発生する重い検索だったためプラン生成によるオーバヘッドが問題にならなかったいずれの検索方法においてもパーティションを使用した方が高速 1 日のデータに全件ヒットする検索条件としたため SeqScan が最も高速検索内容次第で 100 パーティション以上でも検索性能面で有利な場合がある 17

運用性能測定 ( データ削除 VACUUM) パーティション表に対して削除処理によるデッドタプル VACUUM は不要 TRUNCATE と検索条件付きの DELETE では処理時間および負荷ともに圧倒的に TRUNCATE の方が軽い TRUNCATE VACUUM ANALYZE パーティション表 3 ヶ月パーティション表 6 ヶ月非パーティション表 6 ヶ月 0.02 秒 0.02 秒 300 秒 (DELETE) -- -- -- -- 3420 秒 197 秒大容量データの運用 ( 削除 /VACUUM) にはパーティション表が有利 18

活動報告 3 ハードウェア活用 (SSD) 検証 19

検証概要検証目的 PostgreSQL のデータディレクトリ配下の資源を SSD に配置した場合の性能向上を検証検証構成 PCIe SSD 搭載マシン (HDD はディスクアレイを利用 ) SATA SSD 搭載マシン (HDD は内蔵 HDD を利用 ) ディスク I/O 性能 (PCIe SSD 搭載マシン ) ディスク I/O 性能 (SATA SSD 搭載マシン ) 20

検証項目方法結果検証項目検証方法比較対象検証結果 SSD 配置パターン別インデックススキャン性能検証 pgbench のデフォルトスクリプト (TPC- B ライク ) で TPS を測定更新系と参照系 PCIe SSD 搭載マシン SATA SSD 搭載マシンそれぞれで測定データディレクトリ配下の資源の配置パターン毎に比較すべて HDD データのみ SSD インデックスのみ SSD WAL のみ SSD すべて SSD データディレクトリ配下のすべての資源を SSD に配置した場合の性能が他のパターンと比較して圧倒的に優位最大で更新系 30 倍参照系 111 倍インデックスオンリースキャン性能検証 pgbench のカスタムスクリプトで TPS を測定完全一致の 1 件 SELECT UPDATE 直後のインデックスオンリースキャンの性能も検証インデックスオンリーが失敗する場合 PCIe SSD 搭載マシン SATA SSD 搭載マシンそれぞれで測定データディレクトリ配下の資源の配置パターン毎に比較すべて HDD すべて SSD 資源をすべて SSD に配置することで最大 119 倍の性能向上を確認 21

SSD 配置パターン別インデックススキャン性能検証 PCIe SSD 搭載マシンの測定条件共有メモリ :48GB pgbench 設定 : SF=26000, 実行時間 =600 秒 111 倍 SATA SSD 搭載マシンの測定条件共有メモリ :12GB pgbench 設定 : SF=6400, 実行時間 =600 秒 45 倍部分配置の場合は参照更新ともに数倍レベルの性能向上 30 倍部分配置の場合は参照更新ともに数倍レベルの性能向上 13 倍 SSD 配置パターン別インデックススキャン性能 (PCIe SSD 搭載マシン ) SSD 配置パターン別インデックススキャン性能 (SATA SSD 搭載マシン ) ディスク I/O 性能がデータベース性能に強く影響していると推察されるためすべて SSD 配置の場合は大幅に性能改善ただし部分配置での性能改善は限定的データインデックス WAL それぞれのディスク I/O がデータベース性能に影響 22

SSD 配置パターン別インデックススキャン性能検証検証中の読み込み速度書き込み速度 DB 性能 (TPS) を配置パターン間で比較全 HDD 配置時の値をそれぞれ 1 とする更新系の I/O 性能と TPS の全 HDD 配置対比 (PCIe SSD 搭載マシン ) 参照系の I/O 性能と TPS の全 HDD 配置対比 (PCIe SSD 搭載マシン ) DB 性能 (TPS) が書き込み性能に依存 ( 更新系 ) DB 性能 (TPS) が読み込み性能に依存 ( 参照系 ) I/O 性能がデータベース性能に強く影響していることが確認できた本データトランザクションモデルでは資源をすべて SSD に配置することで大きく性能改善 23

インデックスオンリースキャン性能検証 85 倍 119 倍 1/10 1/100 測定方法条件共有メモリ pgbench 設定はインデックススキャンと同様スクリプトは独自 41 倍インデックスオンリースキャン成功 / 失敗時の性能検証 45 倍 SELECT aid FROM pgbench_accounts WHERE aid = :aid; 通常のインデックスオンリースキャン ( 成功 ) と UPDATE 直後のインデックスオンリースキャン ( 失敗 ) の 2 パターンで計測すべて HDD に配置した場合 : ディスク I/O がボトルネックすべて SSD に配置した場合 :I/O ネックが解消 CPU 性能が左右なぜインデックスオンリースキャン失敗時にデータベース性能が大幅に落ち込むのか? 24

インデックスオンリースキャン性能検証なぜインデックスオンリースキャン失敗時にデータベース性能が大幅に落ち込むのか? データを読み込んでいる WAL 書き込みを行っている当初の予想データをヒープから取得する性能がネック性能の落ち込みは限定的実際の結果 WAL への書き込みが発生データ取得 +WAL 書き込み性能がネック大幅に性能ダウンインデックスオンリースキャン性能検証時のスタックトレース (SATA SSD 搭載マシン ) 25

活動報告 4 スケールアウト検証 (Postgres-XC) 26

検証目的 Postgres-XC のスケールアウト性を検証する異なる条件でのスケールアウト性を明らかにする実システムの要望に沿った2つの検証シナリオを設定スループット要求が増大するシステムへの適用を想定取り扱うデータ量が増大するシステムへの適用を想定スループット向上シナリオ DB サイズを固定したままクラスタを構成するノード数を増やす DB サイズ拡張シナリオ DB サイズと比例してクラスタ数を増やす 27

検証構成 Postgres-XC のコミュニティの推奨構成で測定 2012 年度の検証と基本的に同じ 1 ノードから最大 4 ノード構成まで測定データはノードに分散して格納 1 ノードにコーディネータとデータノードが同居 (Node01) (Node02) スイッチ #1 コーディネータデータノード (Node06) (Node08) (Node05) (Node03) Coordinator Coordinator Coordinator Coordinator Datanode Datanode Datanode Datanode GTM Proxy GTM Proxy GTM Proxy GTM Proxy (Node07) GTM GTM スイッチ #2 FC スイッチ共有ストレージ (300GB 24 台 ) 28

検証項目方法結果検証方法 ( 共通項目 ) 性能向上シナリオ DB サイズ拡張シナリオ pgbench を使用し 10 分間の平均スループットを測定 pgbench の 4 つの表の全てを各ノードに均等に分散して格納 PostgreSQL 9.2 系と性能を比較 ( 相対値の基準 ) 検証結果参照ノード数を増やすと性能が大きく向上キャッシュの効果が顕著ノード数に比例して性能が向上更新ノード数に比例して性能が向上ノード数を増やしても性能は一定スループット向上シナリオ DB サイズを固定してノード数を増やす DB サイズ拡張シナリオノード数と比例して DB サイズを増やすノード数と DB サイズ [GB] シナリオ 1 2 3 4 スループット向上 90 90 90 90 DB サイズ拡張 22.5 45 67.5 90 100 80 60 40 20 0 スループット向上 DB サイズ拡張 0 1 2 3 4 29

スループット向上シナリオ参照系でノード数を 1 から 4 に増やしたときスループットが約 24 倍に向上ストレージ上のデータがメモリに載るため台数倍以上のスループット向上が見られた ( キャッシュ効果 ) 更新系でノード数を 1 から 4 に増やしたときノード数に比例してスループットは約 3 倍に向上更新ではキャッシュ効果が見られないストレージがボトルネック ( コミット時のディスクのフラッシュに起因 ) 相対スループット 1 の大きさ [TPS] 参照 910 更新 760 相対スループット 30.0 25.0 20.0 15.0 10.0 5.0 0.0 23.9 参照系更新系 7.9 1.0 0.9 3.2 1.4 2.2 3.0 1 2 3 4 ノード数 30

DB サイズ拡張シナリオ参照系でノード数を 1 から 4 に増やしたときノード数に比例してスループットが約 2.8 倍に向上メモリ量と DB サイズの比が一定のためキャッシュ効果はない更新系でノード数を 1 から 4 に増やしたときスループットはほぼ横ばい 1 トランザクションで複数ノードのデータを更新 (pgbench の特性 ) 1 回のコミット要求に 3.0 参加するノード数は 2.5 4ノード時に平均 1.75 2.0 コミット処理はディスクの 1.5 のフラッシュがあり重い 0.89 相対スループット 1 の大きさ [TPS] 参照 7753 更新 2777 相対スループット 1.0 0.5 0.0 参照系更新系 1.57 2.29 2.80 0.81 0.86 0.84 0.83 1 2 3 4 ノード数 31

活動報告のまとめ 2013 年度の活動を振り返って 32

2013 年度活動をふりかえって昨年できなかったパーティショニング機能の検証をはじめ今年度も多くの有意義な検証を行うことができましたさまざまなメディアで紹介されたとおり競合することもある各企業のメンバーが共通の目的のもとに活動し交流を深めるということはとても意義のあることです 33

2013 年度活動をふりかえって WG 検討会では報告書に載せきれない貴重な情報を数多く聞くことができました来年度はぜひ一緒に活動しましょう! 34

付録 : 今回使用した検証環境について定点観測 ( スケールアップ ) およびパーティショニング検証では日本ヒューレットパッカード株式会社様から検証環境をご提供いただきましたハードウェア活用 (SSD) 検証では富士通株式会社様から検証環境をご提供いただきましたスケールアウト検証では日本電気株式会社様から検証環境をご提供いただきました株式会社アイアイエム様に性能評価サービスをご提供いただきました PostgreSQLエンタープライズコンソシアムとして御礼を申し上げます 36

付録 : 検証環境 1 ( 提供 : 日本ヒューレットパッカード株式会社 ) 定点観測 ( スケールアップ ) およびパーティショニング検証での使用機器 / 設備 37

付録 : 検証環境 2 ( 提供 : 富士通株式会社 ) ハードウェア活用 (SSD) 検証での使用機器 / 設備富士通トラステッドクラウドスクエア PRIMERGY RX300 S7 PCIe SSD 搭載マシンとして使用 CPU: インテル Xeon E5-2690(2.90GHz)8 コア 2 メモリ :192GB 内蔵 HDD:900GB 2 RAID1 内蔵 SSD:1.2TB 1(PCIe SSD) PRIMERGY RX300 S8 SATA SSD 搭載マシンとして使用 CPU: インテル Xeon E5-2697v2 (2.70GHz)12 コア 2 メモリ :48GB 内蔵 HDD:600GB 2 RAID1 内蔵 SSD:200GB 2(SATA SSD) RAID1 ETERNUS DX80 S2 ディスクアレイ装置として使用ディスク容量 :600GB 5 RAID5 検証ルームサーバルーム最新の当社サーバストレージ機器を約 300 台完備し事前導入検証やベンチマーク ICT システム検証が可能です詳細情報は以下をご確認ください http://jp.fujitsu.com/facilities/tcs/ Copyright 2014 FUJITSU LIMITED 38

付録 : 検証環境 3 ( 提供 : 日本電気株式会社 ) スケールアウト検証での使用機器 / 設備 NEC プラットフォームイノベーションセンター Server Express5800/B120d (Blade) 6 台 CPU:Xeonプロセッサー E5-2470(2.30GHz 8Core 20M) 2 メモリ :32GB HDD:300GB(2.5 型 SAS 15,000rpm) 2 RAID1 Express5800/R120d-2M ( ラックサーバ )1 台 CPU:Xeon プロセッサー E5-2690(2.90GHz, 8Core, 20MB) 2 メモリ :32GB HDD:2.5 型 146.5GB(6Gb/s SAS, 15,000 rpm) 6 RAID1 Storage ( データベース格納領域 ) istorage/m300 1 台コントローラ数 : 2 台 (FC コントローラ ) キャッシュメモリ : 16GB FC ポート数 : 8 個 (8G 対応 4 ポート /1 コントローラ ) ディスク : SAS 3.5 型 15krpm 600GB 24 玉 RAID10 (6 台 ) 4 NEC Corporation 2014. All rights reserved. 39