工学院大学建築系学科近藤研究室2000年度卒業論文梗概

耐災害性の高い通信システムにおけるサーバ計算機の性能と消費電力に関する考察耐障害性, 消費電力, 低消費電力サーバ山口実靖 *. はじめに性能と表皮電力の関係について調査し, 考察を行う災害においては, 減災活動が極めて重要であるすなわち災害が発生した後に適切に災害に対処することにより, その被害を大きく軽減できる. 適切な災害対策を行うには災害対策を行う拠点が正常に運営されていることが必要不可欠であり, 災害対策拠点が被災により正常に機能しなくなることは避けなくてはならない. 災害対策拠点の可用性 ( 正常に運営されていること ) を向上させるには, 災害対策拠点を分散化し一部の災害対策が被災しても災害対策拠点群全体として機能を失わない様に設計することが効果的である. 本研究では, 被災しても機能し続ける高い耐障害性を有する通信システムを実現し, これにより災害.GPU GPU は 3D グラフィックスなどの描画処理を高速に行うためのプロセッサであり, グラフィックボードに搭載された形で PC に組み込まれたり, スーパーコンピュータや家庭用ゲーム機等にも搭載されたりしている.GPU のピーク性能は CPU の性能を大きく上回り, GPU を描画以外の目的に使用する GPGPU などの研究の盛んに行われている. しかしその消費電力も高く,[w] を超える消費電力の GPU も多い. 以下, 本稿で使用した CUDA GPU に焦点を絞って解説を行う.CUDA GPU は NVIDIA 社が提供している GPU で, 現在主流の GPU の個である. 対策拠点の分散化を支援することを最終的な目標としている. 本稿では, 高い耐障害性を有する通信システムを実現する構成要素の一つであるサーバコン VRAM ピュータシステムに着目し, 被災時の少ない電力源でも高い性能で快適に稼働し続けるサーバコンピュータシステムの実現手法について考察を行う. 具体的には GPU(Graphic Processing Unit) の性能と消費電力の関係について考察を行う. 図 CUDA GPU の構造近年の計算機では GUI(Graphical User Interface) が採用されており,GUI は GPU と呼ばれる専用のハードウェアで処理されている.GPU は計算機の構成要素の中でもっとも省電力が高いか, あるいはトップクラスの消費電力の多さであり, 計算機システムの省電力化を行う上で極めて重要な部品である. また, 消費電力が高いが得られる性能はそれを上回る程度で高く, 結果として GPU は単位性能あたりの消費電量が CPU よりも低い. よって, 災害対策のために複雑な処理を少ない消費電力で行うには GPU を計算に使用することが適切である. この様に計算機の省電力化, 低消費電力での高性能計算を目指すには GPU の消費電力に関する考察が極めて重要となる. 本稿では各種使用方法における GPU の CUDA GPU は, 図の様な構成をしている, すなわち,GPU 内に複数のが存在し, 各内に Streaming Processor( 以下,) が存在 (GeForce 88GT では 8 個,GTX 46 では 3 個 ) している. これらのが処理装置の単位となる. メモリとしては主に VRAM とが存在し,VRAM は全てのからアクセスが可能であり, は内に存在し各内からのみアクセス可能である.VRAM は Shared Memory より容量が多い ( 数百 MB~ 数 GB 程度 ) が, と比較しアクセスに要する時間が長い. はからの高速アクセスが可能であるが, 容量が少なく (GeForce 88GT では6KB, GTX 46 では 48KB), キャッシュとして使用されるこ * : 工学院大学工学部情報通信工学科

とが多い. VRAM 図 VRAM へのメモリアクセスアクセス要求 3 4 5 6 7 8 9 3 4 5 Without bank conflict bank 3 4 5 6 7 8 9 3 4 5 With bank conflict 図 4 のバンク衝突とバンク衝突回避 VRAM 図 3 VRAM からへのメモリアクセス図に VRAM から VRAM にメモリコピーを行なう時の動作例を示し, 図 3に VRAM から Shared Memory にコピーし, をキャッシュの様に扱う動作例を示す. また, アクセス性能の低下原因にバンク衝突があり, 性能向上手法としてバンク衝突の回避がある. 図 4に,Shared Memory におけるバンク衝突とバンク衝突回避の動作例を示す. 図の様に,GPU と物理的に遠い箇所に搭載されている VRAM にデータが格納されている場合, メモリアクセスが非常に遅くなる. しかし, 図 3の様に, VRAM から読み込んだデータをにコピーし次回以降はからデータを読み込むことにより, 毎回 VRAM からデータを読み込む手法と比べ高速なデータアクセスが可能となる. の特性を生かして高速化を実現するには CPU などのキャッシュと同様に同一データへの回以上のアクセスが必要であり, 回目以降のアクセスが高速化されることとなる. GPU のは図 4の様に,6 個のバンクにより構成されており, 各バンクは独立に動作可能である. よって, 最大 6 個のバンクを並列に使用してスレッドアクセス時 ( バンク使用時 ) の 6 倍の性能を得ることが可能となる. 逆に多数のスレッドが並列にへのアクセスを行ったとしても, 複数のスレッドが同一バンクに対してアクセス要求を発行したときはそれらの要求は該当バンクにより順次処理され, 同時並列的には処理されない. よって, アクセスバンクが衝突すると Shared Memory アクセス性能は低下してしまう. 各スレッドからは異なるバンクのデータへアクセス要求が発行される様にプログラムを作成することが好ましい. 3.GPU の消費電力 3. GPU の電力供給方法本章にて, 本稿で行った GPU 消費電力測定の測定環境について説明する. 本実験では,GPU をコンピューターに拡張ボードとして組み込み, 消費電力計測を行った. 消費電力測定を行う場合,GPU への電力供給方法を把握する必要がある. 通常コンピューターに電力供給を行う場合, ATX 電源を通した電力を用いる.ATX 電源からマザーボードに供給される電圧は,±V,±5V,3.3V である. この中で, 通常 GPU と直接接触し, データ転送及び電力供給を行うマザーボードに搭載されている PCI-Express スロットに供給される電圧は,±V, 3.3V である. 他に, 高性能 GPU を用いる場合, PCI-Express スロット以外に, 拡張ボード用 6pin 電源コネクタ (V) を用いて電力供給がされている. つ

まり,GPU ボードへの電力供給は図 5 の様に種類の方法で行われる. GPU の消費電力を測定するには, これらつの供給電力を測定する必要がある. 外部電源 ATX 電源 GPU ボード PCI-Express スロット 6pin 電源コネクタ電源コネクタ Mother Board 図 5 GPU ボードの電力供給外部電源 ATX 電源 PCI-Express 6 コネクタと拡張カード接続側のコネクタを繋げたものである. このライザーカードを用いることにより, マザーボードと GPU 間に電線が存在することになる. この電線の中にマザーボードが GPU に電力供給を行う V 線と 3.3V 線があり, 供給電力を測定するには別々に計測を行う必要がある. クランプメーターは, 回路に流れる電流の量を測定する装置である. 従来の電気テスターの様に直接回路に端子を接続させる必要はなく, 電線をクランプメーターで挟み込むだけで安全に電流を計測することが可能である. クランプメーターは, 電線に電流を流すときに発生する磁場を測定することにより, その強さから電流を算出すると測定方法である. 次に, 拡張ボード用 6pin 電源コネクタを通じて GPU に電力供給される電力は,ATX 電源から電力を供給するのではなく外部電源から電力を供給させワットチェッカーを用いて計測を行う. クランプメーターライザーカード GPU ボードワットチェッカー PCI-Express スロット 6pin 電源コネクタ電源コネクタ Mother Board 図 6 GPU ボードへの供給電力の測定環境 ( 模式図 ) clamp meter riser card GPU 図 7 GPU ボードへの供給電力の測定環境 ( 写真 ) 3. GPU の電力供給方法本研究では図 6, 図 7 の様な実験環境を構築し供給電力を測定した. まず,PCI-Express スロット通じて GPU に供給される電力は,GPU とマザーボード間にライザーカードを挟み, ライザーカードに流れる電流をクランプメーターで測定することにより, 計測した. 本実験で用いたライザーカードは, マザーボード接続側の 4.GPU における性能と消費電力の関係の調査 4. ホストメモリとデバイスメモリ GPU には VRAM とと異なる種類のメモリが搭載されている. また,VRAM アクセス手法には通常のアクセスとコアレスアクセスがあり, アクセス手法にはバンクコンフリクトが発生する手法としない手法がある. 本章では, 各種メモリへのアクセス時の性能と消費電力, 各種手法でのメモリアクセス時の性能と消費電力について述べる. 最初に, ホストメモリからデバイスメモリへのデータ転送処理およびデバイスメモリからホストメモリへのデータ転送処理の性能と消費電力を示す. 本測定では, ホストメモリまたはデバイスメモリから整数データ (4 バイト ) を読み込み, それをデバイスメモリまたはホストメモリに書きこむ処理を繰り返すことにより性能と消費電力量を測定した. 測定結果を図 8に示す. 本測定は, GeForce 88GT を用いて行った.

性能 / 電力 [GB/W Sec] 転送速度 [GB/Sec] 転送速度 [GB/sec].6.4..8.6.4. HostToDevice DeviceToHost 図 8 ホストメモリとデバイスメモリ転送速度消費電力 4 39 38 37 36 35 34 33 3 3 3 これらの性能を単位消費電力あたりの性能に換算したものを図に示す. 同図からも, 性能と消費電力の両側面から考えたときもコアレスアクセスとの使用が有効な手法であることが確認された. 本実験では Warp により並列にメモリアクセスを行った. 多数のスレッド, 多数の Warp にて並列アクセスを行った場合は, メモリ待ち時間中に他の Warp の処理を行いメモリアクセス遅延時間を隠蔽できる..5 7 同図より, ホストからデバイスへのデータ転送速転送速度消費電力度の方がデバイスからホストへの転送速度より速い.5 6 (.3 倍 ) にもかかわらず消費電力はほぼ等しい (. 倍 ) ことが分かった..5 5 4. VRAM と本節では, メモリアクセス処理の性能と消費電力について述べる. 最初に,VRAM から VRAM へのデータ転送処理およびから VRAM へのデータ転送処理の性能と消費電力を示す. 本測定では,VRAM またはから整数データ (4 バイト ) を読み込み, それを VRAM に書き込む処理を繰り返すことにより性能と消費電量を測定した. 本節の測定も GeForce 88GT を用いて行った. メモリアクセスは Warp(3 スレッド ) により並列に行った. 測定結果を図 9に示す. 本測定では,VRAM から VRAM へのデータ転送処理の性能と消費電力を基準とし, 各種メモリアクセス方法, 各種読み込み元メモリを用いた場合と比較する. VRAM アクセス方法をコアレスアクセスにすることにより, 消費電力を減少させ (.95 倍 ) メモリアクセス性能のみを向上 (.36 倍 ) させることが可能であることが確認された. また, 読み込み元を VRAM からに変更することにより, 消費電力を変えず (. 倍 ) にメモリアクセス性能を向上 (.6 倍 ) させることが可能であることも確認された. 読み込み元をにし,VRAM へのメモリアクセスをコアレスアクセスで行なった場合, データ転送は大幅に向上 (5. 倍 ) し, 消費電力はほぼ等しい (. 倍 ) ことが分かった. ただし, 本測定では使用時も書き込みは VRAM に対して行っているため, 本測定結果はのみを用いた場合の性能ではない. 4 VRAM -> VRAM VRAM -> VRAM Shared -> VRAM Shared -> VRAM 図 9 メモリコピーの転送速度と消費電力.6 7 性能 / 電力消費電力.5.4 6.3. 5. 4 VRAM -> VRAM VRAM -> VRAM Shared -> VRAM Shared -> VRAM 図メモリコピーにおける単位消費電力あたりの転送速度 4.3 次に, からへのデータ転送処理にて得られた性能と消費電力の関係を図に示す. 本節の測定も GeForce 88GT を用いて行った. アクセスは,Warp で並列に行った. 横軸の使用バンク数は並列に使用したバンクの数である. 使用バンク数が少ないときは 3 個のスレッドのアクセスが少数のバンクに集中しておりバンク衝突が多く発生している状況である. 使用バンク数が多いときは多くのバンクが並列に動作し, バンク衝突も少ない状況である. 同図の結果より, バンク衝突を回避させることにより消費電力を増加させず (. 倍 ) に性能を大きく向上 (.96 倍 ~.3 倍 ) させることが可能であることが確認された

転送速度 [GB/Sec] 9 8 転送速度消費電力 7 7 7 6 6 5 6 4 3 5 block = block = block = 8 3 4 5 6 7 8 9 3 4 5 6 4 5 block = 4 block = 5 block = 7 block = 4 block = 7 block = 4 使用バンク数図間データ転送時の性能と消費電力 4, 4, 6, 8,,,,,,4,,6,,8, 演算性能 [ 発生乱数 / 処理時間 ] 図演算処理における性能と消費電力 4.4 プロセッサ演算使用スレッド数と使用ブロック数を変化させて, プロセッサ演算時の性能と消費電力の関係を調査した. 行った処理は Monte Carlo シミュレーションである. 辺の長さがの正方形の中からランダムに座標を選択し, その点が扇形の内部に入る確率を求め円周率を求めた. 乱数は発生済みの状態で行い, 発生処理は Monte Carlo シミュレーションに含めていない. ブロック数は,,8,4,5,7,4,7,4 と変更させ, ブロックあたりのスレッド数はから 5 まで変化させた. 本節の測定も GeForce 88GT を用いて行った. ブロック数, スレッド数, 性能, 消費電力の関係を図に示す. 同図より, 性能と消費電力には強い相関があり, 性能が増えると消費電力は増加する傾向が非常に強いことが確認された. 本実験で使用した GPU は 4 個のを持っているが, ブロック数をから数まで増加させていくと性能が向上 (7.9 倍 ~8. 倍 ) するとともに消費電力も増加 (.3~.47 倍 ) していき, 更にブロック数を数以上に増加させていくと性能がなだらかに向上すると共に消費電力も増加していくが, ブロック数を 4 以上で用いた場合, 性能はほぼ変化せず, 消費電力のみ減少することが確認できた. 同一性能で比較した場合, 最大 7% 減少した. すなわち, 多くのブロックを用いた方が消費電力が低くなる傾向があり, 性能を低下させずに消費電力のみを低下させるにはブロック数を増加させることが好ましいことが分かった. また, 前節の結果と比較することによりによ 5. 関連研究 GPU の消費電力に関する研究として, 長坂らによる GPU の性能と消費電力の相関性の解析の研究がある). この研究では, 様々な演算プログラムを実行させ, 実行プログラム毎に GPU における消費電力が大きく異なることに注目し, その関係について調査している. この結果, 命令スループットの高いプログラムでは消費電力が大きいとしている. 消費電力予測では, 結果誤差は平均して 7% 程度としている. また,GPU 処理では実行プログラム毎に消費電力が大きく異なることに着目し,GPU の消費電力における電圧と動作周波数の関係の解析の研究が長坂らによりされている). この研究では,DVFS に着目し,GPU での消費電力は実行プログラムに関する電力と, 実行プログラムに関係しないそれ以外の電力という電力をつに分けて考察されている. そして, そのつの電力が消費電力とどのような関係にあるかが調査されている. この結果, 実行プログラムに関する電力は電圧値の乗と動作周波数に比例し, 実行プログラムに関係しない電力は電圧値に比例しているとしている. GPU におけるメモリアクセスや演算処理の消費電力に関する研究として,Callange らによる異なる NVIDIA GPU におけるよるメモリ読み込みや演算命令と消費電力の関係について研究がある 3). この結果により,DRAM を用いる場合よりもテクスチャーキャッシュを用いる方がメモリ要求あたりの消費エネルギーは抑えられるとしている. る演算処理の方がメモリアクセス処理よりも多くの電力を消費することが分かった. 6. おわりに本稿では災害対策拠点の分散化を支援するための耐災害性の高い通信システムを想定し, 同システ

ムおけるサーバ計算機の性能と消費電力に関する考察を行った. 具体的には, サーバ計算機の構成要素の中で非常に消費電力の大きな要素である GPU に着目し, その性能と消費電力の関係について考察した. 調査の結果, メモリアクセスをコアレス化し,Shared Memory を使用することにより, 性能と消費電力の両側面において改善がみられることが確認された. また, ブロック数とスレッド数に関する調査を行った結果, ブロック数を増加させることにより性能を保ったまま低消費電力化を行えることが確認できた. 参考文献 ) 長坂仁, 丸山直也, 額田彰, 遠藤敏夫, 松岡聡, "GPU における性能と消費電力の相関性の解析 ", 情報処理学会研究報,Vol.9-HPC-,No.7,pp.-5(9) ) 長坂仁, 丸山直也, 額田彰, 遠藤敏夫, 松岡聡, "GPU におけるモデルに基づいた電力効率の最適化 ", 研究報告ハイパフォーマンスコンピューティング ",Vol.-HPC-8,No.,pp.-6() 3) S.Collange,D.Defour,and A.Tisserand,"Power Consumption of GPUs from a Software Perspective ", in Workshop on Using Emerging Parallel Architectures for Computational,Vol.44,ch.9, pp.94-93(9)