工学院大学建築系学科近藤研究室2000年度卒業論文梗概

Similar documents
熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

システムソリューションのご紹介

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc


EnSightのご紹介

1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

情報解禁日時 :12 月 20 日 ( 木 )11:00 以降 株式会社マウスコンピューター News Release MousePro 第 9 世代インテル CPU 搭載ビジネス向けデスクトップパソコンを 12 月 20 日 ( 木 ) 販売開始! ビジネス向けデスクトップパソコン MousePr

GPGPUクラスタの性能評価

富士通セミコンダクタープレスリリース 2009/05/19

-2 外からみたプロセッサ GND VCC CLK A0 A1 A2 A3 A4 A A6 A7 A8 A9 A10 A11 A12 A13 A14 A1 A16 A17 A18 A19 D0 D1 D2 D3 D4 D D6 D7 D8 D9 D10 D11 D12 D13 D14 D1 MEMR

CELSIUSカタログ(2012年5月版)

CELSIUSカタログ(2012年7月版)

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

NEC 製PC サーバ『Express5800 R120f-1E』とSanDisk『ioMemory SX /SX 』検証報告書

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

PowerPoint プレゼンテーション

GPUを用いたN体計算

Microsoft Word - Dolphin Expressによる10Gbpソケット通信.docx

スライド タイトルなし

LANカード(PG-2871) 取扱説明書

世界の技術を日本の品質で すべてはお客様の ベストパートナーであるために 1 2 納入分野 斬 新な 企画 展開力 高 品質 ダックスが持つ つの特長 3 交通機器 金融機器 医療機器 製造機器 工作機器 あらゆる分野へ 高信頼性 3 最 新 最適な 技術と開発 主な開発 生産製品 ダックスは産業用

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果

main.dvi

Microsoft Word LenovoSystemx.docx

RLC 共振回路 概要 RLC 回路は, ラジオや通信工学, 発信器などに広く使われる. この回路の目的は, 特定の周波数のときに大きな電流を得ることである. 使い方には, 周波数を設定し外へ発する, 外部からの周波数に合わせて同調する, がある. このように, 周波数を扱うことから, 交流を考える

2014 年電子情報通信学会総合大会ネットワークシステム B DNS ラウンドロビンと OpenFlow スイッチを用いた省電力法 Electric Power Reduc8on by DNS round- robin with OpenFlow switches 池田賢斗, 後藤滋樹

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

038_h01.pdf

Microsoft Word - vga

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP

Avago( 旧 LSI) 3108 チップ搭載 RAID カードでの RAID1/RAID10 この RAID カードの RAID1 と RAID10 の設定方法によるメリット / デメリットについて お問い合わせをいただきました お問い合わせ : SuperMicroのサーバに当該チップ使用のR

(速報) Xeon E 系モデル 新プロセッサ性能について

Microsoft Word - vga

テクニカルガイド 増設メモリ

富士通PCサーバ「PRIMERGY RX2530 M4」における「TeraStation TS5010 / TS3010」シリーズ動作検証報告

PowerPoint プレゼンテーション

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

増設メモリ 1. 機能仕様 型番 製品名 備考 N GB 増設メモリボード DDR3-1333(PC ) SDRAM, Unbuffered N GB 増設メモリボード DDR3-1333(PC ) SDRAM, Unbuffered N8

bitvisor_summit.pptx

スライド 1

GPGPU

GPUコンピューティング講習会パート1

BIOSセットアップメニュー 一覧

リソース制約下における組込みソフトウェアの性能検証および最適化方法

ic3_cf_p1-70_1018.indd

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Software-Defined Tester(SDT) を用いた高精度遅延測定による SDN/NFV 品質向上 富士通アドバンストテクノロジ株式会社システム技術統括部大久保克彦 0 Copyright 2017 FUJITSU AD

報道機関各位 平成 30 年 5 月 14 日 東北大学国際集積エレクトロニクス研究開発センター 株式会社アドバンテスト アドバンテスト社製メモリテスターを用いて 磁気ランダムアクセスメモリ (STT-MRAM) の歩留まり率の向上と高性能化を実証 300mm ウェハ全面における平均値で歩留まり率の

GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所 共通コードプロジェクト

160311_icm2015-muramatsu-v2.pptx

評価用システム DELL Precision T7810 CPU Xeon E v3 x2 64GB Samsung SSD SM84/WDC WD10EZEX-75M 搭載容量 - PCI-E 本数 6pin x2 BI 動作 メーカー ELSA ELSA ZOTAC ZOTAC ZO

Microsoft Word - 2_0421

Transcription:

耐災害性の高い通信システムにおけるサーバ計算機の性能と消費電力に関する考察 耐障害性, 消費電力, 低消費電力サーバ 山口実靖 *. はじめに 性能と表皮電力の関係について調査し, 考察を行う 災害においては, 減災活動が極めて重要である すなわち 災害が発生した後に適切に災害に対処することにより, その被害を大きく軽減できる. 適切な災害対策を行うには災害対策を行う拠点が正常に運営されていることが必要不可欠であり, 災害対策拠点が被災により正常に機能しなくなることは避けなくてはならない. 災害対策拠点の可用性 ( 正常に運営されていること ) を向上させるには, 災害対策拠点を分散化し一部の災害対策が被災しても災害対策拠点群全体として機能を失わない様に設計することが効果的である. 本研究では, 被災しても機能し続ける高い耐障害性を有する通信システムを実現し, これにより災害.GPU GPU は 3D グラフィックスなどの描画処理を高速に行うためのプロセッサであり, グラフィックボードに搭載された形で PC に組み込まれたり, スーパーコンピュータや家庭用ゲーム機等にも搭載されたりしている.GPU のピーク性能は CPU の性能を大きく上回り, GPU を描画以外の目的に使用する GPGPU などの研究の盛んに行われている. しかしその消費電力も高く,[w] を超える消費電力の GPU も多い. 以下, 本稿で使用した CUDA GPU に焦点を絞って解説を行う.CUDA GPU は NVIDIA 社が提供している GPU で, 現在主流の GPU の 個である. 対策拠点の分散化を支援することを最終的な目標としている. 本稿では, 高い耐障害性を有する通信システムを実現する構成要素の一つであるサーバコン VRAM ピュータシステムに着目し, 被災時の少ない電力源 でも高い性能で快適に稼働し続けるサーバコンピュータシステムの実現手法について考察を行う. 具体 的には GPU(Graphic Processing Unit) の性能と消費 電力の関係について考察を行う. 図 CUDA GPU の構造 近年の計算機では GUI(Graphical User Interface) が採用されており,GUI は GPU と呼ばれる専用のハードウェアで処理されている.GPU は計算機の構成要素の中でもっとも省電力が高いか, あるいはトップクラスの消費電力の多さであり, 計算機システムの省電力化を行う上で極めて重要な部品である. また, 消費電力が高いが得られる性能はそれを上回る程度で高く, 結果として GPU は単位性能あたりの消費電量が CPU よりも低い. よって, 災害対策のために複雑な処理を少ない消費電力で行うには GPU を計算に使用することが適切である. この様に計算機の省電力化, 低消費電力での高性能計算を目指すには GPU の消費電力に関する考察が極めて重要となる. 本稿では 各種使用方法における GPU の CUDA GPU は, 図 の様な構成をしている, すなわち,GPU 内に複数の が存在し, 各 内に Streaming Processor( 以下,) が存在 (GeForce 88GT では 8 個,GTX 46 では 3 個 ) している. これらの が処理装置の単位となる. メモリとしては主に VRAM と が存在し,VRAM は全ての からアクセスが可能であり, は 内に存在し各 内からのみアクセス可能である.VRAM は Shared Memory より容量が多い ( 数百 MB~ 数 GB 程度 ) が, と比較しアクセスに要する時間が長い. は からの高速アクセスが可能であるが, 容量が少なく (GeForce 88GT では6KB, GTX 46 では 48KB), キャッシュとして使用されるこ * : 工学院大学工学部情報通信工学科

とが多い. VRAM 図 VRAM へのメモリアクセス アクセス要求 3 4 5 6 7 8 9 3 4 5 Without bank conflict bank 3 4 5 6 7 8 9 3 4 5 With bank conflict 図 4 のバンク衝突とバンク衝突 回避 VRAM 図 3 VRAM から へのメモリアクセス図 に VRAM から VRAM にメモリコピーを行なう時の動作例を示し, 図 3に VRAM から Shared Memory にコピーし, をキャッシュの様に扱う動作例を示す. また, アクセス性能の低下原因にバンク衝突があり, 性能向上手法としてバンク衝突の回避がある. 図 4に,Shared Memory におけるバンク衝突とバンク衝突回避の動作例を示す. 図 の様に,GPU と物理的に遠い箇所に搭載されている VRAM にデータが格納されている場合, メモリアクセスが非常に遅くなる. しかし, 図 3の様に, VRAM から読み込んだデータを にコピーし次回以降は からデータを読み込むことにより, 毎回 VRAM からデータを読み込む手法と比べ高速なデータアクセスが可能となる. の特性を生かして高速化を実現するには CPU などのキャッシュと同様に同一データへの 回以上のアクセスが必要であり, 回目以降のアクセスが高速化されることとなる. GPU の は図 4の様に,6 個のバンクにより構成されており, 各バンクは独立に動作可能である. よって, 最大 6 個のバンクを並列に使用して スレッドアクセス時 ( バンク使用時 ) の 6 倍の性能を得ることが可能となる. 逆に多数のスレッドが並列に へのアクセスを行ったとしても, 複数のスレッドが同一バンクに対してアクセス要求を発行したときはそれらの要求は該当バンクにより順次処理され, 同時並列的には処理されない. よって, アクセスバンクが衝突すると Shared Memory アクセス性能は低下してしまう. 各スレッドからは異なるバンクのデータへアクセス要求が発行される様にプログラムを作成することが好ましい. 3.GPU の消費電力 3. GPU の電力供給方法本章にて, 本稿で行った GPU 消費電力測定の測定環境について説明する. 本実験では,GPU をコンピューターに拡張ボードとして組み込み, 消費電力計測を行った. 消費電力測定を行う場合,GPU への電力供給方法を把握する必要がある. 通常コンピューターに電力供給を行う場合, ATX 電源を通した電力を用いる.ATX 電源からマザーボードに供給される電圧は,±V,±5V,3.3V である. この中で, 通常 GPU と直接接触し, データ転送及び電力供給を行うマザーボードに搭載されている PCI-Express スロットに供給される電圧は,±V, 3.3V である. 他に, 高性能 GPU を用いる場合, PCI-Express スロット以外に, 拡張ボード用 6pin 電源コネクタ (V) を用いて電力供給がされている. つ

まり,GPU ボードへの電力供給は図 5 の様に 種類 の方法で行われる. GPU の消費電力を測定するに は, これら つの供給電力を測定する必要がある. 外部電源 ATX 電源 GPU ボード PCI-Express スロット 6pin 電源コネクタ 電源コネクタ Mother Board 図 5 GPU ボードの電力供給 外部電源 ATX 電源 PCI-Express 6 コネクタと拡張カード接続側のコ ネクタを繋げたものである. このライザーカードを 用いることにより, マザーボードと GPU 間に電線が 存在することになる. この電線の中にマザーボード が GPU に電力供給を行う V 線と 3.3V 線があり, 供給電力を測定するには別々に計測を行う必要があ る. クランプメーターは, 回路に流れる電流の量を 測定する装置である. 従来の電気テスターの様に直 接回路に端子を接続させる必要はなく, 電線をクラ ンプメーターで挟み込むだけで安全に電流を計測す ることが可能である. クランプメーターは, 電線に 電流を流すときに発生する磁場を測定することによ り, その強さから電流を算出すると測定方法である. 次に, 拡張ボード用 6pin 電源コネクタを通じて GPU に電力供給される電力は,ATX 電源から電力を 供給するのではなく外部電源から電力を供給させワ ットチェッカーを用いて計測を行う. クランプメーター ライザーカード GPU ボード ワットチェッカー PCI-Express スロット 6pin 電源コネクタ 電源コネクタ Mother Board 図 6 GPU ボードへの供給電力の測定環境 ( 模式図 ) clamp meter riser card GPU 図 7 GPU ボードへの供給電力の測定環境 ( 写真 ) 3. GPU の電力供給方法 本研究では図 6, 図 7 の様な実験環境を構築し供 給電力を測定した. まず,PCI-Express スロット通じて GPU に供給さ れる電力は,GPU とマザーボード間にライザーカー ドを挟み, ライザーカードに流れる電流をクランプ メーターで測定することにより, 計測した. 本実験 で用いたライザーカードは, マザーボード接続側の 4.GPU における性能と消費電力の関係の調査 4. ホストメモリとデバイスメモリ GPU には VRAM と と異なる種類のメモリが搭載されている. また,VRAM アクセス手法には通常のアクセスとコアレスアクセスがあり, アクセス手法にはバンクコンフリクトが発生する手法としない手法がある. 本章では, 各種メモリへのアクセス時の性能と消費電力, 各種手法でのメモリアクセス時の性能と消費電力について述べる. 最初に, ホストメモリからデバイスメモリへのデータ転送処理およびデバイスメモリからホストメモリへのデータ転送処理の性能と消費電力を示す. 本測定では, ホストメモリまたはデバイスメモリから整数データ (4 バイト ) を読み込み, それをデバイスメモリまたはホストメモリに書きこむ処理を繰り返すことにより性能と消費電力量を測定した. 測定結果を図 8に示す. 本測定は, GeForce 88GT を用いて行った.

性能 / 電力 [GB/W Sec] 転送速度 [GB/Sec] 転送速度 [GB/sec].6.4..8.6.4. HostToDevice DeviceToHost 図 8 ホストメモリとデバイスメモリ 転送速度消費電力 4 39 38 37 36 35 34 33 3 3 3 これらの性能を単位消費電力あたりの性能に換算 したものを図 に示す. 同図からも, 性能と消費電 力の両側面から考えたときもコアレスアクセスと の使用が有効な手法であることが確 認された. 本実験では Warp により並列にメモリアクセスを 行った. 多数のスレッド, 多数の Warp にて並列ア クセスを行った場合は, メモリ待ち時間中に他の Warp の処理を行いメモリアクセス遅延時間を隠蔽 できる..5 7 同図より, ホストからデバイスへのデータ転送速 転送速度 消費電力 度の方がデバイスからホストへの転送速度より速い.5 6 (.3 倍 ) にもかかわらず消費電力はほぼ等しい (. 倍 ) ことが分かった..5 5 4. VRAM と 本節では, メモリアクセス処理の性能と消費電力について述べる. 最初に,VRAM から VRAM へのデータ転送処理および から VRAM へのデータ転送処理の性能と消費電力を示す. 本測定では,VRAM または から整数データ (4 バイト ) を読み込み, それを VRAM に書き込む処理を繰り返すことにより性能と消費電量を測定した. 本節の測定も GeForce 88GT を用いて行った. メモリアクセスは Warp(3 スレッド ) により並列に行った. 測定結果を図 9に示す. 本測定では,VRAM から VRAM へのデータ転送処理の性能と消費電力を基準とし, 各種メモリアクセス方法, 各種読み込み元メモリを用いた場合と比較する. VRAM アクセス方法をコアレスアクセスにすることにより, 消費電力を減少させ (.95 倍 ) メモリアクセス性能のみを向上 (.36 倍 ) させることが可能であることが確認された. また, 読み込み元を VRAM から に変更することにより, 消費電力を変えず (. 倍 ) にメモリアクセス性能を向上 (.6 倍 ) させることが可能であることも確認された. 読み込み元を にし,VRAM へのメモリアクセスをコアレスアクセスで行なった場合, データ転送は大幅に向上 (5. 倍 ) し, 消費電力はほぼ等しい (. 倍 ) ことが分かった. ただし, 本測定では 使用時も書き込みは VRAM に対して行っているため, 本測定結果は のみを用いた場合の性能ではない. 4 VRAM -> VRAM VRAM -> VRAM Shared -> VRAM Shared -> VRAM 図 9 メモリコピーの転送速度と消費電力.6 7 性能 / 電力消費電力.5.4 6.3. 5. 4 VRAM -> VRAM VRAM -> VRAM Shared -> VRAM Shared -> VRAM 図 メモリコピーにおける単位消費電力あたりの転送速度 4.3 次に, から へのデータ転送処理にて得られた性能と消費電力の関係を図 に示す. 本節の測定も GeForce 88GT を用いて行った. アクセスは,Warp で並列に行った. 横軸の使用バンク数は並列に使用したバンクの数である. 使用バンク数が少ないときは 3 個のスレッドのアクセスが少数のバンクに集中しておりバンク衝突が多く発生している状況である. 使用バンク数が多いときは多くのバンクが並列に動作し, バンク衝突も少ない状況である. 同図の結果より, バンク衝突を回避させることにより消費電力を増加させず (. 倍 ) に性能を大きく向上 (.96 倍 ~.3 倍 ) させることが可能であることが確認された

転送速度 [GB/Sec] 9 8 転送速度消費電力 7 7 7 6 6 5 6 4 3 5 block = block = block = 8 3 4 5 6 7 8 9 3 4 5 6 4 5 block = 4 block = 5 block = 7 block = 4 block = 7 block = 4 使用バンク数 図 間データ転送時の性能と消費 電力 4, 4, 6, 8,,,,,,4,,6,,8, 演算性能 [ 発生乱数 / 処理時間 ] 図 演算処理における性能と消費電力 4.4 プロセッサ演算 使用スレッド数と使用ブロック数を変化させて, プロセッサ演算時の性能と消費電力の関係を調査した. 行った処理は Monte Carlo シミュレーションである. 辺の長さが の正方形の中からランダムに座標を選択し, その点が扇形の内部に入る確率を求め円周率を求めた. 乱数は発生済みの状態で行い, 発生処理は Monte Carlo シミュレーションに含めていない. ブロック数は,,8,4,5,7,4,7,4 と変更させ, ブロックあたりのスレッド数は から 5 まで変化させた. 本節の測定も GeForce 88GT を用いて行った. ブロック数, スレッド数, 性能, 消費電力の関係を図 に示す. 同図より, 性能と消費電力には強い相関があり, 性能が増えると消費電力は増加する傾向が非常に強いことが確認された. 本実験で使用した GPU は 4 個の を持っているが, ブロック数を から 数まで増加させていくと性能が向上 (7.9 倍 ~8. 倍 ) するとともに消費電力も増加 (.3~.47 倍 ) していき, 更にブロック数を 数以上に増加させていくと性能がなだらかに向上すると共に消費電力も増加していくが, ブロック数を 4 以上で用いた場合, 性能はほぼ変化せず, 消費電力のみ減少することが確認できた. 同一性能で比較した場合, 最大 7% 減少した. すなわち, 多くのブロックを用いた方が消費電力が低くなる傾向があり, 性能を低下させずに消費電力のみを低下させるにはブロック数を増加させることが好ましいことが分かった. また, 前節の結果と比較することにより によ 5. 関連研究 GPU の消費電力に関する研究として, 長坂らによる GPU の性能と消費電力の相関性の解析の研究がある). この研究では, 様々な演算プログラムを実行させ, 実行プログラム毎に GPU における消費電力が大きく異なることに注目し, その関係について調査している. この結果, 命令スループットの高いプログラムでは消費電力が大きいとしている. 消費電力予測では, 結果誤差は平均して 7% 程度としている. また,GPU 処理では実行プログラム毎に消費電力が大きく異なることに着目し,GPU の消費電力における電圧と動作周波数の関係の解析の研究が長坂らによりされている). この研究では,DVFS に着目し,GPU での消費電力は実行プログラムに関する電力と, 実行プログラムに関係しないそれ以外の電力という電力をつに分けて考察されている. そして, そのつの電力が消費電力とどのような関係にあるかが調査されている. この結果, 実行プログラムに関する電力は電圧値の 乗と動作周波数に比例し, 実行プログラムに関係しない電力は電圧値に比例しているとしている. GPU におけるメモリアクセスや演算処理の消費電力に関する研究として,Callange らによる異なる NVIDIA GPU におけるよるメモリ読み込みや演算命令と消費電力の関係について研究がある 3). この結果により,DRAM を用いる場合よりもテクスチャーキャッシュを用いる方がメモリ要求あたりの消費エネルギーは抑えられるとしている. る演算処理の方がメモリアクセス処理よりも多くの 電力を消費することが分かった. 6. おわりに 本稿では災害対策拠点の分散化を支援するため の耐災害性の高い通信システムを想定し, 同システ

ムおけるサーバ計算機の性能と消費電力に関する考 察を行った. 具体的には, サーバ計算機の構成要素 の中で非常に消費電力の大きな要素である GPU に着 目し, その性能と消費電力の関係について考察した. 調査の結果, メモリアクセスをコアレス化し,Shared Memory を使用することにより, 性能と消費電力の両 側面において改善がみられることが確認された. ま た, ブロック数とスレッド数に関する調査を行った 結果, ブロック数を増加させることにより性能を保 ったまま低消費電力化を行えることが確認できた. 参考文献 ) 長坂仁, 丸山直也, 額田彰, 遠藤敏夫, 松岡聡, "GPU に おける性能と消費電力の相関性の解析 ", 情報処理学 会研究報,Vol.9-HPC-,No.7,pp.-5(9) ) 長坂仁, 丸山直也, 額田彰, 遠藤敏夫, 松岡聡, "GPU におけるモデルに基づいた電力効率の最適化 ", 研究報告ハイパフォーマンスコンピューティング ",Vol.-HPC-8,No.,pp.-6() 3) S.Collange,D.Defour,and A.Tisserand,"Power Consumption of GPUs from a Software Perspective ", in Workshop on Using Emerging Parallel Architectures for Computational,Vol.44,ch.9, pp.94-93(9)