GPUによる樹枝状凝固成長のフェーズフィールド計算青木尊之 * 小川慧山中晃徳 * 東京工業大学学術国際情報センター, ** 東京工業大学理工学研究科溶融金属の冷却過程において形成される凝固組織の形態によって材料の機械的特性が決定することは良く知られているこのようなミクロな組織の

Size: px

Start display at page:

Download "GPUによる樹枝状凝固成長のフェーズフィールド計算青木尊之 * 小川慧 ** 山中晃徳 ** * 東京工業大学学術国際情報センター, ** 東京工業大学理工学研究科溶融金属の冷却過程において形成される凝固組織の形態によって材料の機械的特性が決定することは良く知られているこのようなミクロな組織の"

しょうこかなり
5 years ago
Views:

1 1 創刊号 TSUBAME 2.0 の全貌 GPU による樹枝状凝固成長のフェーズフィールド計算 TSUBAME を用いたフラーレンナノチューブグラフェンの構造変化と新物質研究

2 GPUによる樹枝状凝固成長のフェーズフィールド計算青木尊之 * 小川慧 ** 山中晃徳 ** * 東京工業大学学術国際情報センター, ** 東京工業大学理工学研究科溶融金属の冷却過程において形成される凝固組織の形態によって材料の機械的特性が決定することは良く知られているこのようなミクロな組織の形態形成を解明するために近年強力な組織形成シミュレーション法として注目されているフェーズフィールドモデルを用いて界面の動的な変化と温度変化を解き凝固過程を計算するこれまでフェーズフィールドモデルは計算負荷が大きいため 3 次元計算が殆ど行われてこなかったが TSUBAME 1.2 のGPU を使うことで非常に高速に計算を行うことができ 60 GPUで 10TFlopsという実行性能が得られたはじめに 1 フェーズフィールドモデル 2 金属材料の機械的強度や特性はミクロの組織的構造に基づくためより高性能な材料を得るためにはミクロなダイナミクスの解明が必要である近年材料の相転移や相分離などの解明に非平衡統計力学から導出されるフェーズフィールドモデル [1] が注目されている導出される方程式は時間空間の偏微分方程式になっていて有限差分法や有限要素法などで解かれることが多いしかしフェーズフィールドモデルは計算負荷が大きいため HPC 分野において最近注目されているアクセラレータ技術 [2] 特に GPGPU(General-Purpose Graphics Processing Unit) [3] を使うことを考える GPUはパソコンにも普通に使われる画像表示専用のプロセッサであるがグラフィクス処理の高度化に伴い機能が急速に進化し画像処理以外の一般的な計算も行えるようになってきた浮動小数点演算の性能が高くビデオメモリへのバンド幅が大きいため従来のアクセラレータと違いさまざまなアプリケーションへの適用が可能であるさらに 2006 年にNVIDIAがGPGPU 用の統合開発環境であるCUDA [3] をリリースしたことにより標準 C 言語でGPGPUのアプリケーションを開発できるようになり一気に利用が広がっている本稿ではフェーズフィールドモデルに基づいて純金属の過冷却凝固における樹枝状 ( デンドライト ) 組織の成長を計算する CUDAを用いて有限差分法で離散化された時間発展方程式をプログラミングし TSUBAME 1.2 のGPU 上で計算することにより CPU と比較して圧倒的に高速に計算できることを示す従来のGPU 計算が単一 GPUを利用することが多かったのに対し本研究では 1 つの GPU 上のメモリには載らないような大規模の計算に対し領域分割法で並列化すると共に複数ノードに搭載されたGPUを使う計算のスケーラビリティを調べたフェーズフィールドモデルは非平衡統計物理学から導出され分子スケールとマクロなスケールの中間のメソスケールの現象を記述できる秩序変数 φを導入し固相部分 φ=1に液相部分にφ =0 と設定する界面を含む領域ではφが 0 から 1 へと急峻かつ滑らかに変化する拡散界面として扱い φ= 0.5を界面として扱うフェーズフィールドモデルでは従来使われていた界面追跡法等の手法が不要となり領域全体で同一の計算を行うことができる本研究で対象とする純金属のデンドライト凝固成長ではフェーズフィールドモデルから導出されるAllen-Cahn 方程式と熱伝導方程式を解く [4] 界面エネルギーの異方性を考慮したφに対する方程式として式 (1) を用いる (1) また式 ( 1 ) 中 β は式 ( 2 ) ε は式 ( 3 ) である (2) (3) ただし L は潜熱 Χ は [-1.0,1.0 ] の乱数 α は乱数の振幅 γ は異方性強度 Τ m は融点 δ は界面厚さ σ は界面エネルギー λ は界面幅制 05

GPU による樹枝状凝固成長のフェーズフィールド計算御パラメータ他定数はb =tanh -1 ( 1-2 λ) W =σb /δ M =bt m µ/3 δl である一方凝固過程に最も関係する温度 T について界面からの潜熱の発生を考慮した熱伝導方程式 (4) を用いる GPU コンピューティング 3 (4) 本研究では東京工業大学学術国際情報センタースーパーコンピュータTSUBAME

44GHz VRAM 4GByte 最大 1036GFLOPS メモリバンド幅 102GByte/s) のうち 2 機のGPUがPCI-Express Gen1.0 8で接続されているが本研究では 1ノードにおいて 1 機のGPUのみを用いる一方各ノードの Opteron CPUは 1コア当たり 4.8 GFLOPS メモリバンド幅 6.

.18.14 OSはSUSE Enterprise Linux 10である 3-1 高速化技術 CUDAを用いてGPUのプログラミングを行った (1) 式と (4) 式を 2 次精度有限差分法で離散化し 1 次精度の時間積分 ( オイラー法 ) を行っている従属変数である秩序変数 φの時間発展に必要なnステップとn+1ステップの配列をビデオメモリ (CUDAではグローバルメモリと呼ばれる )

3 GPU による樹枝状凝固成長のフェーズフィールド計算御パラメータ他定数はb =tanh -1 ( 1-2 λ) W =σb /δ M =bt m µ/3 δl である一方凝固過程に最も関係する温度 T について界面からの潜熱の発生を考慮した熱伝導方程式 (4) を用いる GPU コンピューティング 3 (4) 本研究では東京工業大学学術国際情報センタースーパーコンピュータTSUBAME 1.2を利用する各ノードはSun Fire X4600 (AMD Opteron 2.4 GHz 16 コア, 32 GByte) でありノード間は 2 本の10 Gbps のSDR Infinibandで接続されている GPU 計算のために使用するノードには NVIDIA Tesla S1070 ( 動作周波数 :1.44GHz VRAM 4GByte 最大 1036GFLOPS メモリバンド幅 102GByte/s) のうち 2 機のGPUがPCI-Express Gen1.0 8で接続されているが本研究では 1ノードにおいて 1 機のGPUのみを用いる一方各ノードの Opteron CPUは 1コア当たり 4.8 GFLOPS メモリバンド幅 6.4 GByte/ sec (DDR-400) である実行環境は CUDA 2.2 対応 Runtime NVIDIA Kernel Module OSはSUSE Enterprise Linux 10である 3-1 高速化技術 CUDAを用いてGPUのプログラミングを行った (1) 式と (4) 式を 2 次精度有限差分法で離散化し 1 次精度の時間積分 ( オイラー法 ) を行っている従属変数である秩序変数 φの時間発展に必要なnステップとn+1ステップの配列をビデオメモリ (CUDAではグローバルメモリと呼ばれる ) 上に確保する時間発展の過程で必要な時だけデータをCPU 側に転送するようにし PCI-Express Bus を介したデータ通信は可能な限り頻度を減らしている 1 つのGPUが担当する計算領域の格子点数をnx ny nzとするそれらをx 方向にL 分割 y 方向にM 分割 z 方向にN 分割すると分割された小領域の格子点数はMX MY MZとなるただし MX=nx/L MY=ny/M MZ=nz/Nである各々の小領域に対してCUDAのブロック内のスレッドを (MX MY 1) として割り当てる各スレッドでは z 方向にMZ 個の格子点をループで計算する高い実行性能を得るためには問題サイズに合わせ適切な分割数を選ぶ必要があり MX=64 MY=4 が最適であった φに対する式 (1) の離散化式は隣接の18 個の格子点にアクセスするグローバルメモリへのアクセス回数を低減させるためにシェアードメモリをSoftware Managed Cache として用いるさらにシェアードメモリの使用量を節約するためにブロック内に (MX+2) (MY+2) の大きさの 3 つの配列をシェアードメモリ上に確保しサイクリック図 1 純金属の樹枝状凝固成長の過程に使い廻している温度 T n に関する計算でも同じようにシェアードメモリを使い計算を行うただし式 (2) の右辺にφ n の時間微分 φ/ t n i, j,kが表れるため φ n i, j,k φ n+1 i, j,k の時間発展とT n i, j,k T n+1 i, j,kの時間発展のカーネル関数をフューズさせスレッド内で φ/ t n i, j,kを保持することによりグローバルメモリへのアクセスを減らしている 3-2 単一 GPU 計算の実行性能 GPU 計算の計算結果の検証と実効性の比較のためにCPUのコードも作成している CPUコードを用いて 1 格子点あたりの浮動小数点演算数をPAPI (Performance API) [5] を用いハードウェアカウンターで測定する GPUでは整数演算もSPが処理を行うため CPUコードで数えた浮動小数点演算数を基に経過時間を測定して実行性能を評価する Tesla S1070 の1GPUからアクセスできるメモリサイズが 4 GByteであるため計算できる最大の問題サイズが格子数程度までに制限される 1 GPUによる計算において格子点数を変えながら実行性能を測定すると格子で116.8 GFLOPS 格 06

4 子にて161.6 GFLOPS 格子にて GFLOPS 格子にて GFLOPS 格子にて171.4 GFLOPSとなる CPU ( Opteron 1 コア ) での実行性能が GFLOPSであるのに対し格子の計算では 171 GFLOPSの性能が得られ TSUBAME1.2のCPU Opteron 2.4GHz の 1CPU 計算と比較すると約 190 倍の高速化が達成された本計算では 1 格子点当たりの浮動小数点演算が373 回である一方シェアードメモリを使わないと 26 回のグローバルメモリへの読み込みと 2 回の書き込みの計 28 wordのメモリアクセスがある本研究では単精度計算を行っていて全ての格子点で同じ計算を行うので 3.33 FLOP/Byteの演算密度があるこれに対しシェアードメモリを用いることで袖領域を含まない格子点においては読み込みを 2 回に減らすことができメモリアクセスを 4 回に低減することができるその結果演算密度を FLOP/Byteにまで高めることができるこの値は一般的な流体計算などと比較すると非常に大きく計算インテンシブになっているため GPUの高い演算性能を引き出すことができたマルチ GPU コンピューティング複数ノードに搭載されたGPU 計算複数のGPUを用いて計算する目的は次の 2 つである 1 単一 GPUのカードに搭載されているメモリに入りきらないような大規模計算を行う 2 決められた格子点数の問題に対して 1 GPUよりさらに高速化を図る複数個のGPUを用いるには GPU 単位での並列化が必要となる 3 章で述べたようにGPU 計算では単一 GPU 内でもスレッドのブロックがあるので並列化の階層がさらに 1 つ増えた多階層の並列化になる GPU 間の並列計算にはMPIライブラリの通信を行い GPU 数とMPIのプロセス数は等しくなる領域間のデータ転送量を減らすためには計算全体の格子に対して 3 次元的な領域分割 ( サイの目型の分割 ) をする方が有利であるがここではz 軸方向に沿って 1 次元的な領域分割 ( 短冊型分割 ) を行い計算とのバランスを明らかにすることを優先する 4-2 通信と計算のオーバーラップ複数ノードのCPUを用いた計算では各プロセスに割り当てられた領域内のすべての格子の計算 ( 時間発展 ) を行ってから袖領域のデータ通信を行うことが多い本方法を非オーバーラップ計算 (Non- Overlapping) と呼ぶことにする一方計算とデータ通信のオーバーラップにより通信時間を隠ぺいすることができるオーバーラップ手法を導入したGPU 計算ではまず袖領域のデータとして交換される格子を先に計算する計算後非同期に 2 つのstreamを生成し同時実行する stream 0 では袖領域を除いた中心部分の格子点に対する計算を行い stream 1 は袖領域の通信を行う図 2 マルチ GPU によるオーバーラップ / 非オーバーラップ計算の実行性能 4.3 マルチ GPU 計算の実行性能 4つの解像度での計算 ( 格子格子格子 ) の各々についてGPU 間通信とGPU 計算をオーバーラップさせる計算と非オーバーラップ計算に対して GPU 数を変えて得られた実行性能の強スケーラビリティを図 2 に示すいずれの解像度においてもオーバーラップ計算は非オーバーラップ計算に対して性能が大幅に改善されていることが分かるオーバーラップ計算では格子について1 ~ 8 GPUまでの範囲格子について4 ~ 24 GPUまで範囲格子において 30 ~ 48 GPUまでの範囲で理想的な強スケーリングを示していることが分かるまた問題サイズを大きくすることによる弱スケーラビリティについては試した計算の範囲内で理想的な性能が示されているオーバーラップ計算の特徴として強スケーラビリティはGPU 数が少ないときに理想的な直線に近づくが GPU 数が増えて計算時間より通信時間の方が長くなりもはや通信を隠ぺいできなくなると急激に性能が頭打ちになる本稿で特筆するべき点は格子数の計算に対して 60 GPUを用いたオーバーラップ計算の実行性能が 10 TFLOPS に達したことである世界トップクラスのスパコンで実現されるアプリケーションの性能である TSUBAME 1.2のCPU 計算との実行性能の比較を行うために全く同じ格子の計算をCPUとGPUの両者で行った GPU 計算の最大性能はオーバーラップ計算を行った場合に 24 GPU で 3.7 TFLOPSである CPUとGPUの実行性能の比較を図 3 に示す検証可能な範囲のCPU 計算は 128コアまでほぼ理想的な強スケーリングを示しているが GPUの最高性能である 3.7 TFLOPSに達するには理想的な強スケーリングを仮定しても4000CPUコア強が必要 07

5 GPU による樹枝状凝固成長のフェーズフィールド計算となる同じ計算を同じ時間で得ようとすると CPU 計算ではGPU 数の 150 倍のコア数が必要になることが分かる参考文献 [1] Tomohiro Takaki, Toshimichi Fukuoka and Yoshihiro Tomita, Phase-field simulation during directional solidification of a binary alloy using adaptive finite element method, J. Crystal Growth 283 (2005)pp [2] 遠藤敏夫松岡聡橋爪信明長坂真路ヘテロ型スーパーコンピュータTSUBAMEのLinpackによる性能評価情報処理学会論文誌コンピューティングシステム 48(SIG 8(ACS 18)): [3] NVIDIA Corporation, NVIDIA CUDA Compute Unified Device Architecture Programming Guide Version 2.0, NVIDIA Corporation, California, [4] Ryo Kobayashi, Modeling and numerical simulations of dendritic crystal growth, Physica D, 63, 3-4, pp , [5] PAPI, 図 3 TSUBAME 1.2 において格子の CPU 計算と GPU 計算の比較おわりに 5 純金属の樹枝状凝固成長に対してフェーズフィールドモデルに基づいたAllen-Cahn 方程式と熱伝導方程式を連立させた計算を NVIDIA のTesla GPUを搭載したTSUBAME 1.2を用いて実行した CUDAによりプログラミングを行い単一 GPUで171 GFLOPS( 単精度計算 ) を達成したさらにマルチGPUに対して領域分割に基づく並列化を行い強スケーラビリティと弱スケーラビリティを示した CPU 計算に対して 100 倍以上の高速化を行うことができこれは消費電力を大きく下げることでもある 60GPUを用いることで 10 TFLOPSの実行性能を達成することができ GPUが次世代スパコンの中心的な役割を担う可能性が高いことを示すことができた謝辞本研究の一部は日本学術振興会 (JSPS) グローバルCOE プログラム計算世界観の深化と展開 (Comp View) 科学研究費補助金基盤研究 (B) 課題番号多モーメント手法による多目的 CFD コアの開発および科学技術振興機構 (JST)CREST 次世代テクノロジーのモデル化最適化による低消費電力ハイパフォーマンスコンピューティング (ULP-HPC) から支援を受けている本研究を遂行するにあたりスーパーコンピュータTSUBAME Grid Cluster での大規模並列計算キューの利用に対して東京工業大学学術国際情報センターよりご協力を頂いた記して謝意を表す 08

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード] 200/0/9 数値流体解析の並列効率とその GPU による高速化の試み清水建設 ( 株 ) 技術研究所 PHAM VAN PHUC ( ファムバンフック ) 流体計算時間短縮と GPU の活用の試み現 CPUとの比較によりGPU 活用の可能性現 CPU の最大利用ノード内の最大計算資源の利用すべてCPUコアの利用適切なアルゴリズムの利用 CPU コア性能の何倍? GPU の利用の試み