新しい並列プログラミング言語である分散メモリ環境において OpenMPのようにMPI とは異なるシンプルな言語構文と指示文による並列化を目指しているベース言語は Fortran 言語とC 言語となっており 2011 年 6 月に発足したPC クラスタコンソーシアム XcalableMP 規格部会

高性能並列プログラミング言語 XcalableMP の紹介 IntroductionofaPGASparalelprogramminglanguage XcalableMP 一般財団法人高度情報科学技術研究機構原山卓也井上孝洋手島正吾国立研究開発法人理化学研究所計算科学研究機構村井均現在の京を中核とするHPCI におけるスーパーコンピュータやPC クラスタでは CPU に多くの計算コアを搭載している今後もこの計算コア数は増大する傾向にありポスト京と呼ばれる次世代スーパーコンピュータにおいてはその数はこれまでと比較して膨大なものになることが予想されるこのような大規模並列計算機システムでプログラムの並列化にMPI を用いると並列化は複雑化しそれに伴いプログラミングコストが高くなり最終的にはプログラムの生産性や性能が低下するといった問題が発生するそこでこのような問題を解決するために高性能で且つ扱いやすさを目指した新たな並列プログラミング言語として PGAS 言語 XcalableMP(XMP) の研究開発が進められている本稿では XMPの研究開発の現状について紹介する 1. はじめに現在計算機科学計算科学分野やHPC (HighPerformanceComputing) 分野では CPU としてメニーコアまたはマルチコアと言った複数の計算コアを持つ複数のノードをネットワークにより結合したPC クラスタや大型並列計算機が広く利用されているこのような並列計算機でプログラムを効率よく利用するためプログラムを並列化する手法としてはメニーコアCPU に対するスレッド並列ノード間に対するプロセス並列があり近年ではこれらを組合せたハイブリッド並列が多く利用されているプログラミング言語としてはスレッド並列ではOpenMPが用いられプロセス並列ではMessagePassing Interface(MPI) が一般的に用いられる OpenMPは共有メモリ型マシンで並列プログラミングを可能にするAPI で指示文 ( ディレクティブ ) を挿入するだけで並列化が行える一方 MPI は分散メモリ型マシンで並列プログラミングを可能にするAPI でノード間のデータの送受信やブロードキャストといった集団通信が数多く用意されているがその利用にはデータの分散や並列処理を明示しなければならず OpenMPによる並列化と比べて手間がかかるのが実情である XMPは MPI のプログラミングコストの削減とOpenMPと同等の生産性の実現を目的とした新たな並列プログラミング言語であり今後の大規模並列計算機システムにおける並列プログラム開発の生産性の向上に大きく寄与することが十分に期待される本稿では研究開発が進められているこのXMPについてその現状を紹介する 2.XcalableMPについて XcalableMP(XMP) は分散メモリ環境を抽象化し論理的に単一アドレス空間として扱うといったPGAS(PartitionedGlobal AddressSpace) 機能に基づいて開発された -21-

新しい並列プログラミング言語である分散メモリ環境において OpenMPのようにMPI とは異なるシンプルな言語構文と指示文による並列化を目指しているベース言語は Fortran 言語とC 言語となっており 2011 年 6 月に発足したPC クラスタコンソーシアム XcalableMP 規格部会が仕様の策定を行っている XMPの普及促進のため言語仕様をはじめマニュアルや活動内容といった情報が XcalableMPの Web サイト (htp:/xcalablemp. org) を通じて公開されているプログラミングモデルにはグローバルビューローカルビューと呼ばれる2つの並列化モデルを提供しているグローバルビューモデルではHighPerformanceFortran (HPF) のようなデータ / ワークマッピング指示文による並列化をサポートしており元の逐次コードに指示文を挿入するだけの手軽さで並列化を実現しているまたローカルビューモデルでは Fortran2008 から導入されたcoarray 機能を取り入れ MPI の場合と遜色ない並列化とプログラミングコストの削減を実現している 3. 実行モデルとメモリモデルについて実行モデル XMPの実行モデルは MPI と同じSingle Program MultipleData(SPMD) であるそのためプログラムは各ノードで同じ処理が行われるしかしノード間のデータの送受信は MPI と異なり指示文により行われる 4. プログラミングモデルについてグローバルビューモデルグローバルビューモデルは分散メモリ環境で OpenMPのように既存のコードに指示文を挿入することで並列プログラミングを可能にするものであるこのグローバルビューモデルは逐次プログラムのイメージから出発してデータを各ノードに分散しそれに応じた並列化を考えていくプログラミングスタイルに適しているグローバルビューモデルにおける指示文の記述は次のリスト1に示す形式で始まるリスト1. グローバルビューの記述グローバルビューモデルにおける指示文には宣言指示文と実行指示文が用意されており実行指示文には単独指示文 (stand-alone directive) と指示構文 (directiveconstruct) を構成する指示文がある単独指示文は同期指示行などのその行単独で一つの機能を有し指示構文は次のリスト2に示す形式となり関連付けられた言語との組合せで一つの機能を有するリスト2. グローバルビューの指示構文メモリモデル各ノードは自身のローカルメモリ上のデータのみにアクセスできる他のノード上のデータ ( リモートデータ ) にアクセスする場合は XMP 指示文またはcoarray を用いて明示的にノード間の通信を記述する必要がある -22-

-23- 指示文の種類はリスト3 に示すようにデータの分散に関するデータマッピング実行処理を割り当てるワークマッピング通信同期の3 種類がありそれぞれの処理に応じた指示文が提供されているリスト3. 指示文の種類リスト4. グローバルビューの指示文の記述例グローバルビューモデルにおいて指示文による並列化を記述した例はリスト4のようになるローカルビューモデルローカルビューモデルは各ノードが行う処理を記述するプログラミングモデルである MPI ではデータの分散やその通信の記述をユーザが記述するが XMPでも同様のプログラミングのスタイルを採用しているこれはデータの局所性やノード間の通信を十分に把握した上でのプログラミングとなるためその自由度は高くなり高い性能を引き出すことを目的としているためである XMPではFortran2008 のcoarray 機能をベースとした言語拡張を提供しており変数の宣言や代入文を拡張とした構文によりノード間の通信をMPI と比べて簡単に記述することを可能としている XMP/Fortran においてはFortran2008 との互換性が保たれている XMP/C においてはcoarray 指示文と言語拡張で実装がされているノード間のデータの送受信は片側通信と集団通信を使用することができる Fortran 言語とC 言語におけるcoarray の配列宣言と片側通信の記述例をリスト5 に示すリスト 5. グローバルビューの指示文の記述例一方集団通信には分散データの総和最大値最小値を求めるco_sum co_max co_min といった組込み関数がありまた

syncal 文といった同期機能が提供されているまたあるデータをブロードキャストするco_broadcast 関数も提供されているこの集団通信 co_broadcast 関数のFortran 言語における記述例をリスト6に示すリスト6. 集団通信 co_broadcast 関数の記述例想的な共有空間に置かれているように見えるため原則として配列要素の特定にノード番号を必要としないただし XMPでは他ノードのデータの参照は明示的な記述を必要とするためグローバルビューであってもユーザがそのデータが自ノードに配置されているかを把握していなければならない XMPでは 1つのデータに対してグローバルビューとローカルビューの2つの名前を付け使い分けるための指示文も提供されている *1 詳細は仕様書を参照されたい XMPの coarray 機能に触れる前にベースとなるCoarrayFortran 言語に触れてみたいという人は Fortran2008 規格をサポートしているベンダーが提供するコンパイラを使用するかまたはオープンソースで提供されているOpenCoarrays(htp:/opencoarrays.org) を参照して欲しいプログラミングモデルの切替えプログラミングモデルはユーザが使用するアプリケーションの性質によって使い分けることが望ましいが他の言語モデルにはない XMPの特徴として同じ変数に対してグローバルビューモデルとローカルビューモデルの切替えを行うことができることがあげられるローカルビューの変数は宣言された形状のデータが全てのノードに割り付けられるためデータを参照するには変数名と各次元の添字に加えてノード番号を指定しなければならない ( ノード番号を省略した場合には自ノードのデータであると見なされる ) 一方グローバルビューの変数はデータは仮 5.OmniXcalableMPについて OmniXcalableMP(XMPコンパイラ ) は筑波大学 HPCS 研究室と理化学研究所計算科学研究機構 ( 理研 AICS) プログラミング環境研究チームによりオープンソースプロジェクトとして開発されているXMPコンパイラのリファレンス実装である OmniXcalableMPは XcalableMPをはじめ XcalableACC OpenACC といった指示文を含むコードを対象としたコンパイラとなっており OmniCompilerProject のWeb サイト (htp: /omni-compiler.org) よりダウンロードができる残念ながら現時点ではC++ 言語には対応していないが近年ではC++ 言語による科学技術計算の開発コードも多く見られるため今後対応する予定である XMPコンパイラは次の条件を満たす一般的なLinux クラスタや京コンピュータや地球シミュレータの他 MPI が動作する任意のプラットフォームに対応している各プラットフォームに対応したバイナリは用意されておらずユーザがソースファイルからビルドインストールをする必要がある *1 ただし現時点のOmniXcalableMPではグローバルデータの別名をcoarray として宣言する機能は利用できない -24-

リスト 7. インストールに必要な環境リスト 9.ConfigurationSummary の出力例インストールは Linux 利用者であればリスト8の手順に従い比較的簡単に行うことができるリスト8. インストール手順 6.XMPの実装と性能評価について分散メモリ環境を対象とした新しいプログラミングモデルであるXMPであるが近年では更なる研究開発と普及促進のために既存のプログラムへの実装を行いその利便性や性能向上についての検証が盛んに行われているインストールの際の注意点はローカルビューモデルの片側通信が行える環境にあるかであるこれはconfigure コマンド実行後のConfigu- rationsummary の出力により確認ができる Options 項目のOnesided がYes になっていれば良く MPI ライブラリ環境のバージョンが3 以上であれば特に問題はないまたオプションの指定により数値計算ライブラリBLAS を使用する場合は configure コマンドの引数にオプション-with-libblas に静的ライブラリlibblas.a を指定することによりその機能が有効となる基本的にはここまでに述べた手順にてインストールは行えるはずであるが, 不明な点がある場合は詳しい手順がガイドブックとして公開されている (htps:/ omni-compiler.gitbooks.io/guidebook/content/ja/) ので参照して欲しいグローバルビューモデルグローバルビューモデルの実装は表 1に示すアプリケーションに行われている指示文による並列化が行われオリジナルのMPI 版と実行時間を比較しても遜色ないことが過去に開催されたワークショップの資料として公開されている [1] 表 1. グローバルビューモデルを実装したアプリケーションアプリ名 IMPACT-3D RTM コード SCALE GTC-P 概要 3 次元 Cartesian 格子による流体コード ( 核融合研 ) リバースタイムマイグレーション法による地中探査イメージング ( 仏 Total 社 ) 次世代気象気候科学における基盤ライブラリ ( 理研 AICS) 核融合シミュレーションコード ( プリンストン大 ) -25-

ローカルビューモデルローカルビューモデルの実装は表 2 に示す FIBERMiniApp の幾つかのアプリケーションに対して行われ検証が行われている [4] 表 2. ローカルビューモデルを実装したアプリケーションアプリ名 CCSQCD FFVC-MINI 概要高エネルギー物理学で用いられる格子量子色力学プログラム三次元非定常非圧縮性熱流体シミュレーションプログラム ( 熱流体解析プログラム ) 全球雲解像モデルNICAM の力学 NICAM-DC-MINI コアを計算するプログラム mvmc-mini 多変数変分モンテカルロ法ヒト個人間の遺伝的差異やがん NGSAnalyzer-MINI ゲノムの突然変異を固定するプログラム高並列汎用分子動力学シミュレ MODYLAS-MINI ーション NTChem-MINI 分子科学計算ソフトウェア FFB-MINI 非圧縮流体の非定常流動を高精度に予測可能な LargeEddy Simulation(LES) に基づいた汎用流体解析コードここで FIBERMiniApp とはアプリケーションとシステムのコデザインのために理研 AICS にて整備開発されたツールでありさまざまな分野の実アプリから重要な特徴を抽出して作られたミニアプリである FIBER のWeb サイト (htp:/fiber-miniapp. github.io) にて公開されているまたこの FIBERMiniApp は国内のベンチマークプログラムとして性能評価を行う上で大変便利なアプリとなっているローカルビューモデルの基本的な実装方針は MPI の同期または非同期通信をcoarray のPut ベースの片側通信に置換え MPI の集団通信についてはcoarray の集団通信 (co_ broadcast など ) への置換えとしている実装のイメージは図 1 に示す通りであるリスト10.XMPの実装の基本方針図 1.XMP 実装のイメージ -26-

ここで実際にMPI の通信部分をcoarray に置換えた例を2つあげる 1つは同期通信 MPI_Sendrecv 関数の置換え ( 図 2) でありもう1つは集団通信 MPI_Gatherv 関数の置換え ( 図 3) であるまず MPI_Sendrecv 関数の置換えについてであるがその前にcoarray の片側通信では MPI の場合とは異なり通信相手のバッファに関する情報を明確に把握する必要がある MPI 関数の呼び出しによる通信の指定は送受信バッファの先頭アドレスと送受信データの個数データ型通信相手のランク番号などといった情報が必要となるが coarray 記法ではデータを送受信するバッファ代入文の指定となり送受信バッファの他に通信相手のノード番号が必要となる特に送受信バッファに配列を使用する場合はデータ転送を行う配列の領域範囲 ( 上限下限 ) の指定が必要となるまた片側通信 Put では代入文の左辺に通信相手のノード番号を [ ] で指定する coarray 記法ではノード番号の開始番号が1からと定められているためここでは MPI の送信先ランク番号 dest に1を足している以上のことを踏まえるとMPI_Sendrecv 関数のcoarray への置換えは図 2に示す通りとなる coarray 記法はMPI の記述のようにデータ型や送受信タグ通信の状況といった引数の記述が不要となるため通信の記述が簡素化される次に集団通信 MPI_Gatherv 関数の置換えであるがこの通信処理は各ノードでサイズの異なるデータをあるノードの受信バッファに格納することである先ほどのMPI_ Sendrecv 関数の置換えの例と同様の記述で送受信バッファの領域範囲を正確に指定することでデータの送受信が実現される図 2.MPISendrecv 関数の coarray への置換え例 -27-

図 3.MPIGatherv 関数の coarray への置換え例性能評価ローカルビューの実装を行ったアプリケーションの評価について述べる評価の対象となるアプリケーションは NICAM-DC-MINI MODYLAS-MINI NT Chem-MINI CCSQCD であり評価はオリジナルの MPI で記述されたアプリケーション (MPI 版 ) と XMP を実装したアプリケーション (XMP 版 ) とでそれぞれの実行時間を比較した評価を実施した機器の構成とその際に使用した XMP コンパイラのバージョンは次の表 3 表 4 に示す通りである CPU Memory Network OS その他表 3. 評価機器の主な構成 Intel(R) Xeon(R) E7-4820v3 @1.90GHz(10 コア )x4 ソケット 256GB IntelQPI(6.4GT/sQPI) LinuxKernel4.4.0-22-generic x86_64 GCC5.3.1, MPICH3.2, BLAS3.6.0 表 4. 評価に使用した XMP コンパイラのバージョンアプリ名 NICAM-DC-MINI MODYLAS-MINI NTChem-MINI CCSQCD XMPコンパイラのバージョン 0.9.3-20160224 0.9.3-release 1.0.3-20160902 表 4 の XMP コンパイラのバージョンにおいては release と記述があるものはコンパイラの安定版を示しておりそれ以外は改良が進められたNightlybuild 版を示している評価対象のアプリケーションにおける MPI 版とXMP 版のそれぞれの実行時間を相対時間により比較すると相対時間比は図 4 の通りとなった ( 凡例は計測区分を示しているが本稿ではプログラム全体の時間のみに注目する ) XMP 版の実行時間はMPI 版と比べて最大で4% の性能低下ではあるがほぼ同等の結果となったまた NICAM-DC-MINIについてはストロングスケールの計測が実施できその結果は図 5に示す通りとなった図 5より XMP 版のスケーラビリティはMPI 版と比べて遜色ない結果となった -28-

図 4. オリジナル版と XMP 版の相対実行時間れまでに経験したことのないコア数が実装されるとなると XcalableMPによるグローバルビューモデルの指示文やローカルビューモデルのcoarry 記法による並列化は並列プログラム開発の生産性と性能向上に大きく貢献することが期待される -29- 図 5.NICAM-DC-MINIのスケーラビリティ 7. おわりに並列計算機でプログラムを効率よく開発するためのプログラミング言語として研究開発が進められているPGAS 言語のXcalableMP の現状を紹介した現在では分散メモリ環境におけるプログラミング言語としてMPI が主に使用されていることは疑いの余地もないことであるしかしポスト京と呼ばれる次世代スーパーコンピュータにおいてこ参考文献 [1]htp:/xcalablemp.org [2]htp:/omni-compiler.org [3]htps:/omni-compiler.gitbooks.io/guid ebook/content/ja/ [4]htp:/fiber-miniapp.github.io [5] 並列プログラミング言語 XcalableMP におけるステンシル通信の効率的な実装, 情報処理学会研究報告 Vol2013-HPC-140No.8,2013/7/31 [6] 分散メモリ向け並列言語 XcalableMP コンパイラの実装と性能評価, 情報処理学会論文誌コンピューティングシステムVol.3No.3153-164(Sep.2010)