超 大 規 模 計 算 時 代 における 並 列 処 理 とポスト 処 理 の 問 題 点 と 解 決 手 法 深 沢 圭 一 郎 1, 2, 3 森 江 善 之 1, 3 南 里 豪 志 1, 3 村 田 健 史 4 1. 九 州 大 学 情 報 基 盤 研 究 開 発 センター 2. 九 州 大 学 宙 空 環 境 研 究 センター 3. CREST, JST 4. NICT Feb. 15, 2012
Contents & Motivation エクサスケール 計 算 時 代 における 問 題 超 大 規 模 並 列 計 算 における 問 題 並 列 処 理 に 伴 うメモリ 使 用 量 並 列 数 増 加 による 並 列 化 効 率 の 低 下 不 適 切 ランク 配 置 による 通 信 衝 突 ポスト 処 理 の 問 題 大 規 模 データのI/O 処 理 大 規 模 データの 解 析 大 規 模 データを 保 存 するストレージ 1
超 大 規 模 並 列 計 算 における 問 題 点 エクサ 時 代 における 超 大 規 模 並 列 では 現 状 のMPI ではメモリの 問 題 で 実 現 が 難 しい また 並 列 化 効 率 の 悪 化 により 並 列 計 算 の 意 味 をな さなくなることが 懸 念 されている 通 信 バッファ 領 域 を 総 メモリ 容 量 の10% 以 内 に 抑 えながら 実 アプリケーションで 数 千 万 ~ 数 億 プロセスまでの 性 能 向 上 を 維 持 することを 目 標 にJST CRESTで 研 究 が 始 まっている 2
エクサスケールに 向 けた 通 信 ライブラリの 課 題 1 数 億 プロセスに 耐 えるメモリ 管 理 機 構 エクサ 時 代 でもプロセスあたりのメモリ 容 量 は1~10GB 程 度 と 想 定 される 現 状 の 通 信 ライブラリを 利 用 した 場 合 一 億 プロセスにおけ る 使 用 メモリ 量 i) 各 プロセスで 全 プロセスの 情 報 を 管 理 = 1プロセス 4Byte でも 400MB/プロセス ii) 通 信 相 手 プロセス 毎 にバッファを 用 意 = 1プロセス 1KBでも 最 悪 100GB/プロセス 通 信 バッファ proc 0 proc 1 proc 1 proc 2 proc 3 proc 4... proc 0 proc 2 proc 3 proc 4...... 各 プロセス 用 に 通 信 バッファを 用 意 省 メモリライブラリを 開 発 中 MPI3には 実 装? 3
エクサスケールに 向 けた 通 信 ライブラリの 課 題 2 数 億 プロセスにおける 並 列 化 効 率 の 改 善 Weak scalingにおける 並 列 化 効 率 @HA8000 i) 1024プロセスでmpi_senderecvを 行 う 場 合 実 アプリケーションで90%の 効 率 ii)8192プロセスでmpi_senderecvを 行 う 場 合 実 アプリケーションで85%の 効 率 この 劣 化 は 線 形 的 に 見 えており 10 万 プロセスで 並 列 化 効 率 が50%を 切 ってしまう 並 列 化 する 意 味 が 無 くなる 通 信 の 非 同 期 化 + 通 信 回 数 の 削 減 ( 深 沢 他 HPCS2012) 4
エクサスケールに 向 けた 通 信 ライブラリの 課 題 3 数 億 プロセスにおけるノード 間 通 信 衝 突 の 問 題 物 理 ノード 配 置 とプロセス 配 置 の 関 係 エクサではクロスバーを 使 用 することは 困 難 ファットツリー メッシュ トーラスなどを 採 用 実 行 時 に 決 定 する 要 素 で 性 能 が 大 きく 変 動 (プロセス 配 置 による 通 信 衝 突 や 通 信 距 離 変 化 ) 通 信 衝 突 通 信 衝 突 はタスク 配 置 に 依 存 する タスク 配 置 最 適 化 により 通 信 衝 突 を 回 避 可 能 5
タスク 配 置 最 適 化 の 実 験 実 験 の 条 件 隣 接 通 信 の 通 信 パターンにホップ 数 から 最 適 化 する 手 法 (TAHB)と 通 信 発 生 時 間 から 最 適 化 する 手 法 (TACCC) を 適 用 したときの 通 信 性 能 の 比 較 メッセージフローシミュレータ * を 用 いて 実 行 時 間 を 計 測 7x6x6の 格 子 の 隣 接 通 信 ( 周 期 境 界 ) 2-level, 16-aryのファットツリーへのマッピングを 行 う ファットツリーの 多 重 度 を1, 2, 4, 8 16と 変 更 メッセージサイズ=100 BW=1.0 * 出 典 : 矢 崎 俊 志, 石 畑 宏 明, ``メッセージフローに 基 づくネットワークシミュレータ MFS の 評 価,'' 2011 年 ハイパフォーマンスコンピューティングと 計 算 科 学 シンポジ ウム(HPCS2011) 論 文 集, pp.1-9 (2011). 6
シミュレータによる 予 測 通 信 時 間 結 果 Default Random TAHB TACCC 多 重 度 1 6400 9300 5040 4640 多 重 度 2 3200 4800 2840 2420 多 重 度 4 1700 3200 1740 1380 多 重 度 8 900 1900 1160 800 多 重 度 16 600 1200 780 500 デフォルトタスク 配 置 に 対 して 最 大 で37%の 性 能 向 上 TAHBに 対 しても 最 大 56%の 性 能 向 上 ランダムタスク 配 置 に 対 しては 最 大 2.4 倍 の 性 能 向 上 多 重 度 が 下 がるほどTACCCによる 性 能 向 上 率 が 増 加 する 多 重 度 が 低 いほど 通 信 衝 突 の 可 能 性 が 増 え どのリンク で 通 信 衝 突 が 発 生 しているかを 考 慮 できるため 7
エクサスケールにおけるポスト 処 理 の 問 題 点 エクサ 時 代 における 超 大 規 模 計 算 では 扱 うデータサイ ズもエクサスケールであり 今 までのポスト 処 理 技 術 で は 対 応 が 難 しい そもそもエクサスケールの 計 算 は 必 要 なのか 惑 星 磁 気 圏 シミュレーションではまだまだ 計 算 パワーが 必 要 エクサでやっとMHDからVlasovに 移 行 できるかのかも 8
電 磁 流 体 コード -1 宇 宙 プラズマを 取 り 扱 う 方 程 式 (1) Vlasov 方 程 式 無 衝 突 Boltzmann 方 程 式 とMaxwell 方 程 式 から 成 るプラズマの 振 る 舞 いを 最 も 正 確 に 表 現 できる 方 程 式 系 速 度 分 布 関 数 f(x, v, t)を 考 えると f t f v x q m f ( E v B) 0 v これとMaxwell 方 程 式 を 連 立 して 解 く しかし 位 置 (x, y, z)3 次 元 速 度 (v x, v y, v z )3 次 元 と 時 間 から 成 る 非 線 形 方 程 式 系 で 解 くことが 困 難 f(x, y, z, v x, v y, v z, t)を 計 算 するにはメモリ 不 足 ( 例 えば 1000 6 =8PBのメモリ) 9
電 磁 流 体 コード -2 宇 宙 プラズマを 取 り 扱 う 方 程 式 (2) MHD (Magnetohydrodynamics) 方 程 式 Vlasov 方 程 式 のn 次 モーメント 取 ることで 求 められる 0 次 ( 速 度 空 間 で 積 分 ) 1 次 (vかけて 積 分 ) 2 次 (v 2 かけて 積 分 )より ( v ) t v 1 1 ( v ) v p J B t p ( v ) p p v t を 得 る これらと 磁 場 の 誘 導 方 程 式 B t ( v B) をまとめてMHD 方 程 式 という この 場 合 1000 3 8=64GBのメモリ 10
土 星 磁 気 圏 MHDシミュレーション 11 沿 磁 力 線 電 流 と 渦 構 造 の 関 係 沿 磁 力 線 電 流 の 強 い 箇 所 から 磁 力 線 を 伸 ばすと... 大 規 模 計 算 による 高 精 度 なシミュレーションに より 土 星 渦 構 造 と 斑 点 オーロラ 構 造 の 関 連 性 を 初 めて 示 唆 観 測 結 果 に 似 た 構 造 を 再 現 Fig. 4. 土 星 磁 気 圏 における 渦 構 造 と 沿 磁 力 線 電 流 の 関 係 [Fukazawa et al., JGR, 2011, accepted] Fig. 5. 土 星 南 極 におけるオー ロラの 輝 度 [Grodent et al., 2011] 11
さらに 高 精 度 の 計 算 へ オーロラのような 現 象 を 精 度 良 く 解 く 必 要 がある 今 までの 計 算 では0.1 R S (R S は 土 星 半 径 = 60,300 km)の 格 子 幅 を 利 用 マクロとミクロの 遷 移 領 域 (MHD 近 似 の 限 界 領 域 )を 計 算 するためには 0.01 R S の 格 子 幅 15,000 3 程 度 のグリッドが 必 要 1タイムステップで200TBのデータ 容 量 時 間 方 向 を 考 えると200 100=20PBは 最 低 限 必 要 Vlasovで 解 く 場 合 位 置 速 度 空 間 で1000 6 のグリッドがあ れば 現 状 のMHDシミュレーションスケールは 計 算 可 能 1タイムステップで8PBのデータ 容 量 12
大 規 模 計 算 におけるI/O 処 理 I/Oデータの 巨 大 化 現 在 で1データで100GB 程 度 数 TBも 現 実 サイズ SATA3で6Gbpsだとして 100GBで130 秒 1TBで1300 秒 かかる( 理 論 値 ) 1ノードのメモリ 量 を 超 えるため 書 き 出 しが 出 来 ない (ほとんどの 分 散 メモリマシンは64GB/node) プロセスorノード 毎 の 分 散 読 み 書 きだしが 必 須 1000ノードで1TBを 書 き 出 すと 1ノード 当 たり1GB を 担 当 (6Gbpsでも1.3 秒 程 度 で 書 き 出 し 可 能 ) 13
大 規 模 計 算 のポスト 処 理 1 巨 大 な 分 散 データをどう 解 析 するか 現 状 100GBのデータは100MBずつ1000 個 に 分 散 書 き 出 しされている 大 部 分 の 可 視 化 アプリは 分 散 読 込 非 対 応 100GBに 結 合 させるためにはメモリが100GBを 超 える 計 算 機 が 必 要 あるにはあるが 一 般 的 に 基 盤 センターには 無 い 分 散 データ 対 応 並 列 可 視 化 アプリケーションが 必 要 現 状 ではAVS/Express PCEが 一 つの 解 14
AVS/Express PCEの 評 価 42GBの 分 散 データを64 並 列 で 可 視 化 Fig. AVS/Express PCEでの 土 星 磁 気 圏 可 視 例 [ 深 沢 他 東 京 大 学 スーパーコンピューティング ニュース Vol. 13 No. 5 39-45,2011] ファイルを 読 み 可 視 化 結 果 が 表 示 されるまでに 約 2 分 かかる 画 面 の 視 点 を 変 えてみると 非 常 に 動 きが 遅 く 画 面 がフリーズ することもある 各 ウインドウのサイズを 変 更 す ると 動 作 が 重 くなりスムーズに サイズ 変 更 が 行 えないことがあ る スライス 面 の 変 更 やisosurfaceの 閾 値 変 更 などは30 秒 程 度 で 完 了 視 点 変 更 はGPUの 問 題 と 考 えら れ それ 以 外 は42GBを 読 込 GUI で 可 視 化 していることを 考 えれば 及 第 点 15
大 規 模 計 算 のポスト 処 理 2 巨 大 な 計 算 結 果 をどこにおくか 現 状 で1シミュレーションで100GB 300=30TB 基 盤 センターに 置 いておけない 置 き 場 所 があっても 転 送 が 面 倒 基 盤 センターに 直 結 したグリッド 型 ストレージをNICTが 整 備 九 州 大 学 NICTのGfram 広 域 ストレージ 10G 10G 書 きのみ 読 み 書 き 可? 10G ストレージは 複 数 箇 所 に 点 在 書 きのみ 大 阪 大 学 名 古 屋 大 学 16
新 しい 計 算 結 果 の 転 送 手 法 17 GPGPUとUDT 通 信 を 使 った 計 算 システム(@SC10) (1)GPUを 使 用 して 計 算 NICT@ 小 金 井 JGN2+ (3) 計 算 結 果 をリアル (2) 計 算 結 果 をメモリtoメモリで 転 送 タイム3 次 元 可 視 化 SC10 会 場 @New Orleans 1. GPUを 使 いシミュレーションを 行 う@NICT 小 金 井 2. 計 算 結 果 をメモリ 上 から 直 接 SC10の 会 場 のサーバ 上 のメモリにコピー 3. サーバでメモリ 上 のデータを 使 って(3 次 元 )リアルタイム 可 視 化 @SC10 会 場 SC07 08 09においてUDT 転 送 実 験 を 行 い 計 算 結 果 のディスク 書 き 出 しの 遅 延 が 大 きく 計 算 が 通 信 に 追 いつかないことを 確 認 済 み 今 回 はGPUを 使 い 高 速 に 計 算 を 行 い ディスクI/Oを 用 いず 結 果 の 転 送 を 行 った MAX9Gbps 平 均 6Gbpsで 転 送 し 可 視 化 までシームレスに 実 現 17
Summary エクサスケール 計 算 時 代 における 問 題 超 大 規 模 並 列 計 算 における 問 題 並 列 処 理 に 伴 うメモリ 使 用 量 開 発 中 並 列 数 増 加 による 並 列 化 効 率 の 低 下 非 同 期 + 通 信 自 体 の 削 減 不 適 切 ランク 配 置 による 通 信 衝 突 配 置 の 最 適 化 ポスト 処 理 の 問 題 大 規 模 データのI/O 処 理 分 散 処 理 大 規 模 データの 解 析 分 散 データ 対 応 並 列 可 視 化 大 規 模 データを 保 存 するストレージ 分 散 ストレージ+ 高 速 データ 転 送 18