JAXA Supercomputer System(JSS) の 紹 介 と 性 能 概 要 高 木 亮 治, 藤 田 直 行, 松 尾 裕 一 ( 宇 宙 航 空 研 究 開 発 機 構 )
内 容 背 景 JSSの 設 計 思 想 システム 構 成 と 特 徴 性 能 評 価 大 規 模 解 析 まとめ 2
ロケット JAXAのしごと 航 空 機 地 球 観 測 月 惑 星 探 査 天 文 学 宇 宙 物 理 宇 宙 ステーション 宇 3宙 ステーション 通 信 技 術 試 験 衛 星 教 育 ほかにも いろいろ 未 来 の 技 術 3
JAXAにおける 数 値 シミュレーション 技 術 学 術 研 究 のツール 宇 宙 科 学 を 中 心 に 航 空 機 ロケット 衛 星 探 査 機 の 設 計 開 発 信 頼 性 向 上 開 発 期 間 の 短 縮 コスト 削 減 先 進 的 技 術 の 開 発 数 値 シミュレーション 技 術 の 活 用 を 重 点 化 基 礎 実 験 /データ 打 ち 上 げ 実 績 : 欧 米 と 大 きな 差 アプローチの 仕 方 課 題 解 決 現 象 理 解 ( 極 限 状 態 ) 設 計 プロセスの 革 新 概 念 検 討 最 適 化 ( 設 計 探 査 ) 4
JAXA 統 合 前 夜 旧 NAL 旧 ISAS 85 90 95 00 05 10 15 調 布 角 田 相 模 原 VP400 VP200 NWT CRAY Y-MP, M92 Paragon 366 VPP500/7 Gordon Bell Prizes 94, 95, 96 SX-4 VPP800/12 PRIMEPOWER HPC2500 NS SX-6 NSE SX-6 SSS JAXA 発 足 5/ 42 JSS1(FX1, SX-9) JSS NS: Numerical Simulator System, NSE: Numerical Space Engine, SSS: Space Science Simulator 5 システム 名 NS NSE SSS ピークTFLOPS 値 9.3 0.5 1.1 主 記 憶 容 量 [TByte] 3.7 0.5 1 総 CPU 数 1792 64 128 演 算 器 の 種 類 スカラ ベクトル ベクトル 調 布 角 田 相 模 原
JSSの 設 計 思 想
旧 システム( 主 にNS)の 課 題 利 用 者 側 から 大 規 模 SMPノードの 課 題 資 源 枯 渇 ベクトルからスカラーへの 転 換 性 能 が 出 ない メモリバンド 幅 の 不 足 自 動 並 列 コンパイラの 能 力 不 足 大 規 模 スレッドの 使 いにくさ 実 行 時 間 のブレ チューニングができない 運 用 者 側 から サイトが 別 々である 事 の 弊 害 運 用 部 隊 の 非 効 率 性 情 報 の 一 元 管 理 利 用 技 術 の 共 用 JAXA 統 合 効 果 セキュリティレベル 高 額 なソフトウェア ライセンス 管 理 7
アプリケーションからの 視 点 アプリモデル(1) 工 学 系 スループット 重 視 (Capacity 計 算 指 向 ) 学 術 系 性 能 規 模 重 視 (Capability 計 算 指 向 ) アプリモデル(2) モデル1: 計 算 多 モデル2: 通 信 多 モデル3:メモリアクセス 多 どこを 中 心 に 設 計 するか? どこを 中 心 に 設 計 するか? 通 信 モデル1 モデル2 学 術 系 工 学 系 モデル3 メモリアクセス 8
アプリケーションからの 視 点 基 本 要 件 性 能 向 上 ( 目 標 :150TFlops) メモリ 性 能 (B/F=1) 工 学 系 中 心 学 術 系 にも 配 慮 システム 要 件 ノード 性 能 メモリ 性 能 メモリ 量 は 高 い 多 い 方 が 良 い ノードは,SMP 等 の 大 規 模 ノードでなくて 良 い 現 状 の 並 列 モデルを 大 きく 変 えない ノード 内 並 列 は 自 動 化 通 信 はある 程 度 の 範 囲 で 速 く 9
運 用 サイドからの 視 点 基 本 要 件 安 定 稼 動 (トラブルが 少 ない 設 定 が 楽 ) 運 用 管 理 が 楽 運 用 コスト 少 設 置 性 (スペース 電 力 冷 却 ) ユーザに 対 して 同 一 サービスを 提 供 遠 隔 からの 利 用 に 対 して ソフトウェアの 移 植 性 汎 用 性 システムの 拡 張 性 性 能 情 報 が 取 得 可 能 なこと 10
技 術 トレンドからの 視 点 基 本 技 術 先 端 的 過 ぎる 実 績 がないものは 危 険 使 いこなすのが 大 変 5 年 間 分 の 需 要 と 将 来 動 向 を 見 据 えた 確 実 な 技 術 ノード 当 面 マルチコア 小 規 模 ノードが 有 利 (メモリ 性 能 電 力 コスト) 結 合 ネットワーク(インターコネクト) クロスバは 無 理 フルバンドの 多 段 結 合 網 11
12 検 討 結 果 CPUまわり プロセスあたりの 性 能 はできるだけ 高 くしたい 流 体 解 析 は 計 算 量 が 多 い 計 算 ノードに 大 規 模 SMPは 性 能 面 で 不 利 電 力 コスト メモリ 性 能 スカラーCPUの 場 合 マルチコアを 如 何 に 有 効 に 利 用 するかが 課 題 メモリまわり 運 用 実 績 より RAM 比 (TB/TF)=0.6~0.8(90~ 120TB)で 十 分 ノードのメモリとして 数 10GBは 確 保 したい 後 処 理 や 非 並 列 ジョブのために ある 程 度 の 規 模 の 共 有 メモリ ( 数 100GB)ノードが 別 にあると 便 利 メモリバンド 幅 は B/F 比 =1 程 度 以 上 は 必 要 結 合 NWまわり 高 速 な 通 信 はこの 範 囲 ( 全 体 の1/4まで)で 行 われれば 良 い 全 システムを 使 うジョブはなく 最 大 でも1/3システム 程 度 通 常 は1/20~1/4が 多 い
システム 構 成 と 特 徴
システム 構 成 ストレージ 部 ストレージシステム 計 算 エンジン 部 大 規 模 並 列 計 算 機 システム 共 有 メモリ 計 算 機 システム 分 散 環 境 統 合 部 遠 隔 利 用 システム 分 散 データ 共 有 システム 高 速 ネットワーク 14
概 要 国 内 最 高 クラスの 性 能 スカラー:135TFLOPS ベクトル:4.8TFLOPS 世 界 最 高 クラスのLINPACK 実 行 性 能 : 91.19% 実 用 計 算 志 向 使 い 勝 手 円 滑 な 移 行 に 配 慮 複 数 のアーキテクチャが 混 在 : 選 択 の 自 由 大 規 模 メモリ:100TB 以 上 大 規 模 ストレージ:ディスク 1PB テープ10PB 共 有 メモリシステム:1TB 共 有 メモリ 遠 隔 地 からの 利 用 環 境 JSSネット:SINET3 VPNによる 高 速 接 続 ローカルシステム 15
計 算 エンジン 部 システム 名 称 Mシステム Pシステム Aシステム Vシステム CPUタイプ スカラー ベクトル システムタイプ MPP SMP ノード 数 3008 384 1 3 CPU 数 /ノード 1 32 16 コア 数 /CPU 4 4 4 1 ( 全 コア 数 ) (12,032) (1536) (128) (48) ピーク 性 能 [TFlops] 120 15 1.2 4.8 (ノードあたり[GFlops]) (40) (40) (40) (1600) メモリ 容 量 [TByte] 94 6 1 3 (ノードあたり [GByte]) (32) (16) (1000) (1000) 製 品 名 富 士 通 FX1 富 士 通 SEM9000 NEC SX-9 16
17 計 算 エンジン 部 (JSS-M/P) 富 士 通 製 FX1クラスタ 3,008ノード(12,032コア) SPARC64TM VII 2.5GHz 4コア 40GFlops 32GByte@ノード 94ラック 32ノード 12KW@ラック FBBファットツリー インターコネクト DDR Infiniband 120TFLOPS 94TB Linpack:110.6TFLOPS 91.19% JSS-Pはサブセット(15TFLOPS) 4ノード@シャーシ
計 算 エンジン 部 (JSS-M/P) Integrated Multicore Parallel ArChiTecture:IMPACT コア 間 ハードウェアバリア 6MB 共 有 L2キャッシュ 自 動 スレッド 並 列 コンパイラ 最 内 ループ 並 列 でも 性 能 が 出 る 高 メモリ 性 能 高 メモリバンド 幅 40GB/s 低 レイテンシ 高 信 頼 性 (チップキル ECC) ノード 間 高 速 バリアネットワーク データ 転 送 とは 別 ノード 間 ハードバリア 集 合 通 信 のハードウエアサポート OS 割 り 込 みによる 遅 延 低 減 18
計 算 エンジン 部 (JSS-A/V) 1TBの 大 規 模 共 有 メモリマシン 前 後 処 理 非 並 列 ジョブ 特 殊 ジョブ(ベクト ル 向 けジョブ 市 販 アプリ) JSS-A: 富 士 通 製 SEM9000 1ノード SPARC64TM VII 2.5GHz 4コア 40GF@チッフ 32CPU(128コア) 1.2TFLOPS Fluent, NASTRAN, FIELDVIEW JSS-V:NEC 製 SX-9 3ノード 102.4GFLOPS@CPU 16CPU 1.6TFLOPS 4.8TFLOPS 3TB ノード 間 はIXSで 接 続 ベクトル 向 けジョブ 19
20 ストレージ 部 DISK:1PByte RAID5 4Gbps FC:180 本 キャッシュ:360GB SATA:7200rpm 750GB テープ:10PByte 40 LTO4ドライブ 8 LTO3ドライブ 4 TS3500ライブラリ 13,332カートリッジ I/Oサーバ: SEM9000 3 HSM: SAM-QFS 28GB/sのI/O 性 能 (by ioperf, 270ノード) M-system A-system L-system Infiniband SRFS/SRFS on Ether Ether SAM-QFS SAM-QFS SAM-QFS Solaris10 Solaris10 Solaris10 FC-SAN SW RAID 90 FC-SAN SW LTO 48
分 散 環 境 統 合 部 遠 隔 利 用 システム(Lシステム): 主 要 事 業 所 へのフロントエンド 機 能 の 提 供 角 田 筑 波 相 模 原 インターネット(SINET3) 越 しの 高 速 なファイル 共 有 SRFS on Ether 各 拠 点 間 でのデータ 共 有 が 可 能 な 分 散 データ 共 有 システム J-SPACE(HPSS) J-SPACE 調 布 Tape DISK M-System P-System A-System V-System Storage System 角 田 筑 波 DISK DISK 相 模 原 DISK JSSnet (VPN, Gigabit Ethernet) on SINET3 21 角 田 L-System 0.3TFLOPS 256GB 20TBytes SE M5000 筑 波 L-System 0.3TFLOPS 256GB 3TBytes SE M5000 相 模 原 L-System 0.3TFLOPS 256GB 3TBytes SE M5000
新 スパコン 棟 冷 却 効 率 の 向 上 排 気 拡 散 防 止 板 空 調 ダクト で 暖 気 と 冷 気 を 分 離 電 力 消 費 量 の 試 算 ガス 空 調 機 防 音 対 策 設 備 制 御 システム 自 動 運 転 の 実 現 起 動 停 止 時 負 荷 に 応 じた 空 調 制 御 空 調 機 吹 出 温 度 [ ] 空 調 機 消 費 電 力 比 A 計 算 機 消 費 電 力 比 B システム 全 体 消 費 電 力 比 C=A+B 20 1( 基 準 ) 2.00 3.00 22 25 0.95 2.08 3.03
新 スパコン 棟 排 気 拡 散 防 止 板 ダクト 排 気 拡 散 防 止 板 23
JSS-M(FX1)の 性 能 評 価 Linpack JAXAベンチマーク UPACS
Linpack HPL Top500のランキングに 使 われるベンチマーク 高 い 実 行 効 率 :91.19% 長 時 間 安 定 稼 動 :60 時 間 40 分 耐 久 試 験 Top500ランキング( 国 内 分 ) 順 位 サイト マシン コア 数 Rpeak [TFlops] Rmax [TFlops] 効 率 [%] 22 地 球 シミュレータ SX-9/E 1,280 131,072 122,400 93.38 28 JAXA FX1 12,032 121.282 110.600 91.19 40 理 研 RX200S5 8,256 96,760 87,890 90.83 41 東 工 大 Sun Fire 31,024 163,188 87,010 53.32 42 東 大 HA8000 12,288 113,050 82,984 73.40 47 筑 波 大 Xtreme-X3 10,368 95,385 77,280 81.02 [2009.6 現 在 ] 25
JAXAベンチマーク JAXAの 代 表 的 なアプリケーション 名 称 対 象 手 法 並 列 化 P1 P2 燃 焼 汎 用 FDM+ 化 学 反 応 FVM( 構 造 ) MPI+IMPACT MPI+IMPACT P2 P3 乱 流 FDM+FFT XPF+IMPACT P4 プラズマ PIC MPI+IMPACT P5 汎 用 FVM( 非 構 造 ) MPI+IMPACT P3 High Data transfer intensive 演 算 量 が 多 い P3 データ 転 送 が 多 い P1 Data transfer ratio P4 P1 メモリアクセスが 多 い P4 P5 P2 P5 Low CPU intensive Memory access intensive 26 Low Memory access ratio High
JAXAベンチマーク JSS-MはCeNSS( 旧 システム)に 比 べて11 倍 ( 平 均 ) 高 速 CeNSS 性 能 比 演 算 性 能 :(8+α) 倍 クロック:2 倍 コア 数 :4 倍 その 他 :? ネットワーク:2 倍 P2: 自 動 並 列 コンパイ ラの 改 善 P3: 通 信 性 能 不 足 P4: 集 合 通 信 の 改 善 Time [sec] 4000 3500 3000 2500 2000 1500 1000 500 0 P1 (744) P2 (750) P3 (512) Applications P4 (750) P5 (750) 18 16 14 12 10 8 6 4 2 0 Performance ratio CeNSS JSS-M Ratio 27
JAXAベンチマーク HPC2500 [sec] FX1 [sec] 比 全 体 比 P1 演 算 通 信 隣 接 1373.0 7.40 138.4 4.6 9.9 1.5 9.63 演 算 1465.60 79.3 18.5 P2 通 信 隣 接 リダクション 1.48 1.48 3.0 0.3 0.5 4.9 16.48 バリア 0.00 6.5 0.0 演 算 1650.0 134.6 12.3 P3 隣 接 472.9 162.3 通 信 リダクション 1394.1 194.8 2.9 7.2 7.15 演 算 2504.80 175.70 14.3 P4 隣 接 102.70 13.50 通 信 リダクション 616.30 3.60 7.6 171.2 15.86 バリア 0.02 0.20 0.1 演 算 1208.6 150.00 8.1 P5 隣 接 125.2 10.20 通 信 リダクション 30.6 0.75 12.3 40.8 8.13 28 バリア 124.4 20.61 6.0
3 次 元 スケールアップ UPACS MPI+IMPACT ブロックサイズは40~ 200 729(9 3) )CPUまで 良 い 並 列 効 率 (74~96%)を 示 す ブロックサイズが 大 き くなると 並 列 効 率 が 向 上 計 算 負 荷 (N 3 )と 通 信 負 荷 (N 2 )のバランス 1 2 3 3 3 ブロックサイズ 増 大 29
IMPACT 対 フラットMPI UPACSを 利 用 CPU 内 並 列 性 能 自 動 並 列 :コンパイラ MPI 並 列 :ユーザー 指 定 プロセス 間 通 信 性 能 プロセス 数 : 小 プロセス 数 : 大 ブロックサイズ ブロックが 大 :フラットMPI 有 利 フラットMPIが 速 い IMPACTが 速 い プロセス 数 増 大 CPU 数 プロセス 数 スレッド 数 ブロック 数 IMACT:1CPU 1 1 4 1 フラットMPI:1CPU 1 4 1 4 IMPACT:1331CPUs 1331 1331 4 1331 30 フラットMPI:1331CPUs 1331 5324 1 5324
JSS-V(SX-9)の 性 能 評 価 LANS3Dによる 評 価
3 次 元 スピードアップ 問 題 規 模 ( 約 3300 万 点 格 子 )を 一 定 に して 使 用 するCPU 数 を 増 やして 速 度 向 上 性 能 を 評 価 システム プロセス 数 スレッド 数 ピーク 性 能 [GFlops] ブロックサイズ ブロック 数 並 列 1 4 40 (320x320x320)x1 IMPACT JSS-M 2 4 8 16 80 160 (320x320x160)x2 (320x160x160)x4 MPI+IMPACT 8 32 320 (160x160x160)x8 JSS-V SSS 1 1 1, 2, 4, 8, 16 1, 2, 4, 8 102.4~ 1638.4 9.0~720 (320x320x320)x1 (160x160x160)x8 (320x320x320)x1 (160x160x160)x8 自 動 並 列 32
FX1 3 次 元 スピードアップ 計 算 時 間 ( 左 図 )と 並 列 効 率 ( 右 図 ) SX-6 JSS-V:320 3 JSS-V:160 3 SX-9 33
34 3 次 元 スピードアップ 相 対 的 実 行 効 率 = 1/ 計 算 時 間 /ピーク 性 能 利 用 範 囲 は 限 定 的 ユーザーの 実 感 に 近 い 計 測 が 容 易 FX1に 対 して SX-6: 約 3 倍 SX-9: 約 2.5 倍 SX-9はベクトル 長 の 影 響 が 大 SX-6 FX1 SX-9
大 規 模 解 析 の 実 施 LSC1: 液 体 燃 料 噴 流 微 粒 化 過 程 解 明 の 大 規 模 計 算 新 城 淳 史 (JAXA/ 研 究 開 発 本 部 ) LSC2: 大 規 模 粒 子 計 算 で 探 る 宇 宙 空 間 衝 撃 波 のダイ ナミクス~ 科 学 衛 星 観 測 成 果 の 理 解 に 向 けて~ 篠 原 育 (JAXA/ 宇 宙 科 学 研 究 本 部 ) 35
大 規 模 解 析 LSC1 並 列 規 模 :1440プロセス 4スレッド=5760コア 計 算 規 模 : ( 計 算 時 間 ネック) 格 子 点 数 :58 億 点 計 算 時 間 :410 時 間 出 力 ファイル:153TB(25 時 間 ) 実 効 効 率 : 約 4% 程 度 LSC2 並 列 規 模 :1444プロセス 4スレッド=5776コア 計 算 規 模 : ( メモリネック) 格 子 点 数 :4.5 億 点 粒 子 数 :500 億 個 メモリ:40TByte 計 算 時 間 :740 時 間 出 力 ファイル:180TB( 総 量 :430TB 43 時 間 ) 実 効 効 率 : 約 8% 程 度 導 入 初 期 での 安 定 稼 動 を 実 証 36
大 規 模 解 析 並 列 化 効 率 (スケールアップ) LSC1:50% 弱 LSC2:90% 強 LSC1 LSC2 37
LSC1: 計 算 の 目 的 と 概 要 エンジン 燃 焼 性 能 に 重 要 な 噴 霧 の 物 理 を 解 明 する これまで 噴 霧 の 形 成 過 程 は 謎 のまま 試 行 錯 誤 による 非 効 率 性 と 解 析 精 度 の 悪 さが 問 題 本 計 算 で 噴 霧 の 形 成 過 程 を 根 元 から 解 明 する( 赤 枠 内 ) B. Chehroudi et al. (2002) 実 験 では 高 速 小 スケール 3 次 元 のた め 流 れ 場 を 細 かく 見 るのはかなり 困 難 38 気 液 二 相 流 コード( 表 面 張 力 あり)で 最 小 液 滴 形 状 も 解 像 でき る 格 子 で 計 算 し 微 粒 化 物 理 を 解 明 する 総 格 子 数 約 60 億 点 と 世 界 最 大 規 模
LSC1: 成 果 微 粒 化 へ 至 る 詳 細 な 物 理 を 直 接 観 察 した 特 に 液 糸 形 成 液 滴 形 成 における 表 面 張 力 波 の 役 割 について 従 来 の 考 え 方 の 不 備 を 指 摘 これによ り 従 来 の 噴 霧 モデルを 修 正 する 作 業 へ 移 行 中 1 縦 方 向 と 横 方 向 の 不 安 定 表 面 不 安 定 の 発 達 ( 実 線 : 縦 方 向 点 線 : 横 方 向 ) 先 頭 傘 による 速 度 場 乱 れ 2 液 糸 の 形 成 ( 先 頭 傘 および 中 心 コア) 3 液 糸 からの 液 滴 の 形 成 39 液 糸 表 面 での 表 面 張 力 波 の 形 成 とその 不 安 定 化 による 液 滴 生 成 物 理 を 確 認 した また 実 際 の 噴 霧 では 純 粋 なレーリーモード は 起 こりにくいことを 指 摘
LSC2: 計 算 の 目 的 と 概 要 宇 宙 における 衝 撃 波 は 高 エネルギー 粒 子 の 生 成 現 場 粒 子 加 速 の 物 理 機 構 は 何 か? 科 学 衛 星 によりその 場 の 観 測 が 可 能 だが 衛 星 観 測 の 限 界 : 絶 対 的 な 情 報 量 の 不 足 観 測 データの 高 精 度 化 :データの 解 釈 が 難 解 世 界 初 の 本 格 的 な3 次 元 計 算 により 無 衝 突 衝 撃 波 の 物 理 機 構 の 解 明 今 後 の 科 学 衛 星 観 測 ミッ ションと 連 携 40
LSC2: 成 果 電 子 イオン 衝 撃 波 遷 移 層 による 電 子 加 速 衝 撃 波 無 衝 突 衝 撃 波 の 物 理 機 構 が 明 らかに なった 41
JSS 利 用 の 今 後 利 用 技 術 発 展 と 計 算 機 発 展 の 協 調 調 布 スパコン 角 田 スパコン 相 模 原 スパコン 宇 宙 開 発 宇 宙 科 学 次 世 代 解 析 技 術 航 空 分 野 流 体 科 学 統 合 運 用 2009.4 2003.10 2005.10 JAXA 発 足 JEDI 発 足 ( 情 報 計 算 工 学 センター) 具 体 的 活 用 事 例 : LE-7A LE-5Bエンシ ンの 設 計 改 良 H-IIBエンシ ンの 横 推 力 リスク 回 避 LNGエンシ ン 異 常 燃 焼 究 明 固 体 ロケット 音 響 空 力 評 価 基 盤 的 技 術 力 の 向 上 設 計 開 発 におけ る 課 題 解 決 JAXA 統 合 スパコン 未 解 明 現 象 の 理 解 数 値 シミュレーションによる 設 計 開 発 における 課 題 解 決 設 計 開 発 プロセス 自 体 の 革 新 3スパコンの 統 合 による 運 営 の 効 率 化 低 騒 音 射 点 の 設 計 国 産 航 空 機 の 高 性 能 化 三 菱 航 空 機 ( 株 ) 提 供 革 新 的 設 計 ツール 観 測 装 置 の 高 精 度 化 学 術 的 発 展 42 利 用 分 野 の 拡 大 と もの 造 り への 貢 献
まとめ JAXAの 新 スパコンシステム(JSS)に ついて 紹 介 した 設 計 思 想 システムの 概 要 初 期 性 能 評 価 初 期 導 入 時 に 実 施 した 大 規 模 解 析 利 用 の 今 後 の 方 向 性 もの 造 り への 貢 献 課 題 解 決 設 計 開 発 プロセス 自 体 の 革 新 43
今 後 の 課 題 詳 細 な 性 能 評 価 次 期 システムに 向 けて ユーザーのチューニング 支 援 大 規 模 解 析 の 継 続 大 規 模 システムの 存 在 意 義 1,000ノード 程 度 を 定 常 的 に 可 視 化 システムの 構 築 大 規 模 可 視 化 ( 並 列 可 視 化 ) 例 ) 現 状 :25GB JSSでは500GB 定 常 解 析 から 非 定 常 解 析 へ 桁 以 上 でデータが 増 大 遠 隔 可 視 化 例 ) 相 模 原 調 布 間 :500GBを 転 送 すると7 時 間 44
可 視 化 システムの 試 作 4ノード CPUx2 16GB CPUx2 16GB CPUx2 16GB CPUx2 16GB スパコンディスク のマウント( 将 来 ) GPU GPU GPU GPU プロトタイプ 可 視 化 システム フロントエンド 調 布 相 模 原 NFS 10G Ether CPUx2 16GB 1G GPU File Server IB.or.10G 45 Work Station VIXEL 端 末
46