九州大学学術情報リポジトリ Kyushu University Institutional Repository 将来 (2010 年前後を想定 ) のペタフロップス超級スパコンセンターとの連携について村上, 和彰九州大学大学院システム情報科学研究院九州大学情報基盤センター

Size: px

Start display at page:

Download "九州大学学術情報リポジトリ Kyushu University Institutional Repository 将来 (2010 年前後を想定 ) のペタフロップス超級スパコンセンターとの連携について村上, 和彰九州大学大学院システム情報科学研究院九州大学情報基盤センター"

ゆりなさわい
4 years ago
Views:

1 九州大学学術情報リポジトリ Kyushu University Institutional Repository 将来 (2010 年前後を想定 ) のペタフロップス超級スパコンセンターとの連携について村上, 和彰九州大学大学院システム情報科学研究院九州大学情報基盤センター出版情報 :SLRC プレゼンテーション, バージョン : 権利関係 :

2 1 将来 (2010 年前後を想定 ) のペタフロップス超級スパコンセンターとの連携について平成 17 年 3 月 8 日九州大学情報基盤センターセンター長村上和彰

3 2 HPC に対する私的ビジョンユーザ数 ~2010 年時点 ~ Capacity Capability 100GFLOPS TFLOPS PFLOPS 要求性能

4 3 スパコンセンターに関する私的ビジョンユーザ数 ~2010 年時点 ~ 全国共同利用情報基盤センター (@2010 年 ) Capacity ペタフロップス超級スパコンセンター (@2010 年 ) Capability 100GFLOPS TFLOPS PFLOPS 要求性能

5 4 九州大学情報基盤センターの現状と将来ユーザ数 ~2005 年 2010 年 ~ 九州大学情報基盤センター (@2005 年 ) Capacity ペタフロップス超級スパコンセンター (@2010 年 ) Capability 富士通 VPP5000/64 (614GFLOPS,2002~2006 年度 ) IBM eserver p5 モデルシステム (3.25TFLOPS,2005~2008 年度 ) 100GFLOPS TFLOPS PFLOPS 要求性能

6 5 九州大学情報基盤センターの現状と将来累積ユーザ数 ~2005 年 2010 年 ~ IBM eserver p5 モデルシステム (3.25TFLOPS,2005~2008 年度 ) 富士通 VPP5000/64 (614GFLOPS,2002~2006 年度 ) Capacity Capability 九州大学情報基盤センター (@2005 年 ) 100GFLOPS TFLOPS ペタフロップス超級スパコンセンター (@2010 年 ) 要求性能 PFLOPS

20 言語処理系および並列プログラミング環境 : Fortran, HPF(High-Performance Fortran), C/C++, DPCE( データ並列版 C), MPI(Message Passing Interface), PVM (Parallel Virtual Machine) 数値計算ライブラリおよびアプリケーション : SSL II, NUMPACK, BLAS,

7 九州大学情報基盤センターの現行コンピュータシステム富士通 VPP5000/64 スーパーコンピュータ (2002 年度 ~2006 年度 ) ベクトル並列型スーパーコンピュータ 1PE 当りのピーク演算性能 9.6GFLOPS 64PE = 合計 614.4GFLOPS ハードウェアメモリ :1PE 当り 8GB/16GB( 合計 704GB) インターコネクト : クロスバーネットワークソフトウェア OS:UXP/V Ver.20 言語処理系および並列プログラミング環境 : Fortran, HPF(High-Performance Fortran), C/C++, DPCE( データ並列版 C), MPI(Message Passing Interface), PVM (Parallel Virtual Machine) 数値計算ライブラリおよびアプリケーション : SSL II, NUMPACK, BLAS, LAPACK, ScaLAPACK, IMSL Cライブラリ, MSC.Nastran, Gaussian, MOPAC, LS-DYNA, 他高性能演算サーバ ( 旧称 : 汎用コンピュータ,2005 年度 ~2008 年度 ) IBM eserver p5モデル595 共有メモリ型スカラー並列コンピュータ POWER5 プロセッサ 1.9GHz を搭載した最新機種 ( 第 1 号機 ) 理論演算性能の総和 :3.25TFLOPS ハードウェア 64CPU 512GB メモリ 1 システム 64CPU 256GBメモリ 5システム 32CPU 128GBメモリ 1システムソフトウェア OS:AIX 5L 言語処理系および並列プログラミング環境 : Fortran, C/C++, MPI, OpenMP 数値計算ライブラリおよびアプリケーション : IBM ESSL, IMSL C/Fortranライブラリ, Gaussian, 他 6

8 7 九州大学情報基盤センターの現状と将来ユーザ数 ~2005 年 2010 年 ~ 九州大学情報基盤センター (@2010 年 ) Capacity ペタフロップス超級スパコンセンター (@2010 年 ) Capability 富士通 VPP5000/64 (614GFLOPS,2002~2006 年度 ) Capacity 指向マシン (1 号機 :2007~2010 年度 ) Capability 指向マシン (1 号機 :2009~2012 年度 ) IBM eserver p5 モデルシステム (3.25TFLOPS,2005~2008 年度 ) 100GFLOPS TFLOPS PFLOPS 要求性能

9 九州大学情報基盤センター今後のコンピュータ調達スケジュール富士通 GP7000 (2000 年 1 月 ~) IBM eserver p5 モデル Capability 指向マシン 1 号機 Capability 指向マシン 2 号機レンタル費振り替え富士通 VPP5000/64 (2001 年 1 月 ~) 2 年間レンタルマシン Capacity 指向マシン1 号機 Capacity 指向マシン 2 号機レンタル費 8

10 九州大学情報基盤センターの今後のコンピュータシステムレンタル費は両マシンにほぼ均等配分! Capacity 指向マシン (1 号機 :2007 年度 ~2010 年度 ) 大半のユーザの計算要求に応えることを目的とした, スループット指向のスパコン基本的に従来のスパコン調達方法を踏襲 Capability 指向マシン (1 号機 :2009 年度 ~2012 年度 ) ピーキーな計算要求を有するユーザの需要に応えることを目的としたレスポンスタイム ( レイテンシ ) 指向のスパコン調達の前に共同研究フェーズを設定して, ベンダーと共同して capability 開拓のための方策を共同開発ペタフロップス超級スパコンのサブシステム, あるいは, 次世代ペタフロップス超スパコンのプロトタイプ機としての位置付け両マシンを連結して, マルチフィジックス対応の連成計算を可能に! 9

11 10 共同研究フェーズ今後のコンピュータ調達タイムテーブル (4 年レンタルを仮定した場合 ) Capacity 指向マシン ( 従来型スパコン ) 導入手続き 1 年目 2 年目 3 年目 4 年目次世代機運用開始開札導入説明会現行機運用開始入札入札説明会仕様書案説明会仕様策定委員会技術審査委員会 Capability 指向マシン導入手続き 1 年目 2 年目 3 年目 4 年目ユーザ会 ( 潜在的ユーザも含む ) 次世代機運用開始開札導入説明会仕様書案説明会現行機運用開始入札入札説明会仕様策定委員会技術審査委員会入札説明会入札開札

11 ペタフロップス超級スパコンセンターとの連携ユーザ数九州大学情報基盤センター (@2010 年 ) Capacity ペタフロップス超級スパコンセンター (@2010 年 ) Capability 九州大学情報基盤センターの Capability 指向マシンをフロントエンドに

12 11 ペタフロップス超級スパコンセンターとの連携ユーザ数九州大学情報基盤センター年 ) Capacity ペタフロップス超級スパコンセンター (@2010 年 ) Capability 九州大学情報基盤センターの Capability 指向マシンをフロントエンドにペタフロップス超スパコンをバックエンドに! フロントエンドでプログラム開発やデバックバックエンドで本番の計算全国共同利用情報基盤センターの各マシンを Grid 化! Grid で疎結合連成計算ペタフロップス超スパコンで密結合連成計算 100GFLOPS TFLOPS PFLOPS 要求性能

13 12 ペタフロップス超級スパコンの実現に向けて

14 科学技術計算指向2006 事務計算コンピュータとのせめぎ合い ~HPC 業界における Makimoto s Wave~ ENIAC (1946) IBM701 (1953) 事UNIVAC I (1951) 務計算指向黎明期 (BC: Before Cray-I) IBM Stretch (1959) IBM S/360 (1964) Cray I (1976) CDC6600 Cray XMP NEC SX (1964) FACOM (1982) (1985) APU FACOM VP CM-2 ILLIAC IV (1976) (1982) (1987) (1966) 1976 FACOM (1968) IBM S/370 (1970) テクノロジドライバ Intel 4004 (1971) スパコン元年 FACOM M190 (1975) IBM PC (1981) 汎用計算機スパコンの時代 Intel 386 (1985) 1991 Intel Pentium (1993) PC&LAN PC クラスタの時代 Beowulf NWT (1994) ES (2002) (1992)?? 携帯電話 / 情報端末 13

15 ビジネス的にどう成り立たせるか? HPC マシンスパコン時代 (1980~1990 中 ) 集積回路技術実装技術コンパイラ技術 PCクラスタ時代 (1990 中 ~ 現在 ) 製品移転高性能汎用マイクロプロセッサ高集積メモリ高速インターコネクト 2010 年の HPC マシン技術移転高性能 & 低消費電力組込みプロセッサ+ 動的再構成可能データパス高速 & 知的インターコネクトテクノロジドライバ汎用大型計算機 PC&LAN 技術フィードバック CE 情報家電 / 携帯情報端末 14

16 テクノロジードライバは PC から CE へ倍精度浮動小数点演算器単精度浮動小数点演算器浮動小数点演算器 512KB L2 キャッシュ 512KB L2 キャッシュ整数演算器 PPE 512KB L2 キャッシュ整数演算器写真 :SONY 提供 Cell (221mm Pentium4 (112mm 写真 :Intel 提供 15

17 Cell と Pentium4 の比較 CELL Pentium4 (Prescott) 製造技術 90nm SOI 90nm トランジスタ数 2 億 3400 万 1 億 2500 万面積 221mm 2 112mm 2 動作周波数 4.0GHz( 最大 4.6GHz) 3.8GHz ピーク性能 256GFlop/s(SPE 8 個 ) 15.2GFlop/s 消費電力 48W(6W 8SPE)+α 103W プロセッサコア 9 個 1 個メインプロセッサ PPE(Powerベース+VMX) 1 個 IA32(x86) ベース (+SSE3) 内部メモリ演算プロセッサメインプロセッサ SPE(SIMDプロセッサ ) 8 個 L1 命令キャッシュ :32KB L1データキャッシュ:32KB L2キャッシュ:512KB - L1 命令キャッシュ :12Kマイクロ命令 L1データキャッシュ:16KB L2キャッシュ:1MB 演算プロセッサ各 SPE の LS:256KB - チップ内インターコネクト ( オンチップバス ) 外付け DRAM インタフェース EIB:192G バイト / 秒 ((128 ビット +64 ビット ) 2GHz 4 リング ) XIO:25.6G バイト / 秒 (32 ビット 3.2GHz 2 チャネル ) - FSB:6.4G バイト / 秒 (64 ビット 800MHz) 入出力インタフェース FlexIO:76.8G バイト / 秒 (6.4G ビット / 秒 8 ビット 12 トランシーバ / レシーバ ) 16

18 との間のせめぎ合い新規性/独創性指向定性/連続性指17 新規性 / 独創性と安定性 / 連続性ベクトルアーキテクチャ (Cray, 1976~) ベクトルマシンの時代 MPP (ncube, 1985) (CM-2, 1987) マルチスカラマシンの時代 PC クラスタの時代安自動ベクトル化コンパイラ PVM (1990) (F/N/H, 1982~) 2000 MPI (1995) OpenMP (1997) PCクラスタ? (Beowulf, 1994~) 向ベクトルアーキテクチャ : 自動ベクトル化コンパイラの成功でコモディティに! MPP: 非標準通信ライブラリを用いたインターコネクトネットワークトポロジーに依存したプログラミング普及できずに消滅!

19 プロセッサ性能優位? メモリ性能優位18 プロセッサとメモリとの間の性能トレードオフ CISC Cray I (83MHz, 166MFlop/s, 640MB/s,1976) 1975 CISC の時代 RISC-I (1MHz, 1982) MIPS R2000 (12MHz, 1986) オンチップキャッシュ (Intel 486, 1989) RISC の時代 Intel Pentium (100MHz, 1994) Intel P-III (1GHz, 2000) 1990 Memory Wall Problem (M. Wilkes, 1995) μ アーキの時代 Rambus DRAM (1GB/s, 1995) ES AP (1GHz, 8GFlop/s, 32GB/s, 2002) Intel P4 (3.6GHz, 8.6GB/s, 2004) 2005 メモリ (DRAM) 性能 :RISCおよびオンチップキャッシュが登場した1980 年代のピークを境に, プロセッサ性能からの乖離が深刻化そもそもRISCはプロセッサ性能 =メモリ性能を前提としたアーキテクチャ今や命令セットアーキテクチャ (CISC vs. RISC) の時代ではなく, マイクロアーキテクチャ (OOOスーパースカラ, ディープパイプライン,SMT, 等 ) の時代唯一の例外は,SIMD 演算命令の成功

20 Memory Wall 問題性能向上率マイクロプロセッサ 55%/ 年マイクロプロセッサ vs. DRAM 性能向上率の差 48%/ 年主記憶 (DRAM) 年 7%/ 年出典 J.L. Hennessy, D.A. Patterson, Computer Architecture: A Quantitative Approach 3 rd Edition, Fig

21 ベクトルプロセッサ vs. スカラプロセッサベクトルプロセッサスカラプロセッサ VFU FPU ORN VR : : :... : LSU FR VLSU : IMBM : : : : : : : : : IMBM: Interleaved Multi-Bank Memory ORN: Operand Routing Network VFU: Vector Functional Unit VLSU: Vector Load/Store Unit VR: Vector Register LM : CRC DC CR: Cache Refill Controller DC: Data Cache FR: Floating-point Register FPU: Floating-point Processing Unit LM: Linear Memory LSU: Load/Store Unit 20

22 スカラプロセッサ vs. 動的再構成可能データパススカラプロセッサ動的再構成可能データパス FPU IFU ORN... ORN LSU FR : : : : ORN... :... ORN LM : : CRC DC CRC: Cache Refill Controller DC: Data Cache FR: Floating-point Register FPU: Floating-point Processing Unit IFU: Integer Functional Unit LM: Linear Memory LSU: Load/Store Unit LM ORN: Operand Routing Network SB: Steaming Buffer SMAC: Streaming Memory Access Controller : : : :... : SMAC SB 21

整数演算器 PPE 512KB L2 キャッシュ整数演算器写真 :SONY 提供 Cell

23 ペタフロップス超級スパコンの実現に向けて ~ トランジスタを何に投資するか ~ 倍精度浮動小数点演算器単精度浮動小数点演算器浮動小数点演算器 512KB L2 キャッシュ 512KB L2 キャッシュ整数演算器 PPE 512KB L2 キャッシュ整数演算器写真 :SONY 提供 Cell (221mm Pentium4 (112mm 写真 :Intel 提供 22

HPCマシンの変遷と今後の情報基盤センターの役割

HPCマシンの変遷と今後の情報基盤センターの役割筑波大学計算科学センターシンポジウム計算機アーキテクトが考える次世代スパコン 2006 年 4 月 5 日村上和彰九州大学 murakami@cc.kyushu-u.ac.jp 次世代スパコン ~ 達成目標と制約条件の整理 ~ 達成目標性能目標 (2011 年 ) LINPACK (HPL):10PFlop/s 実アプリケーション :1PFlop/s 成果目標 ( 私見 ) 科学技術計算能力の国際競争力の向上ならびに維持による我が国の科学技術力