九州大学学術情報リポジトリ Kyushu University Institutional Repository マッスルサーバー ( 汎用 PC クラスタ + 特定計算向けハードウェア ) の開発 : 分子軌道法を例にして村上, 和彰九州大学大学院システム情報科学研究院九州大学情報基盤センタ

Size: px

Start display at page:

Download "九州大学学術情報リポジトリ Kyushu University Institutional Repository マッスルサーバー ( 汎用 PC クラスタ + 特定計算向けハードウェア ) の開発 : 分子軌道法を例にして村上, 和彰九州大学大学院システム情報科学研究院九州大学情報基盤センタ"

ことこわにべ
5 years ago
Views:

1 九州大学学術情報リポジトリ Kyushu University Institutional Repository マッスルサーバー ( 汎用 PC クラスタ + 特定計算向けハードウェア ) の開発 : 分子軌道法を例にして村上, 和彰九州大学大学院システム情報科学研究院九州大学情報基盤センター出版情報 :SLRC プレゼンテーション, バージョン :accepted 権利関係 :

2 マッスルサーバー ( 汎用 PCクラスタ + 特定計算向けハードウェア ) の開発 ~ 分子軌道法を例にして~ 村上和彰九州大学情報基盤センター murakami@cc.kyushu-u.ac.jp

3 マッスルサーバー (muscle server) とは? 関連語ブレードサーバー (blade server) 高集積型 PC サーバー定義汎用 PC クラスタ + 特定計算向けハードウェア +

4 マッスルサーバー開発例 EHPC/Eric (Embedded HPC with Eric) 文部科学省科学技術振興調整費総合研究科学技術計算専用ロジック組込み型シミュレータに関する研究 ( 平成 12 年度 ~16 年度 ) 研究代表者 : 村上和彰 ( 九州大学 ) 参加研究機関 : 九州大学, 東京大学, 産総研, 富士総研, セイコーエプソン, アプリオリマイクロシステムズ構成 Compact PCI 規格シャーシー Compact PCI 規格 PC 互換ボード Compact PCI 規格 SH-4 マルチプロセッサボード Compact PCI 規格二電子積分計算加速ボード (SH-4+Eric 搭載 ) Eric( 二電子積分計算専用プロセッサ )

シャーシー Compact PCI 規格二電子積分計算加速ボード (SH-4 1

5 分子軌道法専用マッスルサーバー EHPC/Eric Compact PCI 規格 PC 互換ボード (P-II 1) 1 枚 /Compact PCI シャーシー Compact PCI 規格二電子積分計算加速ボード (SH Eric 4) Compact PCI シャーシー 4 最大 7 枚 /Compact PCI シャーシー Compact PCI 規格 SH-4 マルチプロセッサボード (SH-4 4) ( 最大 7 枚 /Compact PCI シャーシー )

6 EHPC/Eric アーキテクチャ二電子積分計算高速化のための専用化部分 Gigabit Ethernet CompactPCI 規格ボード CompactPCI 規格二電子積分計算専用ボードメモリ専用 LSI (Eric) メモリ専用 LSI (Eric) メモリ専用 LSI (Eric) CompactPCI 規格 PC 互換ボードスイッチ汎用 CPU(SH-4) PCI バスプラットフォーム ( 業界標準の汎用部品で安価に構成 )

7 Compact PCI 規格二電子積分計算加速ボード Compact PCI 規格に準拠したプリント基板 Eric( 二電子積分計算専用プロセッサ LSI) 4 SDRAM 各 Eric 当り 1GB 汎用 MPU(SH4) 1 PCIバスI/F, Ethrenet, 等

8 マッスルサーバー vs. 他の HPC アーキテクチャベクトルプロセッサ MPP SMP クラスタ PC クラスタ ( ブレードサーバー ) マッスルサーバープロセッサ専用ベクトルプロセッサ汎用高性能マイクロプロセッサ汎用高性能マイクロプロセッサ汎用高性能マイクロプロセッサ汎用 / 組込みマイクロプロセッサ + 特定計算向けハードウェアメモリシステム専用専用専用汎用汎用ネットワーク専用専用ローカル : 専用グローバル : 専用または汎用汎用 (Ethernet, etc.) 汎用 (Compact PCI, Ethernet, etc.) 高速化技術ベクトル処理並列処理高速通信並列処理高速通信スレッド並列処理並列処理高速通信高クロック周波数並列処理特定計算向けハードウェア並列処理

9 マッスルサーバー向きの応用は? 汎用 PC 各種雑多な処理特定計算向けハードウェア Compute Intensive な処理を担当 +

10 マッスルサーバーの性能 ~ アムダールの法則 ~ p: 並列化可能な処理の割合 (0 p 1) o: 特殊演算向けハードウェアにオフロード可能な処理の割合 (0 o 1) N: マシン並列度 H: 特定計算向けハードウェアによる性能向上率 S: マッスルサーバーの単体 PCに対する性能向上率 S = (1 p) + p N 1 (1 o) + o H

11 マッスルサーバーの分子軌道法への応用分子軌道法電子が分子 ( を構成する原子核 ) の周りでどのような分布状況にあって, どのようなエネルギーを持っているかを計算により求める創薬材料開発 etc.

12 分子軌道法高速化の必要性創薬, 材料開発のためには大規模分子の電子状態計算を数分のオーダーで実行する必要がある現在 PC クラスタ (Xeon (2.8GHz) 80, 主記憶 512GB/processor) で約 2 時間 ( 基底関数 STO-3G) 将来 1 分以下で計算できるようにしたい! HIV-1 protease

13 非経験的分子軌道計算の計算時間膨大な計算時間低分子量タンパク 10 4 日 27 年 RNA 10 6 日 2740 年現実と理想のギャップユーザー 1 週間 ~10 日は待てる! 5000 基底を 10 日で!

14 非経験的分子軌道法の計算手順 (1) 初期データの入力 (2) 一電子積分の計算 (3) 二電子積分の計算フォック行列作成 (4) フォック行列の対角化 (6) 全エネルギーの計算 (5)C 行列の収束判定収束している収束していない = = = N I a ai IJ N I ai IJ C S C F 1 1 ε + + = K L KL IJ IJ IJ JL IK KL IJ P V T F ), ( 2 1 ), (

15 非経験的分子軌道計算の計算時間 (1) 初期データの入力 (2) 一電子積分の計算 (3) 二電子積分の計算フォック行列作成全計算時間の 98% は二電子積分計算と (4) フォック行列の対角化算時間(秒)フォック行列生成に費やされる! (5)C 行列の収束判定収束している二電子積分計算専用 LSIを開発! (6) 全エネルギーの計算収束していない計分子 ( ペプチド分子 ) G GA GAQ GAQM GAQMY 原子数一電子積分の計算二電子積分の計算フォック行列作成 (96.6%) (98.7%) (98.6%) (98.8%) (98.6%) フォック行列の対角化基底関数の数初期データの入力全エネルギーの計算 Total G Basis, GAMESS, PentiumIII500MHz, 512MB

16 二電子積分計算の特徴 for(i = 0; I < Nshell; I++) for( J = 0; J < I; J++) for (K = 0; K < I; K ++) for( L = 0; L < I; L++) for(i = 0; i < N i ; i++) (初for(j = 0; j < N j ; j++) 期for (k = 0; k < N k ; k++) 積for(l = 0; l < N l ; l++) 分<s i s j s k s l > の計算計算forend 部forend 分forend forend <a I a J a K a L > の計算 ( 漸化計算部分 ) forend forend forend forend 小原法を基に新小原法を開発初期積分計算部分 4 重ループ構造演算を含む) 除算開平逆数演算指数関数演算漸化計算部分並列性が高い多数の積和演算からなる並列性が低い複雑な倍精度浮動小数点

17 Eric: 二電子積分計算専用 LSI - 設計方針 - 初期積分計算漸化計算内在する演算浮動小数点加減乗除算開平逆数演算指数関数演算誤差関数計算積和演算並列度低高専用演算器を用いて高速化多数の積和演算器を搭載し並列性を活用して高速化専用 LSI を 2 種類のエンジンに分割 : 初期積分計算 (IIC) エンジン漸化計算 (RC) エンジン

18 Eric: 二電子積分計算専用 LSI 32b SH-4 I/F 64b 64b 64b 64b IIC Program Memory (64KB) ERF Table (128KB) RC Microprogram Memory (64KB) 16b 64b 64b 64b 64b 64b IIC Engine RC Engine 0 RC Engine 1 RC Engine 2 RC Engine 3 IALU FMUL &ADD FDIV &SQRT EXP &ERF IALU FMUL &ADD IALU FMUL &ADD IALU FMUL &ADD IALU FMUL &ADD Register File Register File Register File Register File Register File 64b 64b 64b 64b 64b Data Memory (32KB/bank 8banks) 64b IIC エンジン ( 汎用 RISC プロセッサ + 専用演算回路 ) 64b SDRAM I/F 64b RC エンジン ( 複数のマイクロエンジンからなるCMPアーキテクチャ )

19 二電子積分計算専用 LSI Eric vs. Intel P4 マイクロアーキテクチャクロック周波数二電子積分計算専用 LSI Eric 非均質 CMP( チップマルチプロセッサ ) 初期積分計算エンジン 1 漸化計算エンジン 4 200MHz( 最低達成目標 ) Intel P4 シングルプロセッサスーパースカラプロセッサ 3.2GHz(2003 年 10 月時点最速モデル ) 実装する倍精度浮動積和演算 (1+4) 小数点演算器, および, 除算 / 開平逆数 1 同時実行可能な演算指数関数 / 誤差関数 1 器数加算 / 乗算 / 除算 / 開平 1 倍精度浮動小数点演算性能 ( ピーク値 ) 10 演算 / クロックサイクル 1 演算 / クロックサイクル

20 ペプチド分子 GAQMY 分子での漸化計算にかかる総実行時間 3500 Pentium に比べ 1100 秒 ( 約 19 分 ) 速い 3000 総実行時間 (s) Pentium に比べ 640 秒 ( 約 11 分 ) 速い Pentium Ⅲ Eric(200MHz) Eric(250MHz) Eric(300MHz)

21 メモリ (704KB) Eric の LSI 仕様ロジック (3.6M ゲート ) 5mm 10mm 製造プロセス技術 :TSMC 0.13µm シャトルサービス論理規模 :3.6M ゲートメモリサイズ :704KB 面積 :5mm 10mm 動作クロック周波数 :200MHz 消費電力 :10W ピーク性能 :2GFlop/s( 倍精度 )

22 Compact PCI 規格二電子積分計算加速ボード Compact PCI 規格に準拠したプリント基板 Eric( 二電子積分計算専用プロセッサ LSI) 4 SDRAM 各 Eric 当り 1GB 汎用 MPU(SH4) 1 PCIバスI/F, Ethrenet, 等

23 分子軌道法専用マッスルサーバー EHPC/Eric 1 ノード二電子積分計算加速ボード 7 枚 =Eric 28 個 PC ボードハードディスク, 等システム全体任意数のノードを Ethernet 接続 4 ノード構成の場合 Eric112 個による並列計算

24 分子軌道法専用マッスルサーバー EHPC/Eric の性能プロセッサ数ピーク性能 (GFlop/s) MO 計算時間 ( 時 ) 体積 (W D H:mm) 消費電力 (KW) 価格 (M$) EHPC/Eric ( 見積もり値 ) ( 見積もり値 ) 2 ( 見積もり値 ) 0.1 SR8000/

25 新しいマッスルサーバーアーキテクチャの可能性 ~ 動的再構成可能プロセッサの HPC 応用 ~ 汎用プロセッサ動的再構成可能データパスダイレクト I/O 高速 I/O 機器高速バススイッチユニット 2 次元演算器配列 PCI インタフェース SDRAM インタフェース GPIO UART Interrupt Controller 他 PCI バス外部メモリ周辺機器

300 MHz, 32-bit Xtensa-based processor 16- and 24-bit instructions FPU

store 8, 16, 32, 64, and 128 bit Unaligned load and store Up to 16 bytes

User-defined extensions to the core ISA Defined in C/C++ Fully pipelined

26 300 MHz, 32-bit Xtensa-based processor 16- and 24-bit instructions FPU MMU with TLB Stretch Instruction Set Extension Fabric Aligned load and store 8, 16, 32, 64, and 128 bit Unaligned load and store Up to 16 bytes variable byte streaming I/O Up to 32 bits variable bit streaming I/O User-defined extensions to the core ISA Defined in C/C++ Fully pipelined and interlocked Low power consumption Support for standard operating systems Stretch

Memory Bandwidth Maximum Memory Maximum Disk Storage 53 GFlop/s 96

27 CRAY XD1 Compute Processors Chassis 12 Each Rack 144 Performance Aggregate Switching Capacity Interprocessor Latency Aggregate Memory Bandwidth Maximum Memory Maximum Disk Storage 53 GFlop/s 96 GB/s 1.6 us 77 GB/s 96 GB 296 GB 633 GFlop/s 1152 GB/s 1.8 us 922 GB/s 1152 GB

28 マッスルサーバー ( 汎用 PCクラスタ + 特定計算向けハードウェア ) の開発 ~ 分子軌道法を例にして~ 村上和彰九州大学情報基盤センター murakami@cc.kyushu-u.ac.jp

untitled

untitled PC murakami@cc.kyushu-u.ac.jp muscle server blade server PC PC + EHPC/Eric (Embedded HPC with Eric) 1216 Compact PCI Compact PCIPC Compact PCISH-4 Compact PCISH-4 Eric Eric EHPC/Eric EHPC/Eric Gigabit