ペタスケール計算環境に向けたFFTライブラリ

Similar documents
4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司

高性能計算研究室の紹介 High Performance Computing Lab.

GPUを用いたN体計算

高性能計算研究室の紹介 High Performance Computing Lab.

CCS HPCサマーセミナー 並列数値計算アルゴリズム

修士論文

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

スライド 1

最新の並列計算事情とCAE

スライド 1

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料)

PowerPoint プレゼンテーション

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

GPUコンピューティング講習会パート1

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ

Microsoft PowerPoint PCクラスタワークショップin京都.ppt

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

CLEFIA_ISEC発表

2008 年度下期未踏 IT 人材発掘 育成事業採択案件評価書 1. 担当 PM 田中二郎 PM ( 筑波大学大学院システム情報工学研究科教授 ) 2. 採択者氏名チーフクリエータ : 矢口裕明 ( 東京大学大学院情報理工学系研究科創造情報学専攻博士課程三年次学生 ) コクリエータ : なし 3.

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

Microsoft PowerPoint - 10.pptx

memo

行列、ベクトル

研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI, MPICH, MVAPICH, MPI.NET プログラミングコストが高いため 生産性が悪い 新しい並

製品開発の現場では 各種のセンサーや測定環境を利用したデータ解析が行われ シミュレーションや動作検証等に役立てられています しかし 日々収集されるデータ量は増加し 解析も複雑化しており データ解析の負荷は徐々に重くなっています 例えば自動車の車両計測データを解析する場合 取得したデータをそのまま解析

Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops

チューニング講習会 初級編

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

07-二村幸孝・出口大輔.indd

Microsoft PowerPoint - sales2.ppt

EnSightのご紹介

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

GPGPUクラスタの性能評価

Microsoft PowerPoint - ★13_日立_清水.ppt

Microsoft PowerPoint - H21生物計算化学2.ppt

Microsoft PowerPoint - 6-盛合--日文.ppt

09.pptx

HPC可視化_小野2.pptx

OpenFOAM(R) ソースコード入門 pt1 熱伝導方程式の解法から有限体積法の実装について考える 前編 : 有限体積法の基礎確認 2013/11/17 オープンCAE 富山富山県立大学中川慎二

Microsoft PowerPoint - CSA_B3_EX2.pptx

GPUコンピューティング講習会パート1

PowerPoint Presentation

PowerPoint プレゼンテーション

CELSIUSカタログ(2012年7月版)

PowerPoint プレゼンテーション

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

Microsoft PowerPoint SCOPE-presen

ポスト「京」でのコデザイン 活動報告

4 月 東京都立蔵前工業高等学校平成 30 年度教科 ( 工業 ) 科目 ( プログラミング技術 ) 年間授業計画 教科 :( 工業 ) 科目 :( プログラミング技術 ) 単位数 : 2 単位 対象学年組 :( 第 3 学年電気科 ) 教科担当者 :( 高橋寛 三枝明夫 ) 使用教科書 :( プロ

09中西

補足 中学で学習したフレミング左手の法則 ( 電 磁 力 ) と関連付けると覚えやすい 電磁力は電流と磁界の外積で表される 力 F 磁 電磁力 F li 右ねじの回転の向き電 li ( l は導線の長さ ) 補足 有向線分とベクトル有向線分 : 矢印の位

工学院大学建築系学科近藤研究室2000年度卒業論文梗概

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

Transcription:

A01 高橋班 大規模並列環境における 数値計算アルゴリズム 研究代表者 : 高橋大介 筑波大学大学院システム情報工学研究科

研究組織 研究代表者 高橋大介 ( 筑波大学 ): 研究統括および高速アルゴリズム 研究分担者 今村俊幸 ( 電気通信大学 ): 性能チューニング 多田野寛人 ( 筑波大学 ): 大規模線形計算 連携研究者 佐藤三久 ( 筑波大学 ): 並列システムの性能評価 朴泰祐 ( 筑波大学 ): 演算および通信性能の最適化 櫻井鉄也 ( 筑波大学 ): 数値アルゴリズム

研究目的 ペタフロップスを超える性能を持つ次世代のスーパーコンピュータに向けた数値計算アルゴリズムや性能チューニング手法の研究を行う. これまでの研究成果を十分に活用し, 研究期間内に以下の点について明らかにすることを目指している. ペタスケール計算環境に向けた並列数値計算アルゴリズムを実現する. 現在利用可能なマルチコア超並列クラスタにおいて性能評価を行い, 提案する並列数値計算アルゴリズムの高速性を実証する. これらの結果より, ペタスケールおよびエクサスケール計算環境に適したアルゴリズムおよび最適化手法についての知見を得る.

これまでの実績 (1/3) 研究代表者の高橋と連携研究者の朴は,A02 押山班のメンバーとこれまでに共同研究を行った実績がある. 実空間差分法による密度汎関数法 (RSDFT) のプログラムの超並列 PC クラスタ上での高度化 J. Iwata, D. Takahashi, A. Oshiyama, T. Boku, K. Shiraishi, S. Okada and K. Yabana: A massively-parallel electronicstructure calculations based on real-space density functional theory, Journal of Computational Physics, Vol. 229, No. 6, pp. 2339--2363 (2010). 研究代表者の高橋は筑波大学計算化学研究センターの T2K 筑波システムにおいて最大 10,240コアの利用経験がある.

RSDFT プログラムの 超並列 PC クラスタ上での高度化 RSDFT のプログラムでは古典 Gram-Schmidt 直交化が実行時間の多くの割合を占めていた. 古典 Gram-Schmidt 直交化に関しては, 内積計算とベクトル変換の間に依存関係があり,3 重のループ構造において, 内側の 2 重ループにしかブロック化が適用できないので, 行列 - ベクトル積 ( レベル 2 BLAS) となり, ブロック化の効果は限られる. しかし, これらの演算の一部には依存関係がないことに着目することで, 複数のベクトルに対する内積 複数のベクトルに対するベクトル変換の処理が行列 - 行列積 ( レベル 3 BLAS) に帰着できる.

GFLOPS 140 120 100 Performance on 32 node 3GHz 80 60 40 20 0 Xeon PC Cluster Recursive CGS Column Blocking CGS Naïve 0 10000 20000 30000 40000 Matrix Size

これまでの実績 (2/3) 研究分担者の今村は固有値計算ライブラリにおいて多くの研究成果をあげており,Gordon Bell Award の Finalist に 2005 年,2006 年と 2 年連続で選出されている. Susumu Yamada, Toshiyuki Imamura and Masahiko Machida: 16.447 Tflops and 159-Billion-dimensional Exactdiagonalization for Trapped Fermion-Hubbard Model on the Earth Simulator, ACM&IEEE SC 05, CD-ROM proceedings (2005). Susumu Yamada, Toshiyuki Imamura, Takuma Kano and Masahiko Machida: High-Performance Computing for Exact Numerical Approaches to Quantum Many-Body Problems on the Earth Simulator, ACM&IEEE SC 06, CD- ROM proceedings (2006). 研究分担者の今村は東京大学情報基盤センターの HPC プロジェクト での採択実績があり,HA8000 クラス タシステムにおいて最大 8,192 コアの利用経験がある.

これまでの実績 (3/3) さらに, 研究分担者の多田野と連携研究者の櫻井は, 疎行列連立一次方程式の反復解法や固有値計算において多くの研究成果を挙げると共に,A02 押山班の研究分担者 ( 岩田 ) と共同研究を行っている. Junko Asakura, Tetsuya Sakurai, Hiroto Tadano, Tsutomu Ikegami and Kinji Kimura: A Numerical Method for Nonlinear Eigenvalue Problems Using Contour Integral, JSIAM Letters, Vol. 1, pp. 52-55 (2009). Hiroto Tadano, Tetsuya Sakurai and Yoshinobu Kuramashi: Block BiCGGR: A New Block Krylov Subspace Method for Computing High Accuracy Solutions, JSIAM Letters, Vol. 1, pp. 44-47 (2009).

これから目指すものについて 次世代スーパーコンピュータ (K computer) は 2012 年に完成予定. まずは, ペタフロップス級の次世代スーパーコンピュータに向けた数値ライブラリおよび数理アルゴリズムの研究を行う. 本研究は平成 22~26 年度の 5 年間行われることから, 次々世代スーパーコンピュータも視野に入れて研究する必要がある. エクサフロップスを達成するためには, 汎用 CPU だけでは困難である可能性が高い. アクセラレータ向けの数値計算アルゴリズムについても並行して研究を行うことが重要.

研究計画 1. ペタフロップス級の次世代スーパーコンピュータに向けた数値ライブラリおよび数理アルゴリズム (H22~24 年度 ) 2. アクセラレータ (GPGPU) 向けの性能チューニング手法 (H22~26 年度 ) 3. ペタフロップス級の次世代スーパーコンピュータにおける数値ライブラリの性能評価 (H24~25 年度 ) 4. エクサフロップス級の次々世代スーパーコンピュータに向けた数値ライブラリおよび数理アルゴリズム (H25 ~26 年度 )

1. ペタフロップス級の次世代スーパーコン ピュータに向けた数値ライブラリおよび 数理アルゴリズム ペタフロップス級の次世代スーパーコンピュータが実運用に入るまでのH22~24 年度に完了させる予定. 対象とする数値ライブラリおよび数理アルゴリズム 高速フーリエ変換 (FFT) 固有値計算 本計画班内だけではなく, 領域内の計算物質科学の研究者と連携し, 物性計算手法の高度化を目指す.

2. アクセラレータ (GPGPU) 向けの性能 チューニング手法 エクサフロップス級の次々世代スーパーコンピュータに向けた萌芽的な研究であり,H22~26 年度を通じて継続的に行う. H22 年度 : GPGPU ボード搭載 PC クラスタの単体ノード内の最適化手法について検討を行う. H23 年度 : GPGPU ボード搭載 PC クラスタにおいて, 複数ノードを接続した場合の数値アルゴリズムについての検討を行う. H24 年度 ~: H22~23 年度に行った GPGPU ボード搭載 PC クラスタにおける数値アルゴリズムの性能評価を行う.

3. ペタフロップス級の次世代スーパーコン ピュータにおける数値ライブラリの性能評価 H22~23 年度に開発した数値ライブラリの性能評価を次世代スーパーコンピュータが実運用に入った後 (H24~25 年度 ) に行う. 対象とする数値ライブラリ 高速フーリエ変換 (FFT) 固有値計算 性能評価から得られた知見を, 次々世代スーパーコンピュータにおける数値ライブラリの開発に反映させる.

4. エクサフロップス級の次々世代スーパー コンピュータに向けた数値ライブラリおよび 数理アルゴリズム エクサフロップス級の次々世代スーパーコンピュータの開発状況にも依存するが, 萌芽的な研究としてH25~26 年度に行う. H22 年度から研究を開始する, アクセラレータ (GPGPU) 向けの性能チューニング手法を活用できる. 倍精度演算だけでなく4 倍精度演算の必要性についても検討を行う.

高速アルゴリズム (1/2) 研究代表者 : 高橋大介 ( 筑波大学 ) 高速フーリエ変換 (FFT) の超並列化 これまでに FFT ライブラリとして FFTE (http://www.ffte.jp) を開発してきている. 次世代および次々世代スーパーコンピュータにおいて高い実行効率を得るためには, 根本的にアルゴリズムを見直す必要があると考えられる. 演算量を増やしてでも, 通信量および通信回数を削減できるアルゴリズムの開発を目指す. 計算物質科学アプリケーションに特化したチューニングも視野に入れる.

高速アルゴリズム (2/2) 研究代表者 : 高橋大介 ( 筑波大学 ) 4 倍精度演算の高速化 エクサスケール計算環境では, 演算精度が不足する可能性がある. 4 倍精度演算はハードウェアで直接行うことができず, ソフトウェアエミュレーションが必要であることから, 倍精度演算に比べて数十倍の実行時間を要していた. メモリアクセス量の観点からは,4 倍精度演算は倍精度演算の高々 2 倍であるため,GPGPUなどのアクセラレータの演算性能を活用できる可能性がある.

Multi-{core,socket,GPU} 向け数値計算ソフトウェアの最適実装 チューニング技術の研究研究分担者 : 今村俊幸 ( 電気通信大学 ) 高性能数値計算ソフトウェア 次世代スパコンでの実利用を想定した技術の研究 例 ) メニイコア化 (10000 コア以上を想定 ) 例 ) 非対称ハードウェアへの対応 ( 例 :GPU やアクセラレータ ) 例 ) 固有値ソルバマルチコア版のマルチコアマルチ GPU 複合版 AMD Opteron six-core AMD Opteron six-core 新学術領域研究 コンピューティクスによる NVIDIA GTX285 物質デザイン : 複合相関と非平衡ダイナミクス キックオフ ミーティング NVIDIA GTX285

Multi-{core,socket,GPU} 向け数値計算ソフトウェアの最適実装 チューニング技術の研究研究分担者 : 今村俊幸 ( 電気通信大学 ) 高性能数値計算ソフトウェア 他班のシミュレーションコードへの応用を視野に HPC の観点からは 非対称メモリ階層を意識したコードの最適化技術 データ多重化 * 転送最小化技術 高精度計算の観点から 多倍長計算技術の導入など アプリケーションサイドからの要求にこたえる観点から 特定用途に限定してチューニングする» 例えば 100 次元の行列の対角化を徹底的に最適化するなど 上記を達成するための汎用技術の開発など

大規模スパース固有値問題の並列解法 研究分担者 : 多田野寛人 ( 筑波大学 ) 大規模スパース固有値問題 複素平面上の一部の領域内に存在する固有値 固有ベクトルを求める 様々な分野での応用が考えられる 反復修正型 (Lanczos 法など ) 方法の反復過程において, 大規模な連立一次方程式を解く必要がある 並列化を行う場合,1 本の方程式を全プロセスで解くことになる スケーラビリティの低下を招く 直接構成型 ( 周回積分フィルター対角化法 (SS 法 )) 互いに独立な複数本の連立一次方程式を解く必要がある 方程式間で通信が発生しないため, スケーラビリティが高い本研究の目的 周回積分フィルター対角化法 (SS 法 ) の研究, 及び高性能化

実施する研究課題研究分担者 : 多田野寛人 ( 筑波大学 ) アルゴリズムに関する課題 積分経路の選択法の研究 解の精度, 問題の解きやすさに影響を及ぼす 固有値分布の確率的推定法の研究 計算する領域の設定が容易に 高性能化に関する課題 超大規模問題にも対応可能なソフトウェア設計 GPGPUクラスタにおけるSS 法の高性能化の研究 応用分野の研究者との協力により, アルゴリズム 高性能化の両方について, 実用性の高い方法の開発を行っていく.