PowerPoint Presentation

Similar documents
Microsoft PowerPoint - CCS学際共同boku-08b.ppt

― ANSYS Mechanical ―Distributed ANSYS(領域分割法)ベンチマーク測定結果要約

hpc141_shirahata.pdf

HPEハイパフォーマンスコンピューティング ソリューション

Microsoft Word - Dolphin Expressによる10Gbpソケット通信.docx

HP xw9400 Workstation

VXPRO R1400® ご提案資料

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料)

HP ProLiant 500シリーズ

Microsoft PowerPoint - JANOG19-u10-GigaPcap(NonAnim).ppt


4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司

システムソリューションのご紹介

Microsoft Word - HOKUSAI_system_overview_ja.docx

untitled

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft Word ●MPI性能検証_志田_ _更新__ doc

PowerPoint プレゼンテーション

スライド 1

富士通PRIMERGYサーバ/ETERNUSストレージとXsigo VP560/VP780の接続検証

Microsoft PowerPoint - ★13_日立_清水.ppt

最新の並列計算事情とCAE

富士通PCサーバ「PRIMERGY RX2530 M4」における「TeraStation TS5010 / TS3010」シリーズ動作検証報告

tabaicho3mukunoki.pptx

ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC ソフトウェア 3.5 以降のバージョンが必要です Dual 2.26 GHz Quad Core Intel 構成のに関しては Configuration Guideli

Microsoft PowerPoint - qcomp.ppt [互換モード]

Microsoft PowerPoint - sales2.ppt

(速報) Xeon E 系モデル 新プロセッサ性能について

PassMark PerformanceTest ™

テクニカルガイド

Fujitsu Standard Tool

CLEFIA_ISEC発表

Microsoft PowerPoint _AMD.ppt

PowerPoint プレゼンテーション

<4D F736F F F696E74202D204E505F8E9F90A291E E815B CFC82AF B838B B838B C5E B8D5C91A E E4E41532E7

ProLiant BL460c システム構成図

untitled

supercomputer2010.ppt

HP Z200 Intel i5 CPU 3.33GHz Low Profile 仕様 380 LP Assist 2.2 Instinct v3.0 以降 いいえいいえはいいいえ 4GB および 8GB DDR ECC (2 枚構成の DIMM) ISIS へ接続するにはオンボードの

Rev.6.0 Autodesk Certified Workstations HP Z840 HP Z8 G4 Dell T7920 と TITAN 240 G3 TITAN 240 G4 システム構成比較

HP Workstation 総合カタログ

Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops

テクニカルガイド

istorage NS100Tg, NS300Rg ご使用時の注意事項 この度は弊社製品をお買い上げいただき 誠にありがとうございます 本製品のご使用において ご注意いただくことがございます 誠に恐れ入りますが ご使用前に下記内容を必ずご一読いただきますようお願い致します なお 本書は必要なときにす

PCI マルチファンクションデータ収集カードおよび 6U CompactPCI 高速デジタイザのシステム構成例 PCI バスを使用してデータ収集 PCI バスを持った PC + Acqiris 社高速デジタイザまたは Advantech 社マルチファンクションデータ収集カード PCIバスを拡張してデ

038_h01.pdf


GPGPUクラスタの性能評価

研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI, MPICH, MVAPICH, MPI.NET プログラミングコストが高いため 生産性が悪い 新しい並

1重谷.PDF

ProLiant BL25p Generation 2システム構成図

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装

PCI PCI 5V/32bit 3.3V/32bit 5V/64bit 3.3V/64bit PCI I/O HBA 3.3V 5V I/O 3 3V 5V PCI v2 1 5V 3.3V PCI v V 5V PCI v v 5V

HP Personal Workstations

富士通製PRIMEQUESTとNeterion製10GbEthernetアダプタ性能検証報告書

スライド 1

XACCの概要

Microsoft Word - PCI-X_PCIeバスのデータ転送-ver1.0.docx

untitled

HP Workstation 総合カタログ

スライド 1

Itanium2ベンチマーク

lll

GPUを用いたN体計算

HPC可視化_小野2.pptx

09.pptx

スライド 1

BX900 S1/S2/BX400 S1シャーシの搭載制限について

untitled

Microsoft Word - gori_web原稿:TrusSPSにおけるNAS OSのパフォーマンス評価.docx

ProLiant ML115 Generation 1 システム構成図

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

PCIe SSD (PY-BS08PA*/PY-BS16PA*/PY-BS20PA*) / スイッチカード (PY-PC301)

PassMark PerformanceTest ™

次世代スーパーコンピュータのシステム構成案について

Fibre Channel 関連 1. 概要 Fibre Channel ディスクアレイ装置とサーバ間を高速なインタフェースで接続する Fibre Channel 関連製品 ディスクアレイ装置 / 収納ユニットとサーバを接続するための Fibre Channel ケーブル < 留意事項 > ディスク

PowerPoint プレゼンテーション

Microsoft PowerPoint - 6-盛合--日文.ppt

OptiPlex OptiPlex 4 OptiPlex vpro Energy STAR5.0 EPEAT GOLD 90 Energy Smart Energy Smart

ProLiant ML115 Generation 1 システム構成図

Microsoft PowerPoint PCクラスタワークショップin京都.ppt

HPC143

目次 1 はじめに 登録商標 商標 注意事項 免債事項 SR-IOV の機能概要 性能検証事例 測定環境 測定結果 各方式による共有 NIC 性能比較 ( ポートあ

CCS HPCサマーセミナー 並列数値計算アルゴリズム

スライド 1

LANカード(PG-2871) 取扱説明書

ESPRIMOカタログ(2017年1月版)

ProLiant BL35p システム構成図

修士論文

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

1 本体 2.5 型ドライブモデル ( フレームモデル ) 製品名称 / 概要 Express5800/R110i-1(4C/E3-1220v6) 1 x インテル Xeon プロセッサー E3-1220v6 (3GHz, 4C/4T, 8 MB), メモリセレクタブル, ディスクレス, ODD レ

HA8000xH ハードウェア アーキテクチャーガイド

サーバに関するヘドニック回帰式(再推計結果)

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

<4D F736F F F696E74202D F A282BD94BD959C89F A4C E682528D652E707074>

Microsoft PowerPoint - SWoPP2010_Shirahata

Microsoft Word - fibre-peripheral.doc

ESPRIMOカタログ(2017年8月版)

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

テクニカルガイド Fibre Channel接続機器

Transcription:

GF(2) 上疎行列線形解法の 現状と評価 中央大学 21 世紀 COE プログラム JST CREST 西田晃 July 8, 2006 JSIAM JANT Conference 1

背景 情報システムの安全性 公開鍵暗号システムに依存 最新の計算機環境による素因数分解のコストを常に正確に評価する必要 July 8, 2006 JSIAM JANT Conference 2

関連研究 公開鍵暗号 GF(2) 上の疎行列線形方程式系を効率的に解く必要 連分数法 (CFRAC, Morrison and Brillhart, 1975) 合同式 x 2 y 2 mod N の自明でない解を求める ユークリッドの互除法により,(x+y, N) から合成数 N の因数 p を求める 二次篩法 (Pomerance, 1982) 数体篩法 (Lenstra and Lenstra, 1993) 計算コストの正確な評価 July 8, 2006 JSIAM JANT Conference 3

GF(2) の線形解法 大規模行列 A の列に従属性を見つける Ax=0, x 0 を満たす x を計算 乱数ベクトル x 0 から b=ax 0 を計算し, Ax=b を解く A(x-x 0 )=0 A の列が線形従属ならば,x x 0 である可能性が高い 非零ベクトルも自身に対して直交する可能性 y T y= 0, y 0 Look-ahead Lanczos のアイデアを活用 (Montgomery s block Lanczos) July 8, 2006 JSIAM JANT Conference 4

素因数分解の記録 数体篩法による素因数分解の記録 Digits Dates Description By 200 05/2005 RSA-200 Bonn Univ. et al. 193 11/2005 RSA-640 Bonn Univ. et al. 176 04/2005 cofactor of 11 281 +1 Rikkyo Univ. et al. 174 12/2003 RSA-576 Bonn Univ. et al. 164 12/2003 cofactor of 2 1826 +1 Rikkyo Univ. et al. 160 04/2003 RSA-160 Bonn Univ. et al. 158 01/2002 co-factor of 2 953 +1 Bonn Univ. et al. 155 08/1999 RSA-155 CWI et al. 外挿すると (Brent, 2000) D 1/3 =(Y-1928.6)/13.24 ( ムーアの法則から ) 2006 年で 200 桁 July 8, 2006 JSIAM JANT Conference 5

計算時間 RSA-155 (1999) 8000MIPS- 年 篩部分 8000MIPS- 年 行列計算部分 Cray C916 で 224CPU 時間 6MIPS- 年 RSA-200 (2005) 70000MIPS- 年 行列計算部分 2.2GHz Opteron CPU 1 台で 55 年 50000MIPS- 年 行列計算部分 80 台の 2.2GHz Opteron クラスタで約 3 ヶ月 20000MIPS- 年 July 8, 2006 JSIAM JANT Conference 6

観察 GF(2) 上のスケーラブルな並列ソルバが必要 どのように実現するか? July 8, 2006 JSIAM JANT Conference 7

研究概要 特定領域研究 情報学 最先端の情報通信システムを活用した新しい研究手法 ( 下條 松岡班 ) InfiniBand + PCI Express の組み合わせで高度な通信性能を備えた PC クラスタ環境を構築 今回は主に広帯域環境での処理性能について紹介 July 8, 2006 JSIAM JANT Conference 8

反復法による線形系 Ax=b の求解 一般的な PC クラスタ環境では十分スケールしないことがある NAS Parallel Benchmark CG kernel で評価可能 共役勾配法を使用した疎行列計算ベンチマーク 原因 ネットワーク性能 (PCI バスを含む ) 帯域幅 レイテンシ アルゴリズム 通信が多く, データの待ち時間が長い July 8, 2006 JSIAM JANT Conference 9

例 共役勾配法のアルゴリズム 1. Choose x 0 2. p 0 =r 0 =b-ax 0 k=0 3. α k =(r k,p k )/(p k,ap k ) 4. x k+1 =x k +α k p k 5. r k+1 =r k -α k Ap k 6. β k =(r k+1,r k+1 )/(r k,r k ) 7. p k+1 =r k+1 +β k p k 8. If not convergent, goto 3. July 8, 2006 JSIAM JANT Conference 10

背景 既存のクラスタ向けインターコネクト技術 Myrinet, Quadrics, GbE, etc. PCI-X バスを利用 ( アプリケーションによっては ) 帯域幅に限界 最新の技術を活用することで, より広帯域のクラスタを実現することはできないか? July 8, 2006 JSIAM JANT Conference 11

PCI Express PCI-X との互換性 シリアル転送 ( 片方向 2.5Gbps/ レーン 最高 32),point-to-point 接続 AGP バスも統合 ビデオカード用の x16 PCIe スロットを通信用に利用可能 2004 年から実用化 July 8, 2006 JSIAM JANT Conference 12

PCI-X vs PCI Express July 8, 2006 JSIAM JANT Conference 13

InfiniBand HCA(Host Channel Adapter) 富士通,Mellanox Technologies, Inc. Mellanox は PCI Express に対応 (2004 年から ) ~ 片方向 2.5Gbps 4/ ポート 2/ アダプタ (8B/10B データ符号化 ) 2GB/s Kernel 2.6.11 から Linux 標準カーネルにドライバ (OpenIB.org 版 ) を統合 PCI Express 対応 Myrinet 10G も 2006 年から利用可能 ( 今回は評価せず ) July 8, 2006 JSIAM JANT Conference 14

PCI Express 用 IB HCA Mellanox MHEL-CF128-T (128MB メモリ搭載 ) 約 15 万円 July 8, 2006 JSIAM JANT Conference 15

PCI Express 用 IB HCA 同 MHEA28-XT ( メモリ非搭載版 ) PCI Express の帯域を利用 約 7 万円 July 8, 2006 JSIAM JANT Conference 16

クラスタの構築 平成 15 年度 PCI Express, InfiniBand + Opteron で計画 平成 16 年度 PCI Express 対応 InfiniBand HCA の登場 16 年秋より出荷開始 (Mellanox) HCA,24 ポートスイッチを導入 ( ポート単価約 3 万円 ) AMD の PCI Express への対応 NVIDIA nforce4 chipset 年末から搭載マザーボードが出荷開始 Athlon64 nforce4 SLI etc. (Asus, 16 年 12 月 ) Opteron nforce Professional 2200 (Rioworks, 17 年 3 月 ) July 8, 2006 JSIAM JANT Conference 17

評価環境 HCA は Mellanox InfiniHost チップ搭載の MHEL-CF128-T (128MB メモリ搭載版 ) MHEA28-XT ( メモリ非搭載版 ) を使用 通信ライブラリ InfiniBand に対応した MPI ライブラリ MVAPICH (Ohio State Univ.) ストライピング機能を実装 複数ポートにデータを分配可能 LAM MPI Mellanox HCA も使用可 MPICH/Score Cisco ( 旧 Topspin,InfiniBand ベンダ ) の機器に対応 July 8, 2006 JSIAM JANT Conference 18

クラスタ構成 ノードは Opteron + nforce で構成 チップセット nforce Professional 2200 まず 2-way 構成で CPU: AMD Opteron 246 2.0GHz,1MB L2 M/B: Rioworks HDAM Express 2005 年 3 月に出荷 メモリ : 512MB PC3200 DDR x 4 8 ノード 16CPU で構築 July 8, 2006 JSIAM JANT Conference 19

クラスタ構成 InfiniBand スイッチ : 24 ポート InfiniBand スイッチ MTS2400 (Mellanox) HCA ノード 0-3 MHEL-CF128-T (128MB メモリ搭載版 ) ノード 4-7 MHEA28-XT ( メモリ非搭載版 ) GbE Dell PowerConnect 2724 NIC: 32bit, 66MHz 対応 RTL8169 チップ搭載カード OS SuSE Linux 9.1 Professional July 8, 2006 JSIAM JANT Conference 20

IBD クラスタ July 8, 2006 JSIAM JANT Conference 21

比較対象 SGI Altix 3700 Intel Itanium2 Processor 1.3GHz,3MB L3 32 主記憶 PC3200 DDR 32GB このうち隣接した 16CPU を使用 ノード 2CPU を搭載 ノード内は 6.4GB/s, ノード間は 3.2GB/s の SGI NUMAflex ネットワークで接続 (fat tree) July 8, 2006 JSIAM JANT Conference 22

通信性能 InfiniHost HCA (MHEL-CF128-T) の MPI レイテンシ July 8, 2006 JSIAM JANT Conference 23

通信性能 InfiniHost HCA (MHEL-CF128-T) の片方向帯域幅 July 8, 2006 JSIAM JANT Conference 24

通信性能 InfiniHost HCA (MHEL-CF128-T) の双方向帯域幅 July 8, 2006 JSIAM JANT Conference 25

通信性能 InfiniHost HCA (MHEA-28-XT) の双方向帯域幅 July 8, 2006 JSIAM JANT Conference 26

通信性能 SGI Altix 3700 上での MPI レイテンシ July 8, 2006 JSIAM JANT Conference 27

通信性能 SGI Altix 3700 上での双方向帯域幅 July 8, 2006 JSIAM JANT Conference 28

メモリ帯域幅 ノード当たり 2MPI プロセスで実行した場合の STREAM benchmark 性能 July 8, 2006 JSIAM JANT Conference 29

メモリ帯域幅 SGI Altix 3700 上での STREAM benchmark 性能 July 8, 2006 JSIAM JANT Conference 30

NAS Parallel Benchmark CG 対称正定値行列の最小固有値を逆反復法と共役勾配法で計算 MPI 版 Class S,W, A-C で評価 July 8, 2006 JSIAM JANT Conference 31

NAS Parallel Benchmark CG SGI Altix 3700 上での MPI 版 CG の演算性能 July 8, 2006 JSIAM JANT Conference 32

NAS Parallel Benchmark CG クラスタ上で InfiniHost HCA 1 ポートのみを使用した場合の演算性能 July 8, 2006 JSIAM JANT Conference 33

NAS Parallel Benchmark CG クラスタ上で InfiniHost HCA 2 ポートを使用した場合の演算性能 July 8, 2006 JSIAM JANT Conference 34

観察 CG の性能は通信帯域幅によって決まる 参考データ (7 月 8 日現在 ) Cray XT3 Myri-10G Opteron 1シリーズを3Dトーラスで結合 MPI 片方向帯域幅 1160MB/s MPI 双方向帯域幅 2080MB/s MPI レイテンシ 6.4us ( 通信性能に改善の余地 ) PCI Express 対応 Myrinet カード MPI 片方向帯域幅 1204MB/s MPI 双方向帯域幅 2397MB/s MPI レイテンシ 2.4us July 8, 2006 JSIAM JANT Conference 35

大規模素因数分解に向けて PCI Express 対応の通信カードを用いることにより, 専用並列計算機と同性能の広帯域かつ低価格なクラスタ環境が構築可能 ネットワーク性能の疎行列数値処理に与える影響を評価 疎行列計算ではネットワーク帯域幅が律速 July 8, 2006 JSIAM JANT Conference 36