マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装
|
|
- ふみな みやまる
- 5 years ago
- Views:
Transcription
1 2010 GPGPU MPI/Pthread
2 (DDM) DDM CPU CPU CPU CPU FEM GPU FEM
3 CPU Mult - NUMA Multprocessng Cell GPU Accelerator, GPU CPU Heterogeneous computng L3 cache L3 cache CPU CPU + GPU GPU L3 cache 4 L2 cache L3 cache L3 cache 4 x 4 (NUMA) GPU Last level cache
4 Mult- CPU CPU (Many ) CPU ( (DDM) MPI/POSIX
5 CPU ( ) u f, CG q p q p - - q p CPU OpenMP MPI q p j
6 (DDM) (Doman Decomposton Method, (BDD) DDM CPU
7 DDM u f 1. N u u, N 1 T, f N 1 T f 2. I B u Øu Œ º u I B ø œ, ß Ø Œ º II T IB IB BB ø œ, ß f Ø Œ º f f I B ø œ, ß Ø Œ º 0 I 0 B ø œ ß 3. Su B g S g T B T B S - ( ) T -1 f - f B B, S IB II BB I T IB -1 II IB, 4. CG
8 DDM q Sp N 1 T B S B p N 1 T B q for ( 0; < N; ++) x 0 - B p w q -1 II x w B p q S B p CPU
9 DDM CPU ( ) Su B g q, CG T B Sp S p - - B ( OpenMP ), MPI w -1 II x,, 1
10 DDM y Sp : 1 for POSIX for ( 0; < my_ndoman; ++) x 0 - B p N y 1 T B y w y -1 II x w B p
11 MPI/Pthread vod spartsolv(...) { for ( 0; < n_doman; ++) { make_subdoman_matrces(...); domsolve(...); put_results(...); delete_subdoman_matrces(...); } } vod spartsolv_pthread(nt threadd, nt n_doman,...) { for ( start_domd; < end_domd; ++) { make_subdoman_matrces(...); domsolve(...); put_results(...); delete_subdoman_matrces(...); } } vod* spartsolv_callback(hddm_mtargs* mtarg) { spartsolv_pthread(mtarg->threadd, mtarg->n_doman,...); return(null); } Flat MPI Pthread vod spartsolv(...) { for (thread 0; thread < NUM_THEADS; thread++) { hddm_mt_args[thread].threadd thread; hddm_mt_args[thread].n_doman n_doman;... pthread_create(&hddm_pthr[thread], NULL, (vod *)spartsolv_callback, &hddm_mt_args[thread]); } -, POSIX -, for (thread 0; thread < NUM_THEADS; thread++) - -pthread pthread_jon(hddm_pthr[thread], NULL); - #fdef _EENTANT #endf Flat MPI for (thread 0; thread < NUM_THEADS; thread++) merge_results(...); }
12 w -1 II x (1/2) (Drect solver), /, (Iteratve solver) CG,, (Storage type),, LDLt, (Storage-Free type)
13 w -1 II x (2/2) awa's classfcaton (Drect-solver-based) (Storage type) DS CG, / (Storage-Free type) DSF CG,, LDLt, / (Iteratve-solver-based) (Storage type) IS CG, PCG (Storage-Free type) ISF * awa et al., USNCCM 2009, CG,,, PCG
14 1 100, Core2Duo: Intel Core2Duo E6600 (L2 4MB), DD2 SDAM 8GB Core2Quad: Intel Core2Quad Q6600 (L2 8MB), DD2 SDAM 8GB Core 7: Intel Core (L3 8MB), DD3 SDAM 12GB Xeon: Intel Xeon E5345 (L2 8MB), FB-DIMM 32GB :, ( 1 or ) DDM : DS, DSF, ISF 1 / DDM 1 : Flat MPI
15 Core2Duo Core2Quad vs 1 (1 / Core 7 Xeon
16 Core2Duo Core2Quad vs DDM 1 Core 7 Xeon
17 2 1,200 5,000 (2,400 / ) DDM : DS, DSF, ISF : Flat MPI, Pthread MPI/ Hybrd : BDD Core7 Intel Core7 920 (2.66GHz QC, L2 256B/, L3 8MB/CPU), Intel Compler 11.1 and MPICH2-1.2 HA8000@ ITC (T2) AMD Opteron 8356 (2.3GHz QC, L2 256B/, L3 2MB/CPU) x 4 / Node, Intel Compler 11.0 and MPICH-1.2.7
18 CPU - CPU - Flat MPI MPI, Hybrd HA8000 NUMA "--cpunodebnd" CPU, "--membnd"
19 - Intel Core7 100% > 85% < 40% PC8, CPU 1,2,3,4 : Flat MPI, : -Pthread, MPI DS, DSF, ISF Matrx Storage-Free 85% CPU Matrx Storage ( 5 )
20 - ITC (T2) 16, CPU 1,2,3,4 : Flat MPI, : -Pthread, MPI DS, DSF, ISF Core7 BDD, NUMA
21 CPU Mult- CPU,, CPU,. CPU,. Many (16 Core ), ISF DS.
22 GPU FEM ( ) +, GPU FEM ( %, % (, )
23 GPU CPU Heterogeneous computng, herarchy CPU GPU,, DDM CPU+GPU GPU, CPU,,,, GPU CPU CPU DDM,
24 DDM hot spot benchmark on GPU OS CPU memory compler GPU VAM CUDA Fedora 10 Intel Core (2.67GHz) 6GB gcc verson4.2.4 NVIDIA GeForce GTX MB verson2.1 Comparson of data transfer speed CPU 25.5GB/s Matrx-vector product benchmark About 25 G flops (DP) awa et al., WCCM 2010 DDM - - GPU GPU 111.9GB/s about 30 % of peak (80Gflops) x6 faster than CPU
GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1
GPU 4 2010 8 28 1 GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 Register & Shared Memory ( ) CPU CPU(Intel Core i7 965) GPU(Tesla
More informationiphone GPGPU GPU OpenCL Mac OS X Snow LeopardOpenCL iphone OpenCL OpenCL NVIDIA GPU CUDA GPU GPU GPU 15 GPU GPU CPU GPU iii OpenMP MPI CPU OpenCL CUDA OpenCL CPU OpenCL GPU NVIDIA Fermi GPU Fermi GPU GPU
More informationuntitled
A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }
More informationuntitled
A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }
More informationHPC (pay-as-you-go) HPC Web 2
,, 1 HPC (pay-as-you-go) HPC Web 2 HPC Amazon EC2 OpenFOAM GPU EC2 3 HPC MPI MPI Courant 1 GPGPU MPI 4 AMAZON EC2 GPU CLUSTER COMPUTE INSTANCE EC2 GPU (cg1.4xlarge) ( N. Virgina ) Quadcore Intel Xeon 5570
More information07-二村幸孝・出口大輔.indd
GPU Graphics Processing Units HPC High Performance Computing GPU GPGPU General-Purpose computation on GPU CPU GPU GPU *1 Intel Quad-Core Xeon E5472 3.0 GHz 2 6 MB L2 cache 1600 MHz FSB 80 GFlops 1 nvidia
More informationVXPRO R1400® ご提案資料
Intel Core i7 プロセッサ 920 Preliminary Performance Report ノード性能評価 ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価 実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるため コアあたりのピーク性能は同じ 評価システム
More informationGPGPU
GPGPU 2013 1008 2015 1 23 Abstract In recent years, with the advance of microscope technology, the alive cells have been able to observe. On the other hand, from the standpoint of image processing, the
More information23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h
23 FPGA CUDA Performance Comparison of FPGA Array with CUDA on Poisson Equation (lijiang@sekine-lab.ei.tuat.ac.jp), (kazuki@sekine-lab.ei.tuat.ac.jp), (takahashi@sekine-lab.ei.tuat.ac.jp), (tamukoh@cc.tuat.ac.jp),
More informationGPUコンピューティング講習会パート1
GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也 スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山 TSUBAME の
More information1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU
GPGPU (I) GPU GPGPU 1 GPU(Graphics Processing Unit) GPU GPGPU(General-Purpose computing on GPUs) GPU GPGPU GPU ( PC ) PC PC GPU PC PC GPU GPU 2008 TSUBAME NVIDIA GPU(Tesla S1070) TOP500 29 [1] 2009 AMD
More informationsupercomputer2010.ppt
nanri@cc.kyushu-u.ac.jp 1 !! : 11 12! : nanri@cc.kyushu-u.ac.jp! : Word 2 ! PC GPU) 1997 7 http://wiredvision.jp/news/200806/2008062322.html 3 !! (Cell, GPU )! 4 ! etc...! 5 !! etc. 6 !! 20km 40 km ) 340km
More informationGPUコンピューティング講習会パート1
GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也 スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山 TSUBAME の
More informationrank ”«‘‚“™z‡Ì GPU ‡É‡æ‡éŁÀŠñ›»
rank GPU ERATO 2011 11 1 1 / 26 GPU rank/select wavelet tree balanced parenthesis GPU rank 2 / 26 GPU rank/select wavelet tree balanced parenthesis GPU rank 2 / 26 GPU rank/select wavelet tree balanced
More informationスライド 1
GPU クラスタによる格子 QCD 計算 広大理尾崎裕介 石川健一 1.1 Introduction Graphic Processing Units 1 チップに数百個の演算器 多数の演算器による並列計算 ~TFLOPS ( 単精度 ) CPU 数十 GFLOPS バンド幅 ~100GB/s コストパフォーマンス ~$400 GPU の開発環境 NVIDIA CUDA http://www.nvidia.co.jp/object/cuda_home_new_jp.html
More informationHP ProLiant 500シリーズ
HPProLiant5 DL58/585 HPProLiant5 4 HPProLiant5 HPProLiant5 64 HPProLiant5 TPC-H@1GB 4, 34,99 SAP SD Benchmark Users QphH@1GB 3, 2, 1, 4, 3, 2, 1, DL58 G5, Xeon X735 DL585 G5, AMD Opteron 836SE 17,12 DL58
More information2
GPU 2008/11/30 GPU GPU UniformGrid GPU CPU GeForce6 9 kd-tree GPU GPU UG kd-tree GPU CPU GPU GPU GPU I/O PCI-Express DMA DirectX9 DirectX 3D OpenGL CUDA Larrabee Mac 2008/11/28 Mac(Carbon) Carbon.framework/QuickTime.framework
More information2ndD3.eps
CUDA GPGPU 2012 UDX 12/5/24 p. 1 FDTD GPU FDTD GPU FDTD FDTD FDTD PGI Acceralator CUDA OpenMP Fermi GPU (Tesla C2075/C2070, GTX 580) GT200 GPU (Tesla C1060, GTX 285) PC GPGPU 2012 UDX 12/5/24 p. 2 FDTD
More information( CUDA CUDA CUDA CUDA ( NVIDIA CUDA I
GPGPU (II) GPGPU CUDA 1 GPGPU CUDA(CUDA Unified Device Architecture) CUDA NVIDIA GPU *1 C/C++ (nvcc) CUDA NVIDIA GPU GPU CUDA CUDA 1 CUDA CUDA 2 CUDA NVIDIA GPU PC Windows Linux MaxOSX CUDA GPU CUDA NVIDIA
More informationmain.dvi
PC 1 1 [1][2] [3][4] ( ) GPU(Graphics Processing Unit) GPU PC GPU PC ( 2 GPU ) GPU Harris Corner Detector[5] CPU ( ) ( ) CPU GPU 2 3 GPU 4 5 6 7 1 toyohiro@isc.kyutech.ac.jp 45 2 ( ) CPU ( ) ( ) () 2.1
More information1重谷.PDF
RSCC RSCC RSCC BMT 1 6 3 3000 3000 200310 1994 19942 VPP500/32PE 19992 VPP700E/128PE 160PE 20043 2 2 PC Linux 2048 CPU Intel Xeon 3.06GHzDual) 12.5 TFLOPS SX-7 32CPU/256GB 282.5 GFLOPS Linux 3 PC 1999
More informationシステムソリューションのご紹介
HP 2 C 製品 :VXPRO/VXSMP サーバ 製品アップデート 製品アップデート VXPRO と VXSMP での製品オプションの追加 8 ポート InfiniBand スイッチ Netlist HyperCloud メモリ VXPRO R2284 GPU サーバ 製品アップデート 8 ポート InfiniBand スイッチ IS5022 8 ポート 40G InfiniBand スイッチ
More informationRICCについて
RICC 1 RICC 2 RICC 3 RICC GPU 1039Nodes 8312core) 93.0GFLOPS, 12GB(mem), 500GB (hdd) DDR IB!1 PC100Nodes(800core) 9.3 GPGPU 93.3TFLOPS HPSS (4PB) (550TB) 0.24 512GB 1500GB MDGRAPE33TFLOPS MDGRAPE-3 64
More informationHP High Performance Computing(HPC)
ACCELERATE HP High Performance Computing HPC HPC HPC HPC HPC 1000 HPHPC HPC HP HPC HPC HPC HP HPCHP HP HPC 1 HPC HP 2 HPC HPC HP ITIDC HP HPC 1HPC HPC No.1 HPC TOP500 2010 11 HP 159 32% HP HPCHP 2010 Q1-Q4
More informationuntitled
taisuke@cs.tsukuba.ac.jp http://www.hpcs.is.tsukuba.ac.jp/~taisuke/ CP-PACS HPC PC post CP-PACS CP-PACS II 1990 HPC RWCP, HPC かつての世界最高速計算機も 1996年11月のTOP500 第一位 ピーク性能 614 GFLOPS Linpack性能 368 GFLOPS (地球シミュレータの前
More informationスパコンに通じる並列プログラミングの基礎
2016.06.06 2016.06.06 1 / 60 2016.06.06 2 / 60 Windows, Mac Unix 0444-J 2016.06.06 3 / 60 Part I Unix GUI CUI: Unix, Windows, Mac OS Part II 0444-J 2016.06.06 4 / 60 ( : ) 6 6 ( ) 6 10 6 16 SX-ACE 6 17
More informationmain.dvi
GameDeep GameDeep Game is (not) social /... 3 /... 11 /... 17 AMD : 2013 /... 21 GameDeep Propaganding License GameDeep GameDeep 2 Game is (not) social Not Social : 3 GameDeep 4 Game is (not) social Game
More informationMicrosoft PowerPoint - GPU_computing_2013_01.pptx
GPU コンピューティン No.1 導入 東京工業大学 学術国際情報センター 青木尊之 1 GPU とは 2 GPGPU (General-purpose computing on graphics processing units) GPU を画像処理以外の一般的計算に使う GPU の魅力 高性能 : ハイエンド GPU はピーク 4 TFLOPS 超 手軽さ : 普通の PC にも装着できる 低価格
More informationGPU n Graphics Processing Unit CG CAD
GPU 2016/06/27 第 20 回 GPU コンピューティング講習会 ( 東京工業大学 ) 1 GPU n Graphics Processing Unit CG CAD www.nvidia.co.jp www.autodesk.co.jp www.pixar.com GPU n GPU ü n NVIDIA CUDA ü NVIDIA GPU ü OS Linux, Windows, Mac
More informationIPSJ SIG Technical Report Vol.2017-HPC-158 No /3/9 OpenACC MPS 1,a) 1 Moving Particle Semi-implicit (MPS) MPS MPS OpenACC GPU 2 4 GPU NVIDIA K2
OpenACC MPS 1,a) 1 Movng Partcle Sem-mplct (MPS) MPS MPS OpenACC GPU 2 4 GPU NVIDIA K20c GTX1080 P100(PCIe) P100(NVlnk) 5 OpenACC 3.5 3 Fortran 29.0 74.5 GPU 1. MPS [1] 1 MPS MPS CUDA GPU [2] [3] [4] OpenACC
More informationTSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日
TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 目次 1. TSUBAMEのGPU 環境 2. プログラム作成 3. プログラム実行 4. 性能解析 デバッグ サンプルコードは /work0/gsic/seminars/gpu- 2011-09- 28 からコピー可能です 1.
More informationスパコンに通じる並列プログラミングの基礎
2018.09.10 furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 1 / 59 furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 2 / 59 Windows, Mac Unix 0444-J furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 3 / 59 Part I Unix GUI CUI:
More informationスパコンに通じる並列プログラミングの基礎
2018.06.04 2018.06.04 1 / 62 2018.06.04 2 / 62 Windows, Mac Unix 0444-J 2018.06.04 3 / 62 Part I Unix GUI CUI: Unix, Windows, Mac OS Part II 2018.06.04 4 / 62 0444-J ( : ) 6 4 ( ) 6 5 * 6 19 SX-ACE * 6
More informationMicrosoft PowerPoint - CCS学際共同boku-08b.ppt
マルチコア / マルチソケットノードに おけるメモリ性能のインパクト 研究代表者朴泰祐筑波大学システム情報工学研究科 taisuke@cs.tsukuba.ac.jp アウトライン 近年の高性能 PC クラスタの傾向と問題 multi-core/multi-socket ノードとメモリ性能 メモリバンド幅に着目した性能測定 multi-link network 性能評価 まとめ 近年の高性能 PC
More informationHPEハイパフォーマンスコンピューティング ソリューション
HPE HPC / AI Page 2 No.1 * 24.8% No.1 * HPE HPC / AI HPC AI SGIHPE HPC / AI GPU TOP500 50th edition Nov. 2017 HPE No.1 124 www.top500.org HPE HPC / AI TSUBAME 3.0 2017 7 AI TSUBAME 3.0 HPE SGI 8600 System
More informationEASYCOLOR!2 EASYCOLOR!3 EASYCOLOR!2 Mac OS X 版動作確認実施情報 EASYCOLOR!3(Ver 3.0.10.0) 動作確認 PC 環境 CPU GPU OS バージョン MacBook Pro (MB604J/A) Mac Pro (MC560J/A) MacBook Pro (Z0GP00520) Mac mini (MC816J/A)
More informationProLiant BL20p Generation 4 システム構成図
HP ProLiant BL p-class Server BL20p Generation 4 2007 11 15 1 OVERVIEW ProLiantBL20p Generation 4 HP BladeSystem p-class Hardware Component BladeSystem p-class BladeSystem p-class BladeSystem p-class ()
More informationHP xw9400 Workstation
HP xw9400 Workstation HP xw9400 Workstation AMD Opteron TM PCI Express x16 64 PCI Express x16 2 USB2.0 8 IEEE1394 2 8DIMM HP HP xw9400 Workstation HP CPU HP CPU 240W CPU HP xw9400 HP CPU CPU CPU CPU Sound
More informationmate10„”„õŒì4
2002.10 1 2 3 4 2 LINE UP 31w 79w 3 4 LINE UP Windows XP Windows 98 Pentium 1.70GHz Pentium 1.80GHz Pentium 2A GHz Pentium 2.40GHz Pentium 2.53GHz 0 50 100 150 200 250 Processor:Pentium 4 processor 1.50
More informationSlides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments
計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];
More informationB 2 Thin Q=3 0 0 P= N ( )P Q = 2 3 ( )6 N N TSUB- Hub PCI-Express (PCIe) Gen 2 x8 AME1 5) 3 GPU Socket 0 High-performance Linpack 1
TSUBAME 2.0 Linpack 1,,,, Intel NVIDIA GPU 2010 11 TSUBAME 2.0 Linpack 2CPU 3GPU 1400 Dual-Rail QDR InfiniBand TSUBAME 1.0 30 2.4PFlops TSUBAME 1.0 Linpack GPU 1.192PFlops PFlops Top500 4 Achievement of
More information090801OSC新潟.ppt
CEO miyahara@virtualtech.jp VirtualTech Japan Inc. VTJ 2006 12 14,250,000 1-1-10 CEO CTO 8 5.5 URL http://virtualtech.jp/ 2 1 P2V Xen 3 4 2 6 3 7 2 21 32 5 1 8 4 H/W Point!! 9 A B Phy M Phy M Phy M Phy
More information2006629 HP ProLiant 2006629 ML310 G2 376852-291 ProLiant ML310 T02 P3200-1M 51 SATA 94,000 98,700 Pentium 4 3.20GHz 51 4GB 4SATA - 2TB ML310 G2 381838-291 ProLiant ML310 T02 64 P3200-2M 51 SATA 102,000
More informationXACCの概要
2 global void kernel(int a[max], int llimit, int ulimit) {... } : int main(int argc, char *argv[]){ MPI_Int(&argc, &argc); MPI_Comm_rank(MPI_COMM_WORLD, &rank); MPI_Comm_size(MPI_COMM_WORLD, &size); dx
More informationZ8 G4 WorkstationでのANSYS19.1 Mechanical ベンチマーク結果紹介資料(フル版)
Z8 G4 Workstation での ANSYS19.1 Mechanical ベンチマーク結果紹介資料 ( フル版 ) 株式会社日本 HP サービス ソリューション事業本部技術本部クライアント技術部清水康輔 (Workstation Technical Specialist) Sep 2018 システム構成 Workstation : Z8 G4 Workstation CPU : Xeon
More informationGPUを用いたN体計算
単精度 190Tflops GPU クラスタ ( 長崎大 ) の紹介 長崎大学工学部超高速メニーコアコンピューティングセンターテニュアトラック助教濱田剛 1 概要 GPU (Graphics Processing Unit) について簡単に説明します. GPU クラスタが得意とする応用問題を議論し 長崎大学での GPU クラスタによる 取組方針 N 体計算の高速化に関する研究内容 を紹介します. まとめ
More informationEGunGPU
Super Computing in Accelerator simulations - Electron Gun simulation using GPGPU - K. Ohmi, KEK-Accel Accelerator Physics seminar 2009.11.19 Super computers in KEK HITACHI SR11000 POWER5 16 24GB 16 134GFlops,
More informationMicrosoft PowerPoint - stream.ppt [互換モード]
STREAM 1 Quad Opteron: ccnuma Arch. AMD Quad Opteron 2.3GHz Quad のソケット 4 1 ノード (16コア ) 各ソケットがローカルにメモリを持っている NUMA:Non-Uniform Access ローカルのメモリをアクセスして計算するようなプログラミング, データ配置, 実行時制御 (numactl) が必要 cc: cache-coherent
More information211 年ハイパフォーマンスコンピューティングと計算科学シンポジウム Computing Symposium 211 HPCS /1/18 a a 1 a 2 a 3 a a GPU Graphics Processing Unit GPU CPU GPU GPGPU G
211 年ハイパフォーマンスコンピューティングと計算科学シンポジウム Computing Symposium 211 HPCS211 211/1/18 GPU 4 8 BLAS 4 8 BLAS Basic Linear Algebra Subprograms GPU Graphics Processing Unit 4 8 double 2 4 double-double DD 4 4 8 quad-double
More information( ) 1,771,139 54, , ,185, , , , ,000, , , , , ,000 1,000, , , ,000
( ) 6,364 6,364 8,884,908 6,602,454 218,680 461,163 1,602,611 2,726,746 685,048 2,022,867 642,140 1,380,727 18,831 290,000 240,000 50 20. 3.31 11,975,755 1,215,755 10,760,000 11,258,918 (68) 160,000 500,000
More information電気通信大学 I 類 情報系 情報 ネットワーク工学専攻 CED 2018 システム利用ガイド ver1.2 CED 管理者 学術技師 島崎俊介 教育研究技師部 実験実習支援センター 2018 年 3 月 29 日 1 ログイン ログアウト手順について 1.1 ログイン手順 CentOS 1. モニ
電気通信大学 I 類 情報系 情報 ネットワーク工学専攻 CED 2018 システム利用ガイド ver1.2 CED 管理者 学術技師 島崎俊介 教育研究技師部 実験実習支援センター 2018 年 3 月 29 日 1 ログイン ログアウト手順について 1.1 ログイン手順 CentOS 1. モニタと端末の電源を入れる 2. GNU GRUB version 2.02 Beta2-36ubuntu3
More informationMicrosoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]
200/0/9 数値流体解析の並列効率とその GPU による高速化の試み 清水建設 ( 株 ) 技術研究所 PHAM VAN PHUC ( ファムバンフック ) 流体計算時間短縮と GPU の活用の試み 現 CPUとの比較によりGPU 活用の可能性 現 CPU の最大利用 ノード内の最大計算資源の利用 すべてCPUコアの利用 適切なアルゴリズムの利用 CPU コア性能の何倍? GPU の利用の試み
More informationuntitled
24 591324 25 0101 0002 0101 0005 0101 0009 0101 0012 0101 0013 0101 0015 0101 0029 0101 0031 0101 0036 0101 0040 0101 0041 0101 0053 0101 0055 0101 0061 0101 0062 0101 0004 0101 0006 0101 0008 0101 0012
More information26102 (1/2) LSISoC: (1) (*) (*) GPU SIMD MIMD FPGA DES, AES (2/2) (2) FPGA(8bit) (ISS: Instruction Set Simulator) (3) (4) LSI ECU110100ECU1 ECU ECU ECU ECU FPGA ECU main() { int i, j, k for { } 1 GP-GPU
More informationMATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~
MATLAB における並列 分散コンピューティング ~ Parallel Computing Toolbox & MATLAB Distributed Computing Server ~ MathWorks Japan Application Engineering Group Takashi Yoshida 2016 The MathWorks, Inc. 1 System Configuration
More information_CS6.indd
ULTIMATE PREMIUM STANDARD BIM Autodesk Building Design Suite BIM 3 Autodesk Building Design Suite Autodesk Building Design Suite Standard: DWG DWG AutoCAD Autodesk Building Design Suite Ultimate: BIM Premium
More information1 OpenCL OpenCL 1 OpenCL GPU ( ) 1 OpenCL Compute Units Elements OpenCL OpenCL SPMD (Single-Program, Multiple-Data) SPMD OpenCL work-item work-group N
GPU 1 1 2 1, 3 2, 3 (Graphics Unit: GPU) GPU GPU GPU Evaluation of GPU Computing Based on An Automatic Program Generation Technology Makoto Sugawara, 1 Katsuto Sato, 1 Kazuhiko Komatsu, 2 Hiroyuki Takizawa
More informationPowerPoint プレゼンテーション
各種計算機アプリケーション性能比較 目次. はじめに. 行列積計算.QDR 積計算 4.N 体問題計算 5. 多次元積分計算 5. 次元積分計算 5. 次元積分計算 5. 4 次元積分計算 5.4 5 次元積分計算 5.5 6 次元積分計算 平成 6 年度第 四半期 . はじめに 今までと少し性質の異なるグラフィックボードが使用できる様になったので従来のアプリケーションで性能比較を実施しました 主に使用した計算機は以下のものです
More informationSecond-semi.PDF
PC 2000 2 18 2 HPC Agenda PC Linux OS UNIX OS Linux Linux OS HPC 1 1CPU CPU Beowulf PC (PC) PC CPU(Pentium ) Beowulf: NASA Tomas Sterling Donald Becker 2 (PC ) Beowulf PC!! Linux Cluster (1) Level 1:
More informationCPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2
FFT 1 Fourier fast Fourier transform FFT FFT FFT 1 FFT FFT 2 Fourier 2.1 Fourier FFT Fourier discrete Fourier transform DFT DFT n 1 y k = j=0 x j ω jk n, 0 k n 1 (1) x j y k ω n = e 2πi/n i = 1 (1) n DFT
More informationHP Workstation 総合カタログ
HP Workstation Z HP 6 Z HP HP Z840 Workstation P.9 HP Z640 Workstation & CPU P.10 HP Z440 Workstation P.11 17.3in WIDE HP ZBook 17 G2 Mobile Workstation P.15 15.6in WIDE HP ZBook 15 G2 Mobile Workstation
More informationPowerPoint プレゼンテーション
ANSYS Mechanical Release18.1 BMT Results 作成 :2017-06-21 最終編集 :2017-07-03 項 所属 1 ご担当者 1 所属 2 ご担当者 2 ベンチマークテスト実施者 ベンチマークテスト概要 内容 株式会社 本 HP サービスソリューション事業本部技術本部クライアント技術部 清 康輔 株式会社 本 HP ワークステーションビジネス本部 橋秀樹
More informationGPGPUクラスタの性能評価
2008 年度理研 HPC シンポジウム第 3 世代 PC クラスタ GPGPU クラスタの性能評価 2009 年 3 月 12 日 富士通研究所成瀬彰 発表の概要 背景 GPGPU による高速化 CUDA の概要 GPU のメモリアクセス特性調査 姫野 BMT の高速化 GPGPU クラスタによる高速化 GPU Host 間のデータ転送 GPU-to-GPU の通信性能 GPGPU クラスタ上での姫野
More informationPRIMERGY RX300 S2 システム構成図
35 36 T Windows Server TM 2003, Standard Edition/ Windows Server TM 2003, Enterprise Edition/ Windows Server TM 2003, Standard x64 Edition/ Windows Server TM 2003, Enterprise x64 Edition/ Windows 2000
More informationHA8000/20W AA,BA, GA,EA,FA,HA Intel E7210 1way Pentium 4 (3EGHz/2.80AGHz) FSB800MHz(Pentium 4 2.80AGHz 533MHz) SDRAM ECC DDR400 (Pentium 4 2.80AGHz DDR333 )Unbuffered DIMM 4GB Intel HyperThreading 2 [Pentium
More informationViewSonic Corporation, Macintosh Power Macintosh Microsoft Windows Windows ViewSonic 3 OnView ViewMatch ViewMeter ViewSonic ViewSonic, ViewSonic
PJ-PEN-003 IR VS15219 ViewSonic Corporation, 2013. Macintosh Power Macintosh Microsoft Windows Windows ViewSonic 3 OnView ViewMatch ViewMeter ViewSonic ViewSonic, ViewSonic ViewSonic i ViewSonic ViewSonic
More informationPC Development of Distributed PC Grid System,,,, Junji Umemoto, Hiroyuki Ebara, Katsumi Onishi, Hiroaki Morikawa, and Bunryu U PC WAN PC PC WAN PC 1 P
PC Development of Distributed PC Grid System,,,, Junji Umemoto, Hiroyuki Ebara, Katsumi Onishi, Hiroaki Morikawa, and Bunryu U PC WAN PC PC WAN PC 1 PC PC PC PC PC Key Words:Grid, PC Cluster, Distributed
More information卒業論文
PC OpenMP SCore PC OpenMP PC PC PC Myrinet PC PC 1 OpenMP 2 1 3 3 PC 8 OpenMP 11 15 15 16 16 18 19 19 19 20 20 21 21 23 26 29 30 31 32 33 4 5 6 7 SCore 9 PC 10 OpenMP 14 16 17 10 17 11 19 12 19 13 20 1421
More informationuntitled
š ( ) 300,000 180,000 100,000 120,000 60,000 120,000 240,000 120,000 170,000 240,000 100,000 99,000 120,000 72,000 100,000 450,000 72,000 60,000 100,000 100,000 60,000 60,000 100,000 200,000 60,000 124,000
More information10D16.dvi
D IEEJ Transactions on Industry Applications Vol.136 No.10 pp.686 691 DOI: 10.1541/ieejias.136.686 NW Accelerating Techniques for Sequence Alignment based on an Extended NW Algorithm Jin Okaze, Non-member,
More informationHPE Moonshot System ~ビッグデータ分析&モバイルワークプレイスを新たなステージへ~
Brochure HPE Moonshot System HPE Moonshot System 4.3U 45 HPE Moonshot System Xeon & HPE Moonshot System HPE Moonshot System HPE HPE Moonshot System &IoT & SoC Xeon D-1500 Broadwell-DE HPE ProLiant m510
More information2012 M
2012 M0109218 2012 : M0109218 36 1 1 1.1............................. 1 1.2................................. 5 2 6 2.1................... 6 2.2................ 8 2.3............ 12 3 15 3.1...................
More informationHPE Moonshot System HDI ソリューション
HPE Moonshot System HDI HPE ProLiant m700p HDI Hosted Desktop Infrastructure HPE Moonshot System HPE ProLiant m700p 1 45 180 4.3U HPE Moonshot System HPE Moonshot System HDI 1 1 HPE ProLiant m700p4 PC
More informationP33W・P28X カタログ
P33WP28X Windows 10 24 FC-PM IoT 24 Windows 10Windows 7 2 FC98-NXP33WP28X PC FC-PM P33WP28X PC ACC 1 1HDD1 1 2HDD2 1 AC 1 2 USB 3 USB3.0 USB 4 USB3.0 USB 5 USB3.0 USB 6 USB3.0 USB 7 USB3.0 USB 8 USB3.0
More information次世代スーパーコンピュータのシステム構成案について
6 19 4 27 1. 2. 3. 3.1 3.2 A 3.3 B 4. 5. 2007/4/27 4 1 1. 2007/4/27 4 2 NEC NHF2 18 9 19 19 2 28 10PFLOPS2.5PB 30MW 3,200 18 12 12 SimFold, GAMESS, Modylas, RSDFT, NICAM, LatticeQCD, LANS HPL, NPB-FT 19
More informationŸ ( ) ,166,466 18,586,390 85,580,076 88,457,360 (31) 1,750,000 83,830,000 5,000,000 78,830, ,388,808 24,568, ,480 6,507,1
( ) 60,000 120,000 1,800,000 120,000 100,000 60,000 60,000 120,000 10,000,000 120,000 120,000 120,000 120,000 1,500,000 171,209,703 5,000,000 1,000,000 200,000 10,000,000 5,000,000 4,000,000 5,000,000
More informationProLiant BL460c システム構成図
HP BladeSystem c-class Server HP 2008 5 26 BLADE3.0 Web http://www.hp.com/jp/blade_fill/ 1 OVERVIEW HP 1 2 2.5 SAS H Xeon ( 2 ) (SFF)( 2 ) I/O PC2-5300 FB-DIMM DDR2-667 8 Smart E200i (Type Type 1 ) USB
More information倍々精度RgemmのnVidia C2050上への実装と応用
.. maho@riken.jp http://accc.riken.jp/maho/,,, 2011/2/16 1 - : GPU : SDPA-DD 10 1 - Rgemm : 4 (32 ) nvidia C2050, GPU CPU 150, 24GFlops 25 20 GFLOPS 15 10 QuadAdd Cray, QuadMul Sloppy Kernel QuadAdd Cray,
More informationdevelop
SCore SCore 02/03/20 2 1 HA (High Availability) HPC (High Performance Computing) 02/03/20 3 HA (High Availability) Mail/Web/News/File Server HPC (High Performance Computing) Job Dispatching( ) Parallel
More information1 4 1.1........................................... 4 1.2.................................. 4 1.3................................... 4 2 5 2.1 GPU.....
CPU GPU N Q07-065 2011 2 17 1 1 4 1.1........................................... 4 1.2.................................. 4 1.3................................... 4 2 5 2.1 GPU...........................................
More informationProLiant BL35p システム構成図
HP ProLiant BL p-class Server BL35p 2007 8 9 1 OVERVIEW HP BladeSystem p-class Hardware Component 2 BladeSystem p-class BladeSystem p-class BladeSystem p-class () 3U () 1U HP BladeSystem p-class Common
More informationGPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所 共通コードプロジェクト
GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 勉強会 @ 理化学研究所 共通コードプロジェクト Contents Hands On 環境について Introduction to GPU computing Introduction
More information統合汎用スーパーコンピュータシステムの設計状況と施設整備状況
81 200942 2142 1 A B / HPC Challenge Award 2009/4/2 1 1 2009/4/2 1 2 2009/4/2 1 3 11PB CPU 88,128 705,024 11.28PFLOPS 1.34PB 16MW 1,470 CPU 12,288 49,152 3.1PFLOPS 0.375PB 7MW 1,070 7.6PB 30PB 2MW 1000
More informationLAN LAN LAN LAN LAN LAN,, i
22 A secure wireless communication system using virtualization technologies 1115139 2011 3 4 LAN LAN LAN LAN LAN LAN,, i Abstract A secure wireless communication system using virtualization technologies
More informationFIT2013( 第 12 回情報科学技術フォーラム ) I-032 Acceleration of Adaptive Bilateral Filter base on Spatial Decomposition and Symmetry of Weights 1. Taiki Makishi Ch
I-032 Acceleration of Adaptive Bilateral Filter base on Spatial Decomposition and Symmetry of Weights 1. Taiki Makishi Chikatoshi Yamada Shuichi Ichikawa Gaussian Filter GF GF Bilateral Filter BF CG [1]
More information09中西
PC NEC Linux (1) (2) (1) (2) 1 Linux Linux 2002.11.22) LLNL Linux Intel Xeon 2300 ASCIWhite1/7 / HPC (IDC) 2002 800 2005 2004 HPC 80%Linux) Linux ASCI Purple (ASCI 100TFlops Blue Gene/L 1PFlops (2005)
More information( ) g 900,000 2,000,000 5,000,000 2,200,000 1,000,000 1,500, ,000 2,500,000 1,000, , , , , , ,000 2,000,000
( ) 73 10,905,238 3,853,235 295,309 1,415,972 5,340,722 2,390,603 890,603 1,500,000 1,000,000 300,000 1,500,000 49 19. 3. 1 17,172,842 3,917,488 13,255,354 10,760,078 (550) 555,000 600,000 600,000 12,100,000
More informationProLiant DL140 システム構成図
P ProLiant DL160 Generation 5 Storage Server 2009 11 12 1 OVERVIEW ProLiant DL160 G5 Storage Server (SATA ) ProLiant DL160 G5 Storage Server A () Xeon ( 2 ) PC2-5300 FB-DIMM(DDR2-667) DVD-ROM USB 2 / LED
More information4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司
4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 3 1 1 日本原子力研究開発機構システム計算科学センター 2 理科学研究所計算科学研究機構 3 東京大学新領域創成科学研究科
More informationSource: Intel.Config: Pentium III Processor-Intel Seattle SE440BX-2, 128MB PC100 CL2 SDRAM Intel 440BX-2 Chipset Platform- Diamond Viper 550 /
2002.1 4 1 2 3 Source: Intel.Config: Pentium III Processor-Intel Seattle SE440BX-2, 128MB PC100 CL2 SDRAM Intel 440BX-2 Chipset Platform- Diamond Viper 550 / nvidia TNT 2x AGP with 16MB memory, nvidia
More informationŸ ( ) Ÿ 7,488,161,218 7,396,414,506 91,708,605 38,107 4,376,047 2,037,557,517 1,000,000 i 200,000,000 1,697,600, ,316.63fl 306,200,000 14
Ÿ ( ) (Ÿ ) Ÿ J lllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll ¾ 17 18. 3.30 24,222,550,856 8,088,715,093 16,133,835,763 14,673,176,237 (400,000) 1,265,253,000 201,000,000 1,000,000 200,000,000
More informationPentium 4
Pentium 4 Pentium 4... 2... 2... 2... 3... 3... 3... 3... 4 TMPGEnc Plus2.5 Ver.2.59... 5... 8... 9... 9 VTune TM... 9 C++/Fortran... 9 1 Pentium 4 HT Xeon TM Pentium 4 3.06GHz HT Pentium 4 NetBurst TM
More informationHP Workstation Xeon 5600
HP Workstation Xeon 5600 HP 2 No.1 HP 5 3 Z 2No.1 HP :IDC's Worldwide Quarterly Workstation Tracker, 2009 Q4 14.0in Wide HP EliteBook 8440w/CT Mobile Workstation 15.6in Wide HP EliteBook 8540w Mobile Workstation
More informationlll
lll HA8000/30W アーキテクチャー HA8000/30W A8,B8,C8 Intel Intel845 Pentium 4(2.60GHz/2.40GHz) celeron (2.0GHz) Intel Intel845 1way 2GB Pentium 4 Celeron CPU Host Bus 64bit Bus:400MHz:MAX 3.2GB/s PCI AGP (Intel845)
More informationベンチマークテスト性能情報 ANSYS Mechanical on GPGPU
ベンチマークテスト性能情報 ANSYS Mechanical on GPGPU HPC(High Performance Computing) 分野で注目を集めている GPU コンピューティングボード ( グラフィックスチップを利用した汎用的計算用ボード ) による性能検証結果をご報告いたします 211/7/11 より発売するハイエンドワークステーション CELSIUS R67-2 には 本資料に掲載する
More informationUser's Guide
magicolor 2300 DL 1800687-014B magicolor 2300 DL Windows TCP/IP Web URL http://www.minolta-qms.co.jp/support/userreg/index.html QMS MINOLTA-QMS magicolor MINOLTA-QMS, Inc. Minolta Peerless Systems Corporation
More informationProLiant BL25p Generation 2システム構成図
HP ProLiant BL p-class Server BL25p Generation 2 2007 11 15 1 OVERVIEW ProLiant BL25p Generation 2 HP BladeSystem p-class Hardware Component BladeSystem p-class BladeSystem p-class BladeSystem p-class
More informationAbstract The purpose of this study is to reveal an effective video effects in Projection Mapping event. So, I made a Projection Mapping event in Old P
25 b1010175 2014 1 31 Investigation of video effects in Projection Mapping by Advisor: Kazushi MUKAIYAMA Department of Media Architecture Future University Hakodate January 31, 2014 Abstract The purpose
More information