THE PARALLEL Issue UNIVERSE James Reinders Parallel Building Blocks: David Sekowski Parallel Studio XE Cluster Studio Sanjay Goil John McHug
|
|
|
- うのすけ さわなか
- 6 years ago
- Views:
Transcription
1 THE PARALLEL Issue UNIVERSE James Reinders Parallel Building Blocks: David Sekowski Parallel Studio XE Cluster Studio Sanjay Goil John McHugh
2 JAMES REINDERS 3 Parallel Studio XE Cluster Studio SANJAY GOIL JOHN MCHUGH 5 Parallel Studio XE Cluster Studio Windows* Linux* C/C++ Fortran Parallel Building Blocks: DAVID SEKOWSKI 17 3 TBB Cilk Plus Array Building Blocks ArBB Array Building Blocks MICHAEL MCCOOL 23 Array Building Blocks ArBB SIMD MKL GREG HENRY SHANE STORY 29 MKL hotspot Print : DON GUNNING NICK MENG PAUL BESL 31 / print 2010 Intel Corporation. Intel Intel Intel Core Itanium Xeon Intel Corporation * 2
3 James Reinders Intel Threading Building Blocks: Outfitting C++ for Multicore Processor Parallelism Parallel Universe 1 SIMD 2010 / 3
4 Parallel Studio XE Cluster Studio 2 Parallel Studio XE C C++ Fortran Cluster Studio MPI C C++ Fortran 12.0 VTune MPI C/C++ Parallel Building Blocks Co-Array Fortran.NET Parallel Studio XE Linux* Windows* Composer XE VTune Amplifier XE Inspector XE Cluster Studio Linux* Windows* Composer XE MPI MPI / OpenMP* MPI Co-Array Fortran MKL IPP TBB Cilk Plus Array Building Blocks ArBB Parallel Building Blocks PBB Parallel Building Blocks Fortran MKL / Intel Inspector XE: An essential tool during development along with Intel Composer XE Inspector XE: Composer XE Inspector XE hotspot hotspot VTune Amplifier XE MPI MPI On a path to petascale with commodity clusters and Intel MPI MPI HPC MPI / Parallel Studio XE Cluster Studio JAMES REINDERS
5 Parallel Studio XE Cluster Studio Sanjay Goil John McHugh 5
6 Parallel Studio XE 2011 Composer XE Inspector XE VTune Amplifier XE Parallel Studio 2011 Microsoft* Visual Studio* Windows* C++ Parallel Building Blocks PBB C/C++ Windows*/Linux* C/C++ Fortran Parallel Studio XE 2011 C/C++ Fortran MKL IPP PBB TBB Cilk Plus ArBB Inspector XE / VTune Amplifier XE HPC 10 HPC Cluster Studio MPI HPC MPI / C/C++ Fortran 1 / 1 IA MPI HPC HPC 2 / 6
7 Composer XE C/C++ Fortran > / Inspector XE / > VTune Amplifier XE > 2 Parallel Studio XE 2011 > : Parallel Studio XE Windows* Linux* Mac OS* X C/C++ Fortran > : Inspector XE / > : VTune Amplifier XE MKL IPP / > : Parallel Studio XE > : Composer XE AVX C/ C++ PBB Fortran Fortran 2008 Co-Array Fortran > : Parallel Studio XE 1 hotspot / 7
8 Composer XE C++ C++ XE Visual Fortran Visual Fortran Composer XE Visual Fortran IMSL* Visual Fortran Composer XE IMSL* VTune VTune Amplifier XE Inspector XE Cluster Studio 3 Parallel Studio XE 2011 Windows*/Linux* x86 C/C++ Fortran 3 8
9 Parallel Studio XE 2011 Windows* C++ Cilk Plus Parallel Studio XE 2011 BR&E Inc. Jorge Martinis 4 SIMD 5 9
10 hotspot BlueJeans Network IPP 7.0 / IPP IPP 7.0 CPU BlueJeans Network Emmanuel Weber 6 Composer XE Composer XE C/C++ Fortran (v12.0) MKL 10.3 IPP 7.0 TBB C/C++ C++ XE 12.0 AVX Sandy Bridge PBB Cilk Plus TBB ArBB 4 AVX SIMD x86 (GAP) Windows* Visual Studio* 2010 Fortran XE 12.0 x86 Fortran 2003 Fortran 2008 (Co-Array Fortran AVX ) 5 / MKL 10.3 AVX LAPACK C IPP 7.0 AVX AES 10
11 Inspector XE > Inspector XE 2011 OTRADA Inc. CEO CTO Alex Migdalski 7 / Parallel Studio XE 2011 Parallel Studio Linux* Windows* Windows* Linux* 6 Inspector XE / 7 / / C/C++ Fortran Inspector XE / : > > > > > > Windows*/Linux* GUI > 11
12 8 VTune Amplifier XE - hotspot > > CPU VTune Amplifier XE - VTune Amplifier XE 2011 VTune... > > {+} 9 VTune Amplifier XE 2011 VTune Windows*/Linux* 8 9 VTune : > > hotspot > > > > Windows* > > > > Visual Studio > root (Linux*) > EBS root 12
13 Inspector XE - > > (SSA) SSA Envivio Mikael Le Guerroue Parallel Studio XE 10 Parallel Studio XE Parallel Studio XE (SSA) > > > > 250 > > > > Windows*/Linux* GUI 13
14 Linux* Windows* Windows* Linux* C/C++ Parallel Building Blocks C/C++ Co-Array Fortran (CAF) Fortran 2008 Fortran Fortran Cluster Studio 2011 Fortran 1 GUI 11 Cluster Studio > Composer XE > MPI > / HPC Cluster Studio 2011 IA MPI MPI 4.0 / 8.0 MPI C/C++ Fortran MKL 10.3 IPP 7.0 PBB Composer XE Cluster Studio 2011 Co-Array Fortran (CAF) (ICR) IA (TCO) Cluster Studio 2011 MPI MPI OpenMP* PBB Cluster Studio 2011 C/C++ Fortran Linux* Windows* 1 14
15 PO 12 / > > > > hotspot Cluster Studio 2011 > : MPI > : Composer XE C/C++ PBB Fortran Fortran 2008 Co-Array Fortran SIMD > MPI : / MPI > : Windows* Linux* > : IA HPC (TCO) > : Cluster Studio
16 MPI MPI InfiniBand* (IB) MPI MPI 1 InfiniBand (IB) C/C++ Parallel Building Blocks SMP C/ C++ Coarray Fortran (CAF) Fortran 2008 Fortran Linux* Windows* Fortran Fortran 2008 Fortran 2003 MKL IPP Linux* Windows* Windows* Linux* 13 Parallel Studio XE Cluster Studio Windows* Linux* C/C++ Fortran Parallel Studio XE 2011 C/C++ Fortran MKL IPP PBB TBB Cilk Plus ArBB Inspector XE / VTune Amplifier XE Cluster Studio 2011 MPI / C/C++ Fortran MKL IPP PBB TBB Cilk Plus ArBB : 16
17 Parallel Building Blocks David Sekowski 17
18 : 5 C++ TBB Adobe* TBB TBB Parallel Building Blocks PBB > > HPC Andy Grove Only the Paranoid Survive 1 / CPU / > > CPU > > > 1 1 > 1 > 18
19 1 / MPI 3 2 AI I/O for for ( ) : SIMD (Single Instruction Multiple Data) & SIMD
20 2 : (1) (2) 3 OS 3 ( ) 20
21 Parallel Building Blocks - OS - Parallel Amplifier Parallel Inspector OS HW IDE 4 OpenMP* OpenCL OpenMP* Fortran C OpenMP* OpenMP* Web OpenMP* Parallel Building Blocks TBB TBB C++ TBB API TBB (1) (2) Cilk Plus Array Building Blocks ArBB 5 Cilk Plus C/C++ C/C
22 TBB Cilk Plus Windows* Microsoft* C++ Linux* GCC Cilk ++ SDK ArBB intel-array-building-blocks 5 ArBB Ct TBB C++ JIT CPU C++ ArBB ArBB 3 TBB Cilk Plus ArBB Parallel Building Blocks PBB Parallel Studio 2011 Parallel Studio XE 2011 PBB ArBB Ct TBB C++ 22
23 Array Michael McCool Building Blocks
24 Array Building Blocks ArBB Parallel Building Blocks ArBB Microsoft* GNU C++ ArBB Windows* Linux* ArBB?? ArBB SIMD ArBB API SIMD 2 SIMD SIMD SIMD SIMD Parallel Building Blocks PBB SIMD SIMD SSE 1 SSE 4 AVX SIMD 8 (MIC) SIMD 16 24
25 Parallel Building Blocks PBB 3 SIMD SIMD 2 1 SIMD 2 SIMD SSE AVX MIC AVX SSE SSE AVX 2 1 C++ 1 SSE AVX AVX SIMD SIMD SIMD C/C++ Parallel Building Blocks PBB 3 1 MKL IPP 2 1 C/C++ Cilk Plus C/C++ 2 ArBB ArBB C++ API ISO C++ C++ - C/C++ ArBB ArBB ArBB C++ API ArBB C++ float) integer) f32 i32 32 C++ ArBB dense<t,d> T D D 1 T ArBB ArBB 25
26 ArBB 2 A B C D 4 dense<f32> A += (B/C) * D; ArBB call void doit(dense<f32>& A, dense<f32> B, dense<f32> C, dense<f32> D) { A += (B/C) * D; }... call(doit)(a,b,c,d); call 1 ArBB call C++ ArBB C++ C++ ArBB ArBB ArBB call capture call C++ ArBB call BLOG highlights Cilk Plus ABI JAMES REINDERS Cilk Plus Cilk Plus ABI cilk.com Cilk Plus Windows* Linux* Cilk Plus Cilk Plus 2009 Cilk Arts JAMES Go-Parallel.com Go Parallel : Translating Multicore Power into Application Performance 26
27 void doit dense<f32>& A, f32 b, f32 c, dense<f32> D) { map(kernel)(a, b, c, D); } call(doit)(a,b,c,d); ArBB void kernel(f32& a, f32 b, f32 c, f32 d) { a += (b/c)*d; } kernel b c f32 kernel A D b c call map 2 ArBB prefix scan) / / ) A B map call map f32 A _ dot _ B = add _ reduce A * B); void doit(dense<f32>& A, dense<f32> B, dense<f32> C, dense<f32> D) { map(kernel)(a, B, C, D); } call(doit)(a,b,c,d); C++ 1 ArBB ArBB 27
28 capture ArBB C++ ArBB (_end_for ) _for (;) (,) ArBB / ArBB STL bind ArBB C++ call doit map ArBB int max _ count = MAX _ COUNT; void mandel(i32& d, std::complex<f32> c) { i32 i; std::co m plex<f32> z = 0.0f; _ for (i = 0, i < max _ count, i++) { _ if (abs z) >= 2.0f) { _ break; } _ end _ if; z = z*z + c; } _ end _ for; d = i; } v o i d doit(dense<i32,2>& D, dense<std::co m plex<f32>,2> P) { map(mandel)(d,p); } dense<std::co m plex<f32>,2> pos; bind(pos, c _ pos, cols, rows) dense<i32,2> dest; bind(dest, c _ dest, cols, rows) call(doit)(dest, pos); Array Building Blocks ArBB ArBB ArBB C++ C++ ArBB ArBB std::complex ArBB C++ max_count call 28
29 MKL MKL Greg Henry Shane Story MKL MKL hotspot MKL BLAS (Basic Linear Algebra Subroutines) LAPACK (Linear Algebra PACKage) (FFT) (VML) (VSL) (PARDISO) BLAS MKL ScaLAPACK BLAS (PBLAS) FFT IA-32/ 64 AMD* Linux* Windows* Mac OS* X MKL DGEMM BLAS MKL MKL Core 2 Duo Core i7 MKL MKL OpenMP* LAPACK BLAS BLAS VML FFT FFT LAPACK BLAS LAPACK MKL 29
30 MKL OpenMP* MKL MKL_NUM_THREADS OpenMP* MKL MKL OpenMP* MKL OpenMP* / OpenMP* OpenMP* MKL MKL Microsoft* GNU OpenMP* OpenMP* MKL_DOMAIN_NUM_THREADS mkl_domain_set_num_threads() MKL MKL 2 BLAS 4 MKL_ALL=2, MKL_BLAS=4 Cilk Plus TBB pthreads (Linux*) OpenMP* MKL MKL MKL_NUM_THREADS 1 MKL LAPACK BLAS LAPACK BLAS BLAS LAPACK DGETRF BLAS LAPACK (MPI) MKL MP LINPACK (DGETRF ) MPI-OpenMP* 1 1 MPI OpenMP* MPI MKL OpenMP* MPI MKL 1 OpenMP* 1 OpenMP* MKL MKL MKL_DYNAMIC FALSE TRUE mkl_set_dynamic() FFT 2 MKL Web : [BLAS] [LAPACK] [MKL] [MPI] [MPI] [OPENMP] [SCALAPACK] 30
31 print : Don Gunning Nick Meng Paul Besl MPI 4.0 / / print MPI % LSTC dyna 1,500 fluent 3, / ISV
32 (H) k 5k 7.5k 10k 15k 20k 1. source /opt/intel/itac/ /bin/itacvars.sh export LD _ PRELOAD=/opt/intel/itac/ /slib/libVT.so # 8p run runexec small _ model.pre -np 8 --mpi-options -trace --machines-file $PBS _ NODEFILE #256p run runexec large _ model.pre -np mpi-options -trace --machines-file $PBS _ NODEFILE / MPI trace mpi-options trace ITAC / STF P0 P1 P7 P0 P1 32
33 MPI BCAST 2. / MPI MPI : [ ] : [ ] MPI BCAST 3. / MPI MPI : : 33
34 4. / 256 : MPI : 5. / MPI MPI 3 MPI_Bcast MPI MPI MPI 6 7 MPI_BCAST 6 7 MPI MPI 34
35 6. / / : MPI : MPI / 35
36 MPI 4 MPI MPI MPI _BCAST MPI_BCAST MPI_BCAST I_MPI_ADJUST_BCAST=4 / ISV 64 Livermore Software Technology Corporation (LSTC) LSTC OpenMP* MPI / LSTC DYNA : LSTC LS-DYNA 1, LSTC DEVELOPER SPOTLIGHT & UNIX System V (ISS) IA 32 IA IA 32 IA ERP Sparc* Sun* Solaris* IA Linux* Larrabee Larrabee IA-32 Itanium Larrabee 36
37 8. / 4 9. /
38 Xeon Xeon MPP (MPI) MPI OpenMP* LSTC CYL1E6 : LSTC / print 100 MPP DYNA MPI LSTC / 8 9 MPI OpenMP* MPI MPI MPI 100 : LSTC LS DYNA MPP DYNA HYBRID LS-DYNA > OpenMP* MPI 1 OpenMP* LS-DYNA > MPI I/O 10 38
39 11. / MPI_BCAST MPI MPI_RECV 12. /
40 13. / ITAC MPI 4.0 HYBRID LS-DYNA 100 / MPI_RECV MPI_BCAST / MPI_RECV 40
41 SIMD SIMD 2 SSE2 SIMD 3 SSE3 SIMD 3 (SSSE3) # Web
インテル(R) Visual Fortran Composer XE
Visual Fortran Composer XE 1. 2. 3. 4. 5. Visual Studio 6. Visual Studio 7. 8. Compaq Visual Fortran 9. Visual Studio 10. 2 https://registrationcenter.intel.com/regcenter/ w_fcompxe_all_jp_2013_sp1.1.139.exe
Intel_ParallelStudioXE2013_ClusterStudioXE2013_Introduction.pptx
Parallel Studio XE 2013 Cluster Studio XE 2013 ) ( Intel s Terms and Conditions of Sale Sandy Bridge SYSmark MobileMark http://www.intel.com/performance/ Intel Intel Intel Atom Intel Core Intel Xeon Phi
DPD Software Development Products Overview
2 2007 Intel Corporation. Core 2 Core 2 Duo 2006/07/27 Core 2 precise VTune Core 2 Quad 2006/11/14 VTune Core 2 ( ) 1 David Levinthal 3 2007 Intel Corporation. PC Core 2 Extreme QX6800 2.93GHz, 1066MHz
インテル® VTune™ パフォーマンス・アナライザー 9.1 Windows* 版
VTune 9.1 Windows* ................................. 3...................... 3.................................................. 3............................................ 4 :.........................4................................................
製品価格 ( 新規購入 ) INT6531 インテル VTune Amplifier XE 2017 for Windows Floating 1-275, ,000 INT6532 インテル VTune Amplifier XE 2017 for Linux Floating 1-27
製品価格 ( 新規購入 ) INT6499 インテル Parallel Studio XE 2017 Cluster Edition for Windows Floating 2- INT6500 インテル Parallel Studio XE 2017 Cluster Edition for Windows Floating 5-2,478,000 2,676,240 INT6501 インテル Parallel
インテル(R) C++ Composer XE 2011 Windows版 入門ガイド
C++ Composer XE 2011 Windows* エクセルソフト株式会社 www.xlsoft.com Rev. 1.2 (2011/05/03) Copyright 1998-2011 XLsoft Corporation. All Rights Reserved. 1 / 70 ... 4... 5... 6... 8 /... 8... 10 /... 11... 11 /... 13
インテル(R) Visual Fortran Composer XE 2013 Windows版 入門ガイド
Visual Fortran Composer XE 2013 Windows* エクセルソフト株式会社 www.xlsoft.com Rev. 1.1 (2012/12/10) Copyright 1998-2013 XLsoft Corporation. All Rights Reserved. 1 / 53 ... 3... 4... 4... 5 Visual Studio... 9...
Contents Windows* /Linux* C++/Fortran... 3 Microsoft* embedded Visual C++* C Microsoft* Windows* CE.NET Platform Builder C IP
Windows*/Linux* VTune TM Contents... 1... 2 Windows* /Linux* C++/Fortran... 3 Microsoft* embedded Visual C++* C++... 9 Microsoft* Windows* CE.NET Platform Builder C++... 11 IPP... 13 PCA IPP... 15 GPP...
インテルソウトウェア開発製品アカデミック版特定ユーザーライセンス標準価格表 株式会社アークブレイン 2016 年 5 月 10 日 ~ 製品型番 アカデミック版特定ユーザーライセンス 税別標準価格 税込標準価格 INT5744 インテル Parallel Studio XE 2016 Cluster
インテルソウトウェア開発製品アカデミック版特定ユーザーライセンス標準価格表 株式会社アークブレイン 2016 年 5 月 10 日 ~ アカデミック版特定ユーザーライセンス INT5744 インテル Parallel Studio XE 2016 Cluster Edition 273,000 for 294 Win INT5745 インテル Parallel Studio XE 2016 Cluster
製品型番 商用版特定ユーザーライセンス INT7001 インテル System Studio 2018 FreeBSD \163,080 INT6673 インテル Media Server Studio 2017 Essentials \84,000 \90,720 Edit INT6674 インテ
インテルソウトウェア開発製品 2018 (C++ Fotran コンパイラ ) 商用版特定ユーザーライセンス標準価格表 株式会社アークブレイン 2017 年 12 月 7 日 ~ 製品型番 商用版特定ユーザーライセンス INT6759 インテル Parallel Studio XE 2018 Cluster \495,000 \534,600 Edition INT6760 インテル Parallel
FFTSS Library Version 3.0 User's Guide
: 19 10 31 FFTSS 3.0 Copyright (C) 2002-2007 The Scalable Software Infrastructure Project, (CREST),,. http://www.ssisc.org/ Contents 1 4 2 (DFT) 4 3 4 3.1 UNIX............................................
アカ版特定ユーザーライセンス INT7006 INT7007 INT7008 INT6685 インテル System Studio 2018 Ultimate on \217,080 r インテル System Studio 2018 Ultimate on \217,080 r インテル Syst
インテルソウトウェア開発製品 2018 (C++ Fotran コンパイラ ) アカ版特定ユーザーライセンス標準価格表 株式会社アークブレイン 2017 年 12 月 7 日 ~ 製品型番 アカ版特定ユーザーライセンス INT6794 インテル Parallel Studio XE 2018 Cluster \252,000 \272,160 on INT6795 インテル Parallel Studio
01_OpenMP_osx.indd
OpenMP* / 1 1... 2 2... 3 3... 5 4... 7 5... 9 5.1... 9 5.2 OpenMP* API... 13 6... 17 7... 19 / 4 1 2 C/C++ OpenMP* 3 Fortran OpenMP* 4 PC 1 1 9.0 Linux* Windows* Xeon Itanium OS 1 2 2 WEB OS OS OS 1 OS
Second-semi.PDF
PC 2000 2 18 2 HPC Agenda PC Linux OS UNIX OS Linux Linux OS HPC 1 1CPU CPU Beowulf PC (PC) PC CPU(Pentium ) Beowulf: NASA Tomas Sterling Donald Becker 2 (PC ) Beowulf PC!! Linux Cluster (1) Level 1:
Microsoft Word - w_mkl_build_howto.doc
MKL 10.0 2007/12/18 XLsoft - 2 - 1....- 4-2. MKL...- 4-3....- 5-3-1....- 5-3-1-1. Microsoft Visual C++ 2005...- 5-3-1-2. C/C++...- 9-3-1-3. Fortran...- 11-3-2. Microsoft Visual Studio...- 13-3-2-1. Microsoft
HP High Performance Computing(HPC)
ACCELERATE HP High Performance Computing HPC HPC HPC HPC HPC 1000 HPHPC HPC HP HPC HPC HPC HP HPCHP HP HPC 1 HPC HP 2 HPC HPC HP ITIDC HP HPC 1HPC HPC No.1 HPC TOP500 2010 11 HP 159 32% HP HPCHP 2010 Q1-Q4
HP Workstation 総合カタログ
HP Workstation E5 v2 Z Z SFF E5 v2 2 HP Windows Z 3 Performance Innovation Reliability 3 HPZ HP HP Z820 Workstation P.11 HP Z620 Workstation & CPU P.12 HP Z420 Workstation P.13 17.3in WIDE HP ZBook 17
hotspot の特定と最適化
1 1? 1 1 2 1. hotspot : hotspot hotspot Parallel Amplifier 1? 2. hotspot : (1 ) Parallel Composer 1 Microsoft* Ticker Tape Smoke 1.0 PiSolver 66 / 64 / 2.76 ** 84 / 27% ** 75 / 17% ** 1.46 89% Microsoft*
HPEハイパフォーマンスコンピューティング ソリューション
HPE HPC / AI Page 2 No.1 * 24.8% No.1 * HPE HPC / AI HPC AI SGIHPE HPC / AI GPU TOP500 50th edition Nov. 2017 HPE No.1 124 www.top500.org HPE HPC / AI TSUBAME 3.0 2017 7 AI TSUBAME 3.0 HPE SGI 8600 System
MKL10.3 Win_UsageGuide
Intel Math Kernel Library Version 11.1 (Windows 版 ) ~ 活 用 ガイド~ 2014 年 8 月 8 日 作 成 版 インテル MKL について 最 適 化 各 世 代 のインテル プロセッサーがサポートする 拡 張 命 令 セット(SSE また はインテル AVX など)の 使 用 キャッシュメモリの 活 用 など 実 行 環 境 に 応 じて 適
製品型番 アカデミック版フローティング ライセンス インテル Parallel Studio XE 2018 Composer INT6991 \232,000 \250,560 Floating 2-Pack アカデミック日本語版インテル Parallel Studio XE 2018 Compo
インテルソウトウェア開発製品 2018 株式会社アークブレイン (C++ Fotran コンパイラ ) 2017 年 12 月 7 日 ~ アカデミック版フローティング ライセンス標準価格表 製品型番 アカデミック版フローティング ライセンス INT6874 インテル Parallel Studio XE 2018 Cluster 1,243,000 \1,342,440 Pack アカデミック INT6875
v10 IA-32 64¹ IA-64²
v10 IA-32 64¹ IA-64² 1. 2. 3. 4. 5. 6. /Od (-O0) Windows* /O1 /O2 /O3 Linux* Mac OS* -O1 -O2 -O3 /O2 ( O2) /O3 (-O3) IA-64 Core 2 /QxT ( xt) IA-32 64 IA-32 64 Itanium 2 9000 /G2-p9000 ( mtune=itanium2-p9000)
HP High Performance Computing(HPC)
HP High Performance Computing HPC HPC HPC HPC HPC 1000 HPHPC HPC HP HPC HPC HPCHP HPC HP HPHPC HPC HP HPC HP IT IDCHP HPC 4 1 HPC HPCNo.1 HPCTOP5002008 6 HP 183 37% HP HPCHP B 1 Other 2Q08 HPC 2 20% 27%
XcalableMP入門
XcalableMP 1 HPC-Phys@, 2018 8 22 XcalableMP XMP XMP Lattice QCD!2 XMP MPI MPI!3 XMP 1/2 PCXMP MPI Fortran CCoarray C++ MPIMPI XMP OpenMP http://xcalablemp.org!4 XMP 2/2 SPMD (Single Program Multiple Data)
Intel® Compilers Professional Editions
2007 6 10.0 * 10.0 6 5 Software &Solutions group 10.0 (SV) C++ Fortran OpenMP* OpenMP API / : 200 C/C++ Fortran : OpenMP : : : $ cat -n main.cpp 1 #include 2 int foo(const char *); 3 int main()
C/C++ FORTRAN FORTRAN MPI MPI MPI UNIX Windows (SIMD Single Instruction Multipule Data) SMP(Symmetric Multi Processor) MPI (thread) OpenMP[5]
MPI ( ) [email protected] 1 ( ) MPI MPI Message Passing Interface[2] MPI MPICH[3],LAM/MPI[4] (MIMDMultiple Instruction Multipule Data) Message Passing ( ) (MPI (rank) PE(Processing Element)
09中西
PC NEC Linux (1) (2) (1) (2) 1 Linux Linux 2002.11.22) LLNL Linux Intel Xeon 2300 ASCIWhite1/7 / HPC (IDC) 2002 800 2005 2004 HPC 80%Linux) Linux ASCI Purple (ASCI 100TFlops Blue Gene/L 1PFlops (2005)
スパコンに通じる並列プログラミングの基礎
2018.09.10 [email protected] ( ) 2018.09.10 1 / 59 [email protected] ( ) 2018.09.10 2 / 59 Windows, Mac Unix 0444-J [email protected] ( ) 2018.09.10 3 / 59 Part I Unix GUI CUI:
HP Workstation 総合カタログ
HP Workstation Z HP 6 Z HP HP Z840 Workstation P.9 HP Z640 Workstation & CPU P.10 HP Z440 Workstation P.11 17.3in WIDE HP ZBook 17 G2 Mobile Workstation P.15 15.6in WIDE HP ZBook 15 G2 Mobile Workstation
Introducing Intel® Parallel Studio XE 2015
インテル Parallel Studio XE 205 の概要 James Reinders インテルコーポレーションのソフトウェア エバンジェリスト兼ディレクター [email protected] 高速なコードを迅速に開発インテル Parallel Studio XE 205 高速なコード 明示的なベクトル プログラミングでより多くのコードをスピードアップ インテル Xeon
ストリーミング SIMD 拡張命令2 (SSE2) を使用した SAXPY/DAXPY
SIMD 2(SSE2) SAXPY/DAXPY 2.0 2000 7 : 248600J-001 01/12/06 1 305-8603 115 Fax: 0120-47-8832 * Copyright Intel Corporation 1999, 2000 01/12/06 2 1...5 2 SAXPY DAXPY...5 2.1 SAXPY DAXPY...6 2.1.1 SIMD C++...6
IBM PureData
IBM Software Information Management IBM PureData System for Analytics 2 IBM PureData System for Analytics 2 2 3 2 5 - S-Blade 6 S-Blade - IBM FAST 7 7 8 10 11 11 IBM PureData System for Analytics 11 IBM
! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2
! OpenCL [Open Computing Language] 言 [OpenCL C 言 ] CPU, GPU, Cell/B.E.,DSP 言 行行 [OpenCL Runtime] OpenCL C 言 API Khronos OpenCL Working Group AMD Broadcom Blizzard Apple ARM Codeplay Electronic Arts Freescale
スパコンに通じる並列プログラミングの基礎
2016.06.06 2016.06.06 1 / 60 2016.06.06 2 / 60 Windows, Mac Unix 0444-J 2016.06.06 3 / 60 Part I Unix GUI CUI: Unix, Windows, Mac OS Part II 0444-J 2016.06.06 4 / 60 ( : ) 6 6 ( ) 6 10 6 16 SX-ACE 6 17
スパコンに通じる並列プログラミングの基礎
2018.06.04 2018.06.04 1 / 62 2018.06.04 2 / 62 Windows, Mac Unix 0444-J 2018.06.04 3 / 62 Part I Unix GUI CUI: Unix, Windows, Mac OS Part II 2018.06.04 4 / 62 0444-J ( : ) 6 4 ( ) 6 5 * 6 19 SX-ACE * 6
64bit SSE2 SSE2 FPU Visual C++ 64bit Inline Assembler 4 FPU SSE2 4.1 FPU Control Word FPU 16bit R R R IC RC(2) PC(2) R R PM UM OM ZM DM IM R: reserved
(Version: 2013/5/16) Intel CPU ([email protected]) 1 Intel CPU( AMD CPU) 64bit SIMD Inline Assemler Windows Visual C++ Linux gcc 2 FPU SSE2 Intel CPU double 8087 FPU (floating point number processing unit)
倍々精度RgemmのnVidia C2050上への実装と応用
.. [email protected] http://accc.riken.jp/maho/,,, 2011/2/16 1 - : GPU : SDPA-DD 10 1 - Rgemm : 4 (32 ) nvidia C2050, GPU CPU 150, 24GFlops 25 20 GFLOPS 15 10 QuadAdd Cray, QuadMul Sloppy Kernel QuadAdd Cray,
SAP Solution in Detail SAP Business One SAP Business One 1 SAP Business One 5 SAP Business One 5 1 5 5 5 6 6 SAP Business One 6 / 6 / 6 / 7 / 7 / 7 / 7 SAP Business One 8 8 9 9 CRM 9 CRM 10 10 SAP Business
( CUDA CUDA CUDA CUDA ( NVIDIA CUDA I
GPGPU (II) GPGPU CUDA 1 GPGPU CUDA(CUDA Unified Device Architecture) CUDA NVIDIA GPU *1 C/C++ (nvcc) CUDA NVIDIA GPU GPU CUDA CUDA 1 CUDA CUDA 2 CUDA NVIDIA GPU PC Windows Linux MaxOSX CUDA GPU CUDA NVIDIA
[email protected] No1 No2 OS Wintel Intel x86 CPU No3 No4 8bit=2 8 =256(Byte) 16bit=2 16 =65,536(Byte)=64KB= 6 5 32bit=2 32 =4,294,967,296(Byte)=4GB= 43 64bit=2 64 =18,446,744,073,709,551,615(Byte)=16EB
untitled
A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }
π-VizStudio User Manual
-VizStudio User Manual 2018-07-26 -CAVE -VizStudio () -CAVE -VizStudio User Manual -VizStudio -CAVE -VizStudio User Manual -VizStudio -VizStudio Manual -VizStudio -CAVE -VizStudio Admin Manual -CAVE -VizStudio
WinDriver を使用して、簡単にデバイス ドライバを作成
WinDriver Jungo WinDriver OS 1 2 OS WinDriver OS Windows Linux Solaris VxWorks OS WinDriver ( ) Web http://www.xlsoft.com/jp/products/downloa d/ WinDriver Ring-0 API I/O PCI/ISA USB 1 WinDriver 1. WinDriver
WinHPC ppt
MPI.NET C# 2 2009 1 20 MPI.NET MPI.NET C# MPI.NET C# MPI MPI.NET 1 1 MPI.NET C# Hello World MPI.NET.NET Framework.NET C# API C# Microsoft.NET java.net (Visual Basic.NET Visual C++) C# class Helloworld
Microsoft PowerPoint - sales2.ppt
最適化とは何? CPU アーキテクチャに沿った形で最適な性能を抽出できるようにする技法 ( 性能向上技法 ) コンパイラによるプログラム最適化 コンパイラメーカの技量 経験量に依存 最適化ツールによるプログラム最適化 KAP (Kuck & Associates, Inc. ) 人によるプログラム最適化 アーキテクチャのボトルネックを知ること 3 使用コンパイラによる性能の違い MFLOPS 90
Dell Precision CADCG Dell Precision if 2012 if2012 T7600T5600T36003 ISV 2
Dell Precision T7600 T5600 T3600 T1650 M6700 M4700 R5500 www.dell.co.jp September / 2012 Dell Precision CADCG Dell Precision if 2012 if2012 T7600T5600T36003 ISV 2 Dell Precision CADCG Dell Precision Dell
FileMaker Server Getting Started Guide
FileMaker Server 11 2004-2010 FileMaker, Inc. All Rights Reserved. FileMaker, Inc. 5201 Patrick Henry Drive Santa Clara, California 95054 FileMaker FileMaker, Inc. FileMaker, Inc. FileMaker FileMaker,
インテル® Parallel Studio XE 2019 Update 4 リリースノート
インテル Parallel Studio XE 2019 2019 年 4 月 22 日 内容 1 概要... 2 2 製品の内容... 3 2.1 インテルが提供するデバッグ ソリューションの追加情報... 5 2.2 インテル Visual Fortran コンパイラー用 Microsoft* Visual Studio* Shell の追加情報... 5 2.3 インテル Software Manager...
インテル® C++ コンパイラー 11.1 Mac OS* X 版プロフェッショナル・エディション インストール・ガイドおよびリリースノート
C++ 11.1 Mac OS* X : 321413-002JA 2009 7 1... 3 1.1...3 1.2...3 1.3...3 1.4...3 1.5...3 2... 4 2.1...4 2.2 ( IPP)...5 2.3...5 2.4 /...5 3 C++... 5 3.1...6 3.2...6 3.2.1 O0 mp...6 3.3...6 3.3.1...6 3.3.2...6
(Basic Theory of Information Processing) 1
(Basic Theory of Information Processing) 1 10 (p.178) Java a[0] = 1; 1 a[4] = 7; i = 2; j = 8; a[i] = j; b[0][0] = 1; 2 b[2][3] = 10; b[i][j] = a[2] * 3; x = a[2]; a[2] = b[i][3] * x; 2 public class Array0
MPI MPI MPI.NET C# MPI Version2
MPI.NET C# 2 2009 2 27 MPI MPI MPI.NET C# MPI Version2 MPI (Message Passing Interface) MPI MPI Version 1 1994 1 1 1 1 ID MPI MPI_Send MPI_Recv if(rank == 0){ // 0 MPI_Send(); } else if(rank == 1){ // 1
Excel97関数編
Excel97 SUM Microsoft Excel 97... 1... 1... 1... 2... 3... 3... 4... 5... 6... 6... 7 SUM... 8... 11 Microsoft Excel 97 AVERAGE MIN MAX SUM IF 2 RANK TODAY ROUND COUNT INT VLOOKUP 1/15 Excel A B C A B
TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日
TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 目次 1. TSUBAMEのGPU 環境 2. プログラム作成 3. プログラム実行 4. 性能解析 デバッグ サンプルコードは /work0/gsic/seminars/gpu- 2011-09- 28 からコピー可能です 1.
07-二村幸孝・出口大輔.indd
GPU Graphics Processing Units HPC High Performance Computing GPU GPGPU General-Purpose computation on GPU CPU GPU GPU *1 Intel Quad-Core Xeon E5472 3.0 GHz 2 6 MB L2 cache 1600 MHz FSB 80 GFlops 1 nvidia
FileMaker Server 9 Getting Started Guide
FileMaker Server 10 2007-2009 FileMaker, Inc. All rights reserved. FileMaker, Inc. 5201 Patrick Henry Drive Santa Clara, California 95054 FileMaker Bento Bento FileMaker, Inc. Mac Mac Apple Inc. FileMaker
HP Workstation Xeon 5600
HP Workstation Xeon 5600 HP 2 No.1 HP 5 3 Z 2No.1 HP :IDC's Worldwide Quarterly Workstation Tracker, 2009 Q4 14.0in Wide HP EliteBook 8440w/CT Mobile Workstation 15.6in Wide HP EliteBook 8540w Mobile Workstation
Xeon Phi MICROSOFT* WINDOWS* 1.4 1
Xeon Phi MICROSOFT* WINDOWS* 1.4 1 Xeon Phi MICROSOFT* WINDOWS*... 4... 4 :... 4 :... 4... 4... 5 Xeon Phi... 5 ( MIC)... 7... 8... 8... 8... 12 Xeon Phi... 13 Xeon Phi... 13 Xeon Phi uos... 14... 18...
MPI usage
MPI (Version 0.99 2006 11 8 ) 1 1 MPI ( Message Passing Interface ) 1 1.1 MPI................................. 1 1.2............................... 2 1.2.1 MPI GATHER.......................... 2 1.2.2
OpenMP (1) 1, 12 1 UNIX (FUJITSU GP7000F model 900), 13 1 (COMPAQ GS320) FUJITSU VPP5000/64 1 (a) (b) 1: ( 1(a))
OpenMP (1) 1, 12 1 UNIX (FUJITSU GP7000F model 900), 13 1 (COMPAQ GS320) FUJITSU VPP5000/64 1 (a) (b) 1: ( 1(a)) E-mail: {nanri,amano}@cc.kyushu-u.ac.jp 1 ( ) 1. VPP Fortran[6] HPF[3] VPP Fortran 2. MPI[5]
