untitled
|
|
- あゆみ つまがみ
- 7 years ago
- Views:
Transcription
1 OpenMP (Message Passing) (shared memory) DSMon MPI,PVM pthread, solaris thread, NT thread OpenMP annotation thread HPF annotation, distribution hint Fancy parallel programming languages for(i=0;i<1000; i++) S += A[i] S S
2 POSIX POSIX Pthread, Solaris thread for(t=1;t<n_thd;t++) r=pthread_create(thd_main,t) thd_main(0); for(t=1; t<n_thd;t++) pthread_join(); PARAMCS For(t=1; t<n_thd;t++) CREATE(thd_main); thd_main(0) WAIT_FOR_END(n_thd-1); int s; /* global */ int n_thd; /* number of threads */ int thd_main(int id) int c,b,e,i,ss; c=1000/n_thd; b=c*id; e=s+c; ss=0; for(i=b; i<e; i++) ss += a[i]; pthread_lock(); s += ss; pthread_unlock(); return s; OpenMP OK! #pragma omp parallel for reduction(+:s) for(i=0; i<1000;i++) s+= a[i]; OpenMP OpenMP OpenMP Parallel Regionwork sharing (for)(sections)single data scope orphan static extent dynamic extent OpenMP OpenMP
3 OpenMP (Fortran/C/C++)directive ISV Oct Fortran ver.1.0 API Oct C/C++ ver.1.0 API (1999 F90 API?) URL SGI Cray Origin ASCI Blue Mountain System SUN Enterprise PC-based SMP SGI Power Fortran/C SUN Impact KAI/KAP OpenMP OpenMP 5%95%(?) 5% small-scale(16medium-scale (64 pthreados-oriented, general-purpose OpenMPAPI directives/pragma Fortran77, f90, C, C++ Fortran!$OMP C: #pragma omp pragma incremental
4 3GHz, 10GHz 90nm 65nm, 45nm VLIW L3 Intel Hyperthreading CPU Pentium OpenMP Fork-join parallel region A... #pragma omp parallel foo(); /*..B... */ C. #pragma omp parallel D E... Call foo() fork A Call foo() Call foo() B join C D E Call foo()
5 OpenMP OpenMP OpenMPAPI Fortran $OMP,C$OMP,*$OMPsentinel!$OMP directive_name [clause, clause, ] directive_name: clause:, C/C++ #pragma omp pragma #pragma omp directive_name [clause, clause, ] #pragma omp parallel Parallel Region (team) Parallel Parallel regionteam regionteam Fortran: C:!$OMP PARALLEL #pragma omp parallel parallel region Parallel region...!$omp END PARALLEL... Parallel region (contd.) ID omp_get_thread_num() IDTeam ID=0 ID omp_set_num_threads(nthreads) OMP_NUM_THREADS parallel regionjoin critical, atomic, barrier
6 for(i=0;i<1000; i++) S += A[i] S S OpenMP #pragma omp parallel int c,b,e,i,ss; c=1000/omp_get_num_threads(); b=c*omp_get_thread_num();e=s+c;ss=0; for(i=b; i<e; i++) ss += a[i]; #pragma omp atomic s += ss; OpenMP #pragma omp parallel for reduction(+:s) for(i=0; i<1000;i++) s+= a[i]; OpenMP : (data-parallel) (task-parallel) tuning : SPMD omp_get_thread_num()id SPLASH 2PARMACS Macro backend: OpenMP e.g. Polaris Compiler OpenMP Pthread, Solaris thread for(t=1;t<n_thd;t++) r=pthread_create(thd_main,t) thd_main(0); for(t=1; t<n_thd;t++) pthread_join(); PARAMCS For(t=1; t<n_thd;t++) CREATE(thd_main); thd_main(0) WAIT_FOR_END(n_thd-1); OpenMP omp_set_num_threads(n_thd); #pragma omp parallel thd_main(omp_get_thread_num());
7 Work sharing For Team parallel region for sections single parallel parallel for parallel sections ForDO forcanonical shape #pragma omp for [clause] for(var=lb; var logical-op ub; incr-expr) body varprivate incr-expr ++var,var++,--var,var--,var+=incr,var-=incr logical-op break clause For schedule(kind[,chunk_size]) schedule(static,chunk_size) chunk_sizeround-roubin chunk_size=1:cyclic schedule(dynamic,chunk_size) chunk_size chunk_size=1 schedule(guided,chunk_size) chunk_size schedule(runtime) OMP_SCHEDULE implementation n schedule(static,n) Schedule(static) Schedule(dynamic,n) Schedule(guided,n) Iteration space
8 Sections single Matvec(double a[],int row_start,int col_idx[], double x[],double y[],int n) int i,j,start,end; double t; #pragma omp parallel for private(j,t,start,end) for(i=0; i<n;i++) start=row_start[i]; end=row_start[i+1]; t = 0.0; for(j=start;j<end;j++) t += a[j]*x[col_idx[j]]; y[i]=t; Section #pragma omp sections #pragma omp section section1 #pragma omp section section2 #pragma omp single statements Barrier Work sharingnowait barrier Critical section critical Atomic atomic flush work sharingnowait #pragma omp barrier
9 Atomic Critical Atomic #pragma omp atomic statement x binop= expr x++,++x, x--, --xx xexpr Atomic Critical section #pragma omp critical[(name)] statements critical section critical section conditional wait master Master ordered #pragma omp master block statements ordered #pragma omp ordered block statements fordynamic extent forordered Data scope parallelwork sharing shared(var_list) private(var_list) private firstprivate(var_list) private lastprivate(var_list) private reduction(op:var_list) reduction private
10 Threadprivate file-scope #pragma omp threadprivate(var_list) parallel region persistent parallelcopyin(var_list) Data scope work sharing Parallel private,firstprivate,shared,reduction,copyin default(shared none) defaultnone for private,firstprivate,lastprivate,reduction sections private,firstprivate,lastprivate,reduction single private,firstprivate Orphan directiveextent extent (orphan directive) Static extent lexical dynamic extent orphan directive Static extentdynamic extent dynamic extent dynamic extentdata scope autoprivate shared main() for(it=0;it<niter;i++) resid=cgsol() printf(,resid); cgsol() #pragma omp parallel for for(i=0;i<cols;i+) p[i]=r[i]=x[i]; for(it=0;it<nitcg;i++) matvec(); #pragma omp parallel for for(i=0;i<cols;i++) z[i]+=alpha*p[i]; main() #pragma omp parallel for(it=0;it<niter;i++) resid=cgsol() #pragma omp master printf(,resid); cgsol() #pragma omp for for(i=0;i<cols;i+) p[i]=r[i]=x[i]; for(it=0;it<nitcg;i++) matvec(); #pragma omp for for(i=0;i<cols;i++) z[i]+=alpha*p[i];
11 Directive binding for, sections, single,master, barrier directivedynamic extentbind dynamic extent work sharingnest master, critical nested parallelism parallel directivenest Nested parallelismenableparallel Disablethread Nested parallelism Nested parallelism in FAQ ``What about nested parallelism? Nested parallelism is permitted by the OpenMP specification. Supporting nested parallelism effectively can be difficult, and we expect most vendors will start out by executing nested parallel constructs on a single thread. In ``OpenMP Fortran Interpretations Version 1.0 In Note that an OpenMP-compliant implementation is permitted to serialize a nested parallel region. Nested parallelismserialize sectionserialize serialize OpenMPmemory consistency OpenMPweak consistency Parallel region volatile nowaitwork sharing flush flush #pragma omp flush[(var_list)] consistency omp_get_num_threads, omp_set_num_threads team omp_get_thread_num id omp_get_max_threads omp_get_num_procs omp_set_dynamic, omp_get_dynamic omp_set_nested, omp_get_nested parallel regionnest lock omp_lock_t omp_nest_lock_t
12 OpenMP OMP_NUM_THREADS Parallel region OMP_SCHEDULE schedule(runtime) OMP_DYNAMIC SGI origin OMP_NESTED nested parallelism nestparallel region incremental Work sharing orphan directive data mapping Iteration mapping locality reduction pragma OpenMP --- (Fortran,C/C++) fork-join incremental OpenMP2.0 reduction OpenMP3.0 Gcc Omni OpenMP locality MPI,HPF
untitled
OpenMP CPU CPU CPU CPU BUS CPU CPU MEM MEM Network CPU CPU MEM MEM Poorman s supercomputer Sun IPC cluster etlwiz Alpha cluster, 100 BASE-TX SWITCHATM beowulf class RWCP PC cluster MyrinetGigabit Ethernet,
More informationuntitled
OpenMP MPI OpenMPI 1 2 http://www.es.jamstec.go.jp/ 3 4 http://www.top500.org/ CPU 3GHz, 10GHz 90nm 65nm, 45nm VLIW L3 Intel Hyperthreading CPU Pentium 5 6 7 8 Cell 23400 90nm 221mm2 SPU 1.52Moore s Law
More informationuntitled
OpenMP 1 OpenMP MPI Open Advanced Topics SMP Hybrid Programming OpenMP 3.0 (task) 2 CPU 3 3GHz, 10GHz 65nm 45nm, 32nm(20?) VLIW L3 Intel Hyperthreading CPU 4 Pentium CPU 5 (Message Passing) (shared memory)
More informationuntitled
OpenMP 1 OpenMP MPI Open Advanced Topics SMP Hybrid Programming OpenMP 3.0 2 CPU 3GHz, 10GHz 65nm 45nm, 32nm VLIW L3 Intel Hyperthreading CPU 3 4 Pentium CPU CPU CPU CPU CPU CPU CPU CPU BUS CPU MEM CPU
More information02_C-C++_osx.indd
C/C++ OpenMP* / 2 C/C++ OpenMP* OpenMP* 9.0 1... 2 2... 3 3OpenMP*... 5 3.1... 5 3.2 OpenMP*... 6 3.3 OpenMP*... 8 4OpenMP*... 9 4.1... 9 4.2 OpenMP*... 9 4.3 OpenMP*... 10 4.4... 10 5OpenMP*... 11 5.1
More information2. OpenMP OpenMP OpenMP OpenMP #pragma#pragma omp #pragma omp parallel #pragma omp single #pragma omp master #pragma omp for #pragma omp critica
C OpenMP 1. OpenMP OpenMP Architecture Review BoardARB OpenMP OpenMP OpenMP OpenMP OpenMP Version 2.0 Version 2.0 OpenMP Fortran C/C++ C C++ 1997 10 OpenMP Fortran API 1.0 1998 10 OpenMP C/C++ API 1.0
More information(Microsoft PowerPoint \215u\213`4\201i\221\272\210\344\201j.pptx)
AICS 村井均 RIKEN AICS HPC Summer School 2012 8/7/2012 1 背景 OpenMP とは OpenMP の基本 OpenMP プログラミングにおける注意点 やや高度な話題 2 共有メモリマルチプロセッサシステムの普及 共有メモリマルチプロセッサシステムのための並列化指示文を共通化する必要性 各社で仕様が異なり 移植性がない そして いまやマルチコア プロセッサが主流となり
More informationAICS 村井均 RIKEN AICS HPC Summer School /6/2013 1
AICS 村井均 RIKEN AICS HPC Summer School 2013 8/6/2013 1 背景 OpenMP とは OpenMP の基本 OpenMP プログラミングにおける注意点 やや高度な話題 2 共有メモリマルチプロセッサシステムの普及 共有メモリマルチプロセッサシステムのための並列化指示文を共通化する必要性 各社で仕様が異なり 移植性がない そして いまやマルチコア プロセッサが主流となり
More informationMicrosoft PowerPoint - HPCseminar2013-msato.pptx
OpenMP 並列プログラミング入門 筑波大学計算科学研究センター担当佐藤 1 もくじ 背景 並列プログラミング超入門 OpenMP Openプログラミングの概要 Advanced Topics SMPクラスタ Hybrid Programming OpenMP 3.0 (task) OpenMP 4.0 まとめ 2 計算の高速化とは コンピュータの高速化 デバイス 計算機アーキテクチャ パイプライン
More informationuntitled
CPU CPU PC 1 3GHz, 10GHz 0.13m VLIW L3 Intel Hyperthreading Intel IA32: Xeon, P4 PC Intel IA64: Itanium2 64 Itanium2 (Deerfield) AMD x86-64: Opteron x8664 x86 Sun SPARC,IBM Power, Alpha, MIPS, PCPDA P
More information01_OpenMP_osx.indd
OpenMP* / 1 1... 2 2... 3 3... 5 4... 7 5... 9 5.1... 9 5.2 OpenMP* API... 13 6... 17 7... 19 / 4 1 2 C/C++ OpenMP* 3 Fortran OpenMP* 4 PC 1 1 9.0 Linux* Windows* Xeon Itanium OS 1 2 2 WEB OS OS OS 1 OS
More informationGNU開発ツール
並列プログラミング環境 プログラミング環境特論 2008 年 1 月 24 日 建部修見 分散メモリ型計算機 CPU CPU CPU とメモリという一つの計算機システムが ネットワークで結合されているシステム MEM CPU Network MEM CPU それぞれの計算機で実行されているプログラムはネットワークを通じて データ ( メッセージ ) を交換し 動作する MEM MEM 超並列 (MPP:Massively
More informationMicrosoft Word - openmp-txt.doc
( 付録 A) OpenMP チュートリアル OepnMP は 共有メモリマルチプロセッサ上のマルチスレッドプログラミングのための API です 本稿では OpenMP の簡単な解説とともにプログラム例をつかって説明します 詳しくは OpenMP の規約を決めている OpenMP ARB の http://www.openmp.org/ にある仕様書を参照してください 日本語訳は http://www.hpcc.jp/omni/spec.ja/
More informationOpenMP¤òÍѤ¤¤¿ÊÂÎó·×»»¡Ê£±¡Ë
2012 5 24 scalar Open MP Hello World Do (omp do) (omp workshare) (shared, private) π (reduction) PU PU PU 2 16 OpenMP FORTRAN/C/C++ MPI OpenMP 1997 FORTRAN Ver. 1.0 API 1998 C/C++ Ver. 1.0 API 2000 FORTRAN
More informationOpenMP¤òÍѤ¤¤¿ÊÂÎó·×»»¡Ê£±¡Ë
2011 5 26 scalar Open MP Hello World Do (omp do) (omp workshare) (shared, private) π (reduction) scalar magny-cours, 48 scalar scalar 1 % scp. ssh / authorized keys 133. 30. 112. 246 2 48 % ssh 133.30.112.246
More informationOpenMP 3.0 C/C++ 構文の概要
OpenMP 3.0 C/C++ 構文の概要 OpenMP API 仕様については www.openmp.org でダウンロードしてください OpenMP 実行宣言子は 後続の構造化ブロックや OpenMP 構文に適用されます 構造化ブロック () とは 単文または先頭に入口が 1 つ 末尾に出口が 1 つの複合文です parallel 構文はスレッドのチームを形成し 並列実行を開始します #pragma
More informationOpenMP¤òÍѤ¤¤¿ÊÂÎó·×»»¡Ê£²¡Ë
2013 5 30 (schedule) (omp sections) (omp single, omp master) (barrier, critical, atomic) program pi i m p l i c i t none integer, parameter : : SP = kind ( 1. 0 ) integer, parameter : : DP = selected real
More informationThe 3 key challenges in programming for MC
コンパイラーによる並列化機能 ソフトウェア & ソリューションズ統括部 ソフトウェア製品部 Rev 12/26/2006 コースの内容 並列計算 なぜ使用するのか? OpenMP* 入門 宣言子と使用方法 演習 : Hello world と円周率の計算 並列プログラミング : ヒントとテクニック コード開発で避けるべきこと 2 並列計算なぜ並列処理を使用するのか? 計算をより短い時間で処理 一定の所要時間でより大きな計算を処理
More informationCopyright 2004 Sun Microsystems, Inc., 4150 Network Circle, Santa Clara, California 95054, U.S.A. All rights reserved. U.S. Government Rights - Commer
OpenMP API ユーザーズガイド Sun TM Studio 8 Sun Microsystems, Inc. 4150 Network Circle Santa Clara, CA 95054 U.S.A. 650-960-1300 Part No. 817-5813-10 2004 年 3 月, Revision A Copyright 2004 Sun Microsystems, Inc.,
More informationMicrosoft PowerPoint - OpenMP入門.pptx
OpenMP 入門 須田礼仁 2009/10/30 初版 OpenMP 共有メモリ並列処理の標準化 API http://openmp.org/ 最新版は 30 3.0 バージョンによる違いはあまり大きくない サポートしているバージョンはともかく csp で動きます gcc も対応しています やっぱり SPMD Single Program Multiple Data プログラム #pragma omp
More informationOpenMPプログラミング
OpenMP 基礎 岩下武史 ( 学術情報メディアセンター ) 1 2013/9/13 並列処理とは 逐次処理 CPU1 並列処理 CPU1 CPU2 CPU3 CPU4 処理 1 処理 1 処理 2 処理 3 処理 4 処理 2 処理 3 処理 4 時間 2 2 種類の並列処理方法 プロセス並列 スレッド並列 並列プログラム 並列プログラム プロセス プロセス 0 プロセス 1 プロセス間通信 スレッド
More informationOpenMP (1) 1, 12 1 UNIX (FUJITSU GP7000F model 900), 13 1 (COMPAQ GS320) FUJITSU VPP5000/64 1 (a) (b) 1: ( 1(a))
OpenMP (1) 1, 12 1 UNIX (FUJITSU GP7000F model 900), 13 1 (COMPAQ GS320) FUJITSU VPP5000/64 1 (a) (b) 1: ( 1(a)) E-mail: {nanri,amano}@cc.kyushu-u.ac.jp 1 ( ) 1. VPP Fortran[6] HPF[3] VPP Fortran 2. MPI[5]
More information03_Fortran_osx.indd
Fortran OpenMP* Fortran OpenMP* OpenMP* 9.0 1...2 2... 3 3 OpenMP*... 4 3.1... 4 3.2 OpenMP*... 5 3.3 OpenMP*... 8 4 OpenMP*... 9 4.1... 9 4.2... 10 4.3 OpenMP*... 10 4.4 OpenMP*... 11 4.5... 12 5 OpenMP*...
More informationNUMAの構成
共有メモリを使ったデータ交換と同期 慶應義塾大学理工学部 天野英晴 hunga@am.ics.keio.ac.jp 同期の必要性 あるプロセッサが共有メモリに書いても 別のプロセッサにはそのことが分からない 同時に同じ共有変数に書き込みすると 結果がどうなるか分からない そもそも共有メモリって結構危険な代物 多くのプロセッサが並列に動くには何かの制御機構が要る 不可分命令 同期用メモリ バリア同期機構
More information卒業論文
PC OpenMP SCore PC OpenMP PC PC PC Myrinet PC PC 1 OpenMP 2 1 3 3 PC 8 OpenMP 11 15 15 16 16 18 19 19 19 20 20 21 21 23 26 29 30 31 32 33 4 5 6 7 SCore 9 PC 10 OpenMP 14 16 17 10 17 11 19 12 19 13 20 1421
More informationコードのチューニング
OpenMP による並列化実装 八木学 ( 理化学研究所計算科学研究センター ) KOBE HPC Spring School 2019 2019 年 3 月 14 日 スレッド並列とプロセス並列 スレッド並列 OpenMP 自動並列化 プロセス並列 MPI プロセス プロセス プロセス スレッドスレッドスレッドスレッド メモリ メモリ プロセス間通信 Private Private Private
More information2. OpenMP におけるキーワード一覧 OpenMP の全体像を理解するために 指示文 指示節 実行時ライブラリ関数 環境変数にそれぞれどうようなものがあるのかを最初に示します 各詳細については第 4 章以降で説明します 2.1 OpenMP の指示文 OpenMPの指示文は プログラム内で並列
C 言語による OpenMP 入門 東京大学情報基盤センタープログラミング講習会資料 担当黒田久泰 1. はじめに OpenMP は非営利団体 OpenMP Architecture Review Board(ARB) によって規定されている業界標準規格です 共有メモリ型並列計算機用のプログラムの並列化を記述するための指示文 ライブラリ関数 環境変数などが規定されています OpenMP を利用するには
More informationPowerPoint プレゼンテーション
OpenMP 並列解説 1 人が共同作業を行うわけ 田植えの例 重いものを持ち上げる 田おこし 代かき 苗の準備 植付 共同作業する理由 1. 短時間で作業を行うため 2. 一人ではできない作業を行うため 3. 得意分野が異なる人が協力し合うため ポイント 1. 全員が最大限働く 2. タイミングよく 3. 作業順序に注意 4. オーバーヘッドをなくす 2 倍率 効率 並列化率と並列加速率 並列化効率の関係
More informationMicrosoft PowerPoint - 03_What is OpenMP 4.0 other_Jan18
OpenMP* 4.x における拡張 OpenMP 4.0 と 4.5 の機能拡張 内容 OpenMP* 3.1 から 4.0 への拡張 OpenMP* 4.0 から 4.5 への拡張 2 追加された機能 (3.1 -> 4.0) C/C++ 配列シンタックスの拡張 SIMD と SIMD 対応関数 デバイスオフロード task 構 の依存性 taskgroup 構 cancel 句と cancellation
More informationuntitled
OS 2007/4/27 1 Uni-processor system revisited Memory disk controller frame buffer network interface various devices bus 2 1 Uni-processor system today Intel i850 chipset block diagram Source: intel web
More information1 OpenCL OpenCL 1 OpenCL GPU ( ) 1 OpenCL Compute Units Elements OpenCL OpenCL SPMD (Single-Program, Multiple-Data) SPMD OpenCL work-item work-group N
GPU 1 1 2 1, 3 2, 3 (Graphics Unit: GPU) GPU GPU GPU Evaluation of GPU Computing Based on An Automatic Program Generation Technology Makoto Sugawara, 1 Katsuto Sato, 1 Kazuhiko Komatsu, 2 Hiroyuki Takizawa
More informationMicrosoft PowerPoint ppt [互換モード]
計算機アーキテクチャ特論 2013 年 10 28 枝廣 前半 ( 並列アーキテクチャの基本 枝廣 ) 10/7, 10/21, 10/28, 11/11, 11/18, (12/2)( 程は予定 ) 内容 ( 変更の可能性あり ) 序論 ( マルチコア= 並列アーキテクチャ概論 ) キャッシュ コヒーレンシ メモリ コンシステンシ 並列アーキテクチャモデル OSモデル 並列プログラミングモデル 語
More informationMicrosoft PowerPoint - sales2.ppt
並列化の基礎 ( 言葉の意味 ) 並列実行には 複数のタスク実行主体が必要 共有メモリ型システム (SMP) での並列 プロセスを使用した並列化 スレッドとは? スレッドを使用した並列化 分散メモリ型システムでの並列 メッセージパッシングによる並列化 並列アーキテクチャ関連の言葉を押さえよう 21 プロセスを使用した並列処理 並列処理を行うためには複数のプロセスの生成必要プロセスとは プログラム実行のための能動実態メモリ空間親プロセス子プロセス
More informationスパコンに通じる並列プログラミングの基礎
2018.06.04 2018.06.04 1 / 62 2018.06.04 2 / 62 Windows, Mac Unix 0444-J 2018.06.04 3 / 62 Part I Unix GUI CUI: Unix, Windows, Mac OS Part II 2018.06.04 4 / 62 0444-J ( : ) 6 4 ( ) 6 5 * 6 19 SX-ACE * 6
More informationXcalableMP入門
XcalableMP 1 HPC-Phys@, 2018 8 22 XcalableMP XMP XMP Lattice QCD!2 XMP MPI MPI!3 XMP 1/2 PCXMP MPI Fortran CCoarray C++ MPIMPI XMP OpenMP http://xcalablemp.org!4 XMP 2/2 SPMD (Single Program Multiple Data)
More informationCPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2
FFT 1 Fourier fast Fourier transform FFT FFT FFT 1 FFT FFT 2 Fourier 2.1 Fourier FFT Fourier discrete Fourier transform DFT DFT n 1 y k = j=0 x j ω jk n, 0 k n 1 (1) x j y k ω n = e 2πi/n i = 1 (1) n DFT
More informationスパコンに通じる並列プログラミングの基礎
2018.09.10 furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 1 / 59 furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 2 / 59 Windows, Mac Unix 0444-J furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 3 / 59 Part I Unix GUI CUI:
More information~~~~~~~~~~~~~~~~~~ wait Call CPU time 1, latch: library cache 7, latch: library cache lock 4, job scheduler co
072 DB Magazine 2007 September ~~~~~~~~~~~~~~~~~~ wait Call CPU time 1,055 34.7 latch: library cache 7,278 750 103 24.7 latch: library cache lock 4,194 465 111 15.3 job scheduler coordinator slave wait
More informationI I / 47
1 2013.07.18 1 I 2013 3 I 2013.07.18 1 / 47 A Flat MPI B 1 2 C: 2 I 2013.07.18 2 / 47 I 2013.07.18 3 / 47 #PJM -L "rscgrp=small" π-computer small: 12 large: 84 school: 24 84 16 = 1344 small school small
More informationÊÂÎó·×»»¤È¤Ï/OpenMP¤Î½éÊâ¡Ê£±¡Ë
2015 5 21 OpenMP Hello World Do (omp do) Fortran (omp workshare) CPU Richardson s Forecast Factory 64,000 L.F. Richardson, Weather Prediction by Numerical Process, Cambridge, University Press (1922) Drawing
More informationMicrosoft PowerPoint - embedded-multicore-print.ppt [互換モード]
プログラミング環境特論 組み込みシステムでのマルチコアプロセッサのプログラミングと課題 佐藤三久 筑波大学 プロセッサ研究開発の動向 クロックの高速化 製造プロセスの微細化 いまでは 3GHz, 数年のうちに 10GHz か!? インテルの戦略の転換 マルチコア クロックは早くならない!? プロセスは 65nm 45nm, 将来的には 32nm トランジスタ数は増える! アーキテクチャの改良 Good
More informationC
C 1 2 1.1........................... 2 1.2........................ 2 1.3 make................................................ 3 1.4....................................... 5 1.4.1 strip................................................
More informationXMPによる並列化実装2
2 3 C Fortran Exercise 1 Exercise 2 Serial init.c init.f90 XMP xmp_init.c xmp_init.f90 Serial laplace.c laplace.f90 XMP xmp_laplace.c xmp_laplace.f90 #include int a[10]; program init integer
More information( CUDA CUDA CUDA CUDA ( NVIDIA CUDA I
GPGPU (II) GPGPU CUDA 1 GPGPU CUDA(CUDA Unified Device Architecture) CUDA NVIDIA GPU *1 C/C++ (nvcc) CUDA NVIDIA GPU GPU CUDA CUDA 1 CUDA CUDA 2 CUDA NVIDIA GPU PC Windows Linux MaxOSX CUDA GPU CUDA NVIDIA
More information並列プログラミング入門(OpenMP編)
登録施設利用促進機関 / 文科省委託事業 HPCI の運営 代表機関一般財団法人高度情報科学技術研究機構 (RIST) 1 並列プログラミング入門 (OpenMP 編 ) 2019 年 1 月 17 日 高度情報科学技術研究機構 (RIST) 山本秀喜 RIST 主催の講習会等 2 HPC プログラミングセミナー 一般 初心者向け : チューニング 並列化 (OpenMP MPI) 京 初中級者向け講習会
More information生物情報実験法 (オンライン, 4/20)
生物情報実験法 (7/23) 笠原雅弘 (mkasa@cb.k.u-tokyo.ac.jp) Table of Contents スレッドの使い方 OpenMP プログラミング Deadline The deadline is Aug 5 23:59 Your e-mail must have reached my e-mail box at the deadline time. It may take
More informationXACCの概要
2 global void kernel(int a[max], int llimit, int ulimit) {... } : int main(int argc, char *argv[]){ MPI_Int(&argc, &argc); MPI_Comm_rank(MPI_COMM_WORLD, &rank); MPI_Comm_size(MPI_COMM_WORLD, &size); dx
More information連載講座 : 高生産並列言語を使いこなす (4) ゲーム木探索の並列化 田浦健次朗 東京大学大学院情報理工学系研究科, 情報基盤センター 目次 1 準備 問題の定義 αβ 法 16 2 αβ 法の並列化 概要 Young Brothers Wa
連載講座 : 高生産並列言語を使いこなす (4) ゲーム木探索の並列化 田浦健次朗 東京大学大学院情報理工学系研究科, 情報基盤センター 目次 1 準備 16 1.1 問題の定義 16 1.2 αβ 法 16 2 αβ 法の並列化 17 2.1 概要 17 2.2 Young Brothers Wait Concept 17 2.3 段数による逐次化 18 2.4 適応的な待機 18 2. 強制終了
More information2012年度HPCサマーセミナー_多田野.pptx
! CCS HPC! I " tadano@cs.tsukuba.ac.jp" " 1 " " " " " " " 2 3 " " Ax = b" " " 4 Ax = b" A = a 11 a 12... a 1n a 21 a 22... a 2n...... a n1 a n2... a nn, x = x 1 x 2. x n, b = b 1 b 2. b n " " 5 Gauss LU
More information演習1: 演習準備
演習 1: 演習準備 2013 年 8 月 6 日神戸大学大学院システム情報学研究科森下浩二 1 演習 1 の内容 神戸大 X10(π-omputer) について システム概要 ログイン方法 コンパイルとジョブ実行方法 OpenMP の演習 ( 入門編 ) 1. parallel 構文 実行時ライブラリ関数 2. ループ構文 3. shared 節 private 節 4. reduction 節
More informationGPGPU
GPGPU 2013 1008 2015 1 23 Abstract In recent years, with the advance of microscope technology, the alive cells have been able to observe. On the other hand, from the standpoint of image processing, the
More informationopenmp1_Yaguchi_version_170530
並列計算とは /OpenMP の初歩 (1) 今 の内容 なぜ並列計算が必要か? スーパーコンピュータの性能動向 1ExaFLOPS 次世代スハ コン 京 1PFLOPS 性能 1TFLOPS 1GFLOPS スカラー機ベクトル機ベクトル並列機並列機 X-MP ncube2 CRAY-1 S-810 SR8000 VPP500 CM-5 ASCI-5 ASCI-4 S3800 T3E-900 SR2201
More information040312研究会HPC2500.ppt
2004312 e-mail : m-aoki@jp.fujitsu.com 1 2 PRIMEPOWER VX/VPP300 VPP700 GP7000 AP3000 VPP5000 PRIMEPOWER 2000 PRIMEPOWER HPC2500 1998 1999 2000 2001 2002 2003 3 VPP5000 PRIMEPOWER ( 1 VU 9.6 GF 16GB 1 VU
More information,4) 1 P% P%P=2.5 5%!%! (1) = (2) l l Figure 1 A compilation flow of the proposing sampling based architecture simulation
1 1 1 1 SPEC CPU 2000 EQUAKE 1.6 50 500 A Parallelizing Compiler Cooperative Multicore Architecture Simulator with Changeover Mechanism of Simulation Modes GAKUHO TAGUCHI 1 YOUICHI ABE 1 KEIJI KIMURA 1
More informationスパコンに通じる並列プログラミングの基礎
2016.06.06 2016.06.06 1 / 60 2016.06.06 2 / 60 Windows, Mac Unix 0444-J 2016.06.06 3 / 60 Part I Unix GUI CUI: Unix, Windows, Mac OS Part II 0444-J 2016.06.06 4 / 60 ( : ) 6 6 ( ) 6 10 6 16 SX-ACE 6 17
More informationOpenMPプログラミング
OpenMP プログラミング入門 (Part 2) 講習の内容 :Part 2 OpenMP の概要について OpenMP API のご紹介 1. 並列実行領域 (Parallel Regions) 構文 2. ワークシェアリング (Worksharing) 構文 3. データ環境 (Data Environment) 構文 4. 同期 (Synchronization) 構文 5. 実行時関数 /
More informationFFTSS Library Version 3.0 User's Guide
: 19 10 31 FFTSS 3.0 Copyright (C) 2002-2007 The Scalable Software Infrastructure Project, (CREST),,. http://www.ssisc.org/ Contents 1 4 2 (DFT) 4 3 4 3.1 UNIX............................................
More informationenshu5_4.key
http://www.mmsonline.com/articles/parallel-processing-speeds-toolpath-calculations TA : 菅 新 菅沼智史 水曜 新行紗弓 馬淵隼 木曜 情報知能工学演習V (前半第4週) 政田洋平 システム情報学研究科計算科学専攻 演習 V( 前半 ) の内容 第 1 週 : 高性能計算 (High Performance Computing
More informationdevelop
SCore SCore 02/03/20 2 1 HA (High Availability) HPC (High Performance Computing) 02/03/20 3 HA (High Availability) Mail/Web/News/File Server HPC (High Performance Computing) Job Dispatching( ) Parallel
More informationA B 1: Ex. MPICH-G2 C.f. NXProxy [Tanaka] 2:
Java Jojo ( ) ( ) A B 1: Ex. MPICH-G2 C.f. NXProxy [Tanaka] 2: Java Jojo Jojo (1) :Globus GRAM ssh rsh GRAM ssh GRAM A rsh B Jojo (2) ( ) Jojo Java VM JavaRMI (Sun) Horb(ETL) ( ) JPVM,mpiJava etc. Send,
More informationuntitled
IBM i IBM AS/400 Power Systems 63.8% CPU 19,516 43,690 25,072 2002 POWER4 2000 SOI 2005 2004 POWER5 2007 POWER6 2008 IBM i 2004 eserver i5 2000 eserver iseries e 2006 System i5 Systems Agenda 2008 Power
More informationMPI usage
MPI (Version 0.99 2006 11 8 ) 1 1 MPI ( Message Passing Interface ) 1 1.1 MPI................................. 1 1.2............................... 2 1.2.1 MPI GATHER.......................... 2 1.2.2
More information,,.,,., II,,,.,,.,.,,,.,,,.,, II i
12 Load Dispersion Methods in Thin Client Systems 1010405 2001 2 5 ,,.,,., II,,,.,,.,.,,,.,,,.,, II i Abstract Load Dispersion Methods in Thin Client Systems Noritaka TAKEUCHI Server Based Computing by
More informationIntel® Compilers Professional Editions
2007 6 10.0 * 10.0 6 5 Software &Solutions group 10.0 (SV) C++ Fortran OpenMP* OpenMP API / : 200 C/C++ Fortran : OpenMP : : : $ cat -n main.cpp 1 #include 2 int foo(const char *); 3 int main()
More informationB
B 27 1153021 28 2 10 1 1 5 1.1 CPU................. 5 1.2.... 5 1.3.... 6 1.4.. 7 1.5................................ 8 2 9 2.1.................................. 9 2.2............................ 10 2.3............................
More informationHPC146
2 3 4 5 6 int array[16]; #pragma xmp nodes p(4) #pragma xmp template t(0:15) #pragma xmp distribute t(block) on p #pragma xmp align array[i] with t(i) array[16] 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Node
More informationMicrosoft PowerPoint - AICS-SS-msato.pptx
AICS サマースクール 8/6 13:30-14:50 (80min) イントロダクション 並列処理の基礎 佐藤三久 理化学研究所計算科学研究機構 (AICS) なぜ 並列処理なのか? 計算科学 スパコン ( 超高速計算機 ) を使った シミュレーションでシ 科学の研究を行うこと 1 2 コンピュータのはじまりは? 弾道計算 暗号解読 3 例えば F がわかれば 速度 V(t) ( 時刻 t の時の速度
More information120802_MPI.ppt
CPU CPU CPU CPU CPU SMP Symmetric MultiProcessing CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CP OpenMP MPI MPI CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU MPI MPI+OpenMP CPU CPU CPU CPU CPU CPU CPU CP
More informationMicrosoft PowerPoint ppt [互換モード]
計算機アーキテクチャ特論 2016 年 10 24 枝廣 前半 ( 並列アーキテクチャの基本 枝廣 ) 10/3, 10/17, 10/24, 10/31, 11/7, 11/14( 程は予定 ) 内容 ( 変更の可能性あり ) 序論 ( マルチコア= 並列アーキテクチャ概論 ) キャッシュ コヒーレンシ メモリ コンシステンシ 並列プログラミングモデル 語 スケーラビリティに関する法則 同期 並列アルゴリズム
More informationMicrosoft PowerPoint - 阪大CMSI pptx
内容に関する質問は katagiri@cc.u-tokyo.ac.jp まで 第 3 回 OpenMP の基礎 東京大学情報基盤センター 片桐孝洋 1 講義日程と内容について (1 学期 : 木曜 3 限 ) 第 1 回 : プログラム高速化の基礎 2013 年 4 月 11 日 イントロダクション ループアンローリング キャッシュブロック化 数値計算ライブラリの利用 その他第 2 回 :MPIの基礎
More informationVol.214-HPC-145 No /7/3 C #pragma acc directive-name [clause [[,] clause] ] new-line structured block Fortran!$acc directive-name [clause [[,] c
Vol.214-HPC-145 No.45 214/7/3 OpenACC 1 3,1,2 1,2 GPU CUDA OpenCL OpenACC OpenACC High-level OpenACC CPU Intex Xeon Phi K2X GPU Intel Xeon Phi 27% K2X GPU 24% 1. TSUBAME2.5 CPU GPU CUDA OpenCL CPU OpenMP
More informationGPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所 共通コードプロジェクト
GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 勉強会 @ 理化学研究所 共通コードプロジェクト Contents Hands On 環境について Introduction to GPU computing Introduction
More informationインテル(R) Visual Fortran Composer XE 2013 Windows版 入門ガイド
Visual Fortran Composer XE 2013 Windows* エクセルソフト株式会社 www.xlsoft.com Rev. 1.1 (2012/12/10) Copyright 1998-2013 XLsoft Corporation. All Rights Reserved. 1 / 53 ... 3... 4... 4... 5 Visual Studio... 9...
More information: (1), ( ) 1 1.1,, 1 OpenMP [3, 5, 21, 22], MPI [13, 18, 23].., (C Fortran)., OS,. C Fortran,,,,. ( ),,.,,.,,,.,,,.,.,. 1
: (1), ( ) 1 1.1,, 1 OpenMP [3, 5, 21, 22], MPI [13, 18, 23].., (C Fortran)., OS,. C Fortran,,,,. ( ),,.,,.,,,.,,,.,.,. 1 1.2,.,,,,.. CPU,,., (, ). (NUMA ).,.,. Flat MPI,,.,,. GPU, SIMD, [11]. C Fortran,.,
More informationmain.dvi
PC 1 1 [1][2] [3][4] ( ) GPU(Graphics Processing Unit) GPU PC GPU PC ( 2 GPU ) GPU Harris Corner Detector[5] CPU ( ) ( ) CPU GPU 2 3 GPU 4 5 6 7 1 toyohiro@isc.kyutech.ac.jp 45 2 ( ) CPU ( ) ( ) () 2.1
More informationsmpp_resume.dvi
6 mmiki@mail.doshisha.ac.jp Parallel Processing Parallel Pseudo-parallel Concurrent 1) 1/60 1) 1997 5 11 IBM Deep Blue Deep Blue 2) PC 2000 167 Rank Manufacturer Computer Rmax Installation Site Country
More informationACE Associated Computer Experts bv
CoSy Application CoSy Marcel Beemster/Yoichi Sugiyama ACE Associated Compiler Experts & Japan Novel Corporation contact: yo_sugi@jnovel.co.jp Parallel Architecture 2 VLIW SIMD MIMD 3 MIMD HW DSP VLIW/ILP
More informationCSV ToDo ToDo
intra-mart ver4.0 2003/05/02 1. ( 10 imode ConceptBase imode CSV ToDo ToDo 2. intra-mart ver4.0 Java Sun JDK1.3.1 WebServerConnector Java DDL intra-mart intra-mart Java OS (1 Web Web intra-mart 2 Sun ONE
More informationuntitled
IBM i IBM GUI 2 JAVA JAVA JAVA JAVA-COBOL JAVA JDBC CUI CUI COBOL DB2 3 1 3270 5250 HTML IBM HATS WebFacing 4 2 IBM CS Bridge XML Bridge 5 Eclipse RSE RPG 6 7 WEB/JAVA RPG WEB 8 EBCDIC EBCDIC PC ASCII
More informationマルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装
2010 GPGPU 2010 9 29 MPI/Pthread (DDM) DDM CPU CPU CPU CPU FEM GPU FEM CPU Mult - NUMA Multprocessng Cell GPU Accelerator, GPU CPU Heterogeneous computng L3 cache L3 cache CPU CPU + GPU GPU L3 cache 4
More information橡Webcamユーザーガイド03.PDF
Desktop On-Call Version 4 Webcam extension Pak for Windows Webcam extension Pak Desktop On-Call Version 4 Web PC i Desktop On-Call Version 4 PC PC Desktop On-Call Version 4 PC Windows 98 Windows 98SE Windows
More informationC による数値計算法入門 ( 第 2 版 ) 新装版 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 新装版 1 刷発行時のものです.
C による数値計算法入門 ( 第 2 版 ) 新装版 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/009383 このサンプルページの内容は, 新装版 1 刷発行時のものです. i 2 22 2 13 ( ) 2 (1) ANSI (2) 2 (3) Web http://www.morikita.co.jp/books/mid/009383
More informationストリーミング SIMD 拡張命令2 (SSE2) を使用した SAXPY/DAXPY
SIMD 2(SSE2) SAXPY/DAXPY 2.0 2000 7 : 248600J-001 01/12/06 1 305-8603 115 Fax: 0120-47-8832 * Copyright Intel Corporation 1999, 2000 01/12/06 2 1...5 2 SAXPY DAXPY...5 2.1 SAXPY DAXPY...6 2.1.1 SIMD C++...6
More information16.16%
2017 (411824) 16.16% Abstract Multi-core processor is common technique for high computing performance. In many multi-core processor architectures, all processors share L2 and last level cache memory. Thus,
More informationMicrosoft PowerPoint ppt [互換モード]
計算機アーキテクチャ特論 前半 ( 並列アーキテクチャの基本 枝廣 ) 10/1, 10/15, 10/22, 10/29, 11/5, 11/12( 程は予定 ) 内容 ( 変更の可能性あり ) 序論 ( マルチコア= 並列アーキテクチャ概論 ) キャッシュ コヒーレンシ メモリ コンシステンシ 並列アーキテクチャモデル OSモデル スケーラビリティに関する法則 2012 年 10 月 22 日枝廣
More informationlistings-ext
(6) Python (2) ( ) ohsaki@kwansei.ac.jp 5 Python (2) 1 5.1 (statement)........................... 1 5.2 (scope)......................... 11 5.3 (subroutine).................... 14 5 Python (2) Python 5.1
More information¥Ñ¥Ã¥±¡¼¥¸ Rhpc ¤Î¾õ¶·
Rhpc COM-ONE 2015 R 27 12 5 1 / 29 1 2 Rhpc 3 forign MPI 4 Windows 5 2 / 29 1 2 Rhpc 3 forign MPI 4 Windows 5 3 / 29 Rhpc, R HPC Rhpc, ( ), snow..., Rhpc worker call Rhpc lapply 4 / 29 1 2 Rhpc 3 forign
More information連載講座 : 高生産並列言語を使いこなす (5) 分子動力学シミュレーション 田浦健次朗 東京大学大学院情報理工学系研究科, 情報基盤センター 目次 1 問題の定義 17 2 逐次プログラム 分子 ( 粒子 ) セル 系の状態 ステップ 18
連載講座 : 高生産並列言語を使いこなす (5) 分子動力学シミュレーション 田浦健次朗 東京大学大学院情報理工学系研究科, 情報基盤センター 目次 1 問題の定義 17 2 逐次プログラム 17 2.1 分子 ( 粒子 ) 17 2.2 セル 17 2.3 系の状態 18 2.4 1ステップ 18 2.5 力の計算 19 2.6 速度と位置の更新 20 2.7 セル間の分子の移動 21 3 OpenMP
More informationIPSJ SIG Technical Report Vol.2013-ARC-206 No /8/1 Android Dominic Hillenbrand ODROID-X2 GPIO Android OSCAR WFI 500[us] GPIO GP
Android 1 1 1 1 1 Dominic Hillenbrand 1 1 1 ODROID-X2 GPIO Android OSCAR WFI 500[us] GPIO GPIO API GPIO API GPIO MPEG2 Optical Flow MPEG2 1PE 0.97[W] 0.63[W] 2PE 1.88[w] 0.46[W] 3PE 2.79[W] 0.37[W] Optical
More informationCell/B.E. BlockLib
Cell/B.E. BlockLib 17 17115080 21 2 10 i Cell/B.E. BlockLib SIMD CELL SIMD Cell Cell BlockLib BlockLib NestStep libspe1 Cell SDK 3.1 libspe2 BlockLib Cell SDK 3.1 NestStep libspe2 BlockLib BlockLib libspe1
More information07-二村幸孝・出口大輔.indd
GPU Graphics Processing Units HPC High Performance Computing GPU GPGPU General-Purpose computation on GPU CPU GPU GPU *1 Intel Quad-Core Xeon E5472 3.0 GHz 2 6 MB L2 cache 1600 MHz FSB 80 GFlops 1 nvidia
More informationchapt5pdf.p65
Chapter 5 5 Chapter 229 ORIGIN6.0 5 Chapter - 01 3D 230 Chapter 5 231 ORIGIN6.0 232 Chapter 5 233 ORIGIN6.0 234 Chapter 5 5 Chapter - 02 235 ORIGIN6.0 236 Chapter 5 237 ORIGIN6.0 238 Chapter 5 239 ORIGIN6.0
More informationVol.6 No (Aug. 2013) 1,a) 2,b) 2,c) , Java Java Java Java Inner Method for Code Reuse in Fine-grained and Its Effective Im
1,a) 2,b) 2,c) 2012 11 13, 2013 5 10 Java Java Java Java Inner Method for Code Reuse in Fine-grained and Its Effective Implementation Toshiki Hiramatsu 1,a) Yoshiki Sato 2,b) Shigeru Chiba 2,c) Received:
More informationMicrosoft PowerPoint ppt [互換モード]
計算機アーキテクチャ特論 A 2017 年 11 6 枝廣 計算機アーキテクチャ特論 A 並列アーキテクチャの基本 ( 枝廣 ) 10/2, 10/16, 10/23, 10/30, 11/6, 11/13, (11/20( 予備 )) 内容 ( 変更の可能性あり ) 序論 ( マルチコア= 並列アーキテクチャ概論 ) キャッシュ コヒーレンシ メモリ コンシステンシ 並列プログラミングモデル 語
More informationスライド 1
High Performance and Productivity 並列プログラミング課題と挑戦 HPC システムの利用の拡大の背景 シュミレーションへの要求 より複雑な問題をより精度良くシュミレーションすることが求められている HPC システムでの並列処理の要求の拡大 1. モデル アルゴリズム 解析対象は何れもより複雑で 規模の大きなものになっている 2. マイクロプロセッサのマルチコア化 3.
More informationスライド 1
GTC Japan 2013 PGI Accelerator Compiler 新 OpenACC 2.0 の機能と PGI アクセラレータコンパイラ 2013 年 7 月 加藤努株式会社ソフテック 本日の話 OpenACC ディレクティブで出来ることを改めて知ろう! OpenACC 1.0 の復習 ディレクティブ操作で出来ることを再確認 OpenACC 2.0 の新機能 プログラミングの自由度の向上へ
More informationfiš„v8.dvi
(2001) 49 2 333 343 Java Jasp 1 2 3 4 2001 4 13 2001 9 17 Java Jasp (JAva based Statistical Processor) Jasp Jasp. Java. 1. Jasp CPU 1 106 8569 4 6 7; fuji@ism.ac.jp 2 106 8569 4 6 7; nakanoj@ism.ac.jp
More information(Version: 2017/4/18) Intel CPU 1 Intel CPU( AMD CPU) 64bit SIMD Inline Assemler Windows Visual C++ Linux gcc 2 FPU SSE2 Intel CPU do
(Version: 2017/4/18) Intel CPU (kashi@waseda.jp) 1 Intel CPU( AMD CPU) 64bit SIMD Inline Assemler Windows Visual C++ Linux gcc 2 FPU SSE2 Intel CPU double 8087 FPU (floating point number processing unit)
More information