Microsoft PowerPoint - 高速化WS富山.pptx

Size: px
Start display at page:

Download "Microsoft PowerPoint - 高速化WS富山.pptx"

Transcription

1 京 における 高速化ワークショップ 性能分析 チューニングの手順について 登録施設利用促進機関 一般財団法人高度情報科学技術研究機構富山栄治

2 一般財団法人高度情報科学技術研究機構 2 性能分析 チューニング手順 どの程度の並列数が実現可能か把握する インバランスの懸念があるか把握する タイムステップループ I/O 処理など注目すべき箇所を把握する 並列数 並列化率などの目標を設定し チューニング時の指針とする スケーラビリティ 全体性能を確認し を特定する スケーラビリティについて性能阻害要因を 特定し 単体単体 並列並列 チューニングを実施する 詳細計測 キャッシュ有効利用 命令スケジューリング についてハードウェアモニタ情報などから性能阻害要因を特定し チューニングを実施する

3 一般財団法人高度情報科学技術研究機構 3 例 ) ( ナノ粒子など ) 単一粒子系に特化した RMC プログラム 京 などの mega-cores クラスを想定 基本的なチューニングは実施済 予測値 / 修正値アルゴリズムを実装し 通信回数を削減 MPI/OpenMP のハイブリッド並列に対応

4 一般財団法人高度情報科学技術研究機構 4 計算負荷が小さいため通信削減を重視したアルゴリズム MPI 通信は Allreduce で行っている

5 一般財団法人高度情報科学技術研究機構 5 K-scope プログラム構造解析支援ツール F90,F77 静的構造解析 京 プロファイルデータ対応 ツリーによる論理構造可視化 分析機能 検索 変数特性一覧 演算カウント 宣言 定義 参照 変数有効域 変数トレース 変数アクセス先設定 要求 B/F 算出 ループ 分岐 プロシージャ呼び出しに代表される論理構造の可視化コード リーディングにかかる時間と労力の削減

6 一般財団法人高度情報科学技術研究機構 6 研究目標 : 実行目標 : 1 億粒子の問題を 1 時間で解きたい 1 億粒子 10,000 並列 10,000 step 100 TFLOPS に基づきユーザー目標の妥当性を検討 分析用設定 : 1,000 万粒子 1,000 並列 100 step 実行目標の性能特性と大きく違わないか 1 ノードの計算規模は妥当か 分析にて使用可能な計算資源量か

7 一般財団法人高度情報科学技術研究機構 7 (fipp) サンプリング計測によってコスト情報が確認出来る 実行コマンド :fipp -C -d dir -i10 mpiexec./a.out 出力 :GUI, テキスト (fipppx) Fujitsu Instant Profiler Version Measured time : Thu Oct 31 11:54: CPU frequency : Process (MHz) Type of program : MPI & Thread (OpenMP & AUTO) Average at sampling interval : 10.0 (ms) Measured range : All ranges Virtual coordinate : (128, 0, 0) Procedures profile ************************************************************************************* Application - procedures ************************************************************************************* Cost % Barrier % MPI % Start End Application simplermc._omp_2_ MAIN simplermc._omp_3_ jwe_etbf simplermc._prl_4_ simplermc._prl_11_...

8 一般財団法人高度情報科学技術研究機構 8 特定 全体性能 負荷の殆どをひとつのループが占めている事がわかる には大きなインバランスがある Main program 部分の大部分はMPIコスト

9 一般財団法人高度情報科学技術研究機構 9 ロードインバランス fipp:application View:Profile:Cost Stacked Chart:Procedure ランク 0 が他に比べて非常に時間がかかっている ランク 0 の大部分はスレッドバリア待ち ランク 0 以外は MPI_barrier 待ち

10 一般財団法人高度情報科学技術研究機構 10 ランク 0 のスレッド間インバランス fipp:rank View:Rank 0:Profile:Bar Chart:Loop excel MPI_barrier thread rank スレッド番号に比例して処理が増加し インバランスが生じている

11 一般財団法人高度情報科学技術研究機構 11 インバランス解消 単体チューニング スレッド間の処理量が均等になるようにスケジューリングした excel Cost threads スレッドバリア待ちがほぼ解消され 実行時間が 54% に減少した

12 一般財団法人高度情報科学技術研究機構 12 全体スケーラビリティ ( プロセス ) 全体 excel 演算 演算と通信の分離計測 通信 スケーラビリティ weak scaling で計測 256 並列で実行時間が増加 計測すると waitall が増加している 演算時間のみ増加していた 通信に問題あり? 演算部分に原因がある!

13 一般財団法人高度情報科学技術研究機構 13 全体スケーラビリティ ( プロセス ) 並列チューニング 各プロセスの演算時間のインバランスを確認した fipp スケーラビリティ の演算時間が長いため他のプロセスが待っている 上記情報を基に調査した結果 本来均等になるはずの粒子が特定のプロセスに偏る不具合があり 演算インバランスが生じていた事がわかった 不具合を修正し 性能劣化を解消した

14 一般財団法人高度情報科学技術研究機構 14 区間スケーラビリティ ( スレッド ) excel スケーラビリティ 実行スレッド数 1 スレッドと 8 スレッド実行での全体の加速率は約 2.5 区間毎にみると区間 D の実行時間が大きく かつスケーラビリティが悪いように見える

15 一般財団法人高度情報科学技術研究機構 15 区間スケーラビリティ ( スレッド ) 単体チューニング excel スケーラビリティ 加速率が 1.1 と非常に低い区間 D について調査した結果 スレッド非並列部があることを確認した OpenMP によりスレッド並列化し 全体の 20% 高速化した 区間ごとのスケーラビリティ評価が重要!

16 一般財団法人高度情報科学技術研究機構 16 詳細計測 (fapp) スケーラビリティ 詳細計測 実行コマンド :fapp -C -d dir -Ihwm -Hevent=Statistics mpiexec./a.out 出力 :GUI,fapppx MPI profile ************************************************************************************* Application ************************************************************************************* Kind Elapsed(s) Wait(s) Byte Call ( 0-4K 4K-64K 64K-1024K 1024KByte-) all AVG mpi_comm_rank_ MAX MIN AVG mpi_comm_size_ MAX MIN AVG mpi_finalize_ MAX MIN AVG mpi_init_ MAX MIN AVG mpi_allreduce_ MAX MIN AVG mpi_barrier_ MAX MIN AVG mpi_bcast_ MAX MIN 様々なハードウェアモニタ情報が確認出来る

17 一般財団法人高度情報科学技術研究機構 17 詳細計測 ( 精密 PA 可視化機能 ) 精密 PA によって詳細な性能情報を把握できる do i=1,n x = px(0)*t(i)& &+px(1)*(t_omp(ifdx(1,i),id)+t_omp(ifdx(-1,i),id))& &+px(2)*(t_omp(ifdx(2,i),id)+t_omp(ifdx(-2,i),id)) y = py(0)*t(i)& &+py(1)*(t_omp(ifdy(1,i),id)+t_omp(ifdy(-1,i),id))& &+py(2)*(t_omp(ifdy(2,i),id)+t_omp(ifdy(-2,i),id)) z = pz(0)*t(i)& &+pz(1)*(t_omp(ifdz(1,i),id)+t_omp(ifdz(-1,i),id))& &+pz(2)*(t_omp(ifdz(2,i),id)+t_omp(ifdz(-2,i),id)) tt_omp(i,id)=p0_2*t_omp(i,id)-0.5d0*(x+y+z) enddo スケーラビリティ 詳細計測 キャッシュ有効利用 パフォーマンス情報 メモリ キャッシュ情報 SIMD 情報 CPU 時間情報 命令情報 バランス情報 命令スケジューリング

18 一般財団法人高度情報科学技術研究機構 18 詳細計測 ( 精密 PA) 単体チューニング 精密 PA から キャッシュアクセス待ちが多く発生していたためリストアクセスパターンを調査したところ x のみキャッシュに収まらないアクセスパターンであり 同一ループのためそれが y,z の計算にまで悪影響を及ぼしていると推察された スケーラビリティ 詳細計測 キャッシュ有効利用 命令スケジューリング do i=1,n y = py(0)*t(i)& &+py(1)*(t_omp(ifdy(1,i),id)+t_omp(ifdy(-1,i),id))& &+py(2)*(t_omp(ifdy(2,i),id)+t_omp(ifdy(-2,i),id)) z = pz(0)*t(i)& &+pz(1)*(t_omp(ifdz(1,i),id)+t_omp(ifdz(-1,i),id))& &+pz(2)*(t_omp(ifdz(2,i),id)+t_omp(ifdz(-2,i),id)) tt_omp(i,id)=p0_2*t_omp(i,id)-0.5d0*(y+z) enddo do i=1,n x = px(0)*t(i)& &+px(1)*(t_omp(ifdx(1,i),id)+t_omp(ifdx(-1,i),id))& &+px(2)*(t_omp(ifdx(2,i),id)+t_omp(ifdx(-2,i),id)) tt_omp(i,id)=tt_omp(i,id)-0.5d0*x enddo y,z ループ分割したところ 実行性能が 1.7 倍に向上した x

19 一般財団法人高度情報科学技術研究機構 19 通信時間の隠蔽 call mpi_isend call mpi_irecv 通信時間の隠蔽 call mpi_isend call mpi_irecv call mpi_wait ( 通信処理 ) do i=1,n 通信処理 do i=1,n do i=1,n call mpi_wait do i=1,n スケーラビリティ 詳細計測 キャッシュ有効利用 命令スケジューリング 通信に依存しない演算によって通信時間を隠蔽する 上右図のように通信時間の隠蔽を図っているプログラムの場合 一旦左のように演算と通信を分離したコードに修正して計測する 分離しても処理時間に変化ない 隠蔽が効果的に働いていない!

20 一般財団法人高度情報科学技術研究機構 20 通信特性調査 mpiexec -mca mpi_print stats 1./a.out =================================================================== /****************** MPI Statistical Information ******************/ =================================================================== MPI Information Per-peer Communication Count MAX MIN AVE In_Node 46 [ 0] 24 [ 35] 35.2 Neighbor [ 32] [ 1] Not_Neighbor 4405 [ 124] 4060 [ 109] Total_Count [ 34] [ 0] Connection 127 [ 0] 127 [ 0] Max_Hop 18 [ 0] 11 [ 28] 14.5 Average_Hop 9.07 [ 0] 5.54 [ 28] 6.87 call mpi_isend call mpi_irecv 期待した通信開始 Per-protocol Communication Count MAX MIN AVE Eager 1368 [ 100] 963 [ 27] Rendezvous [ 27] [ 2] Hasty_Rendezvous 0 [ 0] 0 [ 0] 0.0 Unexpected_Message 3 [ 12] 1 [ 0] 1.1 do i=1,n do i=1,n 通信処理 スケーラビリティ Rendezvous 通信の場合 そのままでは隠蔽されない call mpi_wait 通信処理 詳細計測 * 京ポータルドキュメントチュートリアル 2.2 参照 キャッシュ有効利用 実際の通信開始 命令スケジューリング

21 一般財団法人高度情報科学技術研究機構 21 MPI_test の挿入 並列チューニング Rendezvous 通信の場合 MPI_test を挿入することで通信処理を促し 通信時間の隠蔽を有効にする call mpi_isend call mpi_irecv excel do i=1,n call mpi_test do i=1,n call mpi_wait 通信処理 スケーラビリティ 詳細計測 キャッシュ有効利用 MPI_test により通信隠蔽が実現 0 wait の Max は 66% 短縮 Min はほぼ 0 秒に 命令スケジューリング

22 一般財団法人高度情報科学技術研究機構 22 まとめ 性能分析は以下の流れで行う 詳細計測 では の特定や区間ごとのスケーラビリティを分析し 性能阻害要因を特定する 目標とする並列数などを踏まえ どのを詳細分析するか スケーラビリティが許容出来るかどうか を判断する 詳細計測では に対して詳細に分析し 性能阻害要因を特定 チューニングを実施する ただし その分析コストや効果について注意が必要

26

26 26 FIPP FAPP I/O LAMMPS LJ atomic fluid 32,000 atoms for 100 timesteps FX10 4 16 / (FIPP) FIPP fipp - C - d dir/ - Ihwm,call - i10 mpiexec./a.out GUI, fipppx - A - d dir/ - Ihwm,cpu,balance,call,src

More information

理化学研究所計算科学研究機構研究部門量子系分子科学研究チーム殿 hp170163: 有機半導体 有機分子発光材料の全自動探索シミュレーションシステムの開発 高度化支援作業 2017 年 9 6 ( R405 般財団法 度情報科学技術研究機構利 援部 1

理化学研究所計算科学研究機構研究部門量子系分子科学研究チーム殿 hp170163: 有機半導体 有機分子発光材料の全自動探索シミュレーションシステムの開発 高度化支援作業 2017 年 9 6 ( R405 般財団法 度情報科学技術研究機構利 援部 1 理化学研究所計算科学研究機構研究部門量子系分子科学研究チーム殿 hp170163: 有機半導体 有機分子発光材料の全自動探索シミュレーションシステムの開発 高度化支援作業 2017 年 9 6 ( )@AICS R405 般財団法 度情報科学技術研究機構利 援部 1 Outline 高度化支援の依頼内容 実行環境と計算条件 PWscf フロー図 各ライブラリを使用した場合のプログラム全体の実行時間の比較

More information

演習準備

演習準備 演習準備 2014 年 3 月 5 日神戸大学大学院システム情報学研究科森下浩二 1 演習準備の内容 神戸大 FX10(π-Computer) 利用準備 システム概要 ログイン方法 コンパイルとジョブ実行方法 MPI 復習 1. MPIプログラムの基本構成 2. 並列実行 3. 1 対 1 通信 集団通信 4. データ 処理分割 5. 計算時間計測 2 神戸大 FX10(π-Computer) 利用準備

More information

C/C++ FORTRAN FORTRAN MPI MPI MPI UNIX Windows (SIMD Single Instruction Multipule Data) SMP(Symmetric Multi Processor) MPI (thread) OpenMP[5]

C/C++ FORTRAN FORTRAN MPI MPI MPI UNIX Windows (SIMD Single Instruction Multipule Data) SMP(Symmetric Multi Processor) MPI (thread) OpenMP[5] MPI ( ) snozawa@env.sci.ibaraki.ac.jp 1 ( ) MPI MPI Message Passing Interface[2] MPI MPICH[3],LAM/MPI[4] (MIMDMultiple Instruction Multipule Data) Message Passing ( ) (MPI (rank) PE(Processing Element)

More information

Microsoft PowerPoint - KHPCSS pptx

Microsoft PowerPoint - KHPCSS pptx KOBE HPC サマースクール 2018( 初級 ) 9. 1 対 1 通信関数, 集団通信関数 2018/8/8 KOBE HPC サマースクール 2018 1 2018/8/8 KOBE HPC サマースクール 2018 2 MPI プログラム (M-2):1 対 1 通信関数 問題 1 から 100 までの整数の和を 2 並列で求めなさい. プログラムの方針 プロセス0: 1から50までの和を求める.

More information

コードのチューニング

コードのチューニング ハイブリッド並列 八木学 ( 理化学研究所計算科学研究機構 ) 謝辞 松本洋介氏 ( 千葉大学 ) KOBE HPC Spring School 2017 2017 年 3 月 14 日神戸大学計算科学教育センター MPI とは Message Passing Interface 分散メモリのプロセス間の通信規格(API) SPMD(Single Program Multi Data) が基本 -

More information

演習準備 2014 年 3 月 5 日神戸大学大学院システム情報学研究科森下浩二 1 RIKEN AICS HPC Spring School /3/5

演習準備 2014 年 3 月 5 日神戸大学大学院システム情報学研究科森下浩二 1 RIKEN AICS HPC Spring School /3/5 演習準備 2014 年 3 月 5 日神戸大学大学院システム情報学研究科森下浩二 1 演習準備の内容 神戸大 FX10(π-Computer) 利用準備 システム概要 ログイン方法 コンパイルとジョブ実行方法 MPI 復習 1. MPIプログラムの基本構成 2. 並列実行 3. 1 対 1 通信 集団通信 4. データ 処理分割 5. 計算時間計測 2 神戸大 FX10(π-Computer) 利用準備

More information

Microsoft PowerPoint - OpenMP入門.pptx

Microsoft PowerPoint - OpenMP入門.pptx OpenMP 入門 須田礼仁 2009/10/30 初版 OpenMP 共有メモリ並列処理の標準化 API http://openmp.org/ 最新版は 30 3.0 バージョンによる違いはあまり大きくない サポートしているバージョンはともかく csp で動きます gcc も対応しています やっぱり SPMD Single Program Multiple Data プログラム #pragma omp

More information

Microsoft PowerPoint _MPI-03.pptx

Microsoft PowerPoint _MPI-03.pptx 計算科学演習 Ⅰ ( 第 11 回 ) MPI を いた並列計算 (III) 神戸大学大学院システム情報学研究科横川三津夫 yokokawa@port.kobe-u.ac.jp 2014/07/03 計算科学演習 Ⅰ:MPI を用いた並列計算 (III) 1 2014/07/03 計算科学演習 Ⅰ:MPI を用いた並列計算 (III) 2 今週の講義の概要 1. 前回課題の解説 2. 部分配列とローカルインデックス

More information

NUMAの構成

NUMAの構成 メッセージパッシング プログラミング 天野 共有メモリ対メッセージパッシング 共有メモリモデル 共有変数を用いた単純な記述自動並列化コンパイラ簡単なディレクティブによる並列化 :OpenMP メッセージパッシング 形式検証が可能 ( ブロッキング ) 副作用がない ( 共有変数は副作用そのもの ) コストが小さい メッセージパッシングモデル 共有変数は使わない 共有メモリがないマシンでも実装可能 クラスタ

More information

Microsoft PowerPoint - 演習2:MPI初歩.pptx

Microsoft PowerPoint - 演習2:MPI初歩.pptx 演習 2:MPI 初歩 - 並列に計算する - 2013 年 8 月 6 日 神戸大学大学院システム情報学研究科計算科学専攻横川三津夫 MPI( メッセージ パッシング インターフェース ) を使おう! [ 演習 2 の内容 ] はじめの一歩課題 1: Hello, world を並列に出力する. 課題 2: プロセス 0 からのメッセージを受け取る (1 対 1 通信 ). 部分に分けて計算しよう課題

More information

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc 2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク 東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコア クアッドコアの CPU を次々と市場に送り出していて それらが PC クラスタの CPU として採用され HPC に活用されている ここでは Intel クアッドコア

More information

Microsoft PowerPoint - 講義:コミュニケータ.pptx

Microsoft PowerPoint - 講義:コミュニケータ.pptx コミュニケータとデータタイプ (Communicator and Datatype) 2019 年 3 月 15 日 神戸大学大学院システム情報学研究科横川三津夫 2019/3/15 Kobe HPC Spring School 2019 1 講義の内容 コミュニケータ (Communicator) データタイプ (Datatype) 演習問題 2019/3/15 Kobe HPC Spring School

More information

<4D F736F F F696E74202D D F95C097F D834F E F93FC96E5284D F96E291E85F8DE391E52E >

<4D F736F F F696E74202D D F95C097F D834F E F93FC96E5284D F96E291E85F8DE391E52E > SX-ACE 並列プログラミング入門 (MPI) ( 演習補足資料 ) 大阪大学サイバーメディアセンター日本電気株式会社 演習問題の構成 ディレクトリ構成 MPI/ -- practice_1 演習問題 1 -- practice_2 演習問題 2 -- practice_3 演習問題 3 -- practice_4 演習問題 4 -- practice_5 演習問題 5 -- practice_6

More information

Excel97関数編

Excel97関数編 Excel97 SUM Microsoft Excel 97... 1... 1... 1... 2... 3... 3... 4... 5... 6... 6... 7 SUM... 8... 11 Microsoft Excel 97 AVERAGE MIN MAX SUM IF 2 RANK TODAY ROUND COUNT INT VLOOKUP 1/15 Excel A B C A B

More information

Microsoft PowerPoint _MPI-01.pptx

Microsoft PowerPoint _MPI-01.pptx 計算科学演習 Ⅰ MPI を いた並列計算 (I) 神戸大学大学院システム情報学研究科谷口隆晴 yaguchi@pearl.kobe-u.ac.jp この資料は昨年度担当の横川先生の資料を参考にさせて頂いています. 2016/06/23 MPI を用いた並列計算 (I) 1 講義概要 分散メモリ型計算機上のプログラミング メッセージ パシング インターフェイス (Message Passing Interface,MPI)

More information

PowerPoint Presentation

PowerPoint Presentation 2015 年 4 月 24 日 ( 金 ) 第 18 回 FrontISTR 研究会 FrontISTR の並列計算の基礎 奥田洋司 okuda@k.u-tokyo.ac.jp 東京大学大学院 新領域創成科学研究科 人間環境学専攻 目次 導入 計算力学とは 連続体の力学 連立 1 次方程式 FEM 構造解析の概要 なぜ並列化か? 並列アーキテクチャ 並列プログラミング FEM 計算におけるノード間並列

More information

並列・高速化を実現するための 高速化サービスの概要と事例紹介

並列・高速化を実現するための 高速化サービスの概要と事例紹介 第 4 回 AVS 可視化フォーラム 2019 並列 高速化を実現するための 高速化サービスの概要と事例紹介 株式会社アーク情報システム営業部仮野亮ソリューション技術部佐々木竜一 2019.08.30 はじめに アーク情報システムの紹介 高速化サービスとは? 事例紹介 コンサルティングサービスについて アーク情報システムの紹介 設立 資本金 :1987 年 10 月 :3 億 600 万円 従業員数

More information

並列計算導入.pptx

並列計算導入.pptx 並列計算の基礎 MPI を用いた並列計算 並列計算の環境 並列計算 複数の計算ユニット(PU, ore, Pなど を使用して 一つの問題 計算 を行わせる 近年 並列計算を手軽に使用できる環境が急速に整いつつある >通常のP PU(entral Processing Unit)上に計算装置であるoreが 複数含まれている Intel ore i7 シリーズ: 4つの計算装置(ore) 通常のプログラム

More information

演習1: 演習準備

演習1: 演習準備 演習 1: 演習準備 2013 年 8 月 6 日神戸大学大学院システム情報学研究科森下浩二 1 演習 1 の内容 神戸大 X10(π-omputer) について システム概要 ログイン方法 コンパイルとジョブ実行方法 OpenMP の演習 ( 入門編 ) 1. parallel 構文 実行時ライブラリ関数 2. ループ構文 3. shared 節 private 節 4. reduction 節

More information

2 T 1 N n T n α = T 1 nt n (1) α = 1 100% OpenMP MPI OpenMP OpenMP MPI (Message Passing Interface) MPI MPICH OpenMPI 1 OpenMP MPI MPI (trivial p

2 T 1 N n T n α = T 1 nt n (1) α = 1 100% OpenMP MPI OpenMP OpenMP MPI (Message Passing Interface) MPI MPICH OpenMPI 1 OpenMP MPI MPI (trivial p 22 6 22 MPI MPI 1 1 2 2 3 MPI 3 4 7 4.1.................................. 7 4.2 ( )................................ 10 4.3 (Allreduce )................................. 12 5 14 5.1........................................

More information

スライド 1

スライド 1 目次 2.MPI プログラミング入門 この資料は, スーパーコン 10 で使用したものである. ごく基本的な内容なので, 現在でも十分利用できると思われるものなので, ここに紹介させて頂く. ただし, 古い情報も含まれているので注意が必要である. 今年度版の解説は, 本選の初日に配布する予定である. 1/20 2.MPI プログラミング入門 (1) 基本 説明 MPI (message passing

More information

Microsoft Word ●MPI性能検証_志田_ _更新__ doc

Microsoft Word ●MPI性能検証_志田_ _更新__ doc 2.2.2. MPI 性能検証 富士通株式会社 志田直之 ここでは,Open MPI および富士通 MPI を用いて,MPI 性能の評価結果について報告する 1. 性能評価のポイント MPI の性能評価は, 大きく 3 つに分けて評価を行った プロセス数増加に向けた検証 ノード内通信とノード間通信の検証 性能検証 - 連続データ転送 - ストライド転送 2. プロセス数増加に向けた検証 評価に用いたシステムを以下に示す

More information

040312研究会HPC2500.ppt

040312研究会HPC2500.ppt 2004312 e-mail : m-aoki@jp.fujitsu.com 1 2 PRIMEPOWER VX/VPP300 VPP700 GP7000 AP3000 VPP5000 PRIMEPOWER 2000 PRIMEPOWER HPC2500 1998 1999 2000 2001 2002 2003 3 VPP5000 PRIMEPOWER ( 1 VU 9.6 GF 16GB 1 VU

More information

組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 Copyright 2013 FUJITSU COMPUTER TECHNOLOGIES LIMITED

組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 Copyright 2013 FUJITSU COMPUTER TECHNOLOGIES LIMITED 組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 組込み Linux における起動高速化 組込み Linux の起動時間短縮について依頼あり スペック CPU : Cortex-A9 ( 800MB - single) RAM: 500MB 程度 要件 起動時間 画出し 5 秒 音出し 3 秒 終了時間 数 ms で電源断 1 課題と対策 問題点

More information

スライド 1

スライド 1 本日 (4/25) の内容 1 並列計算の概要 並列化計算の目的 並列コンピュータ環境 並列プログラミングの方法 MPI を用いた並列プログラミング 並列化効率 2 並列計算の実行方法 Hello world モンテカルロ法による円周率計算 並列計算のはじまり 並列計算の最初の構想を イギリスの科学者リチャードソンが 1922 年に発表 < リチャードソンの夢 > 64000 人を円形の劇場に集めて

More information

トレーサビリティとインパクト分析 2011 年 7 月 13 日 海谷治彦 1

トレーサビリティとインパクト分析 2011 年 7 月 13 日 海谷治彦 1 トレーサビリティとインパクト分析 2011 年 7 月 13 日 海谷治彦 1 背景 : ソフトウェア成果物 プロの開発では多様な成果物が作成される. 要求仕様書 設計仕様書 ソースコード テストケース 成果物内, 成果物間の相互の関係 ( トレース ) を知ることが重要. 2 トレースする理由 開発中に, どの機能が実現済か確認する. 要求仕様書 コード バグの原因を探す. 仕様書 コード 既存ソフトに新機能追加や性能アップのため,

More information

Microsoft PowerPoint - 第10回講義(2015年12月22日)-1 .pptx

Microsoft PowerPoint - 第10回講義(2015年12月22日)-1 .pptx 非同期通信 東京大学情報基盤センター准教授片桐孝洋 1 2015 年 12 月 22 日 ( 火 )10:25-12:10 講義日程 ( 工学部共通科目 ) 10 月 6 日 : ガイダンス 1. 10 月 13 日 並列数値処理の基本演算 ( 座学 ) 2. 10 月 20 日 : スパコン利用開始 ログイン作業 テストプログラム実行 3. 10 月 27 日 高性能演算技法 1 ( ループアンローリング

More information

Microsoft PowerPoint - sales2.ppt

Microsoft PowerPoint - sales2.ppt 並列化の基礎 ( 言葉の意味 ) 並列実行には 複数のタスク実行主体が必要 共有メモリ型システム (SMP) での並列 プロセスを使用した並列化 スレッドとは? スレッドを使用した並列化 分散メモリ型システムでの並列 メッセージパッシングによる並列化 並列アーキテクチャ関連の言葉を押さえよう 21 プロセスを使用した並列処理 並列処理を行うためには複数のプロセスの生成必要プロセスとは プログラム実行のための能動実態メモリ空間親プロセス子プロセス

More information

4.7講義.key

4.7講義.key スーパーコンピュータとアプリケーションの性能 2016 年 4 月 国立研究開発法人理化学研究所 計算科学研究機構 運用技術部門 ソフトウェア技術チーム チームヘッド 南 一生 minami_kaz@riken.jp RIKEN ADVANCED INSTITUTE FOR COMPUTATIONAL SCIENCE 講義の概要 スーパーコンピュータとアプリケーションの性能 アプリケーションの性能最適化

More information

コードのチューニング

コードのチューニング MPI による並列化実装 ~ ハイブリッド並列 ~ 八木学 ( 理化学研究所計算科学研究センター ) KOBE HPC Spring School 2019 2019 年 3 月 14 日 MPI とは Message Passing Interface 分散メモリのプロセス間の通信規格(API) SPMD(Single Program Multi Data) が基本 - 各プロセスが 同じことをやる

More information

I I / 47

I I / 47 1 2013.07.18 1 I 2013 3 I 2013.07.18 1 / 47 A Flat MPI B 1 2 C: 2 I 2013.07.18 2 / 47 I 2013.07.18 3 / 47 #PJM -L "rscgrp=small" π-computer small: 12 large: 84 school: 24 84 16 = 1344 small school small

More information

Fujitsu Standard Tool

Fujitsu Standard Tool 低レベル通信ライブラリ ACP の PGAS ランタイム向け機能 2014 年 10 月 24 日富士通株式会社 JST CREST 安島雄一郎 Copyright 2014 FUJITSU LIMITED 本発表の構成 概要 インタフェース チャネル ベクタ リスト メモリアロケータ アドレス変換 グローバルメモリ参照 モジュール構成 メモリ消費量と性能評価 利用例 今後の課題 まとめ 1 Copyright

More information

120802_MPI.ppt

120802_MPI.ppt CPU CPU CPU CPU CPU SMP Symmetric MultiProcessing CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CP OpenMP MPI MPI CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU MPI MPI+OpenMP CPU CPU CPU CPU CPU CPU CPU CP

More information

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード] 200/0/9 数値流体解析の並列効率とその GPU による高速化の試み 清水建設 ( 株 ) 技術研究所 PHAM VAN PHUC ( ファムバンフック ) 流体計算時間短縮と GPU の活用の試み 現 CPUとの比較によりGPU 活用の可能性 現 CPU の最大利用 ノード内の最大計算資源の利用 すべてCPUコアの利用 適切なアルゴリズムの利用 CPU コア性能の何倍? GPU の利用の試み

More information

2007年度 計算機システム演習 第3回

2007年度 計算機システム演習 第3回 2014 年度 実践的並列コンピューティング 第 10 回 MPI による分散メモリ並列プログラミング (3) 遠藤敏夫 endo@is.titech.ac.jp 1 MPI プログラムの性能を考える 前回までは MPI プログラムの挙動の正しさを議論 今回は速度性能に注目 MPIプログラムの実行時間 = プロセス内計算時間 + プロセス間通信時間 計算量 ( プロセス内 ) ボトルネック有無メモリアクセス量

More information

Insert your Title here

Insert your Title here マルチコア マルチスレッド環境での静的解析ツールの応用 米 GrammaTech 社 CodeSonar によるスレッド間のデータ競合の検出 2013 GrammaTech, Inc. All rights reserved Agenda 並列実行に起因する不具合の摘出 なぜ 並列実行されるプログラミングは難しいのか データの競合 デッドロック どのようにして静的解析ツールで並列実行の問題を見つけるのか?

More information

コードのチューニング

コードのチューニング OpenMP による並列化実装 八木学 ( 理化学研究所計算科学研究センター ) KOBE HPC Spring School 2019 2019 年 3 月 14 日 スレッド並列とプロセス並列 スレッド並列 OpenMP 自動並列化 プロセス並列 MPI プロセス プロセス プロセス スレッドスレッドスレッドスレッド メモリ メモリ プロセス間通信 Private Private Private

More information

内容 インテル Advisor ベクトル化アドバイザー入門ガイド Version インテル Advisor の利用 ワークフロー... 3 STEP1. 必要条件の設定... 4 STEP2. インテル Advisor の起動... 5 STEP3. プロジェクトの作成

内容 インテル Advisor ベクトル化アドバイザー入門ガイド Version インテル Advisor の利用 ワークフロー... 3 STEP1. 必要条件の設定... 4 STEP2. インテル Advisor の起動... 5 STEP3. プロジェクトの作成 内容 インテル Advisor ベクトル化アドバイザー入門ガイド Version 1.0 1. インテル Advisor の利用... 2 2. ワークフロー... 3 STEP1. 必要条件の設定... 4 STEP2. インテル Advisor の起動... 5 STEP3. プロジェクトの作成と設定... 7 STEP4. ベクトル化に関する情報を取得する... 9 STEP5. ループ処理の詳細を取得する...

More information

GeoFEM開発の経験から

GeoFEM開発の経験から FrontISTR における並列計算のしくみ < 領域分割に基づく並列 FEM> メッシュ分割 領域分割 領域分割 ( パーティショニングツール ) 全体制御 解析制御 メッシュ hecmw_ctrl.dat 境界条件 材料物性 計算制御パラメータ 可視化パラメータ 領域分割ツール 逐次計算 並列計算 Front ISTR FEM の主な演算 FrontISTR における並列計算のしくみ < 領域分割に基づく並列

More information

Microsoft PowerPoint - 演習1:並列化と評価.pptx

Microsoft PowerPoint - 演習1:並列化と評価.pptx 講義 2& 演習 1 プログラム並列化と性能評価 神戸大学大学院システム情報学研究科横川三津夫 yokokawa@port.kobe-u.ac.jp 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 1 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 2 2 次元温度分布の計算

More information

openmp1_Yaguchi_version_170530

openmp1_Yaguchi_version_170530 並列計算とは /OpenMP の初歩 (1) 今 の内容 なぜ並列計算が必要か? スーパーコンピュータの性能動向 1ExaFLOPS 次世代スハ コン 京 1PFLOPS 性能 1TFLOPS 1GFLOPS スカラー機ベクトル機ベクトル並列機並列機 X-MP ncube2 CRAY-1 S-810 SR8000 VPP500 CM-5 ASCI-5 ASCI-4 S3800 T3E-900 SR2201

More information

±é½¬£²¡§£Í£Ð£É½éÊâ

±é½¬£²¡§£Í£Ð£É½éÊâ 2012 8 7 1 / 52 MPI Hello World I ( ) Hello World II ( ) I ( ) II ( ) ( sendrecv) π ( ) MPI fortran C wget http://www.na.scitec.kobe-u.ac.jp/ yaguchi/riken2012/enshu2.zip unzip enshu2.zip 2 / 52 FORTRAN

More information

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015 ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ 本セッションの目的 本セッションでは ERDAS IMAGINEにおける処理速度向上を目的として機器 (SSD 等 ) 及び並列処理の比較 検討を行った 1.SSD 及び RAMDISK を利用した処理速度の検証 2.Condorによる複数 PCを用いた並列処理 2.1 分散並列処理による高速化試験 (ERDAS IMAGINEのCondorを使用した試験

More information

05-opt-system.ppt

05-opt-system.ppt 筑波大学計算科学研究センター HPC サマーセミナー 最適化 II ( 通信最適化 ) 建部修見 tatebe@cs.tsukuba.ac.jp 筑波大学大学院システム情報系計算科学研究センター 講義内容 基本通信性能 1 対 1 通信 集団通信 プロファイラ 通信最適化 通信の削減 通信遅延隠蔽 通信ブロック 負荷分散 基本通信性能 通信最適化のためには基本通信性能を押さえておくことが重要! 各種通信パターンにおける通信性能の把握

More information

2015 TRON Symposium セッション 組込み機器のための機能安全対応 TRON Safe Kernel TRON Safe Kernel の紹介 2015/12/10 株式会社日立超 LSIシステムズ製品ソリューション設計部トロンフォーラム TRON Safe Kernel WG 幹事

2015 TRON Symposium セッション 組込み機器のための機能安全対応 TRON Safe Kernel TRON Safe Kernel の紹介 2015/12/10 株式会社日立超 LSIシステムズ製品ソリューション設計部トロンフォーラム TRON Safe Kernel WG 幹事 2015 TRON Symposium セッション 組込み機器のための機能安全対応 TRON Safe Kernel TRON Safe Kernel の紹介 2015/12/10 株式会社日立超 LSIシステムズ製品ソリューション設計部トロンフォーラム TRON Safe Kernel WG 幹事 豊山 祐一 Hitachi ULSI Systems Co., Ltd. 2015. All rights

More information

修士論文

修士論文 AVX を用いた倍々精度疎行列ベクトル積の高速化 菱沼利彰 1 藤井昭宏 1 田中輝雄 1 長谷川秀彦 2 1 工学院大学 2 筑波大学 1 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算 - 4. 実験 - 倍々精度疎行列ベクトル積 - 5. まとめ 多倍長精度計算フォーラム 2 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算

More information

about MPI

about MPI 本日 (4/16) の内容 1 並列計算の概要 並列化計算の目的 並列コンピュータ環境 並列プログラミングの方法 MPI を用いた並列プログラミング 並列化効率 2 並列計算の実行方法 Hello world モンテカルロ法による円周率計算 並列計算のはじまり 並列計算の最初の構想を イギリスの科学者リチャードソンが 1922 年に発表 < リチャードソンの夢 > 64000 人を円形の劇場に集めて

More information

main() {... } main() { main() { main() {......... } } } main() { main() { main() {......... } } } main() { if(rank==)... } main() { if(rank==)... } main() { if(rank==x)... } P(N) P(N) / P(M) * ( M / N

More information

Microsoft PowerPoint - ca ppt [互換モード]

Microsoft PowerPoint - ca ppt [互換モード] 大阪電気通信大学情報通信工学部光システム工学科 2 年次配当科目 コンピュータアルゴリズム 良いアルゴリズムとは 第 2 講 : 平成 20 年 10 月 10 日 ( 金 ) 4 限 E252 教室 中村嘉隆 ( なかむらよしたか ) 奈良先端科学技術大学院大学助教 y-nakamr@is.naist.jp http://narayama.naist.jp/~y-nakamr/ 第 1 講の復習

More information

86

86 86 86 86 main() {... } main() { main() { main() {......... } } } 86 main() { main() { main() {......... } } } main() { if(rank==)... } main() { if(rank==)... } main() { if(rank==x)... } 86 P(N) P(N) /

More information

課題 S1 解説 Fortran 編 中島研吾 東京大学情報基盤センター

課題 S1 解説 Fortran 編 中島研吾 東京大学情報基盤センター 課題 S1 解説 Fortran 編 中島研吾 東京大学情報基盤センター 内容 課題 S1 /a1.0~a1.3, /a2.0~a2.3 から局所ベクトル情報を読み込み, 全体ベクトルのノルム ( x ) を求めるプログラムを作成する (S1-1) file.f,file2.f をそれぞれ参考にする 下記の数値積分の結果を台形公式によって求めるプログラムを作成する

More information

Microsoft PowerPoint - 講義:片方向通信.pptx

Microsoft PowerPoint - 講義:片方向通信.pptx MPI( 片方向通信 ) 09 年 3 月 5 日 神戸大学大学院システム情報学研究科計算科学専攻横川三津夫 09/3/5 KOBE HPC Spring School 09 分散メモリ型並列計算機 複数のプロセッサがネットワークで接続されており, れぞれのプロセッサ (PE) が, メモリを持っている. 各 PE が自分のメモリ領域のみアクセス可能 特徴数千から数万 PE 規模の並列システムが可能

More information

Microsoft PowerPoint - 【最終提出版】 MATLAB_EXPO2014講演資料_ルネサス菅原.pptx

Microsoft PowerPoint - 【最終提出版】 MATLAB_EXPO2014講演資料_ルネサス菅原.pptx MATLAB/Simulink を使用したモータ制御アプリのモデルベース開発事例 ルネサスエレクトロニクス株式会社 第二ソリューション事業本部産業第一事業部家電ソリューション部 Rev. 1.00 2014 Renesas Electronics Corporation. All rights reserved. IAAS-AA-14-0202-1 目次 1. はじめに 1.1 モデルベース開発とは?

More information

スライド 1

スライド 1 Parallel Programming in MPI part 2 1 1 Today's Topic ノンブロッキング通信 Non-Blocking Communication 通信の完了を待つ間に他の処理を行う Execute other instructions while waiting for the completion of a communication. 集団通信関数の実装 Implementation

More information

Microsoft PowerPoint - S1-ref-F.ppt [互換モード]

Microsoft PowerPoint - S1-ref-F.ppt [互換モード] 課題 S1 解説 Fortran 言語編 RIKEN AICS HPC Summer School 2014 中島研吾 ( 東大 情報基盤センター ) 横川三津夫 ( 神戸大 計算科学教育センター ) MPI Programming 課題 S1 (1/2) /a1.0~a1.3, /a2.0~a2.3 から局所ベクトル情報を読み込み, 全体ベクトルのノルム ( x ) を求めるプログラムを作成する

More information

(速報) Xeon E 系モデル 新プロセッサ性能について

(速報) Xeon E 系モデル 新プロセッサ性能について ( 速報 ) Xeon E5-2600 系モデル新プロセッサ性能について 2012 年 3 月 16 日 富士通株式会社 2012 年 3 月 7 日 インテル社より最新 CPU インテル Xeon E5 ファミリー の発表がありました この最新 CPU について PC クラスタシステムの観点から性能検証を行いましたので 概要を速報いたします プロセッサインテル Xeon プロセッサ E5-2690

More information

製品開発の現場では 各種のセンサーや測定環境を利用したデータ解析が行われ シミュレーションや動作検証等に役立てられています しかし 日々収集されるデータ量は増加し 解析も複雑化しており データ解析の負荷は徐々に重くなっています 例えば自動車の車両計測データを解析する場合 取得したデータをそのまま解析

製品開発の現場では 各種のセンサーや測定環境を利用したデータ解析が行われ シミュレーションや動作検証等に役立てられています しかし 日々収集されるデータ量は増加し 解析も複雑化しており データ解析の負荷は徐々に重くなっています 例えば自動車の車両計測データを解析する場合 取得したデータをそのまま解析 ホワイトペーパー Excel と MATLAB の連携がデータ解析の課題を解決 製品開発の現場では 各種のセンサーや測定環境を利用したデータ解析が行われ シミュレーションや動作検証等に役立てられています しかし 日々収集されるデータ量は増加し 解析も複雑化しており データ解析の負荷は徐々に重くなっています 例えば自動車の車両計測データを解析する場合 取得したデータをそのまま解析に使用することはできず

More information

JS2-14 マルチコアCPU時代の Javaプログラミング

JS2-14 マルチコアCPU時代の Javaプログラミング JavaOne Tokyo 2012 JS2-14 マルチコア CPU 時代の Java プログラミング 2012 年 4 月 5 日 富士通株式会社数村憲治 Copyright 2012 FUJITSU LIMITED 自己紹介 数村憲治 kzr@jp.fujitsu.com 富士通株式会社 Interstage Application Server 開発チーム Java VMの開発 サポート 大規模システムでの性能チューニングに

More information

Microsoft PowerPoint - ARCICD07FukumotoSlides.pptx

Microsoft PowerPoint - ARCICD07FukumotoSlides.pptx チップマルチプロセッサにおける データ プリフェッチ効果の分析 福本尚人, 三原智伸九州大学大学院システム情報科学府情報理学専攻 井上弘士, 村上和彰九州大学大学院システム情報科学研究院情報理学部門 2007/6/1 1 発表手順 研究の背景 目的 効果に基づくプリフェッチの分類法 マルチプロセッサ チップマルチプロセッサ 性能モデル式による定性的評価 定量的評価 まとめ 2007/6/1 2 研究の背景

More information

PowerPoint Presentation

PowerPoint Presentation FrontISTR の並列計算の基礎 奥田洋司 okuda@k.u-tokyo.ac.jp 東京大学大学院 新領域創成科学研究科 人間環境学専攻 並列有限要素法プログラム FrontISTR ( フロントアイスター ) 並列計算では, メッシュ領域分割によって分散メモリ環境に対応し, 通信ライブラリには MPI を使用 (MPI 並列 ) さらに,CPU 内は OpenMP 並列 ( スレッド並列

More information

Microsoft PowerPoint - sales2.ppt

Microsoft PowerPoint - sales2.ppt 最適化とは何? CPU アーキテクチャに沿った形で最適な性能を抽出できるようにする技法 ( 性能向上技法 ) コンパイラによるプログラム最適化 コンパイラメーカの技量 経験量に依存 最適化ツールによるプログラム最適化 KAP (Kuck & Associates, Inc. ) 人によるプログラム最適化 アーキテクチャのボトルネックを知ること 3 使用コンパイラによる性能の違い MFLOPS 90

More information

Microsoft PowerPoint - 計算機言語 第7回.ppt

Microsoft PowerPoint - 計算機言語 第7回.ppt 計算機言語第 7 回 長宗高樹 目的 関数について理解する. 入力 X 関数 f 出力 Y Y=f(X) 関数の例 関数の型 #include int tasu(int a, int b); main(void) int x1, x2, y; x1 = 2; x2 = 3; y = tasu(x1,x2); 実引数 printf( %d + %d = %d, x1, x2, y);

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション Dell PowerEdge C6320 スケーラブルサーバアプライアンス 仮想化アプライアンスサーバ 最新のプロセッサを搭載したサーバプラットフォーム vsmp Foundation によるサーバ仮想化と統合化の適用 システムはセットアップを完了した状態でご提供 基本構成ではバックプレーン用のスイッチなどが不要 各ノード間を直接接続 冗長性の高いバックプレーン構成 利用するサーバプラットフォームは

More information

tokyo_t3.pdf

tokyo_t3.pdf 既存アプリを気軽にインテリジェント化 intra-mart の AI 基盤 IM-AI 新登場! IM-AI 基盤のご紹介 NTT データイントラマート デジタルビジネス事業推進室 高松大輔 2 アジェンダ 1 2 3 4 5 intra-martのai 基盤ご紹介 KNIMEについて活用例のご紹介今後の取り組みまとめ 3 1 intra-mart の AI 基盤ご紹介 4 intra-mart の

More information

fse7_time_sample

fse7_time_sample NXPowerLite 7.1.16 ファイルサーバーエディション 軽量化処理時間について 株式会社オーシャンブリッジ 2018 年 1 月 18 日 FSE7116-20180118 マルチスレッド処理 バージョン 7.1.16 よりマルチスレッド処理に対応したことにより軽量化処理を同時並行させることが可能になりました 軽量化処理のスピードは従来通りですが 複数ファイルの並行処理が可能になったことで

More information

スライド 1

スライド 1 RX62N 周辺機能紹介 CMT コンペアマッチタイマ ルネサスエレクトロニクス株式会社ルネサス半導体トレーニングセンター 2013/08/02 Rev. 1.00 00000-A コンテンツ CMT の概要 プログラムサンプル プログラムサンプルのカスタマイズ 2 CMT の概要 3 CMT の仕様 CMT ユニット 0 チャネル 16ビットタイマ CMT0 CMT1 ユニット 1 CMT2 CMT3

More information

Microsoft Word - 計算科学演習第1回3.doc

Microsoft Word - 計算科学演習第1回3.doc スーパーコンピュータの基本的操作方法 2009 年 9 月 10 日高橋康人 1. スーパーコンピュータへのログイン方法 本演習では,X 端末ソフト Exceed on Demand を使用するが, 必要に応じて SSH クライアント putty,ftp クライアント WinSCP や FileZilla を使用して構わない Exceed on Demand を起動し, 以下のとおり設定 ( 各自のユーザ

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 計算科学演習 I 第 8 回講義 MPI を用いた並列計算 (I) 2013 年 6 月 6 日 システム情報学研究科計算科学専攻 山本有作 今回の講義の概要 1. MPI とは 2. 簡単な MPI プログラムの例 (1) 3. 簡単な MPI プログラムの例 (2):1 対 1 通信 4. 簡単な MPI プログラムの例 (3): 集団通信 共有メモリ型並列計算機 ( 復習 ) 共有メモリ型並列計算機

More information

EnSightのご紹介

EnSightのご紹介 オープン CAE シンポジウム 2014 汎用ポストプロセッサー EnSight の大規模データ対応 CEI ソフトウェア株式会社代表取締役吉川慈人 http://www.ceisoftware.co.jp/ 内容 大規模データで時間のかかる処理 クライアント サーバー機能 マルチスレッドによる並列処理 サーバーの分散処理 クライアントの分散処理 ( 分散レンダリング ) EnSightのOpenFOAMインターフェース

More information

Microsoft Word - openmp-txt.doc

Microsoft Word - openmp-txt.doc ( 付録 A) OpenMP チュートリアル OepnMP は 共有メモリマルチプロセッサ上のマルチスレッドプログラミングのための API です 本稿では OpenMP の簡単な解説とともにプログラム例をつかって説明します 詳しくは OpenMP の規約を決めている OpenMP ARB の http://www.openmp.org/ にある仕様書を参照してください 日本語訳は http://www.hpcc.jp/omni/spec.ja/

More information

スライド 1

スライド 1 知能制御システム学 画像処理の高速化 OpenCV による基礎的な例 東北大学大学院情報科学研究科鏡慎吾 swk(at)ic.is.tohoku.ac.jp 2007.07.03 リアルタイム処理と高速化 リアルタイム = 高速 ではない 目標となる時間制約が定められているのがリアルタイム処理である.34 ms かかった処理が 33 ms に縮んだだけでも, それによって与えられた時間制約が満たされるのであれば,

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

untitled

untitled I 9 MPI (II) 2012 6 14 .. MPI. 1-3 sum100.f90 4 istart=myrank*25+1 iend=(myrank+1)*25 0 1 2 3 mpi_recv 3 isum1 1 isum /tmp/120614/sum100_4.f90 program sum100_4 use mpi implicit none integer :: i,istart,iend,isum,isum1,ip

More information

Oracle Un お問合せ : Oracle Data Integrator 11g: データ統合設定と管理 期間 ( 標準日数 ):5 コースの概要 Oracle Data Integratorは すべてのデータ統合要件 ( 大量の高パフォーマンス バッチ ローブンの統合プロセスおよ

Oracle Un お問合せ : Oracle Data Integrator 11g: データ統合設定と管理 期間 ( 標準日数 ):5 コースの概要 Oracle Data Integratorは すべてのデータ統合要件 ( 大量の高パフォーマンス バッチ ローブンの統合プロセスおよ Oracle Un お問合せ : 0120- Oracle Data Integrator 11g: データ統合設定と管理 期間 ( 標準日数 ):5 コースの概要 Oracle Data Integratorは すべてのデータ統合要件 ( 大量の高パフォーマンス バッチ ローブンの統合プロセスおよびSOA 対応データ サービスへ ) を網羅する総合的なデータ統合プラットフォームです Oracle

More information

Enterprise Cloud + 紹介資料

Enterprise Cloud +  紹介資料 Oracle Exadata の AWS 移行事例のご紹介 Oracle Exadata の移行 アジェンダ お客様の声 PoC フェーズ 移行診断 環境構築 データ移行 チューニング 移行フェーズ 業務 / データ整理 運用管理 まとめ 2 お客様の声 性能改修規模コスト移行方式運用環境 移行しても現状のデータベースと同等のパフォーマンスを出せるのか利用システムは どの程度改修が必要なのかコスト

More information

今週の進捗

今週の進捗 Virtualize APIC access による APIC フック手法 立命館大学富田崇詠, 明田修平, 瀧本栄二, 毛利公一 2016/11/30 1 はじめに (1/2) マルウェアの脅威が問題となっている 2015年に4 億 3000 万以上の検体が新たに発見されている マルウェア対策にはマルウェアが持つ機能 挙動の正確な解析が重要 マルウェア動的解析システム : Alkanet 仮想計算機モニタのBitVisorの拡張機能として動作

More information

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の 計算機システム Ⅱ 演習問題学科学籍番号氏名 1. 以下の分の空白を埋めなさい. CPUは, 命令フェッチ (F), 命令デコード (D), 実行 (E), 計算結果の書き戻し (W), の異なるステージの処理を反復実行するが, ある命令の計算結果の書き戻しをするまで, 次の命令のフェッチをしない場合, ( 単位時間当たりに実行できる命令数 ) が低くなる. これを解決するために考案されたのがパイプライン処理である.

More information

TopSE並行システム はじめに

TopSE並行システム はじめに はじめに 平成 23 年 9 月 1 日 トップエスイープロジェクト 磯部祥尚 ( 産業技術総合研究所 ) 2 本講座の背景と目標 背景 : マルチコア CPU やクラウドコンピューティング等 並列 / 分散処理環境が身近なものになっている 複数のプロセス ( プログラム ) を同時に実行可能 通信等により複数のプロセスが協調可能 並行システムの構築 並行システム 通信 Proc2 プロセス ( プログラム

More information

Software-Defined Tester(SDT) を用いた高精度遅延測定による SDN/NFV 品質向上 富士通アドバンストテクノロジ株式会社システム技術統括部大久保克彦 0 Copyright 2017 FUJITSU AD

Software-Defined Tester(SDT) を用いた高精度遅延測定による SDN/NFV 品質向上 富士通アドバンストテクノロジ株式会社システム技術統括部大久保克彦 0 Copyright 2017 FUJITSU AD Software-Defined Tester(SDT) を用いた高精度遅延測定による SDN/NFV 品質向上 富士通アドバンストテクノロジ株式会社システム技術統括部大久保克彦 fatec-ood-2017@dl.jp.fujitsu.com 0 背景 リアルタイム性が必要な分野への適用 5G( 低遅延 ) による新たなサービス展開 ゲーム VoIP 動画医療金融車載 遅延がサービス品質に直結 End-to-End

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション Foundation アプライアンス スケーラブルシステムズ株式会社 サーバ クラスタの課題 複数のシステムを一つの だけで容易に管理することは出来ないだろうか? アプリケーションがより多くのメモリを必要とするのだけど ハードウエアの増設なしで対応出来ないだろうか? 現在の利用環境のまま 利用できるコア数やメモリサイズの増強を図ることは出来ないだろうか? 短時間で導入可能で また 必要に応じて 柔軟にシステム構成の変更が可能なソリューションは無いだろうか?...

More information

Fujitsu Standard Tool

Fujitsu Standard Tool XcalableMP ワークショップ COARRAY の便利な使い方 2017 年 10 月 31 日富士通株式会社 ) 次世代 TC 開発本部原口正寿 COARRAY 仕様 Fortran 2008 に組み込まれた分散並列機能 指示文とサービスサブルーチンではなく 文法として組み込まれた [, ] ( 角括弧 ) によるプロセス間通信と 同期のための文 アトミックサブルーチンなど組込み手続 SPMDモデル(Single

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション AICS 公開ソフトウェア講習会 15 回 表題通信ライブラリと I/O ライブラリ 場所 AICS R104-2 時間 2016/03/23 ( 水 ) 13:30-17:00 13:30-13:40 全体説明 13:40-14:10 PRDMA 14:10-14:40 MPICH 14:40-15:10 PVAS 15:10-15:30 休憩 15:30-16:00 Carp 16:00-16:30

More information

スライド 1

スライド 1 RX62N 周辺機能紹介 TMR 8 ビットタイマ ルネサスエレクトロニクス株式会社ルネサス半導体トレーニングセンター 2013/08/02 Rev. 1.00 00000-A コンテンツ TMR の概要 プログラムサンプル (1) パルス出力機能 (8 ビットモード ) プログラムサンプル (2) インターバルタイマ機能 (16 ビット コンペアマッチカウントモード ) プログラムサンプルのカスタマイズ

More information

情報処理概論(第二日目)

情報処理概論(第二日目) 1 並列プログラミング超入門講習会 九州大学情報基盤研究開発センター MPI コース 2 並列計算機の構成 計算ノード ネットワーク CPU コア メモリ アクセラレータ (GPU 等 ) 例 : スーパーコンピュータシステム ITO サブシステム B ノード数 CPU 数 / ノードコア数 / CPU GPU 数 / ノード 128 2 18 4 MPI (Message Passing Interface)

More information

CodeRecorderでカバレッジ

CodeRecorderでカバレッジ 株式会社コンピューテックス Copyright 2016 Computex Co.,Ltd. 2017.11 カバレッジ と 単体テスト カバレッジとは プログラムがどれだけ実行されているかを示す指標です プログラム全体に対して実行された比率をカバレッジ率で表します カバレッジの基準として 一般的にC0 C1が使われております C0カバレッジは 全体のうち何 % が実行されたかで求めます C1カバレッジは

More information

スライド 1

スライド 1 GPU クラスタによる格子 QCD 計算 広大理尾崎裕介 石川健一 1.1 Introduction Graphic Processing Units 1 チップに数百個の演算器 多数の演算器による並列計算 ~TFLOPS ( 単精度 ) CPU 数十 GFLOPS バンド幅 ~100GB/s コストパフォーマンス ~$400 GPU の開発環境 NVIDIA CUDA http://www.nvidia.co.jp/object/cuda_home_new_jp.html

More information

Microsoft PowerPoint ppt

Microsoft PowerPoint ppt 並列アルゴリズム 2005 年後期火曜 2 限 高見利也 ( 青柳睦 ) Aoyagi@cc.kyushu-u.ac.jp http://server-500.cc.kyushu-u.ac.jp/ 12 月 20 日 ( 火 ) 9. PC クラスタによる並列プログラミング ( 演習 ) つづき 1 もくじ 1. 序並列計算機の現状 2. 計算方式およびアーキテクチュアの分類 3. 並列計算の目的と課題

More information

検証事例 富士通株式会社

検証事例 富士通株式会社 http://www.humancrest.co.jp/ Interstage / ENdoSnipe 動作検証結果報告書 (Solaris) 平成 21 年 6 月 5 日株式会社ヒューマンクレスト品質コンサルティングコンサルティング部第 1.0 版 動作検証結果報告書目次 1. 本プロジェクトの目的及び方針 2. 検証環境 3. 検証内容 4. 検証結果 メモリリーク マルチプロセス 負荷試験

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション GSN を応用したナレッジマネジメントシステムの提案 2017 年 10 月 27 日 D-Case 研究会 国立研究開発法人宇宙航空研究開発機構 研究開発部門第三研究ユニット 梅田浩貴 2017/3/27 C Copyright 2017 JAXA All rights reserved 1 目次 1 課題説明 SECI モデル 2 GSN を応用したナレッジマネジメントシステム概要 3 ツリー型チェックリスト分析

More information

for (int x = 0; x < X_MAX; x++) { /* これらの 3 つの行は外部ループの自己データと * 合計データの両方にカウントされます */ bar[x * 2] = x * ; bar[(x * 2) - 1] = (x - 1.0) *

for (int x = 0; x < X_MAX; x++) { /* これらの 3 つの行は外部ループの自己データと * 合計データの両方にカウントされます */ bar[x * 2] = x * ; bar[(x * 2) - 1] = (x - 1.0) * コールスタックを利用したルーフライン Alexandra S. (Intel) 2017 年 12 月 1 日公開 この記事は 2017 年 12 月 18 日時点の インテル デベロッパー ゾーンに公開されている Roofline with Callstacks の日本語訳です 注 : この記事の一部のスクリーンショットにはオレンジ色の点が表示されています デフォルト設定では これらの点は赤または黄色になります

More information

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード]

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード] 演算 / メモリ性能バランスを考慮した CMP 向けオンチップ メモリ貸与法の提案 九州大学 林徹生今里賢一井上弘士村上和彰 1 発表手順 背景 目的 演算 / メモリ性能バランシング 概要 アクセスレイテンシの削減とオーバーヘッド 提案手法の実現方法 着目する命令 (Cell プロセッサへの ) 実装 性能評価 姫野ベンチマーク Susan@MiBench おわりに 2 チップマルチプロセッサ (CMP)

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 多倍長計算手法 平成 年度第 四半期 今回はパラメータ の設定と精度に関してまとめて記述しました ループ積分と呼ばれる数値積分計算では 質量 の光子や質量が非常に小さい事はわかっているが その値は不明なニュートリノに対して赤外発散を防ぐため微小量を与えて計算しています この設定する微少量の値により 結果の精度及び反復に要する時間が大きく作用したり 誤った値を得る事があります ここでは典型的な つのケースで説明します

More information

Oracle SQL Developerの移行機能を使用したOracle Databaseへの移行

Oracle SQL Developerの移行機能を使用したOracle Databaseへの移行 < ここに画像を挿入 > Oracle SQL Developer の移行機能を使用した Oracle Database への移行 以下の事項は 弊社の一般的な製品の方向性に関する概要を説明するものです また 情報提供を唯一の目的とするものであり いかなる契約にも組み込むことはできません 以下の事項は マテリアルやコード 機能を提供することをコミットメント ( 確約 ) するものではないため 購買決定を行う際の判断材料になさらないで下さい

More information

XcalableMP入門

XcalableMP入門 XcalableMP 1 HPC-Phys@, 2018 8 22 XcalableMP XMP XMP Lattice QCD!2 XMP MPI MPI!3 XMP 1/2 PCXMP MPI Fortran CCoarray C++ MPIMPI XMP OpenMP http://xcalablemp.org!4 XMP 2/2 SPMD (Single Program Multiple Data)

More information

アプリケーション・パフォーマンス・スナップショット (APS) ユーザーガイド Linux* 版

アプリケーション・パフォーマンス・スナップショット (APS) ユーザーガイド Linux* 版 アプリケーション パフォーマンス スナップ ショット (APS) ユーザーガイド Linux* 版 この記事は インテル デベロッパー ゾーンに掲載されている Application Performance Snapshot の日本語参考訳です アプリケーション パフォーマンス スナップショットを使用して アプリケーションの利用可能なハードウェアの使用状況を素早く確認できます アプリケーション パフォーマンス

More information

memcached 方式 (No Replication) 認証情報は ログインした tomcat と設定された各 memcached サーバーに認証情報を分割し振り分けて保管する memcached の方系がダウンした場合は ログインしたことのあるサーバーへのアクセスでは tomcat に認証情報

memcached 方式 (No Replication) 認証情報は ログインした tomcat と設定された各 memcached サーバーに認証情報を分割し振り分けて保管する memcached の方系がダウンした場合は ログインしたことのあるサーバーへのアクセスでは tomcat に認証情報 IdPClusteringPerformance Shibboleth-IdP 冗長化パフォーマンス比較試験報告書 2012 年 1 月 17 日国立情報学研究所 Stateless Clustering 方式は SAML2 を想定しているため CryptoTransientID は不使用 使用するとパフォーマンスが悪くなる可能性あり Terracotta による冗長化について EventingMapBasedStorageService

More information

スライド 1

スライド 1 仮想化環境でのパケット転送 - 性能測定結果 & 考察 - 海老澤健太郎 @ パラレルス株式会社 2011/12/01 Internet Week 2011 性能測定 構成 DUT (Device Under Test) - Dell PowerEdge R410 CPU x 2 : Xeon L5520 @ 2.27GHz QEMU VM e1000 VM virtio-net VM vhost-net

More information

スライド 1

スライド 1 ATI Stream SDK による 天文 物理計算の高速化 会津大学中里直人 計算事例 : 重力 N 体計算 No.2 プログラム :N 体の重力計算 (1) No.3 既存のアルゴリズムやアプリケーションを CAL で実装するには 前提として 並列計算可能な問題でなくては 利用する意味がない GPU のアーキテクチャにあわせて アルゴリズムを変更する必要あり GPU のメモリに合わせた 効率のよいデータ構造を考える必要あり

More information