Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Size: px
Start display at page:

Download "Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc"

Transcription

1 2.3. アプリ性能 Intel クアッドコア CPU でのベンチマーク 東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコア クアッドコアの CPU を次々と市場に送り出していて それらが PC クラスタの CPU として採用され HPC に活用されている ここでは Intel クアッドコア CPU を搭載した PC 単体で浮動小数点を中心としたベンチマークプログラムを実行し CPU 及びコンパイラの並列性能を調べた結果を報告する 並列化には コンパイラの自動並列化機能を用いた 2. ベンチマーク 今回ベンチマークプログラムとしては姫野ベンチマークを採用した 姫野ベンチマークがマルチコア CPU の性能を測定する最良のベンチマークということでは必ずしもないが これまで日本で浮動小数点演算の実効性能を測定するベンチマークとして広く利用されてきたことを考慮し採用した 姫野ベンチマークは 3 次元格子でポアッソン方程式をヤコビの反復法で解く場合に主要となるループの処理速度を計るものである その主要ループは以下の通りである gosa=. do k=2,kmax-1 do j=2,jmax-1 do i=2,imax-1 s=a(i,j,k,1)*p(i+1,j,k) & +a(i,j,k,2)*p(i,j+1,k) & +a(i,j,k,3)*p(i,j,k+1) & +b(i,j,k,1)*(p(i+1,j+1,k)-p(i+1,j-1,k) & -p(i-1,j+1,k)+p(i-1,j-1,k)) & +b(i,j,k,2)*(p(i,j+1,k+1)-p(i,j-1,k+1) & -p(i,j+1,k-1)+p(i,j-1,k-1)) & +b(i,j,k,3)*(p(i+1,j,k+1)-p(i-1,j,k+1) & -p(i+1,j,k-1)+p(i-1,j,k-1)) & +c(i,j,k,1)*p(i-1,j,k) & +c(i,j,k,2)*p(i,j-1,k) & +c(i,j,k,3)*p(i,j,k-1)+wrk1(i,j,k) ss=(s*a(i,j,k,4)-p(i,j,k))*bnd(i,j,k) gosa=gosa+ss*ss wrk2(i,j,k)=p(i,j,k)+omega *ss enddo enddo 測定に用いたプラットホームは以下のものである (1) Intel Core 2 Extreme QX67 (4 コア ) model name : Intel(R) Core2 Quad CPU (Kentsfield) 2.66GHz 2 cache size : 496 KB 2 FB : 166Hz O : CentO 5. for Intel64 (2) Intel Xeon E5462 2CPU (4x2 コア ) model name : Intel(R) Xeon E5462 Quad CPU (Harpertown) 2.8GHz 2 cache size : 6B 2/cpu FB : 16Hz O : Fedora 8 for Intel64

2 (3) Intel Core i7 94 (4コア) model name : Intel(R) Core i7 Quad CPU (Nehalem ) 2.93GHz 2 cache size : 256kB/core 3 cache size : 8B ( 共有 ) QPI : 4.8GHz O : Cent O 5.2 for Intel64 なお TREA ベンチマークを用いて測定した両システムのメモリバンド幅は以下の通りである (1) QX67 :1 コアでは 4.6GB/s 4.7GB/s 4 コア (openmp) でも 4.6GB/s 4.7GB/s (2) E5462 :1 コアでは 4.7GB/s 5.5GB/s 8 コア (openmp) では 8.1GB/s 8.8GB/s (3) Core i7 94:1 コアでは 5.7GB/s 1GB/s 4 コア (openmp) では 11GB/s 16GB/s 測定に用いたコンパイラは以下のものである A) Fujitsu Fortran Version 3. B) Intel Fortran Compliler (Core i7 94 だけ ) C) GNU 測定結果ベンチマークの測定は 4 つの格子で行った X (64x32x32) (128x64x64) (256x128x128) (512x256x256) 利用する配列の総バイト数は X では 3.6B では 29B では 235B では 1.9GB になる 測定結果を以下に示す 3.1 スカラー性能コンパイラオプションは以下の通りである -O3 (GNU) -O3 (Intel) -Kfast (Fujitsu) 測定結果を図 1 に示す どのシステムとも格子が大きくなるに従って 性能が落ちている 特に X と の間で性能差が大きい X では全配列が 2 キャッシュにおさまるのに対して 以上の格子では配列が 2 キャッシュから溢れていることが原因と考えられる また Core i7 94 (Nehalem) のスカラー性能が高いことが目立つ QX67 i 図 1. スカラー性能

3 3.2 自動並列化 GNU は自動並列化機能を持っていない スカラー版のベンチマークコードはそのままでは Intel コンパイラ ver1. 及び ver11.1 では自動並列化されなかった そのため わずかなコードの変更とコンパイルオプションの追加を行うことによって 自動並列化を行った コンパイラオプションは以下の通りである -O3 -parallel -par-threshold99 (Intel) -Kfast,parallel (Fujitsu) QX67 i 図 2. 自動並列化性能 測定結果を図 2 に示す ここでも各システムとも格子が大きくなるに従って 性能が落ちている スカラー計算に対する性能向上率は富士通コンパイラでは QX67 で 1.35 倍 ( ) から 3.78 倍 (X ) E5462 で 2.52 倍 ( ) から 6.85 倍 (X ) i7 94 で 2.7 倍 ( ) から 3.51 倍 (X ) となっている 格子 X では性能向上率がかなり高く 2 キャッシュにデータがおさまっている場合には マルチコアの威力が発揮できているようである Core i7 94 はが 4 つであるのに その倍のの E5462x2 と同等以上の性能を示している 3.3 コンパイラオプションは以下の通りである -O3 -fopenmp (GNU) -O3 -openmp (Intel) -Kfast,OP (Fujitsu) 測定結果を図 3 に示す ここでも各システムとも格子が大きくなるに従って 性能が落ちている GNU コンパイラの 性能はかなり低いこともわかる スカラー計算に対する性能向上率は富士通コンパイラでは QX67 で 1.36 倍 ( ) から 3.85 倍 (X ) E5462 で 2.4 倍 ( ) から 6.66 倍 (X ) i7 94 で 2.6 倍 ( ) から 3.5 倍 (X ) となっている 自動並列化と同様に 格子 X では性能向上率がかなり高い 自動並列の場合と同様に Core i7 94 は E5462x2 と同等以上の性能を示している

4 QX67 i 図 3. 性能 3.4 ライブラリは Open を用いた 1 次元方向の領域分割を用いて並列化をしている コンパイラオプションは以下の通りである -O3 (GNU) -O3 (Intel) -Kfast (Fujitsu) 測定結果を図 4 に示す 各システムとも格子が大ききなるに従って 性能が落ちている スカラー計算に対する性能向上率は富士通コンパイラでは QX67 で 1.33 倍 ( ) から 2.79 倍 (X ) E5462 で 2. 倍 ( ) から 6.42 倍 (X ) i7 94 で 2.23 倍 ( ) から 3.51 倍 (X ) となっている 性能向上率は他の並列計算に比べてわずかに小さい QX67 i 図 4. 性能 なお すべての並列計算で QX67 では ~ で同等の結果なのに対して E5462 では の性能が の性能を大きく上回っている その理由として 利用できる 2 キャッシュの総量が QX67 では 8B なのに対して E5462 では 24B あり これは の計算が必要とするメモリ量にほぼ匹敵し ある程度 2 キャッシュを利用した計算ができているためと考えられる Core i7 94 は の計算で E5462x2 の倍の性能を示している 3.5 と並列性能 E5462 で富士通コンパイラを用いて 利用する ( スレッド数 ) に対する性能測定を自動並列

5 それぞれに対して測定した結果を図 5 に示す 基本的には利用するが増すにつれて性能は上がっているが では 8 コアの性能が 4 コアの性能を下回る場合がある 4. 考察 4.1 コンパイラスカラ性能は富士通コンパイラとインテルコンパイラ ver1.&ver11.1 が高い 並列計算した場合ではコンパイラによる性能差はあまりない マルチコアで計算したからといって分計算が速くなる訳ではない ベンチマークのが大きい場合には コンパイラの自動並列化機能 いずれの並列化を適用した場合にも性能はあまり変わらない そういう意味ではコンパイラの自動並列化機能は健闘していると言える 4.2 メモリバンド幅とキャッシュシングルコアの CPU では キャッシュを活用した計算が出来るかどうかが性能を左右していた その状況はマルチコア CPU でも変わらない マルチコア化によって CPU 全体としての演算性能が上がったため メモリバンド幅に対する要求が大きくなっていて 結果としてキャッシュを活用できるかどうかが性能に大きく影響を与えている 特にここで測定した姫野ベンチマークのように 浮動小数点演算数に対する メモリへのアクセス数の比率が高い場合には その影響が大きい ただし マルチコア化によって 結果的に1CPU あたりで利用できるキャッシュの量が増えたため シングルコアではキャッシュに載らなかった計算がマルチコアではキャッシュにおさまるようになり 性能が上がるということもある と自動並列性能 と 性能 X X 2 2 と 性能 ( 分割 : 最外側ループ ) と 性能 ( 分割 : 最内側ループ ) X X 2 2 図 5. と並列性能 以上

6 補足資料 QX67 のベンチマーク結果 : と 値 ( スカラー以外は 4 コア ) スカラー自動並列 X X X X でのベンチマーク結果 : と 値 ( スカラー以外は 8 コア ) スカラー自動並列 X X X X

7 Core i7 の 94 ベンチマーク結果 : と 値 ( スカラー以外は 4 コア ) スカラー自動並列 X X X X E5462 x 2 でのベンチマーク結果 : と 値 自動並列 ( 分割は最外側ループ ) ( 分割は最内側ループ ) parallel (X) parallel () parallel () parallel () (X) () () () (X) () () () (X) () () ()

VXPRO R1400® ご提案資料

VXPRO R1400® ご提案資料 Intel Core i7 プロセッサ 920 Preliminary Performance Report ノード性能評価 ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価 実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるため コアあたりのピーク性能は同じ 評価システム

More information

<4D F736F F D20332E322E332E819C97AC91CC89F090CD82A982E78CA982E9466F E393082CC8D5C91A291CC90AB945C955D89BF5F8D8296D85F F8D F5F E646F63>

<4D F736F F D20332E322E332E819C97AC91CC89F090CD82A982E78CA982E9466F E393082CC8D5C91A291CC90AB945C955D89BF5F8D8296D85F F8D F5F E646F63> 3.2.3. 流体解析から見る Fortran90 の構造体性能評価 宇宙航空研究開発機構 高木亮治 1. はじめに Fortran90 では 構造体 動的配列 ポインターなど様々な便利な機能が追加され ユーザーがプログラムを作成する際に選択の幅が広がりより便利になった 一方で 実際のアプリケーションプログラムを開発する際には 解析対象となる物理現象を記述する数学モデルやそれらを解析するための計算手法が内包する階層構造を反映したプログラムを作成できるかどうかは一つの重要な観点であると考えられる

More information

修士論文

修士論文 AVX を用いた倍々精度疎行列ベクトル積の高速化 菱沼利彰 1 藤井昭宏 1 田中輝雄 1 長谷川秀彦 2 1 工学院大学 2 筑波大学 1 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算 - 4. 実験 - 倍々精度疎行列ベクトル積 - 5. まとめ 多倍長精度計算フォーラム 2 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算

More information

本文ALL.indd

本文ALL.indd Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法河辺峻田口成美古谷英祐 Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法 Performance Measurement Method of Cache Coherency Effects on an Intel Xeon Processor System 河辺峻田口成美古谷英祐

More information

Itanium2ベンチマーク

Itanium2ベンチマーク HPC CPU mhori@ile.osaka-u.ac.jp Special thanks Timur Esirkepov HPC 2004 2 25 1 1. CPU 2. 3. Itanium 2 HPC 2 1 Itanium2 CPU CPU 3 ( ) Intel Itanium2 NEC SX-6 HP Alpha Server ES40 PRIMEPOWER SR8000 Intel

More information

(速報) Xeon E 系モデル 新プロセッサ性能について

(速報) Xeon E 系モデル 新プロセッサ性能について ( 速報 ) Xeon E5-2600 系モデル新プロセッサ性能について 2012 年 3 月 16 日 富士通株式会社 2012 年 3 月 7 日 インテル社より最新 CPU インテル Xeon E5 ファミリー の発表がありました この最新 CPU について PC クラスタシステムの観点から性能検証を行いましたので 概要を速報いたします プロセッサインテル Xeon プロセッサ E5-2690

More information

最新の並列計算事情とCAE

最新の並列計算事情とCAE 1 大島聡史 ( 東京大学情報基盤センター助教 / 並列計算分科会主査 ) 最新の並列計算事情と CAE アウトライン 最新の並列計算機事情と CAE 世界一の性能を達成した 京 について マルチコア メニーコア GPU クラスタ 最新の並列計算事情と CAE MPI OpenMP CUDA OpenCL etc. 京 については 仕分けやら予算やら計画やらの面で問題視する意見もあるかと思いますが

More information

GPGPUクラスタの性能評価

GPGPUクラスタの性能評価 2008 年度理研 HPC シンポジウム第 3 世代 PC クラスタ GPGPU クラスタの性能評価 2009 年 3 月 12 日 富士通研究所成瀬彰 発表の概要 背景 GPGPU による高速化 CUDA の概要 GPU のメモリアクセス特性調査 姫野 BMT の高速化 GPGPU クラスタによる高速化 GPU Host 間のデータ転送 GPU-to-GPU の通信性能 GPGPU クラスタ上での姫野

More information

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード] 200/0/9 数値流体解析の並列効率とその GPU による高速化の試み 清水建設 ( 株 ) 技術研究所 PHAM VAN PHUC ( ファムバンフック ) 流体計算時間短縮と GPU の活用の試み 現 CPUとの比較によりGPU 活用の可能性 現 CPU の最大利用 ノード内の最大計算資源の利用 すべてCPUコアの利用 適切なアルゴリズムの利用 CPU コア性能の何倍? GPU の利用の試み

More information

Microsoft Word - HOKUSAI_system_overview_ja.docx

Microsoft Word - HOKUSAI_system_overview_ja.docx HOKUSAI システムの概要 1.1 システム構成 HOKUSAI システムは 超並列演算システム (GWMPC BWMPC) アプリケーション演算サーバ群 ( 大容量メモリ演算サーバ GPU 演算サーバ ) と システムの利用入口となるフロントエンドサーバ 用途の異なる 2 つのストレージ ( オンライン ストレージ 階層型ストレージ ) から構成されるシステムです 図 0-1 システム構成図

More information

システムソリューションのご紹介

システムソリューションのご紹介 HP 2 C 製品 :VXPRO/VXSMP サーバ 製品アップデート 製品アップデート VXPRO と VXSMP での製品オプションの追加 8 ポート InfiniBand スイッチ Netlist HyperCloud メモリ VXPRO R2284 GPU サーバ 製品アップデート 8 ポート InfiniBand スイッチ IS5022 8 ポート 40G InfiniBand スイッチ

More information

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード]

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード] 演算 / メモリ性能バランスを考慮した CMP 向けオンチップ メモリ貸与法の提案 九州大学 林徹生今里賢一井上弘士村上和彰 1 発表手順 背景 目的 演算 / メモリ性能バランシング 概要 アクセスレイテンシの削減とオーバーヘッド 提案手法の実現方法 着目する命令 (Cell プロセッサへの ) 実装 性能評価 姫野ベンチマーク Susan@MiBench おわりに 2 チップマルチプロセッサ (CMP)

More information

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

Microsoft PowerPoint - CCS学際共同boku-08b.ppt マルチコア / マルチソケットノードに おけるメモリ性能のインパクト 研究代表者朴泰祐筑波大学システム情報工学研究科 taisuke@cs.tsukuba.ac.jp アウトライン 近年の高性能 PC クラスタの傾向と問題 multi-core/multi-socket ノードとメモリ性能 メモリバンド幅に着目した性能測定 multi-link network 性能評価 まとめ 近年の高性能 PC

More information

スライド 1

スライド 1 計算科学が拓く世界スーパーコンピュータは何故スーパーか 学術情報メディアセンター中島浩 http://www.para.media.kyoto-u.ac.jp/jp/ username=super password=computer 講義の概要 目的 計算科学に不可欠の道具スーパーコンピュータが どういうものか なぜスーパーなのか どう使うとスーパーなのかについて雰囲気をつかむ 内容 スーパーコンピュータの歴史を概観しつつ

More information

Microsoft PowerPoint - 演習1:並列化と評価.pptx

Microsoft PowerPoint - 演習1:並列化と評価.pptx 講義 2& 演習 1 プログラム並列化と性能評価 神戸大学大学院システム情報学研究科横川三津夫 yokokawa@port.kobe-u.ac.jp 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 1 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 2 2 次元温度分布の計算

More information

Microsoft Word ●MPI性能検証_志田_ _更新__ doc

Microsoft Word ●MPI性能検証_志田_ _更新__ doc 2.2.2. MPI 性能検証 富士通株式会社 志田直之 ここでは,Open MPI および富士通 MPI を用いて,MPI 性能の評価結果について報告する 1. 性能評価のポイント MPI の性能評価は, 大きく 3 つに分けて評価を行った プロセス数増加に向けた検証 ノード内通信とノード間通信の検証 性能検証 - 連続データ転送 - ストライド転送 2. プロセス数増加に向けた検証 評価に用いたシステムを以下に示す

More information

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果 Pervasive PSQL v11 のベンチマークパフォーマンスの結果 Pervasive PSQL ホワイトペーパー 2010 年 9 月 目次 実施の概要... 3 新しいハードウェアアーキテクチャがアプリケーションに及ぼす影響... 3 Pervasive PSQL v11 の設計... 4 構成... 5 メモリキャッシュ... 6 ベンチマークテスト... 6 アトミックテスト... 7

More information

Microsoft PowerPoint 知る集い(京都)最終.ppt

Microsoft PowerPoint 知る集い(京都)最終.ppt 次世代スパコンについて知る集い 配布資料 世界最高性能を目指すシステム開発について ー次世代スパコンのシステム構成と施設の概要 - 平成 22 年 1 月 28 日 理化学研究所次世代スーパーコンピュータ開発実施本部横川三津夫 高性能かつ大規模システムの課題と対応 演算性能の向上 CPU のマルチコア化,SIMD( ベクトル化 ) 機構 主記憶へのアクセス頻度の削減 - CPU 性能とメモリアクセス性能のギャップ

More information

Microsoft PowerPoint PCクラスタワークショップin京都.ppt

Microsoft PowerPoint PCクラスタワークショップin京都.ppt PC クラスタシステムへの富士通の取り組み 富士通株式会社株式会社富士通研究所久門耕一 29 年度に富士通が提供する ( した ) 大規模クラスタ 今年度はCPUとしてメモリバンド幅がNehalem, QDR- IB( 片方向 4GB/s) などPCクラスタにとって期待できる多くのコモディティコンポーネントが出現 これら魅力ある素材を使ったシステムとして 2つのシステムをご紹介 理化学研究所様 RICC(Riken

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 各種計算機アプリケーション性能比較 目次. はじめに. 行列積計算.QDR 積計算 4.N 体問題計算 5. 多次元積分計算 5. 次元積分計算 5. 次元積分計算 5. 4 次元積分計算 5.4 5 次元積分計算 5.5 6 次元積分計算 平成 6 年度第 四半期 . はじめに 今までと少し性質の異なるグラフィックボードが使用できる様になったので従来のアプリケーションで性能比較を実施しました 主に使用した計算機は以下のものです

More information

Microsoft PowerPoint - ★13_日立_清水.ppt

Microsoft PowerPoint - ★13_日立_清水.ppt PC クラスタワークショップ in 京都 日立テクニカルコンピューティングクラスタ 2008/7/25 清水正明 日立製作所中央研究所 1 目次 1 2 3 4 日立テクニカルサーバラインナップ SR16000 シリーズ HA8000-tc/RS425 日立自動並列化コンパイラ 2 1 1-1 日立テクニカルサーバの歴史 最大性能 100TF 10TF 30 年間で百万倍以上の向上 (5 年で 10

More information

スライド 1

スライド 1 Nehalem 新マイクロアーキテクチャ スケーラブルシステムズ株式会社 はじめに 現在も続く x86 マイクロプロセッサマーケットでの競合において Intel と AMD という 2 つの会社は 常に新しい技術 製品を提供し マーケットでのシェアの獲得を目指しています この技術開発と製品開発では この 2 社はある時は 他社に対して優位な技術を開発し 製品面での優位性を示すことに成功してきましたが

More information

HPC143

HPC143 研究背景 GPUクラスタ 高性能 高いエネルギー効率 低価格 様々なHPCアプリケーションで用いられている TCA (Tightly Coupled Accelerators) 密結合並列演算加速機構 筑波大学HA-PACSクラスタ アクセラレータ GPU 間の直接通信 低レイテンシ 今後のHPCアプリは強スケーリングも重要 TCAとアクセラレータを搭載したシステムに おけるプログラミングモデル 例

More information

openmp1_Yaguchi_version_170530

openmp1_Yaguchi_version_170530 並列計算とは /OpenMP の初歩 (1) 今 の内容 なぜ並列計算が必要か? スーパーコンピュータの性能動向 1ExaFLOPS 次世代スハ コン 京 1PFLOPS 性能 1TFLOPS 1GFLOPS スカラー機ベクトル機ベクトル並列機並列機 X-MP ncube2 CRAY-1 S-810 SR8000 VPP500 CM-5 ASCI-5 ASCI-4 S3800 T3E-900 SR2201

More information

Microsoft PowerPoint - sales2.ppt

Microsoft PowerPoint - sales2.ppt 最適化とは何? CPU アーキテクチャに沿った形で最適な性能を抽出できるようにする技法 ( 性能向上技法 ) コンパイラによるプログラム最適化 コンパイラメーカの技量 経験量に依存 最適化ツールによるプログラム最適化 KAP (Kuck & Associates, Inc. ) 人によるプログラム最適化 アーキテクチャのボトルネックを知ること 3 使用コンパイラによる性能の違い MFLOPS 90

More information

Microsoft PowerPoint - GDEP-GPG_softek_May24-1.pptx

Microsoft PowerPoint - GDEP-GPG_softek_May24-1.pptx G-DEP 第 3 回セミナー ツールで始める GPGPU なぜ ディレクティブベースのプログラミングが有望なのか? 失敗しない並列プログラミングの始め 2012 年 5 月 加藤努株式会社ソフテック なぜ GPU プログラミング? GPU computing 時代の本流に! 今 何が起きているのか? HPC アーキテクチャはどこへ向かうのか? 確実に移行中 Why? CPU + GPU ハイブリッド型へ

More information

ためのオーバーヘッドが課題となりつつある しかしこのオーバーヘッドに関する数値はほとんど公開されていない この論文ではこの cache coherency の時間を Linux カーネルで提供されている atomic_inc 関数を用いて測定する方法を新たに考案し 実測プログラムを作成した 実測はプ

ためのオーバーヘッドが課題となりつつある しかしこのオーバーヘッドに関する数値はほとんど公開されていない この論文ではこの cache coherency の時間を Linux カーネルで提供されている atomic_inc 関数を用いて測定する方法を新たに考案し 実測プログラムを作成した 実測はプ Intel Xeon プロセッサにおける Cache Coherency 時間の測定方法と大規模システムにおける実測結果 Performance Measurement Method of Cache Coherency Effects on a large Intel Xeon Processor System 河辺峻 1 古谷英祐 2 KAWABE Shun, FURUYA Eisuke 要旨現在のプロセッサの構成は,

More information

チューニング講習会 初級編

チューニング講習会 初級編 GPU のしくみ RICC での使い方 およびベンチマーク 理化学研究所情報基盤センター 2013/6/27 17:00 17:30 中田真秀 RICC の GPU が高速に! ( 旧 C1060 比約 6.6 倍高速 ) RICCのGPUがC2075になりました! C1060 比 6.6 倍高速 倍精度 515GFlops UPCに100 枚導入 : 合計 51.5TFlops うまく行くと5 倍程度高速化

More information

並列・高速化を実現するための 高速化サービスの概要と事例紹介

並列・高速化を実現するための 高速化サービスの概要と事例紹介 第 4 回 AVS 可視化フォーラム 2019 並列 高速化を実現するための 高速化サービスの概要と事例紹介 株式会社アーク情報システム営業部仮野亮ソリューション技術部佐々木竜一 2019.08.30 はじめに アーク情報システムの紹介 高速化サービスとは? 事例紹介 コンサルティングサービスについて アーク情報システムの紹介 設立 資本金 :1987 年 10 月 :3 億 600 万円 従業員数

More information

Microsoft Word ●書式付IO性能_杉崎_ _更新__ doc

Microsoft Word ●書式付IO性能_杉崎_ _更新__ doc 2.2.3. 書式付 I/O 性能 上智大学南部伸孝富士通株式会社内藤俊也 杉崎由典 1. はじめに I/O 処理に要する時間の内訳は システムの実 I/O 時間 + ランタイムの書式処理時間となっている プログラムを用いた書式付 I/O 時間を富士通コンパイラで評価した所 システム時間が約 12% であり ランタイム時間が約 88% ということが確認された 即ち 書式付 I/O 性能は ランタイムの性能に大きく影響される

More information

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ K20 GPU2 個に対するスピードアップ NVIDIA は Fermi アーキテクチャ GPU の発表により パフォーマンス エネルギー効率の両面で飛躍的な性能向上を実現し ハイパフォーマンスコンピューティング (HPC) の世界に変革をもたらしました また 実際に GPU

More information

hpc141_shirahata.pdf

hpc141_shirahata.pdf GPU アクセラレータと不揮発性メモリ を考慮した I/O 性能の予備評価 白幡晃一 1,2 佐藤仁 1,2 松岡聡 1 1: 東京工業大学 2: JST CREST 1 GPU と不揮発性メモリを用いた 大規模データ処理 大規模データ処理 センサーネットワーク 遺伝子情報 SNS など ペタ ヨッタバイト級 高速処理が必要 スーパーコンピュータ上での大規模データ処理 GPU 高性能 高バンド幅 例

More information

<4D F736F F F696E74202D F A282BD94BD959C89F A4C E682528D652E707074>

<4D F736F F F696E74202D F A282BD94BD959C89F A4C E682528D652E707074> 発表の流れ SSE を用いた反復解法ライブラリ Lis 4 倍精度版の高速化 小武守恒 (JST 東京大学 ) 藤井昭宏 ( 工学院大学 ) 長谷川秀彦 ( 筑波大学 ) 西田晃 ( 中央大学 JST) はじめに 4 倍精度演算について Lisへの実装 SSEによる高速化 性能評価 スピード 収束 まとめ はじめに クリロフ部分空間法たとえば CG 法は, 理論的には高々 n 回 (n は係数行列の次元数

More information

コードのチューニング

コードのチューニング OpenMP による並列化実装 八木学 ( 理化学研究所計算科学研究センター ) KOBE HPC Spring School 2019 2019 年 3 月 14 日 スレッド並列とプロセス並列 スレッド並列 OpenMP 自動並列化 プロセス並列 MPI プロセス プロセス プロセス スレッドスレッドスレッドスレッド メモリ メモリ プロセス間通信 Private Private Private

More information

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始 2014 年 1 月 31 日 国立大学法人九州大学 株式会社日立製作所 九州大学がスーパーコンピュータ 高性能アプリケーションサーバシステム の本格稼働を開始 日立のテクニカルサーバ HA8000-tc/HT210 などを採用 従来システム比で 約 28 倍の性能を実現し 1TFLOPS あたりの消費電力は約 17 分の 1 に低減 九州大学情報基盤研究開発センター ( センター長 : 青柳睦 /

More information

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 目次 1. TSUBAMEのGPU 環境 2. プログラム作成 3. プログラム実行 4. 性能解析 デバッグ サンプルコードは /work0/gsic/seminars/gpu- 2011-09- 28 からコピー可能です 1.

More information

Microsoft PowerPoint - DNS_BoF_SCS_ pptx

Microsoft PowerPoint - DNS_BoF_SCS_ pptx BIND マルチコア / プロセスパフォーマンステスト 28/7/9 住商情報システム株式会社服部成浩 s.hattori@scs.co.jp テストをした背景と内容 マルチコアの製品の低廉化 Bind はどのくらいパフォーマンスでるのか? 神明さんパッチ Nominum 製品はマルチコア対応でない テスト内容 2 種類のテストを実施 テスト 1: コア数と処理性能 テスト 2: 1 プロセス時と複数プロセス時の比較

More information

パフォーマンスレポート PRIMERGY TX100 S3

パフォーマンスレポート PRIMERGY TX100 S3 ホワイトペーパー パフォーマンスレポート ホワイトペーパー FUJITSU PRIMERGY サーバパフォーマンスレポート 本書では で実行したベンチマークの概要について説明します のパフォーマンスデータを 他の PRIMERGY モデルと比較して説明しています ベンチマーク結果に加え ベンチマークごとの説明およびベンチマーク環境の説明も掲載しています バージョン 1.1 2011-09-30 目次

More information

EnSightのご紹介

EnSightのご紹介 オープン CAE シンポジウム 2014 汎用ポストプロセッサー EnSight の大規模データ対応 CEI ソフトウェア株式会社代表取締役吉川慈人 http://www.ceisoftware.co.jp/ 内容 大規模データで時間のかかる処理 クライアント サーバー機能 マルチスレッドによる並列処理 サーバーの分散処理 クライアントの分散処理 ( 分散レンダリング ) EnSightのOpenFOAMインターフェース

More information

CCS HPCサマーセミナー 並列数値計算アルゴリズム

CCS HPCサマーセミナー 並列数値計算アルゴリズム 大規模系での高速フーリエ変換 2 高橋大介 daisuke@cs.tsukuba.ac.jp 筑波大学計算科学研究センター 2016/6/2 計算科学技術特論 B 1 講義内容 並列三次元 FFT における自動チューニング 二次元分割を用いた並列三次元 FFT アルゴリズム GPU クラスタにおける並列三次元 FFT 2016/6/2 計算科学技術特論 B 2 並列三次元 FFT における 自動チューニング

More information

パフォーマンスレポート PRIMERGY TX100 S2

パフォーマンスレポート PRIMERGY TX100 S2 ホワイトペーパー パフォーマンスレポート PRIMERGY TX100 S2 ホワイトペーパー FUJITSU PRIMERGY サーバパフォーマンスレポート PRIMERGY TX100 S2 本書では PRIMERGY TX100 S2 で実行したベンチマークの概要について説明します PRIMERGY TX100 S2 のパフォーマンスデータを 他の PRIMERGY モデルと比較して説明しています

More information

N08

N08 CPU のキモチ C.John 自己紹介 英語きらい 絵かけない 人の話を素直に信じない CPUにキモチなんてない お詫び 予告ではCとC# とありましたがやる気と時間の都合上 C++のみを対象とします 今日のネタ元 MSDN マガジン 2010 年 10 月号 http://msdn.microsoft.com/ja-jp/magazine/cc850829.aspx Windows と C++

More information

富士通PCサーバ「PRIMERGY RX2530 M4」における「TeraStation TS5010 / TS3010」シリーズ動作検証報告

富士通PCサーバ「PRIMERGY RX2530 M4」における「TeraStation TS5010 / TS3010」シリーズ動作検証報告 富士通 PC サーバ PRIMERGY RX2530 M4 における TeraStation TS5010 / TS3010 シリーズ動作検証報告 検証日 : 平成 29 年 12 月 11 日 ~12 月 22 日 検証場所 : 株式会社バッファロー本社 1 目次 1. 本動作検証の目的... 3 2. 本動作検証の環境について... 3 2.1 検証環境... 3 2.2 NAS の構成...

More information

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx シングルコアとマルチコア 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 前々回の授業の復習 CPUの進化 半導体集積率の向上 CPUの動作周波数の向上 + 複雑な処理を実行する回路を構成 ( 前々回の授業 ) マルチコア CPU への進化 均一 不均一なプロセッサ コプロセッサ, アクセラレータ 210 コンピュータの歴史 世界初のデジタルコンピュータ 1944 年ハーバードMark I

More information

(Microsoft PowerPoint \215u\213`4\201i\221\272\210\344\201j.pptx)

(Microsoft PowerPoint \215u\213`4\201i\221\272\210\344\201j.pptx) AICS 村井均 RIKEN AICS HPC Summer School 2012 8/7/2012 1 背景 OpenMP とは OpenMP の基本 OpenMP プログラミングにおける注意点 やや高度な話題 2 共有メモリマルチプロセッサシステムの普及 共有メモリマルチプロセッサシステムのための並列化指示文を共通化する必要性 各社で仕様が異なり 移植性がない そして いまやマルチコア プロセッサが主流となり

More information

Microsoft PowerPoint ppt

Microsoft PowerPoint ppt 並列アルゴリズム 2005 年後期火曜 2 限 高見利也 ( 青柳睦 ) Aoyagi@cc.kyushu-u.ac.jp http://server-500.cc.kyushu-u.ac.jp/ 12 月 20 日 ( 火 ) 9. PC クラスタによる並列プログラミング ( 演習 ) つづき 1 もくじ 1. 序並列計算機の現状 2. 計算方式およびアーキテクチュアの分類 3. 並列計算の目的と課題

More information

システム imac 21.5 インチディスプレイ 3.6GHz i5 Dual core / HT 2.8GHz i7 Quad core / HT ATI Radeon 4850 ATI Radeon HD はいいいえいいえはいいいえ ATI はいいいえ

システム imac 21.5 インチディスプレイ 3.6GHz i5 Dual core / HT 2.8GHz i7 Quad core / HT ATI Radeon 4850 ATI Radeon HD はいいいえいいえはいいいえ ATI はいいいえ Composer 6 および Symphony 6 認定 Apple Mac システム システム Mac デスクトップ Mac Pro dual 6-Core 2.66GHz "Westmere" Core 2.66GHz および 2.93GHz "Nehalem" Core 2.26GHz "Nehalem" Core 3.0GHz および 3.2GHz "Harpertown" Geforce

More information

GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所 共通コードプロジェクト

GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所 共通コードプロジェクト GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 勉強会 @ 理化学研究所 共通コードプロジェクト Contents Hands On 環境について Introduction to GPU computing Introduction

More information

スライド 1

スライド 1 GPU クラスタによる格子 QCD 計算 広大理尾崎裕介 石川健一 1.1 Introduction Graphic Processing Units 1 チップに数百個の演算器 多数の演算器による並列計算 ~TFLOPS ( 単精度 ) CPU 数十 GFLOPS バンド幅 ~100GB/s コストパフォーマンス ~$400 GPU の開発環境 NVIDIA CUDA http://www.nvidia.co.jp/object/cuda_home_new_jp.html

More information

ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC ソフトウェア 3.5 以降のバージョンが必要です Dual 2.26 GHz Quad Core Intel 構成のに関しては Configuration Guideli

ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC ソフトウェア 3.5 以降のバージョンが必要です Dual 2.26 GHz Quad Core Intel 構成のに関しては Configuration Guideli ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC/Symphony ソフトウェア 5.0.3 以降のバージョンが必要です Two 2.66 GHz 6-Core *Mojo SDI 及び Adrenaline サポート Intel Xeon (12 コア ) 32-bit カーネルで実 して下さい 64-bit カーネルは対応していません

More information

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP InfiniBand ACP 1,5,a) 1,5,b) 2,5 1,5 4,5 3,5 2,5 ACE (Advanced Communication for Exa) ACP (Advanced Communication Primitives) HPC InfiniBand ACP InfiniBand ACP ACP InfiniBand Open MPI 20% InfiniBand Implementation

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション PC クラスタワークショップ in 柏 2015 クレイドルの最新情報と CPU 事情 2015 年 06 月 株式会社ソフトウェアクレイドル技術部阿部 1 会社紹介 2 事業内容 主な事業内容 パッケージソフトウェアの開発 販売 テクニカルサポート eメール 電話 FAX 修正プログラムの配布 教育 各種セミナー 定期講習会の開催 受託解析 エンジニアリングサービス カスタマイズサービス 3 クレイドル及び関連会社

More information

PassMark PerformanceTest ™

PassMark PerformanceTest ™ KRONOS S ライン 性能ベンチマーク オーバークロックモニター OCCT OverClock Checking Tool i7z (A better i7 (and now i3, i5) reporting tool for Linux) KRONOS S800 CATIA Benchmark Aerospace - 8/17 passengers Jet - Mid Fuse DELL Precision

More information

スライド 1

スライド 1 知能制御システム学 画像処理の高速化 OpenCV による基礎的な例 東北大学大学院情報科学研究科鏡慎吾 swk(at)ic.is.tohoku.ac.jp 2007.07.03 リアルタイム処理と高速化 リアルタイム = 高速 ではない 目標となる時間制約が定められているのがリアルタイム処理である.34 ms かかった処理が 33 ms に縮んだだけでも, それによって与えられた時間制約が満たされるのであれば,

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション vsmp Foundation スケーラブル SMP システム スケーラブル SMP システム 製品コンセプト 2U サイズの 8 ソケット SMP サーバ コンパクトな筐体に多くのコアとメモリを実装し SMP システムとして利用可能 スイッチなし構成でのシステム構築によりラックスペースを無駄にしない構成 将来的な拡張性を保証 8 ソケット以上への拡張も可能 2 システム構成例 ベースシステム 2U

More information

HP ProLiant サーバおよびオプション製品の価格改定

HP ProLiant サーバおよびオプション製品の価格改定 HP ProLiant サーバおよびオプション製品の価格改定 2007 年 9 月 6 日付で HP ProLiant サーバ製品についてサーバ製品 68 製品 オプション製品 55 製品 最大 55% の大規模 な価格改定を実施いたします 今回の価格改定のポイントは下記のとおりです HP はこれまでテクノロジーリーダーとして

More information

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc Article ID: NVSI-050110JP Created: 2005/10/19 Revised: - NetVault 仮想テープ ライブラリのパフォーマンス検証 : dothill SANnetⅡSATA 編 1. 検証の目的 ドットヒルシステムズ株式会社の SANnetll SATA は 安価な SATA ドライブを使用した大容量ストレージで ディスクへのバックアップを行う際の対象デバイスとして最適と言えます

More information

Microsoft PowerPoint - stream.ppt [互換モード]

Microsoft PowerPoint - stream.ppt [互換モード] STREAM 1 Quad Opteron: ccnuma Arch. AMD Quad Opteron 2.3GHz Quad のソケット 4 1 ノード (16コア ) 各ソケットがローカルにメモリを持っている NUMA:Non-Uniform Access ローカルのメモリをアクセスして計算するようなプログラミング, データ配置, 実行時制御 (numactl) が必要 cc: cache-coherent

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 多倍長精度演算の性能評価 日時 年 月 日 :3-: 場所工学院大学新宿校舎 8 階第 4 会議室 高エネルギー加速器研究機構 濱口信行 hgu@post.kek.jp // 第 回多倍長精度計算フォーラム . はじめに 計算センター => ユーザプログラムの実行効率は何 % です よく出ています or 改善してください 実行性能 = 演算量 / 実行時間実行効率 = 実行性能 / 理論性能 ユーザ実行時間

More information

インテルの現行ラインナップは と Refresh アーキテクチャはそのままラインナップ強化 第 2 世代 Sandy Bridge 第 3 世代 Ivy Bridge 第 4 世代 Refresh アーキテクチャ刷新 AVX 対応 32nm プロセスルール 性能 電力とも大幅進化 22nm プロセス

インテルの現行ラインナップは と Refresh アーキテクチャはそのままラインナップ強化 第 2 世代 Sandy Bridge 第 3 世代 Ivy Bridge 第 4 世代 Refresh アーキテクチャ刷新 AVX 対応 32nm プロセスルール 性能 電力とも大幅進化 22nm プロセス インテル最新 CPU 談義 人気の K シリーズだけじゃない 無印も省電力も Xeon もあるよ! テクニカルライター 鈴木雅暢 インテルの現行ラインナップは と Refresh アーキテクチャはそのままラインナップ強化 第 2 世代 Sandy Bridge 第 3 世代 Ivy Bridge 第 4 世代 Refresh アーキテクチャ刷新 AVX 対応 32nm プロセスルール 性能 電力とも大幅進化

More information

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8 Web キャンパス資料 超音波シミュレーションの基礎 ~ 第 4 回 ComWAVEによる超高速超音波解析 ~ 科学システム開発部 Copyright (c)2006 ITOCHU Techno-Solutions Corporation 本日の説明内容 ComWAVEの概要および特徴 GPGPUとは GPGPUによる解析事例 CAE POWER 超音波研究会開催 (10 月 3 日 ) のご紹介

More information

Microsoft PowerPoint _SS研_林_公開.ppt [互換モード]

Microsoft PowerPoint _SS研_林_公開.ppt [互換モード] 次世代スパコン 京 ( けい ) (*) の 言語処理系と性能評価 2010 年 10 月 20 日富士通株式会社次世代テクニカルコンピューティング開発本部ソフトウェア開発統括部 林正和 * 理化学研究所様が 2010 年 7 月に決定 発表した 次世代スーパーコンピュータ の愛称 アジェンダ 次世代スーパーコンピュータ 京 の現状 プログラミングモデルと富士通のHPC 向けアーキテクチャ 次世代スーパーコンピュータ

More information

理研スーパーコンピュータ・システム

理研スーパーコンピュータ・システム 線形代数演算ライブラリ BLAS と LAPACK の基礎と実践 2 理化学研究所情報基盤センター 2013/5/30 13:00- 大阪大学基礎工学部 中田真秀 この授業の目的 対象者 - 研究用プログラムを高速化したい人 - LAPACK についてよく知らない人 この講習会の目的 - コンピュータの簡単な仕組みについて - 今後 どうやってプログラムを高速化するか - BLAS, LAPACK

More information

<4D F736F F D A838B83678DC095578C6E82CC D815B834E2E646F63>

<4D F736F F D A838B83678DC095578C6E82CC D815B834E2E646F63> 風況シミュレータRIAM-COMPACTによるインテルプロセッサ搭載ハイパフォーマンスコンピュータの性能評価 内田孝紀 ( 九州大学応用力学研究所,E-mail : takanori@riam.kyushu-u.ac.jp) 大屋裕二 ( 九州大学応用力学研究所,E-mail : ohya@riam.kyushu-u.ac.jp) 1. はじめに我々は数 ( 十 )km 以下の局所域スケールに的を絞り,RIAM-COMPACT(Research

More information

高性能計算研究室の紹介 High Performance Computing Lab.

高性能計算研究室の紹介 High Performance Computing Lab. 高性能計算研究室 (HPC Lab) の紹介 High Performance Computing Lab. 静岡理工科大学総合情報学部コンピュータシステム学科 ( 兼 Web デザイン特別プログラム ) 幸谷智紀 543 研究室 幸谷研究室 @ 静岡 検索 概要 1. 幸谷智紀 個人の研究テーマ 2. 3 年生ゼミ ( 情報セミナー II) 3. 卒研テーマ 4. 過去の卒研 5. 今後について

More information

GPGPU によるアクセラレーション環境について

GPGPU によるアクセラレーション環境について GPGPU によるアクセラレーション環境について 長屋貴量 自然科学研究機構分子科学研究所技術課計算科学技術班 概要 GPGPU とは 単純で画一的なデータを一度に大量に処理することに特化したグラフィックカードの演算資源を 画像処理以外の汎用的な目的に応用する技術の一つである 近年 その演算能力は CPU で通常言われるムーアの法則に則った場合とは異なり 飛躍的に向上しており その演算性能に魅力を感じた各分野での応用が広がってきている

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション みんなの ベクトル計算 たけおか @takeoka PC クラスタ コンソーシアム理事でもある 2011/FEB/20 ベクトル計算が新しい と 2008 年末に言いました Intelに入ってる! (2008 年から見た 近未来? ) GPU 計算が新しい (2008 年当時 ) Intel AVX (Advanced Vector Extension) SIMD 命令を進めて ベクトル機構をつける

More information

Microsoft PowerPoint - ARC2009HashiguchiSlides.pptx

Microsoft PowerPoint - ARC2009HashiguchiSlides.pptx 3 次元 DRAM プロセッサ積層実装を 対象としたオンチップ メモリ アーキテクチャの提案と評価 橋口慎哉 小野貴継 ( 現 ) 井上弘士 村上和彰 九州大学大学院システム情報科学府 九州大学大学院システム情報科学研究院 発表手順 研究背景 研究目的 ハイブリッド キャッシュ アーキテクチャ 評価実験 まとめと今後の課題 2 3 次元実装技術 研究背景 グローバル配線長の削減 チップ面積縮小 異なるプロセスを経て製造されたダイ同士の積層

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション Dell PowerEdge C6320 スケーラブルサーバアプライアンス 仮想化アプライアンスサーバ 最新のプロセッサを搭載したサーバプラットフォーム vsmp Foundation によるサーバ仮想化と統合化の適用 システムはセットアップを完了した状態でご提供 基本構成ではバックプレーン用のスイッチなどが不要 各ノード間を直接接続 冗長性の高いバックプレーン構成 利用するサーバプラットフォームは

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

スライド 1

スライド 1 計算科学が拓く世界 スーパーコンピュータは 何故スーパーか 学術情報メディアセンター 中島浩 http://www.pr.medi.kyoto-u.c.jp/jp/ usermesuper psswordcomputer 講義の概要 目的 計算科学に不可欠の道具スーパーコンピュータが どうスーパーなのか どういうものか なぜスーパーなのか どう使うとスーパーなのかについて雰囲気をつかむ 内容 スーパーコンピュータの歴史を概観しつつ

More information

研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI, MPICH, MVAPICH, MPI.NET プログラミングコストが高いため 生産性が悪い 新しい並

研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI, MPICH, MVAPICH, MPI.NET プログラミングコストが高いため 生産性が悪い 新しい並 XcalableMPによる NAS Parallel Benchmarksの実装と評価 中尾 昌広 李 珍泌 朴 泰祐 佐藤 三久 筑波大学 計算科学研究センター 筑波大学大学院 システム情報工学研究科 研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI,

More information

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015 ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ 本セッションの目的 本セッションでは ERDAS IMAGINEにおける処理速度向上を目的として機器 (SSD 等 ) 及び並列処理の比較 検討を行った 1.SSD 及び RAMDISK を利用した処理速度の検証 2.Condorによる複数 PCを用いた並列処理 2.1 分散並列処理による高速化試験 (ERDAS IMAGINEのCondorを使用した試験

More information

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2 FFT 1 Fourier fast Fourier transform FFT FFT FFT 1 FFT FFT 2 Fourier 2.1 Fourier FFT Fourier discrete Fourier transform DFT DFT n 1 y k = j=0 x j ω jk n, 0 k n 1 (1) x j y k ω n = e 2πi/n i = 1 (1) n DFT

More information

HPC可視化_小野2.pptx

HPC可視化_小野2.pptx 大 小 二 生 高 方 目 大 方 方 方 Rank Site Processors RMax Processor System Model 1 DOE/NNSA/LANL 122400 1026000 PowerXCell 8i BladeCenter QS22 Cluster 2 DOE/NNSA/LLNL 212992 478200 PowerPC 440 BlueGene/L 3 Argonne

More information

技術が生み出す魔法!最新ハードウェアとチューニングで激速データベース

技術が生み出す魔法!最新ハードウェアとチューニングで激速データベース 技術が生み出す魔法! 最新ハードウェアとチューニングで 激速データベース 2015 年 9 月 11 日富士通株式会社プラットフォーム技術本部プロダクトソリューション技術統括部志賀真之 DB を高速化するポイント CPU は活用できているか メモリを増やして早くする ストレージで性能改善する 1 CPU は活用できているか 2 CPU 技術動向 CPU は クロックは向上せずにコア数が増える傾向 Ghz

More information

NUMAの構成

NUMAの構成 共有メモリを使ったデータ交換と同期 慶應義塾大学理工学部 天野英晴 hunga@am.ics.keio.ac.jp 同期の必要性 あるプロセッサが共有メモリに書いても 別のプロセッサにはそのことが分からない 同時に同じ共有変数に書き込みすると 結果がどうなるか分からない そもそも共有メモリって結構危険な代物 多くのプロセッサが並列に動くには何かの制御機構が要る 不可分命令 同期用メモリ バリア同期機構

More information

PowerPoint Presentation

PowerPoint Presentation インテル ソフトウェア開発製品によるソースコードの近代化 エクセルソフト株式会社黒澤一平 ソースコードの近代化 インテル Xeon Phi プロセッサーや 将来のインテル Xeon プロセッサー上での実行に向けた準備と適用 インテル ソフトウェア製品 名称インテル Composer XE for Fortran and C++ インテル VTune Amplifier XE インテル Advisor

More information

Microsoft PowerPoint - ARCICD07FukumotoSlides.pptx

Microsoft PowerPoint - ARCICD07FukumotoSlides.pptx チップマルチプロセッサにおける データ プリフェッチ効果の分析 福本尚人, 三原智伸九州大学大学院システム情報科学府情報理学専攻 井上弘士, 村上和彰九州大学大学院システム情報科学研究院情報理学部門 2007/6/1 1 発表手順 研究の背景 目的 効果に基づくプリフェッチの分類法 マルチプロセッサ チップマルチプロセッサ 性能モデル式による定性的評価 定量的評価 まとめ 2007/6/1 2 研究の背景

More information

電気通信大学 I 類 情報系 情報 ネットワーク工学専攻 CED 2018 システム利用ガイド ver1.2 CED 管理者 学術技師 島崎俊介 教育研究技師部 実験実習支援センター 2018 年 3 月 29 日 1 ログイン ログアウト手順について 1.1 ログイン手順 CentOS 1. モニ

電気通信大学 I 類 情報系 情報 ネットワーク工学専攻 CED 2018 システム利用ガイド ver1.2 CED 管理者 学術技師 島崎俊介 教育研究技師部 実験実習支援センター 2018 年 3 月 29 日 1 ログイン ログアウト手順について 1.1 ログイン手順 CentOS 1. モニ 電気通信大学 I 類 情報系 情報 ネットワーク工学専攻 CED 2018 システム利用ガイド ver1.2 CED 管理者 学術技師 島崎俊介 教育研究技師部 実験実習支援センター 2018 年 3 月 29 日 1 ログイン ログアウト手順について 1.1 ログイン手順 CentOS 1. モニタと端末の電源を入れる 2. GNU GRUB version 2.02 Beta2-36ubuntu3

More information

― ANSYS Mechanical ―Distributed ANSYS(領域分割法)ベンチマーク測定結果要約

― ANSYS Mechanical ―Distributed ANSYS(領域分割法)ベンチマーク測定結果要約 ANSYS Mechanical Distributed ANSYS( 領域分割法 ) 2011 年 1 月 17 日 富士通株式会社 ANSYS Mechanical ベンチマーク測定結果 目次 測定条件 1 標準問題モデル 2 総括 3 ベンチマーク測定について 3 留意事項 9 商標について 9 測定条件 測定に使用した環境は下記のとおりです System PRIMERGY BX922 S2

More information

研究報告用MS-Wordテンプレートファイル

研究報告用MS-Wordテンプレートファイル マルチコアおよび GPGPU 環境における画像処理最適化 矢野勝久 高山征大 境隆二出宮健彦 スケーラを題材として, マルチコアおよび GPGPU 各々の HW 特性に適した画像処理の最適化を図る. マルチコア環境では, 数値演算処理の削減,SIMD 化など直列性能の最適化を行った後,OpenMP を利用して並列化を図る.GPGPU(CUDA) では, スレッド並列を優先して並列処理の設計を行いブロックサイズを決める.

More information

CELSIUSカタログ(2012年7月版)

CELSIUSカタログ(2012年7月版) CELSIUS PC "MADE IN JAPAN" 2012.7 W520 ハイエンドの過酷な要求に応えるパワフルなデュアルと高信頼を搭載 RAID構成 選択可能 富士通がお勧めする Windows 7. ミニタワーエントリーモデル より速く より強力に 最新の技術をフル投入 スピードとパワー 安定性を提供 RAID構成 選択可能 Windows 7 Professional 32bit版 正規版

More information

<4D F736F F D20322E332E322E819C94BC8CC AA8E7193AE97CD8A778C768E5A82F A282BD B835E90AB945C82CC91AA92E85F93EC95945F F8D F5F E646F6378>

<4D F736F F D20322E332E322E819C94BC8CC AA8E7193AE97CD8A778C768E5A82F A282BD B835E90AB945C82CC91AA92E85F93EC95945F F8D F5F E646F6378> 2.3.2. 半古典分子動力学計算を用いたコンピュータ性能の測定 上智大学 南部伸孝 1. 概要古典力学を基に分子の運動 ( 粒子の運動 ) を記述する分子動力学シミュレーション (Molecular Dynamics simulation) が生体関連の分野で頻繁に利用され, 最近では分子機械の解明等までも利用されている 特にそこで活躍されている数値計算法として速度ベルレ (Velocity-Verlet)

More information

1重谷.PDF

1重谷.PDF RSCC RSCC RSCC BMT 1 6 3 3000 3000 200310 1994 19942 VPP500/32PE 19992 VPP700E/128PE 160PE 20043 2 2 PC Linux 2048 CPU Intel Xeon 3.06GHzDual) 12.5 TFLOPS SX-7 32CPU/256GB 282.5 GFLOPS Linux 3 PC 1999

More information

CELSIUSカタログ(2012年5月版)

CELSIUSカタログ(2012年5月版) CELSIUS PC "MADE IN JAPAN" 2012.5 New W520 ハイエンドの過酷な要求に応えるパワフルなデュアルと高信頼を搭載 トを搭載 RAID構成 選択可能 New グラフィックス/GPUカード 500GB 1TB 500GB 2 RAID1 Quadro 5000 Quadro 4000 Quadro 2000 Quadro 600 4 Quadro 4000 TeslaTM

More information

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 3 1 1 日本原子力研究開発機構システム計算科学センター 2 理科学研究所計算科学研究機構 3 東京大学新領域創成科学研究科

More information

Microsoft Word - 2.2_takaki.doc

Microsoft Word - 2.2_takaki.doc 2.2 三次元圧縮性流体解析プログラム UPACS の性能評価 宇宙航空研究開発機構高木亮治 1. はじめに 宇宙航空研究開発機構 (JAXA) で開発された CFD プログラム UPACS について 富士通 PRIMEPOWER HPC2500 上で性能評価を行ったのでその結果を報告する 2. プログラム概要 UPACS は中核となる解析ソルバである UPACS ソルバと 解析の前後処理を行う各種ツール

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 総務省 ICTスキル総合習得教材 概要版 eラーニング用 [ コース2] データ蓄積 2-5: 多様化が進展するクラウドサービス [ コース1] データ収集 [ コース2] データ蓄積 [ コース3] データ分析 [ コース4] データ利活用 1 2 3 4 5 座学本講座の学習内容 (2-5: 多様化が進展するクラウドサービス ) 講座概要 近年 注目されているクラウドの関連技術を紹介します PCやサーバを構成するパーツを紹介後

More information

内容 WGの概要 アプリケーションチューニングの実践例 会員のいくつかの例より 活動の総括 かなり個人的 まとめ 2

内容 WGの概要 アプリケーションチューニングの実践例 会員のいくつかの例より 活動の総括 かなり個人的 まとめ 2 これで我々のアプリケーションプログラム は速くなるか? マルチコアクラスタ性能 WG 成果報告 マルチコアクラスタ性能 WG まとめ役高木亮治宇宙航空研究開発機構 内容 WGの概要 アプリケーションチューニングの実践例 会員のいくつかの例より 活動の総括 かなり個人的 まとめ 2 WG 概要 3 WG 設置の背景 WG 立ち上げ :2010 年 FX1 から次世代スーパーコンピュータ 京 ( FX10)

More information

26 宇宙航空研究開発機構特別資料 JAXA-SP 表 1: LES 解析に必要な計算規模の予測 スケール Re 数 格子点数 時間刻み幅計算時間計算能力 [µ 秒 ] ステップ数 [ 時間 ] [FLOPS] 研究 万点 2 20 万 5 8 Tera 風試 10

26 宇宙航空研究開発機構特別資料 JAXA-SP 表 1: LES 解析に必要な計算規模の予測 スケール Re 数 格子点数 時間刻み幅計算時間計算能力 [µ 秒 ] ステップ数 [ 時間 ] [FLOPS] 研究 万点 2 20 万 5 8 Tera 風試 10 第 44 回流体力学講演会 / 航空宇宙数値シミュレーション技術シンポジウム 2012 論文集 25 エクサフロップス級計算機に向けたエクサフロップス級計算機に向けたプログラミングモデルに関する一考察 高木亮治 堤堤誠司 A A Study on Programing Models for for ExaFLOPS Scale Computers by Ryoji Takaki Ryoji Takaki*

More information

HPCマシンの変遷と 今後の情報基盤センターの役割

HPCマシンの変遷と 今後の情報基盤センターの役割 筑波大学計算科学センターシンポジウム 計算機アーキテクトが考える 次世代スパコン 2006 年 4 月 5 日 村上和彰 九州大学 murakami@cc.kyushu-u.ac.jp 次世代スパコン ~ 達成目標と制約条件の整理 ~ 達成目標 性能目標 (2011 年 ) LINPACK (HPL):10PFlop/s 実アプリケーション :1PFlop/s 成果目標 ( 私見 ) 科学技術計算能力の国際競争力の向上ならびに維持による我が国の科学技術力

More information

ポスト「京」でのコデザイン 活動報告

ポスト「京」でのコデザイン 活動報告 重点課題 9 でのポスト 京 に対す るコデザイン活動報告 広島大学理学研究科 石川健一 1 目次 1. コデザイン活動 2. ポスト京関連公開情報 3. 重点課題 9 に関するコデザイン活動 2 1. コデザイン活動 RIKEN,R-CCS と FUJITSU によるポスト京計算機開発 コデザイン活動 重点課題からのターゲットアプリケーションの開発とシステムやソフトウェア開発を連携して開発 9 個のターゲットアプリケーション

More information

Microsoft Word ●FortranとC言語C++の速度比較_平野_ _更新__ doc

Microsoft Word ●FortranとC言語C++の速度比較_平野_ _更新__ doc 3.2. 言語比較 3.2.1. Fortran と C 言語,C++ の速度比較 1. はじめに 山口大学大学院医学系研究科平野靖 ( 前 名古屋大学情報基盤センター ) スパコンや PC クラスタなどを用いた科学計算においては,Fortran が用いられることが多い. しかし, とくに大学の情報基盤センターなどではユーザ層の拡大のためにこれまで Fortran を使ってこなかった研究者の取り込みを行なう必要がある.Fortran

More information

統計数理研究所とスーパーコンピュータ

統計数理研究所とスーパーコンピュータ スーパーコンピュータと統計数理研究所 統計数理研究所 統計科学技術センターセンター長 中野純司 目次 スーパーコンピュータとは いったい何? 本当に スーパー?: ノートパソコンとの比較 どのように使う?: 仕組みとソフトウェア 統計数理研究所の ( スーパー ) コンピュータ 必要性 導入の歴史 現在の統数研スパコン : A, I, C 2/44 目次 スーパーコンピュータとは いったい何? 本当に

More information

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装 2010 GPGPU 2010 9 29 MPI/Pthread (DDM) DDM CPU CPU CPU CPU FEM GPU FEM CPU Mult - NUMA Multprocessng Cell GPU Accelerator, GPU CPU Heterogeneous computng L3 cache L3 cache CPU CPU + GPU GPU L3 cache 4

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

Microsoft Word - JP-AppLabs-MySQL_Update.doc

Microsoft Word - JP-AppLabs-MySQL_Update.doc アダプテック MaxIQ SSD キャッシュパフォーマンスソリューション MySQL 分析 September 22, 2009 はじめにアダプテックは Adaptec 5445Z ストレージコントローラでアダプテック MaxIQ SSD キャッシュパフォーマンスソリューション使用した場合のパフォーマンス評価を依頼しました アダプテックは 5 シリーズコントローラ全製品において MaxIQ をサポートしています

More information