PowerPoint プレゼンテーション

Size: px
Start display at page:

Download "PowerPoint プレゼンテーション"

Transcription

1 各種計算機アプリケーション性能比較 目次. はじめに. 行列積計算.QDR 積計算 4.N 体問題計算 5. 多次元積分計算 5. 次元積分計算 5. 次元積分計算 5. 4 次元積分計算 次元積分計算 次元積分計算 平成 6 年度第 四半期

2 . はじめに 今までと少し性質の異なるグラフィックボードが使用できる様になったので従来のアプリケーションで性能比較を実施しました 主に使用した計算機は以下のものです ()SR6/M プロセッサ :power7 周波数 :.8GHz ノード当たり CPU コア数 ( 物理的 ),64( 論理的 ) 理論最大性能 GFLOPs メモリ容量 56GB メモリアーキテクチャー NUMA,(6 論理コア単位で flat) SIMD(Single Instruction Multiple Data) をサポートする VSX 機構付き L キャッシュ On-Chip MB/8 コア演算器 / 物理コア乗加算器 4 つ

3 ()GPGPU GPU カード型番 :ATI RadeonHD587 メモリ : GDDR5, GB, 5.6 GB/s ホストインタフェース : PCI Epress. 6stream processing unit: 個 ( 演算プロセッサ ) 動作周波数 : 85 MHz ピーク性能 ( 単精度 ): 544 Gflops (=85MHz) ピーク性能 ( 倍精度 ): 88 Gflops () グラフィックボード HOST E5 67.6GHz cpu 8core キャシュ MB.6GHz GFLOPs cpu cpu.8gflops Xeon Phi5P.5GHz 6コア,4スレッド/core.5GHz644.88GFLOPs

4 行列積計算 比較は SR6 ノード (core,64smp),es-67 6smp, Phi5P 4core で実施しています 最も多くのケースを実施したのは行列サイズ N=4,N=48 の 回実行です C は,ES-67,Phi5P で倍精度, 拡張倍精度, 拡張倍精度 + 拡張倍精度のケースを行っています 名称はそれぞれ Double,edouble,ddedouble としています FORTRAN は SR6,ES-67,Phi5P で倍精度 multd,4 倍精度 (ieee754-8 データ形式 )multq,dd 形式 4 倍精度 ddmultd,dd 形式の 6 倍精度,8 倍精度, 倍精度, それぞれ mult6,mult8,mult です.SR6 では特に multd,multq は実施していません また比較という事で, テストプログラムは定義式どうりのコーデイングでアンローリング, キャシュチューニング等は実施していません 演算量は以下の様になっています 演算量 (GFLOP) 一覧 プログラム N=4 N=48 multd 8 ddmultd mult mult mult

5 行列サイズ N=4 の結果は以下の様になっています 行列積 N=4, 回実行の性能比較 実行時間 ( 秒 ) プログラム SR6 phi5p E5-67 core 64smp 4smp 6smp multd.84.4 ddmultd multq double.94.4 edouble ddedouble mult mult mult ()dd 形式 4 倍精度は phi5p は高速 ()dd 形式 6 倍精度,8 倍精度, 倍精度は SR6 core と phi5p の性能が同等 ()C とソフトウエアサポートルーチンは E5-67 が高速

6 行列サイズ N=48 の結果は以下の様になっています 行列積 N=48, 回実行の性能比較 実行時間 ( 秒 ) プログラム SR6 phi5p E5-67 core 64smp 4smp 6smp multd ddmultd multq double edouble ddedouble mult mult mult 性能比較の傾向は N=4 の場合と全く同じ

7 各種行列積計算の性能は以下の様になっています 各種行列積計算性能比較表 実行時間一覧表 ( 秒 ) N CPU double edouble ddedouble multd ddmultd 4 E Phi5P E Phi5P E Phi5P E Phi5P E Phi5P () 倍精度では c,fortran とも N=7 で Phi5 P の性能が E5-67 を上回ります () 拡張倍精度はすべて E5-67 の性能が上回っています ()SR6 の 4 倍精度では,Phi5P が非常に効力を発揮する事がわかります

8 これに関連した計算は以下の様になっています 4 倍精度行列積計算 N=56 回の実行時間 SR6 single ジョブ 9.68 msec ieeequad msec 557 double+double msec etend double +etend double msec e54 gcc double+double 65.9 msec etend double +etend double msec e54 icc double+double 9.57 msec etend double +etend double 6.66 msec Phi5P 4smp が SR6 ノードより高速という結果と合わせ Phi5P が有効な事がわかります

9 正しく計算するには仮数部 ビット以上必要で, 演算順序も厳密に保証する必要がある rump s の例題の結果です rump's 例題,, 回実行 実行時間 ( 秒 ) 精度 E5-67 Phi5P 6smp 4core 拡張倍精度 * 倍精度 倍精度 E5-67 拡張倍精度 + 拡張倍精度が非常に高速 dd 形式の 4 倍精度では指数部の制限の影響を受けるプログラムには, E5-67 で拡張倍精度 + 拡張倍精度を使用するのが非常に有効です

10 .QDR 積計算 Q( 行列 ),D( ベクトル),R( 行列 ) C i, j (DR) n Q k k, j 量子モンテカルロ法による物性スペクトル計 算で4倍精度演算で精度の良い結果が得ら れなかった事もあり, 演算量の主要部分を占め る6,8,倍精度演算のQDR 積計算で性能を 比較しました 演算量は以下の様になって います i,k D k (DR) R k, j k, j (j,..., n) QDR 積計算 回実行の演算量 (GFLOP) 精度 n=4 n=48 6 倍精度 倍精度 倍精度 48

11 QDR 積計算実行時間 ( 秒 ) 一覧表 N=4, 回実行 CPU SR6 Phi5P E5-67 精度 core 64smp 4core 6smp 6 倍精度 倍精度 倍精度 N=48, 回実行 CPU SR6 Phi5P E5-67 精度 core 64smp 4core 6smp 6 倍精度 倍精度 倍精度 SR6 64smp(smt=on) の効果が大 Phi5P と E5-67 では 6 倍精度と 8 倍精度での性能が逆転していますま これは再内側 DO ループ内の演算量が多くなると Phi5P が効果を発揮する事によります

12 4. N 体問題計算 専用計算機,GPU 等で非常に性能のでる N 体問題で性能を比較しました N体問題 N, タイムステップ 演算量は約 5 GFLOP Phi5P 実行時間一覧表 ( 秒 ) core 数 倍精度 拡張倍精度 E5-67 smp 数 倍精度 拡張倍精度 HD588 gpu 面 倍精度 一面 一面 二面 Phi5P では倍精度は非常に高速です 倍精度と拡張倍精度の性能比は Phi5P は大きく,E5-67 は小さいという差があります HD588 は一面 6core, 二面 core のため, 粒子数 ではあまり性能は出ていません

13 HD588 で演算量が一定になる様に粒子数 N を変化させて測定しました N 体問題粒子数 N, タイムステップ数 N M を一定になる様にしま 演算量は約 5 GFLOP HD 588 の測定結果 M した 実行時間一覧表 ( 秒 ) N=, タイムステップ gpu 面 倍精度 一面 一面 二面 N=4, タイムステップ 65 gpu 面 倍精度 一面 一面 二面 N=, タイムステップ gpu 面 倍精度 一面 一面.7467 二面.9969 粒子数 N が 以上で性能が出る様になっている事がわかります

14 5. 多次元積分計算で実施しています 次元積分は 5.5,,m 5 s y) ( m y) ( ys D dyd D I vt ra inf () で実施しています 次元積分は 5 e f f e y.5 m 5,,m 5 t, 5 s y)m z( y)m z)( y ( y) ( z) y tz( ys D dzdyd D I bo ra inf () 演算量は従来との比較よりソース上からカウントしています

15 dudzdyd DC I ()4 y z y 次元積分計算 C M se D m u z y um zm ym m M y u z zu y u y z u z y E u z y u z y u z y C 5 4 ) ( ) ( ) ( ) )( )( ( ) )( ( ) )( ( にしています はとしてサイズループにしたものを重ループ併合してループのものを重にして積分区間をで変数変換により 576 N case DO case, DO 4 [,], 4 としています の内容ででループを併合つのループ内側ループを併合つのループを外側ループ重にしてを変数変換で積分区間次元積分 case, case D, N, ) DO ( DO ) DO ( DO DO,5 [,] d d d d d D I (4)

16 5 次元 case D =-***-***-***4-***6-***-** &-.d***4 &-**5-**6-***-.d***4-**5-**6 &-*4** &-*4*5-.d**4*6-*5*6-*6**- ***4-***5 &-**4 &-**5-*4**-.d**4*5-*4*6-*5**-*5*6 &-** *4 &-***5-*4**-.d**4*5-*4*6-*5**-*5*6 &-4***5 &-4***6-4*5**-.d*4*5*6-4*6**-5***6-5*6** 5 次元 case D=-**-**4-**5-**6-**-**.-**4.-.d***5-.d***6-**4-**5-**6.-*4*4-.d**4*5.-.d**4*6-*5*5-*5*6- *6*6-**.-**5-**6.-**-**4-**5-.d***6-*4*5.-*4*6-*5*5-*5*6-*6*6-**4-**5.-**6-*4*4-.d**4*5-.d**4*6-*5*5.-*5*6-*6*6-4*4*5-4*4*6-4*5*5-4*5*6. -4*6*6

17 (5)6次元積分 変数変換により積分区間を[,] にして 重 DOループ をひとまとめにした重 DOループを作成 サイズは N. 以下のつの問題を選択しています 6 次元 case 6 I C D d 7 d 6 d 5 d d d C=*4+*5+*6+*4+*5+*6+*4+*5+ *6+4*5 & + 4*6+4*7+5*7+6*7 D =- (**+**+**+7**+*+*+*7+*+ *7+*7) &*(4+5+6) &-4***(+++5+X6+7) &-(5**+6**+5*6)*(+++4+7) &-.*4*(*5+6*7) &-.*((++)*4*6+(++7)*4*5)

18 6 次元 case I C D d 4 d 6 d 7 d d d C=(+++4)*( )-4*4 cc=*m+*m+*m+4*m4+5*m5+6*m6+7*m7 D=-c*cc.+s*(**( )+5*6*(+++4)+*4*6+*4*5).+t**4*7.+p*(**( )+*4*5).+p*(**( )+*4*6).+p*(5*7*(+++4)+*4*7).+p4*(6*7*(+++4)+*4*7) 6 次元 case I C D d 6 d 5 d 4 d d d c=(+++4+5)*(+++6+7)-(++)*(++) ; cc=*m+*m+*m+4*m4+5*m5+6*m6+7*m7 ; d=-c*cc +s*(**( )+*5*6+*4*7-*4*6) +t**(-4*6+5*7) +p*(**( )+*4*(6+7)) +p*(**( )+*6*(4+5)) +p*(4*5*(+++6+7)+4*6*(+)+*5*7) +p4*(6*7*(+++4+5)+4*6*(+)+*5*7) ;

19 5. 次元積分計算 GFLOPs 4. 次元積分 (VTX) 性能測定結果 ( 演算量はソース上から算出 ) HD588 E5-67 Phi5P. 5.. N サイズ

20 5. 次元積分計算 GFLOPs 6. 次元積分 (BOX) 性能測定結果 ( 演算量はソース上から算出 ) HD588 E5-67 Phi5P サイズ N

21 5. 4 次元積分計算 SR6,E5-67,Phi5P の比較の結果は以下の様になっています 4 次元積分実行時間一覧表 ( 秒 ) case 精度 SR6 E5-67 Phi5P 演算量 core 64smp ((GFLOP) case 倍精度 case 拡張倍精度 case 倍精度 case 拡張倍精度 case 4 倍精度 () 多重 DO ループの一重化は E5-67, Phi5P は若干速くなりますが SR6 は ~ 倍程度遅くなっています ()ieee754-8 形式の 4 倍精度は非常に遅くなっています

22 サイズを大きくした場合と HD588 との比較は以下の様になっています 4 次元積分計算詳細テスト結果 case N= 実行時間 ( 秒 ) 精度 E5-67 Phi5P 6smp 4core 倍精度 拡張倍精度 case 実行時間 ( 秒 ) 精度 HD588 Phi5P 面 面 9core 4core 倍精度 拡張倍精度 倍精度 Phi5P は倍精度は高速で E5-67 は拡張倍精度が高速 HD588 の 4 倍精度は dd 形式のため高速です

23 5.4 5 次元積分計算 5 次元積分実行結果一覧表 演算量 (N=) case GFLOP case 54 case 68 実行時間一覧表 ( 秒 ) CPU SR6 E5-67 Phi5P HD588 case core 64smp c fortran c fortran 面 case case 演算量が約 5GFLOP 程度だと SR6 と Phi5P,HD588 の性能はほぼ等しい. これは 4 次元積分でも同様でした

24 5.5 6 次元積分計算 6 次元積分実行結果一覧表 演算量 (N=) case GFLOP case 64 case 48 case 896 実行時間一覧表 ( 秒 ) cpu SR6 E5-67 Phi5P HD588 case core 64smp c fortran c fortran 二面 case case case 演算量がこれだけ大きくなると,Phi5P, HD588 の性能が SR6 を大きく上回ります また,Phi5P,HD588 のカタログ性能はほぼ同じですが HD588 の性能が Phi5P の倍近く良くなっています これは Phi5P は 6CPU, 4core という構成によるものと考えられます

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 多倍長精度演算の性能評価 日時 年 月 日 :3-: 場所工学院大学新宿校舎 8 階第 4 会議室 高エネルギー加速器研究機構 濱口信行 hgu@post.kek.jp // 第 回多倍長精度計算フォーラム . はじめに 計算センター => ユーザプログラムの実行効率は何 % です よく出ています or 改善してください 実行性能 = 演算量 / 実行時間実行効率 = 実行性能 / 理論性能 ユーザ実行時間

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 数 値 計 算 と 性 能, 精 度 に 関 するまとめ.はじめに 数 値 計 算 の 性 能, 精 度 に 関 して 以 下 の 事 を まとめました ()SRのsmpとmpiの 効 果 を 対 称 行 列 の ノンゼロ 要 素 のみを 使 用 するCG 法 でその 性 能 を 検 証 しました ()ループ 積 分 を 用 いて,アクセラレータ 及 び サーバーの 性 能 を 比 較 しました ()サーバーにおいてRump

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 多倍長計算手法 平成 年度第 四半期 今回はパラメータ の設定と精度に関してまとめて記述しました ループ積分と呼ばれる数値積分計算では 質量 の光子や質量が非常に小さい事はわかっているが その値は不明なニュートリノに対して赤外発散を防ぐため微小量を与えて計算しています この設定する微少量の値により 結果の精度及び反復に要する時間が大きく作用したり 誤った値を得る事があります ここでは典型的な つのケースで説明します

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション スーパーコンピュータ有効活用の手引き ( 平成 年度 - 平成 7 年度 平成 年度から高性能計算の扉に記載しました各種計算機基本性能調査 各種計算機アプリケーション性能比較 多倍長計算手法のまとめとして性能関連事項を各種計算機性能調査まとめと 精度関連事項を多倍長計算手法まとめの 冊にしました 性能関連事項と精度関連事項は異なる視点からの検討が必要な部分が多くあるため この 冊を列挙する体裁を取っています

More information

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 3 1 1 日本原子力研究開発機構システム計算科学センター 2 理科学研究所計算科学研究機構 3 東京大学新領域創成科学研究科

More information

システムソリューションのご紹介

システムソリューションのご紹介 HP 2 C 製品 :VXPRO/VXSMP サーバ 製品アップデート 製品アップデート VXPRO と VXSMP での製品オプションの追加 8 ポート InfiniBand スイッチ Netlist HyperCloud メモリ VXPRO R2284 GPU サーバ 製品アップデート 8 ポート InfiniBand スイッチ IS5022 8 ポート 40G InfiniBand スイッチ

More information

チューニング講習会 初級編

チューニング講習会 初級編 GPU のしくみ RICC での使い方 およびベンチマーク 理化学研究所情報基盤センター 2013/6/27 17:00 17:30 中田真秀 RICC の GPU が高速に! ( 旧 C1060 比約 6.6 倍高速 ) RICCのGPUがC2075になりました! C1060 比 6.6 倍高速 倍精度 515GFlops UPCに100 枚導入 : 合計 51.5TFlops うまく行くと5 倍程度高速化

More information

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc 2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク 東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコア クアッドコアの CPU を次々と市場に送り出していて それらが PC クラスタの CPU として採用され HPC に活用されている ここでは Intel クアッドコア

More information

Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops

Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops ボードの概要 Control processor (FPGA by Altera) GRAPE-MP chip[nextreme

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

Microsoft Word - HOKUSAI_system_overview_ja.docx

Microsoft Word - HOKUSAI_system_overview_ja.docx HOKUSAI システムの概要 1.1 システム構成 HOKUSAI システムは 超並列演算システム (GWMPC BWMPC) アプリケーション演算サーバ群 ( 大容量メモリ演算サーバ GPU 演算サーバ ) と システムの利用入口となるフロントエンドサーバ 用途の異なる 2 つのストレージ ( オンライン ストレージ 階層型ストレージ ) から構成されるシステムです 図 0-1 システム構成図

More information

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8 Web キャンパス資料 超音波シミュレーションの基礎 ~ 第 4 回 ComWAVEによる超高速超音波解析 ~ 科学システム開発部 Copyright (c)2006 ITOCHU Techno-Solutions Corporation 本日の説明内容 ComWAVEの概要および特徴 GPGPUとは GPGPUによる解析事例 CAE POWER 超音波研究会開催 (10 月 3 日 ) のご紹介

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

スライド 1

スライド 1 ATI Stream SDK による 天文 物理計算の高速化 会津大学中里直人 計算事例 : 重力 N 体計算 No.2 プログラム :N 体の重力計算 (1) No.3 既存のアルゴリズムやアプリケーションを CAL で実装するには 前提として 並列計算可能な問題でなくては 利用する意味がない GPU のアーキテクチャにあわせて アルゴリズムを変更する必要あり GPU のメモリに合わせた 効率のよいデータ構造を考える必要あり

More information

supercomputer2010.ppt

supercomputer2010.ppt nanri@cc.kyushu-u.ac.jp 1 !! : 11 12! : nanri@cc.kyushu-u.ac.jp! : Word 2 ! PC GPU) 1997 7 http://wiredvision.jp/news/200806/2008062322.html 3 !! (Cell, GPU )! 4 ! etc...! 5 !! etc. 6 !! 20km 40 km ) 340km

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

(速報) Xeon E 系モデル 新プロセッサ性能について

(速報) Xeon E 系モデル 新プロセッサ性能について ( 速報 ) Xeon E5-2600 系モデル新プロセッサ性能について 2012 年 3 月 16 日 富士通株式会社 2012 年 3 月 7 日 インテル社より最新 CPU インテル Xeon E5 ファミリー の発表がありました この最新 CPU について PC クラスタシステムの観点から性能検証を行いましたので 概要を速報いたします プロセッサインテル Xeon プロセッサ E5-2690

More information

修士論文

修士論文 AVX を用いた倍々精度疎行列ベクトル積の高速化 菱沼利彰 1 藤井昭宏 1 田中輝雄 1 長谷川秀彦 2 1 工学院大学 2 筑波大学 1 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算 - 4. 実験 - 倍々精度疎行列ベクトル積 - 5. まとめ 多倍長精度計算フォーラム 2 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算

More information

スライド 1

スライド 1 GPU クラスタによる格子 QCD 計算 広大理尾崎裕介 石川健一 1.1 Introduction Graphic Processing Units 1 チップに数百個の演算器 多数の演算器による並列計算 ~TFLOPS ( 単精度 ) CPU 数十 GFLOPS バンド幅 ~100GB/s コストパフォーマンス ~$400 GPU の開発環境 NVIDIA CUDA http://www.nvidia.co.jp/object/cuda_home_new_jp.html

More information

VXPRO R1400® ご提案資料

VXPRO R1400® ご提案資料 Intel Core i7 プロセッサ 920 Preliminary Performance Report ノード性能評価 ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価 実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるため コアあたりのピーク性能は同じ 評価システム

More information

tabaicho3mukunoki.pptx

tabaicho3mukunoki.pptx 1 2 はじめに n 目的 4倍精度演算より高速な3倍精度演算を実現する l 倍精度では足りないが4倍精度は必要ないケースに欲しい l 4倍精度に比べてデータサイズが小さい Ø 少なくともメモリ律速な計算では4倍精度よりデータ 転送時間を減らすことが可能 Ø PCIeやノード間通信がボトルネックとなりやすい GPUクラスタ環境に有効か n 研究概要 l DD型4倍精度演算 DD演算 に基づく3倍精度演算

More information

<4D F736F F F696E74202D F A282BD94BD959C89F A4C E682528D652E707074>

<4D F736F F F696E74202D F A282BD94BD959C89F A4C E682528D652E707074> 発表の流れ SSE を用いた反復解法ライブラリ Lis 4 倍精度版の高速化 小武守恒 (JST 東京大学 ) 藤井昭宏 ( 工学院大学 ) 長谷川秀彦 ( 筑波大学 ) 西田晃 ( 中央大学 JST) はじめに 4 倍精度演算について Lisへの実装 SSEによる高速化 性能評価 スピード 収束 まとめ はじめに クリロフ部分空間法たとえば CG 法は, 理論的には高々 n 回 (n は係数行列の次元数

More information

スライド 1

スライド 1 計算科学が拓く世界スーパーコンピュータは何故スーパーか 学術情報メディアセンター中島浩 http://www.para.media.kyoto-u.ac.jp/jp/ username=super password=computer 講義の概要 目的 計算科学に不可欠の道具スーパーコンピュータが どういうものか なぜスーパーなのか どう使うとスーパーなのかについて雰囲気をつかむ 内容 スーパーコンピュータの歴史を概観しつつ

More information

演習1: 演習準備

演習1: 演習準備 演習 1: 演習準備 2013 年 8 月 6 日神戸大学大学院システム情報学研究科森下浩二 1 演習 1 の内容 神戸大 X10(π-omputer) について システム概要 ログイン方法 コンパイルとジョブ実行方法 OpenMP の演習 ( 入門編 ) 1. parallel 構文 実行時ライブラリ関数 2. ループ構文 3. shared 節 private 節 4. reduction 節

More information

ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC ソフトウェア 3.5 以降のバージョンが必要です Dual 2.26 GHz Quad Core Intel 構成のに関しては Configuration Guideli

ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC ソフトウェア 3.5 以降のバージョンが必要です Dual 2.26 GHz Quad Core Intel 構成のに関しては Configuration Guideli ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC/Symphony ソフトウェア 5.0.3 以降のバージョンが必要です Two 2.66 GHz 6-Core *Mojo SDI 及び Adrenaline サポート Intel Xeon (12 コア ) 32-bit カーネルで実 して下さい 64-bit カーネルは対応していません

More information

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装 2010 GPGPU 2010 9 29 MPI/Pthread (DDM) DDM CPU CPU CPU CPU FEM GPU FEM CPU Mult - NUMA Multprocessng Cell GPU Accelerator, GPU CPU Heterogeneous computng L3 cache L3 cache CPU CPU + GPU GPU L3 cache 4

More information

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料)

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料) 今後の HPC 技術に関する 研究開発の方向性について 2012 年 5 月 30 日 ( 株 ) 日立製作所情報 通信システム社 IT プラットフォーム事業本部 Hitachi, Hitachi, Ltd. Ltd. Hitachi 2012. 2012. Ltd. 2012. All rights All rights All rights reserved. reserved. reserved.

More information

目次 1. はじめに 用語説明 対象アダプタ P HBA/2P HBA/4P HBA で異なる性能 付録 P HBA での性能測定環境 P HBA での性能測定環境 P

目次 1. はじめに 用語説明 対象アダプタ P HBA/2P HBA/4P HBA で異なる性能 付録 P HBA での性能測定環境 P HBA での性能測定環境 P ホワイトペーパー BladeSymphony/HA8000 Hitachi Gigabit Fibre Channel アダプタ - 16G FC アダプタに搭載される FC ポート数の性能への影響 について - 2014 年 10 月発行 株式会社日立製作所 1 / 11 Copyright 2014 Hitachi, Ltd. All rights reserved 目次 1. はじめに...

More information

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU GPGPU (I) GPU GPGPU 1 GPU(Graphics Processing Unit) GPU GPGPU(General-Purpose computing on GPUs) GPU GPGPU GPU ( PC ) PC PC GPU PC PC GPU GPU 2008 TSUBAME NVIDIA GPU(Tesla S1070) TOP500 29 [1] 2009 AMD

More information

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation 熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date 2011-03-17 Type URL Presentation http://hdl.handle.net/2298/23539 Right GPGPU による高速演算について 榎本昌一 東京大学大学院工学系研究科システム創成学専攻

More information

目次 1. はじめに 用語説明 対象アダプタ P HBA/2P HBAで異なる性能 付録 ( 性能測定環境 ) P HBAでの性能測定環境 P HBAでの性能測定環境 本書の

目次 1. はじめに 用語説明 対象アダプタ P HBA/2P HBAで異なる性能 付録 ( 性能測定環境 ) P HBAでの性能測定環境 P HBAでの性能測定環境 本書の ホワイトペーパー Hitachi Gigabit Fibre Channel アダプタ - 16G FC アダプタに搭載される FC ポート数の性能への影響 について - 2014 年 4 月発行 株式会社日立製作所 1 / 9 Copyright 2014 Hitachi, Ltd. All rights reserved 目次 1. はじめに... 3 2. 用語説明... 4 3. 対象アダプタ...

More information

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015 ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ 本セッションの目的 本セッションでは ERDAS IMAGINEにおける処理速度向上を目的として機器 (SSD 等 ) 及び並列処理の比較 検討を行った 1.SSD 及び RAMDISK を利用した処理速度の検証 2.Condorによる複数 PCを用いた並列処理 2.1 分散並列処理による高速化試験 (ERDAS IMAGINEのCondorを使用した試験

More information

インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美

インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美 インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美 インテル アーキテクチャ プロセッサロードマップ 2000 年第 4 四半期 2001 年上半期 サーバ / インテル Pentium III インテル Itanium ワークステーション Xeon プロセッサプロセッサ パフォーマンスインテル

More information

hpc141_shirahata.pdf

hpc141_shirahata.pdf GPU アクセラレータと不揮発性メモリ を考慮した I/O 性能の予備評価 白幡晃一 1,2 佐藤仁 1,2 松岡聡 1 1: 東京工業大学 2: JST CREST 1 GPU と不揮発性メモリを用いた 大規模データ処理 大規模データ処理 センサーネットワーク 遺伝子情報 SNS など ペタ ヨッタバイト級 高速処理が必要 スーパーコンピュータ上での大規模データ処理 GPU 高性能 高バンド幅 例

More information

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ K20 GPU2 個に対するスピードアップ NVIDIA は Fermi アーキテクチャ GPU の発表により パフォーマンス エネルギー効率の両面で飛躍的な性能向上を実現し ハイパフォーマンスコンピューティング (HPC) の世界に変革をもたらしました また 実際に GPU

More information

CELSIUSカタログ(2012年7月版)

CELSIUSカタログ(2012年7月版) CELSIUS PC "MADE IN JAPAN" 2012.7 W520 ハイエンドの過酷な要求に応えるパワフルなデュアルと高信頼を搭載 RAID構成 選択可能 富士通がお勧めする Windows 7. ミニタワーエントリーモデル より速く より強力に 最新の技術をフル投入 スピードとパワー 安定性を提供 RAID構成 選択可能 Windows 7 Professional 32bit版 正規版

More information

Microsoft Word ●書式付IO性能_杉崎_ _更新__ doc

Microsoft Word ●書式付IO性能_杉崎_ _更新__ doc 2.2.3. 書式付 I/O 性能 上智大学南部伸孝富士通株式会社内藤俊也 杉崎由典 1. はじめに I/O 処理に要する時間の内訳は システムの実 I/O 時間 + ランタイムの書式処理時間となっている プログラムを用いた書式付 I/O 時間を富士通コンパイラで評価した所 システム時間が約 12% であり ランタイム時間が約 88% ということが確認された 即ち 書式付 I/O 性能は ランタイムの性能に大きく影響される

More information

CELSIUSカタログ(2012年5月版)

CELSIUSカタログ(2012年5月版) CELSIUS PC "MADE IN JAPAN" 2012.5 New W520 ハイエンドの過酷な要求に応えるパワフルなデュアルと高信頼を搭載 トを搭載 RAID構成 選択可能 New グラフィックス/GPUカード 500GB 1TB 500GB 2 RAID1 Quadro 5000 Quadro 4000 Quadro 2000 Quadro 600 4 Quadro 4000 TeslaTM

More information

11 月発表の Green500 最新結果の顛末 本来は Green500 で 1-4 位独占を実現する目論見であった 7 月の ISC で 計測ルールが v2.0 になることが予告された ( 現行の v1.2 ルールでの計測値改善には注力せず v2.0 対応作業のみ進めていた ) 最後まで v1.

11 月発表の Green500 最新結果の顛末 本来は Green500 で 1-4 位独占を実現する目論見であった 7 月の ISC で 計測ルールが v2.0 になることが予告された ( 現行の v1.2 ルールでの計測値改善には注力せず v2.0 対応作業のみ進めていた ) 最後まで v1. ZettaScaler-1.5 による HPC システム構築と ZettaScaler-2.0 構想 2015 年 12 月 18 日 齊藤元章 ( 株式会社 PEZY Computing/ 株式会社 ExaScaler/UltraMemory 株式会社 ) 11 月発表の Green500 最新結果の顛末 本来は Green500 で 1-4 位独占を実現する目論見であった 7 月の ISC で

More information

コンテンツセントリックネットワーク技術を用いた ストリームデータ配信システムの設計と実装

コンテンツセントリックネットワーク技術を用いた ストリームデータ配信システムの設計と実装 コンテンツセントリックネットワークにおけるストリームデータ配信機構の実装 川崎賢弥, 阿多信吾, 村田正幸 大阪大学大学院情報科学研究科 大阪市立大学大学院工学研究科 2 発表内容 研究背景 研究目的 ストリームデータ配信機構の設計 ストリームデータのモデル化 コンテンツの名前構造 ストリームデータの要求とフロー制御 ストリームデータ配信機構の実装 動作デモンストレーション 3 コンテンツセントリックネットワーク

More information

HPCマシンの変遷と 今後の情報基盤センターの役割

HPCマシンの変遷と 今後の情報基盤センターの役割 筑波大学計算科学センターシンポジウム 計算機アーキテクトが考える 次世代スパコン 2006 年 4 月 5 日 村上和彰 九州大学 murakami@cc.kyushu-u.ac.jp 次世代スパコン ~ 達成目標と制約条件の整理 ~ 達成目標 性能目標 (2011 年 ) LINPACK (HPL):10PFlop/s 実アプリケーション :1PFlop/s 成果目標 ( 私見 ) 科学技術計算能力の国際競争力の向上ならびに維持による我が国の科学技術力

More information

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード] 200/0/9 数値流体解析の並列効率とその GPU による高速化の試み 清水建設 ( 株 ) 技術研究所 PHAM VAN PHUC ( ファムバンフック ) 流体計算時間短縮と GPU の活用の試み 現 CPUとの比較によりGPU 活用の可能性 現 CPU の最大利用 ノード内の最大計算資源の利用 すべてCPUコアの利用 適切なアルゴリズムの利用 CPU コア性能の何倍? GPU の利用の試み

More information

本文ALL.indd

本文ALL.indd Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法河辺峻田口成美古谷英祐 Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法 Performance Measurement Method of Cache Coherency Effects on an Intel Xeon Processor System 河辺峻田口成美古谷英祐

More information

平成 22 年度 革新的な三次元映像技術による超臨場感コミュニケーション技術研究開発 の開発成果について 1. 施策の目標 人体を収容できる大きさの 3 次元音響空間についてリアルタイムに音響レンダリングできるシステム ( シリコンコンサートホール ) を 2013 年までに開発する 具体的には,

平成 22 年度 革新的な三次元映像技術による超臨場感コミュニケーション技術研究開発 の開発成果について 1. 施策の目標 人体を収容できる大きさの 3 次元音響空間についてリアルタイムに音響レンダリングできるシステム ( シリコンコンサートホール ) を 2013 年までに開発する 具体的には, 平成 22 年度 革新的な三次元映像技術による超臨場感コミュニケーション技術研究開発 の開発成果について 1. 施策の目標 人体を収容できる大きさの 3 次元音響空間についてリアルタイムに音響レンダリングできるシステム ( シリコンコンサートホール ) を 2013 年までに開発する 具体的には, 直方体領域 (2m 2m 4m 程度 ) の室内音場を想定し, 音声周波数帯域 (3kHz まで )

More information

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果 Pervasive PSQL v11 のベンチマークパフォーマンスの結果 Pervasive PSQL ホワイトペーパー 2010 年 9 月 目次 実施の概要... 3 新しいハードウェアアーキテクチャがアプリケーションに及ぼす影響... 3 Pervasive PSQL v11 の設計... 4 構成... 5 メモリキャッシュ... 6 ベンチマークテスト... 6 アトミックテスト... 7

More information

目次 1 はじめに 登録商標 商標 注意事項 免債事項 SR-IOV の機能概要 性能検証事例 測定環境 測定結果 各方式による共有 NIC 性能比較 ( ポートあ

目次 1 はじめに 登録商標 商標 注意事項 免債事項 SR-IOV の機能概要 性能検証事例 測定環境 測定結果 各方式による共有 NIC 性能比較 ( ポートあ ホワイトペーパー BladeSymphony Virtage SR-IOV のご紹介 2014 年 7 月発行 株式会社日立製作所 1 / 8 Copyright 2014 Hitachi, Ltd. All rights reserved 目次 1 はじめに... 3 1.1 登録商標 商標... 3 1.2 注意事項... 3 1.3 免債事項... 3 2 SR-IOV の機能概要... 4

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 総務省 ICTスキル総合習得教材 概要版 eラーニング用 [ コース2] データ蓄積 2-5: 多様化が進展するクラウドサービス [ コース1] データ収集 [ コース2] データ蓄積 [ コース3] データ分析 [ コース4] データ利活用 1 2 3 4 5 座学本講座の学習内容 (2-5: 多様化が進展するクラウドサービス ) 講座概要 近年 注目されているクラウドの関連技術を紹介します PCやサーバを構成するパーツを紹介後

More information

GPGPU によるアクセラレーション環境について

GPGPU によるアクセラレーション環境について GPGPU によるアクセラレーション環境について 長屋貴量 自然科学研究機構分子科学研究所技術課計算科学技術班 概要 GPGPU とは 単純で画一的なデータを一度に大量に処理することに特化したグラフィックカードの演算資源を 画像処理以外の汎用的な目的に応用する技術の一つである 近年 その演算能力は CPU で通常言われるムーアの法則に則った場合とは異なり 飛躍的に向上しており その演算性能に魅力を感じた各分野での応用が広がってきている

More information

FX10利用準備

FX10利用準備 π-computer(fx10) 利用準備 2018 年 3 月 14 日理化学研究所計算科学研究機構八木学 1 KOBE HPC Spring School 2018 2018/3/14 内容 本スクールの実習で利用するスーパーコンピュータ神戸大学 π-computer (FX10) について システム概要 ログイン準備 2 神戸大学 π-computer: システム概要 富士通 PRIMEHPC

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション S6 モデル M XM 目次. 行列積計算. SMP 同期のオーバーヘッド時間 3. MPI 同期のオーバーヘッド時間 4. 性能モニターのサブルーチンコールのオーバーヘッド時間 5. メモリアクセス性能 6. パターンマッチングの利用 7. ストラッセンの行列積 8. 基本演算性能データ 9. 連立一次方程式. 反復法. SIMD(Single Instruction Multiple Data).

More information

システム imac 21.5 インチディスプレイ 3.6GHz i5 Dual core / HT 2.8GHz i7 Quad core / HT ATI Radeon 4850 ATI Radeon HD はいいいえいいえはいいいえ ATI はいいいえ

システム imac 21.5 インチディスプレイ 3.6GHz i5 Dual core / HT 2.8GHz i7 Quad core / HT ATI Radeon 4850 ATI Radeon HD はいいいえいいえはいいいえ ATI はいいいえ Composer 6 および Symphony 6 認定 Apple Mac システム システム Mac デスクトップ Mac Pro dual 6-Core 2.66GHz "Westmere" Core 2.66GHz および 2.93GHz "Nehalem" Core 2.26GHz "Nehalem" Core 3.0GHz および 3.2GHz "Harpertown" Geforce

More information

Microsoft PowerPoint - stream.ppt [互換モード]

Microsoft PowerPoint - stream.ppt [互換モード] STREAM 1 Quad Opteron: ccnuma Arch. AMD Quad Opteron 2.3GHz Quad のソケット 4 1 ノード (16コア ) 各ソケットがローカルにメモリを持っている NUMA:Non-Uniform Access ローカルのメモリをアクセスして計算するようなプログラミング, データ配置, 実行時制御 (numactl) が必要 cc: cache-coherent

More information

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始 2014 年 1 月 31 日 国立大学法人九州大学 株式会社日立製作所 九州大学がスーパーコンピュータ 高性能アプリケーションサーバシステム の本格稼働を開始 日立のテクニカルサーバ HA8000-tc/HT210 などを採用 従来システム比で 約 28 倍の性能を実現し 1TFLOPS あたりの消費電力は約 17 分の 1 に低減 九州大学情報基盤研究開発センター ( センター長 : 青柳睦 /

More information

情報解禁 時 :10 月 19 ( )22:00 以降 株式会社マウスコンピューター News Release 8 コア /16 スレッド駆動のインテル第 9 世代 CPU とハイエンドグラフィックス搭載パソコンをゲーミングパソコンブランド G-Tune から販売 10 月 22 日 ( 月 )10

情報解禁 時 :10 月 19 ( )22:00 以降 株式会社マウスコンピューター News Release 8 コア /16 スレッド駆動のインテル第 9 世代 CPU とハイエンドグラフィックス搭載パソコンをゲーミングパソコンブランド G-Tune から販売 10 月 22 日 ( 月 )10 情報解禁 時 :10 月 19 ( )22:00 以降 株式会社マウスコンピューター News Release 8 コア /16 スレッド駆動のインテル第 9 世代 CPU とハイエンドグラフィックス搭載パソコンをゲーミングパソコンブランド G-Tune から販売 10 月 22 日 ( 月 )10:00 より WEB で販売開始 MASTERPIECE i1640pa2-sp2 画像はイメージです

More information

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc Article ID: NVSI-050110JP Created: 2005/10/19 Revised: - NetVault 仮想テープ ライブラリのパフォーマンス検証 : dothill SANnetⅡSATA 編 1. 検証の目的 ドットヒルシステムズ株式会社の SANnetll SATA は 安価な SATA ドライブを使用した大容量ストレージで ディスクへのバックアップを行う際の対象デバイスとして最適と言えます

More information

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 目次 1. TSUBAMEのGPU 環境 2. プログラム作成 3. プログラム実行 4. 性能解析 デバッグ サンプルコードは /work0/gsic/seminars/gpu- 2011-09- 28 からコピー可能です 1.

More information

サーバに関するヘドニック回帰式(再推計結果)

サーバに関するヘドニック回帰式(再推計結果) 2012 年 3 月 日本銀行調査統計局 企業物価指数 サーバ に関するヘドニック回帰式 ( 再推計結果 ) 企業物価指数 サーバ の品質調整に適用するヘドニック回帰式について 1 最新のデータを用いて再推計しましたので その結果をお知らせします 1. サーバのヘドニック推計に関する基本方針 留意事項推計頻度 年 1 回 (2 月 ) 適用範囲 国内品 輸出品 輸入品に対し 同一の推計式を適用 2

More information

HA8000xH ハードウェア アーキテクチャーガイド

HA8000xH ハードウェア アーキテクチャーガイド Microsoft Windows Corp. Pentium,Xeon,Celeron Intel Corporation. ( ) 2008 4 ( 1 ) HA8000/TS10 AH,BH,CH,DH Intel 3200 1way Xeon X3360(2.83GHz) Xeon E3110(3GHz) Pentium E2180(2GHz) FSB1,333/800MHz SDRAM ECC

More information

Microsoft PowerPoint - DNS_BoF_SCS_ pptx

Microsoft PowerPoint - DNS_BoF_SCS_ pptx BIND マルチコア / プロセスパフォーマンステスト 28/7/9 住商情報システム株式会社服部成浩 s.hattori@scs.co.jp テストをした背景と内容 マルチコアの製品の低廉化 Bind はどのくらいパフォーマンスでるのか? 神明さんパッチ Nominum 製品はマルチコア対応でない テスト内容 2 種類のテストを実施 テスト 1: コア数と処理性能 テスト 2: 1 プロセス時と複数プロセス時の比較

More information

振動学特論火曜 1 限 TA332J 藤井康介 6 章スペクトルの平滑化 スペクトルの平滑化とはギザギザした地震波のフーリエ スペクトルやパワ スペクトルでは正確にスペクトルの山がどこにあるかはよく分からない このようなスペクトルから不純なものを取り去って 本当の性質を浮き彫

振動学特論火曜 1 限 TA332J 藤井康介 6 章スペクトルの平滑化 スペクトルの平滑化とはギザギザした地震波のフーリエ スペクトルやパワ スペクトルでは正確にスペクトルの山がどこにあるかはよく分からない このようなスペクトルから不純なものを取り去って 本当の性質を浮き彫 6 章スペクトルの平滑化 スペクトルの平滑化とはギザギザした地震波のフーリエ スペクトルやパワ スペクトルでは正確にスペクトルの山がどこにあるかはよく分からない このようなスペクトルから不純なものを取り去って 本当の性質を浮き彫りにするために スペクトルを滑らかにする操作のことをいう 6.1 合積のフーリエ変換スペクトルの平滑化を行う際に必要な 合積とそのフーリエ変換について説明する 6.2 データ

More information

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2 FFT 1 Fourier fast Fourier transform FFT FFT FFT 1 FFT FFT 2 Fourier 2.1 Fourier FFT Fourier discrete Fourier transform DFT DFT n 1 y k = j=0 x j ω jk n, 0 k n 1 (1) x j y k ω n = e 2πi/n i = 1 (1) n DFT

More information

総合仕様

総合仕様 Dell Inspiron 300/400 仕様 本書には セットアップ ドライバのアップデート およびコンピュータのアップデートの際に必要となる可能性がある基本情報が記載されています メモ : 提供される内容は地域により異なる場合があります コンピュータの設定に関する詳細については スタートとサポートをクリックし お使いのコンピュータに関する情報を表示するためのオプションを選択してください ヘルプ

More information

Microsoft PowerPoint - OpenMP入門.pptx

Microsoft PowerPoint - OpenMP入門.pptx OpenMP 入門 須田礼仁 2009/10/30 初版 OpenMP 共有メモリ並列処理の標準化 API http://openmp.org/ 最新版は 30 3.0 バージョンによる違いはあまり大きくない サポートしているバージョンはともかく csp で動きます gcc も対応しています やっぱり SPMD Single Program Multiple Data プログラム #pragma omp

More information

RICCについて

RICCについて RICC 1 RICC 2 RICC 3 RICC GPU 1039Nodes 8312core) 93.0GFLOPS, 12GB(mem), 500GB (hdd) DDR IB!1 PC100Nodes(800core) 9.3 GPGPU 93.3TFLOPS HPSS (4PB) (550TB) 0.24 512GB 1500GB MDGRAPE33TFLOPS MDGRAPE-3 64

More information

<4D F736F F F696E74202D208C7997CA89BB8E9E8AD491AA92E B2E B8CDD8AB B83685D>

<4D F736F F F696E74202D208C7997CA89BB8E9E8AD491AA92E B2E B8CDD8AB B83685D> NXPowerLite 5 ファイルサーバーエディションについて 株式会社オーシャンブリッジ FSE521-140121 測定環境 検証マシンスペック OS : Windows Sever 2008 R2, Standard Edition SP1 CPU : Intel Xeon X3430 2.4GHz (4コア ) メモリ :8.0 GB アプリケーション : NXPowerLite 5 ファイルサーバエディション

More information

Microsoft PowerPoint - ★13_日立_清水.ppt

Microsoft PowerPoint - ★13_日立_清水.ppt PC クラスタワークショップ in 京都 日立テクニカルコンピューティングクラスタ 2008/7/25 清水正明 日立製作所中央研究所 1 目次 1 2 3 4 日立テクニカルサーバラインナップ SR16000 シリーズ HA8000-tc/RS425 日立自動並列化コンパイラ 2 1 1-1 日立テクニカルサーバの歴史 最大性能 100TF 10TF 30 年間で百万倍以上の向上 (5 年で 10

More information

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx シングルコアとマルチコア 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 前々回の授業の復習 CPUの進化 半導体集積率の向上 CPUの動作周波数の向上 + 複雑な処理を実行する回路を構成 ( 前々回の授業 ) マルチコア CPU への進化 均一 不均一なプロセッサ コプロセッサ, アクセラレータ 210 コンピュータの歴史 世界初のデジタルコンピュータ 1944 年ハーバードMark I

More information

情報解禁日時 :12 月 20 日 ( 木 )11:00 以降 株式会社マウスコンピューター News Release MousePro 第 9 世代インテル CPU 搭載ビジネス向けデスクトップパソコンを 12 月 20 日 ( 木 ) 販売開始! ビジネス向けデスクトップパソコン MousePr

情報解禁日時 :12 月 20 日 ( 木 )11:00 以降 株式会社マウスコンピューター News Release MousePro 第 9 世代インテル CPU 搭載ビジネス向けデスクトップパソコンを 12 月 20 日 ( 木 ) 販売開始! ビジネス向けデスクトップパソコン MousePr 情報解禁日時 :12 月 20 日 ( 木 )11:00 以降 株式会社マウスコンピューター News Release MousePro 第 9 世代インテル CPU 搭載ビジネス向けデスクトップパソコンを 12 月 20 日 ( 木 ) 販売開始! ビジネス向けデスクトップパソコン MousePro T310 シリーズ 画像はイメージです 液晶ディスプレイはオプションです 株式会社マウスコンピューター

More information

hirayama

hirayama 128 ビット 4 倍精度と 160 ビット拡張 4 倍精度演算プログラムの作成 平山弘神奈川工科大学自動車システム開発工学科 hirayama@sd.kanagawa-it.ac.jp 工学院大学新宿校舎 28 階第 4 会議室 2013 年 3 月 8 日 ( 金 ) なぜ 4 倍精度か 4 倍精度程度の精度では 多倍長計算はあまり速くない 精度の小さい計算の方が計算精度が大きい計算より需要は多い

More information

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP InfiniBand ACP 1,5,a) 1,5,b) 2,5 1,5 4,5 3,5 2,5 ACE (Advanced Communication for Exa) ACP (Advanced Communication Primitives) HPC InfiniBand ACP InfiniBand ACP ACP InfiniBand Open MPI 20% InfiniBand Implementation

More information

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 GPU 4 2010 8 28 1 GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 Register & Shared Memory ( ) CPU CPU(Intel Core i7 965) GPU(Tesla

More information

<4D F736F F F696E74202D204E505F8E9F90A291E E815B CFC82AF B838B B838B C5E B8D5C91A E E4E41532E7

<4D F736F F F696E74202D204E505F8E9F90A291E E815B CFC82AF B838B B838B C5E B8D5C91A E E4E41532E7 次世代エンタープライズ向けスケールアップ & スケールアウト型モジュラー構造 Tiered クラスタ NAS 平成 22 年 4 月 1. トレンド ファイルサービスとして CIFS ファイルシェアリングが主流に Windows Active Directry によるセキュリティ管理下の流れ 低価格大容量スケーラブルな NAS のニーズ ハイパフォーマンススケールアウト NAS 用途の拡大 アプリケーションから見たストレージ

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション PC クラスタシンポジウム 日立のテクニカルコンピューティングへの取り組み 2010/12/10 株式会社日立製作所中央研究所清水正明 1 目次 1 2 3 日立テクニカルサーバラインナップ 日立サーバラインナップ GPU コンピューティングへの取り組み 4 SC10 日立展示 2 1-1 日立テクニカルサーバ : History & Future Almost 30 Years of Super

More information

Microsoft Word - Dolphin Expressによる10Gbpソケット通信.docx

Microsoft Word - Dolphin Expressによる10Gbpソケット通信.docx Dolphin Express による 10Gbps ソケット通信 Dolphin Express は 標準的な低価格のサーバを用いて 強力なクラスタリングシステムが構築できる ハードウェアとソフトウェアによる通信用アーキテクチャです 本資料では Dolphin Express 製品の概要と 実際にどの程度の性能が出るのか市販 PC での実験結果をご紹介します Dolphin Express 製品体系

More information

main.dvi

main.dvi PC 1 1 [1][2] [3][4] ( ) GPU(Graphics Processing Unit) GPU PC GPU PC ( 2 GPU ) GPU Harris Corner Detector[5] CPU ( ) ( ) CPU GPU 2 3 GPU 4 5 6 7 1 toyohiro@isc.kyutech.ac.jp 45 2 ( ) CPU ( ) ( ) () 2.1

More information

CCS HPCサマーセミナー 並列数値計算アルゴリズム

CCS HPCサマーセミナー 並列数値計算アルゴリズム 大規模系での高速フーリエ変換 2 高橋大介 daisuke@cs.tsukuba.ac.jp 筑波大学計算科学研究センター 2016/6/2 計算科学技術特論 B 1 講義内容 並列三次元 FFT における自動チューニング 二次元分割を用いた並列三次元 FFT アルゴリズム GPU クラスタにおける並列三次元 FFT 2016/6/2 計算科学技術特論 B 2 並列三次元 FFT における 自動チューニング

More information

<4D F736F F D20332E322E332E819C97AC91CC89F090CD82A982E78CA982E9466F E393082CC8D5C91A291CC90AB945C955D89BF5F8D8296D85F F8D F5F E646F63>

<4D F736F F D20332E322E332E819C97AC91CC89F090CD82A982E78CA982E9466F E393082CC8D5C91A291CC90AB945C955D89BF5F8D8296D85F F8D F5F E646F63> 3.2.3. 流体解析から見る Fortran90 の構造体性能評価 宇宙航空研究開発機構 高木亮治 1. はじめに Fortran90 では 構造体 動的配列 ポインターなど様々な便利な機能が追加され ユーザーがプログラムを作成する際に選択の幅が広がりより便利になった 一方で 実際のアプリケーションプログラムを開発する際には 解析対象となる物理現象を記述する数学モデルやそれらを解析するための計算手法が内包する階層構造を反映したプログラムを作成できるかどうかは一つの重要な観点であると考えられる

More information

EASYCOLOR!2 EASYCOLOR!3 EASYCOLOR!2 Mac OS X 版動作確認実施情報 EASYCOLOR!3(Ver 3.0.10.0) 動作確認 PC 環境 CPU GPU OS バージョン MacBook Pro (MB604J/A) Mac Pro (MC560J/A) MacBook Pro (Z0GP00520) Mac mini (MC816J/A)

More information

GPGPUクラスタの性能評価

GPGPUクラスタの性能評価 2008 年度理研 HPC シンポジウム第 3 世代 PC クラスタ GPGPU クラスタの性能評価 2009 年 3 月 12 日 富士通研究所成瀬彰 発表の概要 背景 GPGPU による高速化 CUDA の概要 GPU のメモリアクセス特性調査 姫野 BMT の高速化 GPGPU クラスタによる高速化 GPU Host 間のデータ転送 GPU-to-GPU の通信性能 GPGPU クラスタ上での姫野

More information

Microsoft PowerPoint 知る集い(京都)最終.ppt

Microsoft PowerPoint 知る集い(京都)最終.ppt 次世代スパコンについて知る集い 配布資料 世界最高性能を目指すシステム開発について ー次世代スパコンのシステム構成と施設の概要 - 平成 22 年 1 月 28 日 理化学研究所次世代スーパーコンピュータ開発実施本部横川三津夫 高性能かつ大規模システムの課題と対応 演算性能の向上 CPU のマルチコア化,SIMD( ベクトル化 ) 機構 主記憶へのアクセス頻度の削減 - CPU 性能とメモリアクセス性能のギャップ

More information

Microsoft Word - koubo-H26.doc

Microsoft Word - koubo-H26.doc 平成 26 年度学際共同利用プログラム 計算基礎科学プロジェクト 公募要項 - 計算基礎科学連携拠点 ( 筑波大学 高エネルギー加速器研究機構 国立天文台 ) では スーパーコンピュータの学際共同利用プログラム 計算基礎科学プロジェクト を平成 22 年度から実施しております 平成 23 年度からは HPCI 戦略プログラム 分野 5 物質と宇宙の起源と構造 の協力機関である京都大学基礎物理学研究所

More information

2 4 8 13 18 24 29 34 39 44 46 48 1 2 3 4 5 6 7 18 11 11 15 10 16 10 8 9 10 1. 2. 3. 4. 5. 6. 7. 1. 2. 3. 4. 5. 6. 7. 11 1. 2. 3. 4. 5. 6. 7. 12 13 18 12 11 16 25 18 00 CPU Central Processing Unit 14 MUST-CAN-WILL

More information

211 年ハイパフォーマンスコンピューティングと計算科学シンポジウム Computing Symposium 211 HPCS /1/18 a a 1 a 2 a 3 a a GPU Graphics Processing Unit GPU CPU GPU GPGPU G

211 年ハイパフォーマンスコンピューティングと計算科学シンポジウム Computing Symposium 211 HPCS /1/18 a a 1 a 2 a 3 a a GPU Graphics Processing Unit GPU CPU GPU GPGPU G 211 年ハイパフォーマンスコンピューティングと計算科学シンポジウム Computing Symposium 211 HPCS211 211/1/18 GPU 4 8 BLAS 4 8 BLAS Basic Linear Algebra Subprograms GPU Graphics Processing Unit 4 8 double 2 4 double-double DD 4 4 8 quad-double

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション vsmp Foundation スケーラブル SMP システム スケーラブル SMP システム 製品コンセプト 2U サイズの 8 ソケット SMP サーバ コンパクトな筐体に多くのコアとメモリを実装し SMP システムとして利用可能 スイッチなし構成でのシステム構築によりラックスペースを無駄にしない構成 将来的な拡張性を保証 8 ソケット以上への拡張も可能 2 システム構成例 ベースシステム 2U

More information

コードのチューニング

コードのチューニング OpenMP による並列化実装 八木学 ( 理化学研究所計算科学研究センター ) KOBE HPC Spring School 2019 2019 年 3 月 14 日 スレッド並列とプロセス並列 スレッド並列 OpenMP 自動並列化 プロセス並列 MPI プロセス プロセス プロセス スレッドスレッドスレッドスレッド メモリ メモリ プロセス間通信 Private Private Private

More information

並列・高速化を実現するための 高速化サービスの概要と事例紹介

並列・高速化を実現するための 高速化サービスの概要と事例紹介 第 4 回 AVS 可視化フォーラム 2019 並列 高速化を実現するための 高速化サービスの概要と事例紹介 株式会社アーク情報システム営業部仮野亮ソリューション技術部佐々木竜一 2019.08.30 はじめに アーク情報システムの紹介 高速化サービスとは? 事例紹介 コンサルティングサービスについて アーク情報システムの紹介 設立 資本金 :1987 年 10 月 :3 億 600 万円 従業員数

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2016 年度 5 セメスター クラス C3 D1 D2 D3 計算機工学 14. さらに勉強するために 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ 0 と 1 の世界 これまで何を学んだか 2 進数, 算術演算, 論理演算 計算機はどのように動くのか プロセッサとメモリ 演算命令, ロード

More information

untitled

untitled taisuke@cs.tsukuba.ac.jp http://www.hpcs.is.tsukuba.ac.jp/~taisuke/ CP-PACS HPC PC post CP-PACS CP-PACS II 1990 HPC RWCP, HPC かつての世界最高速計算機も 1996年11月のTOP500 第一位 ピーク性能 614 GFLOPS Linpack性能 368 GFLOPS (地球シミュレータの前

More information

Itanium2ベンチマーク

Itanium2ベンチマーク HPC CPU mhori@ile.osaka-u.ac.jp Special thanks Timur Esirkepov HPC 2004 2 25 1 1. CPU 2. 3. Itanium 2 HPC 2 1 Itanium2 CPU CPU 3 ( ) Intel Itanium2 NEC SX-6 HP Alpha Server ES40 PRIMEPOWER SR8000 Intel

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション コンピュータ物理学 2 第 2 回 (2016.10.11) 第 1 回 10/ 4( 火 ) ガイダンス 第 2 回 10/11( 火 ) 数値表現と誤差 第 3 回 10/18( 火 ) 第 4 回 10/25( 火 ) 数値微分 積分 第 5 回 11/ 1( 火 ) 第 6 回 11/ 8( 火 ) 第 7 回 11/15( 火 ) 常微分方程式 第 8 回 11/22( 火 ) 第 9 回

More information

case1_cp

case1_cp キャンペーン内容 1 Surface Pro/Surface Go キャンペーン 他社では実現不可能なソフトバンク限定価格! Surface Pro/Surface Go を 今だけ かなりおトクな価格でご提供 キャンペーン期間 :2019 年 5 月 10 日 ~2020 年 3 月 31 日対象 : 該当期間中 対象端末を新規 追加購入する全てのお客様 2 端末の特長 ご提供価格 3 Surface

More information

目次 1. はじめに SSL 通信を使用する上での課題 SSL アクセラレーターによる解決 SSL アクセラレーターの導入例 SSL アクセラレーターの効果... 6 富士通の SSL アクセラレーター装置のラインナップ... 8

目次 1. はじめに SSL 通信を使用する上での課題 SSL アクセラレーターによる解決 SSL アクセラレーターの導入例 SSL アクセラレーターの効果... 6 富士通の SSL アクセラレーター装置のラインナップ... 8 IPCOM 目次 1. はじめに... 1 2.SSL 通信を使用する上での課題... 2 3.SSL アクセラレーターによる解決... 3 4.SSL アクセラレーターの導入例... 4 5.SSL アクセラレーターの効果... 6 富士通の SSL アクセラレーター装置のラインナップ... 8 1. はじめに SSL は インターネット上で最も良く使われている暗号技術です SSL は 通信内容を暗号化して盗聴を防ぐ機能のほかに

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 2 3 Chapter 0 自己紹介 WordPressインテグレーションサービスを提供するプライム ストラテジー株式会社代表取締役 マイコンBASICマガジン時代からプログラミング暦約 30 年です @kengyu_n kengyu.nakamura www.prime-strategy.co.jp 4 5 Chapter 1 本セッションのゴール ( どこまで速くなるか ) どのくらい速くしたいですか?

More information

enshu5_1.key

enshu5_1.key 情報知能工学演習V (前半第1週) 政田洋平 システム情報学研究科計算科学専攻 TA : 菅 新 菅沼智史 水曜 新行紗弓 馬淵隼 木曜 演習 V( 前半 ) の内容 第 1 週 : 高性能計算 (High Performance Computing = HPC) 向けプログラミングの基礎 第 2 週 : シミュレーションの基礎 第 3 週 : 波の移流方程式のシミュレーション 第 4,5 週 :

More information

NEC 製PC サーバ『Express5800 R120f-1E』とSanDisk『ioMemory SX /SX 』検証報告書

NEC 製PC サーバ『Express5800 R120f-1E』とSanDisk『ioMemory SX /SX 』検証報告書 NEC 製 PC サーバ Express5800 R120f-1E と SanDisk iomemory SX300-1600/SX350-1600 検証報告書 Windows Server 2012 R2 Standard 2015/08/07 文書名称 NEC 製 PC サーバ Express5800 R120f-1E と SanDisk iomemory-sx300-1600/sx350-1600

More information

EnSightのご紹介

EnSightのご紹介 オープン CAE シンポジウム 2014 汎用ポストプロセッサー EnSight の大規模データ対応 CEI ソフトウェア株式会社代表取締役吉川慈人 http://www.ceisoftware.co.jp/ 内容 大規模データで時間のかかる処理 クライアント サーバー機能 マルチスレッドによる並列処理 サーバーの分散処理 クライアントの分散処理 ( 分散レンダリング ) EnSightのOpenFOAMインターフェース

More information

untitled

untitled PC murakami@cc.kyushu-u.ac.jp muscle server blade server PC PC + EHPC/Eric (Embedded HPC with Eric) 1216 Compact PCI Compact PCIPC Compact PCISH-4 Compact PCISH-4 Eric Eric EHPC/Eric EHPC/Eric Gigabit

More information