GPGPU によるアクセラレーション環境について
|
|
|
- あいり ふじつぐ
- 8 years ago
- Views:
Transcription
1 GPGPU によるアクセラレーション環境について 長屋貴量 自然科学研究機構分子科学研究所技術課計算科学技術班 概要 GPGPU とは 単純で画一的なデータを一度に大量に処理することに特化したグラフィックカードの演算資源を 画像処理以外の汎用的な目的に応用する技術の一つである 近年 その演算能力は CPU で通常言われるムーアの法則に則った場合とは異なり 飛躍的に向上しており その演算性能に魅力を感じた各分野での応用が広がってきている 今回 汎用的な演算サーバの CPU アクセラレータとして採用する場合に必要となる ソフトウェアの開発環境や移植の容易さ等の特性を知るために GPGPU 機を構築し その開発環境の導入を図った 環境導入時にいくつかトラブルに見舞われたが 計算時間についてベンチマークを取ることができた それらについて 今回報告する 1 GPGPU について GPGPU とは General-Purpose computing on Graphics Processing Units の略であり 単純で画一的なデータを一度に大量に処理することに特化したグラフィックカードの演算資源を 画像処理以外の汎用的な目的に応用する技術の一つである 近年 CPU の性能向上は 以前のような動作クロック上昇では終焉しており マルチコア化で性能向上を維持しているが 過去の命令の互換性維持のために そのトランジスタ数の増加に比例した性能向上を得られなくなっている またメモリバンド幅も様々な理由で不足している これに対し グラフィックスカードの演算能力は レガシーに縛られることがないために CPU で通常言われるムーアの法則に則った場合とは異なり 飛躍的に向上しており その演算性能に魅力を感じた各分野で応用が広がってきている そこで今回 高速分子シミュレーターを運用している当計算センターにおいても 汎用的な演算サーバの CPU アクセラレータとして考慮するために必要な ソフトウェアの開発環境を導入し 実際に GPGPU の特性やパワーを検討することにした 2 ベンチマーク今回 GPGPU マシンを構築するにあたり 以下の計算サーバを構築した なお CPU として Intel Core i7 を用いている 2.1 マシンスペック <ハードウェア> GPGPU:NVIDIA Tesla S (1.44GHz, 30MPU, 240Core, 4GByte Memory) 4GPU (Single floating 4.14TFlops, Double floating 345GFlops) マシン :CPU: Intel Xeon X5550(Nehalem-EP, 4Core, 2.66GHz, L3 cache 8MB) 2 CPU
2 Memory: ECC DDR3 1333MHz 24GByte (2GByte x12 [4 channel]) Disk: SATA 500GByte + SATA 1TByte 5 RAID0 Graphic: NVIDIA Quadro NVS290 (0.92GHz, 2MPU 16Core, 256MByte Memory) Network: GbE x2 Mother board: Intel Workstation Board S5520SC <ソフトウェア> OS:Linux Fedora 10 GPGPU:CUDA Driver : cudadriver_2.3_linux_64_ run CUDA Toolkit : cudatoolkit_2.3_linux_64_fedora10.run CUDA SDK : cudasdk_2.3_linux.run コンパイラ :Intel Compiler MKL PGI Compiler ACML (GPGPU サポート ) (OS 以外のソフトウェアは 2009/12 月現在最新のものを用いた ) GPGPU 動作可 2.2 ベンチマークの前に CUDA 関係のソフトウェアを導入後 サンプルプログラムの devicequery を実行することで 当マシンに接続している GPGPU のデバイス環境を確認し 当マシン上にある GPGPU ユニット 5 つが全て認識されていることを確認した しかし 再起動して確認しなおしたところ デバイスが 1 つも認識されていなかった これは 管理者権限で GPGPU を用いるプログラムを一度走らせないと デバイスファイルが作成されないためと考えられた そこで 起動完了時に一度管理者権限で GPGPU プログラムを走らせるようにした また X Window 起動前では devicequery に表示されるデバイスの表示は Device0 ~ 4 が Tesla Device5 がグラフィックボードの順になっていたが X Window 起動後では Device0, 2 ~ 5 が Tesla Device1 がグラフィックボードの順に変わっていた この理由を把握できなかったため 今回 X Window は起動せず CUI 上で全ての測定を行った 2.3 ベンチマーク方法今回 計算速度を比較するために blas の sgemm/dgemm 関数を用いて 行列の積和計算を行い その計算にかかった時間を測定することにした ここで sgemm は単精度 dgemm は倍精度の行列計算の命令である また 行列は正方行列であり 行列の一辺の大きさは 2 のべき乗になるようにした この計算行列の要素の大きさ 次元の大きさ 使う行列の数を考慮すると CPU 側での計算は一辺が GPGPU では 8192 が計算可能な次元の最大値となっている また あまりに小さな次元の行列では 計算時間が短すぎて正確な時間計測を行っているのか確信が持てなかったので 今回のベンチマークでは行列の一辺の大きさ ( 次元 ; 要素数とも ) が 1024, 2048, 4098, 8192 の 4 通りについて 時間測定の報告を行う なお 時間測定を 1 回にすると 通常に比べ何らかの割り込みが発生した等で偶然遅い結果が出てしまう可能性を除去できないので 各測定を 500 回繰り返している また 当 GPGPU ユニットは 4 つの GPU ユニットが搭載されているため 4 並列で計算が可能と考えられたが GPGPU を複数個並列で使うには 1 からソースを作成しなければならず sgemm/dgemm の場合ほど容易に移植できなかった そのため 今回の発表には間に合わなかった また 今回 Intel Compiler の他に PGI Compiler も用いているが これは当バージョンの PGI Compiler から GPGPU 向けのバイナリーを作成できるようになったためである しかし今回 うまく作成することができなかったため こちらも結果を報告することはできなかった
3 GPGPU で行列積和計計算を行うためのソースコードは CUDA SDK 中のサンプルプログラム CUBLAS.cu から GPGPU で行列計算算する部分を抜抜き出して作作成した その中で sgemm/dgemm の命令が出て来る前後の行に gettimeofday 関数を置いて 時間間を計測した また こののソースで GPGPU 上にメモリ確保する命令や CPU 側メモリ GPU メモリ間でのデータ転送の命令行を省くことで Intel Compiler や PGI Compiler でコンパイルできるようにした なお GPGPU プログラムでは GPGPU 向け命令を読み込込んだ場合 完了を待たずに次の命命令に移る仕様様なので ( 実行速度高速速化のため ) 全てのスレレッドで計算算が終わるまで待機する _syncthreads() 命令を追加加し 計算時時間を求めている また 当ママシンの CPU は 4 Coreを 2つ搭載し ささらにHyper-Threading を有効にしているので 最大大で 16thread の並列計算をオーバーヘッドなく実実行できる そこで CPU 側で行列計計算を行う際には 1 ~ 16 threads の並列環境で実行し その計算算時間の差異異も調べている 3 ベンチマーク結結果及び考察 3.1 sgemmm で計算した場合 Intel Compiler, PGI Compiler, cublas を用いて作作成した sgemm の計算時間間を図 1 に示示す 左側が Intel Compiler を使った CPU のみでの計計算 右側が PGI Compiler を使った CPU のみでの計算 中央が GPGPU での計算時間間の結果である 図 1. sgemmm での計算時時間プロットこの結果より 中央の GPGPU は 左右両側の CPU での計計算より 1 桁程度短い時間間で計算完了了していることが分かる これは Intel Compiler 等でさまざまな高速化を試すよりも GPGPU に計計算させるようにするだけで十分所要要時間を短くできることを明瞭に示している ここで 各各条件での比比較を容易にするため GPGPU での計計算を基準 (= 1) とした場合合 各条件では何倍になるかという図を 次に示示す
4 図 2. GPGPU での計算時間を基準とした場合の計算算時間の比 (sgemm) GPGPU での計算時間 ( 中央 ) を基準準にすると CPU で同じサイズの計算算をするために少なくとも 5 倍 最大では 20 倍近近くの時間がかかることが見て取れる また Intel Compiler と PGI Compiler を比較すると 若干だが PGI Compiler の方が速い結果となった さらに GPGPU 以外外での計算は 次元を落としていっても計算時間が対して落ちないが GPGPU での計算は 次元と計算時間の間に明瞭な相関関係が見見て取れる 3.2 dgemmm の場合 Intel Compiler, PGI Compiler, cublas を用いて作作成した dgemm の計算時間間を図 3 に示示す 図 3. dgemm での計算時時間プロット単精度 (sgemm) の場合合と比べ CPU との差がやや縮んでいた 行列の各要素のデーータの大きさが倍に増えたことを勘案案しても GPGPU の計算算時間の増加加は CPU での増加に比べかなり大きい 当センターでよく用いられるのは倍精度の方方だということを考慮すると GPGPU にフル対応応しても速度の違いが単精精度の時ほど大きく感じられないことを予見させる また GPGPU での計計算 ( 中央 ) を基基準とした場合 他の方法法で何倍の時時間かかっているのかを示示すプロットを次に示す
5 図 4. GPGPU での計算時間を基準とした場合の計算時間の比 (dgemm) この場合 先の場合ほど顕著ではなく 1.3 ~ 7 倍程度の差が見られる結果となった GPGPU の倍精度の計算は CPU より多少速いという感触である 3.3 考察 GPGPU で計算すると単精度で数百倍 倍精度でも 4 倍程度速くなったという話が Web 上で見受けられるが 実際に自分で測定したところ 単精度では 5 ~ 20 倍程度 倍精度では 1.3 ~ 7 倍程度速かった GPGPU が高速なのは間違いないが とても数百倍も速くなるとは感じられない これは 比較対象とした元の CPU が貧弱だったからではないかと思われる また 倍精度での差は コンパイラでさまざまな高速化を試すことで なんとか克服できるレベルであり 期待外れな結果であった なお 当マシンはかなり高スペックなもの (Intel Core i7 DDR3 メモリ GPGPU ユニットと PCI-Express 16 で接続 ) を用いているために GPGPU のアドバンテージが対して目立たなくなった可能性もある Intel Compiler に比べ PGI Compiler が 若干速い場合が散見された これは PGI Compiler の方が後発だからであろう スレッド数を増加させることで計算時間が短くなることは予見していたが スレッド数を大きくするにつれてどれでも速くなるわけではなく 行列の次元に応じて最速なスレッド数が異なるという結果は 予想外であった スレッド数で分割したことで短くなる計算時間と 分割で発生するオーバーヘッドの時間とのトレードオフの結果だろうと考えている CPU 側で行列計算を行わせた場合 次元数を減らしていくにつれて計算時間の減少の割合が小さくなるのに対し GPGPU 側では 次元数を減らした分だけ計算時間が確実に減少している様子が見て取れた これは CPU 側では割り込み処理の発生などで足を取られるのに対し GPGPU ではそのような割り込みがないために 純粋に次元数に比例した計算時間を示したのだろう また GPGPU ユニットとデータをやり取りする際に生じるオーバーヘッドについて 今回の結果に載せていないが 行列の次元がある程度より小さい (2 桁以下 ) だと ある値 ( 約 3 秒 ) のオーバーヘッドがあり これより大きいと その次元の大きさに応じて 4 ~ 6 秒程度のオーバーヘッドが存在しているようである
6 4 まとめ Intel Core i7 と GPGPU で行列計算時間を比較したところ GPGPU の方が単精度では 5 ~ 20 倍 倍精度では 1.3 ~ 7 倍程度速いという結果であった これは 期待していたほど速くはなく 当センターでよく用いられる倍精度のプログラムでは難しいが 通常の単精度のプログラムで さらに行列計算がボトルネックなものならば 大幅な速度向上が実感できるだろうと言える そして 未だに GPGPU の複数ユニットを同時に使用したり PGI Compiler で GPGPU 向けバイナリーを作成できたりしていないので こちらも速くテストできるようにし 1 ユニットだけの場合とどれほど差があるのか調査する必要がある また つい先日 倍精度の計算速度を大きく向上させた製品が夏くらいに提供可という話も出たので そちらにも関心の目を向けているところである 参考文献 [1] 青木尊之 額田彰 はじめての CUDA プログラミング 工学社 平成 21 年 11 月 P95-P100 [2]
Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc
2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク 東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコア クアッドコアの CPU を次々と市場に送り出していて それらが PC クラスタの CPU として採用され HPC に活用されている ここでは Intel クアッドコア
4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司
4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 3 1 1 日本原子力研究開発機構システム計算科学センター 2 理科学研究所計算科学研究機構 3 東京大学新領域創成科学研究科
チューニング講習会 初級編
GPU のしくみ RICC での使い方 およびベンチマーク 理化学研究所情報基盤センター 2013/6/27 17:00 17:30 中田真秀 RICC の GPU が高速に! ( 旧 C1060 比約 6.6 倍高速 ) RICCのGPUがC2075になりました! C1060 比 6.6 倍高速 倍精度 515GFlops UPCに100 枚導入 : 合計 51.5TFlops うまく行くと5 倍程度高速化
Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments
計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];
untitled
A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }
熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation
熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date 2011-03-17 Type URL Presentation http://hdl.handle.net/2298/23539 Right GPGPU による高速演算について 榎本昌一 東京大学大学院工学系研究科システム創成学専攻
07-二村幸孝・出口大輔.indd
GPU Graphics Processing Units HPC High Performance Computing GPU GPGPU General-Purpose computation on GPU CPU GPU GPU *1 Intel Quad-Core Xeon E5472 3.0 GHz 2 6 MB L2 cache 1600 MHz FSB 80 GFlops 1 nvidia
1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU
GPGPU (I) GPU GPGPU 1 GPU(Graphics Processing Unit) GPU GPGPU(General-Purpose computing on GPUs) GPU GPGPU GPU ( PC ) PC PC GPU PC PC GPU GPU 2008 TSUBAME NVIDIA GPU(Tesla S1070) TOP500 29 [1] 2009 AMD
Microsoft PowerPoint - GPU_computing_2013_01.pptx
GPU コンピューティン No.1 導入 東京工業大学 学術国際情報センター 青木尊之 1 GPU とは 2 GPGPU (General-purpose computing on graphics processing units) GPU を画像処理以外の一般的計算に使う GPU の魅力 高性能 : ハイエンド GPU はピーク 4 TFLOPS 超 手軽さ : 普通の PC にも装着できる 低価格
<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8
Web キャンパス資料 超音波シミュレーションの基礎 ~ 第 4 回 ComWAVEによる超高速超音波解析 ~ 科学システム開発部 Copyright (c)2006 ITOCHU Techno-Solutions Corporation 本日の説明内容 ComWAVEの概要および特徴 GPGPUとは GPGPUによる解析事例 CAE POWER 超音波研究会開催 (10 月 3 日 ) のご紹介
ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015
ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ 本セッションの目的 本セッションでは ERDAS IMAGINEにおける処理速度向上を目的として機器 (SSD 等 ) 及び並列処理の比較 検討を行った 1.SSD 及び RAMDISK を利用した処理速度の検証 2.Condorによる複数 PCを用いた並列処理 2.1 分散並列処理による高速化試験 (ERDAS IMAGINEのCondorを使用した試験
高性能計算研究室の紹介 High Performance Computing Lab.
高性能計算研究室 (HPC Lab) の紹介 High Performance Computing Lab. 静岡理工科大学総合情報学部コンピュータシステム学科 ( 兼 Web デザイン特別プログラム ) 幸谷智紀 543 研究室 幸谷研究室 @ 静岡 検索 概要 1. 幸谷智紀 個人の研究テーマ 2. 3 年生ゼミ ( 情報セミナー II) 3. 卒研テーマ 4. 過去の卒研 5. 今後について
システムソリューションのご紹介
HP 2 C 製品 :VXPRO/VXSMP サーバ 製品アップデート 製品アップデート VXPRO と VXSMP での製品オプションの追加 8 ポート InfiniBand スイッチ Netlist HyperCloud メモリ VXPRO R2284 GPU サーバ 製品アップデート 8 ポート InfiniBand スイッチ IS5022 8 ポート 40G InfiniBand スイッチ
高性能計算研究室の紹介 High Performance Computing Lab.
高性能計算研究室 (HPC Lab) の紹介 High Performance Computing Lab. 静岡理工科大学総合情報学部コンピュータシステム学科 ( 兼 Web デザイン特別プログラム ) 幸谷智紀 http://na-inet.jp/ 概要 1. 幸谷智紀 個人の研究テーマ 2. 3 年生ゼミ ( 情報セミナー II) 3. 卒研テーマ 4. Webデザイン特別プログラム 5. 今後について
Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx
シングルコアとマルチコア 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 前々回の授業の復習 CPUの進化 半導体集積率の向上 CPUの動作周波数の向上 + 複雑な処理を実行する回路を構成 ( 前々回の授業 ) マルチコア CPU への進化 均一 不均一なプロセッサ コプロセッサ, アクセラレータ 210 コンピュータの歴史 世界初のデジタルコンピュータ 1944 年ハーバードMark I
GPUコンピューティング講習会パート1
GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也 スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山 TSUBAME の
CELSIUSカタログ(2012年7月版)
CELSIUS PC "MADE IN JAPAN" 2012.7 W520 ハイエンドの過酷な要求に応えるパワフルなデュアルと高信頼を搭載 RAID構成 選択可能 富士通がお勧めする Windows 7. ミニタワーエントリーモデル より速く より強力に 最新の技術をフル投入 スピードとパワー 安定性を提供 RAID構成 選択可能 Windows 7 Professional 32bit版 正規版
NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ
NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ K20 GPU2 個に対するスピードアップ NVIDIA は Fermi アーキテクチャ GPU の発表により パフォーマンス エネルギー効率の両面で飛躍的な性能向上を実現し ハイパフォーマンスコンピューティング (HPC) の世界に変革をもたらしました また 実際に GPU
スライド 1
GPU クラスタによる格子 QCD 計算 広大理尾崎裕介 石川健一 1.1 Introduction Graphic Processing Units 1 チップに数百個の演算器 多数の演算器による並列計算 ~TFLOPS ( 単精度 ) CPU 数十 GFLOPS バンド幅 ~100GB/s コストパフォーマンス ~$400 GPU の開発環境 NVIDIA CUDA http://www.nvidia.co.jp/object/cuda_home_new_jp.html
(速報) Xeon E 系モデル 新プロセッサ性能について
( 速報 ) Xeon E5-2600 系モデル新プロセッサ性能について 2012 年 3 月 16 日 富士通株式会社 2012 年 3 月 7 日 インテル社より最新 CPU インテル Xeon E5 ファミリー の発表がありました この最新 CPU について PC クラスタシステムの観点から性能検証を行いましたので 概要を速報いたします プロセッサインテル Xeon プロセッサ E5-2690
EnSightのご紹介
オープン CAE シンポジウム 2014 汎用ポストプロセッサー EnSight の大規模データ対応 CEI ソフトウェア株式会社代表取締役吉川慈人 http://www.ceisoftware.co.jp/ 内容 大規模データで時間のかかる処理 クライアント サーバー機能 マルチスレッドによる並列処理 サーバーの分散処理 クライアントの分散処理 ( 分散レンダリング ) EnSightのOpenFOAMインターフェース
理研スーパーコンピュータ・システム
線形代数演算ライブラリ BLAS と LAPACK の基礎と実践 2 理化学研究所情報基盤センター 2013/5/30 13:00- 大阪大学基礎工学部 中田真秀 この授業の目的 対象者 - 研究用プログラムを高速化したい人 - LAPACK についてよく知らない人 この講習会の目的 - コンピュータの簡単な仕組みについて - 今後 どうやってプログラムを高速化するか - BLAS, LAPACK
PowerPoint プレゼンテーション
vsmp Foundation スケーラブル SMP システム スケーラブル SMP システム 製品コンセプト 2U サイズの 8 ソケット SMP サーバ コンパクトな筐体に多くのコアとメモリを実装し SMP システムとして利用可能 スイッチなし構成でのシステム構築によりラックスペースを無駄にしない構成 将来的な拡張性を保証 8 ソケット以上への拡張も可能 2 システム構成例 ベースシステム 2U
3次多項式パラメタ推定計算の CUDAを用いた実装 (CUDAプログラミングの練習として) Implementation of the Estimation of the parameters of 3rd-order-Polynomial with CUDA
3 次多項式パラメタ推定計算の CUDA を用いた実装 (CUDA プログラミングの練習として ) Estimating the Parameters of 3rd-order-Polynomial with CUDA ISS 09/11/12 問題の選択 目的 CUDA プログラミングを経験 ( 試行錯誤と習得 ) 実際に CPU のみの場合と比べて高速化されることを体験 問題 ( インプリメントする内容
Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc
Article ID: NVSI-050110JP Created: 2005/10/19 Revised: - NetVault 仮想テープ ライブラリのパフォーマンス検証 : dothill SANnetⅡSATA 編 1. 検証の目的 ドットヒルシステムズ株式会社の SANnetll SATA は 安価な SATA ドライブを使用した大容量ストレージで ディスクへのバックアップを行う際の対象デバイスとして最適と言えます
GPUを用いたN体計算
単精度 190Tflops GPU クラスタ ( 長崎大 ) の紹介 長崎大学工学部超高速メニーコアコンピューティングセンターテニュアトラック助教濱田剛 1 概要 GPU (Graphics Processing Unit) について簡単に説明します. GPU クラスタが得意とする応用問題を議論し 長崎大学での GPU クラスタによる 取組方針 N 体計算の高速化に関する研究内容 を紹介します. まとめ
修士論文
AVX を用いた倍々精度疎行列ベクトル積の高速化 菱沼利彰 1 藤井昭宏 1 田中輝雄 1 長谷川秀彦 2 1 工学院大学 2 筑波大学 1 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算 - 4. 実験 - 倍々精度疎行列ベクトル積 - 5. まとめ 多倍長精度計算フォーラム 2 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算
CELSIUSカタログ(2012年5月版)
CELSIUS PC "MADE IN JAPAN" 2012.5 New W520 ハイエンドの過酷な要求に応えるパワフルなデュアルと高信頼を搭載 トを搭載 RAID構成 選択可能 New グラフィックス/GPUカード 500GB 1TB 500GB 2 RAID1 Quadro 5000 Quadro 4000 Quadro 2000 Quadro 600 4 Quadro 4000 TeslaTM
工学院大学建築系学科近藤研究室2000年度卒業論文梗概
耐災害性の高い通信システムにおけるサーバ計算機の性能と消費電力に関する考察 耐障害性, 消費電力, 低消費電力サーバ 山口実靖 *. はじめに 性能と表皮電力の関係について調査し, 考察を行う 災害においては, 減災活動が極めて重要である すなわち 災害が発生した後に適切に災害に対処することにより, その被害を大きく軽減できる. 適切な災害対策を行うには災害対策を行う拠点が正常に運営されていることが必要不可欠であり,
目次 1. はじめに 用語説明 対象アダプタ P HBA/2P HBAで異なる性能 付録 ( 性能測定環境 ) P HBAでの性能測定環境 P HBAでの性能測定環境 本書の
ホワイトペーパー Hitachi Gigabit Fibre Channel アダプタ - 16G FC アダプタに搭載される FC ポート数の性能への影響 について - 2014 年 4 月発行 株式会社日立製作所 1 / 9 Copyright 2014 Hitachi, Ltd. All rights reserved 目次 1. はじめに... 3 2. 用語説明... 4 3. 対象アダプタ...
Windows Server 2016 Hyper-V ストレージQoS機能の強化
Windows Server 2016 Hyper-V ストレージ QoS 機能の強化 1. はじめに Windows Server 2012 R2 の Hyper-V ストレージ QoS(Quality of Service) 機能は 仮想ディスクに対する I/O 帯域制御において Hyper-V ホスト上の仮想マシン ( 以下 VM と略 ) に対してのみ管理が可能でした このため Hyper-V
TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日
TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 目次 1. TSUBAMEのGPU 環境 2. プログラム作成 3. プログラム実行 4. 性能解析 デバッグ サンプルコードは /work0/gsic/seminars/gpu- 2011-09- 28 からコピー可能です 1.
Pervasive PSQL v11 のベンチマーク パフォーマンスの結果
Pervasive PSQL v11 のベンチマークパフォーマンスの結果 Pervasive PSQL ホワイトペーパー 2010 年 9 月 目次 実施の概要... 3 新しいハードウェアアーキテクチャがアプリケーションに及ぼす影響... 3 Pervasive PSQL v11 の設計... 4 構成... 5 メモリキャッシュ... 6 ベンチマークテスト... 6 アトミックテスト... 7
GPGPUクラスタの性能評価
2008 年度理研 HPC シンポジウム第 3 世代 PC クラスタ GPGPU クラスタの性能評価 2009 年 3 月 12 日 富士通研究所成瀬彰 発表の概要 背景 GPGPU による高速化 CUDA の概要 GPU のメモリアクセス特性調査 姫野 BMT の高速化 GPGPU クラスタによる高速化 GPU Host 間のデータ転送 GPU-to-GPU の通信性能 GPGPU クラスタ上での姫野
資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料)
今後の HPC 技術に関する 研究開発の方向性について 2012 年 5 月 30 日 ( 株 ) 日立製作所情報 通信システム社 IT プラットフォーム事業本部 Hitachi, Hitachi, Ltd. Ltd. Hitachi 2012. 2012. Ltd. 2012. All rights All rights All rights reserved. reserved. reserved.
HP Z200 Intel i5 CPU 3.33GHz Low Profile 仕様 380 LP Assist 2.2 Instinct v3.0 以降 いいえいいえはいいいえ 4GB および 8GB DDR ECC (2 枚構成の DIMM) ISIS へ接続するにはオンボードの
Composer 6, Symphony 6, NewsCutter 10, Assist 2.5, Instinct 3.5 認定 PC システム システム PC デスクトップ HP Z800 DUal 6- core 2.66GHz (X5650) 3800 5.0.3/9.0.3 はいいいえはいはいはいはい (3 枚構成の DIMM) HP Z800 Dual Quad core 2.93GHz
GPUコンピューティング講習会パート1
GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也 スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山 TSUBAME の
iphone GPGPU GPU OpenCL Mac OS X Snow LeopardOpenCL iphone OpenCL OpenCL NVIDIA GPU CUDA GPU GPU GPU 15 GPU GPU CPU GPU iii OpenMP MPI CPU OpenCL CUDA OpenCL CPU OpenCL GPU NVIDIA Fermi GPU Fermi GPU GPU
HP Workstation Xeon 5600
HP Workstation Xeon 5600 HP 2 No.1 HP 5 3 Z 2No.1 HP :IDC's Worldwide Quarterly Workstation Tracker, 2009 Q4 14.0in Wide HP EliteBook 8440w/CT Mobile Workstation 15.6in Wide HP EliteBook 8540w Mobile Workstation
Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10
NVIDIA TESLA V100 CUDA 9 のご紹介 森野慎也, シニアソリューションアーキテクト (GPU-Computing) NVIDIA Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ
Microsoft PowerPoint - JANOG19-u10-GigaPcap(NonAnim).ppt
Non-Sampling Flow Inspection を支える技術 ユーテン ネットワークス株式会新籾晶 アジェンダ Non-Sampling Flow Inspection を支える技術 背景のおさらいトラヒック解析の問題点 (Non-Sampling 観点 ) 解決策ハードウェア作っちゃいました!! 本当に Non-Sampling は実現できたのか? 性能比較による検証 まとめ 1 背景
Microsoft Word - Dolphin Expressによる10Gbpソケット通信.docx
Dolphin Express による 10Gbps ソケット通信 Dolphin Express は 標準的な低価格のサーバを用いて 強力なクラスタリングシステムが構築できる ハードウェアとソフトウェアによる通信用アーキテクチャです 本資料では Dolphin Express 製品の概要と 実際にどの程度の性能が出るのか市販 PC での実験結果をご紹介します Dolphin Express 製品体系
HP Workstation 総合カタログ
HP Workstation E5 v2 Z Z SFF E5 v2 2 HP Windows Z 3 Performance Innovation Reliability 3 HPZ HP HP Z820 Workstation P.11 HP Z620 Workstation & CPU P.12 HP Z420 Workstation P.13 17.3in WIDE HP ZBook 17
Arcserve Backup r16 新機能 テープブロックサイズの拡張 効果実測 Arcserve Japan 1.5 版
Arcserve Backup r16 新機能 テープブロックサイズの拡張 効果実測 Arcserve Japan 1.5 版 新機能 テープブロックサイズの拡張 とその効果実測 1. はじめに 2. バックアップを高速化! テープブロックサイズの拡張 3. 効果測定 4. 測定結果からの考察 補足情報 : A) 検証環境 B) 設定方法 C) 考慮 注意事項 D) 富士通株式会社とArcserve
ストリームを用いたコンカレントカーネルプログラミングと最適化 エヌビディアジャパン CUDAエンジニア森野慎也 GTC Japan 2014
ストリームを用いたコンカレントカーネルプログラミングと最適化 エヌビディアジャパン CUDAエンジニア森野慎也 GTC Japan 2014 コンカレントな処理の実行 システム内部の複数の処理を 平行に実行する CPU GPU メモリ転送 カーネル実行 複数のカーネル間 ストリーム GPU 上の処理キュー カーネル実行 メモリ転送の並列性 実行順序 DEFAULT STREAM Stream : GPU
PowerPoint プレゼンテーション
多倍長精度演算の性能評価 日時 年 月 日 :3-: 場所工学院大学新宿校舎 8 階第 4 会議室 高エネルギー加速器研究機構 濱口信行 [email protected] // 第 回多倍長精度計算フォーラム . はじめに 計算センター => ユーザプログラムの実行効率は何 % です よく出ています or 改善してください 実行性能 = 演算量 / 実行時間実行効率 = 実行性能 / 理論性能 ユーザ実行時間
Software-Defined Tester(SDT) を用いた高精度遅延測定による SDN/NFV 品質向上 富士通アドバンストテクノロジ株式会社システム技術統括部大久保克彦 0 Copyright 2017 FUJITSU AD
Software-Defined Tester(SDT) を用いた高精度遅延測定による SDN/NFV 品質向上 富士通アドバンストテクノロジ株式会社システム技術統括部大久保克彦 [email protected] 0 背景 リアルタイム性が必要な分野への適用 5G( 低遅延 ) による新たなサービス展開 ゲーム VoIP 動画医療金融車載 遅延がサービス品質に直結 End-to-End
HP Workstation 総合カタログ
HP Workstation Z HP 6 Z HP HP Z840 Workstation P.9 HP Z640 Workstation & CPU P.10 HP Z440 Workstation P.11 17.3in WIDE HP ZBook 17 G2 Mobile Workstation P.15 15.6in WIDE HP ZBook 15 G2 Mobile Workstation
GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1
GPU 4 2010 8 28 1 GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 Register & Shared Memory ( ) CPU CPU(Intel Core i7 965) GPU(Tesla
富士通PCサーバ「PRIMERGY RX2530 M4」における「TeraStation TS5010 / TS3010」シリーズ動作検証報告
富士通 PC サーバ PRIMERGY RX2530 M4 における TeraStation TS5010 / TS3010 シリーズ動作検証報告 検証日 : 平成 29 年 12 月 11 日 ~12 月 22 日 検証場所 : 株式会社バッファロー本社 1 目次 1. 本動作検証の目的... 3 2. 本動作検証の環境について... 3 2.1 検証環境... 3 2.2 NAS の構成...
160311_icm2015-muramatsu-v2.pptx
Linux におけるパケット処理機構の 性能評価に基づいた NFV 導 の 検討 村松真, 川島 太, 中 裕貴, 林經正, 松尾啓志 名古屋 業 学 学院 株式会社ボスコ テクノロジーズ ICM 研究会 2016/03/11 研究 的 VM 仮想 NIC バックエンド機構 仮想化環境 仮想スイッチ パケット処理機構 物理環境 性能要因を考察 汎 IA サーバ NFV 環境に適したサーバ構成を検討
リファレンスアプリケーション RefApp7
リファレンスアプリケーション RefApp7 導入ガイド 概要 RefApp7.exe リファレンス制御アプリケーションは Windows 7 以降の 32bit 版と 64bit 版の両方の環境で動作します RefApp7 を運用する場合には マイクロソフト社提供の WinUSB 汎用デバイス ドライバが必要です このため 従来の制御ソフトウエア RefApp2 や RefApp3 が動作する環境でそのまま実行できません
Microsoft Word - RefApp7インストールガイド.doc
リファレンスアプリケーション RefApp7 導入ガイド 概要 新しい RefApp7.exe リファレンス制御アプリケーションは Windows7 または Windows Vista の 32bit 版および 64bit 版の両方の環境で動作します RefApp7 を運用する場合には マイクロソフト社提供の WinUSB 汎用デバイス ドライバが必要です このため 従来の制御ソフトウエア RefApp2
Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx
GPU のプログラム構造 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 GPU プログラミング環境 (CUDA) GPU プログラムの実行の流れ CUDA によるプログラムの記述 カーネル (GPU で処理する関数 ) の構造 記述方法とその理由 GPU 固有のパラメータの確認 405 GPU(Graphics Processing Unit) とは 画像処理専用のハードウェア 具体的には画像処理用のチップ
PowerPoint プレゼンテーション
みんなの ベクトル計算 たけおか @takeoka PC クラスタ コンソーシアム理事でもある 2011/FEB/20 ベクトル計算が新しい と 2008 年末に言いました Intelに入ってる! (2008 年から見た 近未来? ) GPU 計算が新しい (2008 年当時 ) Intel AVX (Advanced Vector Extension) SIMD 命令を進めて ベクトル機構をつける
1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin
Windows で始める CUDA 入門 GTC 2013 チュートリアル エヌビディアジャパン CUDA エンジニア森野慎也 1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境
211 年ハイパフォーマンスコンピューティングと計算科学シンポジウム Computing Symposium 211 HPCS /1/18 a a 1 a 2 a 3 a a GPU Graphics Processing Unit GPU CPU GPU GPGPU G
211 年ハイパフォーマンスコンピューティングと計算科学シンポジウム Computing Symposium 211 HPCS211 211/1/18 GPU 4 8 BLAS 4 8 BLAS Basic Linear Algebra Subprograms GPU Graphics Processing Unit 4 8 double 2 4 double-double DD 4 4 8 quad-double
最新の並列計算事情とCAE
1 大島聡史 ( 東京大学情報基盤センター助教 / 並列計算分科会主査 ) 最新の並列計算事情と CAE アウトライン 最新の並列計算機事情と CAE 世界一の性能を達成した 京 について マルチコア メニーコア GPU クラスタ 最新の並列計算事情と CAE MPI OpenMP CUDA OpenCL etc. 京 については 仕分けやら予算やら計画やらの面で問題視する意見もあるかと思いますが
計算機アーキテクチャ
計算機アーキテクチャ 第 11 回命令実行の流れ 2014 年 6 月 20 日 電気情報工学科 田島孝治 1 授業スケジュール ( 前期 ) 2 回日付タイトル 1 4/7 コンピュータ技術の歴史と コンピュータアーキテクチャ 2 4/14 ノイマン型コンピュータ 3 4/21 コンピュータのハードウェア 4 4/28 数と文字の表現 5 5/12 固定小数点数と浮動小数点表現 6 5/19 計算アーキテクチャ
CUDA を用いた画像処理 画像処理を CUDA で並列化 基本的な並列化の考え方 目標 : 妥当な Naïve コードが書ける 最適化の初歩がわかる ブロックサイズ メモリアクセスパターン
CUDA 画像処理入門 エヌビディアジャパン CUDA エンジニア森野慎也 GTC Japan 2014 CUDA を用いた画像処理 画像処理を CUDA で並列化 基本的な並列化の考え方 目標 : 妥当な Naïve コードが書ける 最適化の初歩がわかる ブロックサイズ メモリアクセスパターン RGB Y( 輝度 ) 変換 カラー画像から グレイスケールへの変換 Y = 0.299 R + 0.587
Microsoft Word LenovoSystemx.docx
Lenovo System x シリーズ データベースサーバー移行時の ハードウェア選定のポイント 2015 年 5 月作成 1 目次 1) 本ガイドの目的... 3 2) System x3550 M3 と x3550 M5 の比較ポイント... 3 CPU コア数の増加... 4 仮想化支援技術の性能向上... 4 メモリモジュールの大容量化... 5 低消費電力化... 5 ストレージの大容量化と搭載可能数の増加...
HP xw9400 Workstation
HP xw9400 Workstation HP xw9400 Workstation AMD Opteron TM PCI Express x16 64 PCI Express x16 2 USB2.0 8 IEEE1394 2 8DIMM HP HP xw9400 Workstation HP CPU HP CPU 240W CPU HP xw9400 HP CPU CPU CPU CPU Sound
Microsoft PowerPoint - sales2.ppt
最適化とは何? CPU アーキテクチャに沿った形で最適な性能を抽出できるようにする技法 ( 性能向上技法 ) コンパイラによるプログラム最適化 コンパイラメーカの技量 経験量に依存 最適化ツールによるプログラム最適化 KAP (Kuck & Associates, Inc. ) 人によるプログラム最適化 アーキテクチャのボトルネックを知ること 3 使用コンパイラによる性能の違い MFLOPS 90
