ストリームを用いたコンカレントカーネルプログラミングと最適化 エヌビディアジャパン CUDAエンジニア森野慎也 GTC Japan 2014

Size: px
Start display at page:

Download "ストリームを用いたコンカレントカーネルプログラミングと最適化 エヌビディアジャパン CUDAエンジニア森野慎也 GTC Japan 2014"

Transcription

1 ストリームを用いたコンカレントカーネルプログラミングと最適化 エヌビディアジャパン CUDAエンジニア森野慎也 GTC Japan 2014

2 コンカレントな処理の実行 システム内部の複数の処理を 平行に実行する CPU GPU メモリ転送 カーネル実行 複数のカーネル間 ストリーム GPU 上の処理キュー カーネル実行 メモリ転送の並列性 実行順序

3 DEFAULT STREAM Stream : GPU 上の処理を管理するキュー 無指定の場合 Default (NULL) Stream が使用される Memcpy Host Device Kernel 1 Memcpy Device Host Default (NULL) Stream t

4 CPU/GPU のコンカレンシを考慮していない例 cudamemcpy() は 同期的に動作する Memcpy CPU からのタスク発行 処理開始のレイテンシ同期待ち CPU 上の待ち 処理開始のレイテンシ Memcpy Device Host t GPU 上での実行 Memcpy Host Device Kernel 1 Memcpy Device Host t

5 CPU GPU 間のコンカレンシ 非同期コピー (cudamemcpyasync()) を使用 CPU からのタスク発行 CPU 上で別の処理を行う Device Synchronize() t 処理開始のレイテンシ GPU 上での実行 MemcpyAsync Host Device Kernel MemcpyAsync Device Host t

6 同期版 非同期版の API memcpy memset 系には 同期 非同期バージョンがある 基本的には 非同期版を使用 同期版 cudamemcpy() cudamemcpy2d() cudamemcpytosymbol() cudamemcpyfromsymbol() cudamemset() 非同期版 cudamemcpyasync() cudamemcpy2dasync() cudamemcpytosymbolasync() cudamemcpyfromsymbolasync() cudamemsetasync() CUDA Runtime API のリファレンスから抜粋

7 ブロックする処理 cudadevicesynchronize() 同期 API 意図せず Block する可能性があるのは メモリ確保 解放 cudamalloc() cudafree() など 対応 : あらかじめ確保しておく Pageable Memoryを使用したcudaMemcpy() 系 API 対応 : cudahostalloc() を使用して Pinned Memoryをアロケート

8 デモ : NSIGHT でタイムラインを見る Memcpy Host Device Kernel 1 Default (NULL) Stream Memcpy Device Host t

9 DRIVER QUEUE LATENCY ドライバ内部のキューの処理レイテンシ Windows におけるデバイスドライバのモード WDDM Mode : ディスプレイドライバ ミリ秒を超えるレイテンシが発生しやすい cudastreamquery(null) で デバイスに処理を流し込む TCC Mode : Tesla Compute Cluster レイテンシは 数十 μ 秒

10 ストリームを使用したコンカレントプログラミング

11 ユーザが作成できる STREAM Blocking Stream 例 : cudastreamcreate(&stm); cudastreamcreatewithflags(&stm, cudastreamdefault); Non-blocking Stream 例 : cudastreamcreatewithflags(&stm, cudastreamnonblocking); Prioritized Stream ( 今日は説明しません ) 例 : cudastreamcreatewithpriority(&stm, cudastreamdefault, priority);

12 BLOCKING STREAM Default Stream と同期する カーネル間でデータの依存性がある場合に有効 順序は保証されない Blocking Stream 1 Kernel 1 Blocking Stream 2 Kernel 2 Blocking Stream 3 Default Stream Kernel 3 Kernel 1-3 を待つ Kernel

13 NON-BLOCKING STREAM Default Stream に対しても非同期 順序は保証されない Blocking Stream 1 Kernel 1 Blocking Stream 2 Kernel 2 Blocking Stream 3 Kernel 3 Default Stream Kernel

14 STREAM に対する同期プリミティブ 状態確認 同期 イベント同期 API cudastreamquery() cudastreamsynchronize() cudastreamwaitevent() 説明 Stream 上の処理が完了しているか確認 Stream 上の処理完了を確認 同期 Stream 上でEventを待つ

15 今日のお題 フィルタ付き動画プレーヤー 動かしてみる

16 フィルタ付き動画プレーヤー 3 CPU スレッドでパイプラインを構成 Decoder Thread Decode (YV12) Windows Media Foundation Processing Thread YV12 RGB (half float) Convolution Filter R G B Draw to OpenGL Tex CUDA App Main Thread OpenGL Draw to Window

17 データフロー (PROCESSING THREAD) 入力 (CPU) YV12 Frame GPU YV12 RGB (half float) RGB (3 plane) Half float Convolution Filter R G B RGB (3 plane) Half float Draw to OpenGL Tex 出力 (CPU) Host Buffer R G B

18 DEFAULT STREAM を使用した場合 実行時間 : 4.17 ms データ転送 : 1.42 ms カーネル : 2.43 ms Memcpy Host Device Convolution Filter Default Stream NV12 YV12 RGB R G B Draw to OpenGL Tex Memcpy Device Host R G B

19 メモリ転送をコンカレントに実行 ( オーバーラップ ) 実行時間 : 2.85 ms データ転送 : 1.25 ms カーネル : 2.42 ms Non-blocking Stream 1 Non-blocking Stream 2 Memcpy Host Device NV12 Memcpy Device Host R G B Default Stream YV12 RGB Convolution Filter R G B Draw to OpenGL Tex

20 カーネルも並列実行 実行時間 : 2.78 ms, データ転送 : 1.15 ms, カーネル : 2.37 ms Non-blocking Stream 1 Non-blocking Stream 2 Memcpy Host Device NV12 Memcpy Device Host R G B Convolution Filter Blocking Stream 1 Blocking Stream 2 Blocking Stream 3 Default Stream YV12 RGB R G B Draw to OpenGL Tex

21 性能比較 # 実装処理時間短縮分メモリ転送時間 カーネル実行時間 1 Default Stream のみ 4.17 ms ー 1.42 ms 2.43 ms 2 メモリ転送をオーバーラップ 3 カーネル実行もオーバーラップ 2.85 ms 1.32 ms 1.25 ms 2.42 ms 2.78 ms 1.39 ms 1.15 ms 2.37 ms メモリ転送のオーバーラップ分 速くなった カーネルのオーバーラップは 今回は ちょっとだけ効果あり

22 カーネル実行もオーバーラップする 別ストリームで実行 順序に依存しない データの依存性がない 効果のある事例については 機会を改めて (Hyper-Qも扱いたい) オーバーラップしている オーバーラップしていない

23 まとめ 1. CPU GPU 間のコンカレンシ 非同期 API の使用 2. カーネルとメモリ転送のコンカレンシ Dual Copy Engine 3. カーネル間のコンカレンシ カーネル間のデータ依存性 ストリーム Default / Blocking / Non-blocking Stream

名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL アライアンスパートナー コアテクノロジーパートナー NVIDIA JAPAN ソリュ

名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL   アライアンスパートナー コアテクノロジーパートナー NVIDIA JAPAN ソリュ GPUDirect の現状整理 multi-gpu に取組むために G-DEP チーフエンジニア河井博紀 (kawai@gdep.jp) 名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL http://www.gdep.jp アライアンスパートナー コアテクノロジーパートナー

More information

CUDA を用いた画像処理 画像処理を CUDA で並列化 基本的な並列化の考え方 目標 : 妥当な Naïve コードが書ける 最適化の初歩がわかる ブロックサイズ メモリアクセスパターン

CUDA を用いた画像処理 画像処理を CUDA で並列化 基本的な並列化の考え方 目標 : 妥当な Naïve コードが書ける 最適化の初歩がわかる ブロックサイズ メモリアクセスパターン CUDA 画像処理入門 エヌビディアジャパン CUDA エンジニア森野慎也 GTC Japan 2014 CUDA を用いた画像処理 画像処理を CUDA で並列化 基本的な並列化の考え方 目標 : 妥当な Naïve コードが書ける 最適化の初歩がわかる ブロックサイズ メモリアクセスパターン RGB Y( 輝度 ) 変換 カラー画像から グレイスケールへの変換 Y = 0.299 R + 0.587

More information

1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin

1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin Windows で始める CUDA 入門 GTC 2013 チュートリアル エヌビディアジャパン CUDA エンジニア森野慎也 1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境

More information

Slide 1

Slide 1 CUDA プログラミングの基本 パート I - ソフトウェアスタックとメモリ管理 CUDA の基本の概要 パート I CUDAのソフトウェアスタックとコンパイル GPUのメモリ管理 パートII カーネルの起動 GPUコードの具体項目 注 : 取り上げているのは基本事項のみです そのほか多数の API 関数についてはプログラミングガイドを ご覧ください CUDA インストレーション CUDA インストレーションの構成

More information

07-二村幸孝・出口大輔.indd

07-二村幸孝・出口大輔.indd GPU Graphics Processing Units HPC High Performance Computing GPU GPGPU General-Purpose computation on GPU CPU GPU GPU *1 Intel Quad-Core Xeon E5472 3.0 GHz 2 6 MB L2 cache 1600 MHz FSB 80 GFlops 1 nvidia

More information

Slide 1

Slide 1 CUDA プログラミングの基本 パート II - カーネル CUDA の基本の概要 パート I CUDAのソフトウェアスタックとコンパイル GPUのメモリ管理 パート II カーネルの起動 GPUコードの具体像 注 : 取り上げているのは基本事項のみです そのほか多数の API 関数についてはプログラミングガイドを ご覧ください GPU 上でのコードの実行 カーネルは C 関数 + 多少の制約 ホストメモリはアクセスできない戻り値型は

More information

GPGPUクラスタの性能評価

GPGPUクラスタの性能評価 2008 年度理研 HPC シンポジウム第 3 世代 PC クラスタ GPGPU クラスタの性能評価 2009 年 3 月 12 日 富士通研究所成瀬彰 発表の概要 背景 GPGPU による高速化 CUDA の概要 GPU のメモリアクセス特性調査 姫野 BMT の高速化 GPGPU クラスタによる高速化 GPU Host 間のデータ転送 GPU-to-GPU の通信性能 GPGPU クラスタ上での姫野

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation 熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date 2011-03-17 Type URL Presentation http://hdl.handle.net/2298/23539 Right GPGPU による高速演算について 榎本昌一 東京大学大学院工学系研究科システム創成学専攻

More information

組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 Copyright 2013 FUJITSU COMPUTER TECHNOLOGIES LIMITED

組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 Copyright 2013 FUJITSU COMPUTER TECHNOLOGIES LIMITED 組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 組込み Linux における起動高速化 組込み Linux の起動時間短縮について依頼あり スペック CPU : Cortex-A9 ( 800MB - single) RAM: 500MB 程度 要件 起動時間 画出し 5 秒 音出し 3 秒 終了時間 数 ms で電源断 1 課題と対策 問題点

More information

1. マシンビジョンにおける GPU の活用

1. マシンビジョンにおける GPU の活用 CUDA 画像処理入門 GTC 213 チュートリアル エヌビディアジャパン CUDA エンジニア森野慎也 1. マシンビジョンにおける GPU の活用 1. 医用画像処理における GPU の活用 CT や MRI から画像を受信して三次元画像の構築をするシステム 2 次元スキャンデータから 3 次元 4 次元イメージの高速生成 CUDA 化により画像処理速度を約 2 倍に高速化 1. CUDA で画像処理

More information

-1-1 1 1 1 1 12 31 2 2 3 4

-1-1 1 1 1 1 12 31 2 2 3 4 2007 -1-1 1 1 1 1 12 31 2 2 3 4 -2-5 6 CPU 3 Windows98 1 -3-2. 3. -4-4 2 5 1 1 1 -5- 50000 50000 50000 50000 50000 50000 50000 50000 50000 50000-6- -7-1 Windows 2 -8-1 2 3 4 - - 100,000 200,000 500,000

More information

3次多項式パラメタ推定計算の CUDAを用いた実装 (CUDAプログラミングの練習として) Implementation of the Estimation of the parameters of 3rd-order-Polynomial with CUDA

3次多項式パラメタ推定計算の CUDAを用いた実装 (CUDAプログラミングの練習として)  Implementation of the Estimation of the parameters of 3rd-order-Polynomial with CUDA 3 次多項式パラメタ推定計算の CUDA を用いた実装 (CUDA プログラミングの練習として ) Estimating the Parameters of 3rd-order-Polynomial with CUDA ISS 09/11/12 問題の選択 目的 CUDA プログラミングを経験 ( 試行錯誤と習得 ) 実際に CPU のみの場合と比べて高速化されることを体験 問題 ( インプリメントする内容

More information

GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所 共通コードプロジェクト

GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所 共通コードプロジェクト GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 勉強会 @ 理化学研究所 共通コードプロジェクト Contents Hands On 環境について Introduction to GPU computing Introduction

More information

Microsoft PowerPoint - suda.pptx

Microsoft PowerPoint - suda.pptx GPU の HWアーキテクチャと高性能化手法 須田礼仁 ( 東京大学 ) 2011/03/22 GPU 高性能プログラミング GPU のハードウェアを理解する CUDA のソフトウェアを理解する CUDA でプログラムを書くのは難しくないが, CUDA で高速なプログラムを書くのは難しい どうすれば遅くなるかを理解する! 効果が大きいものから順に説明します 1 高性能プログラミングの手順 1. 現在のコードの,

More information

( CUDA CUDA CUDA CUDA ( NVIDIA CUDA I

(    CUDA CUDA CUDA CUDA (  NVIDIA CUDA I GPGPU (II) GPGPU CUDA 1 GPGPU CUDA(CUDA Unified Device Architecture) CUDA NVIDIA GPU *1 C/C++ (nvcc) CUDA NVIDIA GPU GPU CUDA CUDA 1 CUDA CUDA 2 CUDA NVIDIA GPU PC Windows Linux MaxOSX CUDA GPU CUDA NVIDIA

More information

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2 ! OpenCL [Open Computing Language] 言 [OpenCL C 言 ] CPU, GPU, Cell/B.E.,DSP 言 行行 [OpenCL Runtime] OpenCL C 言 API Khronos OpenCL Working Group AMD Broadcom Blizzard Apple ARM Codeplay Electronic Arts Freescale

More information

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx GPU のプログラム構造 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 GPU プログラミング環境 (CUDA) GPU プログラムの実行の流れ CUDA によるプログラムの記述 カーネル (GPU で処理する関数 ) の構造 記述方法とその理由 GPU 固有のパラメータの確認 405 GPU(Graphics Processing Unit) とは 画像処理専用のハードウェア 具体的には画像処理用のチップ

More information

研究報告用MS-Wordテンプレートファイル

研究報告用MS-Wordテンプレートファイル マルチコアおよび GPGPU 環境における画像処理最適化 矢野勝久 高山征大 境隆二出宮健彦 スケーラを題材として, マルチコアおよび GPGPU 各々の HW 特性に適した画像処理の最適化を図る. マルチコア環境では, 数値演算処理の削減,SIMD 化など直列性能の最適化を行った後,OpenMP を利用して並列化を図る.GPGPU(CUDA) では, スレッド並列を優先して並列処理の設計を行いブロックサイズを決める.

More information

NUMAの構成

NUMAの構成 GPU のプログラム 天野 アクセラレータとは? 特定の性質のプログラムを高速化するプロセッサ 典型的なアクセラレータ GPU(Graphic Processing Unit) Xeon Phi FPGA(Field Programmable Gate Array) 最近出て来た Deep Learning 用ニューロチップなど Domain Specific Architecture 1GPGPU:General

More information

de:code 2019 CM04 Azure Kinect DK 徹底解説 ~ 進化したテクノロジーとその実装 ~ 技術統括室 千葉慎二 Ph.D.

de:code 2019 CM04 Azure Kinect DK 徹底解説 ~ 進化したテクノロジーとその実装 ~ 技術統括室 千葉慎二 Ph.D. de:code 2019 CM04 Azure Kinect DK 徹底解説 ~ 進化したテクノロジーとその実装 ~ 技術統括室 千葉慎二 Ph.D. Mixed Reality の全体像 Kinect はただのカメラではない 3D 空間の認識 ( 深度 ) 人の全身の動きをとらえる Azure Kinect Development Environment Azure Kinect DK 開発環境

More information

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx GPU のメモリ階層 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 GPU のメモリ階層 グローバルメモリ 共有メモリ モザイク処理への適用 コンスタントメモリ 空間フィルタへの適用 577 GPU の主要部品 基盤 GPU( チップ )+ 冷却部品 画面出力端子 電源入力端子 メモリ 特性の把握が重要 電源入力端子 画面出力端子 メモリ チップ PCI Ex 端子 http://www.geforce.com/whats

More information

TCC は Tesla Compute Cluster を意味します NVidia for Windows によって開発された特別なドライバです Windows Display Driver Model(WDDM) をバイパスし GPU が CPU とより高速で通信できるようにします TCC の欠点

TCC は Tesla Compute Cluster を意味します NVidia for Windows によって開発された特別なドライバです Windows Display Driver Model(WDDM) をバイパスし GPU が CPU とより高速で通信できるようにします TCC の欠点 Redshift ハードウェアに関する考慮事項 本資料は Redshift の Forum Hardware for Redshift に記載された以下の資料を翻訳したものです https://docs.google.com/document/d/1rp5nkypqbpm-5tlvdelgct93rjgh4vexyhzsqhr1xri/edit?usp=sharing 目次 GPU... 1 必要な

More information

SMG Field Computex 2011 New Category Update

SMG Field Computex 2011 New Category Update Intel Software Developer Day インテル メディア SDK 概要 2011 年 7 月 15 日インテル株式会社ソフトウェア & サービス統括部アプリケーション エンジニア 竹内康人 1 本日の内容 インテル メディア SDK 構成と疑似コード まとめ 2 インテル メディア SDK - 最適化されたソリューション インテル メディア SDK 共通 API を介して インテル

More information

Contents 1. 自己紹介 2. ブート時間短縮のアプローチ 3. Snapshotブートの実装 4. Snapshot 取得位置と起動時間 5. より高速なSnapshotブートへのアプローチ 2 1. 自己紹介 3 2

Contents 1. 自己紹介 2. ブート時間短縮のアプローチ 3. Snapshotブートの実装 4. Snapshot 取得位置と起動時間 5. より高速なSnapshotブートへのアプローチ 2 1. 自己紹介 3 2 WEC2013 の高速起動 スナップショットブートの全貌 2014/04/25 株式会社日立超 LSI システムズ組込プラットフォーム設計部 伊藤優 はじめに 組み込みデバイス起動時間もその一つです 電源を入れたのち 24 時間 365 日の間 電源を落とさない場合もあれば 頻繁に電源 OFF/ON を繰り返す製品もあります たとえば自動車向け製品のように 常にコールドブートを ただし短い起動時間を要求されるようなシステムも存在します

More information

Microsoft PowerPoint - GPU_computing_2013_01.pptx

Microsoft PowerPoint - GPU_computing_2013_01.pptx GPU コンピューティン No.1 導入 東京工業大学 学術国際情報センター 青木尊之 1 GPU とは 2 GPGPU (General-purpose computing on graphics processing units) GPU を画像処理以外の一般的計算に使う GPU の魅力 高性能 : ハイエンド GPU はピーク 4 TFLOPS 超 手軽さ : 普通の PC にも装着できる 低価格

More information

Microsoft PowerPoint - sp ppt [互換モード]

Microsoft PowerPoint - sp ppt [互換モード] システムプログラム概論 入出力 (I/O) 制御 今日の講義概要 入出力デバイスのハードウェア 入出力デバイスの制御 入出力デバイスのソフトウェア 第 6 講 : 平成 20 年 10 月 22 日 ( 水 ) 2 限 S1 教室 中村嘉隆 ( なかむらよしたか ) 奈良先端科学技術大学院大学助教 y-nakamr@is.naist.jp http://narayama.naist.jp/~y-nakamr/

More information

Jackson Marusarz 開発製品部門

Jackson Marusarz 開発製品部門 Jackson Marusarz 開発製品部門 内容 インテル TBB の概要 ヘテロジニアスの課題とそれらに対応するための概念 課題に対応するためのインテル TBB の進化 2 インテル TBB threadingbuildingblocks.org 汎用並列アルゴリズム ゼロから始めることなく マルチコアの能力を活かす効率的でスケーラブルな方法を提供 フローグラフ 並列処理を計算の依存性やデータフロー

More information

スライド 1

スライド 1 GPU クラスタによる格子 QCD 計算 広大理尾崎裕介 石川健一 1.1 Introduction Graphic Processing Units 1 チップに数百個の演算器 多数の演算器による並列計算 ~TFLOPS ( 単精度 ) CPU 数十 GFLOPS バンド幅 ~100GB/s コストパフォーマンス ~$400 GPU の開発環境 NVIDIA CUDA http://www.nvidia.co.jp/object/cuda_home_new_jp.html

More information

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 目次 1. TSUBAMEのGPU 環境 2. プログラム作成 3. プログラム実行 4. 性能解析 デバッグ サンプルコードは /work0/gsic/seminars/gpu- 2011-09- 28 からコピー可能です 1.

More information

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード] 200/0/9 数値流体解析の並列効率とその GPU による高速化の試み 清水建設 ( 株 ) 技術研究所 PHAM VAN PHUC ( ファムバンフック ) 流体計算時間短縮と GPU の活用の試み 現 CPUとの比較によりGPU 活用の可能性 現 CPU の最大利用 ノード内の最大計算資源の利用 すべてCPUコアの利用 適切なアルゴリズムの利用 CPU コア性能の何倍? GPU の利用の試み

More information

MS5145、MS7120,USB通信の設定

MS5145、MS7120,USB通信の設定 株式会社エイポック http://www.a-poc.co.jp/ MS5145-AC-U,MS7120-AC-U 設定用バーコード 1.USB(Low Speed) 通信の設定対象機種 MS5145-AC-U (USBインターフェース) Fバージョン以上 MS7120-AC-U (USBインターフェース) Lバージョン以上説明 [ 説明 1] USB Serial Emulation Mode (USBシリアルエミュレーションモード)

More information

160311_icm2015-muramatsu-v2.pptx

160311_icm2015-muramatsu-v2.pptx Linux におけるパケット処理機構の 性能評価に基づいた NFV 導 の 検討 村松真, 川島 太, 中 裕貴, 林經正, 松尾啓志 名古屋 業 学 学院 株式会社ボスコ テクノロジーズ ICM 研究会 2016/03/11 研究 的 VM 仮想 NIC バックエンド機構 仮想化環境 仮想スイッチ パケット処理機構 物理環境 性能要因を考察 汎 IA サーバ NFV 環境に適したサーバ構成を検討

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

Microsoft Word - Quadro Mシリーズ_テクニカルガイド_R1-2.doc

Microsoft Word - Quadro Mシリーズ_テクニカルガイド_R1-2.doc (2016/01/28) グラフィックス アクセラレータ Quadro M シリーズ - 1 - 1. 機能仕様 Quadro M5000/M4000 型名 N8005-FS61/122 N8005- FS60/121 製品名 Quadro M5000 Quadro M4000 GPU NVIDIA Quadro M5000 NVIDIA Quadro M4000 メモリ 8GB 256bit GDDR5

More information

GPUコンピューティングの現状と未来

GPUコンピューティングの現状と未来 GPU コンピューティングの現状と未来 成瀬彰, HPC Developer Technology, NVIDIA Summary 我々のゴールと方向性 ゴール実現に向けて進めている技術開発 Unified Memory, OpenACC Libraries, GPU Direct Kepler の機能紹介 Warp shuffle, Memory system Hyper-Q, Dynamic Parallelism

More information

Linuxのベンチマーク評価 とボトルネック解析

Linuxのベンチマーク評価 とボトルネック解析 LKST による Linux カーネルの評価と ボトルネック解析 ( 株 ) 日立製作所システム開発研究所 平松雅巳, 杉田由美子 Japan OSS Promotion Forum OSC2005 1 目次 カーネル性能評価手法 LKST とは LKST Log Tools とは 性能解析ツール 可視化ツール 使い方 IO ボトルネック解析例 Iozone によるボトルネック例 リクエストキュー長解析

More information

アジェンダ Renesas Synergy TM プラットフォーム構成 ThreadX とは ThreadX の状態遷移 ThreadX とμITRONの機能比較 まとめ ページ 2

アジェンダ Renesas Synergy TM プラットフォーム構成 ThreadX とは ThreadX の状態遷移 ThreadX とμITRONの機能比較 まとめ ページ 2 Renesas Synergy TM プラットフォーム ThreadX リアルタイム OS 紹介 アジェンダ Renesas Synergy TM プラットフォーム構成 ThreadX とは ThreadX の状態遷移 ThreadX とμITRONの機能比較 まとめ ページ 2 Synergy プラットフォーム構成中核を担う ThreadX リアルタイム OS ご紹介部分 ページ 3 ThreadX

More information

目的と目次 OpenCL はこれからのマルチコアプログラミングの主流 ( かも ) GPU (NVIDIA, AMD/ATI) Cell B.E. 組み込みプロセッサ 共通コードとして OpenCL に対応するために必要な準備を考える 目次 基礎編 ( 今回 ) OpenCL とは 実践編 高速化の

目的と目次 OpenCL はこれからのマルチコアプログラミングの主流 ( かも ) GPU (NVIDIA, AMD/ATI) Cell B.E. 組み込みプロセッサ 共通コードとして OpenCL に対応するために必要な準備を考える 目次 基礎編 ( 今回 ) OpenCL とは 実践編 高速化の OpenCL と共通コード (1) 基礎編 Typo 訂正版 : 4 Dec 2010 Hideo Matsufuru (KEK) 3 Dec 2010 共通コードミーティング @ 筑波大計算科学研究センター 目的と目次 OpenCL はこれからのマルチコアプログラミングの主流 ( かも ) GPU (NVIDIA, AMD/ATI) Cell B.E. 組み込みプロセッサ 共通コードとして OpenCL

More information

GTC Japan, 2018/09/14 得居誠也, Preferred Networks Chainer における 深層学習の高速化 Optimizing Deep Learning with Chainer

GTC Japan, 2018/09/14 得居誠也, Preferred Networks Chainer における 深層学習の高速化 Optimizing Deep Learning with Chainer GTC Japan, 2018/09/14 得居誠也, Preferred Networks Chainer における 深層学習の高速化 Optimizing Deep Learning with Chainer Chainer のミッション Deep Learning とその応用の研究開発を加速させる 環境セットアップが速い すぐ習熟 素早いコーディング 実験の高速化 結果をさっと公開 論文化

More information

hpc141_shirahata.pdf

hpc141_shirahata.pdf GPU アクセラレータと不揮発性メモリ を考慮した I/O 性能の予備評価 白幡晃一 1,2 佐藤仁 1,2 松岡聡 1 1: 東京工業大学 2: JST CREST 1 GPU と不揮発性メモリを用いた 大規模データ処理 大規模データ処理 センサーネットワーク 遺伝子情報 SNS など ペタ ヨッタバイト級 高速処理が必要 スーパーコンピュータ上での大規模データ処理 GPU 高性能 高バンド幅 例

More information

GPGPU

GPGPU GPGPU 2013 1008 2015 1 23 Abstract In recent years, with the advance of microscope technology, the alive cells have been able to observe. On the other hand, from the standpoint of image processing, the

More information

CUDA基礎1

CUDA基礎1 CUDA 基礎 1 東京工業大学 学術国際情報センター 黄遠雄 2016/6/27 第 20 回 GPU コンピューティング講習会 1 ヘテロジニアス コンピューティング ヘテロジニアス コンピューティング (CPU + GPU) は広く使われている Financial Analysis Scientific Simulation Engineering Simulation Data Intensive

More information

Microsoft Word - dg_sataahciip_refdesign_jp.doc

Microsoft Word - dg_sataahciip_refdesign_jp.doc SATA AHCI-IP コア リファレンス デザイン説明書 Rev1.3J 2017/03/22 本ドキュメントは AHCI-IP コア実機デモ システムのリファレンス デザインを説明したものです SATA-IP コアの上位に AHCI-IP コアを実装することで アプリケーション レイヤのドライバを介して Linux 等の OS から接続 SATA デバイスを直接ドライブとして認識でき ファイル

More information

untitled

untitled GPGPU NVIDACUDA Learn More about CUDA - NVIDIA http://www.nvidia.co.jp/object/cuda_education_jp.html NVIDIA CUDA programming Guide CUDA http://www.sintef.no/upload/ikt/9011/simoslo/evita/2008/seland.pdf

More information

1 OpenCL Work-Item Private Memory Workgroup Local Memory Compute Device Global/Constant Memory Host Host Memory OpenCL CUDA CUDA Compute Unit MP Proce

1 OpenCL Work-Item Private Memory Workgroup Local Memory Compute Device Global/Constant Memory Host Host Memory OpenCL CUDA CUDA Compute Unit MP Proce GPGPU (VI) GPGPU 1 GPGPU CUDA CUDA GPGPU GPGPU CUDA GPGPU ( ) CUDA GPGPU 2 OpenCL OpenCL GPGPU Apple Khronos Group OpenCL Working Group [1] CUDA GPU NVIDIA GPU *1 OpenCL NVIDIA AMD GPU CPU DSP(Digital

More information

Lagopus SDN/OpenFlow switch: yet another SDN/OF switch agent and high-performance software switch

Lagopus SDN/OpenFlow switch: yet another SDN/OF switch agent and high-performance software switch 汎用 x86 サーバを用いた高速なソフトウエアパケット処理技術 中島佳宏 This research is a part of the project for Research and Development of Network Virtualization Technology supported by the Ministry of Internal Affairs and Communications.

More information

04-process_thread_2.ppt

04-process_thread_2.ppt オペレーティングシステム ~ 保護とシステムコール ~ 山田浩史 hiroshiy @ cc.tuat.ac.jp 2015/05/08 復習 : OS の目的 ( 今回の話題 ) 裸のコンピュータを抽象化 (abstraction) し より使いやすく安全なコンピュータとして見せること OS はハードウェアを制御し アプリケーションの効率的な動作や容易な開発を支援する OS がないと 1 つしかプログラムが動作しない

More information

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU GPGPU (I) GPU GPGPU 1 GPU(Graphics Processing Unit) GPU GPGPU(General-Purpose computing on GPUs) GPU GPGPU GPU ( PC ) PC PC GPU PC PC GPU GPU 2008 TSUBAME NVIDIA GPU(Tesla S1070) TOP500 29 [1] 2009 AMD

More information

netmapによる 実践パケット処理プログラミング

netmapによる 実践パケット処理プログラミング netmap による 実践パケット処理プログラミング ryo@iij.ad.jp Copyright 2016 Internet Initiative Japan, Inc. 1 netmap とは? a framework for fast packet I/O ピサ大学の Luigi Rizzo 教授が設計した API 送受信パケット用のバッファを予め確保 userland/kernel でその領域を

More information

マルチコア時代の並列プログラミング

マルチコア時代の並列プログラミング マルチコア時代の 並列プログラミング ~ ロックとメモリオーダリング ~ 中村実 nminoru@nminoru.jp http://www.nminoru.jp/~nminoru/ まずは自己紹介を 電機メーカー勤務のエンジニア Java VM 特に並列 GC JIT コンパイラの研究 開発 Java 系雑誌にときどき寄稿 最近は IA-64 と戯れる日々 趣味で Web に細々とプログラミングのメモを綴る日々

More information

ESOTERIC ASIO USB DRIVER インストールマニュアル Windows 用 システム推奨条件 2 インストールで使用する言語を選択して 次へ ボタンをクリックする Intel Core 2 Duo 以上のプロセッサー搭載コンピュータ 搭載メモリ 1GB 以上 対応 OS Windo

ESOTERIC ASIO USB DRIVER インストールマニュアル Windows 用 システム推奨条件 2 インストールで使用する言語を選択して 次へ ボタンをクリックする Intel Core 2 Duo 以上のプロセッサー搭載コンピュータ 搭載メモリ 1GB 以上 対応 OS Windo ESOTERIC ASIO USB DRIVER インストールマニュアル Windows 用 システム推奨条件 2 インストールで使用する言語を選択して 次へ ボタンをクリックする Intel Core 2 Duo 以上のプロセッサー搭載コンピュータ 搭載メモリ 1GB 以上 対応 OS Windows 7 (32bit 版 64bit 版 ) Windows 8 (32bit 版 64bit 版

More information

並列・高速化を実現するための 高速化サービスの概要と事例紹介

並列・高速化を実現するための 高速化サービスの概要と事例紹介 第 4 回 AVS 可視化フォーラム 2019 並列 高速化を実現するための 高速化サービスの概要と事例紹介 株式会社アーク情報システム営業部仮野亮ソリューション技術部佐々木竜一 2019.08.30 はじめに アーク情報システムの紹介 高速化サービスとは? 事例紹介 コンサルティングサービスについて アーク情報システムの紹介 設立 資本金 :1987 年 10 月 :3 億 600 万円 従業員数

More information

リソース制約下における組込みソフトウェアの性能検証および最適化方法

リソース制約下における組込みソフトウェアの性能検証および最適化方法 リソース制約下における組込みソフト ウェアの性能検証および最適化方法 広島市立大学 大学院情報科学研究科システム工学専攻 中田明夫倉田和哉百々太市 1 提案技術の概要 組込みシステムの開発 厳しいリソース制約 (CPU, ネットワークなど ) 非機能要求 ( リアルタイム性など ) の達成 開発プロセスにおける設計段階 性能問題を発見することが困難 実装段階で性能問題が発覚 設計の手戻りが発生 設計段階での性能検証手法

More information

fse7_time_sample

fse7_time_sample NXPowerLite 7.1.16 ファイルサーバーエディション 軽量化処理時間について 株式会社オーシャンブリッジ 2018 年 1 月 18 日 FSE7116-20180118 マルチスレッド処理 バージョン 7.1.16 よりマルチスレッド処理に対応したことにより軽量化処理を同時並行させることが可能になりました 軽量化処理のスピードは従来通りですが 複数ファイルの並行処理が可能になったことで

More information

仮想マシンの高速ライブマイグレーション技術 Yabusame: Postcopy Live Migration for Qemu/KVM

仮想マシンの高速ライブマイグレーション技術 Yabusame: Postcopy Live Migration for Qemu/KVM 準仮想化ページフォルトを用いたポストコピー型ライブマイグレーションの性能向上手法 広渕崇宏 * 山幡為佐久 ** 伊藤智 * * 産業技術総合研究所 ** VA Linux Systems Japan コンピュータシステムシンポジウム 2012 2012 年 12 月 6 日 本スライドは 2012 年 12 月当時のものです その後 実装を改良し包括的な性能評価を行いました 下記の論文をご参照ください

More information

いまからはじめる組み込みGPU実装

いまからはじめる組み込みGPU実装 いまからはじめる組み込み GPU 実装 ~ コンピュータービジョン ディープラーニング編 ~ MathWorks Japan アプリケーションエンジニアリング部シニアアプリケーションエンジニア大塚慶太郎 2017 The MathWorks, Inc. 1 コンピュータービジョン ディープラーニングによる 様々な可能性 自動運転 ロボティクス 予知保全 ( 製造設備 ) セキュリティ 2 転移学習を使った画像分類

More information

Microsoft PowerPoint - SWoPP2010_Shirahata

Microsoft PowerPoint - SWoPP2010_Shirahata GPU を考慮した MapReduce の タスクスケジューリング 白幡晃一 1 佐藤仁 1 松岡聡 1 2 3 1 東京工業大学 2 科学技術振興機構 3 国立情報学研究所 大規模データ処理 情報爆発時代における 大規模データ処理 気象 生物学 天文学 物理学など様々な科学技術計算での利用 MapReduce 大規模データ処理のためのプログラミングモデルデ スケーラブルな並列データ処理 GPGPU

More information

JS2-14 マルチコアCPU時代の Javaプログラミング

JS2-14 マルチコアCPU時代の Javaプログラミング JavaOne Tokyo 2012 JS2-14 マルチコア CPU 時代の Java プログラミング 2012 年 4 月 5 日 富士通株式会社数村憲治 Copyright 2012 FUJITSU LIMITED 自己紹介 数村憲治 kzr@jp.fujitsu.com 富士通株式会社 Interstage Application Server 開発チーム Java VMの開発 サポート 大規模システムでの性能チューニングに

More information

<4C696E A B835E A CC8A D20838A B835E B838982CC8EC08CB

<4C696E A B835E A CC8A D20838A B835E B838982CC8EC08CB PREEMPT_RT の移植 - 進捗報告 - 松原克弥株式会社イーゲル Funded by 株式会社ルネサスソリューションズ 1 背景 ユーザレベルでデバイスドライバを実現したい 開発が容易 ドライババグによるシステムダウンを軽減 より密接なアプリとの連携 いくつかの問題 I/O メモリ 物理メモリへのアクセス 割り込み要求 (IRQ) の受信 応答速度 カーネル 2.6 の新機能 NPTL(Native

More information

CUDA 連携とライブラリの活用 2

CUDA 連携とライブラリの活用 2 1 09:30-10:00 受付 10:00-12:00 Reedbush-H ログイン GPU 入門 13:30-15:00 OpenACC 入門 15:15-16:45 OpenACC 最適化入門と演習 17:00-18:00 OpenACC の活用 (CUDA 連携とライブラリの活用 ) CUDA 連携とライブラリの活用 2 3 OpenACC 簡単にGPUプログラムが作成できる それなりの性能が得られる

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション LAN 1. LAN,. NAT,., LAN. NTMobile Network Traversal with Mobilty [1]. NTMobile. OS TUN/TAP, LAN. 2. NTMobile NTMobile NAT, IPv4/IPv6,,. NTMobile. DC Direction Coordinator. NTMobile. DC,. NTMobile NTMfw.

More information

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 GPU 4 2010 8 28 1 GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 Register & Shared Memory ( ) CPU CPU(Intel Core i7 965) GPU(Tesla

More information

GNU Emacs GNU Emacs

GNU Emacs GNU Emacs GNU Emacs 2015 10 2 1 GNU Emacs 1 1.1....................................... 1 1.2....................................... 1 1.2.1..................................... 1 1.2.2.....................................

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

POSIXプログラミング Pthreads編

POSIXプログラミング Pthreads編 POSIXプログラミング Pthreads 編 デジタルビジョンソリューション 中山一弘佐藤史明 参考図書 Pthreads プログラミング, Bradford Nichols, Dick Buttlar, Jacqeline Proulx Farrell, ISBN4-900900-66-4 Pthreads POSIX スレッド標準を実装したライブラリを Pthreads と呼ぶ C 言語のデータ型

More information

LSI MegaRAID SAS Device Driver Installation Guide - 日本語

LSI MegaRAID SAS Device Driver Installation Guide - 日本語 User Guide - 日本語 LSI MegaRAID SAS Device Driver Installation 2014 年 5 月 富士通株式会社 著作権および商標 Copyright 2014 FUJITSU LIMITED 使用されているハードウェア名とソフトウェア名は 各メーカーの商標です このドキュメントには LSI Corporation が所有する情報が含まれています LSI

More information

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10 NVIDIA TESLA V100 CUDA 9 のご紹介 森野慎也, シニアソリューションアーキテクト (GPU-Computing) NVIDIA Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ

More information

Microsoft PowerPoint - 鵜飼裕司講演資料shirahama_egg.ppt [互換モード]

Microsoft PowerPoint - 鵜飼裕司講演資料shirahama_egg.ppt [互換モード] 仮想環境に依存しない動的解析システム egg の設計と実装 http://www.fourteenforty.jp 株式会社フォティーンフォティ技術研究所 アジェンダ 背景と問題 egg とは デモ : 基本的な機能 実装 (Ring-0 における汚染追跡 ) デモ : 汚染追跡 egg の制約と今後 まとめ 2 背景 : 増え続ける新種のマルウェア 100 90 80 70 60 50 40 30

More information

Developer Camp

Developer Camp 2F Delphi/C++ チュートリアルセッション Delphi でキカイを制御する アプリケーションの設計とテクニック 株式会社イマジオム代表取締役 高木太郎 1 はじめに この講演の内容 制御プログラムというもの 制御プログラム設計のポイント 制御プログラム実装のテクニック 3 どんなものを考えているのか? 例 :3 次元プリンタ ここに入っている PC がシステム全体を制御 3 次元プリンタ原理

More information

DSDネイティブ再生方法

DSDネイティブ再生方法 DSD ネイティブ再生方法 本書は DSD ネイティブ再生をお手伝いするための参考文書となりますので 本書に関する質問にはお答えできません AL-38432DSⅡ 専用 DSD ネイティブ再生方法 アムレック. 目次 DSD ネイティブ再生方法... 1 目次... 2 foobar2000 の設定 (for Windows)... 3 はじめに... 3 Foobar2000 に於ける DSD 再生に必要なコンポーネントです...

More information

スライド 1

スライド 1 仮想化環境でのパケット転送 - 性能測定結果 & 考察 - 海老澤健太郎 @ パラレルス株式会社 2011/12/01 Internet Week 2011 性能測定 構成 DUT (Device Under Test) - Dell PowerEdge R410 CPU x 2 : Xeon L5520 @ 2.27GHz QEMU VM e1000 VM virtio-net VM vhost-net

More information

KiwiSyslogServer/KiwiLogViewer製品ガイド

KiwiSyslogServer/KiwiLogViewer製品ガイド 製品ガイド Kiwi Syslog Server v9 (Web Access) Kiwi Log Viewer v2 平成 30(2018) 年 2 月 26 日 概要 Kiwi Syslog Server はニュージーランドの Kiwi Enterprises 社 ( 現 SolarWinds 社 ) が開発した Windows 用の Syslog サーバーです 非常に長い歴史を持ち世界でもっとも多く採用されている

More information

VECLOS Audio Driver インストールマニュアル Windows 用 2 次へ ボタンをクリックする 対応 OS Windows 7 (32bit 版 64bit 版 ) Windows 8( 32bit 版 64bit 版 ) Windows 8.1( 32bit 版 64bit 版

VECLOS Audio Driver インストールマニュアル Windows 用 2 次へ ボタンをクリックする 対応 OS Windows 7 (32bit 版 64bit 版 ) Windows 8( 32bit 版 64bit 版 ) Windows 8.1( 32bit 版 64bit 版 Windows 用 2 次へ ボタンをクリックする 対応 OS Windows 7 (32bit 版 64bit 版 ) Windows 8( 32bit 版 64bit 版 ) Windows 8.1( 32bit 版 64bit 版 ) Windows10( 32bit 版 64bit 版 ) 2018 年 5 月現在 本機とパソコンを USB で接続する前に VECLOS Audio Driver

More information

MS5145 USB シリアル エミュレーション モードの設定

MS5145 USB シリアル エミュレーション モードの設定 MS5145-AC-U 補足設定 2010 年 7 月株式会社エイポック http://www.a-poc.co.jp/ USB シリアルエミュレーションモードの設定 1. 概要 USB シリアル エミュレーション モードとはバーコードリーダーを USB で接続していながら RS-232C 接続機器としてパソコンに認識させる設定です 読み取ったバーコード データは COM ポートにシリアルデータとして入力します

More information

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2016-CSEC-75 No /12/1 ハッシュ関数 Keccak の GPU 実装 グェンダットトゥオン 1 1 岩井啓輔 1 黒川恭一 概要 : 次世代ハッシュ関数 SHA-3 の候補であった Ke

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2016-CSEC-75 No /12/1 ハッシュ関数 Keccak の GPU 実装 グェンダットトゥオン 1 1 岩井啓輔 1 黒川恭一 概要 : 次世代ハッシュ関数 SHA-3 の候補であった Ke ハッシュ関数 Keccak の GPU 実装 グェンダットトゥオン 1 1 岩井啓輔 1 黒川恭一 概要 : 次世代ハッシュ関数 SHA-3 の候補であった Keccak は 2012 年 10 月 2 日のコンペティションの勝者として選定され,2015 年 8 月 5 日に正式版が FIPS PUB 202 として公表された.Keccak は, スポンジ構造に基づくハッシュ関数であり,MD5 や

More information

HPC143

HPC143 研究背景 GPUクラスタ 高性能 高いエネルギー効率 低価格 様々なHPCアプリケーションで用いられている TCA (Tightly Coupled Accelerators) 密結合並列演算加速機構 筑波大学HA-PACSクラスタ アクセラレータ GPU 間の直接通信 低レイテンシ 今後のHPCアプリは強スケーリングも重要 TCAとアクセラレータを搭載したシステムに おけるプログラミングモデル 例

More information

April 2014 Flash-aware MySQL フラッシュが MySQL を変える Takeshi Hasegawa Senior Sales Engineer APAC Japan Fusion-io

April 2014 Flash-aware MySQL フラッシュが MySQL を変える Takeshi Hasegawa Senior Sales Engineer APAC Japan Fusion-io April 2014 Flash-aware MySQL フラッシュが MySQL を変える Takeshi Hasegawa Senior Sales Engineer APAC Japan Fusion-io 不揮発メモリ (NVM) の登場 フラッシュ (NAND) デバイスあたり数百 GB 10TBの容量 フラッシュ技術のトレンド 大容量化 GB 単価コスト 書き込み回数の減少 セルの多値化

More information

Maser - User Operation Manual

Maser - User Operation Manual Maser 3 Cell Innovation User Operation Manual 2013.4.1 1 目次 1. はじめに... 3 1.1. 推奨動作環境... 3 2. データの登録... 4 2.1. プロジェクトの作成... 4 2.2. Projectへのデータのアップロード... 8 2.2.1. HTTPSでのアップロード... 8 2.2.2. SFTPでのアップロード...

More information

IPSJ SIG Technical Report Vol.2012-ARC-202 No.13 Vol.2012-HPC-137 No /12/13 Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) GPU HA-PACS

IPSJ SIG Technical Report Vol.2012-ARC-202 No.13 Vol.2012-HPC-137 No /12/13 Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) GPU HA-PACS Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) HA-PACS 2012 2 HA-PACS TCA (Tightly Coupled Accelerators) TCA PEACH2 1. (Graphics Processing Unit) HPC GP(General Purpose ) TOP500 [1] CPU PCI Express (PCIe)

More information

rank ”«‘‚“™z‡Ì GPU ‡É‡æ‡éŁÀŠñ›»

rank ”«‘‚“™z‡Ì GPU ‡É‡æ‡éŁÀŠñ›» rank GPU ERATO 2011 11 1 1 / 26 GPU rank/select wavelet tree balanced parenthesis GPU rank 2 / 26 GPU rank/select wavelet tree balanced parenthesis GPU rank 2 / 26 GPU rank/select wavelet tree balanced

More information

untitled

untitled AMD HPC GP-GPU Opteron HPC 2 1 AMD Opteron 85 FLOPS 10,480 TOP500 16 T2K 95 FLOPS 10,800 140 FLOPS 15,200 61 FLOPS 7,200 3 Barcelona 4 2 AMD Opteron CPU!! ( ) L1 5 2003 2004 2005 2006 2007 2008 2009 2010

More information

PGIコンパイラ導入手順

PGIコンパイラ導入手順 1 注意この資料は PGI compiler 18.10 が最新であるときに作成した資料を元にしています PGI compiler 19.4 がリリースされましたが インストール手順や利用手順は 18.10 と変わりません 資料中の 1810 を 194 に 18.10 を 19.4 に読み替えてください 2019 年 6 月版 2 大きく分けて以下の 3 つの方法が利用可能 1. 手元のウェブブラウザでダウンロードして

More information

RTM セミナー RT ミドルウェアによる実時間ロボット 制御系の構築とソフトウェア教育 静岡大学大学院工学研究科機械工学専攻 清水昌幸

RTM セミナー RT ミドルウェアによる実時間ロボット 制御系の構築とソフトウェア教育 静岡大学大学院工学研究科機械工学専攻 清水昌幸 RTM セミナー 2013.11.12 RT ミドルウェアによる実時間ロボット 制御系の構築とソフトウェア教育 静岡大学大学院工学研究科機械工学専攻 清水昌幸 2 内容 RT ミドルウェアを用いた実時間ロボット制御系の構築 実時間制御の実現方法. ART-Linux を用いた実現例と実時間性能. ソフトウェア教育 研究室配属学生 ( 学部 4 年生 ) への導入教育の実施内容と結果. 3 ロボット制御系の一例

More information

Microsoft PowerPoint - CAEworkshop_ _01.ver1.3

Microsoft PowerPoint - CAEworkshop_ _01.ver1.3 GPU メニーコアにおける OpenFOAM の高度化支援紹介 第 1 回 CAE ワークショップ 流体 構造解析アプリケーションを中心に 2017 年 12 月 6 日秋葉原 UDX Gallery NEXT 山岸孝輝井上義昭青柳哲雄浅見曉 ( 高度情報科学技術研究機構 ) ver 1.3 1 outline RISTの高度化支援について GPU メニーコアについて OpenFOAMとGPU GPU

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション vsmp Foundation スケーラブル SMP システム スケーラブル SMP システム 製品コンセプト 2U サイズの 8 ソケット SMP サーバ コンパクトな筐体に多くのコアとメモリを実装し SMP システムとして利用可能 スイッチなし構成でのシステム構築によりラックスペースを無駄にしない構成 将来的な拡張性を保証 8 ソケット以上への拡張も可能 2 システム構成例 ベースシステム 2U

More information

<4D F736F F F696E74202D208C7997CA89BB8E9E8AD491AA92E B2E B8CDD8AB B83685D>

<4D F736F F F696E74202D208C7997CA89BB8E9E8AD491AA92E B2E B8CDD8AB B83685D> NXPowerLite 5 ファイルサーバーエディションについて 株式会社オーシャンブリッジ FSE521-140121 測定環境 検証マシンスペック OS : Windows Sever 2008 R2, Standard Edition SP1 CPU : Intel Xeon X3430 2.4GHz (4コア ) メモリ :8.0 GB アプリケーション : NXPowerLite 5 ファイルサーバエディション

More information

OS

OS Operating Systems OS のインタフェース 2015-02 1 OS とは? p Operating System コンピュータの一部ともいえる最も重要なソフトウェア日本語では 基本ソフトウェア と呼ばれたりする オペレーション システム オペレーティング システム p どんな役割をしているか? コンピュータシステムを管理 ( 交通整理 ) するプログラムを起動したり終了させたりする各プログラムがうまくハードウェアの機能を使えるようにする

More information

05-scheduling.ppt

05-scheduling.ppt オペレーティングシステム ~ スケジューリング ~ 山田浩史 hiroshiy @ cc.tuat.ac.jp 2014/06/01 復習 : プロセス 実行状態にあるプログラムのこと プログラムの実行に必要なものをひっくるめて指す テキスト領域 データ領域 スタック領域 CPU のレジスタ値 プログラムカウンタ など OS はプロセス単位で管理する メモリ Hard Disk CPU プロセス execute

More information

DSDネイティブ再生方法

DSDネイティブ再生方法 DSD ネイティブ再生方法 本書は DSD ネイティブ再生をお手伝いするための参考文書となりますので 本書に関する質問にはお答えできません AL-38432DQ 専用 DSD ネイティブ再生方法 アムレック. 目次 DSD ネイティブ再生方法... 1 目次... 2 foobar2000 の設定 (for Windows)... 3 はじめに... 3 foobar2000 に於ける DSD 再生に必要なコンポーネントです...

More information

GPGPU によるアクセラレーション環境について

GPGPU によるアクセラレーション環境について GPGPU によるアクセラレーション環境について 長屋貴量 自然科学研究機構分子科学研究所技術課計算科学技術班 概要 GPGPU とは 単純で画一的なデータを一度に大量に処理することに特化したグラフィックカードの演算資源を 画像処理以外の汎用的な目的に応用する技術の一つである 近年 その演算能力は CPU で通常言われるムーアの法則に則った場合とは異なり 飛躍的に向上しており その演算性能に魅力を感じた各分野での応用が広がってきている

More information

R6A-51E29 Windows 10 用デバイスドライバ更新手順 ご注意 1. このデバイスドライバ ( 以降ドライバといいます ) の更新は お手持ちのパソコンを Windows 10 へアップデートした後に 本書の手順に添っておこなってください 2. 対象型番以外のパソコンでドライバの更新を

R6A-51E29 Windows 10 用デバイスドライバ更新手順 ご注意 1. このデバイスドライバ ( 以降ドライバといいます ) の更新は お手持ちのパソコンを Windows 10 へアップデートした後に 本書の手順に添っておこなってください 2. 対象型番以外のパソコンでドライバの更新を R6A-51E29 Windows 10 用デバイスドライバ更新手順 ご注意 1. このデバイスドライバ ( 以降ドライバといいます ) の更新は お手持ちのパソコンを Windows 10 へアップデートした後に 本書の手順に添っておこなってください 2. 対象型番以外のパソコンでドライバの更新をおこなうと 正常に動作しなくなる場合 があります 対象型番をよくご確認ください 3. ドライバの更新作業はコンセントからパソコンへ

More information

改訂履歴 改訂日付 改訂内容 2014/11/01 初版発行 2017/01/16 Studuino web サイトリニューアルに伴う改訂 2017/04/14 Studuino web サイトリニューアルに伴う改訂 2018/01/22 ソフトウェア OS のバージョンアップに伴う改訂

改訂履歴 改訂日付 改訂内容 2014/11/01 初版発行 2017/01/16 Studuino web サイトリニューアルに伴う改訂 2017/04/14 Studuino web サイトリニューアルに伴う改訂 2018/01/22 ソフトウェア OS のバージョンアップに伴う改訂 Studuino 基板セットアップ USB デバイスドライバのインストール 2014/11/01 作成 2018/01/22 改訂 改訂履歴 改訂日付 改訂内容 2014/11/01 初版発行 2017/01/16 Studuino web サイトリニューアルに伴う改訂 2017/04/14 Studuino web サイトリニューアルに伴う改訂 2018/01/22 ソフトウェア OS のバージョンアップに伴う改訂

More information

CudaWaveField

CudaWaveField CudaWaveField 2012 3 22 2 CudaWaveField Rel 1.0.0 Rel 1.0 CudaWaveField ( cwfl) / cwfl cwfl http://www.laser.ee.kansai-u.ac.jp/wavefieldtools Note Acrobat Reader 3 I CudaWaveField 9 1 11 1.1 CudaWaveField......................

More information