Microsoft Word - CUDA_Programming_Guide Ver 1-1 J3.doc

Similar documents

SXF 仕様実装規約版 ( 幾何検定編 ) 新旧対照表 2013/3/26 文言変更 p.12(1. 基本事項 ) (5)SXF 入出力バージョン Ver.2 形式と Ver.3.0 形式および Ver.3.1 形式の入出力機能を

のとする (1) 防犯カメラを購入し設置 ( 新設又は増設に限る ) すること (2) 設置する防犯カメラは新設又は既設の録画機と接続することただし録画機能付防犯カメラは

<4D F736F F D2091E F18CB48D C481698E7B90DD8F9590AC89DB816A2E646F63>

Microsoft Word - FrontMatter.doc

続に基づく一般競争 ( 指名競争 ) 参加資格の再認定を受けていること ) c) 会社更生法に基づき更生手続開始の申立てがなされている者又は民事再生法に基づき再生手続開始の申立てがなさ

KINGSOFT Office 2016 動作環境対応日本語版版共通利用上記動作以上以上空容量以上他接続環境推奨必要 2

私立大学等研究設備整備費等補助金（私立大学等

・モニター広告運営事業仕様書

●電力自由化推進法案

は固定流動及び繰延に区分することとし減価償却を行うべき固定の取得又は改良に充てるための補助金等の交付を受けた場合においてはその交付を受けた金額に相当する額を長期前受金とし

積載せずかつ燃料冷却水及び潤滑油の全量を搭載し自動車製作者が定める工具及び付属品 (スペアタイヤを含む )を全て装備した状態をいうこの場合において燃料の全量を搭載するとは燃料

<4D F736F F D2095CA8E A90DA91B18C9F93A289F1939A8F D8288B3816A5F E646F63>

検討検討の進め方検討状況簡易収支の世帯からサンプリング世帯名作成事務の廃止 4 5 必要な世帯数の確保が可能か簡易収支を実施している民間事業者との連絡等に伴う事務の複雑

労働時間と休日は、労働条件のもっとも基本的なものの一つです

1 書誌作成機能 (NACSIS-CAT)の軽量化合理化電子情報資源への適切な対応のための資源 ( 人的資源,システム資源, 経費を含む) の確保のために, 書誌作成と書誌管理作業の軽量化を図

4 承認コミュニティ組織は市長若しくはその委任を受けた者又は監査委員の監査に応じなければならない ( 状況報告 ) 第 7 条承認コミュニティ組織は市長が必要と認めるときは交付金事業の遂行の

養老保険の減額払済保険への変更 1. 設例会社が役員を被保険者とし死亡保険金及び満期保険金のいずれも会社を受取人とする養老保険に加入している場合を解説します資金繰りの都

2 県公立高校の合格者はこのように決まる (1) 選抜の仕組み選抜の資料選抜の資料は主に下記の3つがあり全高校で使用する共通のものと高校ごとに決めるものとがあります 1 学力検査 ( 国語数

平成21年9月29日

<4D F736F F D208E52979C8CA78E598BC68F5790CF91A390698F9590AC8BE08CF D6A2E646F6378>

平成１６年年金制度改正～年金の昔・今・未来を考える～

Microsoft Word 役員選挙規程.doc

<4D F736F F F696E74202D208E9197BF322D31208C9A90DD B835E CC8A C982C282A282C4>

マネジメントシステム認証規則目次 1 章総則 1.1 一般 2 章マネジメントシステムの登録 2.1 一般 2.2 登録原簿 2.3 登録証書 2.4 登録マークの使用及び認証の引用 2.5 登録維持 2.6 登録継続 2.7

H28記入説明書（納付金・調整金）8

( 別紙 ) 以下法とあるのは改正法第 5 条の規定による改正後の健康保険法を指す ( 施行期日は平成 28 年 4 月 1 日 ) 1. 標準報酬月額の等級区分の追加について問 1 法改正により追加

Taro-Ｈ１９退職金（修正版）.jtd

< F2D8AC493C CC81698EF3928D8ED2816A2E6A7464>

c. 投資口の譲渡に係る税務個人投資主が投資口を譲渡した際の譲渡益は株式等に係る譲渡所得等として原則 20%( 所得税 15% 住民税 5%)の税率による申告分離課税の対象となりま

ていることからそれに先行する形で下請業者についても対策を講じることとしました本県としましてはそれまでの間に未加入の建設業者に加入していただきますよう 28 年 4 月から実施することとしました問 6 公共工事の

<4D F736F F D208CA990CF96BE8DD78F918EAE82CC95CF8D >

<4D F736F F D F4390B3816A91E6398D A948EE58E91967B939995CF93AE8C768E5A8F9182C98AD682B782E989EF8C768AEE8F8082CC934B97708E77906A81762E646F63>

PowerPoint プレゼンテーション

Microsoft Word - 佐野市生活排水処理構想（案）.doc

(3) その他市長が必要と認める書類 ( 補助金の交付決定 ) 第 6 条市長は前条の申請書を受理したときは速やかにその内容を審査し補助金を交付すべきものと認めたときは規則第 7 条に規定す

国立大学法人　東京医科歯科大学教職員就業規則

Microsoft Word - 【溶け込み】【修正】第２章～第４章

弁護士報酬規定（抜粋）

第 1 条適用範囲本業務方法書は以下の性能評価に適用する (1) 建築基準法施行令 ( 以下令という ) 第 20 条の7 第 1 項第二号表及び令第 20 条の 8 第 2 項の認定に係る性能評

為が行われるおそれがある場合に都道府県公安委員会がその指定暴力団等を特定抗争指定暴力団等として指定しその所属する指定暴力団員が警戒区域内において暴力団の事務所を新たに設

(Microsoft Word - \203A \225\345\217W\227v\227\314 .doc)

(1)1オールゼロ記録ケース厚生年金期間 A B 及びCに係る旧厚生年金保険法の老齢年金 ( 以下旧厚老という )の受給者に時効特例法施行後厚生年金期間 Dが判明した Bは事業所記号が

3. 選任固定資産評価員は固定資産の評価に関する知識及び経験を有する者のうちから市町村長が当該市町村の議会の同意を得て選任する二以上の市町村の長は当該市町村の議

2 役員の報酬等の支給状況役名法人の長理事理事 ( 非常勤 ) 平成 25 年度年間報酬等の総額就任退任の状況報酬 ( 給与 ) 賞与その他 ( 内容 ) 就任退任 16,936 10,654 4,36

< F2D91E F18BDF91E389BB955C8E D8E9689EF2E>

< F2D A C5817A C495B6817A>

リング不能な将来減算一時差異に係る繰延税金資産について回収可能性がないものとする原則的な取扱いに対してスケジューリング不能な将来減算一時差異を回収できることを反証できる場合に原則

Taro-別紙１パブコメ質問意見とその回答

<4D F736F F D AC90D1955D92E CC82CC895E DD8C D2816A2E646F63>

< F2D8ED089EF95DB8CAF939996A289C193FC91CE8DF42E6A7464>

の基礎の欄にも記載しますア法人税の中間申告書に係る申告の場合は中間イ法人税の確定申告書 ( 退職年金等積立金に係るものを除きます ) 又は連結確定申告書に係る申告の場

する ( 評定の時期 ) 第条成績評定の時期は第 3 次評定者にあっては完成検査及び部分引渡しに伴う検査の時とし第次評定者及び第次評定者にあっては工事の完成の時とする ( 成績評定

* 解雇の合理性相当性は整理解雇の場合には 1 整理解雇の必要性 2 人員選択の相当性 3 解雇回避努力義務の履行 4 手続きの相当性の四要件 ( 要素 )で判断される部門閉鎖型

募集新株予約権（有償ストック・オプション）の発行に関するお知らせ

一般競争入札について

通知カードと個人番号カードの違い 2 通知カード ( 紙 )/H27.10 個人番号カード (ICカード)/H28.1 様式 (おもて) (うら) 作成交付主な記載事項全国 ( 外国人含む)に郵送で配布希望者に交

<4D F736F F F696E74202D E36816A984A93AD8C5F96F CC837C A815B C E707074>

< F2D E633368D86816A89EF8C768E9696B18EE688B5>

第4回税制調査会　総4-1

( 運用制限 ) 第 5 条労働基準局は本システムの維持補修の必要があるとき天災地変その他の事由によりシステムに障害又は遅延の生じたときその他理由の如何を問わずその裁量によりシステム利用者

<4D F736F F D C689D789B582B581698AAE90AC92CA926D816A2E646F63>

の購入費又は賃借料 (2) 専用ポール等機器の設置工事費 (3) ケーブル設置工事費 (4) 防犯カメラの設置を示す看板等の設置費 (5) その他設置に必要な経費 ( 補助金の額 ) 第 6 条補

住宅税制について

2016 年度情報リテラシー変更された状態同様に価格のセルを書式設定する場合は金額のセルをすべて選択し [ 書式 ]のプルダウンメニューから[ 会計 ]を選択するするとが追加され金額としての書式が設定さ

任意整理について | 多重債務Q＆A | 公益財団法人　日本クレジットカウンセリング協会

別紙第号高知県立学校授業料等徴収条例の一部を改正する条例議案高知県立学校授業料等徴収条例の一部を改正する条例を次のように定める平成 26 年 2 月日提出高知県知事尾

平成 27 年 11 月 ~ 平成 28 年 4 月に公開の対象となった専門協議等における各専門委員等の寄附金契約金等の受取状況審査 ( 別紙 ) 専門協議等の件数専門委員数 500 万円超の受

神の錬金術プレビュー版

1 特別会計財務書類の検査特別会計に関する法律 ( 平成 19 年法律第 23 号以下法という ) 第 19 条第 1 項の規定に基づき所管大臣は毎会計年度その管理する特別会計について資産

<4D F736F F D F93878CA797708F4390B3816A819A95CA8B4C976C8EAE91E682538B4C8DDA97E12E646F6378>

[2] 控除限度額繰越欠損金を有する法人において欠損金発生事業年度の翌事業年度以後の欠損金の繰越控除にあたっては平成 27 年度税制改正により次ページ以降で解説するの特例 (

入札参加者は入札の執行完了に至るまではいつでも入札を辞退することができこれを理由として以降の指名等において不利益な取扱いを受けることはない 12 入札保証金免除 13 契約保証金免除 14 入

総合評価点算定基準（簡易型建築・電気・管工事）

注雇促進税制と本制度のどちらかを利する可能性があるがあらかじめどちらの制度を利するか判断できないという場合雇促進税制の事前届出 ( 雇促進計画の提出 )をした上で申告の際にどちらを利するかご

平成１9年9月改定

Ⅰ 調査の概要 1 目的義務教育の機会均等その水準の維持向上の観点から的な児童生徒の学力や学習状況を把握分析し教育施策の成果課題を検証しその改善を図るもに学校におけ

Microsoft Word - ★ＨＰ版平成２７年度検査の結果

第一部【証券情報】

10 期末現在の資本金等の額次に掲げる法人の区分ごとにそれぞれに定める金額を記載します連結申告法人以外の法人 ( に掲げる法人を除きます ) 法第 292 条第 1 項第 4 号の5イに定める

川崎市木造住宅耐震診断助成金交付要綱

<4D F736F F D2093CD8F6F82AA954B977682C88C9A95A882CC94BB926682CC DD5F48508C668DDA E646F63>

< E95FB8CF689638AE98BC689FC90B390A CC8CA992BC82B582C982C282A282C E90E096BE8E9E8E9197BF2E786477>

第２回　制度設計専門会合事務局提出資料

Microsoft Word - 不正アクセス行為の禁止等に関する法律等に基づく公安

中根・金田台地区平成23年度補償説明業務

Microsݯft Word - 91 forܠ2009November.docx

高松市緊急輸送道路沿道建築物耐震改修等事業補助金交付要綱（案）

目次 1. Web メールのご利用について Web メール画面のフロー図 Web メールへのアクセスログイン画面ログイン後 (メール一覧画面 ) 画面共通項目

就業規則 ( 福利厚生 ) 第章福利厚生 ( 死亡弔慰金等 ) 第条法人が群馬県社会福祉協議会民間社会福祉施設等職員共済規程に基づき群馬県社会福祉協議会との間において締結す

若しくは利益の配当又はいわゆる中間配当 ( 資本剰余金の額の減少に伴うものを除きます以下同じです )をした場合にはその積立金の取崩額を減 2 に記載するとともに繰越損益金 26 の増 3 の

(5) 人権侵害, 差別又は名誉毀損となるもの, 又はおそれがあるもの (6) 他人を誹謗し, 中傷し, 又は排斥するもの (7) 投機心, 射幸心をあおるもの, 又はそのおそれがあるもの (8) 内容が虚偽誇大であるなど過

Transcription:

NVIDIA CUDA Compute Unified Device Architecture プログラミングガイド( 日本語版 ) Version 1.1 3/2/2008

ii CUDA Programming Guide Version 1.1

目次 Chapter 1. CUDAの紹介...1 1.1 データ並列演算デバイスとしてのグラフィックプロセッサユニット...1 1.2 CUDA: GPU での演算のための新しいアーキテクチャ...3 1.3 本書の構成...6 Chapter 2. プログラミングモデル...7 2.1 高度なマルチスレッドコプロセッサ...7 2.2 スレッドの集合...エラー! ブックマークが定義されていません 2.2.1 スレッドビロック...7 2.2.2 スレッドブロックのグリッド...8 2.3 メモリモデル... 10 Chapter 3. ハードウェア実装... 13 3.1 オンチップシェアードメモリ付 SIMD マルチプロセッサのセット... 13 3.2 実行モデル... 14 3.3 演算能力... 15 3.4 マルチデバイス... 16 3.5 モードスイッチ... 16 Chapter 4. アプリケーションプログラミングインターフェイス(API)... 17 4.1 C 言語での拡張... 17 4.2 言語の拡張... 17 4.2.1 関数型修飾子... 18 4.2.1.1 device... 18 4.2.1.2 global... 18 4.2.1.3 host... 18 4.2.1.4 制限...エラー! ブックマークが定義されていません 4.2.2 修飾子の変数型... 19 4.2.2.1 device... 19 CUDA Programming Guide Version 1.1 iii

4.2.2.2 constant... 19 4.2.2.3 shared... 19 4.2.2.4 Restrictions...エラー! ブックマークが定義されていません 4.2.3 実行コンフィグレーション...エラー! ブックマークが定義されていません 4.2.4 組み込み変数... 21 4.2.4.1 griddim... 21 4.2.4.2 blockidx... 22 4.2.4.3 blockdim... 22 4.2.4.4 threadidx... 22 4.2.4.5 制限...エラー! ブックマークが定義されていません 4.2.5 NVCC を伴うコンパイル... 22 4.2.5.1 noinline... 22 4.2.5.2 #pragma unroll... 23 4.3 共通ランタイムコンポーネント... 23 4.3.1 組み込みベクター型... 23 4.3.1.1 char1, uchar1, char2, uchar2, char3, uchar3, char4, uchar4, short1, ushort1, short2, ushort2, short3, ushort3, short4, ushort4, int1, uint1, int2, uint2, int3, uint3, int4, uint4, long1, ulong1, long2, ulong2, long3, ulong3, long4, ulong4, float1, float2, float3, float4... 23 4.3.1.2 dim3 型... 23 4.3.2 数学的関数...エラー! ブックマークが定義されていません 4.3.3 時間関数... 24 4.3.4 テクスチャ型... 24 4.3.4.1 テクスチャレファレンスの宣言... 24 4.3.4.2 ランタイムテクスチャ参照属性... 25 4.3.4.3 リニアメモリ対 CUDA 行列によるテクスチャ... 25 4.4 デバイスランタイムコンポーネント... 26 4.4.1 数学関数... 26 4.4.2 同期の関数... 26 4.4.3 型変換関数... 27 4.4.4 型キャスト関数... 27 4.4.5 テクスチャ関数... 27 iv CUDA Programming Guide Version 1.1

4.4.5.1 デバイスメモリからのテクスチャリング... 27 4.4.5.2 CUDA 行列からのテクスチャリング... 28 4.4.6 原子関数... 28 4.5 ホストランタイムコンポーネント...エラー! ブックマークが定義されていません 4.5.1 共通概念... 29 4.5.1.1 デバイス...エラー! ブックマークが定義されていません 4.5.1.2 メモリ...エラー! ブックマークが定義されていません 4.5.1.3 OpenGL 相互運用性... 30 4.5.1.4 Direct3D 相互運用性... 30 4.5.1.5 コンカレント実行の非同期... 31 4.5.2 ランタイム API... 32 4.5.2.1 初期化...エラー! ブックマークが定義されていません 4.5.2.2 デバイス管理... 32 4.5.2.3 メモリ管理... 32 4.5.2.4 ストリーム管理... 34 4.5.2.5 イベント管理... 34 4.5.2.6 テクスチャ参照管理... 35 4.5.2.7 OpenGL 相互運用性... 37 4.5.2.8 Direct3D 相互運用性... 37 4.5.2.9 デバイスエミュレーションモードを使ったデバッグ... 37 4.5.3 ドライバ API... 39 4.5.3.1 初期化...エラー! ブックマークが定義されていません 4.5.3.2 デバイス管理... 39 4.5.3.3 コンテクスト管理...エラー! ブックマークが定義されていません 4.5.3.4 モジュール管理... 40 4.5.3.5 実行制御... 40 4.5.3.6 メモリ管理...エラー! ブックマークが定義されていません 4.5.3.7 ストリーム管理... 42 4.5.3.8 イベント管理... 43 4.5.3.9 テクスチャ参照管理... 44 4.5.3.10 OpenGL 相互運用性... 44 CUDA Programming Guide Version 1.1 v

4.5.3.11 Direct3D 相互運用性... 44 Chapter 5. 性能ガイドライン... 47 5.1 性能命令... 47 5.1.1 命令スループット... 47 5.1.1.1 演算命令... 47 5.1.1.2 フロー命令の制御... 48 5.1.1.3 メモリ命令... 49 5.1.1.4 同期命令...49 5.1.2 メモリ帯域幅... 49 5.1.2.1 グローバルメモリ...エラー! ブックマークが定義されていません 5.1.2.2 定数メモリ... 55 5.1.2.3 テクスチャメモリ... 55 5.1.2.4 シェアードメモリ...エラー! ブックマークが定義されていません 5.1.2.5 レジスタ...エラー! ブックマークが定義されていません 5.2 ブロックあたりのスレッドの数... 62 5.3 ホストとデバイス間のデータ転送... 63 5.4 テクスチャフェッチ対グローバルまたは定数メモリ読出し... 63 5.5 総合的な性能の最適化戦略... 64 Chapter 6. 行列乗算の例... 67 6.1 概要...エラー! ブックマークが定義されていません 6.2 ソースコードのリスト... 69 6.3 ソースコードウォークスルー... 71 6.3.1 Mul()... 71 6.3.2 Muld()... 71 Appendix A. 技術仕様... エラー! ブックマークが定義されていません A.1 一般仕様...エラー! ブックマークが定義されていません A.2 標準浮動小数点... 74 Appendix B. 数学関数... 77 B.1 共通ランタイムコンポーネント... 77 B.2 デバイスランタイムコンポーネント... 80 Appendix C. 原子関数... 83 vi CUDA Programming Guide Version 1.1

C.1 算術関数...エラー! ブックマークが定義されていません C.1.1 atomicadd()... 83 C.1.2 atomicsub()... 83 C.1.3 atomicexch()... 83 C.1.4 atomicmin()... 84 C.1.5 atomicmax()... 84 C.1.6 atomicinc()... 84 C.1.7 atomicdec()... 84 C.1.8 atomiccas()... 84 C.2 ビット単位関数... 85 C.2.1 atomicand()... 85 C.2.2 atomicor()... 85 C.2.3 atomicxor()... 85 Appendix D. ランタイム API 参照... 87 D.1 デバイス管理... 87 D.1.1 cudagetdevicecount()... 87 D.1.2 cudasetdevice()... 87 D.1.3 cudagetdevice()... 87 D.1.4 cudagetdeviceproperties()... 88 D.1.5 cudachoosedevice()... 89 D.2 スレッド管理... 89 D.2.1 cudathreadsynchronize()... 89 D.2.2 cudathreadexit()... 89 D.3 ストリーム管理... 89 D.3.1 cudastreamcreate()... 89 D.3.2 cudastreamquery()... 89 D.3.3 cudastreamsynchronize()... 89 D.3.4 cudastreamdestroy()... 89 D.4 イベント管理...エラー! ブックマークが定義されていません D.4.1 cudaeventcreate()... 90 D.4.2 cudaeventrecord()... 90 CUDA Programming Guide Version 1.1 vii

D.4.3 cudaeventquery()... 90 D.4.4 cudaeventsynchronize()... 90 D.4.5 cudaeventdestroy()... 90 D.4.6 cudaeventelapsedtime()... 90 D.5 メモリ管理...エラー! ブックマークが定義されていません D.5.1 cudamalloc()... 91 D.5.2 cudamallocpitch()... 91 D.5.3 cudafree()... 91 D.5.4 cudamallocarray()... 92 D.5.5 cudafreearray()... 92 D.5.6 cudamallochost()... 92 D.5.7 cudafreehost()... 92 D.5.8 cudamemset()... 92 D.5.9 cudamemset2d()... 92 D.5.10 cudamemcpy()... 93 D.5.11 cudamemcpy2d()... 93 D.5.12 cudamemcpytoarray()... 94 D.5.13 cudamemcpy2dtoarray()... 94 D.5.14 cudamemcpyfromarray()... 95 D.5.15 cudamemcpy2dfromarray()... 95 D.5.16 cudamemcpyarraytoarray()... 96 D.5.17 cudamemcpy2darraytoarray()... 96 D.5.18 cudamemcpytosymbol()... 96 D.5.19 cudamemcpyfromsymbol()... 96 D.5.20 cudagetsymboladdress()... 97 D.5.21 cudagetsymbolsize()... 97 D.6 テクスチャ参照管理... 97 D.6.1 低レベル API... 97 D.6.1.1 cudacreatechanneldesc()... 97 D.6.1.2 cudagetchanneldesc()... 97 D.6.1.3 cudagettexturereference()... 97 viii CUDA Programming Guide Version 1.1

D.6.1.4 cudabindtexture()... 98 D.6.1.5 cudabindtexturetoarray()... 98 D.6.1.6 cudaunbindtexture()... 98 D.6.1.7 cudagettexturealignmentoffset()... 98 D.6.2 高レベル API... 98 D.6.2.1 cudacreatechanneldesc()... 98 D.6.2.2 cudabindtexture()... 99 D.6.2.3 cudabindtexturetoarray()... 99 D.6.2.4 cudaunbindtexture()... 99 D.7 実行制御...エラー! ブックマークが定義されていません D.7.1 cudaconfigurecall()...100 D.7.2 cudalaunch()...100 D.7.3 cudasetupargument()...100 D.8 OpenGL 相互運用性...100 D.8.1 cudaglregisterbufferobject()...100 D.8.2 cudaglmapbufferobject()...101 D.8.3 cudaglunmapbufferobject()...101 D.8.4 cudaglunregisterbufferobject()...101 D.9 Direct3D 相互運用性...101 D.9.1 cudad3d9begin()...101 D.9.2 cudad3d9end()...101 D.9.3 cudad3d9registervertexbuffer()...101 D.9.4 cudad3d9mapvertexbuffer()...101 D.9.5 cudad3d9unmapvertexbuffer()...102 D.9.6 cudad3d9unregistervertexbuffer()...102 D.9.7 cudad3d9getdevice()...102 D.10 エラーの取り扱い...102 D.10.1 cudagetlasterror()...102 D.10.2 cudageterrorstring()...102 Appendix E. ドライバ API 参照...103 E.1 初期化...エラー! ブックマークが定義されていません CUDA Programming Guide Version 1.1 ix

E.1.1 cuinit()...103 E.2 デバイス管理...103 E.2.1 cudevicegetcount()...103 E.2.2 cudeviceget()...103 E.2.3 cudevicegetname()...103 E.2.4 cudevicetotalmem()...104 E.2.5 cudevicecomputecapability()...104 E.2.6 cudevicegetattribute()...104 E.2.7 cudevicegetproperties()...105 E.3 コンテクスト管理...エラー! ブックマークが定義されていません E.3.1 cuctxcreate()...106 E.3.2 cuctxattach()...106 E.3.3 cuctxdetach()...106 E.3.4 cuctxgetdevice()...106 E.3.5 cuctxsynchronize()...106 E.4 モジュール管理...エラー! ブックマークが定義されていません E.4.1 cumoduleload()...106 E.4.2 cumoduleloaddata()...107 E.4.3 cumoduleloadfatbinary()...107 E.4.4 cumoduleunload()...107 E.4.5 cumodulegetfunction()...107 E.4.6 cumodulegetglobal()...107 E.4.7 cumodulegettexref()...108 E.5 ストリーム管理...108 E.5.1 custreamcreate()...108 E.5.2 custreamquery()...108 E.5.3 custreamsynchronize()...108 E.5.4 custreamdestroy()...108 E.6 イベント管理...エラー! ブックマークが定義されていません E.6.1 cueventcreate()...108 E.6.2 cueventrecord()...108 x CUDA Programming Guide Version 1.1

E.6.3 cueventquery()...109 E.6.4 cueventsynchronize()...109 E.6.5 cueventdestroy()...109 E.6.6 cueventelapsedtime()...109 E.7 実行制御...エラー! ブックマークが定義されていません E.7.1 cufuncsetblockshape()...109 E.7.2 cufuncsetsharedsize()...110 E.7.3 cuparamsetsize()...110 E.7.4 cuparamseti()...110 E.7.5 cuparamsetf()...110 E.7.6 cuparamsetv()...110 E.7.7 cuparamsettexref()...110 E.7.8 culaunch()...111 E.7.9 culaunchgrid()...111 E.8 メモリ管理...111 E.8.1 cumemgetinfo()...111 E.8.2 cumemalloc()...111 E.8.3 cumemallocpitch()...111 E.8.4 cumemfree()...112 E.8.5 cumemallochost()...112 E.8.6 cumemfreehost()...112 E.8.7 cumemgetaddressrange()...112 E.8.8 cuarraycreate()...113 E.8.9 cuarraygetdescriptor()...114 E.8.10 cuarraydestroy()...114 E.8.11 cumemset()...114 E.8.12 cumemset2d()...114 E.8.13 cumemcpyhtod()...115 E.8.14 cumemcpydtoh()...115 E.8.15 cumemcpydtod()...115 E.8.16 cumemcpydtoa()...116 CUDA Programming Guide Version 1.1 xi

E.8.17 cumemcpyatod()...116 E.8.18 cumemcpyatoh()...116 E.8.19 cumemcpyhtoa()...116 E.8.20 cumemcpyatoa()...117 E.8.21 cumemcpy2d()...117 E.9 テクスチ参照管理...119 E.9.1 cutexrefcreate()...119 E.9.2 cutexrefdestroy()...119 E.9.3 cutexrefsetarray()...119 E.9.4 cutexrefsetaddress()...120 E.9.5 cutexrefsetformat()...120 E.9.6 cutexrefsetaddressmode()...120 E.9.7 cutexrefsetfiltermode()...120 E.9.8 cutexrefsetflags()...121 E.9.9 cutexrefgetaddress()...121 E.9.10 cutexrefgetarray()...121 E.9.11 cutexrefgetaddressmode()...121 E.9.12 cutexrefgetfiltermode()...121 E.9.13 cutexrefgetformat()...122 E.9.14 cutexrefgetflags()...122 E.10 OpenGL 相互運用性...122 E.10.1 cuglinit()...122 E.10.2 cuglregisterbufferobject()...122 E.10.3 cuglmapbufferobject()...122 E.10.4 cuglunmapbufferobject()...122 E.10.5 cuglunregisterbufferobject()...123 E.11 Direct3D 相互運用性...123 E.11.1 cud3d9begin()...123 E.11.2 cud3d9end()...123 E.11.3 cud3d9registervertexbuffer()...123 E.11.4 cud3d9mapvertexbuffer()...123 xii CUDA Programming Guide Version 1.1

E.11.5 cud3d9unmapvertexbuffer()...123 E.11.6 cud3d9unregistervertexbuffer()...123 E.11.7 cud3d9getdevice()...124 Appendix F. テクスチャフェッチ...125 F.1 直近ポイントのサンプリング...126 F.2 リニアフィルタリング...エラー! ブックマークが定義されていません F.3 参照テーブル...128 CUDA Programming Guide Version 1.1 xiii

図表リスト Figure 1-1. CPUとGPUの浮動小数点演算能力...1 Figure 1-2. GPUはデータ処理用に多くのトランジスタを割当てられる...2 Figure 1-3. CUDAのソフトウェアスタック...3 Figure 1-4. ギャザーとスキャッターのメモリ動作...4 Figure 1-5. シェアードメモリはALUにより緊密にデータを持ち込む...5 Figure 2-1. スレッドの集合...9 Figure 2-2. メモリモデル... 11 Figure 3-1. ハードウェアモデル... 14 Figure 5-1. 結合したグローバルメモリアクセスパターンの例... 52 Figure 5-2. 非結合グローバルメモリパターンの例... 53 Figure 5-3. 非結合グローバルメモリアクセスパターンの例. エラー! ブックマークが定義されていません Figure 5-4. バンク競合のシェアードメモリアクセスパターンの例. エラー! ブックマークが定義されていません Figure 5-5. バンク競合のないシェアードメモリアクセスパターン例... 59 Figure 5-6. バンク競合のシェアードメモリアクセスパターンの例エラー! ブックマークが定義されていません Figure 5-7. ブロードキャストのシェアードメモリ読出しアクセスパターンの例... 61 Figure 6-1. 行列乗法... 68 xiv CUDA Programming Guide Version 1.1

Chapter 1. CUDA の紹介 1.1 データ並列演算デバイスとしてのグラフィックプロセッサユニットわずか数年間の事態でプログラマブルグラフィックプロセッサユニットはFigure 1-1によって示すように明確にコンピューティングの主力製品に発展しましたマルチコアが非常に高いメモリ帯域幅によって動作されている状態で今日のGPUはグラフィックスと非グラフィックス処理の両方のための信じられないリソースを提案します GFLOPS G80GL = Quadro 5600 FX G80 = GeForce 8800 GTX G71 = GeForce 7900 GTX G70 = GeForce 7800 GTX NV40 = GeForce 6800 Ultra NV35 = GeForce FX 5950 Ultra NV30 = GeForce FX 5800 G80GL Figure 1-1. CPUとGPUの浮動小数点演算能力そのような発展の主な背景はGPUが演算集約のために特化されるということです高度並列演算 -まさにグラフィックスレンダリングに対するように- のために設計されたようなものですより多くのトランジスタがデータキャッシュやフロー制御よりも図表 1-2のようにデータ処理用に専念されています CUDA Programming Guide Version 1.1 1

Chapter 1. Introduction to CUDA Control Cache ALU ALU ALU ALU DRAM DRAM CPU GPU Figure 1-2. GPUはデータ処理用に多くのトランジスタを割当てられる GPU のメモリ処理用計算命令に使える面積比率は特にデータ並列演算を表現するアドレスの問題に適合します ( 同一のプログラムは高強度の計算を伴う並列内の多くのデータ要素を実行します) なぜなら同一プログラムは高度で洗練されたフロー制御を必要としない各データ要素を実行します GPUは強力な計算力を有し処理は多くのデータ要素上で実行されますメモリアクセスの遅延は大きなデータキャッシュの代わりの演算能力により表面化しませんデータ並列処理は並列処理スレッドへデータ要素を割り当てます多くのアプリケーションは行列のような大きなデータセットを処理し演算処理向上のためのデータ並列プログラミングモデルを活用できます 3 次元のレンダリング用の大きなピクセルと頂点セットは並列スレッドに割り当てられますレンダリングした画像のポストプロセスビデオエンコード画像スケーリングや立体視のような画像とメディア処理アプリケーションに似ていますパターン認識では画像ブロックとピクセルを並列処理スレッドに割り当てることができますつまり画像レンダリングフィールドの外部の多くのアルゴリズムと処理は一般的な信号処理物理シミュレ-ション財務予測や生物学的計算などをデータ並列処理化により加速されるのですところでかねてより演算能力はGPU 内に潜在的にあったのですが非グラフィックスアプリケーションのために効率的にその演算パワーを扱うのが困難だったのです GPUは初心者への高い学習カーブと不十分なAPIしかない非グラフィックスアプリケーショを使ってしかプログラミングできなかったのです GPU DRAM の一般的読み込み方法として GPU プログラムは DRAM のあらゆる部分からデータ要素を集めることができましたが GPU プログラムは一般的に書き出すkとができませんでした GPU プログラムは如何なる DRAM の部分へもスキャッタできないなどの CPU で容易に利用可能な多くのプログラミングの柔軟性が欠けていましたいくつかのアプリケーションがGPUの演算能力を利用している時に DRAM メモリの帯域幅がボトルネックとなっていましたこのドキュメントはこれらの課題についての直接的な回答をすべく真のジェネリックデータ並列演算デバイスとしての目新しいGPUハードウェアとプログラミングモデルについて記述しています 2 CUDA Programming Guide Version 1.1

Chapter 1. Introduction to CUDA 1.2 CUDA: GPUでの演算のための新しいアーキテクチャ CUDA は Compute Unified Device Architecture の省略でデータ並列処理デバイスとして画像データ割り当てのためのAPIを除く GPU での演算管理をするための新しいハードウェアとソフトウェアアーキテクチャですそれは GeForce8 Series Tesla 及び Quadro で利用可能です( 詳細に関しては Appendix A を参照ください) オペレーティングシステムの多重タスキングメカニズムは同時に稼働するいくつかの CUDA とグラフィックスアプリケーションが GPU へアクセスするのを管理します CUDA ソフトウェアスタックは図表 1-3 のように複数レイヤーから成ります:ハードウェアドライバ API そのランタイムと2つの上位のレイヤーで共通に使う数学ライブラリ CUFFT CUBLAS 等については別のドキュメントに記述していますこのハードウェアは高性能をもたらす軽量なドライバーやランタイムレイヤーをサポートするように設計されてきました CPU Application CUDA Libraries CUDA Runtime CUDA Driver GPU Figure 1-3. CUDAのソフトウェアスタック CUDA API は最小のラーニングカーブのために拡張 C プログラミング言語を包含しています( 第 4 章を参照してください) CUDA Programming Guide Version 1.1 3

Chapter 1. Introduction to CUDA CUDA はより多くの柔軟なプログラミングのために図表 1-4 に示すような一般的なスキャッタやギャザー両方の DRAM メモリアドレッシングを提供しますプログラミングの見地からはまさしく CPU などのように DRAM のどんな位置でもデータを読み書きする転送できます Control Cache ALU ALU ALU... Control Cache ALU ALU ALU... DRAM d 0 d 1 d 2 d 3 d 4 d 5 d 6 d 7 ギャザー Control Cache ALU ALU ALU... Control Cache ALU ALU ALU... DRAM d 0 d 1 d 2 d 3 d 4 d 5 d 6 d 7 スキャッター Figure 1-4. ギャザーとスキャッターのメモリ動作 4 CUDA Programming Guide Version 1.1

Chapter 1. Introduction to CUDA CUDAは互いのシェアーデータを使うスレッドが並列データキャッシュか一般的オンチップシェアードメモリをとても高速に読み書きすることを特色とします( 第 3 章を参照してください) 図表 1-5 に示すようにアプリケーションはオーバーフェッチとラウンドトリップを DRAM 用に最小化しますしたがって DRAM メモリ帯域幅に依存せずに利用することができます Control Cache ALU ALU ALU... Control Cache ALU ALU ALU... DRAM d 0 d 1 d 2 d 3 d 4 d 5 d 6 d 7 シェアードメモリを伴わずに Control Cache ALU ALU ALU... Control Cache ALU ALU ALU... Shared memory Shared memory d 0 d 1 d 2 d 3 d 4 d 5 d 6 d 7 DRAM d 0 d 1 d 2 d 3 d 4 d 5 d 6 d 7 シェアードメモリを伴って Figure 1-5. シェアードメモリはALUにより緊密にデータを持ち込む CUDA Programming Guide Version 1.1 5

Chapter 1. Introduction to CUDA 1.3 本書の構成本書は下記の章から成り立っています第 1 章 CUDA の紹介. 第 2 章プログラミングモデルの概要第 3 章ハードウェアの実装の記述第 4 章 CUDA APIとランタイムの記述第 5 章どのように最高性能を引き出すかのガイダンス第 6 章幾つかの簡単なサンプルコードでのウォーキングスルーによる前章の図解エラー! 参照元が見つかりません幾つかのデバイスの技術仕様を示します Appendix B CUDA でサポートしている数学演算子のリスト Appendix C CUDA でサポートしている原子演算子のリスト Appendix D CUDA ランタイム API レファレンス Appendix E CUDA ドライバーAPIレファレンス Appendix F より詳細なテクスチャフェッチ 6 CUDA Programming Guide Version 1.1

Chapter 2. プログラミングモデル 2.1 高度なマルチスレッドコプロセッサ CUDA を通してプログラムされると GPUは主 CPUのコプロセッサ並列スレッドのとても多い数を実行する演算デバイスとみなしますそれはメイン CPU かホストのコプロセッサとして作動します言い換えればホストで動くアプリケーションが使う並列データ演算集約的な部分は GPU へ任せます幾度も繰り返し実行したアプリケーションの部分でしかし異なるデータ上の独立した1つの機能に分離できたものは幾つかの異なるスレッドのようにこのデバイス上で実行できるその趣旨でデバイスの命令セットにそのような機能をコンパイルしますそしてカーネルと呼ばれる結果としてのプログラムをデバイスにダウンロードしますホストとそのデバイスの両方はそれぞれホストメモリとデバイスメモリと呼ばれたそれ自身の DRAM を維持しますあるデータはデバイスの高性能 Direct Memory Access(DMA)エンジンを活用した API の呼び出しで 1 つの DRAM から他方へデータをコピーすることができます. 2.2 スレッドの集合スレッドの集まりは Section2.2.1 と 2.2.2 で記述しまた図表 2-1 に表しているスレッドブロックのグリッドとして整理されたカーネルを実行します 2.2.1 スレッドブロックスレッドブロックはメモリアクセスを調整するためにある速い共有メモリを通して効率的にデータを共有してそれらの実行を同時にさせることによって同期できるスレッドの集まりですあるものはカーネルで同期ポイントを指定することができますそこでは同期ポイントに達するまでブロックのスレッドがサスペンドしています各スレッドはスレッド ID によって特定されます (それはブロックの中のスレッド番号です) スレッドIDに基づく複雑なアドレッシングを助けるためにアプリケーションは任意にサイズの2か3 次元行列としてブロックを指定でき 2-3のコンポーネントインデックスに代えて使った各スレッドを認識しますサイズ (D x, D y )の 2 次元ブロック用のインデックス(x, y)のスレッドのスレッドidは CUDA Programming Guide Version 1.1 7

Chapter 2. Programming Model (x + y D x )ですしサイズ(D x, D y, D z )の3 次元ブロック用のインデックス(x, y, z)のスレッドのスレッド IDは(x + y D x + z D x D y )です 2.2.2 スレッドブロックのグリッドひとつのブロックが持てる最大のスレッド数には制限がありますところで同じ次数とサイズのブロックの場合は複数のブロックから一つのブロックに集めた同じカーネルで実行しますこれによる一つのカーネル呼び出しで立ち上げることができるスレッドの総数はとても大きいのですこれは減少したスレッドの協力を犠牲にしていますなぜなら同じグリッドからの異なるスレッドのブロック内のスレッドは相互の交信と同期ができないからですこのモデルでは異なる並列能力を伴う様々なデバイス上でリコンパイルなしにカーネルが効率的に動作ができます:そのデバイスにもしほんの少しか膨大な並列能力あるいはその両方があれば通常はグリッドの全てのブロックを連続稼動するかも知れません各ブロックはグリッド内のブロック番号でありそれ自身のブロックIDにより認識されますブロックIDに基づく複雑なアドレッシングを助けるためアプリケーションは任意のサイズの 2 次元行列としての一つのグリッドを特定できますまた 2コンポーネントインデックスに代えて使った各ブロックを認識しますサイズ (D x, D y )の 2 次元ブロック用のインデックス(x, y)のブロックのブロックi Dは (x + y D x )です 8 CUDA Programming Guide Version 1.1

Chapter 2. Programming Model Host Device Grid 1 Kernel 1 Block (0, 0) Block (1, 0) Block (2, 0) Block (0, 1) Block (1, 1) Block (2, 1) Grid 2 Kernel 2 Block (1, 1) Thread (0, 0) Thread (1, 0) Thread (2, 0) Thread (3, 0) Thread (4, 0) Thread (0, 1) Thread (1, 1) Thread (2, 1) Thread (3, 1) Thread (4, 1) Thread (0, 2) Thread (1, 2) Thread (2, 2) Thread (3, 2) Thread (4, 2) ホストはデバイスにカーネル呼び出しの継続を発行しますスレッドの集まりが幾つかのスレッドブロックを一つのグリッドとして整理されたので各カーネルは実行されます Figure 2-1. スレッドの集合 CUDA Programming Guide Version 1.1 9

Chapter 2. Programming Model 2.3 メモリモデルスレッドは図表 2-2 に示したデバイス上のそのデバイスが持つDRAMと下記のメモリ空間を経由したオンチップメモリへアクセスする手段のみを持っています: スレッドレジスタ毎の読み込み/ 書き出しスレッドローカルメモリ毎の読み込み/ 書き出しシェアードメモリブロック毎の読み込み/ 書き出しグローバルメモリグリッド毎の読み込み/ 書き出しコンスタントメモリグリッド毎の読み込み/ 書き出しテクスチャメモリグリッド毎の読み込み/ 書き出しグローバルコンスタント及びテクスチャメモリ空間はホストによる読み込み或いは書き出しができますまたこれらは同じアプリケーションにより永続的にいたるところのカーネルが起動しますグローバルコンスタント及びテクスチャメモリ空間は異なるメモリ使用量のために最適化されます( 図表 5.1.2.1 5.1.2.2 及び 5.1.2.3 を参照下さい) テクスチャメモリはまた幾つかの特定データフォーマット用にデータフィルタリングや異なるアドレッシングモデルを提供します (Section 4.3.4 を参照下さい) 10 CUDA Programming Guide Version 1.1

Chapter 2. Programming Model Grid Block (0, 0) Block (1, 0) Shared Memory Shared Memory Registers Registers Registers Registers Thread (0, 0) Thread (1, 0) Thread (0, 0) Thread (1, 0) Local Memory Local Memory Local Memory Local Memory Global Memory Constant Memory テクスチャ Memory 1つのスレッドは様々な範囲のメモリ空間を経由してそのデバイス自身ののDRAMとオンチップメモリへアクセスします Figure 2-2. メモリモデル l CUDA Programming Guide Version 1.1 11

Chapter 3. ハードウェア実装 3.1 オンチップシェアードメモリ付きSIMDマルチプロセッサのセットデバイスは Figure 3-1 に示すマルチプロセッサのセットとして実装されます各マルチプロセッサは単一命令複データアーキテクチャ(SIMD)を持ちます:あらゆる与えられたクロック周期マルチプロセッサの各プロセッサは同じ指示を実行しますが異なったデータを操作します各マルチプロセッサは次の4つの型のオンチップメモリを持ちます: プロセッサあたりのローカル 32 ビットレジスタを1セット持ちます全てのプロセッサでシェアーされシェアードメモリ空間で実装されるパラレルデータキャッシュまたはシェアードメモリ全てのプロセッサによりシェアーされ定数メモリ空間から読出しが高速になるリードオンリー定数キャッシュでこれはデバイスメモリのリードオンリー区域として実装されています全てのプロセッサによりシェアーされテクスチャメモリ空間から読出しが高速になるリードオンリーテクスチャキャッシュでこれはデバイスメモリのリードオンリー区域として実装されていますローカル及びグローバルメモリ空間はデバイスメモリのリード-ライト区域として実装されキャッシュされません Section2.3 で言及した様々なアドレッシングモードとデータフィルタリングを与えるテクスチャユニットで各マルチプロセッサはテクスチャキャッシュにアクセスします CUDA Programming Guide Version 1.1 13

Chapter 4. Application Programming Interface Device Multiprocessor N Multiprocessor 2 Multiprocessor 1 Shared Memory Registers Processor 1 Registers Processor 2 Registers Processor M Instruction Unit Constant Cache テクスチャ Cache Device Memory オンチップメモリ付 SIMDマルチプロセッサのセット Figure 3-1. ハードウェアモデル 3.2 実行モデルスレッドブロックの1つのグリッドはマルチプロセッサ上の実行用スケジューリングブロックによりデバイス上で実行されます各マルチプロセッサはブロックの集まりの1つのブロックを次々と処理します 1つのブロックはただ1つのマルチプロセッサにより処理されますそしてこれはとても高速なメモリへ読み込むオンチップシェアードメモリ内にシェアードメモリ空間を備えています 14 CUDA Programming Guide Version 1.1

Chapter 4. Application Programming Interface 各マルチプロセッサが 1 つの集まりで幾つのブロックを処理することができるかはマルチプロセッサのレジスタと共有メモリがブロックの集まりの全てのスレッドの中で分けられるのでいくつの 1 スレッドあたりのレジスタとどのくらいの 1 ブロックあたりの共有メモリが与えられたカーネルに必要であるかよります少なくとも 1 ブロックを処理するために十分なレジスタか 1 マルチプロセッサあたり利用可能な共有メモリがないとカーネルは起動しないでしょう 1 つのマルチプロセッサによって 1 つの集まりで処理されるブロックはアクティブであると呼ばれますそれぞれのアクティブなブロックはワープと呼ばれるスレッドの SIMD グループに分けられます:それぞれのこれらのワープはワープサイズと呼ばれるスレッドの同じ数を含んでいてマルチプロセッサにより SIMD 方式で実行されますアクティブワープ- 例えば全てのアクティブブロックからの全てのワープ-はタイムスライスされます:スレッドスケジューラはマルチプロセッサのコンピュータのリソースの使用を最大にするために定期的に 1 ヶ所のワープから別のものに切り替わりますハーフワープはワープの前半か後半のどちらかですブロックがワープに分けられる方法はいつも同じです; 各ワープはスレッド0を含む最初のワープを伴うスレッドIDがインクリメントし連続するスレッドを含みます Section2.2.1 ではスレッドの ID がブロックでどうスレッドのインデックスリストに関連するかを説明しますブロックの中のワープの発行順序は未定義ですがそれらの実行は同時にすることができますグローバルか共有メモリアクセスを調整するために Section2.2.1 で言及しますスレッドブロックのグリッドの中のブロックの発行順序は未定義でありブロック間の同期メカニズムが全くないので同じグリッドの 2 つの異なったブロックからのスレッドはグリッドの実行の間グローバルなメモリを通して安全に互いに通信することができませんもし非アトミック命令がワープの1つ以上のスレッド用のグローバルかシェアードメモリ内の同じロケーションに書き込むワープにより実行された時はそれらの出現は未定義ですが書き込みの1つは成功するように保証されていてロケーションと順序へ出現する順番を書き込みますもしアトミック命令 (Section 1.11.6 を参照下さい)がグローバルメモリ内 (このグローバルメモリとは全て順序付けされ出現したロケーションへワープ各読み込み編集書き込みのうちの 1つ以上のスレッドのためのもの)へのワープ読み込み編集書き込みにより実行されたらそこに出現したその順序は未定義になります 3.3 演算能力デバイスの演算能力はメジャーレビジョン番号とマイナーレビジョン番号により定義されますメジャーレビジョン番号付きデバイスは同じコアアーキテクチャです追補 Aに掲載したデバイスは全て演算能力 1.x です(それらのメジャーレビジョン番号は1ですから) マイナーレビジョン番号はコアアーキテクチャの改訂番号や新機能を含む可能性のあるものに対応しています様々な演算能力の技術仕様は追補 Aに説明ある方式で与えられます CUDA Programming Guide Version 1.1 15

Chapter 4. Application Programming Interface 3.4 マルチデバイス複数のGPUの使用はマルチプルGPUシステム上の稼動アプリケーションによるCUDAデバイスとしてそれらのGPUが同じタイプで動作する時だけ保証されますもしそのシステムがSLIモードの場合は全てのGPUはドライバースタック内の最下位でフューズしますので 1つのGPUしかCUDAデバイスとして使えません各 GPUを独立したものとして見えるためには SLIモードをCUDAのためにコントロールパネルをオフにしておく必要があります 3.5 モードスイッチ GPUはプライマリサーフェスと呼ばれる幾つかのDRAMメモリに専念しますプライマリサーフェスはユーザーによる表示出力している際に表示装置のリフレッシュに使いますユーザーがディスプレイの解像度やビットの深さの切り替えによりディスプレイのモードスイッチを起動した際に(NVIDIA コントロールパネルや Windows のディスプレイコントロールパネルを使って) 相当なメモリをプライマリサーフェスの変更用に必要とします例えばユーザーがディスプレイの解像度を from 1280x1024x32-bit to 1600x1200x32-bit へ変更した場合システムはプライマリサーフェス用に 5.24MB より多くの 7.68MB を専念させなくてはなりません (アンチエイリアシングを伴うフルスクリーングラフィックスアプリケーションの場合は更に多くのディスプレイメモリをプライマリサーフェスに必要とします ) Windows においてフルスクリーン DirectX アプリケーションの起動やコンピュータをロックするための Ctrl+Alt+Del 操作を含むディスプレイモードの切り替えの起動という他のイベントをする場合も同様ですもしモードスイッチがプライマリサーフェス用に必要な相当量のメモリを増加させるならシステムはCUDAアプリケーションに専念しているメモリを奪い合わなければなりませんので結果としてそれらのアプリケーションはクラッシュするかも知れません 16 CUDA Programming Guide Version 1.1

Chapter 4. Application Programming Interface Chapter 4. アフリケーションフロクラミンクインターフェイス(API) 4.1 C 言語での拡張 CUDAプログラミングインターフェイスの目的はユーザーが容易にCに近いプログラミング言語でデバイスによる実行用のプログラミング記述のための比較的簡単なパスを提供することですこれは下記から成り立っています: 最小限のC 言語への拡張セットは Section4.2 に述べています:プログラマはデバイス上で実行するためのソースコードの部分を対象とします; ランタイムライブラリは以下へ分割します: ホストコンポーネント(Section4.5 に述べています)はホストで稼動しホストからの1つ以上の演算デバイスにアクセスし制御する機能を提供します; デバイスコンポーネント(Section4.4.で述べています)はデバイスで稼動しデバイスに特化した機能を提供します; 共通コンポーネント(Section4.3 に述べています)はビルトインベクター型とホストとデバイスコードの両方でサポートしているC 標準ライブラリのサブセットを提供しますこれらは共通ランタイムコンポーネントにより提供された関数でありデバイスで稼動するのにサポートしている C 標準ライブラリからの関数のみに重視されるべきです 4.2 言語の拡張 Cプログラミング言語の拡張は下記の4つです: ホストまたはデバイスで実行するか無関係にさらにホストまたはデバイスから呼び出せるかに関係なく指定する関数型修飾詞 (Section4.2.1); 変数のデバイス上でのメモリロケーションを指定する変数型 (Section4.2.2); CUDA Programming Guide Version 1.1 17

Chapter 4. Application Programming Interface カーネルがホストからのデバイス上でどのように稼動するかを指定する新ディテクティブ(Section4.2.3); グリッドブロックの次数ブロック及びスレッドインデックスの4つの組み込み変数 (Section4.2.4) これらの拡張子を含む各ソースファイルは Section4.2.5 に概略の述べている CUDA コンパイラ nvcc を伴ってコンパイルしなければなりません nvcc の詳細な記述は別のドキュメントで読むことができますこれらの拡張子のそれぞれは以下の Section 毎に制限を記述しています nvcc はこれらの制限の同じ警告上のエラーまたはワーニングを与えるでしょうがそれらのいくつかは発覚できません 4.2.1 関数型修飾子 4.2.1.1 device device 修飾子は次の機能を宣言します: デバイスでの実行デバイスからのみ呼び出し可能 4.2.1.2 global global 修飾子は存在としてのカーネルの機能を宣言しますその機能とは; デバイスでの実行ホストからのみ呼び出し可能 4.2.1.3 host host 修飾子は次の機能を宣言します; デバイスでの実行ホストからのみ呼び出し可能それは host 修飾子のみを伴う機能を宣言するかまたはあらゆる host, device か global 修飾子を伴わないのと等価なものですいずれの場合の機能もホストだけのためにコンパイルされますところで host 修飾子は device 修飾子と組み合わせで使うことができますこの場合の関数はホストとデバイスの両方に対してコンパイルされます 4.2.1.4 制限 device と global 関数は帰納をサポートしません device と global 関数はそれらの本体内の静的変数を宣言できません device と global 関数は引数の変数番号を保有することはできません device 関数はそれらのアドレスを持つことはできません他方で global 関数への関数ポインターはサポートされます 18 CUDA Programming Guide Version 1.1

Chapter 4. Application Programming Interface global と host 修飾子は一緒に使用できません global 関数はボイド復帰型を持っていなければなりません global 関数を呼ぶあらゆるものは Section4.2.3 に述べている実行コンフィギュレーションを指定しなければなりません global 関数を呼ぶものはデバイスが実行の完了を意味する非同期です. global 関数パラメータは現在デバイスへのシェアードメモリを経由して送られ 256 バイトの制限があります 4.2.2 修飾子の変数型 4.2.2.1 device device 修飾子は変数がデバイスに存在することを宣言します他の型の修飾子は変数が属するメモリ空間で更に指定し device を伴って使う際に次の3つの Section で定義しますもしそれらの表示がないなら変数は: グローバルメモリ空間に存在していますアプリケーションのライフタイムを保有していますグリッド内部の全てのスレッドとランタイムライブラリを経由してホストからからアクセスできます 4.2.2.2 constant constant 修飾子は device をオプションとして一緒に使って変数を宣言します: メモリ空間定数に存在していますアプリケーションのライフタイムを保有していますグリッド内部の全てのスレッドとランタイムライブラリを経由してホストからからアクセスできます 4.2.2.3 shared shared 修飾子は device をオプションとして一緒に使って変数を宣言します: スレッドブロックのシェアードメモリ空間に存在しますブロックのライフタイムを保有しますブロック内部の全てのスレッドからのみアクセスできますこれらはスレッドを渡る弛緩順序付けであってもスレッド内部のシェアード変数の完全順次整合性です syncthreads()(section4.4.2)の実行後でのみ見えるように保証した他のスレッドから書き込みます変数が揮発性として宣言でもしない限りコンパイラは読み出しを最適化するのに自由であり前の宣言が満たされる限りシェアードメモリに書き込みます: 変数を次の外部行列のようにシェアードメモリ内で宣言している際に extern shared float shared[]; 行列サイズは起動時に決定しています(Section4.2.3) 全ての変数はメモリの同じアドレスで開始しこの方式で宣言します CUDA Programming Guide Version 1.1 19

Chapter 4. Application Programming Interface 4.2.2.4 制限行列内の変数の配置はオフセットを経由して明示的に管理しなければなりません例えばもしそれが以下の方程式を望んだ場合 short array0[128]; float array1[64]; int array2[256]; ダイナミックに割り当てたシェアードメモリではそれは以下の方法で行列を宣言して初期化するかも知れません extern shared char array[]; device void func() // device or global function { short* array0 = (short*)array; float* array1 = (float*)&array0[128]; int* array2 = (int*)&array1[64]; } これらの修飾子は struct と union メンバーで正式なパラメータでそしてホストで実行する関数内部のローカル変数では許可されません shared と constant 変数は暗黙の静的ストレージを保有します device, shared 及び constant 変数は extern キーワードを使った外部として宣言できません device と constant 変数はファイル有効範囲でのみ許可されます constant 変数はホストランタイム関数を経由してのホストからのみとデバイスから割り当てできません(Section4.5.2.3 と 4.5.3.6) shared 変数はそれらの宣言子の一部として初期化を持つことができません一般的にこれらのあらゆる修飾子がなくともデバイスコードで宣言された自動変数はレジスタにありますまた一方幾つかの場合コンパイラはローカルメモリにそれを置くかも知れませんこれはしばしば余りに多くのレジスタ空間を費やす大きな構造か行列やコンパイラが定数量付きインデックスを決定できない行列を示します ptx アッセンブリコードの検査 (t ptx か-keep 付きコンパイリングにより取得したもの)は ld.local と st.local ニーモニックを使用して変数が宣言されますから最初のコンパイル段階の間 local ニーモニックを使用することでローカルメモリに置かれアクセスできるかどうかを伝えるでしょうもっともそれが対象としたアーキテクチャのために余りに多くのレジスター空間を費やすことが判明したならその後のコンパイル段階はそのまま他の方法を決めるかも知れませんこれはローカルメモリ使用量 (lmem)を報告する--ptxas-options=-v オプションでコンパイルすることによりチェックできますデバイスで実行するコードのポインターはコンパイラがそれらをシェアードメモリ空間をしているか否かに関係なく解決することができグローバルなメモリ空間であるかぎりサポートされますさもなければそれらはグローバルメモリ空間で割り当てるかまたは宣言するメモリを示すだけのために制限されますコード内のグローバルかシェアードメモリに修飾子参照するポインターは大抵は分離の失敗かアプリケーションの終了で未定義の挙動内のデバイス結果を実行したホストかコード内のホストメモリで実行します a device, shared か constant 変数のアドレスで取得したアドレスはデバイスコードでのみ使用することができますその device か constant 変数は 20 CUDA Programming Guide Version 1.1

Chapter 4. Application Programming Interface Section4.5.2.3 で述べている cudagetsymboladdress() 経由して取得したアドレスはホストコードでのみ使用できます 4.2.3 実行コンフィグレーション global 関数を呼ぶすべてのものはそれを呼び出すために実行コンフィグレーションを指定しなければなりません実行コンフィグレーションはデバイスで実行する関数を使うのにグリッドとブロックの次数を定義します同様にや関連するストリーム(Section4.5.1.5 にストリームについて述べています)でもそれは挿入している<<< Dg, Db, Ns, S >>>の関数名から括弧内の引数の間からくる式によって指定されますここで: Dim3(Section4.3.1.2 を参照下さい) 型には Dg があり起動開始ブロックの数と Dg.x * Dg.y が同等なようにグリッドのサイズと次数を指定します Dg.z は未使用です; Dim3(Section4.3.1.2 を参照下さい) 型には Db がありブロック当りのスレッド数と Db.x * Db..y * Db.z が同等なように各ブロックのサイズと次数を指定します; size_t 型には Ns があり静的に割り当てられたメモリに加えるこの呼び出しのためにブロック毎に動的に割り当てるシェアードメモリ内のバイト数を指定しますこの動的に割り当てられたメモリは Section4.2.2.3 に言及している外部行列として宣言した変数の全てによって使用されたものです;Ns は0をデフォルトとするオプション引数です; cudastream_t には S があり関連するストリームを指定します S は0をデフォルトとするオプション引数です宣言された関数の例 global void Func(float* parameter); このように呼び出さなくてはなりません: Func<<< Dg, Db, Ns >>>(parameter); 実行コンフィグレーションのための引数は実関数引数の前に関数引数のように評価され現状ではそれはデバイスへのシェアードメモリ経由でパスされます関数呼び出しはもし Dg か Db が Appendix A.1 にて指定したデバイス用に許された最大サイズより大きいかまたは Ns が静的割り当て関数引数や実行コンフィグレーションに必要なシェアードメモリの容量を差し引いたデバイスで可能なシェアードメモリの最大容量より大きいと失敗します 4.2.4 組み込み変数 4.2.4.1 griddim この変数は dim3 型 (Section4.3.1.2 を参照 )でグリッドの次数を含んでいます CUDA Programming Guide Version 1.1 21

Chapter 4. Application Programming Interface. 4.2.4.2 blockidx 4.2.4.3 blockdim 4.2.4.4 threadidx 4.2.4.5 制限この変数は uint3 型 (Section4.3.1.3 を参照 )でグリッド内部のブロックインデックスを含んでいますこの変数は dim3 型 (Section4.3.1.2 を参照 )でブロックの次数を含んでいますこの変数は uint3 型 (Section4.3.1.3 を参照 )でブロック内部のスレッドインデックスを含んでいますあらゆる組み込み変数のアドレスの取得を許可しませんあらゆる組み込み変数への値の割り当てを許可しません 4.2.5 NVCC を伴うコンパイル nvcc はコンパイルしているCUDAコードの処理を単純にするコンパイラドライバです: 簡単で身近なコマンドラインオプションを提供し異なるコンパイル段階を実装するツールの収集を呼び出すことで実行します nvcc の基本的流れはホストコードからデバイスコードを分離するのとバイナリフォームまたは cubin オブジェクトへコンパイルしているデバイスコードをから成り立ちます生成したホストコードは別のツールを使用してコンパイルした残りか最終コンパイル段階にてホストコンパイラが直接呼び出したオブジェクトコードとしての Cコードとしての出力ですアプリケーションは生成したホストコードを無視するか CUDAドライバ API(Section4.5.3 を参照下さい)を使ったデバイス上の cubin オブジェクトのロードか実行のどちらもできますまたはそれらはグローバルに初期化したデータ行列としての cubin オブジェクトを含んんでいたり必要なCUDAランタイムスタートアップコードからロード及び起動した各コンパイルカーネル (Section4.5.2 を参照下さい)へ Section4.2.3 に述べている実行コンフィグレーション構文の変換を含んで生成したホストコードにリンクすることができます C++の構文ルールによるとコンパイラのフロントエンドは CUDA ソースファイルを処理しますフル C++はホストコード用にサポートされますまた一方 C++ののサブセット C だけはデバイスコードを全てサポートします;C++の基本ブロック内部変数のクラス継承または宣言子などの特定の機能は違います C++ 構文ルールを使用した帰結として無効ポインター( 例 ;malloc()による返し)は型に嵌っていない非無効ポインターへの割り当てができません nvcc の流れの詳細な記述とコマンドオプションはこれ以外のドキュメントで読めます nvcc は以下の Section で説明している2つのコンパイラ指示文で紹介しています 4.2.5.1 noinline デフォルトで device 関数はいつもインラインされています 22 CUDA Programming Guide Version 1.1

Chapter 4. Application Programming Interface noinline 関数修飾子はできれば関数についてどんなインラインのためでなくコンパイラのためならヒントとして使えます関数本体はそれが呼ばれたのと同じファイル内にまだあるに違いありませんコンパイラは noinline 修飾子をポインターパラメータ付き関数用と大きなパラメータリスト付き関数用に引き受けません 4.2.5.2 #pragma unroll デフォルトでコンパイラは既知のトリップカウント付きの小さなループを展開しますすべての与えられたループを展開しながら制御するのに#pragma unroll 命令を使用できますそれはループの直前に置かれなくてはならなくループに対してだけ適用されますその数字はオプションでループを何回展開しなければならないかをという指示することになります例としてこのコードサンプル内で: #pragma unroll 5 for (int i = 0; i < n; ++i) このループは 5 回展開しますそれはプログラマー次第でその展開はプログラムの正当性に影響を与えないでしょう( 上記の例でもし n が 5 より小さい場合はそうかも知れません) #pragma unroll 1 はコンパイラがループを展開するのを防止するでしょうもしトリップカウンターが定数で数値が全く#pragma unroll の後に指定されないならループは展開できさもなければ全く展開できません 4.3 共通ランタイムコンポーネント共通ランタイムコンポーネントはホストとデバイス関数の両方により使用できます 4.3.1 組み込みベクター型 4.3.1.1 char1, uchar1, char2, uchar2, char3, uchar3, char4, uchar4, short1, ushort1, short2, ushort2, short3, ushort3, short4, ushort4, int1, uint1, int2, uint2, int3, uint3, int4, uint4, long1, ulong1, long2, ulong2, long3, ulong3, long4, ulong4, float1, float2, float3, float4 4.3.1.2 dim3 型これらはから基本整数と浮動小数点型から生成されたベクター型ですそれらは構造体で 1 番目から 4 番目のコンポーネントはフィールド x,y,z と w それぞれを経由してアクセスできますこれらは全てフォーム make_<type name>の構造体関数とともに来ます例として int2 make_int2(int x, int y); 値 (x, y)を伴う int2 型のベクターを生成しますこの型は次数を指定するのに使用される uint3 に基づく整数ベクター型です dim3 型の変数を定義する際に不特定の状態で残っているどんなコンポーネントも1に初期化します CUDA Programming Guide Version 1.1 23

Chapter 4. Application Programming Interface 4.3.2 数学的関数デバイスで実行されると Table B-1 には各エラー領域と共に現在サポートしている数学的関数 C/C++ 標準ライブラリの総覧を収めていますホストコードで実行されると与えられた関数は可能ならば C ランタイム実装を使います 4.3.3 時間関数 clock_t clock(); これは各クロック周期で増加されるカウンターの値を返しますカーネルの最初と最後のカウンターを抽出し 2つのサンプルの違いを取得し完全にスレッドを実行したデバイスにより取得したクロックサイクルの数の各スレッドあたりの測定結果を記録しますしかしデバイスで実行したスレッド命令を費やしたクロックサイクルの数ではありません前の数はタイムスライスした最後のスレッドよりも大きいです 4.3.4 テクスチャ型 CUDAはテクスチャメモリにアクセスするグラフィックス用 GPUのテクスチャリングハードウェアのサブセットをサポートしますグローバルメモリの代わりにテクスチャメモリから読み込んだデータは Section5.4 に記述した幾つかの性能利得を得ることができますテクスチャメモリは Section4.4.5 に記述したテクスチャフェッチと呼ばれるデバイス関数を使ってカーネルから読み込みます最初のテクスチャフェッチのパラメータはテクスチャレファレンスと呼ばれるオブジェクトを指定しますテクスチャレファレンスはテクスチャメモリの部分をフェッチするか定義しますそれはホストランタイム関数 (Section4.5.2.6 お呼び 4.5.3.9)を経てテクスチャと呼んでいるメモリのある領域に結合されなければなりませんこれ以前にそれはカーネルにより使用できます幾つかの特殊テクスチャレファレンスは同じテクスチャかメモリ内の重複したテクスチへ結合されるかも知れませんテクスチャレファレンスは幾つかの属性を保有していますそれらの一つはテクスチャがテクスチャ座標を使用する1 次元行列か 2 次元行列として記述するかどうかを 2つのテクスチャを使用することで指定する次元数が調整されます行列の要素はテクスチャエレメントを短縮してテクセルと呼ばれます他の属性はどのように入力座標が割り込まれて処理されたかというのと同様にテクスチャフェッチの入出力データ型を定義します 4.3.4.1 テクスチャレファレンスの宣言幾つかのテクスチャレファレンスの属性は不変でコンパイルする時に分かっていなければならなくそれらはテクスチャレファレンスを宣言した時に指定されますテクスチャレファレンスはテクスチャ型の変数としてファイルスコープで宣言されます: 24 CUDA Programming Guide Version 1.1

Chapter 4. Application Programming Interface テクスチャ<Type, Dim, ReadMode> texref; ここで: Type はテクスチャをフェッチしたときに返されるデータ型です;Type は Section4.3.1.1 に記述している基本的整数浮動小数点型と 1-, 2- 及び 4-コンンポーネントベクター型に制限します; Dim はテクスチャ参照の 1 か2の次数を指定します;Dim はデフォルトを1とするオプション引数です; ReadMode は cudareadmodenormalizedfloat か cudareadmodeelementtype と同等です;もしそれが cudareadmodenormalizerfloat で Type が16ビットか8ビット整数型でその値は最大範囲の符号なし整数型用の[0.0, 1.0]と符号付整数型用の[-1.0, 1.0]にマップされたときに実際に浮動小数点として値を返します; 例えば値 0xff を伴う符号なし8ビットテクスチャ要素を1と読むもしそれが cudareadmodeelementtype なら変換は実行しません ReadMode は cudareadelementtype をデフォルトとするオプション引数です 4.3.4.2 ランタイムテクスチャ参照属性テクスチャ参照の他の属性は易変でホストからホストランタイムのときに変えることができます (ランタイム API については Section4.5.2.6 ドライバーAPI いついては 4.5.3.9) それらはテクスチャ座標が正規化かどうかアドレッシングモード及びテクスチャフィルタリングを以下のように詳細に指定しますデフォルトでテクスチャは[0, N]の範囲内の浮動小数点座標を使って参照されますこのとき N は座標に対応する寸法のテクスチャのサイズです例えばサイズの 64x32 にあるテクスチャは x と y 次数の座標が[0, 63]と[0, 31]に参照されます正規化テクスチャ座標で [0, N]の代わりに[0.0, 1.0]の範囲に座標を指定しますそして同じ 64x32 のテクスチャは x, y 両座標の[0, 1] 範囲内に正規化してアドレスされます正規化テクスチャ座標はもしそれがテクスチャサイズ如何に関係なくテクスチャ座標が望ましいなら幾つかのアプリケーションの要求に自然に適合しますアドレッシングモードはテクスチャ座標が範囲外のときにどうなるかを定義します非正規化テクスチャ座標を使用するとき [0, N] 範囲外のテクスチャ座標はクランプされています値が 0 未満は 0 に設定され N 以上は N-1 に設定されますクランピングはまた正規化テクスチャ座標を使用しているときはデフォルトアドレッシングモードです:0.0 未満か 1.0 を超える値は[0.0, 1.0]の範囲にクランプされます正規化座標としてラップアドレッシングモードも指定されるかも知れませんテクスチャが周期的信号を含むときに通常はラップアドレッシングが使用されますそれはテクスチャ座標の断片的部分だけを使用します例えば 1.25 は 0.25 に -1.25 は 0.75 と同じように扱われるということですリニアテクスチャフィルタリングは浮動小数点データを返すための構成されるテクスチャ用にだけ実行されるかも知れませんそれは隣接のテクセル間の低い精度の補間をします可能になるとテクスチャフェッチ位置を囲むテクセルが読まれテクスチャフェッチのリターン値はテクスチャ座標がテクセルの間で落下したところに基づいた状態で補間されます簡単なリニア補間は一次元テクスチャのために実行されますそしてバイリニアの補間は二次元テクスチャのために実行されます Appendix F はテクスチャフェッチングのより詳細なことを記述しています 4.3.4.3 リニアメモリ対 CUDA 行列によるテクスチャ CUDA Programming Guide Version 1.1 25

Chapter 4. Application Programming Interface テクスチャはリニアメモリか CUDA 行列のどんな領域にあるかもしれません(Section4.5.1.2 を参照下さい) テクスチャはリニアメモリに割り当てられます: 次数 =1の時のみ実行できます: テクスチャフィルタリングはサポートしません; 非正規化整数テクスチャ座標をしたときのみアドレスできます; 前のアドレッシングモードはサポートしません; 範囲外のときにテクスチャアクセスは 0を返しますハードウェアは整列要求にテクスチャベースアドレスで実行しますプログラマから行列要求を抽出するためにこの関数はデバイスメモリ上へテクスチャ参照を拘束しますデバイスメモリにテクスチャ参照を拘束する関数は必要なメモリから読むためにテクスチャフェッチに適用するパスバックされた 1 バイトを戻します CUDA の配分ルーチンで返されたベースポインタはこの整列規制に一致していますそしてアプリケーションは割り当てられたポインタを cudabind テクスチャ()/cuTexRefSetAddress() に通過することによって全体でオフセットを避けることができます 4.4 デバイスランタイムコンポーネントデバイスランタイムコンポーネントはデバイス関数でのみ使用できます 4.4.1 数学関数 Table B-1 の幾つかの関数はそれほど正確ではありませんがより速いバージョンはデバイスランタイムコンポーネントに存在しています; それで ( sin(x)のような)と共に同じ名前を前に置いていますそれらの組み込み関数はそれらの各エラー結合と共に Table B-2 に列記していますコンパイラに存在しているならあらゆる関数にそれほど正確でないカウンターパートにコンパイルさせるオプション(-use_fast_math)があります 4.4.2 関数の同期 void syncthreads(); ブロック内のすべてのスレッドを同期しますすべてのスレッドが一旦このポイントに達すると通常は実行を再開します syncthreads()は同じブロックのスレッドのコミュニケーションを調整するのに使用されますブロックの中のいくつかのスレッドが共有されたかグローバルなメモリの同じアドレスにアクセスするときそれらは潜在的なリード-アフター-ライトライト-アフター-リードまたはライト-アフター- ライトのメモリアクセスの危険性がありますこれらがアクセスする中間のスレッドを連動させることによってこれらのデータ危険を避けることができます syncthreads() は条件が全体のスレッドブロックにわたり完全に同じと評価した時に条件付コードを許可しますさもなければコード実行は故意でない副作用に掛かるかハングを発生しそうです 26 CUDA Programming Guide Version 1.1

Chapter 4. Application Programming Interface 4.4.3 型変換関数以下での関数における接尾語は IEEE-754 丸めモードを示します: rn は round-to-nearest-even のことです rz は round-towards-zero のことです ru は round-up のことです ( 正の無限大へ), rd は round-down のことです( 負の無限大へ). int float2int_[rn,rz,ru,rd](float); 指定した丸めモードを使用して浮動小数点の引数を整数に変換します unsigned int float2uint_[rn,rz,ru,rd](float); 指定した丸めモードを使用して浮動小数点の引数を符号なし整数に変換します float int2float_[rn,rz,ru,rd](int); 指定した丸めモードを使用して整数の引数を浮動小数点に変換します float uint2float_[rn,rz,ru,rd](unsigned int); 指定した丸めモードを使用して符号なし整数の引数を浮動小数点に変換します 4.4.4 型キャスト関数 float int_as_float(int); 値を変更せず整数の引数に浮動小数点の型キャストを実行します例えば int_as_float(0xc0000000)は-2 と等しいです performs a floating-point type cast on the integer argument, leaving the value unchanged. For example, int_as_float(0xc0000000) is equal to -2. int float_as_int(float); 値を変更せず浮動小数点の引数に整数の型キャストを実行します例えば float_as_int(1.0f)は to 0x3f800000 と等しいです 4.4.5 テクスチャ関数 4.4.5.1 デバイスメモリからのテクスチャリングデバイスメモリからのテクスチャリングのときにテクスチャは tex1dfetch() 関数群と共にアクセスされます; 例として: template<class Type> Type tex1dfetch( texture<type, 1, cudareadmodeelementtype> texref, int x); float tex1dfetch( texture<unsigned char, 1, cudareadmodenormalizedfloat> texref, int x); float tex1dfetch( texture<signed char, 1, cudareadmodenormalizedfloat> texref, CUDA Programming Guide Version 1.1 27

Chapter 4. Application Programming Interface int x); float tex1dfetch( texture<unsigned short, 1, cudareadmodenormalizedfloat> texref, int x); float tex1dfetch( texture<signed short, 1, cudareadmodenormalizedfloat> texref, int x); これらの関数はテクスチャ座標 x を使用することでテクスチャ参照 texref に拘束されたリニアメモリの範囲をとって来ますテクスチャフィルタリングとアドレッシングモードは全くサポートされません整数型のためにこれらの関数は整数を 32 ビットの浮動小数点に任意にプロモートするかもしれませんそのうえ上に示された関数 2 と 4 倍はサポートされます; 例えば: float4 tex1dfetch( texture<uchar4, 1, cudareadmodenormalizedfloat> texref, int x); テクスチャ座標 x を使用することでテクスチャ参照 texref に拘束したリニアメモリをとって来ます 4.4.5.2 CUDA 行列からのテクスチャリング CUDA 行列からテクスチャリングするときテクスチャは tex1d() か tex2d() と共にアクセスされます: template<class Type, enum cudatexturereadmode readmode> Type tex1d(texture<type, 1, readmode> texref, float x); template<class Type, enum cudatexturereadmode readmode> Type tex2d(texture<type, 2, readmode> texref, float x, float y); これらの関数はテクスチャ座標 x と y を使用することでテクスチャ参照 texref に縛られた CUDA 行列をとって来ますテクスチャ参照の不変 (コンパイル時 )のそして可変 (ランタイム) の属性の組み合わせは座標がどんな処理がテクスチャフェッチの間で起こるか返し値はテクスチャフェッチにより配信したか読み取るかを決定します (Section 4.3.4.1 と 4.3.4.2 を参照下さい) 4.4.6 原子関数原子関数は演算能力 1.1 のデバイス用でのみ可能ですそれらは Appendix C にリストされています原子関数はグローバルメモリに存在する 1 つの 32 ビットワードの読込み- 編集 - 書込み原子演算子を実行します例えば atomicadd()はグローバルメモリの同じアドレスにある 32 ビットワードを読込み整数をアドしますそして同じアドレスに結果を書込みますその演算子はセンス内の原子で他のスレッドから干渉なく実行することを保証されます言い換えれば演算子が完全になるまで他のどんなスレッドもこのアドレスにアクセスすることができません原子演算子は 32 ビット符号付か符号なし整数を伴うときのみ稼動します 28 CUDA Programming Guide Version 1.1

Chapter 4. Application Programming Interface 4.5 ホストランタイムコンポーネントホストランタイムコンポーネントはホスト関数によってのみ使用できますそれは操作するために下記の関数を提供します: デバイス管理コンテキスト管理メモリ管理コードモジュール管理実行制御テクスチャ参照管理 OpenGL と Direct3D の可搬性それは2つのAPIで構成されます: CUDA driver API と呼ばれている低レベルの API CUDA runtime API と呼ばれている CUDA ドライバ API の上の実装されている高レベルの API それらの API は相互に排他的です:アプリケーションは1つか他方を使用しなければなりません CUDA ランタイムは暗黙の初期化コンテキスト管理及びモジュール管理を提供することによってデバイスコード管理を容易にします Nvcc により生成されたCホストコードは CUDA ランタイムに依存します(Section4.2.5 を参照下さい) そしてアプリケーションは CUDA ランタイム API を使用しなければならないこのコードにリンクするコントラストに於いて CUDA ドライバ API はさらにコードを要求しますこのことはプログラミングやデバッギングには難しいが cubin オブジェクトに対処するだけであるのでより良い管理水準を提供して言語に依存していません (Section4.2.5 を参照下さい) CUDA ドライバーAPI を使用するカーネルを構成して始動するのは特に難しいです明白なファンクションコールが Section4.2.3 で説明された実行構成構文の代わりにある状態で実行構成とカーネルパラメタを指定しなければなりませんからまたデバイスエミュレーション(Section4.5.2.7 を参照下さい)は CUDA ドライバ API では動作しません CUDA ドライバ API は cuda ダイナミックライブラリを経由して配信されそれらの全てのエントリーポイントは cu の接頭語です CUDA ランタイム API は cudart ダイナミックライブラリを経由して配信されそれらの全てのエントリーポイントは cuda の接頭語です 4.5.1 共通概念 4.5.1.1 デバイス両方の API はカーネル実行のためにシステムの上で利用可能なデバイスを列挙するために関数を提供して彼らの特性について問い合わせしそれらの 1 つを選択します(ランタイム API のために Section4.5.2.2 とドライバ API のために Section4.5.3.2 を参照下さい) 幾つかのホストスレッドは同一デバイスでデバイスコードを実行できますしかし設計により 1 つのホストスレッドはデバイスコードを1つのデバイスでしか実行できません結果として複数のホストスレッドが複数のデバイスでデバイスコードを実行するのに必要となりますさらに別のホストスレッドからのランタイムはランタイムを経由して 1 つのホストスレッドで作成されたどんな CUDA リソースも使用することはできません CUDA Programming Guide Version 1.1 29

Chapter 4. Application Programming Interface 4.5.1.2 メモリデバイスメモリはリニアメモリまたは CUDA 行列のいずれかとして割り当てできますリニアメモリは32ビットアドレス空間のデバイスに存在します例えば別々に割り当てられたエンティティーは二分木のポインタ経由でお互いに参照できます CUDA 行列はテクスチャフェッチするために最適化された不透明なメモリレイアウトです (Section4.3.4 を参照下さい) それらは1 次元か2 次元でエレメントの集合ですそれぞれは 1, 2か4のコンポーネントを保有しおそらく符号付か符号なし 8-, 16-または 32 ビット整数 16 ビット( 現在ドライバ API を経由してのみサポートしています)か 32 ビット浮動です CUDA 行列は単にカーネルでテクスチャのフェッチすることで読込み可能であり同じ数の詰まっているコンポーネントでテクスチャ参照に拘束されるだけかもしれませんリニアメモリと CUDA 行列の両方は Section4.5.2.3 及び 4.5.3.6 に記述していているメモリコピー関数経由でホストにより読込み可能で書込み可能ですまたホストランタイムは malloc()によって割り当てられた通常のページ- 可能なホストメモリと対照的に割り当てる関数とフリーページ - 固定ホストメモリ- を提供します(ランタイム API のための SectionD.5.6 及び D.5.7 とドライバ API のための E8.5 及び E8.6 を参照下さい) ページ固定メモリの1つの優位点はもしホストスレッドによるデータ交換を実行するためにのみホストメモリに割り当てられたものがページ固定に割り当てられたらホストメモリとデバイスメモリ間のバンド幅が高いことですページ固定メモリは希少リソースですそれでページ固定されたメモリにおける配分はページ- 可能なメモリにおける配分のずっと前に失敗し始めるでしょうページング用にオペレーティングシステムに利用可能な物理的なメモリの量を減少させることであまりに多くのページ固定メモリを割り当てると総合システム性能は抑えられます 4.5.1.3 OpenGL の相互運用性 OpenGL バッファオブジェクトは CUDA のアドレッシング内にマップされるでしょう CUDA が OpenGL によって記述されたデータを読出すかまたは CUDA が OpenGL で費やされるためにデータを書込むのを可能にするどちらかで Section4.5.2.7 でどのようにランタイム API で実行されるかを記述し Section4.5.3.10 ではドライバ API について説明します 4.5.1.4 Direct3D の相互運用性 Direct3D 9.0 頂点バッファは CUDA のアドレス空間内部へマップされるでしょう Direct3D により記述された DUDA がデータを読出すか Direct3D により費やされるために CUDA がデータを書き込むのを可能のするどちらかで Section4.5.2.8 でどのようにランタイム API で実行されるかを記述し Section4.5.2.8 ではドライバ API について説明します CUDA コンテクストは一度の1つだけの Direct3D デバイスを伴い相互運用するでしょう最初 / 最後の関数を呼び出すことは Section4.5.2.8 及び 4.5.3.11 に記述しています CUDA コンテクストtpDirect3D デバイスは同じ GPU で生成されなければなりませんこれはランタイム API 用の cudad3d9getdevice()(sectiond.9.7 を参照下さい) またはドライバ API 用の cud3d9getdevice()(sectione.11.7 を参照下さい)を使用して Direct3D によって使用されるアダプターに対応する CUDA デバイスについて問い合わせすることで確実にすることができます Direct3D デバイスは D3DCREATE_HARDWARE_VERTEXPROCESSING フラッグ付で生成されなければなりません CUDA 以下を未だサポートしていません 30 CUDA Programming Guide Version 1.1

Chapter 4. Application Programming Interface Direct3D 9.0 以外のバージョン頂点バッファ以外の Direct3D オブジェクトまた Direct3D ドライバと CUDA コンテクストが異なったドライバで Direct3D と CUDA の負荷バランスが相互運用性より好まれる場合に作成されるのを保証するために cudad3d9getdevice() か cud3d9getdevice を使用できます 4.5.1.5 コンカレント実行の非同期ホストとデバイス間のコンカレントの実行を容易にするための幾つかのランタイム関数は非同期です: デバイスが要求されたタスクを完了する前に制御をアプリケーションに返しますそれらは: カーネルは global 関数または cugridlaunch() 及び cugridlaunchasync()を経由して起動します; メモリコピーを実行して Async で接尾される関数 ; デバイスとデバイスの双方向でのメモリコピーを実行する関数 ; メモリをセットする関数 ; また幾つかのデバイスはページ固定したホストメモリとデバイスメモリ間でカーネル実行を伴うコンカレントにコピーを実行できますアプリケーションは CU_DEVICE_ATTRIBUTE_GPU_ OVERLAP 付きの cudevicegetattribute()を呼び出すことでこの機能を問い合わせするでしょう (それぞれ SectionE.2.6 を参照下さい) この機能は現在では cudamallocpitch() (Section4.5.2.3 を参照下さい)か cumemallocpitch()(section4.5.3.6 を参照下さい)を経由して割り当てられた CUDA 行列か 2D 行列にかかわらないメモリコピーのためだけにサポートされますアプリケーションはストリームを経由してコンカレントに管理しますストリームはその命令で実行する関数の順序です他方で異なったストリームは個別の順序外の関数をもう他方かコンカレントに実行するでしょうストリームはストリ-ミングオブジェクトを生成することで定義されストリームパラメータとしてカーネル起動の順序とホストとデバイスの双方向のコピーを指定します Section4.5.2.4 ではこれをランタイム API と共に Section4.5.3.7 ではドライバ API と共にどのように実行したかを記述していますすべての先行関数の後でのみゼロストリームパラメタで指定したあらゆるカーネルの起動メモリのセットまたはメモリーのコピーが始まりますストリームの一部の関数を含み後続でない関数はそれが完了するまで始まりますランタイム API 用の cudastreamquery() 及びドライバ API 用の custreamquery()(sectiond.3.2 及び E.5.2 のそれぞれを参照下さい)はストリーム内の全ての先行関数が完結しているならそれを知るための方法をアプリケーションに提供しますランタイム API 用の cudastreamsynchronize()とドライバ API 用の custreamsynchronize() (SectionE.5.2 及び E.5.3 のそれぞれを参照下さい)はストリーム内の全ての先行関数が完結まで待つランタイムを明示的に強制するための方法を提供しますランタイム API 用の cudathreadsynchronize()とドライバ API 用の cuctxsynchronize() (SectionD.2.1 及び E.3.5 のそれぞれを参照下さい)アプリケーションはストリーム内の全ての先行タスクが完結するまで待つランタイムを強制できます不要なスローダウンを避けるためにタイミング目的や起動の隔離やメモリコピーが失敗しているときにこれらの関数を使用するのは最も良いです CUDA Programming Guide Version 1.1 31

Chapter 4. Application Programming Interface ランタイムもまたデバイスの進捗を密接にモニタしてアプリケーションでそれらのイベントが記録されたときにプログラムとクエリーのあらゆるポイントのイベントを非同期に記録することを送出することで正確なタイミングを実行する方法を提供しますイベントはイベントが完結する前なら全てのタスク(または全ての関数はストリームを与えたもの)を記録します Section4.5.2.5 はランタイム API でそして Section4.5.3.8 はドライバ API でこれをどのように実行するかを記述しています異なるストリームからの2つの関数はもしページ固定したホストメモリの割り当てかデバイスメモリ割り当てかデバイスメモリセットかデバイス/デバイス間の双方向メモリコピーのいずれかはコンカレントに動作できませんまたイベントはそれらの間の記録を発生しますプログラマは CUDA_LAUNCH_BLOCKING 環境変数を1に設定することによりシステムで動作する全ての CUDA アプリケーションのための非同期実行をグローバルに無効にすることができますこの機能をデバッグ目的だけに供給すべきであり決してプロダクションソフトウェアを確実に動作させる方法として使用するべきではありません 4.5.2 ランタイム API 4.5.2.1 初期化ランタイム API 用の明白な初期化関数はありません; ランタイム関数が呼ぶ 1 回目を初期化しますそれはランタイム関数が呼んだタイミングと最初のランタイムへの呼び出しエラーコードを解釈したときを記憶しておく必要があります 4.5.2.2 デバイス管理 SectionD.1 の関数はシステム内のデバイスプレゼントを管理するのに使います cudagetdevicecount() 及び cudagetdeviceproperties() はデバイスを数えてそれらの特性を検索するの方法を提供します: int devicecount; cudagetdevicecount(&devicecount); int device; for (device = 0; device < devicecount; ++device) { cudadeviceprop deviceprop; cudagetdeviceproperties(&deviceprop, device); } cudasetdevice() はホストスレッド関連のデバイスを選択するのに使います cudasetdevice(device); あらゆる global 関数や Appendix D からのどんな関数も呼ばれる前にデバイスを選択しなければなりません cudasetdevice()への明白なコールでこれをしないなら自動的にデバイス 0 を選択しますそしてその後の cudasetdevice()へのどんな明白なコールも効果はないでしょう 4.5.2.3 メモリ管理 SectionD.5 の関数はデバイスメモリの割り当てや開放とメモリがホストとデバイスメモリの間でグローバルなメモリ空間および転送データで宣言されたあらゆる変数のためにも割り当てたアクセスに使われますリニアメモリは cudamalloc() や cudamallocpitch()を使った割り当てや 32 CUDA Programming Guide Version 1.1