Microsoft PowerPoint - CEDEC_PhysX_20_2_J.ppt [Read-Only] [Compatibility Mode]

Size: px

Start display at page:

Download "Microsoft PowerPoint - CEDEC_PhysX_20_2_J.ppt [Read-Only] [Compatibility Mode]"

せせらありはら
4 years ago
Views:

2 PhysX がグリーンになった! 描画と表示動きと接触 Great Visuals - Great Gameplay

3 NVIDIA PhysX is Everywhere 最も採用されている API 150 タイトル以上 25,000 のユーザー登録世界中の開発者パブリッシャー幅広い採用ゲームエンジン (UE3 など ) ミドルウェア (NaturalMotion) DCC ツール次世代ゲーム機と PCの最適化済み

4 PhysX の実績 Epic UE3 Engine 業界最強の総合エンジン : 開発中のタイトルが 200 本以上 PhysX は既に全体的に組み込まれている Emergent Gamebryo #3 の総合エンジン PhysX 組み込みその他 Grin Bioware EA など多くの開発会社の社内エ Grin Bioware,EA など多くの開発会社の社内エンジンでも PhysX を採用!

5 Commitment to ALL Platforms: not just PC PhysX PS3 Wii XBOX 360 NVIDIA が最適化チームを発動して最適化を進行中ソースとバイナリを公開中ソースとバイナリを公開中 Multi-Platform 今後の新機能は変わりなく各機種に対等させる予定

6 各ゲーム機種の採用タイトルの例

7 PhysX PS3 の高速化 PS3 Devnet にて現在配信中 2008 年 9 月 SDKアップグレードー大幅な PS3 向けの最適化機能追加を予定していない PS3 の最適化 SPU によるブロードフェーズの並列処理衝突判定に対するミッドナローフェーズの SPU 上最適化制約の生成とソルバーを分離させる大きなアイランドの分割と SPU による分散処理場合により 60% 以上のパフォーマンスアップが見られている!

8 ナローフェーズの最適化ナローフェーズの組み合わせを全て SPU 化メッシュ用のナローとミッドフェーズを統合させる同じ SPU プログラムでナローフェーズとミッドフェーズを行うミッドフェーズから取得した三角がメモリに残るコンタクトポイントには制限なし

9 PhysX SDK: Pushing the Envelope on Every Platform 一般的な物理機能剛体衝突判定コンストレントリジッドを超える新機能 (beyond the basics) クロス : 敗れるクロス LOD クロス変形可能なメタルクロス : 破壊のオブジェクト植物など流体 : SPH Smart Particles 柔軟体ツール : Max/Maya; COLLADA 対応 ; VisualDebugger; APEX

10 GPU ならではの大量物理 CUDAを用いて Geforce 8シリーズ以上に対等推奨の機能パーティクルシステム柔軟体

11 PhysX 機能大量パーティクル背景や剛体との衝突外力から影響されているパーティクル同士でも影響しあっている

12 大量パーティクルシステムのデモ

13 環境効果

14 ＰｈｙｓＸ機能柔軟体アニメーションに基づいた二次的な動きの自動生成環境との接触環境接触有機的かつリアルな動き

15 柔軟体の作成ワークフローモデルを作成内側の三角を生成モデルとのマッピング

16 デモモンスターの作成モデルを作成内側の三角生成モデルとのマッピング最終結果

17 スケールと作るがキーワードの APEX Game Engine Code Path Optimizations ツールを通してデザイナーがクロスや破壊対象のオブジェクトなどを作る PhyX の上に乗り物理の規模のスケーリングと描画の高速化を簡単にする Emitters Destruction Vegetation Future プラグイン形式のモージュル (LOD Control) APEX Platform PhysX SDK

18 APEX Modules: Destruction( 破壊モジュール ) APEX 破壊モジュール (Destruction) Closedメッシュのオブジェクトの破壊を可能にする破壊の種類やオブジェクトの種類を提供コントロールやスケールのできる破壊作成時と実行時のパラメーターベータは既に UE3 に組み込み

19 APEX Modules: Clothing( 洋服モジュール ) APEX Clothing Module LOD の制御部分的または全体的なシミュレーションションツールサポートスケルトンとのコンストレント作成敗れるクロスいくつかのマテリアルを提供

20 CUDA とは : 並列コンピューティング用の拡大可能なプログラミングモデルと開発環境拡張付きのなじみやすい C/C++ 環境

21 ゲーム開発では CUDA を使って何ができる?? 例えばルート探索コンテンツ作成の高速化ライトマップやシャドーマップの生成大域照明の計算テクスチャーの圧縮や解凍高速なビデオの形式変換や再生等々

22 GPU= 高並列性のプロセッサー GPU は広帯域幅のある専用メモリを持つ数多くのスレッドを並列的に実行できるアプリの中では並列化できる部分をカーネル (kernel) として処理するカーネルはプログラムとなり複数のスレッドによって処理される CUDAのスレッド 80+ 非常に軽い生成時のオーバーヘッドが小さい切り替えが早い GPU が数 1000 もスレッドを同時に実行できる GigaBytes/sec To Data

23 並列的なスレッドの配列 CUDA のカーネルはスレッドの配列として処理されるスレッドはすべて同じプログラムを実行する各スレッドが固有の ID で対象のメモリアドレスを計算しプログラム制御が出来る threadid float x = input[threadid]; float y = func(x); output[threadid] = y;

24 スレッド同士のやり取り結果を共有することによって計算が省けるメモリアクセスの共有によって大幅な帯域幅の節約このスレッド協力が CUDAの主な特徴の一つ共有メモリと同期によりチップ上のスレッドが簡単に協力できる

25 スレッドのブロック : 拡大可能な協力 n 大きなスレッド配列を複数のブロックに分割するブロック内のスレッドが共有メモリによりやり取りするただ違うブロックのスレッドとはやり取りができないップログラムの処理速度がプロセッサーの数に合わせて透明的に拡大できる! Thread Block 0 Thread Block 1 Thread Block N - 1 threadid float x = input[threadid]; float y = func(x); output[threadid] = y; float x = input[threadid]; float y = func(x); output[threadid] = y; float x = input[threadid]; float y = func(x); output[threadid] = y;

26 透明性のある拡大性ハードウェアは自由にスレッドをプロセッサー別にカーネルの処理性能が任意の数のプロセッサーに拡大できる Device A Device B Kernel grid Block 0 Block 1 Block 0 Block 1 Block 2 Block 3 Block 0 Block 1 Block 2 Block 3 Block 4 Block 5 Block 2 Block 3 Block 6 Block 7 Block 4 Block 5 Block 6 Block 7 Block 4 Block 5 Block 6 Block 7

27 簡単な C 拡張で並列処理のプラグラムを組める標準の C コード void global void saxpy_serial(int n, float a, float *x, float *y) { for (int i = 0; i < n; ++i) y[i] = a*x[i] + y[i]; } // シリアルな SAXPY カーネルを実行 saxpy_serial(n, 2.0, x, y); CUDA の C コード saxpy_parallel(int n, float a, float *x, float *y) { int i = blockidx.x*blockdim.x + threadidx.x; if (i < n) y[i] = a*x[i] + y[i]; } // 並列的な SAXPY カーネルを実行 // 256 threads/block int nblocks = (n + 255) / 256; saxpy_parallel<<<nblocks, 256>>>(n, 2.0, x, y);

カーネルのメモリアクセスレジスターグロバルのメモリカーネルの入出力用のデータが格納されるチップ外サイズが大きいキャッシュなし Grid Block (0, 0) Shared Memory Registers Registers Block (0, 0) Shared Memory Registers Registers

28 カーネルのメモリアクセスレジスターグロバルのメモリカーネルの入出力用のデータが格納されるチップ外サイズが大きいキャッシュなし Grid Block (0, 0) Shared Memory Registers Registers Block (0, 0) Shared Memory Registers Registers 共有メモリブロックのスレッドが共有するチップ上サイズがレジスター並みのの高速性 Host Thread (0, 0) Global Memory Thread (1, 0) Thread (0, 0) Thread (1, 0) ホストがグロバルメモリの読み込み書き込みが出来るが共有メモリをアクセスできない NVIDIA Corporation 2008

29 複数コアを持つ GPU の実例 G80 (Nov 2006 出荷 GeForce 8800 GTX) 128 スレッドプロセッサー (16 マルチプロセッサー ) がスレッドを実行する実行可能なスレッド数は12,288までブロック毎の共有メモリ (PBSM) が処理を高速化してくれる Host Input Assembler Thread Execution Manager Thread Processors Thread Processors Thread Processors Thread Processors Thread Processors Thread Processors Thread Processors Thread Processors PBSM PBSM PBSM PBSM PBSM PBSM PBSM PBSM PBSM PBSM PBSM PBSM PBSM PBSM PBSM PBSM Load/store NVIDIA Corporation 2008 Global Memory

30 ゲーム用の CUDA 描画物理 (PhysX) 人工知能画像処理

31 ハードウェアによるグラフィックス高速化の 3 段階 Fixed-Function Function Graphics マルチテクスチャーマルチパスの描画 Programmable Shading 頂点やピクセルシェーダーの登場手続き系テクスチャーの生成複雑な照明など Programmable Graphics 複数の並列的に動いているスレッドが複雑なデータ構造を共有しながらグラフィックスのアルゴリズムを実行する

32 Quadtree のシャドーマップ Adaptive Shadow Maps, Fernando et al., SIGGRAPH 2001 "Resolution Matched Shadow Maps, Aaron E. Lefohn, Shubhabrata Sengupta, John D. Owens. ACM Transactions on Graphics, Oct Courtesy of Aaron Lefohn

33 Octree 3D Paint Store surface color in octree texture 必要性に合わせて解像度を調整する Effective Texture Resolution Courtesy of Aaron Lefohn

34 手続き系のジオメトリのための CUDA CUDA がジオメトリの自動生成を効率的に行える例えば D3D などの頂点バッファーが生成できるジオメトリシェーダーより効率的に生成できる例えばマーチングキューブ法曲面の抽出, GeForce 8800 GTX ではジオメトリシェーダーより5 倍の早い

35 ソートのアルゴリズムすべてのコンピューティング分野ではソートは重大なアルゴリズムの一つ CUDA では最高に早いソートアルゴリズムが実装可能高度なテクニックを可能にするレイトレーシング大域照明 TessellationとSubdivision Surfaces 等々

36 CUDA による流体シミュレーション従来のグリッド型の流体シミュレーションの制限処理が高い形状はボックスの中の流体のみ Smoothed Particle Hydrodynamics (SPH) では流体を大量のパーティクルとしてシミュレートする PhysX が CUDA により採用しているテクニック計算を高速化するため CUDA がグリッドのデーター構造を動的に生成できる GeForce 8800 GTXでは 32Kのパーティクルを60fpsでシミュレートできる

37 A* アルゴリズム多く採用されているルート探索アルゴリズム A* は並列性が低いただ複数のルートを同時に計算することで並列例が高まってくる複数の移動中キャラクター数多くのキャラクターが住むワールドが可能になる

38 画像処理と CUDA 任意のメモリアクセス (scatter) と共有メモリによって効率的な画像処理のアルゴリズムが実装可能になるヒストグラム Convolutions DXT 圧縮 DX10 などのグラフィックス API と比べパフォーマンスが高い

39 ヒストグラムイメージの色の分布適応できるアプリ : イメージ分析, HDR 用トーンマッピング, CPU と比べ CUDA が 8 倍も早い! Reinhard HDR Tonemapping operator HDR in Valve s source engine

40 分離型のカーネル実例 : 画像処理 : ぼかし, シャープ化, 輪郭検出などミップマップの生成 Subsurface scattering ( 表面下散乱 ) 元の画像ぼかしフィルター輪郭検出のフィルター

41 CUDA の画像処理 OpenGL のピクセルシェーダーと比べて 2 倍の画像処理速度共有メモリによってデータ再使用の効率が増加 Separable Image Convolution Performance Mpixels/ s/sec CUDA OpenGL Kernel radius

42 DXT の圧縮オフラインランタイムリアルタイム 256x256 RGB = 256 kb 128x128 RGB = 64 kb 256x256 DXT1 = 32 kb

43 オフラインの DXT 圧縮最高質の圧縮 GeForce 8800 GTX GeForce 8800 GTS GeForce 8600 Intel Core 2 2.9GHz AMD Athlon64 Dual Core 4400 Lena 512x ms 56 ms 155 ms 563 ms 1,251 ms

ピクセル同期を利用した順不同半透明描画 (更新)

ピクセル同期を利用した順不同半透明描画 (更新) ピクセル同期を利用した順不同半透明描画 ( 更新 ) この記事はインテルデベロッパーゾーンに公開されている Order-Independent Transparency Approximation with Pixel Synchronization (Update 2014) の日本語参考訳ですサンプルコードのダウンロード DirectX* SDK (June 2010) への依存性を排除し