投稿日: 2025/03/06 カテゴリー Direct3D, Program

DREDとAftermathのサンプルプログラムを作りました。

こんばんわんわん、Pocolです。

X(旧Tiwtter)でも書いたのですが，DRED(Device Removed Extended Data)のサンプルプログラムを書きました。
サンプルは以下に置いておきました。
https://github.com/ProjectAsura/D3D12Samples/tree/master/D3D12_DRED

DREDなんですが，意外とまともなドキュメントが無いです。ドキュメントあるんですけども，わかりづらい，「この変数の意味は？」みたいな痒いところに手が届くものが無い感じがしますね。（単純に、ドキュメントみて理解できない私がアホなだけなんですが…）
…というわけで，コードを書いてみました。
仕事で使っているのはちゃんと，Push/Popの入れ子とかも考慮しているやつですけども，まぁええでしょ。こまけぇこたぁいいんっすよ。
結局，DREDのサンプルで困るのは「これちゃんとGPUクラッシュ時に出るの？」という所で，故意にGPUクラッシュさせるようなプログラムがなかなかネットで見つからない。
それだと，動作確認に困るので，GPUクラッシュさせるプログラム書きました。
ここ最近，ずっとGPUクラッシュの調査していたので，どうやれば簡単にGPUクラッシュを引き起こせるかなどのノウハウが溜まったので，その知見を活かして書きました。
一番よくある例，実行中にテクスチャを解放しちゃうやつ。これが一番良くあるので，Tボタン押したら，テクスチャをRelease()するようにしました。これで簡単にPageFaultのGPUクラッシュが発生します。TDRはレジストリいじっている場合は，発生までに時間かかるし，意外とGPU側でちゃんと対処してくれちゃったりする場合もあるので，無理やりやろうとしても意外と発生しなかったりします。サクッといかない。
DirectX-Samplesにはhttps://github.com/microsoft/DirectX-Graphics-Samples/tree/master/Tools/DXGIAdapterRemovalSupportTestというやつもあるみたいですが，こっちは触ったことないんで良く分からんっす（詳しい人教えてください）。

…で馬鹿の一つ覚えみたいな感じなんですが，PageFaultを発生できるようになったので，NVIDIA Aftermathのサンプルも書きました。
一応クラッシュ発生時に，ShaderBinaryとShaderPDBを吐き出して，クラッシュログを調査できる感じにしてみました。私のサンプルの場合は，クラッシュが発生している該当シェーダだけを出力するので，そんなにクラッシュダンプ出力に時間はかからないと思います（仕事でつかっているやつは，別の人が既に実装されたやつなんで，全部のシェーダのバイナリとPDBを出力しやがるんで，時間とディスク容量を食いまくって，困るんですよね。直すのは面倒ですし、時間の余裕もないので直す気はサラサラないです）。
サンプルプログラムは下記にあります。
https://github.com/ProjectAsura/D3D12Samples/tree/master/D3D12_NvAftermath
時間があれば，解説書いてもいいんですが，残念ながら，その時間がないのと，若干仕事のせいで鬱気味なのでやる気が起きないっす。（どうせみんなUEやらUnityつかうでしょ？こういう直叩きするひとがもう日本じゃ少数だから，親切に書いてあげても意味が無いんですよ。見る人いないから…）

…というわけで，リリースして精神的に落ち着いたら，のんびりゆったり解説を書こうかなと思います。
まぁ，そんなの期待する人はほぼいないと居ないと思いますが。

投稿日: 2025/03/06 カテゴリー Direct3D, Program

GPUクラッシュが激減した…

こんばんわ、Pocolです。

このところ，仕事でずっとGPUクラッシュを追っていたのですが，なんとなくノウハウが溜まってきました。
ほぼ、毎日のようにGPUクラッシュが何十件もあり，色々な人に手伝ってもらいながら，調査していたんですが，ようやくそれがパッタリ収まりました。

いくつか対策を入れていたのですが，結局どれが効いたのかは正直分からないのですが…
groupsharedで，UINT32_MAXでアクセスして，GPU上でメモリ破壊を発生させるコードがあったので，修正した所，謎に発生していたGPUクラッシュが治まりました。
多分，数年レベルで放置されていたバグなんじゃないかと思います。

NVIDIA AftermathとかでGPUクラッシュダンプを調べても，PageFault，さらにシェーダ情報もでない，挙句の果てにはResourceBarrierを実行するとGPUクラッシュする，定数バッファが壊れて無限ループして，TDRで落ちるなど，過去のクラッシュログを見ても，まったく共通性もなく，しかも結構頻発する。でも全然再現性が無い，手元で全く発生しない…という困ったちゃんで，困りまくった挙句何かないのか？と調べてみたら，NVIDIA Aftermathに，GFSDK_Aftermath_FeatureFlags_EnableShaderErrorReportingというフラグがあるのですが，これを有効にしたところ即クラッシュするようになりました。
何で無効だったのか聞いたんですが，こちらはヘッダファイルにも書かれているようにパフォーマンスペナルティがあるということで，ゲームプレイに支障があるとのことで無効化していたとのことでした。
結局，このフラグを有効にしたところ，先ほど述べたgroupsharedのバグを発見できたのと，他にもクラッシュする原因が見つかって，大いに役立ちました。

今後は，確定で発生しないものはGPU上のメモリ破壊を疑った方が良いという知見が得られました。
基本的にはUAVとかSRVとかのLoad()とかoperator []あたりミスっているんじゃないかって思いがちなんですが，これらはAPIドキュメントを見ると、安全に良しなにしてくれそうなことがあるので，メモリ破壊が発生するのは，CPU上での書き換えか，groupsharedのアクセスミスによる2パターンしかないように思えます（他のパターンがあったら教えてください）。CPU上でのメモリ破壊の可能性がほとんど低いことが分かったなら，groupsharedでの破壊が無いかどうかを調べましょう。
今回のバグは，

groupshared g_Variable[XXX][XXX];
みたいなのが定義されていて，
float temp0 = saturate(XXX);
uint temp1 = temp0 * MAX_VALUE – 1;
uint index = min(temp, MAX_VALUE);
g_Variable[index][XXX] = ….;
っぽいような，謎の計算がされていて(uintをマイナス1する時点でぞわぞわしちゃんですが…）
temp0がゼロになったときに，アボンするみたいケースでした。
よくよく見ると「馬鹿か！」って怒鳴りたくなったっちゃうような，不具合なんですが，変数がごちゃごちゃ定義されていたりとか，ジュニアレベルのエンジニアだとこういうチェックがおざなりになりがちなんで，気を付けた方が良いよ！…という良い事例になりました。

…というわけで，社内でも共有したんですが，この場でも共有してみました。
謎バグに困っている方は，groupsharedで変なことしていないかどうか確認してみると良いかもです。
（※ちなみ1個あったら，他にも絶対あるだろうと思って全シェーダをチェックしてみたのですが，確認した所発生しているのは該当シェーダの1個だけでした。）

投稿日: 2025/02/102025/02/16 カテゴリー Direct3D, Program

パンくずリスト

こんばんわ。Pocolです。

最近ずっとGPUクラッシュ調査の仕事をやっていて疲弊しています。
基本的には，DREDとAftermathを使っています。
DREDを使うと，自動でパンくずリストを作ってくれます。
これ，基本的にはマーカー名とどこまで進んだかを教えてくれます。

GPUクラッシュは大半がTDRかPageFaultだと思います。
TDRでよくあるのは，ループ終了条件を定数バッファのメンバとして渡すパターン。
バッファがどっかで壊れて，終了条件値が想定外の値になって，無限ループ扱いになってクラッシュするとかが良くあります。

で、クラッシュ調査時に欲しいのはどのシェーダ？設定されているのはどのバッファ？中身どうなっている？
…あたりの情報が知りたくなります。

そこで，思いました。
DREDの自動パンくずリストをやめて，自前でカスタムのパンくずリストを作った方が便利なのでは？
そう思ったので，パンくずリストについて調査してみます。

Githubやググったんですが，まともな情報がほぼありません。
FidelityFX Breadcrumbs 1.0が唯一信じられるまともな実装です。
これを調査してみます。
ドキュメントは下記です。
https://gpuopen.com/manuals/fidelityfx_sdk/fidelityfx_sdk-page_techniques_breadcrumbs/

ソースコードは

…あたりを見ると良いです。

基本的な仕組みとしては，
D3D12の場合は，WriteBufferImmedidate() で実行済みフラグを立てていくだけみたいです。
Vulkanの場合は，AMD拡張が使える場合は，vkCmdWriteBufferMaker2AMD()やvkCmdWriteBufferMarkerAMD()，そうでない場合はvkCmdFillBuffer()を使って実行済みフラグを立てていくようです。
現在困っているのは，D3D12環境なので以下D3D12として説明します。

で、WriteBufferImmediate()でどこに書き込むか？なのですが，次のような感じで書き込むメモリを用意するようです。
・VirtualAlloc(nullptr, bufferSize, MEM_COMMIT, PAGE_READWRITE)でメモリを用意。— (A)
・(A)で用意したメモリを引数として，ID3D12Device3::OpenExistingHeapFromAddress() をコールして，ID3D12Heapを取得し，CreatePlacedResource()でID3D12Resourceを生成。 — (B)
・(B)に失敗した場合は，CreateCommittedResource()でID3D12Resourceを生成し，メモリはMap()して取る — (C)
・(B)または(C)にてID3D12Resourceが出来上がるので，ID3D12Resource::GetGPUVirtualAddress()して，BaseAddressを取得 — (D)
・(D)で取得したBaseAddressを開始点として，uint(4byte)で，フラグをWriteBufferImmedidate()で書き込んでいく。

これでコマンドリストに記録されるようになるので，あとはクラッシュした際に(B)または(C)で用意してあるメモリをReadしていきます。これで書き込まれていればフラグが立っていくはずなので，どこまでコマンドが進んだかどうかが判定できます。
マーカー名などのデータはCPU側で管理して，Readしたデータと照合して一致させて，デバッグログなどに表示させれば良いようです。

細かい実装は，FidelityFX Breadcrumbsのソースコードを参照してみてください。

…というわけで，パンくずリストを自前実装する際の基本的な仕組みが分かりました。
あとは，CPU側で管理するデータをリッチにしていけば，色々とデータが取れそうです。

まずは、これらの情報を元にカスタムパンくずリストの実装を始めてみようかなと思いました。
そんなわけで、パンくずリストの話でした。
もし、ノウハウを色々とお持ちの方は是非教えてください。

———————
同僚の方にノウハウを教えてもらいました。
メモリが直接見えるコンソール機では，WriteBufferImmedidate()に対応するような命令が無いことが多く，その場合はタイムスタンプを使って，コマンドがどこまで進んだかを調べると良いそうです。
これは確かに良いなと思いました。

投稿日: 2024/11/19 カテゴリー Direct3D

Direct3D 12 ゲームグラフィックス実践ガイド増刷決定！！

こんにちわ。Pocolです。
技術評論社様より販売させていただいております『Direct3D 12 ゲームグラフィックス実践ガイド』ですが，おかげさまで増刷が決定しました！

Uneral EngineやUnity等が台頭する時代に逆行する内容の書籍なので，すぐに絶版するのではないか？という不安。
また，DirectX12の魔導書なども既に発売されていて，私の書籍など見向きもされないのではないか？
発売しても売れるのだろうか，そもそも買おうとすら思ってもらえないのではないか？
…など色々な不安を抱えながら，なんとか発売までたどり着いた書籍です。

この本は本当にいろいろな方にご迷惑をお掛けしながら，何とか出せた書籍ですので，増刷が決定したと連絡を受けて嬉しかったです。
本当に皆様のおかげです。本当にありがとうございます。

ただ正直，もっと批判とか苦情に近い意見が多いんだろうなと覚悟はしていたのですが，想像していたよりも少なく，また良かったという意見も全くない状態でして，著者としては書いてよかったのか，書いて悪かったのかが何にも分からない。受け入れられているのか，そうでもないのか判断に困るという状態です。
分かりづらいところがあれば，SNS等で遠慮なく書いていただきたいですし，逆にダメなところは今後の執筆に活かせるチャンスとなるので，忌憚のないご意見を書いていただけると幸いです。また，もっと書いて欲しいものとかあるのであれば，応援の意味を込めて「良かったよ！」など肯定的な意見を頂けると，励みになります。肯定的な意見が無ければ，「これはもう書かないほうがいいな」という執筆を辞める決断にもなってしまいますので，応援していただけるのであれば，応援の声も頂けるとありがたいです。

書籍のほうですが，12月ころから増刷版が市場流通する見込みと伺っておりますので，現在手に入れられていない方はもうしばらくお待ちいただければと思います。
今後ともDirect3D 12ゲームグラフィックス実践ガイドをよろしくお願いいたします。

投稿日: 2024/09/222024/09/22 カテゴリー Direct3D, Program

タイル分類化による最適化(1)

こんちゃわ。Pocolです。
相も変わらず最適化でヒーヒーいっています。

ライティングシェーダって複数のマテリアルをサポートするとために，大体Uber Shaderになると思うのですが…
それだとやっぱりswtich-caseなどの分岐で重くなりがちです。
分岐を除くと，占有率の改善がみられ，速くなったりすることがあります。
そのため「分岐を無くそう！」というのが今回のネタで，それを実現するための資料について紹介します。

Deferred Lighting in Uncharted 4

まず，1つ目は「Deferred Lighting in Uncharted 4」です。
これはSIGGRAPH 2016のAdvances in Real-Time Rendering Courseで発表されています。
資料は下記からダウンロードできます。
https://advances.realtimerendering.com/s2016/index.html
もう8年前の資料なんですね。びっくり！

ディファードシェーディングすぐに肥大化します。
スキン，布，植物，メタル，髪など…をサポートする必要があります。すべてにライトタイプについて言及はしません。

マテリアル”ID”テクスチャを保存します。
– 実際のマテリアルIDではありません。単にシェーダの使用されるシェーダ機能のビットマスクです。
– 12bitを8bitへ圧縮（機能の相互排他性を考慮)

・各16×16タイルについて、タイル全体のマテリアルマスクを使用してルックアップテーブルにインデックスを付けます。
・ルックアップテーブルは事前に計算されています。タイル内のすべての機能をサポートする、可能な限りシンプルなシェーダーを保持します。

・アトミックにタイル座標を、そのシェーダーがライティングするタイルのリストにプッシュします。
・アトミック整数は dispatchIndirect 引数バッファのディスパッチカウントにもなります。

・既に大きな改善です。
・類似したテクニックは[1]で使用されています。
[1] SPU-Based Deferred Shading in Battlefield 3, http://www.dice.se/news/spu-based-deferred-shading-battlefield-3-playstation-3/

・タイル内のすべてのピクセルが同じマテリアルマスクを持つ場合に使用される、事前に計算されたもう1つのテーブル、「ブランチレス」のpermutationテーブルを作成します。
・クラス分けの際にその条件をチェックし、適切なテーブルを使用します。
・分岐をなくすだけでなく、グローバルなコンパイラ最適化の機会を開きます。

・最も悪い場合である高価なカット―シーンにおけるパフォーマンス改善
ー 4.0ms 最適化無し(“uber shader”)
ー 3.4ms (-15%) 最も良いシェーダを選択することによる
ー 2.7ms (-20%, -30% 全体的に) ブランチレスシェーダを使用することによる
・平均して、ブランチレス・シェーダーは、わずかなコストで、さらに10～20％の改善をもたらします。一方、最適なシェーダーを選ぶと、平均して20～30％の改善が得られます。

・基本性能に影響を与えることなく、マテリアルの複雑さやバリエーションを持たせることができます。
　ー1つのシェーダー（例えばシルクシェーダー）に複雑さを加えても、ゲームの他の部分には影響しません。
・インターフェイスはクリーンかつ透過的に実装されています。
　ー何度か繰り返した後
・ボーナス：分類コンピュートシェーダーは非同期コンピュートで実行され、ランタイムにはほとんど影響しません。

・システムをさらに進化させることができる。
　ーライトタイプに基づいて、異なるコンピュートシェーダーをディスパッチすることもできる。少数派のライトタイプは、複雑さとコストの大部分を追加します。
・イテレーションは難しい
　ー本当に1ビットの価値を学ぶ。
　ー最終的には良いシステムに到達した。
・よりシンプルなものは常に良いです。わずかな性能向上のために、ある機能の犠牲を避けられたと思います。

該当スライドは以上です。
上記で述べられているように，タイルごとに必要なシェーダを分類分けを行います。
非同期コンピュートで実行し，処理時間を隠蔽します。
Uncharted 4では16×16ピクセルのタイルにして，分類分けを実行し，groupId.xを下位16ビット，group.yを上位16ビットとして32bitにパッキングし，バッファに格納します。
同時に，Shader Permutationごとにカウンタをアトミックにインクリメントしますし，dispatchのカウントバッファとして利用します。
こうすることで，必要な数だけコンピュートシェーダを起動することができます。

Grappling With Performance: Rendering Optimization Strategies In Rumbleverse

つづいて，”Grappling With Performance: Rendering Optimization Strategies In Rumbleverse”という資料で，GDC 2023で発表された資料です。
こちらは昨年なので，比較的に最近の資料ですね。
下記に資料がアップされています。
https://gdcvault.com/play/1028790/Grappling-with-Performance-Rendering-Optimization

こちらはライティングではなくReflectionとSubsurfaceが重いという話に焦点が当てられています。

・オリジナルアイデア：タイル分類を使用することで、リフレクションを適用する際の占有率を向上させます。
・Ramy EI Garawanyのプレゼンテーション：Deferred Lighting in Uncharted 4にインスパイアされています。
・アルゴリズム：
1. G-Buffer解析します。
2. マテリアルプロパティに基づいてタイルのリストを構築する。
3. 異なるshader permutations + DispatchIndirect を用いてそれぞれ描画します。

リフレクションに費やされる重い時間は、ここでも同じように最適化できると思いました。8×8のピクセルグループのGバッファプロパティを見て、存在するマテリアルに基づいてリストを構築するタイル分類シェーダを書きます。そして、各リストを DispatchIndirect を使って、各ディスパッチに異なるshader permutationsをバウンドしてレンダリングします。

例えば、このフレームでは、すべてデフォルトでライティングしているピクセルや、両面フォリッジでライティングしているピクセルをはっきりと見ることができます。

そしてここで、実際のタイル分類の視覚化を見ることができます。緑のタイルはデフォルトのライティング、青はすべてのフォリッジ、そして赤は「複雑」でフルシェーダーを実行するシェーディングパスを含んでいます。

しかし、この処理で最も重要だったのは、このタイルまでで、タイルは完全にカリングされ、実行時間に最も大きな影響を与えました。このことから、タイルの分類をSSR＋SSSからのカリングワークロードに対しても使用し、分類を実行するコストをレンダリングの複数のステップで共有する方法について考えるようになりました。

最速のウェイブフロントは、決して起動しないウェイブフロントであることを忘れないでください！

すべてのパスからライティングのないタイルをカリングし、すべてのピクセルがSSRトレースをトリガーするには粗すぎるかどうかの分類を追加し、スキンマテリアルがないタイルのSSSをスキップし、クリアする必要がありますが，完全なSSSセットアップを必要としないタイルの簡略化クリアを実行します。

Tile Classifyシェーダーのコードで何が起こっているかを少し見てみましょう。分類は8×8タイルで行われますが、サブサーフェススキャッタリングは半分の解像度で行われるため、各グループは16×16のエリアをカバーします。UE4 の GetScreenSpaceDataUnit 関数で gbuffer プロパティをサンプリングした後、wave ops を使用して各 8×8 タイルのビットマスクをマージします。

コードでは、UE4シェーダーAPIコマンドの WaveAllBitOr と WaveAllBitAnd で起こっていることがわかります。これらのウェーブ操作の後、ウェーブフロントの各スレッドは MergedResult に同じマスク値を保持します。

ウェーブ操作を使用する利点の1つは、コンパイラがMergedResultがwave全体で均一であることを知っているため、waveコマンドに続くロジックがすべてスカラーALUになることです。

次に、ウェーブ全体にわたってMergedResultに保持されているビットに基づいてタイルのshader permutationが選択され、結果が最初のスレッドによって書き込まれますinterlocekdされた加算がカウントで発生し、タイル位置バッファにマップされるタイルの一意のインデックスを取得します。タイル位置バッファは、画面上の特定のタイルのピクセル位置を保持し、適用シェーダーで各タイルのピクセル位置を再構築するために使用されます。

なお、8×8タイルを選んだのは、GCNで1ウェーブフロント（64スレッド）のサイズだからです。アンチャーテッド4では16×16タイルを使用し、タイルリストに必要なメモリを25%削減した。タイルロケーションリストは、最大タイル数*permutation数に等しいメモリを必要とします。8×8タイルは、高価なマテリアルパスの境界をより厳しくすることができます。私が8×8を選んだのは、permutation数がより限られているからでもあります。たとえば、フォリッジを含むタイルのパスを追加してみたり、default litしているタイルのパスを追加してみたり。

現在、10個のシェーダーパーミュテーションがあり、その結果、1080の8×8タイルで1.296MBのタイルロケーションバッファになります。ハーフ解像度タイルリストに過剰に割り当てなければ48kbを取り戻すことができるはずですが、メモリのほとんどはSSR+Reflection Applyに使用される8つのpermuationから来ています。

uint bAnySSSProfile = 0;
 
// loop over each 8x8 tile within the 16x16 pixel area
uint2 PixelOffsets[4] = { uint2(0, 0), uint2(1, 0), uint2(0, 1), uint2(1, 1) };
UNROLL
for(int i=0; i<4; ++i)
{
     uint2 PixelPos = (DispatchThreadId.xy * 2 + ViewDimensions.xy);
     FScreenSpaceData ScreenSpaceData = GetScreenSpaceDataUint(PixelPos + (PixelOffsets[i] * 8));
     FGBufferData InGBufferData = ScreenSpaceData.GBuffer;
 
     uint bIsDefaultLit = (InGBufferData.ShadingModelID == SHADINGMODELID_DEFAULT_LIT) ? 1 : 0;
     uint bIsFoliageLit = (InGBufferData.ShadingModelID == SHADINGMODELID_TWOSIDED_FOLIAGE) ? 1 : 0;
     uint bIsComplexLit = (InGBufferData.ShadingModelID > SHADINGMODELID_DEFAULT_LIT) ? 1 : 0;
     uint bIsSSSProfile = UseSubsurfaceProfile(InGBufferData.ShadingModelID) ? 1 : 0;
 
     float Roughness = InGBufferData.Roughness;
     float RoughnessFade = GetRoughnessFade(Roughness);
     uint bSkipSSR = (RoughnessFade <= 0.0 || InGBufferData.ShadingModelID == SHADIGNMODELID_UNLIT) && InGBufferData.ShadingModelID != SHADINGMODELID_CLEAR_COAT;
 
     // OR results
     uint MergedResult = (bIsSSSProfile << 2) | (bIsComplexList << 1) | bIsDefaultLit;
     MergedResult = WaveAllBitOr(MergedResult);
     uint bAnyDefaultLit = MergedResult & (1 << 0);
     uint bAnyComplexLit = MergedResult & (1 << 1);
     bAnySSSProfile = bAnySSSProfile | (MergedResult & (1 << 2));
 
     // AND result.
     MergedResult = (bSkipSSR << 2) | (bIsFoliageList << 1) | bIsDefaultLit;
     MergedResult = WaveAllBitAnd(MergedResult);
     uint bAllDefaultLit = MergedResult & (1 << 0);
     uint bAllFoliageLit = MergedResult & (1 << 1);
     uint bAllSkipSSR = MergedResult & (1 << 2);
 
     // select which permutation
     uint PermutationIndex = NUM_PREMUTATIONS;
     if (bAllFliageList)
     {
         PermutationIndex = 4;
     }
     else if (bAllDefaultLit)
     {
         PermutationIndex = 6;
     }
     else if (bAllComplexLit)
     {
         PermutationIndex = 0;    
     }
     else if (bAnyDefaultLit)
     {
         PermutationIndex = 2;
     }
 
     // odd half of permutations lacks SSR completely
     if (bAllSkipSSR)
     {
         PermutationIndex += 1;
     }
 
     // write out the 8x8 data
     // first thread does atomic increment and write, fully unlit tiles are skipped entirely
     if (GroupIndex == 0 && PermutationIndex < NUM_PERMUTATIONS)
     {
         uint TileIndex;
         InterlockedAdd(RWTileDispatchCounts[PermutationIndex * 3], 1, TileIndex);
 
         uint TileLocationID = TileIndex + (PermutationIndex * NumTiles);
         uint2 TileLocation = (GroupId * 2) + PixelOffsets[i];
         RWTileLocationsBuffer[TileLocationID] = TileLocation.x | (TileLocation.y << 16);
     }
  
     // SSS permutations go beyond the end of the normal reflection tile permutations
     uint SSSPermutationIndex = NUM_PERMUATIONS + 1;
     if (bAnySSSProfile)

それは注目する価値があります – このシェーダの本当に素晴らしい点の1つは、GBufferプロパティをサンプリングするこれらの呼び出しがすべて1つのテクスチャ読み取りにマップされることです。Epicは便利なことに、すべての情報を1つのGBufferターゲットに既にパックしています。このターゲットには、ラフネスとマテリアルIDの両方が保持されています。

Razorに戻って、この分類シェーダーの実行コストを見てみましょう。ベースPS4で1080pの場合、0.18ミリ秒と控えめで、デカールがGBufferを変更し終わるとすぐに実行できます。

この分類処理は、非同期コンピュートを使用したシャドウ深度レンダリングと非常にうまく重なり、ここでは、マスクされたマテリアルのピクセルシェーダーウェイブが実行される前に、いくつかの頂点シェーディング処理と重なっているのがわかります。これはフレームに依存しますが、一般的に非同期で実行することでフレーム時間が約0.1ミリ秒短縮され、PS4では約0.08ミリ秒のコストになります。

適用ステップのパフォーマンスを確認する前に、環境ライティングの適用に適用するコンピュートシェーダだけを見てみましょう。これは元の実装のフルスクリーンピクセルシェーディングパスにすぎず、このコンピュートシェーダーパスは、さまざまなshader permutationを持つDispatchIndirectの繰り返し呼び出しを使用して実行されます。

シェーダは、GroupIdを使用してタイルロケーションバッファを検索し、GroupThreadIdに基づいて個々のピクセル位置にアンパックすることによって始まります。GBuffer が読み込まれた後、ShadingModelID が上書きされることで、オプティマイザがshader permuationに基づいて定義されたプリプロセッサマクロに基づいてデッドコードの除去を実行することができます。

// compute version of reflection and skylighting for dispatching tiles classified by shader featuress needed
[numthreads(8, 8, 1)]
void ReflectionEnvironmentSkyLightingCS(
    uint3 GroupId : SV_GroupId,
    uint3 DispatchThreadId : SV_DispatchThreadID, // DispatchThreadId = GroupId * int2(dimx, dimy) + GroupThreadId
    uint3 GroupThreadId : SV_GroupThreadID, // 0 ... THREADGROUP_SIZEX 0... THREADGROUP_SIZEY
    uint GroupIndex : SV_GroupIndex) // SV_GroupIndex = SV_GroupThreadID.z * dimx * dimy + SV_GroupThreadID.y * dimx + SV_GroupThreadId.x
{
    // lookup into tile data with gorup ID
    uint TileLocationData = TileLocationBuffer[GroupId.x + TILE_PERMUTATION * NumTiles];
    // unpack tile location
    uint2 PixelPos = 0;
    PixelPos.x = (TileLocationData & 0xFFFF) * 8 + GroupThreadId.x;
    PixelPos.y = (TileLocationData >> 16) * 8 + GroupThreadId.y;
    PixelPos += ViewDimensions.xy;
 
    float3 UVAndScreenPos;
    UVAndScreenPos.xy = (float2(PixelPos.xy + .5f) / (ViewDimensions.zw - ViewDimensions.xy);
    UVAndScreenPos.zw = float2(2.0f, -2.0f) * UVANdScreenPos.xy + float2(-1.0f, 1.0f);
 
    float4 SvPosition = float2(PixelPos.x, PixelPos.y, 0.f, 1.f);
    float2 BufferUV = UVAndScreenPos.xy;
    float2 ScreenPosition = UVAndScreenPos.zw;
 
    // Sample scene textures.
    FGBufferData GBuffer = GetGBufferDataFromSceneTextures(BufferUV);
 
    // Sample the ambient occlusion that is dynamically generated every frame.
    float AmbientOcclusion = AmbientOcclusionTexture.SampleLevel(AmbientOcclusionSampler, BufferUV, 0).r;
 
    // override GBuffer Data if all pixels have same type
#if ALL_DEFAULT_LIGHTING
    GBuffer.ShadingModelID = SHADINGMODELID_DEFAULT_LIT;
#elif ALL_FOLIAGE_LIGHTING
    GBuffer.ShadingModelID = SHADINGMODELID_TWOSIDED_FOLIAGE+
#elif !HAS_COMPLEX_LIGHTING
    // if no complex lighting pixels we can do this clamp as a hint that everything is either unlit or default lit
    GBuffer.ShadingModelID = clamp(SHADINGMODELID_UNLIT, SHADINGMODELID_DEFAULT_LIT, GBuffer.ShadingModelID);
#endif

では、この0.08ミリ秒が、SSR、反射環境、SSSの適用において何を意味するのかを見ていく必要があります。これが、以前お見せしたシェーディングのオリジナルシーケンスです。

そして，これが我々の新しいフレームです。

ここでは、Tiled Reflection適用シェーダーが1.08msで、0.13ms向上しています。このメリットの約半分は、このフレームでスカイピクセルをカリングしたことによるものなので、スカイピクセルのないフレームではあまり意味がありません。ここで私が指摘したい1つのマイクロ最適化は、最初のバリアの後に、占有率の低い遅いウェーブを最初に並べ、最後に最も速いウェーブを並べるということです。これは、占有率の低いウェーブが、より多くのレジスタが使用可能になるのを待っているためだと思います。また、稼働率の低いウェーブほど稼働時間が長くなる傾向があるため、最速のバッチを最後に置くことで、次のバリアまでに仕事がすぐになくなるようにしています。

TiledReflectionの適用がわずかな利益を得ているのに対し、Screen Space Reflectionsは逆に実に大きな利益を得ています。0.3ms向上していますが、これはDFAOの履歴更新でウェーブがうまく重なっているためで、実際には控えめな改善です。これは、ウェーブがDFAOの履歴更新とうまく重なるようになったためです。これらは別々のバッファに書き込まれ、両方とも反射の適用に送られるため、バリアは必要ありません。SSRを使ったこれらの結果は、これが価値ある最適化になるという確信を最初に与えてくれました。

そして反射を適用した後のサブサーフェスも、0.58msと大幅に改善されています。

ここでは、セットアップとタイルクリアが実にきれいに重なり、タイルクリアはフルセットアップシェーダーよりもはるかに短いウェーブを持っているのがわかる。ブラーステップは純正のタイル分類化と同様で、スキンのあるタイルだけが実行されるため、再結合は非常に高速です。

さて、ここまで説明したところで……このパスが以前はどうだったのか、もう一度思い出しましょう。

そして結果に戻りましょう。これらのパスにより、合計で～1msの節約になりますが、これらの利点はシーンの構図によって異なるため、分類コストを差し引くと、このショットでは合計0.92msになります。

おわりに

今回は，最適化ネタの一つしてタイル分類化の資料を紹介してみました。
ライティング・SSR・Subsurfaceあたりにも適用できるので，かなり最適化に効きそうです。実際にPS4で1ms程度の改善があるという実績があるのも良いですね。
最近だとUE5のNaniteによる描画とかでも使われていますよね。
実装自体は，Wave64モードにしてタイルサイズを8×8にしてWave組み込み命令を駆使するのが個人的には妥当な気がします。
次回は，実装方法について紹介できるといいなと思っています。
他にもいい資料をご存じの方は，是非コメント等でご紹介ください。

投稿日: 2024/09/16 カテゴリー Direct3D, Program

アルファテストの改良

こんばんみん。
Pocolです。

ネットで記事を漁っていたら，アルファテストの品質向上の手法についての記事を見つけました。
https://asawicki.info/articles/alpha_test.php5

以前ゲーム開発をしていた際に，キャラクタの髪の毛や動物の毛周りで困ることがあったので，ハッシュ化アルファテストなどを試してみたのですが，結構ちらつきがやっぱりきになっちゃうなーと思っていましたし，意外と計算量多いんですよね。もっと手軽でそれっぽい方法無いかなーって常々思っていたのですが，記事で紹介している手法はかなりシンプルなので，個人的には「これでよくね？」って感じています。
アルファ値を次のように変えるのと，事前準備としてPhotoShopなどでSolidifyフィルタを使用してテクスチャエッジ部分の色を引き延ばしてテクスチャを作成しておけばよいみたいです。

float alphaNew = max(alpha, (1.0/3/0) * alpha + (2.0/3.0) * threshold);
if (alphaNew < threshold)
    discard;

投稿日: 2024/09/16 カテゴリー Direct3D, Program

Wave組み込み命令トリック

こんばんわ。
Pocolです。

Angry Tomato!さんという方が，“Compute shader wave intinsics tricks”
という記事を書いているので紹介です。
この記事では，以下のテクニックを紹介しています。

Branch optimization
Calculate on one lane, read on all
Serialization of Writing Data
Scalarization
Multiple wave parallelization
Indirect dispatch thread group count calculation
Dividing the work between lanes

非常に面白い内容だと思うので，見ていない方は是非見るとよいでしょう。

投稿日: 2024/09/15 カテゴリー Direct3D, Program

WaveActiveLerp()について

こんちゃわ。Pocolです。
Wave組み込み命令の記事を漁っていたら，GithubにWaveActiveLerp()の実装を書いている人がいたので紹介しようと思います。
下記に説明の記事があります。
https://github.com/AlexSabourinDev/cranberry_blog/blob/master/WaveActiveLerp.md

実装は，https://github.com/AlexSabourinDev/cranberry_blog/blob/master/WaveActiveLerp_Shaders/WaveActiveLerp.hlslにあって，次のような感じみたいです。

uint WaveGetLastLaneIndex()
{
    uint4 ballot = WaveActiveBallot(true);
    uint4 bits = firstbithigh(ballot); // Returns -1 (0xFFFFFFFF) if no bits set.
     
    // For reasons unclear to me, firstbithigh causes us to consider `bits` as a vector when compiling for RDNA
    // This then causes us to generate a waterfall loop later on in WaveReadLaneAt :(
    // Force scalarization here. See: https://godbolt.org/z/barT3rM3W
    bits = WaveReadLaneFirst(bits);
    bits = select(bits == 0xFFFFFFFF, 0, bits + uint4(0, 32, 64, 96));
 
    return max(max(max(bits.x, bits.y), bits.z), bits.w);
}
 
float WaveReadLaneLast(float t)
{
    uint lastLane = WaveGetLastLaneIndex();
    return WaveReadLaneAt(t, lastLane);
}
 
// Interpolates as lerp(lerp(Lane2, Lane1, t1), Lane0, t0), etc
// 
// NOTE: Values need to be sorted in order of last interpolant to first interpolant.
// 
// As an example, say we have the loop:
// for(int i = 0; i < 4; i++)
//    result = lerp(result, values[i], interpolations[i]);
// 
// Lane0 should hold the last value, i.e. values[3]. NOT values[0].
// 
// WaveActiveLerp instead implements the loop as a reverse loop:
// for(int i = 3; i >= 0; i--)
//    result = lerp(result, values[i], interpolations[i]);
// 
// return.x == result of the wave's interpolation
// return.y == product of all the wave's (1-t) for continued interpolation.
float2 WaveActiveLerp(float value, float t)
{
    // lerp(v1, v0, t0) = v1 * (1 - t0) + v0 * t0
    // lerp(lerp(v2, v1, t1), v0, t0)
    // = (v2 * (1 - t1) + v1 * t1) * (1 - t0) + v0 * t0
    // = v2 * (1 - t1) * (1 - t0) + v1 * t1 * (1 - t0) + v0 * t0
 
    // We can then split the elements of our sum for each thread.
    // Lane0 = v0 * t0
    // Lane1 = v1 * t1 * (1 - t0)
    // Lane2 = v2 * (1 - t1) * (1 - t0)
 
    // As you can see, each thread's (1 - tn) term is simply the product of the previous thread's terms.
    // We can achieve this result by using WavePrefixProduct
         
    float prefixProduct = WavePrefixProduct(1.0f - t);
    float laneValue = value * t * prefixProduct;
    float interpolation = WaveActiveSum(laneValue);
 
    // If you don't need this for a continued interpolation, you can simply remove this part.
    float postfixProduct = prefixProduct * (1.0f - t);
    float oneMinusT = WaveReadLaneLast(postfixProduct);
 
    return float2(interpolation, oneMinusT);
}

いまのところで，使いどころがパッと浮かばないのですが，知っていればどこかで使えそうな気がしています。
…というわけで，WaveActiveLerp()の実装紹介でした。

投稿日: 2024/09/152024/09/15 カテゴリー Direct3D, Program

WaveCompactValue()について

最近、最適化で忙しいPocolです。
皆さん、お元気でしょうか？

今日は，WaveCompactValue()を勉強しようかなと思いましたので，そのメモを残しておこうと思います。
この関数は，[Drobot 2017]で紹介された手法です。

スライドに掲載されている実装は下記のよう感じです。

uint WaveCompactValue( uint checkValue )
{
    ulong mask; // lane unique compaction mask
    for ( ; ; ) // Loop until all active lanes removed
    {
        uint firstValue = WaveReadFirstLane( checkValue );
        mask = WaveBallot( firstValue == checkValue ); // mask is only updated for remaining active lanes
        if ( firstValue == checkValue ) break; // exclude all lanes with firstValue from next iteration
    }
    // At this point, each lane of mask should contain a bit mask of all other lanes with the same value.
    uint index = WavePrefixSum( mask ); // Note this is performed independently on a different mask for each lane.
    return index;
}

これをHLSLに書き直すと次のような感じになるかとおもいます。

uint WaveCompactValue(uint checkValue)
{
　　// レーンのユニークなコンパクションマスク.
    uint4 mask;
     
    // すべてのアクティブレーンが取り除かれるまでループ.
    for (;;)
    {
        // アクティブレーンの最初の値を読み取る.
        uint firstValue = WaveReadLaneFirst(checkValue);
 
        // mask は残っているアクティブレーンに対してのみ更新される.
        mask = WaveActiveBallot(firstValue == checkValue);
 
        // firstValue を持つすべてのレーンを次のイテレーションから除外する。
        if (firstValue == checkValue)
             break;
    }
    // この時点で、マスクの各レーンは、同じ値を持つ他のレーンのすべてのビットマスクを含んでいなければならない。
    uint index = WavePrefixSum(mask); // これはレーンごとに異なるマスクで独立して行われる。
    return index;
}

さて，このWaveCompactValue()ですが，どういった使い道があるかというと，分類分けに使用することができます。
元々の[Drobot 2017]では色々なスレッドからAtomic操作をすると重くなるため，Atomic操作を減らす目的のために使われていました。
詳細な説明は，[Drobot 2017]のスライド51にアニメーション付きで載っていますので，そちらを参照してください。
軽く図の説明だけ載せておきます。

ちなみにグループ分けのよう番号を別途作りたい場合は，

uint2 WaveCompactValue(uint checkValue)
{
　　// レーンのユニークなコンパクションマスク.
    uint4 mask;
 
    // グループ分け番号.
    uint groupIndex = 0;
     
    // すべてのアクティブレーンが取り除かれるまでループ.
    for (uint i=0; ; ++i)
    {
        // アクティブレーンの最初の値を読み取る.
        uint firstValue = WaveReadLaneFirst(checkValue);
 
        // mask は残っているアクティブレーンに対してのみ更新される.
        mask = WaveActiveBallot(firstValue == checkValue);
 
        // グループ分け番号を更新.
        groupIndex = i;
 
        // firstValue を持つすべてのレーンを次のイテレーションから除外する。
        if (firstValue == checkValue)
             break;
    }
    // この時点で、マスクの各レーンは、同じ値を持つ他のレーンのすべてのビットマスクを含んでいなければならない。
    uint index = WavePrefixSum(mask); // これはレーンごとに異なるマスクで独立して行われる。
    return uint2(index, groupIndex);
}

のように実装すると良いみたいです。
WaveCompactValue()はタイルの分類分けやマテリアルの分類分けなんかの場面で有効活用できそうな気がしています。
…というわけで，WaveCompactValue()を使って分類分けすれば，無駄なAtomic操作を減らせるので，高速化できるよ！という話でした。

参考文献

・[Drobot 2017] Michal Drobot, “Improved Culling for Tiled and Clustered Rendering Call of Duty Infinite Warfare”, SIGGRAPH 2017 Advances in Real-time Rendering and Games course, https://advances.realtimerendering.com/s2017/index.html

投稿日: 2023/06/012023/06/16 カテゴリー Direct3D, Program

Bilateral Upsampling

こんにちわ，Pocolです。
今日はバイラテラルアップサンプリングについてメモをしておこうと思います。
パフォーマンスを稼ぐために，低解像度で描画しておき，それを元解像度に戻したいという場面が，ゲームグラフィックスでは多々出てきます。具体的には，SSAOやSSRなどの計算です。
ただ単にバイリニア補間で元解像度に戻してしまうとエッジ部分などでアーティファクトが発生してしまうことがあります。
こうしたアーティファクトを避けるために使われる手法の中の一つとして，Bilateral Upsamplingがあります。

通常のバイリニア補間は4点から計算を行います。

バイラテラルアップサンプリングは，法線と深度によってバイリニアウェイトを修正します。サンプルは以下のように，バイリニアの重み，法線の類似度による重み，深度の類似度による重みの3つによって重みづけされます。

バイリニアの重みは以下です。

法線の重みは次のように求めます。

深度の重みは次のように求めます。

以上から求められた重みを使ってサンプルを重みづけします。下図の通りです。

実装例ですが，もんしょさんが「DirectXの話第121回 Bilateral Upsampling」の記事にてサンプルコードをアップしてくださっています。有難いです。
シェーダコードを抜粋すると下記の通りです。

float4 RenderUpsamplingPS( OutputVS inPixel ) : SV_TARGET
{
    const float2 kScreenSize = g_ScreenParam.xy * 2.0;
    const float2 kScreenHalfSize = g_ScreenParam.xy;
    const float4 kBilinearWeights[4] =
    {
        float4( 9.0/16.0, 3.0/16.0, 3.0/16.0, 1.0/16.0 ),
        float4( 3.0/16.0, 9.0/16.0, 1.0/16.0, 3.0/16.0 ),
        float4( 3.0/16.0, 1.0/16.0, 9.0/16.0, 3.0/16.0 ),
        float4( 1.0/16.0, 3.0/16.0, 3.0/16.0, 9.0/16.0 )
    };
 
    // Hi-Resピクセルのインデックスを求める
    int2 hiResUV = (int2)(inPixel.texCoord0 * kScreenSize + float2(0.1, 0.1));
    int hiResIndex = (1 - (hiResUV.y & 0x01)) * 2 + (1 - (hiResUV.x & 0x01));
    float4 hiResND = texNormalDepth.Load( int3(hiResUV, 0), int2(0, 0) );
 
    // Low-Resから4ピクセルの法線・深度を求める
    int2 lowResUV = (int2)(inPixel.texCoord0 * kScreenHalfSize.xy + float2(0.1, 0.1));
    float4 lowResND[4];
    float lowResAO[4];
    switch (hiResIndex)
    {
    case 0:
        lowResND[0] = texHalfNormalDepth.Load( int3(lowResUV, 0), int2(0, 0) );
        lowResND[1] = texHalfNormalDepth.Load( int3(lowResUV, 0), int2(1, 0) );
        lowResND[2] = texHalfNormalDepth.Load( int3(lowResUV, 0), int2(0, 1) );
        lowResND[3] = texHalfNormalDepth.Load( int3(lowResUV, 0), int2(1, 1) );
        lowResAO[0] = texHDAO.Load( int3(lowResUV, 0), int2(0, 0) ).r;
        lowResAO[1] = texHDAO.Load( int3(lowResUV, 0), int2(1, 0) ).r;
        lowResAO[2] = texHDAO.Load( int3(lowResUV, 0), int2(0, 1) ).r;
        lowResAO[3] = texHDAO.Load( int3(lowResUV, 0), int2(1, 1) ).r;
        break;
    case 1:
        lowResND[0] = texHalfNormalDepth.Load( int3(lowResUV, 0), int2(-1, 0) );
        lowResND[1] = texHalfNormalDepth.Load( int3(lowResUV, 0), int2(0, 0) );
        lowResND[2] = texHalfNormalDepth.Load( int3(lowResUV, 0), int2(-1, 1) );
        lowResND[3] = texHalfNormalDepth.Load( int3(lowResUV, 0), int2(0, 1) );
        lowResAO[0] = texHDAO.Load( int3(lowResUV, 0), int2(-1, 0) ).r;
        lowResAO[1] = texHDAO.Load( int3(lowResUV, 0), int2(0, 0) ).r;
        lowResAO[2] = texHDAO.Load( int3(lowResUV, 0), int2(-1, 1) ).r;
        lowResAO[3] = texHDAO.Load( int3(lowResUV, 0), int2(0, 1) ).r;
        break;
    case 2:
        lowResND[0] = texHalfNormalDepth.Load( int3(lowResUV, 0), int2(0, -1) );
        lowResND[1] = texHalfNormalDepth.Load( int3(lowResUV, 0), int2(1, -1) );
        lowResND[2] = texHalfNormalDepth.Load( int3(lowResUV, 0), int2(0, 0) );
        lowResND[3] = texHalfNormalDepth.Load( int3(lowResUV, 0), int2(1, 0) );
        lowResAO[0] = texHDAO.Load( int3(lowResUV, 0), int2(0, -1) ).r;
        lowResAO[1] = texHDAO.Load( int3(lowResUV, 0), int2(1, -1) ).r;
        lowResAO[2] = texHDAO.Load( int3(lowResUV, 0), int2(0, 0) ).r;
        lowResAO[3] = texHDAO.Load( int3(lowResUV, 0), int2(1, 0) ).r;
        break;
    case 3:
        lowResND[0] = texHalfNormalDepth.Load( int3(lowResUV, 0), int2(-1, -1) );
        lowResND[1] = texHalfNormalDepth.Load( int3(lowResUV, 0), int2(0, -1) );
        lowResND[2] = texHalfNormalDepth.Load( int3(lowResUV, 0), int2(-1, 0) );
        lowResND[3] = texHalfNormalDepth.Load( int3(lowResUV, 0), int2(0, 0) );
        lowResAO[0] = texHDAO.Load( int3(lowResUV, 0), int2(-1, -1) ).r;
        lowResAO[1] = texHDAO.Load( int3(lowResUV, 0), int2(0, -1) ).r;
        lowResAO[2] = texHDAO.Load( int3(lowResUV, 0), int2(-1, 0) ).r;
        lowResAO[3] = texHDAO.Load( int3(lowResUV, 0), int2(0, 0) ).r;
        break;
    }
 
    // 法線のウェイトを求める
    float totalWeight = 0.0;
    float ao = 0.0;
    for( int i = 0; i < 4; ++i )
    {
        // 法線のウェイトを求める
        float normalWeight = dot( lowResND[i].xyz, hiResND.xyz );
        normalWeight = pow( saturate(normalWeight), 32.0 );
 
        // 深度のウェイトを求める
        float depthDiff = hiResND.w - lowResND[i].w;
        float depthWeight = 1.0 / (1.0 + abs(depthDiff));
 
        // 総合する
        float weight = normalWeight * depthWeight * kBilinearWeights[hiResIndex][i];
        totalWeight += weight;
        ao += lowResAO[i] * weight;
    }
 
    ao /= totalWeight;
 
    return float4(ao, ao, ao, 1);
}

…ということで，Bilateral Upsamplingの話でした。
もしかしたら，Quad系のWaveIntrinsics使って実装した方がナウいかもしれないですね（※試してないので，出来なかったらごめんなさい）。

※追記
Quad Intrinsics使って実装できました。
WaveGetLaneIndex() % 4でhiResIndexを算出します。一度現在位置での，lowResNDとlowResAOを先頭の方でサンプリングしておき，あとはループでQuadReadLaneAt(lowResND, i)と QuadReadLaneAt(lowResAO, i)で，処理対象を持ってきます。これでswitchケース分が丸っとなくせるのと，テクスチャフェッチ回数が減らせます。

Cookie	期間	説明
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

☆PROJECT　ASURA☆

Pocol's Diary

カテゴリー: Direct3D

DREDとAftermathのサンプルプログラムを作りました。

GPUクラッシュが激減した…

パンくずリスト

Direct3D 12 ゲームグラフィックス実践ガイド増刷決定！！

タイル分類化による最適化(1)

Deferred Lighting in Uncharted 4

Grappling With Performance: Rendering Optimization Strategies In Rumbleverse

おわりに

アルファテストの改良

Wave組み込み命令トリック

WaveActiveLerp()について

WaveCompactValue()について

参考文献

Bilateral Upsampling

Deferred Lighting in Uncharted 4

Grappling With Performance: Rendering Optimization Strategies In Rumbleverse

おわりに

参考文献

個人情報に関するお知らせ