Author | Lightnews

Fadis @fadis0.bsky.social · 2d

11月15日から始まる #技術書典 19 で FADIS PRESS は新刊「もふもふの描き方」を頒布する予定です。この本では毛がびっしり生えた物体をリアルタイムレンダリングで描く手法を解説します。頒布価格は500円、PDF版のみ、オンラインのみの出展になります techbookfest.org/organization...

Fadis @fadis0.bsky.social · 3d

今回KosmicKrispがVulkan 1.3の規格を完全に満たした事で、Vulkan 1.3で標準でサポートされている機能の範囲で書かれたアプリケーションであれば、コードを変更せずにAppleのデバイスにそのまま持っていけるようになった。KosmicKrispを動かすにはmacOS 15以上が必要でiOSはサポートされていない

1

Fadis @fadis0.bsky.social · 3d

時が流れてMetalでも比較的新しいバージョンのmacOSではVulkanが標準で要求しているのと同等の機能が一通り備わるようになった。そこで要求するOSのバージョンを引き上げてVulkanの規格を完全に満たすように新しい変換レイヤーを実装するKosmicKrispの開発が始まった

1 1

Fadis @fadis0.bsky.social · 3d

これは辛いので、Appleのデバイス向けのコードをVulkanで書けるように、VulkanをMetalに翻訳する変換レイヤーMoltenVKが開発された。ただMoltenVKが作られた当時のMetalはVulkanが標準で備えているいくつかの機能を欠いていた為Vulkanの規格を完全に満たす事ができなかった。
MoltenVKを使う場合Appleのデバイスで動かない機能を踏まないように注意してVulkanのコードを書く必要があり、クロスプラットフォーム辛い問題を完全に解決する事はできなかった

1

Fadis @fadis0.bsky.social · 3d

GPUを使うソフトウェアを作る為のランタイムVulkanは多様なプラットフォームでサポートされていて、GPUを使うアプリケーションをクロスプラットフォームで開発したい場合に最も適した選択肢になっている。
ただAppleがAppleのデバイス向けに用意するGPUのドライバはMetalのAPIしか生えていない為、クロスプラットフォームの対象にAppleのデバイスが含まれている場合、Appleのデバイス用のコードだけ専用に書き直す必要があった。

1

Fadis @fadis0.bsky.social · 3d

LunarG Achieves Vulkan 1.3 Conformance with KosmicKrisp on Apple Silicon : KosmicKrispがVulkan 1.3の規格を満たしたというプレスリリース。KosmicKrispはMacでVulkanを使うソフトウェアを動かす為のドライバ
www.lunarg.com/lunarg-achie...

LunarG Achieves Vulkan 1.3 Conformance with KosmicKrisp on Apple Silicon - LunarG

KosmicKrisp, LunarG’s Vulkan-to-Metal driver for Apple Silicon, has passed the Vulkan Conformance Test Suite (CTS), a rigorous, Khronos-mandated benchmark of API correctness.

www.lunarg.com

1

Fadis @fadis0.bsky.social · 7d

今回Vulkanに追加された拡張はGDEFLATEの展開を自前のシェーダーで書かなくても専用のコマンド一発で行えるようにする。厳密には以前からNVIDIAがベンダ拡張として提供していた物がマルチベンダ拡張になった物のようなので、NVIDIA以外のGPUでも使えるようになるのではないか、という期待が持てる。
専用のコマンドになったという事はGPU側は圧縮されたデータの展開を汎用の演算器ではなく専用のハードウェアで行っても良いという事になる。GDEFLATEは専用のハードウェアが無くても展開できるように作られた形式だが、今後もっと手の込んだ圧縮アルゴリズムが追加されるのかもしれない

Fadis @fadis0.bsky.social · 7d

GDEFLATEでは圧縮対象を64KiBのページ単位で分割して圧縮する。1ページを1つのSubgroupが展開し、複数のSubgroupを使って圧縮されたデータを展開する。NVIDIAはこの方法で3.5GB/s程度しか出ないPCIe Gen3のSSDから12GB/sでデータを読めたとしている developer.nvidia.com/blog/acceler...

Accelerating Load Times for DirectX Games and Apps with GDeflate for DirectStorage | NVIDIA Technical Blog

Load times. They are the bane of any developer trying to construct a seamless experience. Trying to hide loading in a game by forcing a player to shimmy through narrow passages or take extremely slow…

developer.nvidia.com

1

Fadis @fadis0.bsky.social · 7d

以前読んだビット列のバッファはストリーム毎に独立して持ち、他のストリームで既に出てきたビット列だったとしても自身のストリームで初登場のビット列は新出としてエンコードされる。この結果GDEFLATEはすっぴんのLZSSより少し圧縮率が悪くなる。
GDEFLATEの32本のストリームは32スレッドのSubgroupで処理する事を意図している。個々のスレッドが個々のストリームからトークンを1つ処理し、Subgroup演算で展開結果を書き込むオフセットを求める

1

Fadis @fadis0.bsky.social · 7d

通常のLZSSはビット列を読んで、それが以前読んだビット列と同じなら以前出現した位置と長さに再登場を表す最上位ビット1を付けて出力する。新出のビット列なら最上位ビット0を付けてビット列をそのまま記録する。同じパターンが何度も現れていると再登場で表現できる部分が増えて圧縮率が上がる。
GDEFLATEはこのLZSSのトークンを32本のストリームに分けて記録する。展開時には32本のストリームがトークンを1つ展開する度に展開結果がストリームのID順にシリアライズされるので、そのように展開して正しい並び順でデータが展開されるように32本のストリームに順番にトークンを追加する

1

Fadis @fadis0.bsky.social · 7d

GPU側でのデータの展開はPCI-Expressの帯域を使い切る勢いで圧縮されたデータが飛んできたとしてもボトルネックにならないくらいの速さで行える必要がある。従ってGPU上で沢山のスレッドで並列で展開してスケールするような形式で圧縮されている必要がある。
既存の可逆圧縮アルゴリズムの多くはシーケンシャルに展開する前提で作られていてスケーラビリティに難があった。2022年にNVIDIAが発表したGDEFLATEはLZSSをベースにGPU上で高速に展開できるように工夫した可逆圧縮形式で、MicrosoftのDirectStorage 1.1と組み合わせて利用可能だった

1

Fadis @fadis0.bsky.social · 7d

GPUの計算能力に対してPCI-Express x16の帯域は非常に細い為、現代のGPUの性能を引き出すにはいかにPCI-Expressにでかいデータを流さずに計算をするかが重要になっている。データをストレージから読む必要がある場合NVMe SSDはPCI-Express x4に繋がっている為この問題はより深刻になる。
この為GPUに送る必要があるデータの中でも大きくなりがちな画像に関しては非可逆圧縮をかけた状態でPCI-Expressに流し、GPU側で展開する圧縮テクスチャが古くから用いられてきた。ただこの手法は非可逆なのでデータが少しくらい化けても問題ないケースにしか適用できない

1

Fadis @fadis0.bsky.social · 7d

Vulkan 1.4.330で仕様に記載が追加された VK_EXT_memory_decompression 拡張について。この拡張はGPUからアクセス可能なメモリに置かれた可逆圧縮されたデータを展開するコマンドを追加する。今の所具体的な圧縮形式としてGDEFLATEがサポートされている
docs.vulkan.org/refpages/lat...

VK_NV_memory_decompression(3) :: Vulkan Documentation Project

docs.vulkan.org

1