讲完了RTX 4090在基础架构上的设计思路改变,接下来我们来看看它此次在功能层面带来的一些新玩意。
首先,RTX 4090不只是重新重视起最基础的多边形、纹理生成性能,将自身基本的3D绘图能力提升了超过100%。还成为了业界首个支持“着色器执行重排序”功能的GPU。在NVIDIA方面公布的信息显示,这项功能的重要性几乎可以等同于CPU上的乱序执行技术,特别是在现代光线、场景、材质极为复杂的大型游戏中,光是这一个功能就能让光线追踪的着色效率提升100%、或是让游戏帧率提高1/4。
其次,RTX 4090的RT Core(光追单元)也进化到了第三代架构,内部增加了Opacity Micromap (OMM) 引擎和 Displaced Micro-Mesh (DMM) 引擎两个新的功能模块。其中,OMM引擎专为树叶、颗粒和围栏等镂空材质的光追计算进行了专门优化,而DMM引擎则专门负责构建光线追踪边界体积层次结构。其计算速度相比过去的设计提高了9倍,同时显存占用更是仅有前代的1/20,大幅提高了显卡在应对复杂场景光追游戏时的计算效率。换句话来说,与上代的RTX 20、RTX 30系相比,RTX 4090在开启光追后的帧率损失将会更少,特别是在本身画质就很高的游戏里,更是有助于玩家享受“满配视觉体验”。
而在AI计算能力上,大家都知道RTX 4090的ADA Lovelace架构脱胎于专业计算卡上的Hopper架构。自然这也就意味着,它的Tensor Core也采用了Hopper同款的第四代架构,拥有4倍于前代的数据吞吐量。
最后,在第四代Tensor Core以及新架构所独有的“光流加速器”的加持下,NVIDIA为RTX 40系带来了全新的DLSS 3深度学习抗锯齿功能。事实上,此前DLSS本质上是GPU先进行低分辨率渲染,然后再由Tensor Core进行AI超分画面缩放,从而在降低显卡实际负载、提升游戏帧率的前提下,让画面看不出太多的损失。而DLSS 3如今已不只是对单帧画面进行无损超分放大、AI填充细节这么简单了,它甚至可以让RTX 40系显卡直接生成完整的、具有实际画面内容的中间帧。如此一来,这也就意味着RTX4090此次在适配了DLSS 3的游戏里,几乎可以“凭空”提升帧率到原本的3-4倍之多。对于特别重视帧率的玩家(比如FPS、竞速游戏爱好者)来说,这个功能显然值得感到兴奋。