换个活法GeForceRTX3070Ti NVIDIA在6月2日正式发布了两款Ti后缀的显卡:GeForceRTX3080Ti和GeForceRTX3070Ti,我们前几天之前已经发表了前者的测试报告。 该卡以8999元的定价提供了接近GeForceRTX3090的性能,对于已经饿了半年的显卡市场来说无疑是一个不错的选择,市场上的RTX3080Ti实际价格其实已经站到了1100012000的区间。 当然,即使是8999能买到,对于许多游戏玩家来说依然是超出预算的,他们更希望的是多一些类似RTX3070价格线的产品,而这次发布的RTX3070Ti则可以满足他们的需求,4499元的定价在目前来说已经是比较适宜的价位了。 和去年发布的RTX3070相比,这次的RTX3070Ti有三个明显的区别点:引入了LHR锁矿,主流的以太坊算力减半,目的是保护NVIDIA的游戏卡生态;引入了GDDR6X内存,解锁内存带宽瓶颈;开启了更多的计算单元,提供更强的游戏性能。 当然,不同的人对上述三点的排序也许会不一样,但是我还是倾向于上面的样子,因为过去半年里,游戏玩家饱受挖矿之苦,他们中的大多数都退而求其次成为核显党、亮机党,只要LHR能重建健康的游戏卡生态就比什么都更重要了。GeForceRTX3070TiFE实物 GeForceRTX3070TiFE版的设计语言和RTX3080TiFE高度相似,采用了和RTX3080TiFERTX3080一样的右侧风扇背置设计,此时左侧风扇的风往里吹,而右侧背置的风扇往外吹,两个风扇的风道各行各道,降低了传统设计中显卡热流叠加的问题。 按照当初RTX3080发布时候的资料,和RTX2080Ti相比,新设计在同样功率(320W)下能降低20摄氏度以及10分贝噪音)。 和GeForceRTX3070相比,GeForceRTX3070Ti在性能上的最大变化源自采用了GDDR6X内存,凭借19Gbps的单引脚传输速率,现在GeForceRTX3070Ti的内存带宽高达608GiBs,比之前的GeForceRTX3070高了大约36。 GeForceRTX3070Ti的内核规模增加了4(从46个SM增加到48个),这样的增幅理论上只能带来4的提升,但是结合前面提到的34内存带宽提升,最终和GeForceRTX3070相比GeForceRTX3070Ti能达到大约10的提升。 最后就是挖矿算力限制部分,英伟达自GeForceRTX3060开始引入挖矿限制,到了5月份中旬全线产品都转换为锁矿版本,GeForceRTX3070Ti自然也免不了这一刀。 正如我以前一直所说的那样,锁矿对NVIDIA、游戏玩家来说是多赢的设定,NVIDIA在确保游戏卡生态正常发展的同时,依然可以让自己有更亮眼财报,而挖矿导致的缺卡问题也大为减少,玩家们的抱怨将因此而大大降低。 从我目前的挖矿体验来看,RTX3070Ti是一块以太坊友好度较低的产品,它的算力在最优化的情况下可以做到43MHs,但是此时的耗电会高达145瓦,相比之下,RTX3070可以做到61MHs116瓦。 这意味着RTX3070Ti的每瓦算力从RTX3070的0。53MHs降低到了0。3MHs,在币价较高的情况下,RTX3070Ti也许可以提供一定收益,但是出现矿难的情况,RTX3070Ti关机比价会提前不少,而且由于算力较低,RTX3070Ti的回本周期也会大为延长,最终如果想购买RTX3070Ti挖矿的话亏本风险会高许多。谈一下DLSS和光线追踪 首先是DLSS。 DLSS是NVIDIA在RTX20系列发布时候开始引入的画面重构技术,全称是DEEPLEARNINGSUPERSAMPLING(深度学习超采样)。 最初版本的DLSS或者说DLSS1。0是基于特定游戏预训练网络数据的超分辨率技术,加上是纯空间域(与前后帧无关),因此其效果是差强人意的。 到了DLSS2。0,NVIDIA采用了通用(而非特定游戏)的预训练网络数据,并且结合了时间域信息(纳入了前后帧数据),使得超分辨率的画质非常出色。 在DLSS1。0和DLSS2。0之间还存在一个被称作DLSS1。9的实现,该技术据我所知只有Control采用。它实际上是纯CUDACore执行,结合了时间采样,没有采用预训练的神经网络作推理,当时的效果比DLSS1。0更好一些。在不久后,随着DLSS2。0的发布,Control就升级到了效果好很多的DLSS2。0。 有些人认为DLSS1。9是DLSS2。0的原型,这也许有一定的道理,例如采用了时间采样,但是从画质差别来看,DLSS2。0相当于另一个新世界。 DLSS2。0除了画质非常出色、支持更灵活的渲染分辨率(例如支持4倍分辨率,而DLSS1。0只能支持两倍)外,更重要的一点是它可以更容易集成到游戏开发流程中,例如现在UE4已经集成了DLSS2。0,DLSS2。0现在对UE4游戏开发人员来说就是一个开关。 当然,不同的游戏可能还需要一些微调,例如光线追踪的降噪处理引入了TAA来做的话,则需要将TAA前移到DLSS2。0之前,简单来说,就是需要注意在渲染流水线中DLSS2。0执行的位置,这是因为DLSS2。0引入了时间域的采样。 在RTX30发布的时候,NVIDIA还趁势推出了DLSS2。1,其实就是DLSS2。0基础上引入了8K和VR支持,目前没有关于DLSS会有大版本更新的消息。 DLSS2。0提供了多种画质设置,分别有品质(Quality)、平衡(Balance)、性能(Performance)、超高性能(UltraPerformance),根据我在游戏DeathStranding中的对比来看,Performance模式的纹理细节度要比Quality好一些,但是边缘过渡渐变方面Quality会好些,考虑到Performance提供了更好的性能,我觉得Performance是DLSS2。0中最推荐的模式。 左:2560x1440DLSS2。0Performance,纹理细节度更好;右:2560x1440DLSS2。0Quality,边缘抗锯齿过渡更好,这里使用了8倍放大 当我们说DLSS2。0在某些情况下画质会高于原生高分辨,这个某些情况一般是指游戏在原生高分辨设置下启用TAA(时间抗锯齿)时候的情况: 左:2560x1440DLSS2。0Performance,纹理细节度更好;右:本机2560x1440开启TAA,边缘抗锯齿过渡更好 左:2560x1440DLSS2。0Performance,边缘过渡好很多;右:本机2560x1600,纹理细节好点 没有一项技术是完美的,但是DLSS2。0的确在性能和画质上做到了非常好的平衡。 提起DLSS,绕不开的话题自然是AMD的FSR。 FSR是AMD6月2日发布的超分辨率技术,定于6月22日正式上线,目前已知的有Godfall等5个游戏支持该技术。 按照AMD的说法,FSR1。0是一个纯空间域的超分辨率技术,这点和DLSS1。0是类似的,但是,FSR也没有采用任何深度学习训练网络,因此它目前公开的视频里,画质表现似乎并不理想(有些人认为比DLSS1。0还糟糕,我对此有保留,但是可以肯定的是无法和DLSS2。0相提并论)。 常见超分辨率实现方式分类: 纯空间采样 空间采样时间采样 未采用深度学习 AMDFSR显示器插值 ControlDLSS1。9TAAU 采用深度学习 DLSS1。0 DLSS2。X 毫无疑问FSR也会演进,例如明年第四季度集成MatrixCore(等效NVIDIA的TensorCore)RDNA3问世的时候,基于深度学习的FSR2。X(纯属个人假设)有机会和DLSS2。0真正抗衡,但是在此之前,FSR恐怕只是一个实用性相对DLSS2。0较低的技术。 对真图灵(集成了RTCore和TensorCore的图灵GPU)和安培显卡用户来说,DLSS2。0能达到的效果就是相当于提前使用上下一代显卡。 再说说光线追踪的情况 相对于铺天盖地的宣传,关于光线追踪硬件加速的实现细节其实大家讨论的很少,这就导致了N粉和A粉在光线追踪问题上各说各话。 我将目前已知的双方光线追踪资料以及它们实现整理了一下:NVIDIA和AMD在硬件光线追踪上都提供了DXR和Vulkan支持;DXR1。0要求GPU提供31级递归支持,DXR1。1去掉了递归支持,改为迭代;Vulkan光线追踪对递归的最低要求是1级,NVIDIAVulkan驱动提供了31级支持,AMDVulkan驱动是1级;NVIDIA的硬件光线追踪单元或者说RTCore目前已经演进到第二代(安培),和第一代(图灵)相比,第二代RTCore支持光线追踪着色渲染深度学习并发执行,第一代只能光线追踪着色渲染,这意味着在安培架构上,光线追踪加速和着色渲染以及DLSS可以一起执行。AMD的光线加速器或者说RayAccelerator支持光线追踪加着色渲染并发执行,但是由于没有等效TensorCore的MatrixCore,自然也不存在光线追踪着色渲染深度学习NVIDIARTCore在进行光线或者射线多次反弹方面比AMDRayAccelerator更具优势,场景中的三角形数量越多,RTCore在多次反弹方面的性能就越明显,例如我之前做的Hairball路径跟踪测试,NVIDAI3060Ti的速度就达到了RX6700XT的10倍。 我们使用一个PathTracer进行了这方面的测试,射线反弹计算采用迭代或者说循环方式执行(非递归,A卡Vulkan驱动不支持深递归),模型为Hairball,三角形规模2。88百万,分辨率为2560x1600。 NVIDIARTX3060Ti的速度为40fps AMDRADEON6700XT的速度为4。2fps第二代RTCore的主要改进是提供了双倍的三角形射线求交测试剔除能力,这使得RTX3090能在一些三角形较多的场景中提供RTX2080Ti接近两倍的实际性能。但是另一方面,在偏重过程化几何体的光线追踪场景中,RTX2080Ti能达到接近RTX3080的性能,而AMDRX6800在偏重过程化几何体的光线追踪场景中可以做到优于RTX3090的情况,当然在偏重三角形(更能代表实际游戏)的场景中,AMDRX6000明显低于RTX2000系列,更不要说三角形求交能力倍增的RTX3000了。 9、目前没有看出128MiBInfinityCache在光线追踪方面给AMDRX6000带来什么实际的性能好处,虽然很多人都说这么大的Cache有助于BVH访问。目前无论是RTCore还是RA,其设计的一些基本理念都是基于过去数十年被验证行之有效的,例如提供三角形求交加速而不是其他几何体形式,就是因为当前的绝大多数游戏都是基于三角形的,像采用Voxel、SDF(例如PS4上的NexMachina)等都还是极个别游戏。 过去有许多尝试过支持非三角形加速的硬件,包括NVIDIA自己曾经支持过的硬件RTPatch全都折戟沉沙(实际上对绝大多数人来说,RTPatch连冒泡的机会都没有)。 采用三角形或者说多边形有多种好处,例如美工可以在建模软件中使用大量多边形来建模,然后生成三角形规模低几个量级的游戏用模型。 UE5的Lumen的软件光线追踪会基于SDF,但是它仍将支持硬件光线追踪,硬件光线追踪能提供更多的几何体类型支持,例如支持对蒙皮网络的射线追踪,此外由于硬件光线的求交是对实际的三角形执行而非软件光线追踪那样使用低品质的表面缓存数据上,因此在Lumen里硬件光线追踪的品质会更高。 简单来说,RTCore是目前最好的硬件光线追踪实现,RA可以视作为RTCore的子集,AMD在这点上仍然处于追随者的地位,原因其实很简单对GPU来说,集成新的固定功能单元风险非常高,AMD不打算冒险作改动。 接下来让我们看看实际的游戏表现吧。游戏实测 测试平台 CPU:AMDRyzen75800XBIOS强制全核锁频4。5GHz 主板:华硕ROGStrixX570EGaming 内存:TTToughRAMDDR436008GB4 电源:TTToughPowerPF1850WPremiumEdition 软件环境:微软Windows1020H2x64 驱动版本:466。61 由于手头的显示器是戴尔U2413,只支持1920x1200,因此我这里的2560x1440、3840x2160分辨率都是DSR实现的,由于DSR输出的时候会做一个高斯取样缩小处理,会比原生分辨率额外增加大约7的性能开销,请大家注意。 测试说明:地铁离去增强版使用的是游戏内带官方基准测试;刺客信条:英灵殿使用的是游戏内带官方基准测试;Cyberpunk2077使用的是第一个救人任务出来后返回家中的过场(从女警官说好吧开始),时间长度为100秒,使用帧率采集工具采集;Control是使用帧率采集工具采集,位置是从新游戏开始的大厅跑到清洁工人,时间为35秒;神陨使用的是游戏内带官方基准测试;古墓丽影之暗影使用的是游戏内带官方基准测试;荒野大镖客2使用的是游戏内带官方基准测试,开启8XMSAA和水面反射8XMSAA。 测试数据判读:GeForceRTX3070Ti在大多数游戏中的表现比RTX3070快大约10。GeForceRTX3070Ti比较适合2560x1440分辨率下以最高画质运行,4K的话必须开启DLSS。由于显存容量只有8GiB,在荒野大镖客2中两片GA104显卡都无法正常运行(此时的显存需求为10。9GiB),NVIDIA在6月2日已经宣布该游戏会引入DLSS,我相信有了DLSS后RTX3070Ti可以在荒野大镖客2以最高画质流畅运行于2。5K,至于4K表现如何则有待观察。游戏温度及耗电 测试说明: 以2560x1600RTmaxDLSSoff的设置运行游戏Control第一关从开始到清洁工人的过程,时长35秒,使用RivatunerStaticsServer获取显卡内建传感器信息。 测试时的室内环境温度为30。1摄氏度,未开空调,立式机箱打开侧板,机箱未启用任用机箱风扇,显卡风扇曲线保持原厂设定。 GeForceRTX3070Ti: GeForceRTX3070: 测试数据判读:RTX3070Ti的耗电要比RTX3070高大约8;RTX3070Ti的芯片平均温度要比RTX3070低大约1摄氏度RTX3070TiFE的TDP约束为285瓦,比RTX3070高大约60瓦。 虽然耗电更高,但是由于GeForceRTX3070Ti采用了对流式散热设计,散热器比RTX3070更强,因此在温度表现方面两者比较接近,GeForceRTX3070Ti增加的耗电主要源自于GDDR6X。测试总结 从实际测试结果来看,RTX3070Ti的表现比之前的GeForceRTX3070只是高了大约10,这说明GA104这枚芯片可挖的潜力已经挖掘殆尽,GDDR6X带来的36额外内存带宽对于GPU性能限制帮助不是很大。 全新设计的散热器源自RTX3080的思路,采用了对流式设计,对于缓解额外的功耗有较大的帮助。 AMD这边的FSR值得期待,但是不用抱太大希望,毕竟它在实现技术上还是比较原始的阶段,不可能抗击NVIDIA的DLSS2。0,而DLSS2。0的游戏阵列已经比较强大,像荒野大镖客2也即将引入DLSS2。0。 锁矿对于这片显卡的最终受众游戏玩家是有帮助的,以目前低迷的币价以及RTX3070Ti额外的功耗,对矿老板们来说都是非常不友好的,据闻整机厂商方面也较多,因此我预期RTX3070Ti仍然是比较容易入手的(相对RTX3070而言),当然,4499的价位应该是比较难实现的,溢价10的可能性比较高。 RTX30的新品发布已经告一段落了,接下来期待的应该是下一代显卡了吧。