NVIDIA GeForce RTX 4060 Ti 8G已經發布,作爲用戶關注比例最多的入門或者主流級別產品,RTX 4060 Ti 8G顯卡國內定價3199元起,對於裝機預算6000元左右的玩家來說,終於等來了相對平價的40系顯卡。
根據型號定位來看,90/80級別產品爲旗艦、准旗艦,對應4K分辨率;70級別對應2K分辨率;60級別則對應1080p。
RTX 4060 Ti 8G顯卡雖然同樣定位1080p分辨率,但多了一些前綴,就是光追以及DLSS 3。相信大家還記得RTX 2060發布時的場景,作爲第一代“蹣跚學步”的光追顯卡,雖然讓我們見到了遊戲中的另一番光影,但幀數着實難以駕馭。
而本代RTX 4060 Ti 8G則可以在开啓光追和DLSS的情況下,3A遊戲達到百幀水准。
與上一代產品相比,RTX 40系顯卡大幅提升了Tensor算力,今天評測的RTX 4060 Ti 8G相比RTX 3060 Ti的Tensor算力,幾乎達到1.7倍的提升,這在AI創作以及DLSS上的應用幫助相當大,後面我們也會對目前大火的Stable Diffusion AI繪畫進行測試。
在RTX 40系中,超大的L2緩存也幫助提高性能,降低延遲,能耗比顯著提升。這也是爲什么此次RTX 40系顯卡即使是RTX 4070這樣的中端產品,也能將遊戲功耗控制在200W以內的主要原因。
另外本次MSRP版RTX 4060 Ti 8G在5月23日晚21:00解禁,而各OC版顯卡則在5月24日晚21:00解禁,也請大家留意後續的評測。
1 NVIDIA GeForce RTX 4060 Ti 8G FE概覽
首先還是來看下外觀,本次RTX 40系顯卡的外包裝全部採用了黑色掀蓋的禮盒式包裝,外包裝依舊採用了啞光黑色硬紙盒。不過盡管體積和包裝相同,但RTX 4060 Ti 8G拿到手後明顯感覺輕了不少。
打开後顯卡周圍的裝飾紋路自帶“震驚”效果,卡身半鑲嵌在包裝盒內,更利於收藏和展示。
本次RTX 4060 Ti 8G包裝內附贈的是一根16pin轉單8pin的轉接线,整卡功耗160W,推薦電源550W。不過這樣一根轉接线實在有點浪費,完全沒必要。
好在目前大部分AIC產品都已使用傳統的單8pin供電,更方便用戶升級。
NVIDIA GeForce RTX 4060 Ti 8G FE顯卡的整體尺寸約爲240×97×40mm(不含擋板),佔用2槽空間,重量約爲1kg。
經過我們測試,這張顯卡與不久前發布的RTX 4070整體的尺寸及重量都相同。相比來說,RTX 4060 Ti 8G在外觀上最大的區別,就是原本香檳金的金屬框架變成了純銀色。
這張RTX 4060 Ti 8G整體設計依舊沿用了RTX 30系顯卡的外觀,可以看到風扇尺寸相比RTX 30系增大,基本已經達到了顯卡整體框架的直徑,而在散熱風扇增大的基礎上,最大氣流動態增加20%,同噪音等級的氣流動態增加15%。
視頻輸出接口上,依舊採用了HDMI 2.1 + DP 1.4a*3的四接口設計。
另外由於公版採用的雙軸流散熱系統,所以在視頻輸出接口部位能夠看到大量的散熱鰭片,這一點與上一代相同。
本次RTX 4060 Ti 8G公版的整卡功耗爲160W,採用單16pin的輔助供電。相比此前最誇張的8pin*4轉接16pin來說,這次只有單8pin。
需要注意的是,目前適用於RTX 30系列的12pin接口和電源轉接器與RTX 40系列顯卡不兼容。
2 NVIDIA GeForce RTX 4060 Ti 8G架構淺析
本次發布的GeForce RTX 40系顯卡由全新的NVIDIA Ada Lovelace架構打造,採用TSMC 4N NVIDIA定制工藝,旗艦核心AD102達到了恐怖的760億個晶體管,而在RTX 30系顯卡中爲280億個。
與上一代NVIDIA Ampere相比,NVIDIA Ada Lovelace在相同功率下,具有2倍以上的性能提升,最高可達到90-TFLOPS的着色器數據吞吐量。
本次發布的RTX 4060 Ti 8G共有4352個CUDA核心,提供了22-TFLOPS算力;34個第三代Ada RT Core擁有51 RT-TFLOPS;136個第四代Tensor Core可提供353 Tensor-TFLOPS。
另外在本次的規格說明上,NVIDIA官方也特別表明了L2 Cache容量以及最終的等效帶寬,這是RTX 40在架構中變化比較大的地方,同時也是玩家對位寬減小有爭議的“罪魁禍首”。
我們以兩張圖來簡單說明L2緩存的作用。
如果把GPU內核比作網店店主,那么L1緩存就是在日常工作的屋子中堆放的可發貨產品,但由於所有工作都要在這間屋子進行,堆放產品的空間有限;所以大部分產品就需要到L2緩存中,它就好比在工作室隔壁的倉庫,雖然需要走出去,但仍然是很近的路程。
如果這個倉庫還是放不下,那么只能到更遠的顯存中去調取產品。當然如果有爆顯存的情況,那么這位“店主”可能還要打車去更遠的系統內存區調取數據。
這中間的路程和耗費時間就好比GPU額外的工作量,如果絕大部分數據只存放在L2緩存就可以拿到,那么將極大節省功耗。並且由於不再需要頻繁調取顯存中的數據,所以顯存位寬適當降低,對於運行效率也是沒有影響的。
在真正的GPU中,內核是所有計算發生的地方,而這就是L1數據緩存的作用所在。每個SM都有一個超低延遲的L1數據緩存,緊挨其處理內核,使L1成爲GPU尋找信息的首選。
然而,由於L1緩存需要離內核非常近,不可能非常大。
如果在L1緩存中找不到內核計算所需的數據,GPU將在L2數據緩存中尋找。這個顯存系統位於GPU芯片上,並通過一個非常高速的橫梁系統連接到所有的GPC(圖形處理集群),每個GPC包括多個SM。如果在L2緩存中找到了信息,那么GPU就挑出這些數據並將其放入內核。
如果在L2緩存中找不到信息(被稱爲緩存缺失),那么GPU將通過顯存接口在VRAM中尋找。這在整個GPU存儲子系統中產生了很多額外的工作量,並降低了性能和功耗效率。
其實如果只對比傳統的光柵性能,RTX 4060 Ti 8G的進步並沒有很大,但在AI逐漸發展的今天,需要大量邏輯推理運算,所以可以看到相比30系的Tensor算力,幾乎達到1.7倍的提升。
完整的AD102核心
完整的AD106核心
RTX 4060 Ti 8G使用的AD106核心
本次RTX 4060 Ti 8G使用了AD106芯片,採用了3組GPC,其中1組少了1組TPC,並且NVENC單元變爲2個。
這張RTX 4060 Ti 8G的L2緩存爲32MB,而上一代RTX 3060 Ti爲4MB,達到了8倍的差距。增加L2緩存的大小可以提高性能,降低延遲,並提高續航時長,數據訪問在GPU上即可完成(否則GPU就要頻繁從顯存讀取數據,過分依賴顯存帶寬)。所以,這也是爲什么在RTX 40系顯卡中,位寬帶寬普遍偏小的原因。
由於整體架構分析篇幅較長,關於NVIDIA Ada架構的其他新特性就不在這裏介紹了,將在文章末尾以附錄的形式展开說明,有興趣的用戶可翻至最後。
3 測試平台簡介
首先介紹一下測試平台,爲了保障RTX 4060 Ti 8G的性能發揮,我們的平台也進行了全面更新。
目前GPU-Z版本尚未更新,部分信息無法識別,簡單參考即可。
RTX 4060 Ti 8G採用AD106核心,擁有4352個CUDA,Boost頻率爲2535MHz,RTX 3060 Ti則爲1665MHz,提升非常大。
採用8GB GDDR6顯存,位寬爲128bit,顯存帶寬288 GB/s(最終等效帶寬554 GB/s),光柵單元和紋理單元爲48和136。
4 理論性能測試
下面先進行的是用來衡量顯卡DX11理論性能的3DMARKFS套裝:FS,FSE,FSU三者分別對應顯卡在1080P、2K、4K的理論性能,取顯卡分數實際測試結果如下:
在針對顯卡DX11性能的3DMARKFS套裝測試中,RTX 4060 Ti 8G主要對比上一代RTX 3060 Ti,其中FS提升了18%;FSE提升了16%;FSU提升了3%,綜合來看相比RTX 3070 Ti的性能提升約爲12%。
而對比剛剛發布的RTX 4070,綜合成績相差24%左右。
而在針對DX12環境下的Time Spy和Time Spy Extreme測試中,RTX 4060 Ti 8G相較RTX 3060 Ti的提升分別爲:TS提升14%;TSE提升8%,綜合約爲11%。
PortRoyal是3DMARK中專門針對光追性能的測試項,RTX 4060 Ti 8G相較RTX 3060 Ti的提升約爲17%。
綜合來看,RTX 4060 Ti 8G的傳統理論性能相較RTX 3060 Ti的提升約爲13%。
Speed Way測試是3DMARK最新更新的用於測試DirectX12 Ultimate 性能的顯卡基准測試。要運行此測試,顯卡必須支持 DirectX 12 Ultimate 並包含 6GB 及以上顯存。
這項測試結合了實時光线追蹤和傳統渲染技術來測量顯卡性能。場景含有光线追蹤反射、實時全局光照、網格着色器、體積照明、粒子和後處理效果。並且有意思的是,Speed Way測試支持自由探索場景,可查看光照及攝像機設置的改變如何影響視覺效果。
對比RTX 3060 Ti顯卡,從1080p分辨率到4K提升依次爲:14%/12%/8%。
另外我們使用3DMARK剛剛更新的DLSS 3進行了相關性能測試。不過由於RTX 3060 Ti無法开啓,這裏使用DLSS2進行對比測試。
在2K分辨率下DLSS开關相比RTX 3060 Ti的提升爲23%/16%;4K分辨率由於關閉情況下顯卡幾乎無法正常運行,僅看开啓狀態,提升約爲51%。
5 常規遊戲 性能測試
由於本次RTX 40系加入了DLSS 3新技術,所以後面會進行單獨測試,這裏依然選擇主流的幾款3A大作進行遊戲性能對比。
在《極限競速:地平线5》中,加入了DLSS 3,我們在後面會進行相關測試,這裏僅看常規對比。
性能方面,RTX 4060 Ti 8G相比RTX 3060 Ti的提升分別爲:1080p提升12%;2K提升8%;4K提升8%,綜合提升9%。
由於RTX 4060 Ti 8G這張顯卡本身定位1080p分辨率,在部分2K遊戲中會爆顯存,所以在越高的分辨率下其實對比RTX 3060 Ti的優勢不大。
在《刺客信條:英靈殿》中,RTX 4060 Ti 8G相比RTX 3060 Ti的提升分別爲:1080p提升12%;2K提升7%;4K提升2%,綜合提升7%。
在《無主之地3》中,RTX 4060 Ti 8G相比RTX 3060 Ti的提升分別爲:1080p提升13%;2K提升11%;4K提升5%,綜合提升10%。
《光明記憶:無限》的光追測試軟件是獨立於遊戲的測試工具,比遊戲中用到的光线追蹤技術更多,測試條件爲“RTX最高/DLSS質量”。所以測試幀數相對較低,但實際遊戲配置相當親民。
性能方面,RTX 4060 Ti 8G相比RTX 3060 Ti的提升分別爲:1080p提升25%;2K提升23%;4K提升5%,綜合提升18%。
在另外一款國產遊戲《邊境》的跑分軟件中,情況基本與《光明記憶:無限》相同,測試條件均在“RTX最高/DLSS質量”下進行。
在《邊境》中,RTX 4060 Ti 8G相比RTX 3060 Ti的提升分別爲:1080p提升34%;2K提升23%;4K提升17%,綜合提升25%。
在《賽博朋克2077》中,遊戲新增了光追過載畫質,我們分別進行了測試。
在超級畫質中,RTX 4060 Ti 8G相比RTX 3060 Ti的提升分別爲,1080p提升13%;2K提升4%;4K提升6%,綜合提升8%。
在光追超級畫質中,提升分別爲,1080p提升18%;2K提升16%;4K提升15%,綜合提升16%。
在光追過載畫質中,由於對性能需求實在變態,所以僅測試1080p及2K分辨率,提升分別爲,1080p提升26%;2K提升41%。
這裏分別爲大家展示一下三種不同畫質,從上至下依次爲超級畫質/光追超級/光追過載。可以看到光追過載相比光追超級更貼近於真實效果。它模擬了真實的光线路徑,其實相比之前的光线追蹤模擬了更多光线在不同表面的反射,完整的計算出了場景的真實光照,避免了上一代光追中出現“死黑”的情況。
這也是NVIDIA致力於打造的下一代光追場景,但是截止目前它對硬件計算的需求太過龐大,即便是旗艦顯卡,也無法在4K分辨率下流暢運行。
6 DLSS 3性能測試
截止目前,已有超過300款遊戲和應用支持DLSS,其中超過30款遊戲已經支持最新的DLSS 3。
包括《逆水寒》、《微軟模擬飛行》、《毀滅全人類2:重新探測》、《瘟疫傳說:安魂曲》、《光明記憶:無限》、《暗影火炬城》、《F1 22》、《生死輪回》、《漫威蜘蛛俠:重制版》、《超級人類》、《極限競速:地平线5》、《賽博朋克2077》、《紅霞島》、《暗黑破壞神4》、《侏羅紀世界:進化2》等等。
下面就讓我們來實際測試,擁有全新的DLSS 3的遊戲,能達到何種幀率。
本次DLSS 3的測試圖表比較繁瑣,並且增加了1% Low FPS和延遲的測試,普通的FPS好理解,那么這個1% Low FPS是什么意思。
首先,遊戲benchmark通常測試的FPS即爲,一段時間內的遊戲平均幀。而1% Low FPS則是將一段時間內的幀數從大到小排列,取最小的1%出來,再對這1%的數求平均值。
其實簡單來說,這兩個數值都不能代表我們在遊玩時,具體哪一刻的感受,但FPS更注重整體,而1% Low FPS則是從最差的裏面求平均,更謹慎一些。
看懂了1% Low FPS,我們再來看這張圖表,在坐標軸左側的爲延遲(越低越好),坐標軸右側的均爲幀數(越高越好),並且由於牽扯到正負坐標,所以兩側的值有可能會不同。
在《侏羅紀世界:進化2》中,DLSS 3的表現非常亮眼,由於此類模擬經營遊戲的特點就是同屏單位多,更加佔用CPU資源,而DLSS 3能夠進行幀生成,來突破CPU瓶頸限制。
不過幀生成並不是毫無弊端,這也是爲什么此次測試加入了延遲。並且在开啓DLSS 3後,NVIDIA Reflex是捆綁开啓的。但相對於絕大部分的非競技遊戲來說,32毫秒的延遲在實際體驗中的感受並不強。
在《賽博朋克2077》中的數據反映比較真實,可以看到在DLSS關/光追超級的情況下,RTX 4060 Ti 8G顯卡只有45幀,並且延遲達到了42.5毫秒。
而在开啓DLSS 3後,幀數爲121,提升了169%。雖然相比DLSS 2的延遲高了13毫秒左右,但依然維持在較低的水平。
在《巫師3》光线追蹤的測試中,由於沒有benchmark,我們選擇畫面元素較多的固定場景截取幀數,故1% Low幀數較高。RTX 4060 Ti 8G即便在DLSS 2开啓的情況下也僅能勉強維持流暢幀數,但DLSS 3能夠提供百幀的流暢體驗。
《極限競速:地平线5》是最新加入DLSS 3的遊戲,可以看到,即便在开啓DLSS 2的情況下,幀數受到CPU瓶頸限制,幾乎相同。而在开啓DLSS 3後,一下躍至144幀,提升18%。
《暗影火炬城》在开啓光追後對於性能要求明顯提高。其中DLSS 3相比DLSS關的幀數提升了49%,DLSS 2的提升則達到了35%。
不過此次《暗影火炬城》,相比剛剛發布時,1% Low幀數有明顯下降,在實際遊玩中也能明顯感受到異於常理的突然卡頓……大概是遊戲隨着版本更新,優化還沒有跟上。
在UE5提供的測試遊戲中,方便的給出了DLSS的快捷測試,這裏分爲DLSS關(超分辨率關+幀生成關+Reflex關);DLSS 2(超分辨率性能+幀生成關+Reflex开);DLSS 3(超分辨率性能+幀生成开+Reflex开)三檔測試。
另外,由於Lyra幀數均爲靜態所得,1% Low的分數相比其他遊戲更高一些。
7 Stable Diffusion AI繪畫測試
除了遊戲之外,AI也是目前大火的領域,尤其以Stable Diffusion爲最,現在很多AI生成的圖片完全能夠以假亂真,下面我們也來測試一下RTX 4060 Ti 8G在這方面的表現。
Stable Diffusion可以說幾乎沒有門檻,但本地部署的繁瑣程度勸退了很多用戶。上圖爲操作界面用戶可根據自己想要生成的圖片細節豐富關鍵詞。
按照NVIDIA提供的關鍵詞,我們生成了10批,共20張圖片。並對比了剛剛發布的RTX 4070和上一代RTX 3060 Ti顯卡。
RTX 4070運算時間 2m24.79s 約合 7.2秒一張圖
RTX 4060 Ti 8G運算時間3m18.26s 約合 9.9秒一張圖
RTX 3060 Ti運算時間3m40.86s 約合 11秒一張圖
Stable Diffusion對於顯卡的要求比較高,這就需要顯卡擁有較強的Tensor算力。
另外它對於顯存的要求非常高,此次RTX 4060 Ti 8G顯存使用率已達到97%,如果有條件的話盡量選擇大容量顯存的顯卡。
我們對比了RTX 4060 Ti 8G和RTX 3060 Ti在相同設置下的運算時間,兩款顯卡在生成20張圖片的時間差距爲22秒,差距還是比較大的。
另外我們也測試了使用CPU,在相同設置下生成圖片,但如圖片所示,保守估計需要3小時30分左右。
8 AV1編碼測試
本次AV1編碼測試選擇了剪映專業版,它可以輸出H.264/HEVC/AV1三種編碼格式的視頻。
剪映專業版目前自帶AV1編碼輸出,在實際測試中,我們導出一段1分鐘左右的視頻。可以看到兩個文件容量相差103MB。
由於AV1編碼特性,生成文件的比特率更低,但視頻清晰度則完全相同。所以如果生成同比特率,同容量的文件,AV1將會更清晰。
我們通過NVIDIA ICAT來進行兩段視頻的畫面對比,圖中左側爲H.264編碼,右側爲AV1編碼。通過200%的細節放大,幾乎看不出任何區別。
9 Blender渲染測試
Blender是一款專業的三維渲染軟件,目前推出了固定的benchmark跑分軟件,省去了安裝軟件下載素材的麻煩,最新版本爲3.5。
這款跑分軟件只需下載好啓動程序,軟件會自動渲染測試monster/junkshop/classroom共三個場景。
上圖爲本次發布的RTX 4060 Ti 8G顯卡得分,分別爲2254/1081/1147分(四舍五入取整數位),平均1494分;下圖爲RTX 3060 Ti顯卡得分,分別爲1531/947/810分,平均1096分。
得益於RTX 40系更強的Tensor算力,不難發現在三維渲染方面提升也非常明顯,達到了36%,這對於以幀爲渲染單位的動畫來說,能夠大幅度節省時間。
10 RTX VSR(RTX Video Super Resolution)測試
目前RTX VSR(RTX Video Super Resolution)已經在部分瀏覽器中進行測試,首先玩家需要更新到NVIDIA最新驅動,在NVIDIA控制面板中的【調整視頻圖像設置】可以看到最新的RTX 視頻增強超分辨率。
RTX VSR是 AI 圖像處理的突破,它超越了傳統的邊緣檢測和特徵銳化技術,極大地提升直播視頻內容的質量。
开啓RTX VSR不僅需要最新版驅動,還需要使用RTX 40或30系列GPU,並且幾乎適用於Google Chrome和Microsoft Edge瀏覽器中的所有視頻內容(瀏覽器也需要更新到最新版本)。
开啓後,目前已知的打开YouTube或者B站,都可以享受到RTX VSR效果的加成。
如果不確定,在全屏播放視頻時,可以打开任務管理器,看到GPU負載增加,即爲开啓成功。
(點擊放大查看原圖)
我們打开YouTube隨意觀看視頻,在打开RTX VSR後,可以清晰明顯的看到水下珊瑚的質量明顯提高,邊緣更爲清晰,並且極大減少了失真現象。
11 溫度及功耗測試
功耗測試中,我們選擇FurMark軟件進行拷機測試,並採用GPU-Z檢測溫度,功耗僅計算顯卡自身。
可以看到RTX 4060 Ti 8G這張顯卡但通過20分鐘左右的拷機測試,溫度一直控制在65℃左右,熱點溫度在77℃左右。
遊戲動態功耗測試
值得一提的是,本次我們在拷機測試中最大板載功耗爲160W左右,TDP達到了100%。但在實際遊戲測試中,大部分3A遊戲僅需要140W左右功耗。
所以在實際的使用過程中,由於不同遊戲負載不同,GPU的實際功耗是動態變化的,類似於FPS隨時間的變化,RTX 40系列很難觸及功耗牆。
RTX 4060 Ti 8G 3A遊戲平均功耗
RTX 3060 Ti 3A遊戲平均功耗
在實際的遊戲功耗測試中,我們選擇《賽博朋克2077》自帶benchmark,畫面設置爲光追超級、2K分辨率,來拉滿兩張顯卡的性能極限,檢測我們實際應用場景的功耗。
可以看到兩款顯卡雖然均爲60級別,但剛剛發布的RTX 4060 Ti 8G平均功耗爲136W,而RTX 3060 Ti則是219W,低了83W,這的確是一個驚人的成績。
12 一張真正的入門光追顯卡
還記得在RTX 2060顯卡發布時,雖然擁有光追單元,也能玩光追遊戲,但幀數實在慘不忍睹。所以玩家都戲稱,2060的光追就是讓你看看,沒什么實際作用。
經過兩代產品迭代,這張RTX 4060 Ti 8G在光追遊戲中的表現完全可以用亮眼來形容,當然受限於規格限制,僅僅是在1080p分辨率下。
通過遊戲的對比不難發現,一些傳統3A遊戲,如《無主之地3》,《刺客信條:英靈殿》這張RTX 4060 Ti 8G提升不算大,甚至在傳統的理論性能測試中,它的成績都不能用升級迭代來形容。
但是像《光明記憶無限》、《邊境》這樣的純粹光追和DLSS測試中,1080p分辨率下的平均提升在25-35%之間,而這才是RTX 4060 Ti 8G真正的用途。
就像NVIDIA家的產品,歷代60級都是定位1080p遊戲,即便在現在GTX 1060也能流暢玩大部分。
誠然,如果只是玩一些獨立遊戲,或是老的3A遊戲,你手中又是RTX 3060 Ti顯卡,那么確實沒有升級的必要。
其實上一代RTX 3060 Ti在性能定位上,也是可以流暢運行一些2K分辨率下的3A遊戲,但彼時的重點仍然不在光追和DLSS上。如果拿RTX 4060 Ti 8G去運行那些遊戲,同樣要更強一些。
雖然RTX 4060 Ti有很多好的地方,但它確實也有一些槽點,這張顯卡穩穩地卡在1080p光追遊戲上,分毫不讓。玩家想“既要又要”,那不可能。而且這張顯卡與RTX 4070的差距確實也比較大,不知道後續NVIDIA還有沒有填補這個空缺的打算。
功耗方面,RTX 4060 Ti 8G繼承了RTX 40系顯卡優良傳統,3A遊戲平均140W左右,建議電源550W起步,讓我們又回到了四五年前的標准,畢竟RTX 30系整體的功耗確實有點嚇人。
這張RTX 4060 Ti 8G定價3199元,對於預算5000-6000元攢機的玩家,它是一張很好地入門級光追顯卡,更出色的能耗比加上更出色的光追/AI性能,都是非常誘人的。
標題:RTX 4060 Ti 8G首測 DLSS3加持下的甜品光追卡
地址:https://www.utechfun.com/post/216589.html