磐鐳RTX 4070乾坤評測 壺中日月方寸乾坤

2023-07-24 18:30:29    編輯: robot
導讀 截止目前RTX 4060已經發布,RTX 40系也終於完成了從60-90級別的布局。而70級產品價格和性能都做到了較好的平衡,是3A遊戲玩家的不二之選,今天帶來的評測爲——磐鐳RTX 4070 12...

截止目前RTX 4060已經發布,RTX 40系也終於完成了從60-90級別的布局。而70級產品價格和性能都做到了較好的平衡,是3A遊戲玩家的不二之選,今天帶來的評測爲——磐鐳RTX 4070 12GD6X 乾坤OC顯卡。

RTX 4070顯卡定位在开啓光追和DLSS的情況下,3A遊戲達到2K百幀及以上的水准。它相比RTX 3070 Ti性能提升20%左右,與RTX 3080不分伯仲,並且在光追及DLSS方面要領先RTX 30系顯卡。

磐鐳這張RTX 4070雖然姍姍來遲,但好事多磨,全新的乾坤系列,讓第一次拿到顯卡的我相當震驚,相信也顛覆了廣大網友對磐鐳的印象。下面我們先來看看這款磐鐳RTX 4070 乾坤OC的外觀及設計理念。

1 磐鐳RTX 4070 乾坤OC概覽

首先介紹一下磐鐳RTX 40系顯卡的系列構成。本次評測的乾坤(TAICHI)系列定位中端,在性能與價格之間取平衡點,既有不俗的性能,又在外觀上有一定的創意,適合於絕大多數遊戲用戶。在其系列之下還有定位高性價比的鱗甲(ARMOUR)系列,保障標准性能的同時,簡化設計。

而在乾坤(TAICHI)系列之上,更有神祕的旗艦燭龍(FIERY)系列,目前尚未推出,但根據官方介紹,仍有令人驚喜的設計,並且進一步加強了散熱效能,大家可以期待一下。畢竟這張乾坤系列顯卡的設計水准,已經完全超出了大家的預期。

磐鐳RTX 4070 乾坤OC顯卡的包裝正面爲產品渲染圖,並且顯卡背景已經很明顯的表達了其像素風的設計理念。

有意思的是,磐鐳RTX 4070 乾坤OC顯卡採用了一次性封裝,儀式感極強。也保證了每名玩家拿到手的都是新卡無拆封過的。

配件中除了常規的說明書保修卡外,還有一張會員卡和螺絲刀,並且貼心的准備了兩顆機箱擋板螺絲。

磐鐳RTX 4070 乾坤OC整體採用藍白拼色設計,清新淡雅。其實相較官方解釋的像素風格,個人更傾向於它是,馬賽克風格與像素風的合體。


雖然兩種風格感覺大體相似,但像素風更接近電子遊戲和傳統8位視頻遊戲的視覺風格,經典作品有《超級馬裏奧》、《魂鬥羅》等。而直至目前,像素風遊戲仍然以強遊戲性和低配置需求,擁有大批忠實玩家。


馬賽克風格通常更具抽象感和藝術氣息,用於制作數字藝術、拼貼畫等工業設計領域。

所系細看磐鐳RTX 4070 乾坤OC這張顯卡,其實兩種風格的表達都有,屬於用現代工業設計,呈現了經典美術風格。

磐鐳RTX 4070 乾坤OC的整卡尺寸爲317×130×53mm,重量約爲1.2kg。主動散熱採用三個白色9葉閉環風扇。中間風扇中央爲像素風的“雙蛇”logo設計。

磐鐳RTX 4070 乾坤OC顯卡邊緣採用藍色亮片點綴,在不同光影下,能夠透出內部的空間層次。

同時乾坤亦謂天地,顯卡首尾點綴各一方,也相當呼應主題。雖然面積不大,但恰到好處。

從這個側視的角度,能夠看到導流罩的白色像素格並不全都是純磨砂表面,部分格子中仍然有交錯的暗紋。

同時,可以發現其中一個格子有着類似於“三”的文字,這在兩側風扇的logo中也有體現。其實這個“三”源自於八卦中的乾卦。在整個磐鐳的英文“PELADN”中,又以“E”爲變體展示。


雖然看似導流罩只是一些像素格子,但這張卡確實“內有乾坤”!

磐鐳RTX 4070 乾坤OC顯卡的側面帶有白色呼吸燈光設計,爲顯卡增添了一份別致的韻律感,讓整體外觀層次感更加豐富。

顯卡邊緣的藍色亮片一直延伸至尾部,猶如盔甲覆於顯卡表面。最右邊的陰刻圖案,根據上面的八卦圖能夠知道爲坤卦。天地、首尾呼應,細節滿滿。

磐鐳RTX 4070 乾坤OC的背板採用一體成型金屬背板,表面上布有無規律排列的方格絲印,並且尾部有大量鏤空處理。

顯卡內部採用全覆蓋高密度散熱鰭片,內建6熱管,對於一張RTX 4070顯卡來說,規格足夠。

磐鐳RTX 4070 乾坤OC由於功耗減小,TDP只有200W左右,推薦電源650W,所以採用了單8pin供電。

視頻輸出接口上,採用了HDMI 2.1 + DP 1.4a*3的四接口設計。HDMI 2.1可支持4K 120Hz HDR、8K 60Hz HDR。

2 NVIDIA GeForce RTX 4070 架構淺析

本次發布的GeForce RTX 40系顯卡由全新的NVIDIA Ada Lovelace架構打造,採用TSMC 4N NVIDIA定制工藝,旗艦核心AD102達到了恐怖的760億個晶體管,而在RTX 30系顯卡中爲280億個。

與上一代NVIDIA Ampere相比,NVIDIA Ada Lovelace在相同功率下,具有2倍以上的性能提升,最高可達到90-TFLOPS的着色器數據吞吐量。

本次發布的RTX 4070共有5888個CUDA核心,提供了29-TFLOPS算力;46個第三代Ada RT Core擁有67 RT-TFLOPS;184個第四代Tensor Core可提供466 Tensor-TFLOPS

另外在本次的規格說明上,NVIDIA官方也特別表明了L2 Cache容量以及最終的等效帶寬,這是RTX 40在架構中變化比較大的地方,同時也是玩家對位寬減小有爭議的“罪魁禍首”。


我們以兩張圖來簡單說明L2緩存的作用。

如果把GPU內核比作網店店主,那么L1緩存就是在日常工作的屋子中堆放的可發貨產品,但由於所有工作都要在這間屋子進行,堆放產品的空間有限;所以大部分產品就需要到L2緩存中,它就好比在工作室隔壁的倉庫,雖然需要走出去,但仍然是很近的路程。

如果這個倉庫還是放不下,那么只能到更遠的顯存中去調取產品。當然如果有爆顯存的情況,那么這位“店主”可能還要打車去更遠的系統內存區調取數據。


這中間的路程和耗費時間就好比GPU額外的工作量,如果絕大部分數據只存放在L2緩存就可以拿到,那么將極大節省功耗。並且由於不再需要頻繁調取顯存中的數據,所以顯存位寬適當降低,對於運行效率也是沒有影響的。

在真正的GPU中,內核是所有計算發生的地方,而這就是L1數據緩存的作用所在。每個SM都有一個超低延遲的L1數據緩存,緊挨其處理內核,使L1成爲GPU尋找信息的首選。

然而,由於L1緩存需要離內核非常近,不可能非常大。

如果在L1緩存中找不到內核計算所需的數據,GPU將在L2數據緩存中尋找。這個顯存系統位於GPU芯片上,並通過一個非常高速的橫梁系統連接到所有的GPC(圖形處理集群),每個GPC包括多個SM。如果在L2緩存中找到了信息,那么GPU就挑出這些數據並將其放入內核。

如果在L2緩存中找不到信息(被稱爲緩存缺失),那么GPU將通過顯存接口在VRAM中尋找。這在整個GPU存儲子系統中產生了很多額外的工作量,並降低了性能和功耗效率。

其實如果只對比傳統的光柵性能,RTX 4070的進步並沒有很大,但在AI逐漸發展的今天,需要大量邏輯推理運算,所以可以看到相比30系的Tensor算力,幾乎達到2.7倍的提升。

完整的AD102核心

RTX 4070 Ti使用的AD104核心

RTX 4070使用的AD104核心

本次RTX 4070使用了AD104芯片,採用了4組GPC,其中1組少了1組TPC,並且NVENC單元變爲2個。

增加L2緩存的大小可以提高性能,降低延遲,並提高續航時長,數據訪問在GPU上即可完成(否則GPU就要頻繁從顯存讀取數據,過分依賴顯存帶寬)。所以,這也是爲什么在RTX 40系顯卡中,位寬帶寬普遍偏小的原因。

3 測試平台簡介

首先介紹一下測試平台,爲了保障磐鐳RTX 4070 乾坤OC的性能發揮,我們的平台也進行了全面更新。

下面看一下最新版的GPU-Z信息,RTX 4070採用AD104核心,擁有5888個CUDA,而此前測試的RTX 4070 Ti爲7680個CUDA,在同系列顯卡中,CUDA數量其實比較能反應性能強弱,所以簡單算一下RTX 4070的性能大概相當於RTX 4070 Ti的77%。

磐鐳RTX 4070 乾坤OC的Boost頻率爲2505MHz,公版RTX 4070的Boost頻率爲2475MHz。

採用12GB GDDR6X顯存,位寬爲192bit,顯存帶寬達到了504 GB/s,光柵單元和紋理單元爲64和184。

4 理論性能測試

下面先進行的是用來衡量顯卡DX11理論性能的3DMARKFS套裝:FS,FSE,FSU三者分別對應顯卡在1080P、2K、4K的理論性能,取顯卡分數實際測試結果如下:

在針對顯卡DX11性能的3DMARKFS套裝測試中,磐鐳RTX 4070 乾坤OC主要對比上一代RTX 3070 Ti,其中FS提升了26%;FSE提升了20%;FSU提升了9%,綜合來看相比RTX 3070 Ti的性能提升約爲18%。對比RTX 4070 Ti,綜合成績相差20%左右。

而在針對DX12環境下的Time Spy和Time Spy Extreme測試中,磐鐳RTX 4070 乾坤OC相較RTX 3070 Ti的提升分別爲:TS提升24%;TSE提升17%,綜合下來約爲21%。

PortRoyal是3DMARK中專門針對光追性能的測試項,磐鐳RTX 4070 乾坤OC相較RTX 3070 Ti的提升約爲28%

綜合來看,磐鐳RTX 4070 乾坤OC的理論性能相較RTX 3070 Ti的提升約爲22%

Speed Way測試是3DMARK最新更新的用於測試DirectX12 Ultimate 性能的顯卡基准測試。要運行此測試,顯卡必須支持 DirectX 12 Ultimate 並包含 6GB 及以上顯存。

這項測試結合了實時光线追蹤和傳統渲染技術來測量顯卡性能。場景含有光线追蹤反射、實時全局光照、網格着色器、體積照明、粒子和後處理效果。

對比RTX 3070 Ti顯卡,從1080p分辨率到4K提升依次爲:28%/21%/26%

另外我們使用3DMARK剛剛更新的DLSS 3進行了相關性能測試。並且由於RTX 3070 Ti無法开啓,所以採用了發布不久的RTX 4060 Ti。

5 常規遊戲 性能測試

(在遊戲測試中,如有提幀技術,NVIDIA均开啓DLSS質量模式。)


本次測試我們還增加了剛剛發布的《無畏契約》,作爲一款競技網遊,對於顯卡的要求並不高。我們的測試選擇英雄釋放技能,中等战鬥場面截取平均幀。

磐鐳RTX 4070 乾坤OC顯卡在1080p分辨率下能達到870幀以上的成績,不過受到CPU瓶頸制約,與2K成績沒有拉开,4K分辨率下,也能穩定在370幀左右。

另外《無畏契約》遊戲內提供了減少延遲技術,所有分辨率測試均开啓Reflex + Boost選項,可以看到即便在4K分辨率下,延遲也僅有2.6ms左右。

在《極限競速:地平线5》中,磐鐳RTX 4070 乾坤OC顯卡相比RTX 3070 Ti提升明顯,在1080p分辨率下提升達到27%;而在2K分辨率下提升爲28%,4K分辨率提升爲31%

《光明記憶:無限》的光追測試軟件是獨立於遊戲的測試工具,比遊戲中用到的光线追蹤技術更多,測試條件爲“RTX最高/DLSS質量”。所以測試幀數相對較低,但實際遊戲配置相當親民。

磐鐳RTX 4070 乾坤OC相比RTX 3070 Ti在1080p下提升33%;2K下提升26%;4K下提升15%。

在另外一款國產遊戲《邊境》的跑分軟件中,情況基本與《光明記憶:無限》相同,測試條件均在“RTX最高/DLSS質量”下進行。

在《刺客信條:英靈殿》中,磐鐳RTX 4070 乾坤OC顯卡相比RTX 3070 Ti的提升分別爲:1080p提升13%;2K提升15%;4K提升20%,綜合提升16%

在傳統的3A遊戲中RTX 4070整體提升並沒有光追遊戲來的多,所以看來NVIDIA這些年潛心研究的光追和DLSS還是非常有用的。

最後的測試中本該測一下“跑分軟件”《賽博朋克2077》的,不過最近遊戲更新幾次後,崩潰問題愈發明顯,到現在已經完全無法進遊戲。所以我們只能看看早先的截圖,體會一下不同的光影模式。




從上至下依次爲超級畫質/光追超級/光追過載。可以看到光追過載相比光追超級更貼近於真實效果。它模擬了真實的光线路徑,其實相比之前的光线追蹤模擬了更多光线在不同表面的反射,完整的計算出了場景的真實光照,避免了上一代光追中出現“死黑”的情況。

這也是NVIDIA致力於打造的下一代光追場景,但是截止目前它對硬件計算的需求太過龐大,即便是旗艦顯卡,也無法在4K分辨率下流暢運行。

6  Stable Diffusion AI繪畫測試

除了遊戲之外,AI也是目前大火的領域,尤其以Stable Diffusion爲最,現在很多AI生成的圖片完全能夠以假亂真,下面我們也來測試一下RTX 4070在這方面的表現。

Stable Diffusion可以說幾乎沒有門檻,但本地部署的繁瑣程度勸退了很多用戶。上圖爲操作界面用戶可根據自己想要生成的圖片細節豐富關鍵詞。


按照NVIDIA提供的關鍵詞,我們生成了10批,共20張圖片,上面挑選了兩幅細節比較合理的進行了展示。

RTX 4070運算時間 2m24.79s 約合 7.2秒一張圖

RTX 3070 Ti運算時間2m54.34s 約合 8.7秒一張圖

Stable Diffusion對於顯卡的要求比較高,這就需要顯卡擁有較強的Tensor算力。

另外它對於顯存的要求非常高,如果有條件的話盡量選擇大容量顯存的顯卡。

我們對比了RTX 4070和RTX 3070 Ti在相同設置下的運算時間,兩款顯卡在生成20張圖片的時間差距爲30秒,差距還是比較大的。

另外我們也測試了使用CPU,在相同設置下生成圖片,但如圖片所示,保守估計需要3小時30分左右。

並且在使用CPU渲染時經常會提示內存不足,不過我們的測試平台爲最旗艦的i9-13900K,內存爲D5 7200MHz 32G(16G*2),可見一款趁手的顯卡對於追趕潮流也是很重要的。

7 AV1編碼測試

本次AV1編碼測試選擇了剪映專業版,它可以輸出H.264/HEVC/AV1三種編碼格式的視頻。



剪映專業版目前自帶AV1編碼輸出,在實際測試中,我們導出一段1分鐘左右的視頻。可以看到兩個文件容量相差103MB。


由於AV1編碼特性,生成文件的比特率更低,但視頻清晰度則完全相同。所以如果生成同比特率,同容量的文件,AV1將會更清晰。


我們通過NVIDIA ICAT來進行兩段視頻的畫面對比,圖中左側爲H.264編碼,右側爲AV1編碼。在100%的細節對比中,幾乎看不出任何區別。

8  RTX VSR(RTX Video Super Resolution)測試

目前RTX VSR(RTX Video Super Resolution)已經在部分瀏覽器中進行測試,首先玩家需要更新到NVIDIA最新驅動,在NVIDIA控制面板中的【調整視頻圖像設置】可以看到最新的RTX 視頻增強超分辨率。

RTX VSR是 AI 圖像處理的突破,它超越了傳統的邊緣檢測和特徵銳化技術,極大地提升直播視頻內容的質量。

开啓RTX VSR不僅需要最新版驅動,還需要使用RTX 40或30系列GPU,並且幾乎適用於Google Chrome和Microsoft Edge瀏覽器中的所有視頻內容(瀏覽器也需要更新到最新版本)。

开啓後,目前已知的打开YouTube或者B站,都可以享受到RTX VSR效果的加成。

如果不確定,在全屏播放視頻時,可以打开任務管理器,看到GPU負載增加,即爲开啓成功。

(點擊放大查看原圖)

我們打开YouTube隨意觀看視頻,在打开RTX VSR後,可以清晰明顯的看到水下珊瑚的質量明顯提高,邊緣更爲清晰,並且極大減少了失真現象。

9 溫度及功耗測試

功耗測試中,我們選擇FurMark軟件進行拷機測試,並採用GPU-Z檢測溫度,功耗僅計算顯卡自身。

可以看到磐鐳RTX 4070 乾坤OC這張顯卡對於溫度的控制非常不錯,通過40分鐘左右的拷機測試,溫度一直控制在61℃左右,熱點溫度在74℃左右。

遊戲動態功耗測試

值得一提的是,本次我們在拷機測試中最大板載功耗爲200W左右,TDP達到了100%。但在實際遊戲測試中,大部分3A遊戲均低於額定功耗。

所以在實際的使用過程中,由於不同遊戲負載不同,GPU的實際功耗是動態變化的,類似於FPS隨時間的變化,RTX 40系列很難觸及功耗牆。

磐鐳RTX 4070 乾坤OC 3A遊戲平均功耗爲187W

RTX 3070 Ti 3A遊戲平均功耗爲288W

在實際的遊戲功耗測試中,我們選擇《光明記憶:無限》自帶benchmark,畫面設置爲光追最高、4K分辨率,來強行拉滿兩張顯卡的性能極限,檢測我們實際應用場景的功耗。

可以看到兩款顯卡雖然均爲70級別,但磐鐳RTX 4070 乾坤OC平均功耗爲187W,而RTX 3070 Ti則是288W低了100W左右,這的確是一個驚人的成績。

10 壺中日月 方寸乾坤

磐鐳這款RTX 4070 乾坤OC顯卡整體測試下來,給我最大的感覺在於外觀設計上的驚喜,畢竟RTX 4070作爲一張5月份發布的顯卡,性能大家已經知悉。

這張顯卡整體融合了像素風和馬賽克風格,整體看起來清新淡雅,但卻內藏玄機。尤其是卡身設計中隱藏的“乾坤”概念,不止停留在系列名稱上。

性能上,RTX 4070可以在3A遊戲中,2K分辨率下達到百幀的成績。至於4K,目前大部分獨立遊戲或者網遊也都沒有問題。

在整體RTX 40系顯卡中,最有意義的升級在於功耗下降。中端顯卡採用單8pin供電,這在RTX 30系中還挺讓人奢望的。而且同級別產品功耗下降100W,綜合性能提升20%左右,的確稱得上升級迭代。

目前磐鐳RTX 4070 乾坤OC的日常售價爲4599元,參與滿減最終到手4499元。相比官方建議的4799低了300元,還是非常實惠的,而且它本身的設計,有興趣的朋友不妨看看。

11 附錄1-NVIDIA Ada Lovelace架構解析

Shader Execution Reordering (SER)着色器執行重排序

SER主要的作用是提升着色器性能,它可以將效率低下的工作負載,動態重組爲更高效的工作負載。主要針對光线追蹤的性能提升非常大。

簡單地說,GPU在執行類似工作的時候效率最高。但隨着光追效果越來越強大,每個場景可能有數百萬條光线照射在不同材質上,而我們知道不同材質的反射率,以及反射效果也是不同的。所以這樣就爲着色器創建了大量的、發散的,效率低下的工作負載。

SER則可以將這些雜亂的指令重新分門別類,動態重組爲更高效的工作負載。根據NVIDIA的說法,SER可將着色器性能最多提升2倍,並將遊戲幀率最高提升25%。

舉個簡單的例子,當光线第一次從發射端到碰撞端是非常有規律的射线,而碰撞到物體後的二次光追,則會出現大量發散的、無規律的反射,這對於光追負載是非常高的。而從圖中便能看到,SER可以將這些指令進行二次排序,以發揮出着色器的最大性能。

不過好在這么實用的功能並不是RTX 40系的專利,它是一個易於集成的SDK,目前需要遊戲开發商集成在遊戲中。另外由於它是一個通用的邏輯,後續也有可能直接集成在Windows的API中,這樣遊戲开發者就無需特意引用,直接調用系統API即可。

可以說SER對於手持RTX 20系及以上(能夠开啓光线追蹤)的N卡用戶來說,是極大地福音。畢竟免費提升的光追性能,誰不喜歡呢。

第三代 RT Cores

RT Core的作用在於更快的光线追蹤計算能力,如果說在RTX 30系顯卡中,想要暢享4K高幀率遊戲有點喫力,那么RTX 40系顯卡中,將顯得輕而易舉。

在GeForce RTX 4090這張顯卡上,達到了191 RT-TFLOPs的處理能力,而RTX 30系顯卡最快處理能力爲78 RT-TFLOPs,足足爲2.4倍。並且根據NVIDIA的官方說法,第三代RT Core的峰值RT-TFLOPs相比於前代提高了2.8倍。而這只能說明,這張4090並非Ada Lovelace架構的最終形態。

Opacity Micro-Map Engines

在第三代RT Cores中引入了兩個重要的硬件單元,首先是Opacity Micro-Map Engines,可以理解爲微映射透明度引擎,它主要的作用是優化光线追蹤渲染,可大幅減輕着色器的工作負擔。

比如樹葉之類的復雜物體,不同的光线都會影響它的表現狀態,以及樹葉之間的光线反彈,所以對於光线追蹤的計算量是巨大的。

不過Opacity Micro-Map Engines可以將光线追蹤特性烘焙到不透明蒙版中,所以那些不規則形狀和半透明的對象,也就能夠更快更精准的渲染出來,從而極大減輕着色器的工作負擔。

Displaced Micro-Mesh Engines(DMM)

Displaced Micro-Mesh Engines可理解爲微網格置換引擎,它構建光线追蹤的BVH(Bounding volume hierarchy)的速度提高了10倍!所使用的的顯存減少了20倍!

DMM由第三代RT core本地處理,與前幾代相比,它只使用基本三角形渲染復雜幾何圖形,極大減少了存儲和處理需求。

具體的工作原理從圖中一目了然,新的DMM可以將面數非常多的復雜圖形做簡化,創造出簡單的模型,但整體的光线追蹤效果不變。

通過一些模型數據我們可以具體看到,新的DMM將模型簡化了多少。原本1100萬三角面的模型,經過簡化後,只有15萬左右的微網格,BVH的構建速度提升了8.5倍,小了6.5倍。

而這還不是最誇張的,越復雜的模型往往優化的效果越好,在官方展示的這幾組對比示例中,最快可提升大於15倍的速度,容量簡化20倍的模型。

第四代 Tensor Cores

除了光追單元的升級外,第四代張量核心的升級更加恐怖。它採用了新的FP8張量引擎,在旗艦型號RTX 4090顯卡上,吞吐量達到了1.32 Tensor petaFLOPs,提高了5倍。

注意這裏的單位——petaFLOPs。以往的TFLOPs爲萬億次浮點運算,而petaFLOPs則爲千萬億次浮點運算。

而在中端的RTX 4070上也達到了驚人的466 Tensor-TFLOPS,相比上一代RTX 3070 Ti,擁有2.7倍左右的提升。

DLSS 3

本次推出的DLSS 3也是RTX 40系一大賣點,從DLSS 2.3直接邁入了DLSS 3版本,也能看出此次的升級之大。而DLSS 3也被NVIDIA官方稱爲神經網絡渲染新時代。

全新的DLSS 3在原有的DLSS超分辨率的基礎上,添加了光學多幀生成技術,以生成全新的幀,而不像原來只能生成像素。

DLSS 3結合了DLSS超分辨率、DLSS幀生成和NVIDIA Reflex這三大技術,能夠重建八分之七的像素,極大提高性能。

在GPU受限的遊戲中,比如2K分辨率及以上的更高分辨率,DLSS 2能夠將幀率提高2倍,DLSS 3則能夠提升4倍。

本次DLSS 3跨越了一個大版本,從想法和原理上也再度升級,完全“猜想”1幀的技術,我們解釋起來簡單,但實施起來需要大量的推理與演算,以及絕對超前的想法。

不過“憑空”生成的1幀,在延遲上絕對要比DLSS 2高。所以此次完整的DLSS 3中,捆綁了NVIDIA Reflex,可以有效幫助減小延遲。

這也不負NVIDIA給它起了個“神經網絡渲染新時代”的名號。縱觀目前市面上的XeSS、FSR技術,DLSS絕對稱得上“巨人的肩膀”。當然,連年的創新,苦的是手持上一代顯卡的玩家,想體驗DLSS 3的幀生成,目前唯一的辦法就是購入一張RTX 40系顯卡。

New Optical Flow Accelerator

New Optical Flow Accelerator光流加速器是在第四代Tensor Cores中最新引入的,這也是爲何DLSS 3中的幀生成爲RTX 40系顯卡獨享。

光流加速器在原本DLSS 2的基礎上,還可以計算兩個連續幀內的光流場,能夠捕捉遊戲畫面從第1幀到第2幀的方向和速度,從中捕捉粒子、反射和光照等像素信息。並分別計算運動矢量和光流來獲得精准的陰影重建效果。

以《賽博朋克2077》爲例,在第一幀,光流加速器會捕捉到每一個像素中的粒子、反射和光照等信息。並在第二幀中查找匹配的像素區域,計算幀之間的差值。

如果說原來DLSS 2能夠“猜”出一張圖剩下的像素,那么DLSS 3除了這些,還能夠“猜”出下一幀的畫面。

另外由於DLSS 3的幀生成是在GPU中處理和運行的,所以即使遇到CPU瓶頸的遊戲,AI同樣能夠提升幀率。這也是爲什么在此次發布會中說到,DLSS 3能夠突破CPU的限制來提升幀數。

AV1編碼器

本次升級的第八代NVENC編碼器可以說是直播、視頻、後期工作者的極大福音。它首次加入了對AV1編碼的支持,最顯而易見的效果就是直播。

相比傳統的H.264編碼,AV1編碼的效率平均提升了40%,在同碼率下AV1編碼的畫質將更好。目前大部分直播的分辨率和清晰度,均受限於平台規定的最大比特率。以Twitch限制的8Mbps爲例,可以看到在同等帶寬下,同爲2K 60幀的畫面,採用AV1編碼的清晰度明顯比H.264更高。

說起直播,OBS相信大家都不陌生,在10月份即將發布的補丁中,OBS就加入了對NVENC的AV1編碼支持

當然,直播只是我們更容易見到的AV1優勢,在視頻工作的所有環節,AV1編碼都可以帶來極大提升。

所以,如圖所見。NVIDIA已經爲廣大用戶鋪好了一條完整的生態鏈,從編碼API、軟件、平台到播放器,將全面支持AV1編碼。

另外再說一下NVIDIA一直強調的在RTX 4070 Ti及以上型號配置的雙AV1編碼。顧名思義,即部分顯卡內搭載了兩個編碼器,它所帶來的效果也是顯而易見的。

首先,根據官方宣傳的,在4K H.265的導出速度上,RTX 4090是RTX 3090 Ti的2.2倍;在8K H.265的導出速度上更是達到了2.5倍。這部分的提升,大家常用的剪映同樣適用,感興趣的用戶不妨親自體驗一下。

除了導出速度,8K 60幀的視頻錄制在以前簡直難以想象,而雙編碼器的好處就是可以將圖像一分爲二,兩個編碼器分別處理7680×2160的圖像信息,最後拼合完整。

關於編碼部分,可能大部分用戶的感受不深,但當有一天,你想錄屏的時候,卻發現顯卡不支持,才會發覺它的重要性……

隨着圖像逐漸進入到超清時代,硬件編碼和渲染幾乎已經成爲不可或缺的幫手。雖然論質量,硬件編碼仍不及CPU軟編,但軟編做到了極限畫質,也要承受時間的無窮長。甚至在一張8K渲染圖中,兩種編碼方式的時間差距就已經達到了幾個小時,遑論一段10秒的CG動畫。在不斷進步的硬件編碼中,質量和時間也在不斷地被挑战和刷新。

12 附錄2-Ada Lovelace是誰?

Ada Lovelace(1815-1852)是英國數學家、計算機程序創始人,建立了循環和子程序概念,被稱爲世界上第一位程序員

Ada從小對數學有極高天賦,其父稱她爲“平行四邊形公主”,後來的合作夥伴Charles Babbage稱她爲“數字女巫”。在19歲時Ada嫁給了自己曾經的科學家庭教師,婚後的她對數學熱情不減。

1842年到1843年花了9個月時間翻譯了Babbage的《分析機概論》的備忘錄,寫了很多注記,其中給出了用計算機進行Bernoulli數求解的詳細說明。由此,Ada被廣泛認爲是世界上第一個程序員。

而以她名字命名的語言——ada語言,已經成爲了美國軍方开發战鬥機等尖端武器的語言。

從幾行簡短的生平簡介中,不難看出Ada的生命雖然只經歷了短暫的37個春秋,但卻足以被後人銘記。

這也是爲什么此次NVIDIA RTX 40的先行宣傳中,用到了“以未來敬傳奇”的slogan。



標題:磐鐳RTX 4070乾坤評測 壺中日月方寸乾坤

地址:https://www.utechfun.com/post/242107.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡