芯片功耗,走向拐點

2024-02-19 18:11:17    編輯: robot
導讀 基於所創建的 RTL 系統的功耗優化已經投入了大量精力,但這只代表了可能節省的功率和能源的一小部分。該行業轉向更密集系統的愿望受到熱量的限制,因此人們越來越關注重新架構系統以減少執行每個有用功能所消...

基於所創建的 RTL 系統的功耗優化已經投入了大量精力,但這只代表了可能節省的功率和能源的一小部分。該行業轉向更密集系統的愿望受到熱量的限制,因此人們越來越關注重新架構系統以減少執行每個有用功能所消耗的能源。

取得重大進展需要打破孤島。在許多情況下,它需要硬件和軟件、數字和模擬、或半導體架構師和封裝等團隊共同創建解決方案。沒有一個團隊可以完成所有工作,但一個團隊肯定有可能毀掉其他團隊所做的所有工作。

英特爾客戶端 SoC 架構研究員兼設計工程組首席技術官 Jeff Wilcox 表示:“功耗一直是並將繼續成爲主要限制因素。” “幸運的是,我們每年都能夠再剝離一層並取得長足進步。熱密度仍然是一個挑战,並導致越來越多的布局限制,特別是對於 CPU 和熱密度較高的區域。我們在熱點熱問題和持續熱問題方面都受到限制。”

在尋找新的封裝解決方案時,挑战變得更加嚴峻。

“摩爾定律正在放緩,性能和功耗不再通過轉移到下一個技術節點而自動提高,”Synopsys 虛擬原型首席工程師 Tim Kogel表示。“爲了讓多芯片系統成爲繼續擴展的靈丹妙藥,小芯片的功耗需要在架構層面得到更多關注。由於封裝內芯片的幾何依賴性,不可能通過增加芯片面積和/或添加更多電源通孔來輕松“解決”功率密度問題。多芯片系統的電力傳輸網絡必須預先規劃,並且所有組件都需要遵守規範。”

它不再是後端優化任務。

“焦點已經從低功耗轉向能源效率,”Synopsys EDA 集團產品管理總監 William Ruby 說道。“你可能會考慮這樣的問題:‘我們是一直以特定的時鐘頻率運行,還是運行得更快然後停止?’ 雖然總平均功耗可能相似,但能耗卻不同。這就是它的真正來源,並且它是由不同的應用程序驅動的。每瓦性能在數據中心應用中絕對至關重要。”

能源需要設計。

“兩種不同的架構可以具有相同的能源足跡,但具有不同的功率配置,”西門子 EDA首席產品經理 Qazi Ahmed 說道。“高性能、小面積架構將具有高持續功耗的功率包絡,這可能會導致下遊的熱問題。能耗是數據表上的一項重要規格。任何優化功率的方法都必須提高整體能源效率。只有當所有所做的功都是有用的時,理論上的能量消耗才有可能。實際上,必須確保消耗的能量與完成的工作量成线性比例。從空闲情況到峰值情況的不同場景的能源比例圖可以揭示需要關注的低功率效率區域。”

這需要您更多地了解系統將如何使用。

“功耗不能在真空中定義,”Synopsys 的 Ruby 說道。“你必須說,這是我們的電源規格。這是我們在該設備最終將運行的工作負載或應用程序上下文中的功率目標。你可能有不同的目標和不同的工作量,开發團隊中的每個人都必須朝着這些目標努力。”

當目標應用程序未知時,這會變得更加困難。英特爾的 Wilcox 表示:“感覺每次我們都會碰壁,但不知怎的,我們確實設法突破了它——也許可以通過將 N-1 節點用於 GPU 之類的東西,這樣你就可以獲得更好的能效。”

“通過更廣泛的應用,我們可以利用晶圓價格稍便宜的舊工藝節省一些成本,並設計更大的 GPU。然後我們可以以更低的電壓和更慢的速度運行它,運行一台寬大的機器,而不是一台狹窄的高壓高頻機器。沒有一個規則。它通常基於目前的限制。”

有時必要的解決方案截然不同。Mythic 首席執行官戴夫·菲克 (Dave Fick) 表示:“在追求節能計算的過程中,人們的注意力正在轉向模擬計算。” “模擬計算因其卓越的信息密度而脫穎而出,這大大減少了對晶體管和電线的需求。該技術可以用減少 10 到 100 倍的組件來實現計算功能。因此,它可以顯着降低能耗、延遲和成本。關鍵是要確定‘模糊’處理與系統性能需求相一致的場景。”

1

存儲器

將數據從一種形式的存儲器傳輸到另一種形式的存儲器不執行有用的結束功能。將信息和計算結合在一起是一種不可避免的罪惡。幾十年來,這兩個要素之間一直存在性能和功耗牆,業界現在正在更深入地研究如何最大限度地減少甚至更好地消除這種情況。

減少浪費的電力變得至關重要。英特爾數據中心部門高級研究員 Sailesh Kottapalli 表示:“在計算方面應用了許多微架構技巧來降低計算實現能力。” “這已經取得了很大進展。但是,如果您在執行某些指令時進行功率分析,那么能量消耗在哪裏?數據移動,無論是來自緩存還是來自內存,都是其中的較大部分。減少數據傳輸能量是電源效率的下一個前沿領域。2.5D 和 3D 的一大優勢就是試圖減少這部分能量。”

該行業必須更加明智地最大限度地減少數據移動。Untether AI 硬件副總裁夏仁新表示:“數據傳輸的能源成本超過了計算的能源成本。” “以前確實如此,但隨着大型語言模型的出現,它變得更加嚴重。從我們的內部分析中,我們看到模型的大小和所需的計算之間的比率正在增加,但規模不同。移動數據和節能的能力變得更加重要。此前有報道稱,大約 90% 的能量都花在了數據傳輸上,而不是計算上。未來只會變得更加極端。”

一些不必要的數據移動是由於孤島造成的。“傳統上,我們在 GPU 和 CPU 內存之間進行隔離,”Wilcox 說。“他們沒有共享相同的記憶位置。這意味着您必須在同一物理內存系統中復制到同一系統中的另一個區域,以便 GPU 可以處理它。這是非常浪費的。我們正在與微軟合作實現共享虛擬內存等技術,我們可以繞過其中的一些技術並允許他們傳遞指針。然後他們可以直接對內存進行操作,而不是移動它。過去插入隔斷工作的一些剛性結構會帶來越來越大的懲罰,我們必須打破這些東西。”

人工智能正在考慮新的記憶組織。“隨着人工智能模型變得越來越大,不可能將所有東西都安裝在芯片上或本地,因此你必須將東西換入換出,”Untether 的 Xia 說。“然後你會嘗試更智能地處理數據移動。您優化移動的距離,嘗試構建網絡或芯片上的網絡,將數據移動到其最近的鄰居以進行神經網絡中層的操作,並嘗試最小化數據移動。即使會有一些交換,只要減少交換量,並減少它穿過芯片的距離就會有所幫助。”

近內存計算是多家公司正在使用的一項技術。Arteris產品管理和战略營銷高級總監 Guillaume Boillet 表示:“面對傳統半導體縮放帶來的回報遞減,爲了實現大幅節能,可能需要重新架構設計。” “這種重新架構可以包括從一刀切的處理器設計轉向包含專用處理單元組合的系統,並通過採用近內存或例如,內存計算可以降低數據移動的能源成本。”

在某些情況下,計算可以在內存中完成,完全消除了向處理器的移動。“內存中的模擬計算是如何在模擬計算中高效執行大量運算(例如點積)的一個例子,”Mythic 的 Fick 說道。“還有許多其他機會可以將計算添加到數據路徑中,以實現更密集、更快、更高效的計算。未來幾年看到各種類型的模擬計算將會令人興奮。”

2

後端減少

雖然有人說大多數大型優化都是在系統級別進行的,但仍然可以進行更多後端減少。“工藝節點通常爲我們提供較低的電壓,”Wilcox 說。“雖然我們沒有獲得我們已經習慣的一些擴展優勢,但每個工藝節點的功耗仍然在縮減。當我們努力降低 V min和 V max電壓時,我們已經從中受益。我們能夠繼續保持這種動力性能趨勢。”

系統需要繼續擴展。“使用二維硅,只能容納這么多的內存和計算,”夏說。“大多數公司確實有橫向擴展策略,例如一塊板上有多個芯片、一個系統中有多個板、一個機架中有多個系統。最終您應該能夠以二維方式擬合所有模型。另一種方法是垂直發展。通過垂直發展,跨越不同的芯片,我們可以使用不同的內存技術。我們可以利用 DRAM 等更密集的內存技術。這將使我們的記憶密度至少提高一個數量級。”

轉向 3D 還有其他優勢。ARM高級首席 CPU 架構師 Vincent Risson 表示:“最近出現了從單片 2D 集成設計轉向分解設計的轉變,這些設計映射到來自異構制造工藝的多個芯片,並使用先進的 2.5D/3D 封裝進行集成。” “這使得能夠在對能源效率最重要的領域有針對性地使用最新的工藝節點。先進的 3D 集成提供了通過提供更大的本地緩存或採用新的顛覆性內存技術來改變內存層次結構的機會,同時仍然保持低訪問延遲並降低下遊功耗。例如,在當今的雲計算中,我們看到的許多挑战都與計算密度有關。先進的 3D 集成不僅解決了標线限制,還通過爲 SoC 網絡架構提供額外的垂直維度來實現並行性。”

距離是關鍵。“互連本質上爲芯片提供了電容負載,並且該電容需要在信號轉換時充電和放電,”Synopsys 的 Ruby 說道。“動態功率的公式是電容乘以電壓平方乘以活動。當互連线變短時,電容就會減少,就像 3D 集成一樣。您可以使用 Activity 並僅在需要時發送數據。還有電壓。在低壓差分信號 (LVDS) 領域有一些工作,其中信號不會在芯片之間全面擺動,但它們本質上更接近模擬。電壓擺幅減小,因此與電容充電和放電相關的功耗也降低。”

垂直堆疊可以提供顯著的優勢。“在 3D 垂直堆疊方案中,我們的芯片之間有大量垂直連接,而不是所有東西都從受周邊限制的一側出去,”Xia 說。“我們可以在芯片之間封裝更密集的垂直互連。然後,由於距離很近,由於芯片彼此堆疊在一起,因此根據物理定律,您可以在每比特的皮焦耳基礎上獲得更好的能源效率。”

但這確實是有代價的。“芯片堆疊可能是一個真正的挑战,具體取決於您放置的內容,”Wilcox 說。“你在熱源和散熱器之間放置了更多的阻抗。與分解相關的一些電源問題對我們有幫助,我們可以將不需要的區域置於更高性能的流程中。我們可以將它們移至較舊的節點並利用這一點,但我們確實必須處理所產生的新問題。”

雖然使用新節點會有所幫助,但這會產生額外的問題。“新節點可能會提供傳統意義上降低的功率特性,但它們也會增加額外的开銷,例如毛刺功率,”西門子的Ahmed說。“較低技術節點的網絡延遲與門延遲的分布會因故障而導致不可預見的動態功率。這些可能高達 40%。爲人工智能加速器开發計算密集型邏輯的設計公司需要升級其現有的功耗方法,以確保考慮到故障功率以及緩解故障的方法。”

創造力仍然很重要。“電力輸送就是一個很好的例子,”Wilcox說。“你對瞬態的適應能力越強,那么你就不必將它們納入你的電壓裕度中。這些在功率方面確實非常昂貴。能夠找到方法來適應電流峰值的不確定性,這可能會導致電壓降到低於正常工作的水平,這意味着您不必保持更高的電壓來適應這種情況。這些類型的技術非常重要。它們可以像其他一些性感的大特徵一樣具有影響力。”

諸如此類的技術只有通過進行詳細分析才能成爲可能。“您可以實施芯片級電源技術,例如動態電壓和頻率縮放或電源關閉,”Ruby 說。“所有這些事情都需要考慮、分析和評估,權衡利弊。如果關閉一個塊,它不太可能在單個時鐘周期內喚醒。您需要給它時間來喚醒和初始化。與此同時,系統可能會等待這種情況發生。對性能也有影響。”

3

結論

雖然最大的收益可能是在系統級別獲得的,但在技術級別仍然有許多優化可用。沒有工具可以告訴您執行特定功能所需的理論最小功率,但這並不意味着沒有足夠的改進機會。其中一些可能需要創造性思維才能找到它們,而其他技術進步則可以實現系統級改進。



標題:芯片功耗,走向拐點

地址:https://www.utechfun.com/post/333725.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡