AI 晶片設計面臨的三大可靠度挑戰，如何突破？

2024-06-18 09:00:00 編輯： TechNews

導讀不想被大 AI 時代拋在後頭？確保晶片品質與可靠度是關鍵。而 AI 晶片面臨的三大挑戰：超高功耗、超低電壓、異質整合，你知道該怎麼迎戰嗎？ OpenAI 與 Google 日前於最新發表會中，揭曉了...

不想被大 AI 時代拋在後頭？確保晶片品質與可靠度是關鍵。而 AI 晶片面臨的三大挑戰：超高功耗、超低電壓、異質整合，你知道該怎麼迎戰嗎？

OpenAI 與 Google 日前於最新發表會中，揭曉了旗艦模型「GPT-4o」與「Project Astra」。當使用者與其對話時，不但可相互傳輸文字、圖像和音訊，甚至另一端的機器人還可以透過手機螢幕，描述出使用者身處的環境，並從使用者的口吻中，判斷出使用者的情緒，聊到開心之處甚至還會大笑和歌唱，溝通上完全就跟真人如出一轍。

AI 人工智慧技術是透過模擬人腦的類神經網路，經過深度學習，取得物件特徵參數，產生模擬人腦的判斷能力。這看似艱深的AI技術，早已走進大眾的日常生活，從生成式內容、自動駕駛、智能家居到醫療保健，從金融到製造業，應用廣泛且深具潛力。可以預見，AI 技術將繼續引領創新，成為推動產業發展的重要引擎。

除了演算法與大數據的演進與支援之外，硬體方面，AI 晶片依不同的應用領域，不斷往高效能、高頻寬或低耗電等特性演進（表一）。然而這些特點，不僅會影響 AI 晶片的效能與壽命，甚至，也造成 AI 晶片可靠度試驗設計手法、設備等，面臨極大挑戰。宜特可靠度驗證實驗室，為您歸納出 AI 晶片最常見的三大挑戰與解決辦法，本期宜特小學堂，將會逐一說明。

▲ 表一：AI 晶片應用種類。（Source：宜特科技）

一、AI 晶片最常見的三大挑戰

（一）雲端 AI 晶片的超高功耗挑戰：熱消散與熱平衡能力

資料中心的雲端 AI 晶片，肩負人工智慧的深度學習任務，必須提高效能運算，也因此將耗費大量電能，其單一顆晶片耗電量甚至超過 200W（瓦），伴隨產生的高熱，將使得晶片老化速度加劇。

因此，一年必須連續工作365天的雲端運算 AI 晶片，對老化產生的可靠度問題更需審慎評估。

可靠度測試原理必須抽樣（sampling）一定數量的 IC 做實驗，來預估整個母體的生命週期與故障機率。通常抽樣的數量為 77 顆，當 77 顆數百瓦的晶片，一起在一台可靠度系統設備做 1000 小時的可靠度測試時，上萬瓦的功率熱能，將嚴格考驗可靠度測試系統的熱消散與熱平衡能力。

唯有精準的熱消散與熱平衡能力，才能讓每一顆晶片在執行各種不同運算模式時，晶片都能維持穩定的 Junction 溫度（Tj）（PN接面溫度），如此才能夠準確預估 IC 的生命週期。因此，高效能雲端 AI 晶片所產能的熱能，該如何消散與控制，將是 IC 可靠度實驗設計面臨的一大挑戰。

（二）終端 AI 晶片的超低電壓挑戰：多組系統電源需求，挑戰可靠度測試極限與硬體解決方案

終端 AI 晶片除了需要高運算效能之外，還必須具備低耗電特性，以滿足其應用環境的需求。例如，行動裝置、物聯網（IoT）裝置、無人機、電動車自駕輔助等，皆仰賴電池供電，因此低功耗設計至關重要。

隨著半導體製程不斷進步，相同邏輯閘數下的動態電流越來越省電。然而，尺寸微縮的物理特性效應，卻導致電晶體靜態漏電流增加。摩爾定律指出，每兩年電晶體面積可縮減一半，但這並無法讓晶片的功耗密度減半，相同面積的晶片將會消耗比以往更大的電流。

為了降低功耗，除了採用低工作電壓設計之外，多工作電壓與多閘極電壓的設計也十分常見。然而，對於可靠度測試系統而言，動輒 10 組以上的系統電源需求，將挑戰可靠度設備電源數目的極限。

同時，1V 或甚至低於 1V 的主電源（core power）低工作電壓，將使得 IC 電源的餘裕度（power margin）縮小，電路板上的電壓降（power IR drop）或者電源漣波（power ripple），更容易造成 IC可靠度測試出錯。電壓降不僅發生在主電源，因為主電源的降低，部分邏輯閘訊號源（Pattern）電壓準位，也需要同步降低，這進一步造成硬體設計與測試上的困難，在在考驗著可靠度測試系統能力與硬體設計。因此規劃一個符合終端 AI 晶片需求的高溫工作壽命（High Temperature Operating Life，簡稱HTOL）可靠度測試環境，從設備選擇、PCB電路板模擬與製作，各種細節與設計上的考量，皆必須較一般邏輯 IC 更為嚴謹。

（三）異質整合挑戰：熱消散路徑複雜化

異質整合（heterogeneous integration）是 AI 晶片中的一項重要技術。為了加快不同晶片間的傳輸頻寬，不同製程的異質晶片被整合在一個封裝內，常見的有高帶寬記憶體（High Bandwidth Memory，簡稱 HBM）、感測器（sensor）、微機電系統（Micro-Electro-Mechanical Systems，簡稱MEMS）和天線（antenna）等。經由矽通孔（Through-Silicon Via，簡稱TSV）、重分佈層（Redistribution Layer，簡稱RDL）、凸塊（bump）和中介層（interposer）等製程手法，這些晶片可以並排或堆疊起來（如圖一所示）。這將大幅度提升異質晶片間的資料傳遞效率，並降低耗電量。

但是，這種複雜的異質封裝堆疊架構，熱產生與熱消散路徑亦隨之複雜，例如較大功耗晶片不一定位在封裝中心位置，各個晶片厚度亦可能不盡相同，這將使得晶片產生的熱消散與熱感測方式不同於傳統封裝，如何在可靠度測試時正確量測與監控晶片溫度變得更具挑戰。

▲ 圖一：異質整合晶片。（Source：宜特科技）

綜上所述，如何面對熱消散與熱平衡能力、測試系統的電壓極限，以及異質整合的熱消散路徑複雜化，是在進行可靠度設計驗證時，必須克服的關鍵。對此，宜特可靠度驗證實驗室提出如下建議。

二、如何克服AI晶片的可靠度挑戰

（一）利用液態冷卻系統，穩定控制高功耗AI晶片產生的熱能

散熱設計功率（Thermal Design Power，簡稱 TDP），是 CPU 晶片對主機板「散熱能力」的要求規格。目前桌上型電腦 CPU 的 TDP 規格最高在150瓦（W）左右，電競玩家為了維持 CPU 長時間高效高頻工作，往往升級主機板、散熱片、風扇等等配件，使得升級後的系統散熱能力高於 TDP 要求，讓 CPU 能長時間高頻工作，而不會發生過熱降頻，甚至休眠等問題。

但是伺服器及 HPC 等雲端 AI 晶片，當前 TDP 規格已達 200W 以上超高發熱功耗。而晶片因封裝結構與材料等因素，已難以使用空氣對流當散熱媒介，將晶片 junction 溫度控制在目標值。

尤其是在可靠度測試中，要求的目標溫度高達 125°C，這遠遠高於桌上型電腦的 70°C。通常在 125°C 時，晶片的功耗牆已經處於解鎖狀態，因此稍有不慎就可能導致晶片因高溫而燒毀。因此，當對如此高功耗的IC進行高溫可靠度測試時，測試系統必須具備更快速的散熱能力。

宜特可靠度驗證實驗室的解法是，利用更高效的液態冷卻控制調節系統（Liquid cooling system），搭配客製化液態循環 socket（圖二），此系統利用液態熱交換速率優於氣態的特性，以及即時監控晶片溫度與調節液態流速等方法，穩定控制超高功耗 AI 晶片產生的熱能，成功收集可靠度實驗數據。

▲ 圖二：液態冷卻系統（Liquid cooling socket）。（Source：Enplas）

（二）熱二極體監控電路，監控 IC 本體溫度

雲端 AI 晶片的超高功耗，在進行可靠度測試時，容易因晶片本體溫度波動太快，導致無法及時消散熱能，造成產品非預期性故障，例如熱失控（Thermal Runaway）。因此，當 IC 內建熱二極體（thermal diode）元件時，宜特可靠度系統與可靠度測試板設計，可以客製化熱二極體（thermal diode）監控電路，來監控 IC 內部溫度，將可監測到最即時與準確的接面（junction）溫度（圖三）。

此作法反應速度快，搭配前面提到的高效液態冷卻控制調節系統，更適合超高功耗 AI 晶片快速溫度變化，藉以提供即時熱消散動作。此外熱二極體（thermal diode）監控電路，可針對 3D 封裝的多晶體（multi-chip）結構下，獨立量測出各個晶片的溫度，以達到更精確的可靠度數據收集。

▲ 圖三：IC 熱二極體（thermal diode）監控電路圖例。（Source：宜特科技）

（三）客製化治具，貼合高低不同的裸晶（die）

AI 異質整合晶片，裏頭的裸晶（die）高低不同，因此，在可靠度驗證測試的治具準備，必須依照不同的晶片，客製化 IC socket（測試座）和散熱系統（heat sink）和熱感測元件（sensor），才能夠緊密貼合高低不同的裸晶（die），藉此增加熱消散能力，溫度量測與監控才能更準確（圖四）。

▲ 圖四：客製化 IC 測試 socket。（Source：宜特科技）

（四）測試電路板超前模擬，免去生產組裝後效能不符

AI 晶片採用先進製程，超低的工作電壓已來到 1V 以下。然而，當高電流經過電路板走線時，容易在電路板上產生由低到高的壓降（DC IR drop）（圖五），IR drop 將壓低原本已超低的工作電壓，容易使得 AI 晶片因電源電壓餘裕度（Power voltage margin）不足而失效。

此外，當 IC power 抽載大電流時，也會產生各種頻率的 SSN（Simultaneous Switching Noise）。

而電路板的電源層阻抗（Power plane impedance），在各種不同抽載頻率下，因本身佈線（layout）因素可能反映出高低不一的阻抗（impedance）值（圖六），當阻抗值在某個頻率下超越目標值時，就會造成嚴重雜訊（Power AC noise）與漣波（Power ripple），也會使得AI晶片因電源雜訊餘裕度（Power noise margin）不足而失效。

另外，在傳統的電路板設計中，由於在同一電路板上放置多顆晶片，每顆晶片的佈線（layout）難以完全一致，導致晶片間測試電性存在差異，亦提高了設計與測試的困難度。

為了解決此問題，宜特可靠度實驗室跳脫傳統電路板設計思維，採用新的 BI 模組（Burn in module）設計理念，將電路板從原本的一板測試數顆晶片，微縮至僅測試單顆晶片。搭配目前許多佈線（layout）輔助設計工具，即可在可靠度電路板設計初期，經由軟體分析模擬，調整電源走線長短寬窄、灌孔點大小與數目、解偶合（decoupling）電容值與放置位置等，改善工作電壓與訊號源 IR drop 與電源層阻抗等問題，避免測試電路板於生產組裝完成後，才面臨效能不符問題。此外，電路板設計微縮至單顆晶片，在測試老化實驗時，能協助客戶以個別待測物（Devices Under Test, 簡稱 DUT）取得更多的實驗參數，同時能針對各晶片的電晶體靜態漏電流的不同，分別進行測試參數設定，進一步提升 AI 晶片的測試品質。

▲ 圖五：IR drop的模擬測試。（Source：宜特科技）

▲ 圖六：電源層阻抗的模擬測試。（Source：宜特科技）

三、AI 晶片可靠度解決方案速查表

統整以上問題和解法，宜特可靠度驗證實驗室從多年經驗中，為您製作一張圖表（表二），讓您快速了解 AI 晶片面對不同可靠度挑戰時的解決方案。

▲ 表二：三大類 AI 晶片可靠度設計驗證速查表。（Source：宜特科技）

宜特可靠度驗證實驗室從早期面對一般消費型晶片、車用晶片、5G 晶片，到現今的 AI 晶片，已累積相當多的實戰經驗，可解決 AI 晶片可靠度試驗設計時面臨到的超高功率、超低電壓，以及異質整合等問題，可以提供您精確的溫度電壓等可靠度測試數據，提升 AI 晶片的可靠度。

本文與各位長久以來支持宜特的您，分享驗證經驗，若您還有進一步的問題，請洽 +886-3-579-9909分機 6428 徐先生（Bear） Email：、