近期,人工智能領域取得又一突破性進展,OpenAI官方隆重推出了其最新力作——模型o1。這款模型的最大亮點在於,它融合了強化學習(RL)的訓練方法,並在模型推理過程中採用了更爲深入的內部思維鏈(chain of thought,簡稱CoT)技術。這一創新性的結合,使得o1在物理、化學、數學等需要強大邏輯推理能力的學科領域內,實現了性能的顯著提升。
OpenAI的這一成果,無疑爲人工智能領域樹立了新的標杆。RL+CoT的範式,不僅在效果上顯著增強了模型的強邏輯推理能力,更爲後續國內外大模型廠商的研發方向提供了新的思路。可以預見,在未來的日子裏,沿着RL+CoT這一新路线,各大廠商將持續迭代模型,推動人工智能技術邁向新的高度。
01. 重心由預訓練轉移到後訓練和推理
2020年,OpenAI提出的Scaling Law爲大模型的迭代奠定了重要的理論基礎。在o1模型發布之前,Scaling Law主要聚焦於預訓練階段,通過增加模型的參數數量、擴大訓練數據集以及提升算力,來增強模型的智能表現。然而,隨着o1模型的推出,OpenAI揭示了在預訓練Scaling Law的基礎上,通過在後訓練階段引入強化學習(RL)並在推理過程中增加長內部思維鏈(CoT,意味着更多的計算步驟),同樣能夠顯著提升模型的性能。這表明,Scaling Law不僅適用於預訓練階段,還能在大模型的後訓練和推理階段持續發揮作用。
具體來說,o1模型在編程、數學和科學領域的能力都得到了大幅提升。在Codeforces編程競賽中,o1模型的表現超過了83%的專業人員;在數學競賽方面,以AIME 2024爲例,GPT-4o平均只能解決12%的問題,而o1模型平均能解決74%的問題,若採用64個樣本的共識,解決率更是能達到83%;在科學能力方面,對於博士級的科學問題(GPQA Diamond),GPT-4o的精確度爲56.1%,人類專家水平爲69.7%,而o1模型則達到了78%,超越了人類專家的能力。
o1模型的問世,爲下一步大模型的訓練和迭代提供了新的參考範式——即RL+CoT。從定性角度看,RL+CoT需要更多的訓練和推理算力。在o1模型之前,如GPT-4o等模型主要經歷了預訓練和後訓練(基於人類反饋的強化學習RLHF)兩個階段,推理則採用單次推理或短CoT。然而,o1模型在預訓練階段的算力變化可能並不大,主要目的是保證模型具有較好的通用能力。在後訓練階段,由於採用了RL,模型需要通過不斷搜索的方式來迭代優化輸出結果,因此算力消耗有望上升。在推理階段,o1模型在RL訓練下學會了內部長CoT,推理所需的token數量明顯增長,因此推理算力相比之前的單次推理或短CoT也顯著上升。
綜上所述,在新的大模型訓練範式下,從定性角度看,模型需要更多的訓練和推理算力來支持其性能的提升。
02. 算力和應用端或值得關注
目前升級版的AI大模型主要聚焦於強化邏輯推理能力,通過實現完整的分步驟推理過程,可以顯著提升回復的邏輯性和條理性。這一升級預示着Agent Network的初步框架即將形成,對於那些需要更嚴密邏輯處理的B端用戶,有望率先從中受益。同時,隨着系統對復雜實際環境中邊緣場景的處理能力得到增強,其應用範圍和效果也將得到進一步提升。
華泰證券分析指出,RL+CoT的訓練範式不僅延續了預訓練階段的Scaling Law,還進一步將其擴展到了後訓練和推理階段。在預訓練算力保持相對穩定的情況下,RL後訓練和CoT推理將催生新的算力需求。這些需求的具體規模將取決於RL搜索的深度、CoT的內在長度以及推理效果之間的平衡。由於RL+CoT實際上爲行業內的其他模型开發商設定了下一代模型迭代的基本框架,預計這一範式將被廣泛採納,從而帶動訓練算力需求的顯著提升。在此背景下,建議投資者關注與算力相關的企業,如博通、滬電股份、工業富聯等。
此外,盡管o1模型目前主要解決的是數學、代碼和科學領域的推理問題,但其核心在於構建模型的CoT能力。CoT作爲推理的重要手段,有望在端側結合用戶的更多私有數據進行應用。蘋果AI Agent被視爲實現CoT能力的理想計算平台。因此,建議投資者關注與蘋果產業鏈相關的企業,包括立訊精密、鵬鼎控股、水晶光電、歌爾股份、藍思科技、東山精密、長電科技等。
最後,o1模型展現出的強邏輯推理能力有望擴展到更廣泛和通用的領域,並且在推理性能上相較於前代模型有顯著提升。這意味着基於o1及後續大模型的AI應用和Agent有望在能力上實現本質性的超越。因此,建議投資者關注核心的AI應用企業,如微軟、奧多比、金山辦公、泛微網絡、螢石網絡等。
原文標題 : AI大模型的轉折點,關注哪些機遇?
標題:AI大模型的轉折點,關注哪些機遇?
地址:https://www.utechfun.com/post/430112.html