GPT-5前瞻！GPT-5將具備哪些新能力？

2024-01-16 18:40:19 編輯： robot

導讀作者：小巖編輯：彩雲 Sam Altman在整個AI領域，乃至整個科技領域都被看作是極具影響力的存在，而2023年OpenAI無限反轉的宮鬥事件更是讓Sam Altman刷足了存在感，他甚至被《時...

作者：小巖

編輯：彩雲

Sam Altman在整個AI領域，乃至整個科技領域都被看作是極具影響力的存在，而2023年OpenAI無限反轉的宮鬥事件更是讓Sam Altman刷足了存在感，他甚至被《時代》雜志評爲“2023年度CEO”。

也正因此， Sam Altman的一條推文，瞬間就可以成爲轟動整個AI行業的信號，特別是當這條推文還與萬衆期待的“GPT-5”有關的時候。

2023年平安夜，Sam Altman在社交平台大膽公布了2024年的雄心壯志。他所發表的關鍵詞不僅涵蓋了2024年OpenAI的整體規劃，更契合了用戶的迫切需求。這其中包括：

AGI（請耐心等待）

GPT-5　

更好的語音模式

更高的費率限制

更好的GPT

更好的推理

對工作/行爲程度的控制

視頻

個性化

更好的瀏覽

“使用OpenAi登錄”

开放源代碼

Sam Altman透露，OpenAI計劃在接下來的一年內實現多個令人矚目的裏程碑。其中所涉及到的內容，不僅僅一次簡單的技術更新，更是一場至關重要的AI變革。當然，最受關注的，還是GPT-5。

AI領域的开源與閉源之爭：類似於Android與IOS之爭。

對於AI界來說，大家除了關心 GPT-5能否在技術壁壘上有所突破，更關心一個重點：GPT-5能否實現开源？

大模型的开源和閉源之爭一直是行業內爭論的焦點，這種爭論，與移動互聯網時代的Android與IOS之爭有異曲同工之妙。有意思的是，各個AI大廠對於开源還是閉源的選擇也不盡相同。

目前拔得頭籌的OpenAI的GPT-4和百度的文心一言都堅持閉源，Meta選擇了开源的道路，相繼面向“學術研究用途”开源了LLaMA和LLaMA-2模型。百川智能則兼具开源和閉源，在學術領域選擇了开源，使用7B和13B兩種尺寸的大模型；商業探索上將53B閉源，以保護商業利益和技術的競爭優勢。

GPT的閉源，爲OpenAI帶來了可觀的收入。據The Information報道，OpenAI CEO Sam Altman對員工表示，公司正以每年13億美元（約合人民幣94.93億元）的速度產生收入，平均每月收入超過1億美元，相較於去年全年2800萬美元增長超過450倍，達4542%。這個數據也比3個月前預期的年收入高30 %。這也讓2023年成爲OpenAI公司成立8年來，收入增長最快的一年。而這些，恰恰是GPT-4閉源所帶來的。

關鍵詞：GPT-5能實現开源嗎？

那么，GPT-5能實現开源嗎？未必。

對於商業模式，OpenAI曾在官網中明確指出“打算繼續免費提供ChatGPT”，但也會選擇從付費的高級服務的用戶和企業中獲得收入。而且，雖然OpenAI嘴上說着“不指望在近期內盈利”，但考慮到开發和提供大模型的高成本，生存問題仍然是其不得不面對的挑战。

此外，盡管OpenAI實現了快速增長，但背後的行業成本卻不容忽略。根據公开信息顯示，2022 年，OpenAI开發GPT-4，僅訓練成本支出約5.4億美元。2023年4月，OpenAI每天爲ChatGPT支付的運營成本約694.4萬美元（其中主要是電費），年化運營成本約爲2.5億美元，綜合年化成本可能超過13億美元。毫無疑問，OpenAI依舊處於虧損階段。

所以，倘若沒有商業化的維持，OpenAI恐怕很快會迎來破產。更重要的是，已經通過GPT-4閉源嘗到甜頭，獲得大量收入的OpenAI，顯然沒有充足的理由將GPT-5完全开源，這無異於自毀壁壘，在大模型賽道的競逐中喪失領先優勢。從這個層面來說。GPT-5實現开源的概率不大。

即便Sam Altman在推文中將“开源”標注成了關鍵詞，但更多的也只是在迎合行業的呼聲，我們還不能將其解讀爲“企業2024年的發展目標”。

不過，“部分开源”的可能性並非沒有。GPT-5完全开源的可能性雖然比較小，但是爲了GPT相關生態建設，對與GPT相關的工具集提供开源的可能性卻很高。或許，OpenAI會通過爲較少部分提供开源的方式，爲开發者的开發，調試，分享提供便利。

未來的GPT-5，究竟會具備哪些新能力？

近日，艾倫人工智能研究所發布了Unified-IO 2，它的發布極具意義，因爲它可以幫助我們更好的預判GPT-5的能力。

爲什么這么說呢？Unified與ChatGPT之間存在着怎樣的關系？

事實上，早在2022年6月，艾倫人工智能研究所就推出了第一代Unified-IO，它是首批能夠處理圖像和語言的多模態模型之一。大約在同一時間，OpenAI正在內部測試GPT-4，並在2023年3月正式發布。所以，Unified-IO可以看作是對於未來大規模AI模型的前瞻。換句話說，因爲Unified-IO 2的出現，我們可以大致預判一點：OpenAI可能正在內部測試GPT-5，並很有可能在幾個月後發布。

艾倫人工智能研究所推出的Unified-IO 2是第一個可以處理和生成文本，圖像，音頻，視頻和動作序列的模型。這個新的高級人工智能模型使用幾十億個數據點進行訓練，雖然模型大小只有7B，卻展現出迄今爲止最廣泛的多模態能力。它的訓練數據包括：10億個圖像-文本對，1 萬億個文本標記，1.8億個視頻剪輯，1.3億張帶文本的圖像，300萬個3D資產和100萬個機器人代理運動序列。研究團隊將總共120多個數據集組合成一個600 TB的包，涵蓋220個視覺，語言，聽覺和動作任務。Unified-IO 2採用編碼器-解碼器架構，並進行了一些更改，以穩定訓練並有效利用多模態信號。

模型可以回答問題，根據指令撰寫文本、以及分析文本內容；可以識別圖像內容，提供圖像描述，執行圖像處理任務，並根據文本描述創建新圖像；可以根據描述或說明生成音樂或聲音，以及分析視頻並回答有關視頻的問題。此外，通過使用機器人數據進行訓練，Unified-IO 2還可以爲機器人系統生成動作，例如將指令轉換爲機器人的動作序列。由於多模態訓練，它還可以處理不同的模態，例如，在圖像上標記某個音軌使用的樂器等。

總體而言，Unified-IO 2在超過35個基准測試中表現良好，包括圖像生成和理解，自然語言理解，視頻和音頻理解以及機器人操作。在大多數任務中，它能夠比肩專用模型，甚至更勝一籌。在圖像任務的GRIT基准測試中，Unified-IO 2獲得了目前的最高分。通過這些，我們也可以更好的窺見未來GPT-5的模樣。

對於AI發展而言，科技生態與商業化是缺一不可的核心要素。技術和應用的發展需要商業化提供必要的支持和保障；而商業化的成功也離不开生態環境的建設。兩者之間必須相輔相成，有機結合。希望在未來發布的GPT-5中，OpenAI可以起到先導作用，率先實現生態與商業化之間的平衡。