昨天和朋友喫飯,聊到個話題,他現在用豆包、Kimi這些智能助手,總感覺回答的不是自己想要的內容。我就從什么是AI,什么是大模型聊起,科普了下這方面的知識。發現對於大衆來說,這些艱澀的技術,確實挺難理解。今天就來簡單概括下,讓大家腦子有個概念到底什么是大模型?
解釋什么是大模型之前,先說說AI的類別、機器學習和深度學習,便於更清楚大模型的來龍去脈。
01AI的類別
人工智能是一個非常龐大的科學領域。
從1950年代正式誕生以來,圍繞人工智能,已經有很多科學家進行了大量的研究,也輸出了很多非常了不起的成果。
這些研究,根據思路方向的不同,被分爲了很多種學派。比較有代表性的,是符號主義學派、聯結主義學派、行爲主義學派。這些學派並沒有對錯之分,相互之間也有一些交叉融合。
早期的時候(1960-1990),符號主義(以專家系統、知識圖譜爲代表)是主流。後來,從1980年开始,聯結主義(以神經網絡爲代表)崛起,一直到現在,都是主流。
將來,也許有新的技術崛起,形成新的學派,也不一定。
除了方向路线之外,我們也可以從智能水平以及應用領域等方面對AI進行分類。
按智能水平,可以分爲:弱人工智能(Weak AI)、強人工智能(Strong AI)、超人工智能(Super AI)。
弱人工智能只專精於單一任務或一組相關的任務,不具備通用智能能力。我們目前就處於這個階段。
強人工智能更厲害一些,具有一定的通用智能能力,能夠理解、學習並應用於各種不同的任務。這個還處於理論和研究階段,還沒落地。
超人工智能當然是最強的。它在幾乎所有方面都超過人類智能,包括創造力、社交技能等。超人工智能是未來的終極形態,我們假設它能夠實現。
02機器學習&深度學習
什么是機器學習?
機器學習的核心思想,是構建一個可以從數據中學習的模型,並利用這個模型來進行預測或決策。機器學習不是一個具體的模型或算法。
它包括了很多種類型,例如:
監督學習:算法從帶有標籤的數據集中學習,即每個訓練樣本都有一個已知的結果。
無監督學習:算法從沒有標籤的數據集中學習。
半監督學習:結合了少量的帶標籤數據和大量的未帶標籤數據進行訓練。
強化學習:通過試錯的方式,學習哪些行爲可以獲得獎勵,哪些行爲會導致懲罰。
什么是深度學習?
深度學習,具體來說,是深度神經網絡學習。深度學習是機器學習的一個重要分支。機器學習底下有一條“神經網絡”路线,而深度學習,是加強版的“神經網絡”學習。
神經網絡是聯結主義的代表。顧名思義,這個路线是模仿人腦的工作原理,建立神經元之間的聯結模型,以此實現人工神經運算。
深度學習所謂的“深度”,是神經網絡中“隱藏層”的層級。
經典機器學習算法使用的神經網絡,具有輸入層、一個或兩個“隱藏層”和一個輸出層。
深度學習算法使用了更多的“隱藏層”(數百個)。它的能力更加強大,讓神經網絡能夠完成更困難的工作。
機器學習、神經網絡和深度學習的關系,通過下面的圖可以看出:
神經網絡從1980年代开始崛起之後,就形成了很多的模型和算法。不同的模型和算法,有着各自的特性和功能。
卷 積 神 經 網 絡 ( Convolutional Neural Network , CNN ) 和 循 環 神 經 網 絡 ( Recurrent Neural Network ,RNN),是1990年代左右誕生的比較知名的神經網絡模型。它們的具體工作原理比較復雜。
反正大家記住:
卷積神經網絡(CNN)是一種用於處理具有類似網格結構的數據(例如圖像和視頻)的神經網絡。所以,卷積神經網絡通常用於計算機視覺中,可以用來圖像識別和圖像分類。
而循環神經網絡(RNN)是一種用於處理序列數據的神經網絡,例如語言模型和時間序列預測。所以,循環神經網絡通常用於自然語言處理和語音識別。
transformer也是一個神經網絡模型。它比卷積神經網絡和循環神經網絡出現時間更晚,2017年由谷歌研究團隊提出,也更加強大。
作爲非專業人士,不需要去研究它的工作原理,只需要知道:
1、它是一種深度學習模型;2、它使用了一種名爲自注意力(self-attention)的機制;3、它有效解決了卷積神經網絡和循環神經網絡的瓶頸(局限性)問題;4、它很適合自然語言處理(NLP)任務。相比循環神經網絡,它的計算可以高度並行化,簡化了模型架構,訓練效率也大大提升;5、它也被擴展到了其他領域,如計算機視覺和語音識別。
6、現在我們經常提到的大模型,幾乎都是以transformer爲基礎。
神經網絡還有很多種,這裏就看下圖,知道有很多就好。
03
什么是大模型?
這兩年說的火熱的人工智能,說的就是大模型。那么,什么是大模型?
大模型,是具有龐大參數規模和復雜計算結構的機器學習模型。
參數,是指在模型訓練過程中,學習和調整的變量。參數定義了模型的行爲、性能、實現的成本以及對計算資源的需求。簡單來說,參數是模型內部用來做出預測或決策的部分。
大模型,通常擁有數百萬至數十億的參數。相對應的,參數少的,就是小模型。對一些細分的領域或場景,小模型也夠用。
大模型需要依賴大規模數據進行訓練,對算力資源的消耗極大。
(《從歷史規律,探尋AI大模型的發展周期和未來趨勢》這篇文章詳細講了算法、數據、算力的代表人物傑夫辛頓、李飛飛和黃仁勳,感興趣的可以看下。)
大模型有很多種類別。通常所說的大模型,主要是指語言大模型(以文本數據進行訓練)。但實際上,還有視覺大模型(以圖像數據進行訓練),以及多模態大模型(文本和圖像都有)。絕大多數大模型的基礎核心結構,都是Transformer及其變體。
按應用領域,大模型可以分爲通用大模型和行業大模型。
通用大模型的訓練數據集更加廣泛,覆蓋的領域更加全面。行業大模型,顧名思義,訓練數據來自特定行業,應用於專門的領域(例如金融、醫療、法律、工業)。
GPT
GPT-1、GPT-2……GPT-4o,等等,都是美國OpenAI這家公司推出的語言大模型,同樣都是基於Transformer架構。
GPT的全稱,叫做Generative Pretrained Transformer,生成式-預訓練-Transformer。
Generative(生成式),表示該模型能夠生成連續的、有邏輯的文本內容,比如完成對話、創作故事、編寫代碼或者寫詩寫歌等。
這裏剛好提一下,現在常說的AIGC,就是AI Generated Content,人工智能生成內容。內容可以是文本、圖像、音頻、視頻等。
文生圖,比較有代表性的是DALL·E(也來自OpenAI)、Midjourney(知名度大)和Stable Diffusion(开源)。
文生音頻(音樂),有Suno(OpenAI)、Stable Audio Open(由Stability.ai开源)、Audiobox(Meta)。
文生視頻,有Sora(OpenAI)、Stable Video Diffusion(由Stability.ai开源)、Soya(开源)。圖也可以生視頻,例如騰訊的Follow-Your-Click。
AIGC是一個“應用維度”的定義,它不是一個具體的技術或模型。AIGC的出現,擴展了AI的功能,打破了此前AI主要用於識別的功能限制,拓寬了應用場景。
好了,繼續解釋GPT的第二個字母——Pre.trained。
Pre.trained(預訓練),表示該模型會先在一個大規模未標注文本語料庫上進行訓練,學習語言的統計規律和潛在結構。通過預訓練,模型才有了一定的通用性。訓練的數據越龐大(如網頁文本、新聞等),模型的能力就越強。
大家對於AI的關注熱潮,主要源於2023年初的ChatGPT爆火。
ChatGPT的chat是聊天的意思。ChatGPT是OpenAI基於GPT模型开發的一個AI對話應用服務。
AI的作用,極爲廣泛。
概括來說,AI和傳統計算機系統相比,能提供的拓展能力,包括:圖像識別、語音識別、自然語言處理、具身智能等方面。
圖像識別,有時候也被歸類爲計算機視覺(Computer Vision,CV),讓計算機具備理解和處理圖像和視頻的能力。常見的是攝像頭、工業質檢、人臉識別之類的。
語音識別,就是理解和處理音頻,獲得音頻所搭載的信息。常見的是手機語音助手、電話呼叫中心、聲控智能家居之類的,多用於交互場景。
自然語言處理,前面介紹過,就是使計算機能夠理解和處理自然語言,知道我們到底在說什么。這個很火,多用於創造性的工作,例如寫新聞稿、寫書面材料、視頻制作、遊戲开發、音樂創作等。
具身智能,就是把人工智能搭載在一個物理形態(“身體”)上,通過與環境互動,來獲得和展示智能。帶AI的機器人,屬於具身智能。
斯坦福大學年初推出的“Mobile ALOHA”,就是一個典型的家用具身機器人。它可以炒菜、煮咖啡甚至逗貓,火爆全網。並不是所有的機器人,都是人形機器人。也不是所有的機器人,都用到了AI。
結語:
AI特別擅長對海量數據進行處理,一方面通過海量數據進行學習和訓練,另一方面,基於新的海量數據,完成人工無法完成的工作。或者說,找到海量數據中潛在的規律。
有句話說的好:“未來,淘汰你的不是AI,而是掌握了AI的人”。知道這些AI常識,就是擁抱AI的第一步。至少和別人聊天的時候,談到AI,就不會一頭霧水了。
學會使用常見的AI工具和平台,幫助自己提升工作效率,改善生活品質。就已經領先了90%的人了。
原文標題 : 什么是大模型?未來淘汰你的不是AI,而是掌握了AI的人
標題:什么是大模型?未來淘汰你的不是AI,而是掌握了AI的人
地址:https://www.utechfun.com/post/445927.html