文/唐良元(作者單位:英國倫敦大學高等研究院)
中國著名學者周海中先生曾經指出:“語言智能是人工智能皇冠上的明珠,它對於發展人類的表達能力、思維能力、理解能力等具有十分重要的意義。”近年來,由於人工智能的快速發展,語言智能越來越受到學術界,尤其是語言學界的高度重視和深入研究;在這方面,學術界已經取得了不少可喜的成果。
語言智能(英文language intelligence)是語言信息智能化的過程,也是運用信息技術模仿人類的智能,分析和處理人類語言的過程,更是人工智能的重要組成部分及人機交互認知的重要基礎和手段。另外,語言智能還有力促進語言教學、語言學習的智能化,拓展語言學研究的新領域,在未來教育發展中將發揮越來越重要的作用。
語言智能是信息技術創新發展的時代產物。發展語言智能必須增強科學意識,只有深刻認識語言智能的科學原理,才能深入研究語言智能這個前沿領域。語言智能基於人腦生理屬性、言語認知路徑、語義生成規律,利用大數據與人工智能技術,對語言信息進行標注、抽取、加工、存儲和特徵分析,構擬人機語義同構關系,讓機器實施類人言語行爲。
語言智能具有文化傳承的服務優勢;語言是文化載體,語言精神反映民族精神。從浩瀚的古典文獻中精選優秀傳統文化素材,從當下日新月異的語言信息洪流中洗練文化精華,傳遞給當代國人,需要語言智能獨特的算力。從既有的語言文字數據中分析發現文化素養和家國情懷,精准實施優秀文化教育,可以成爲語言智能的常態服務。
上世紀80年代,美國著名學者霍華德•加德納先生認爲,語言智能就是人們運用語言的能力。這種能力是人的認知力、思維力、邏輯力、創造力和表達力的綜合體現;而提高語言能力是對語言智能提出的挑战性問題。這需要採集相應數據,科學分析個人的知識基礎、思維類型、能力潛質等,分析經驗積累和知識攝取狀況,並通過智能技術手段來推薦個性化知識學習內容。
語言理解是語言智能的主要任務,涉及到語言理解的目標、途徑和主要模型。機器對語言的理解就是確定了概念與語言單元的映射,以及知道承載概念單元的語言屬性,和知曉不同語言單元之間的關系。而語義理解是語言理解的核心,它包括對自然語言知識和常識的學習;語義理解可以通過一系列的人工智能算法以及多場景智能語義分析,將文本解析爲結構化的、機器可讀的意圖與詞槽信息。
目前語言智能在多個領域都有應用,主要是四種類型:分類、生成、抽取和校對。分類問題就是給語言對象打標籤,語言對象可以是句子、篇章等;生成問題主要是給原文本生成另一種文本表達,典型的應用是機器翻譯以及人機對話、自動寫作等;抽取問題就是從研究對象提取想要的答案,讓文本信息處理更加方便;校對問題主要是讓機器對給定的處理對象,回答對應信息是否齊全、是否一致、是否准確的問題。
近期由美國人工智能公司OpenAI开發的軟件ChatGPT-4帶來了比ChatGPT背後GPT-3.5更強的推理、計算、邏輯能力,也引發了全民使用的熱潮。在技術發展方面,GPT-4的訓練數據涵蓋了互聯網上的大量網頁、書籍、新聞報道等,數據量達到了45TB,模型規模也更大,擁有1750億個參數。我們期待看到更多的語言模型應用在實際場景中,爲語言智能帶來突破性進展,也爲人類社會帶來更多的便利和創新。
由上可知,語言智能在人工智能研究中扮演着非常重要的角色。其實,人類對語言的學習與理解並不是完全通過文本本身來完成的,語言只是其背後具體概念與含義的抽象載體。所以,也許通過多模態的建模才能讓機器更好地去理解語言的含義。如何讓機器學習與語言學結合得更加緊密,比如對語言的語義信息、語用信息構建合適的任務形式、模型結構、數據採集與存儲等也是未來值得關注的研究方向。
標題:專家略談|什么是語言智能?
地址:https://www.utechfun.com/post/249041.html