深入研究多模態生成式人工智能

2023-11-27 18:00:11    編輯: robot
導讀 深入研究多模態生成式人工智能 多模態生成人工智(GenAI)能被認爲是我們實現通用人工智能道路上的下一件大事。這是一個經過設計、理論化和實施的概念,旨在提供多感官沉浸式體驗。其從多種數據類型的組合中...

深入研究多模態生成式人工智能


多模態生成人工智(GenAI)能被認爲是我們實現通用人工智能道路上的下一件大事。

這是一個經過設計、理論化和實施的概念,旨在提供多感官沉浸式體驗。

其從多種數據類型的組合中提取輸出,以提供見解、內容等響應。

繼續閱讀,了解多模態生成式人工智能、其好處、潛力和採用以及相關問題。


過去幾年推出的多種生成式人工智能工具證明了過去十年人工智能(AI)技術取得的突破。在相對較短的歷史中,GenAI已經創造了一種緊迫感,將其引入任何組織的日常和利基操作元素。

雖然OpenAI的首個文本到圖像生成器DALL-E的真實感對大多數組織來說作用有限,但ChatGPT的推出不到一年,已經讓組織通過尋找各種途徑來獲得優勢,其中生成人工智能可以積極影響運營。

根據McKinsey的《人工智能現狀》,到2023年,三分之一的組織將把GenAI納入至少一項業務功能。此外,在McKinsey的調查中,約75%的受訪者預計GenAI將給其行業帶來顛覆性的變化。

人工智能功能主要用於產品开發、功能添加、客戶體驗、營銷功能等。

然而,GenAI現在採取了不同的形式,稱爲多模態,其接受多種感官輸入,以相似或不同的數據類型提供輸出。例如,ChatGPT的新更新賦予了其多模態的能力,其現在不僅可以生成故事、文章和其他文本,還可以閱讀。ChatGPT還可以通過語音提示執行任務。其還可以讀取圖像來識別特定的物體。

多模態GenAI被認爲是我們實現通用人工智能之路上的下一件大事。讓我們來看看它是什么。

什么是多模態生成式人工智能?

多模態GenAI是一個經過設計、理論化並正在實施的概念,旨在提供多感官沉浸式體驗。其從多種數據類型的組合中提取輸出,以提供見解、內容等響應。

多模態生成式人工智能是一種人工智能,其結合了多種類型或模式的數據,如文本、圖像、視頻、音頻、深度等,來創造更多對“現實世界”的設置、場景或問題做出准確的判斷或更精確的預測。這些模型接受了它們需要解釋或響應的多種模式/數據類型的數據集的訓練。

多模態GenAI與GenAI類似,不同之處在於其利用多維嵌入或索引,並且可以依賴向量數據庫進行操作。這種差異的核心在於,多模態GenAI可以通過多維嵌入或索引來攝取、處理和輸出多種類型的數據。

Meta今年早些時候發布的ImageBind多模態人工智能在ChatGPT的基礎上更進一步,集成了六種模態,即文本、圖像/視頻、音頻、深度、基於紅外的熱輻射和慣性測量單元(IMU)。該企業還將更多感官的整合,包括嗅覺和觸覺,以及大腦功能磁共振成像信號作爲多模態研究的一部分。

多模態生成式人工智能的好處

組合和處理來自多個來源的信息可以潛在地將差異均質化,以提供情境相關的結果。在企業環境中,這可以提高員工的工作效率。

通過爲機器交互創建新的途徑,多模態GenAI可以重塑終端用戶和業務用戶的用戶體驗。

鑑於其在物理科學、生命/生物科學和社會科學研究中的應用潛力,其還具有一定的社會和科學效益。甚至在GenAI興起之前,即2021年6月,Google就能夠利用其基於強化學習算法的機器學習模型來執行半導體布局規劃,這是芯片設計的關鍵步驟。

最終,其可以基於跨多種模式的大量數據存儲,在多感官/多模式空間中做出越來越准確的確定和預測。其不僅可以比人類更快地接受數據訓練,而且還可以更快地根據數據做出決策。

多模態生成式人工智能的採用

多模態GenAI已經看到了GenAI的一些應用,例如Adobe的Firefly–文本到圖像多模態和MidJourney。請注意,兩個GenAI的多模態使其能夠接受音頻和視覺輸入。

多模態的另一個商業用例包括基於電話的自動化支持系統,該系統可能會將我們語氣中明顯的情緒轉化爲企業可用於報告和分析的文本數據。

另一方面,其也可能被用來損害用戶的利益。一些“企業”已經开始使用文本到音頻多模態模型來生成更真實、更動態的聲音,通過電話進行詐騙。

然而,就像以前的技術發明一樣,多模態和常規GenAI允許數十種職業發展。律師、作家、科學家、教師等可以優化耗時的任務,例如研究、战略制定、文件起草和生成等,前提是這些任務屬於多模態GenAI工具所訓練的基礎數據的範圍。

簡而言之,如果可以獲得正確的數據,知識經濟可能會發生巨大轉變。

這是一個很大的“如果”。

這就是爲什么我們距離主流應用滲透到社會結構還有數年的時間,主要是因爲創建多模態人工智能的技術困難,其次是由於當前數據的限制。

總而言之,以有意義的方式使用多模態GenAI的能力不僅會變得復雜,因爲模型本身更復雜,制作成本更高,且因數據的敏感性,圍繞制作和使用其程序可能會更加棘手。所有這些都可能會減緩技術的廣泛採用。

多模態生成人工智能可用於改善制造質量控制、汽車預測性維護以及制造供應鏈優化。在醫療保健領域,其可以處理患者的生命體徵、診斷數據、掃描圖像、外觀和其他文本/圖像/音頻/視頻記錄,以改進診斷和治療計劃。在零售業中,其可以分析來自各種來源的數據,包括傳感器、攝像頭和錄音,以識別模式並預測未來的客戶行爲。還有更多。

從廣義上講,多模態GenAI可以爲开發帶來新的視覺元素。我們應該看到某些類型的視覺和交互設計被顛覆,因爲這很有可能能夠使用能夠接受文本輸入或視覺示例的模型來生成軟件前端和用戶體驗的某些方面,並生成執行其所需的設計資產和前端代碼。

此外,通過促進AR/VR的創造力,虛擬服務將出現在面向患者的醫療保健運營和多個其他行業中。沉浸式技術的改進在娛樂行業有明顯的應用,但也可以在醫療技術/無障礙設備行業、制造業,甚至是設計和建築等知識工作行業中創造令人興奮的新事物。


CIBIS峰會 

由千家網主辦的2023年第24屆CIBIS建築智能化峰會已正式拉开帷幕,本屆峰會主題爲“智慧連接,‘築’就未來”, 將攜手全球知名智能化品牌及業內專家,共同探討物聯網、AI、雲計算、大數據、IoT、智慧建築、智能家居、智慧安防等熱點話題與最新技術應用,分享如何利用更知慧、更高效、更安全的智慧連接技術,“築”就未來美好智慧生活。 歡迎建築智能化行業同仁報名參會,分享交流!

報名方式

廣州站(12月07日):https://www.huodongxing.com/event/6715338767700

成都站(10月24日):https://www.huodongxing.com/event/6715336669000(已結束)

西安站(10月26日):https://www.huodongxing.com/event/3715335961700(已結束)

長沙站(11月09日):https://www.huodongxing.com/event/7715337579900(已結束)

上海站(11月21日):https://www.huodongxing.com/event/9715337959000(已結束)

北京站(11月23日):https://www.huodongxing.com/event/3715338464800(已結束)

更多2023年CIBIS峰會信息,詳見峰會官網:http://summit.qianjia.com/



標題:深入研究多模態生成式人工智能

地址:https://www.utechfun.com/post/296047.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡