OpenAI發布旗艦AI模型GPT-4o：圖文音頻全搞定完全免費

2024-05-14 18:10:20 編輯： robot

導讀專題：OpenAI 發布最新旗艦模型GPT-4o 完全免費語音功能震撼登場　　北京時間周二凌晨，OpenAI發布了一款新的旗艦生成式AI模型“GPT-4o”，其中的“o”代表“omni”（全能）...

專題：OpenAI 發布最新旗艦模型GPT-4o 完全免費語音功能震撼登場

　　北京時間周二凌晨，OpenAI發布了一款新的旗艦生成式AI模型“GPT-4o”，其中的“o”代表“omni”（全能），指的是該模型處理文本、語音和視頻的能力。它具有與人類相似的對話能力，令人印象深刻。

　　GPT-4o在保持GPT-4級別的智能的同時，對文本、視覺和音頻功能進行了改進。OpenAI首席技術官（CTO）Mira Murati及其員工Mark Chen和Barret Zoph在現場演示時展示了新的音頻對話和視覺理解能力。

　　OpenAI聲稱，GPT-4o對音頻輸入的平均反應時間約爲320毫秒。根據2009年的一項研究，這與人類在對話中的反應時間相似，而之前的模型通常要延遲2-3秒時間。

　　除了響應速度，GPT-4o似乎很容易捕捉到情緒，並根據用戶的要求調整語氣和風格，甚至還在回應中加入了音效、笑聲和歌聲。

　　GPT-4o更像人類

　　GPT-4o在理解人類交流方面邁出了重要的一步，用戶可以用一種接近自然的方式與其交談。它伴隨着現實世界中幾乎所有的傾向，比如打斷、理解語氣，甚至意識到自己犯了一個錯誤。

　　在第一次現場演示中，主持人要求GPT-4o對他的呼吸技巧做出反饋。他對着手機深深地吸了一口氣，而ChatGPT則詼諧地回應道：“你不是吸塵器。”它建議使用一種速度較慢的技術，展示其理解和回應人類細微差別的能力。

　　除了具有幽默感，ChatGPT也會改變回應的語氣，在傳達“思想”的同時用不同的語調來完成。就像人類對話一樣，你可以打斷它的對話並糾正它，讓它做出反應或停止說話。你甚至可以要求它以某種語氣、風格或機器人的聲音來說話。

　　此外，它甚至還可以提供翻譯服務。在現場演示中，舞台上的兩名演講者，一名說英語，一名說意大利語，通過Chat GPT-4o的翻譯進行對話。它可以快速將意大利語翻譯成英語，然後無縫地將英語回復翻譯回意大利語。

　　據悉，Chat GPT-4o在50多種語言的速度和質量上都有所提高。OpenAI表示，這些語言覆蓋了世界97%的人口。

　　除了語音理解，Chat GPT-4o還可以理解視覺效果。例如，對於視頻中的一道方程題，它可以指導你如何求解。

　　另外，它還可以觀看現場自拍，並提供描述，包括你的穿着，以及情緒。在演示中，Chat GPT-4o表示，主持人看起來很开心。

　　在整個演示過程中，Chat GPT-4o工作得很快，在理解方面並不費力，也沒有提出詢問。與輸入查詢相比，與Chat GPT-4o的交流更自然。你可以自然地對着手機說話，並得到想要的回應，而不是用谷歌去搜索。

　　電影《Her》中的薩曼莎

　　此時，如果想到了《Her》（一部和AI虛擬人薩曼莎談戀愛的電影），或者其他與AI相關的未來主義反烏托邦電影，你不是唯一的一個。以如此自然的方式與Chat GPT-4o交談，本質上就是OpenAI的《Her》時刻。考慮到它將在移動應用程序和桌面應用程序上免費推出，許多人可能很快就會擁有自己的《Her》時刻。

　　雖然並未在直播演示中現身，但OpenAI CEO 薩姆·奧特曼（Sam Altman）對這次演示做了重要的總結，稱GPT-4o給人的感覺就像電影中的AI。

　　他說：“新的語音和視頻模型GPT-4o是我用過的最好的計算機界面，這感覺就像電影中的AI。而且，對我來說，它真實的仍然有點令人驚訝，達到了人類級別的響應速度和表現。最初的ChatGPT顯示出了語言界面的可能性，但GPT-4o這個新事物感覺本質上有所不同，它快速、智能、有趣、自然、實用。”

　　“對我來說，與電腦交談從來都不是很自然的感覺；但現不同了，它變得自然了。隨着將來不斷地完善，我真的看到了一個令人興奮的未來，我們能使用計算機做比以往任何時候都多的事情。”

　　奧特曼還稱，在創建OpenAI時，最初的想法是創造AI，並用它來爲世界創造各種裨益。但如今，創造AI後，希望讓其他人使用它來創造各種令人驚嘆的東西，所有人都會從中受益。奧特曼還表示：“OpenAI是一家企業，會找到很多收費的東西，這將幫助我們爲數十億人提供免費的、出色的AI服務。”

　　新的安全風險

　　這場令人印象深刻的語音和視覺演示，可能只是觸及了Chat GPT-4o各種可能性的皮毛。盡管其總體性能，以及在各種環境中的日常表現仍有待觀察，但很明顯，通過現場演示可以看出，Chat GPT-4o已經對谷歌和蘋果的未來挑战做好了准備。

　　OpenAI稱：“Chat GPT-4o是我們第一個結合了上述所有技術的模型，我們目前只是觸及到探索該模型的功能，及其局限性的皮毛。”

　　Murati承認，Chat GPT-4o的實時音頻和圖像能力在安全方面帶來了新的挑战。她表示，OpenAI將繼續研究安全性，並在未來幾周的迭代部署期間徵求測試用戶的反饋。

　　OpenAI稱：“Chat GPT-4o還與社會心理學、偏見和公平性等領域的70多名外部專家進行了廣泛的合作，以識別新模型可能導致或放大的風險。我們利用這些經驗來加強安全幹預措施，以提高與Chat GPT-4o交互的安全性。一旦新的風險被發現，我們將採取措施降低它們。”

　　GPT-4o前景展望

　　在Google I/O大會开始的前一天，OpenAI發布了Chat GPT-4o，讓我們見識到了人們想要的真正實用的AI體驗。如果傳聞中的與蘋果的合作成爲現實，那么Siri將如虎添翼。

　　對於谷歌而言，幾乎可以肯定的是，將在5月14日的I/O大會上展示其最新的AI技術。它能足以抵抗Chat GPT-4o嗎？

　　在不到30分鐘的演講中，OpenAI無法對Chat GPT-4o進行更多的現場演示。幸運的是，它將在未來一周向用戶推出，且不需要支付費用。

海量資訊、精准解讀，盡在新浪財經APP

責任編輯：劉明亮

標題：OpenAI發布旗艦AI模型GPT-4o：圖文音頻全搞定完全免費

地址：https://www.utechfun.com/post/370357.html

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標籤：大模型進展 AI GP

上一篇:首次全球第二！中芯國際的崛起之路：追逐台積電的雄心與挑战

下一篇:十年前將UC賣給馬雲，套現300億全部用來造車，兩度受雷軍賞識…

您現在的位置：首頁智能設備

OpenAI發布旗艦AI模型GPT-4o：圖文音頻全搞定完全免費

猜你喜歡

您現在的位置： 首頁 智能設備

猜你喜歡

您現在的位置：首頁智能設備