兩年半開發兩個 AI 模型，獲 NVIDIA 千萬美元投資的 Twelve Labs 強在哪？

2024-06-29 10:30:00 編輯：創業小聚

導讀生成式 AI 掀起科技革命，各大科技巨頭紛紛投入戰局。近日OpenAI與蘋果合作，美國新創產業研究公司PitchBook，今年NVIDIA也持續押注，參與韓國新創的A輪募資，投資約5,000萬美元...

生成式 AI 掀起科技革命，各大科技巨頭紛紛投入戰局。

近日OpenAI與蘋果合作，美國新創產業研究公司PitchBook，今年NVIDIA也持續押注，參與韓國新創的A輪募資，投資約5,000萬美元（約新台幣16億元），大大幫助Twelve Labs開發AI。

Twelve Labs的AI專攻影片分析，用戶只要說：「幫我找到狗狗打滾的影片。」AI就能馬上找到。看似簡單，其實背後需要理解影片個動作、聲音和情緒代表的意思，背後是Twelve Labs僅花兩年就推出的AI模型。

超越MUM的客製化AI模型，Twelve Labs解決AI訓練影片痛點

MUM是多任務統一模型，能從使用者搜尋語句判斷關鍵字關聯性，找出多條資料，並比對分析使用者用文字、影像或語音問的問題，更全面判斷使用者提問。

其實Google很早就推出MUM AI模型，能了解人類語言不同情況有不同意思，如「住在這很方便」和「我去方便一下」，兩句話的「方便」意思就不同。

Google MUM聚焦提供更精準搜尋結果，Twelve Labs則著重影片AI訓練。Twelve Labs公開AI模型給客戶，依據自己需求調整模型並開發應用，建立API將AI用於各自領域。

▲ Google MUM的AI搜尋系統與Twelve Labs都希望使用者更快找到解答，但Twelve Labs將AI公開給需要的客戶自行調整AI模型。（Source：Google）

「我們最初目的是讓使用者就像用『ctrl+f』網頁快速搜尋需要的詞語，也能快速找到需要的片段」，Twelve Labs共同創辦人暨執行長Jae Lee說，許多訓練AI處理影片的公司較「土法煉鋼」：手動標記影片片段，30秒長影片可能就有幾千萬個標記點，耗時又費力。

Twelve Labs採更有效訓練法。如傳統做法是將每片段同時標上動作、元素、聲音等標籤來訓練，Twelve Labs則水平分割：整部影片動作、聲音、圖像幾個元素分開訓練和分析。

如根據音頻波形，訓練AI辨別人群聲、鳥叫聲或樹葉聲；也透過人物關係互動和時間變化，讓AI分辨人物動作和關係。最後將這些AI訓練成果結合，打造出能理解影片內容的AI模型。

Twelve Labs AI功能三大特色，加速影片自動化開發

Twelve Labs的AI功能結合影片搜尋、語言生成、自動分類及產出摘要，透過API以三大功能幫助簡化影片和內容工作者的後製流程。

影片搜尋和語言生成結合：Twelve Labs的AI搜尋配合語言生成的方式，可以透過AI找到需要的片段。後製工作者不需看完整部影片，就可找到編輯片段，是相當省時的工具，像是狗狗影片告訴AI：「請幫我找到狗狗在草地打滾的片段」或烹飪料理影片，詢問AI用到哪些食材或調味料，對較長影片也能請AI提供影片摘要，找出人物和核心重點是什麼。

▲ Twelve Labs的AI搜尋配合語言生成，用AI找到需要片段，如問AI：請幫我找出偷溜進超市的狗。

自動標記影片：YouTube某些影片也有片段標記，可透過Twelve Labs的AI自動下標功能，找出需要標記的片段。如創業家影片，AI會自動標記「3:16~6:26是創業家故事」、「15:36~18:37是產品技術解釋」，加速後製人員下標速度，節省編輯時間。

▲ Twelve Labs的AI自動下標功能，自動找出需標記片段。

自動分類影片：最後功能是針對有大量影片瀏覽需求的公司。透過Twelve Labs的AI分類功能，能從影片作品或歷年影音報導快速找到需要材料，節省在海量影片翻找和篩選的時間。

▲ Twelve Labs的AI分類功能，能快速找到需要種類，節省在海量影片篩選的時間。

Twelve Labs有推出不同使用者收費方案，90天600分鐘免費版方案、個人開發者方案和企業方案，後兩者可依單日或單月計算，並有圖片、聲音和影片標記等AI需求每分鐘收費。

兩年半開發兩個AI 模型，影片AI模型獲投資青睞

Twelve Labs的AI功能已有約三萬多名開發人員使用，包括內容創作者及訓練生成式AI的各領域企業。

團隊也與企業合作，2022年幫助NVIDIA訓練A100和H100 GPU，達影片分類、摘要和推薦等自動化影片功能。今年也幫助線上影片編輯網站Blackbird，利用AI加速自動標註影片效率，讓創作者和後製人員更專注影片，不用反覆確認影片後製細節，提高人員工作效率。

去年Twelve Labs推出第一個AI模型Pegasus，成功將長短影片和語言生成AI結合，從4秒到20分鐘影片都能讓使用者與AI文字對話，請AI回答影片所有問題。今年3月又推出第二個AI模型Marengo，經歷訓練6千萬支影片及5億多張圖片，可回答更多影片圖片和聲音等多模型AI。

Twelve Labs創辦至今兩年多，完成兩個AI模型。

Jae Lee和Twelve Labs技術長Aiden Lee也從最初集合五位核心成員成長到40人團隊，並陸續從歐洲創投Index Ventures和加拿大投資公司Radical Ventures等募得3,000萬美元（約新台幣9億元）種子資金，更在近兩年與NVIDIA、英特爾和三星建立合作關係，後續將用NVIDIA這筆資金，持續研發精進AI模型。

▲Twelve Labs執行長兼共同創辦人Jae Lee（左）和技術長Aiden Lee（右）。

（本文由授權轉載；圖片來源：）

文章看完覺得有幫助，何不給我們一個鼓勵

想請我們喝幾杯咖啡？

每杯咖啡 65 元

x 1

x 3

x 5

您的咖啡贊助將是讓我們持續走下去的動力