AI 新創 Stability AI 以圖像生成軟體 Stable Diffusion 聞名,22 日發表下一代 Stable Diffusion 3 預覽,承襲 Stable Diffusion 系列優點,能夠產生更多主題的圖像,並提高文字生成的品質和準確性。Stability AI 雖未公開展示操作,但已開放想嘗試的用戶加入等候名單。
Stable Diffusion 3 參數從 8 億到 80 億不等,適合在各種裝置上(從智慧手機、AI PC 到伺服器)執行,參數大小與這款模型可以產生多少圖像細節的能力有關,較大模型需要 GPU 加速器有更多 VRAM 才能運作。
「這是使用新型的 diffusion transformer(類似於 Sora),並結合 flow matching 和其他改進」,Stability AI 執行長 Emad Mostaque 透過個人 X 帳號表示。由於利用 transformer 改進,不僅可以進一步擴展並且接受多模態輸入。
自 2022 年以來,可以看到 Stability AI 推出了一系列圖像生成模型:Stable Diffusion 1.4、1.5、2.0、2.1、XL、XL Turbo,直到現在 Stable Diffusion 3。Stability AI 提供更開放的方案,再到像是 OpenAI DALL-E 3 這樣的圖像生成模型,儘管用到受版權保護的訓練資料、具有偏見和濫用的可能性而引發爭議。Stable Diffusion 的模型開放權重且來源可用,這意味著模型可在本地端執行並進行微調,使輸出更符合需求。
雖然 Stable Diffusion 3 還未能廣泛開放,但 Stability AI 表示,一旦測試完成將能免費下載並在本地端執行。「與之前模型一樣,這個預覽會收集意見,在公開發表之前提高性能和安全性」,Stability AI 強調。
(首圖來源:)
標題:Stability AI 發表 Stable Diffusion 3 預覽,提高文字生成圖像品質
地址:https://www.utechfun.com/post/336058.html