字節豆包SeedEdit上线，AI修圖成大廠AI應用新焦點？

2024-11-14 18:40:10 編輯： robot

導讀動動嘴都能修圖不是夢？首先，小雷是對設計一竅不通的，畢竟我不是幹設計這一行的。但是嘛，這只要浸淫在互聯網上的人，多少應該都會對傳說中設計行業裏那幾道百年難得一遇的亙古難題，還有各種奇葩甲方才會提...

動動嘴都能修圖不是夢？

首先，小雷是對設計一竅不通的，畢竟我不是幹設計這一行的。

但是嘛，這只要浸淫在互聯網上的人，多少應該都會對傳說中設計行業裏那幾道百年難得一遇的亙古難題，還有各種奇葩甲方才會提出的變態要求有所耳聞。

有道是，你的圖片做得很好，那讓畫面裏的大象轉個身應該沒有什么困難吧。

有道是，你的黑色有些單調，我希望能夠看到一種五彩斑斕的黑色呢。

就不說設計師們看到這些會不會氣血上湧了，我一個負責文字工作的人，看到這種批注都有點難頂。

重點是你也不能說些什么，要知道畫面另一頭就是金主爸爸，而且他們對這些是真的不懂。

到頭來，工作就是工作，不管甲方要求有多離譜都得去做，哪怕客戶要你把他照片裏的拉鏈給拉上，你能做到的也只有截個圖發到社交媒體上給大夥樂一樂，然後爲了生活想盡辦法去解決問題。

（圖源：新浪微博）

不過，凡是問題，終究是會有解決辦法的，只是這次的解決辦法可能有點特殊。

昨天，字節跳動的豆包大模型團隊，在公衆號上秀出了最新的通用圖像編輯模型SeedEdit。

官方表示，這款模型主打的就是「讓一句話輕松P圖成爲現實」，用戶只需輸入簡單的自然語言，便可對圖像進行多樣化編輯操作，包括修圖、換裝、美化、風格轉化以及在指定區域添加或刪除元素等。

聽起來很不可思議？其實我也是這么覺得的。

讓大象轉個身

想體驗這個功能的話，其實還蠻簡單的就是了。

根據官方的說法，目前該模型已經在豆包PC端及即夢網頁端开啓測試，豆包手機端暫時還用不了這個功能。

接下來，只要點擊側邊欄的「圖片生成」，應該就能看到上傳參考圖的選項了，這裏就是SeedEdit模型的入口。

要做的事情很簡單，上傳圖片，然後輸入我們想要改變的內容。

比方說，像畫面裏面這種大象背對我們喝水的照片，如果我想讓它轉身的話，那應該怎么做呢？

答案是，輸入「讓大象面對我」。

（圖源：雷科技）

對比一下兩張圖片。

可以看到，SeedEdit生成的大象正面是非常合乎邏輯的，耳朵的形狀、腳部的位置、身體的顏色都做得相當不錯，周圍的環境也保持了高度的一致，當然部分石頭形狀存在差異這點，細心點還是能看出來的。

新建項目.jpg

（圖源：雷科技）

生成後的圖片還可以再次編輯，這點真的很棒。

（圖源：雷科技）

不過進一步的操作，似乎就無法實現了。

我在豆包修改過的圖片基礎上，繼續提出圖片編輯的要求，但不論是「讓大象跑起來」、「讓大象用鼻子噴水」或者是「讓大象側過身子」，基本上很難得到令人滿意的結果。

叫它噴水，結果這水確實是噴出來了，但卻不是從鼻子裏噴出來的，而是從象牙的部分噴出來的。

想讓大模型理解啥叫作常識，確實不是件容易的事情。

讓大象側站.png

（圖源：雷科技）

再換個人像，或者說模型的照片試試。

因爲我家裏環境有限嘛，所以一般來說，拍手辦的背景就比較湊合，沒有時間也沒有啥精力去造景拍攝。

不過現在嘛，我讓它「把背景換成城市」。

（圖源：雷科技）

效果有點平？那就改成「夕陽西下的光照質感」。

你還真別說，這感覺馬上就到位了，整個過程中，我只對豆包說了簡單的兩句要求，體驗起來真的很絲滑。

對貧困的膠佬來說，布景和打光的繁瑣步驟或許真的能省略掉了。

更換背景 (1).png

（圖源：雷科技）

當然，這些都是在原圖上的小打小鬧，如果我想直接更換畫面主體呢？

比如「指鹿爲馬」。

（圖源：雷科技）

實際生成的效果確實很不錯，不僅草地背景保留得挺完整，連馬身上的紋理之類的都進行了替換。

如果不看原圖，基本很難察覺比例上的問題。

換衣服也沒啥問題，連光影和褶皺都改得挺到位的。

（圖源：雷科技）

試了一下汽車，目前SeedEdit是不認識小米SU7的。

不過我隨便傳了一張五菱宏光Mini EV的照片上去，然後輸入了一個異常復雜的編輯指令。

（圖源：雷科技）

最後生成的車子，雖然不像瑪莎拉蒂，但起碼也有個跑車形狀了。

AI修圖，爆發在即

事實上，如今AI在繪畫這塊兒，已經能讓我們眼前一亮了。

但是在圖像編輯領域，AI技術其實是相對落後的，無法進行精准編輯，一直是行業的老大難問題。

在今年以前，這類需求一般通過Stable Diffusion的ControlNet插件來實現。

它可以獲取額外的輸入圖像，通過不同的預處理器轉換爲控制圖，進而作爲Stable Diffusion擴散的額外條件，只需使用文本提示詞，就可以在保持圖像主體特徵的前提下任意修改圖像細節。

（圖源：新浪微博，識別特徵並進行重新繪制）

本地部署AI應用這事，和大部分小白是基本無緣的。

所以在進入今年後，包括ChatGPT/DALLE3、Midjourney、百度超能畫布都推出了局部重繪應用，試圖充當在线編輯圖片的功能。

不過這類應用，大多數時候還得咱們手動塗抹，選定你要修改的對象，然後輸入各種提示詞來做修改。

（圖源：雷科技）

需要掌握正確的AI話術，才能獲得理想的修圖質量，門檻還是有點高了。

如果，我是說如果，我們只需要給定輸入圖像和告訴模型要做什么的文本描述，然後模型就能遵循描述指令來編輯圖像，那得多省事兒啊。

字節端出的SeedEdit，確實是朝着這個方向努力的。

不過圖修多了，問題也就出來了，目前這款模型在生成圖片時還是有一些問題存在的。

首先，缺乏人像前後的一致性。

只要涉及到人物面部的修圖，那么最終出來的圖像和原圖的差異會很誇張，基本上看不出來原來的樣子。

（圖源：雷科技）

其次，缺乏圖片內容的方向性。

對於元素較多的圖像，目前SeedEdit很難判斷你要修改的是圖片裏的哪個元素，即便偶然識別對了，出來的圖片效果也會異常扭曲。

（圖源：雷科技）

最後，文字處理能力依然不行。

就像早期AI繪畫那樣，目前SeedEdit會編造文字內容，下面這三行小字看似有點邏輯，我看了半天，愣是沒認出來寫的是個啥。

修改產品文字.png

（圖源：雷科技）

在我看來，SeedEdit的出現，算是彌補了國產大模型在語義AI修圖應用這塊的空白。

可以預見的是，隨着AI圖像編輯技術的不斷發展，未來手機、電腦都可能會集成這項功能，就像AI消除、AI擴圖那樣走進尋常百姓家。無論是小白還是大咖，每個人都有機會輕松上手使用，讓自己對美的理解可以更直觀地展現出來。