首先,小雷是對設計一竅不通的,畢竟我不是幹設計這一行的。
但是嘛,這只要浸淫在互聯網上的人,多少應該都會對傳說中設計行業裏那幾道百年難得一遇的亙古難題,還有各種奇葩甲方才會提出的變態要求有所耳聞。
有道是,你的圖片做得很好,那讓畫面裏的大象轉個身應該沒有什么困難吧。
有道是,你的黑色有些單調,我希望能夠看到一種五彩斑斕的黑色呢。
就不說設計師們看到這些會不會氣血上湧了,我一個負責文字工作的人,看到這種批注都有點難頂。
重點是你也不能說些什么,要知道畫面另一頭就是金主爸爸,而且他們對這些是真的不懂。
到頭來,工作就是工作,不管甲方要求有多離譜都得去做,哪怕客戶要你把他照片裏的拉鏈給拉上,你能做到的也只有截個圖發到社交媒體上給大夥樂一樂,然後爲了生活想盡辦法去解決問題。
(圖源:新浪微博)
不過,凡是問題,終究是會有解決辦法的,只是這次的解決辦法可能有點特殊。
昨天,字節跳動的豆包大模型團隊,在公衆號上秀出了最新的通用圖像編輯模型SeedEdit。
官方表示,這款模型主打的就是「讓一句話輕松P圖成爲現實」,用戶只需輸入簡單的自然語言,便可對圖像進行多樣化編輯操作,包括修圖、換裝、美化、風格轉化以及在指定區域添加或刪除元素等。
聽起來很不可思議?其實我也是這么覺得的。
讓大象轉個身
想體驗這個功能的話,其實還蠻簡單的就是了。
根據官方的說法,目前該模型已經在豆包PC端及即夢網頁端开啓測試,豆包手機端暫時還用不了這個功能。
接下來,只要點擊側邊欄的「圖片生成」,應該就能看到上傳參考圖的選項了,這裏就是SeedEdit模型的入口。
要做的事情很簡單,上傳圖片,然後輸入我們想要改變的內容。
比方說,像畫面裏面這種大象背對我們喝水的照片,如果我想讓它轉身的話,那應該怎么做呢?
答案是,輸入「讓大象面對我」。
(圖源:雷科技)
對比一下兩張圖片。
可以看到,SeedEdit生成的大象正面是非常合乎邏輯的,耳朵的形狀、腳部的位置、身體的顏色都做得相當不錯,周圍的環境也保持了高度的一致,當然部分石頭形狀存在差異這點,細心點還是能看出來的。
(圖源:雷科技)
生成後的圖片還可以再次編輯,這點真的很棒。
(圖源:雷科技)
不過進一步的操作,似乎就無法實現了。
我在豆包修改過的圖片基礎上,繼續提出圖片編輯的要求,但不論是「讓大象跑起來」、「讓大象用鼻子噴水」或者是「讓大象側過身子」,基本上很難得到令人滿意的結果。
叫它噴水,結果這水確實是噴出來了,但卻不是從鼻子裏噴出來的,而是從象牙的部分噴出來的。
想讓大模型理解啥叫作常識,確實不是件容易的事情。
(圖源:雷科技)
再換個人像,或者說模型的照片試試。
因爲我家裏環境有限嘛,所以一般來說,拍手辦的背景就比較湊合,沒有時間也沒有啥精力去造景拍攝。
不過現在嘛,我讓它「把背景換成城市」。
(圖源:雷科技)
效果有點平?那就改成「夕陽西下的光照質感」。
你還真別說,這感覺馬上就到位了,整個過程中,我只對豆包說了簡單的兩句要求,體驗起來真的很絲滑。
對貧困的膠佬來說,布景和打光的繁瑣步驟或許真的能省略掉了。
(圖源:雷科技)
當然,這些都是在原圖上的小打小鬧,如果我想直接更換畫面主體呢?
比如「指鹿爲馬」。
(圖源:雷科技)
實際生成的效果確實很不錯,不僅草地背景保留得挺完整,連馬身上的紋理之類的都進行了替換。
如果不看原圖,基本很難察覺比例上的問題。
換衣服也沒啥問題,連光影和褶皺都改得挺到位的。
(圖源:雷科技)
試了一下汽車,目前SeedEdit是不認識小米SU7的。
不過我隨便傳了一張五菱宏光Mini EV的照片上去,然後輸入了一個異常復雜的編輯指令。
(圖源:雷科技)
最後生成的車子,雖然不像瑪莎拉蒂,但起碼也有個跑車形狀了。
AI修圖,爆發在即
事實上,如今AI在繪畫這塊兒,已經能讓我們眼前一亮了。
但是在圖像編輯領域,AI技術其實是相對落後的,無法進行精准編輯,一直是行業的老大難問題。
在今年以前,這類需求一般通過Stable Diffusion的ControlNet插件來實現。
它可以獲取額外的輸入圖像,通過不同的預處理器轉換爲控制圖,進而作爲Stable Diffusion擴散的額外條件,只需使用文本提示詞,就可以在保持圖像主體特徵的前提下任意修改圖像細節。
(圖源:新浪微博,識別特徵並進行重新繪制)
本地部署AI應用這事,和大部分小白是基本無緣的。
所以在進入今年後,包括ChatGPT/DALLE3、Midjourney、百度超能畫布都推出了局部重繪應用,試圖充當在线編輯圖片的功能。
不過這類應用,大多數時候還得咱們手動塗抹,選定你要修改的對象,然後輸入各種提示詞來做修改。
(圖源:雷科技)
需要掌握正確的AI話術,才能獲得理想的修圖質量,門檻還是有點高了。
如果,我是說如果,我們只需要給定輸入圖像和告訴模型要做什么的文本描述,然後模型就能遵循描述指令來編輯圖像,那得多省事兒啊。
字節端出的SeedEdit,確實是朝着這個方向努力的。
不過圖修多了,問題也就出來了,目前這款模型在生成圖片時還是有一些問題存在的。
首先,缺乏人像前後的一致性。
只要涉及到人物面部的修圖,那么最終出來的圖像和原圖的差異會很誇張,基本上看不出來原來的樣子。
(圖源:雷科技)
其次,缺乏圖片內容的方向性。
對於元素較多的圖像,目前SeedEdit很難判斷你要修改的是圖片裏的哪個元素,即便偶然識別對了,出來的圖片效果也會異常扭曲。
(圖源:雷科技)
最後,文字處理能力依然不行。
就像早期AI繪畫那樣,目前SeedEdit會編造文字內容,下面這三行小字看似有點邏輯,我看了半天,愣是沒認出來寫的是個啥。
(圖源:雷科技)
在我看來,SeedEdit的出現,算是彌補了國產大模型在語義AI修圖應用這塊的空白。
可以預見的是,隨着AI圖像編輯技術的不斷發展,未來手機、電腦都可能會集成這項功能,就像AI消除、AI擴圖那樣走進尋常百姓家。無論是小白還是大咖,每個人都有機會輕松上手使用,讓自己對美的理解可以更直觀地展現出來。
修圖有手就行?或許真的不是夢。
來源:雷科技
原文標題 : 字節豆包SeedEdit上线,AI修圖成大廠AI應用新焦點?
標題:字節豆包SeedEdit上线,AI修圖成大廠AI應用新焦點?
地址:https://www.utechfun.com/post/444618.html