剛剛,字節登頂世界最強圖像AI!一手實測原生4K、10圖融合,全網玩瘋
谷歌Nano Banana一夜爆火之后,各種邪修玩法兒,至今讓全網意猶未盡。
等距視角、多圖合成、老照片修復、3D手辦.......創意腦洞大開,全網玩瘋。
誰曾想,短短半個月后,大洋彼岸就殺出來了一個最強逆襲者!
就在剛剛,字節跳動發布的豆包·圖像創作模型Seedream 4.0,一舉拿下了Artificial Analysis「文生圖」和「圖像編輯」兩大榜單的第一。
一鍵創作+編輯,原生4K分辨率,一次最多上傳10張參考圖。
如今,全網的畫風是這樣子的——
有網友隨手扔了一張糊到爹媽都不認的圖,Seedream 4.0直出一張超清版的,簡直是廢片秒變神作。
生圖不僅是它的強項,Seedream 4.0還具備了超強的知識和推理能力。
就比如,一邊生圖,一邊解方程;生成的冰激凌配方圖,邏輯清晰;一鍵比較建筑特點,美觀且要點明了......
這是因為,Seedream 4.0首次將「生成圖像」和「圖像編輯」(SeedEdit 3.0),全部整合到單體模型中。
相較于上一代,4.0版本生成文字清晰又準確,尤其是在中文文字渲染上,效果碾壓GPT-4o、Gemini 2.5 Flash。
比如,我們想把下面這聽飲料上面的字換成「新智元」。
Seedream 4.0給出的結果,不僅光影正確,而且字體也很有設計感。
相比之下,谷歌Nano Banana生成的,除了「新」字之外,可以說是是驢唇不對馬嘴。
更多對比如下:
可以說,Seedram 4.0的橫空出世,一夜之間掩蓋了谷歌「香蕉」所有光芒。
現在,打開「火山方舟體驗中心」,就可以免費體驗4K高清多模態生圖了!
傳送門:https://www.volcengine.com/experience/ark?launch=seedream
一手實測,更適合中國寶寶
多圖融合,是最常見的一種玩法兒。
不論是「雙人同框」,還是每日穿搭、模仿火柴人動作草圖等等,Seedream 4.0可以全部拿捏。
甚至,一次上傳10張參考圖,它都能以正確的邏輯融合成一張圖。
十圖無縫合成,生成專屬OOTD
就比如,今日份OOTD穿搭,Seedream 4.0就能直接幫你承包了。
讓圖1女孩穿上圖2的穿搭
上傳一張個人照片,再淘一張穿搭圖,上身效果如何,幾秒就能get了。
令人驚艷的是,照片生成的太自然了,人物一致性非常高,肉眼根本辨別不出是AI生成的。
再換一套簡約風格的,果然人美穿啥都好看。
接下來加大難度,一次上傳八張圖片:一張主角,五張配飾,外加一只杜賓和一輛吉普汽車。
為了讓圖像呈現得更加美觀,提示要求男子站在汽車一旁,狗緊挨著男主。
圖1的男子穿上第2、3、4、5、6張圖的穿搭,站在第八張圖汽車前,第七張圖小狗站在男人身旁
不得不說,Seedream 4.0理解力一絕,還能準確地給男主穿上衣服,戴上配飾。
隨便一個pose模板,Seedream 4.0便可以讓任何人做出相同的動作。
一位古裝女子和一位畫上的皇帝,做圖3的擺拍,那會是怎樣的效果?
將圖1、圖2合進一張圖里,參考圖3姿勢
快看,這張合照堪稱「天作之合」,真是挑不出一點毛病,比拍照還真。
再比如,自己想要一張和霉霉合照,Seedream 4.0就可以幫你實現愿望。
圖1和圖2女生合拍,兩人表現自然一些,背景是上海東方明珠夜景
上傳兩張圖后,一句話,即可無縫合成。
可以看到,照片中人物的衣服、頭發顏色等細節非常一致,而且動作自然,沒有出現人物失真的情況。
現場手繪一個「火柴人」,就讓犬夜叉和殺生丸來一個打斗擺拍。
讓圖1和圖2兩個人,模仿圖3的姿勢
沒想到,就這么隨筆一畫,讓Seedream 4.0就讓動漫人活靈活現了。
還有3D物理世界小人,Seedream 4.0也可讓其動作1:1復刻。
圖1女生做圖2的動作
連續生圖,淘汰制片人?
想連續做動畫或視頻,缺少靈感?
Seedream 4.0還具備了強大的「連續生圖」的能力,只要輸入劇情描述,AI即可自動生成多個關鍵畫面幀。
最后,再借助AI視頻工具,合成動態視頻。
從故事腳本到視覺呈現,一個人即可輕松搞定Vlog、創意短片,從此制作效率翻倍。
舉個栗子,你可以讓名畫中的人,在同一時空下相遇。
圖1的梵高和圖二的蒙娜麗莎,在圖3的一家酒吧里偶遇,然后兩人在圖4露天小餐館暢談,需要環境的局部特寫,比如酒館的光影,酒杯特寫等。
梵高和蒙娜麗莎在一家酒吧偶遇后,兩人又去戶外小餐館暢聊。
動漫連載,下一個宮崎駿是你
我們再來做一個動漫連環畫,上傳一張有人物角色的照片。
然后,若是想要指定的畫面,把所有故事分鏡的腳本扔給Seedream 4.0。
保持封面參考圖的繪畫風格和封面的主體,下面每句話幫忙生成一句故事分鏡(一共5個分鏡):
1. 夏日清晨,小女孩背著繡小熊的布包,牽著卷毛小狗從家門口出發,門廊竹席上還放著沒喝完的綠豆湯。
2. 兩人走到公園長椅旁,小狗突然追著粉蝴蝶跑遠,小女孩舉著剛摘的狗尾草。
3. 路過野菊花叢,小女孩蹲下來摘小黃花,小狗叨起一朵送到她手邊,花瓣上還有露珠。
4. 聽到遠處賣冰粉的叫賣聲,小女孩牽著小狗跑過去,買了碗紅糖冰粉,用小勺子喂小狗嘗了口。
5. 突然下起小雨,小女孩拉著小狗躲進公園的木亭子,小狗縮在她腳邊,用腦袋挨著她。
不一會兒工夫,五個分鏡全部出來了。畫面效果非常驚艷,而且人物畫面全部保持一致。
電影分鏡,堪比好萊塢大片
一直以來,人們都難以相信,一款AI工具如何能砸掉制片人的飯碗?
當你真正體驗之后,就會驚嘆這就是現實!
接下來,上傳一張女主和一張男主的照片,任何人就可以直接拍出一部短劇。
prompt:參考圖片形象,生成三種影視分鏡:第一幕女主去買帽子;第二幕轉角遇到了圖2的帥氣男子;第三幕男主向女主表達愛慕,兩人微笑。復古風格。
第一幕:女主去買帽子。
值得一提的是,在第一幕畫面生成中,Seedream 4.0還整了一個高難度——鏡面。
可以看到,女主表情和鏡子中一致,包括帽子、耳釘、珍珠項鏈、衣服等等,和原圖保持高度一致。
第二幕,女主出門轉角,偶遇到了男主。
這一幕中,Seedream 4.0放大了視角,營造了一種「魔法版」的偶遇,逼真還原了男女主。
第三幕,男主向女主表達愛慕。
注意看,這里的鏡頭又被拉近,男女主之間的甜蜜溢出了屏幕,一根羽毛成為了他們之間愛情的見證。
是不是感覺情節太過精彩,還沒有看夠。不如,接下來的故事,就由你們來續寫~
創意玩法,腦洞大開
除了多圖融合、連續生圖,Seedream 4.0還有各種本領。
比如,讓它取出漢堡的所有餡料,只保留頂部和底部的面包片。而且,兩個面包片之間空隙間隔,要與原來的一致。
Remove all the ingredients from the burger and keep only the top and bottom buns. Leave a gap between them, keeping the same spacing as if the fillings were still inside.
一個只有面包,沒有夾層的漢堡就閃現了。
它還可以生成一個可愛小狗的桌面手辦。
根據草圖,生成對應主體的立體搪膠手辦,擺放在深色電腦桌上
除了圖片的生成和編輯外,Seedream 4.0還擁有智能——它真的理解圖片上的內容。
比如讓它推斷生成,一張上海東方明珠照片12個小時后的樣子。
12個小時后,城市展示的景色
模型不僅正確推斷出12小時后是夜景,而且建筑物的細節、角度等也都非常完美的還原。
補全后的4k圖像真的是相當清晰。
再比如,給它一個時間,然后問1分鐘之后會顯示什么。
Seedream 4.0也能正確推斷出相應的時間,而且其他參數也都沒有隨意改動。
草圖建模也不在話下。
設計師有福了。
根據草圖,設計出完整建筑,并上色
可以看到,模型不僅完美還原出建筑的設計細節以及外部材料的質感,為了方便展示頂部的設計,它甚至還改變了視角。
簡直太貼心了。
還可以反過來玩,將建筑轉換成模型,而且是不同的角度。
這都需要模型進行很多推理。
把建筑做成不同視角的全景模型,白色的背景,微縮模型,需要四張,不同角度,分別是鳥瞰圖、頂視圖、側視圖、仰視圖
最近還流行的一種玩法是制作教程。
比如讓Seedream 4.0生成一張牛肉漢堡制作步驟教程圖,繪制在手賬本上。
可以看到最后的教程步驟清晰,實用性很高。
彩鉛手賬風格,出一個牛肉漢堡制作步驟教程圖,步驟說明要中文,女生手寫可愛字體,繪制在一個手賬本上
更進一步的應用是制作信息圖表。
這個應用不僅好玩兒,還更有教育意義——一下子把枯燥的文字知識變成圖表,讓學習的效率指數型上升。
舉個栗子:牛頓第二定律。
提示詞:“牛頓第二定律”信息圖表,包括科普文字、示意圖和基礎物理公式,分列進行排版
太香了。上學時要是有這東西,我的成績絕對還能上升兩個層次。
一鍵接入API
當然,作為一家云平臺,火山引擎也支持API接入,面向開發者解鎖更多玩法。
在火山引擎拿到自己的API KEY后,只需點擊上圖中的API接入,就可以看到調用的示例代碼。
在紅框內換成自己的API KEY后,直接復制代碼放到終端即可。
大家看一下Seedream 4.0文生圖的質量。
生成3張女孩和奶牛玩偶在游樂園開心地坐過山車的圖片,涵蓋早晨、中午、晚上。
除了文生圖外,API還支持圖生圖、多圖融合、組圖輸出等多種玩法,大家可以自己去體驗。