不到10天,國產「香蕉」突襲!一次7圖逼真還原,合成大法驚呆歪果仁
谷歌Nano Banana掀起的狂歡海嘯,完全不亞于ChatGPT橫空出世。
它,號稱是PS的終結者。
以往,Photoshop耗費數個小時完成的修圖,Nano Banana僅用一句話,最多30秒神速完成。
圖片
意想不到的是,谷歌發布不到10天后,國產版「Nano Banana」誕生了!
今天,Vidu Q1全球同步上線「參考生圖」功能,一舉擊碎國內參考天花板,讓圖片生成進入「生產級」時代。
圖片
一次扔進7張圖,Vidu Q1參考生圖穩拿捏,逼真還原的同時,還能隨心所欲創作。
在一致性、美學、真實性、清晰度、語義理解綜合評分上,Vidu Q1參考生圖完全碾壓Flux Kontext,與Nano Banana相媲美。
圖片
Vidu Q1參考生圖的易用性,簡直就是創作者的「生圖利器」,萬物皆可合成、萬物皆可替。
外國網友激動地表示,「這簡直是,目前最佳的AI參考生圖的工具。每次輸出的效果絕了」!
圖片
還有人盛贊Vidu Q1參考生圖一致性,并稱,Vidu這種低調的實力派,真正推動了AI領域的創新。
圖片
下面就來扒一扒Vidu Q1參考生圖的「合成大法」,保你看完腦洞大開。
國產「Nano Banana」出世
Vidu Q1「參考生圖」的核心——只要參考夠多,就能還原夠真。
一次7張圖,打破國內天花板
Vidu Q1支持單次最多7張參考圖,這一能力不僅在國內處于領先地位,更是行業頂尖水平。
相較之下,市面上的競品AI工具,通常僅支持1-3張參考圖。
在處理多元素場景時,比如同時參考多個人物形象,很多工具的生成結果往往支離破碎,不僅模糊,且經常出現相似但不像的情況。
Vidu Q1參考生圖則突破了這些限制,可自由組合多張圖片,實現無縫融合。
舉個栗子,同時輸入如下五張圖,一張主體,一張背景,還有三張道具圖,并提示小熊做出拋球的動作。
圖片
prompt:[@圖1]的人物和[@圖2]的車一起出現在[@圖3]的場景里,[@圖1]兩腳分開站在[@圖2]車前,[@圖1]兩手張開用[@圖4]和[@圖5]的球做著小丑拋球的動作,[@圖1]和[@圖2]在畫面中小一些。
如下的輸出圖中,Vidu Q1參考生圖可以做到高效整合,生成出流暢、自然的結果,毫無違和感。
圖片
接下來,上一個難度的,不僅要為主體換衣,還要融合字體、馬這些要素。
圖片
prompt:[@圖1]穿著[@圖2]服裝,[@圖1]頭戴[@圖3]帽子,騎著[@圖5]馬,背景是[@圖4],右上角印有[@圖6]logo。
圖片
Vidu Q1參考生圖還能同時做到「AI參考+AI生成」,將所有的參考放在一張圖中,并給出一個完整的提示。
圖片
prompt:[@圖1]一個明亮的北歐風房間,木質書桌上放著粉色筆記本和玻璃杯,旁邊花瓶里有一枝粉色花朵,桌角有小多肉植物。地上有毛絨坐墊和白色帆布包。一位戴玫瑰金圓框眼鏡、穿米白色針織背心和白裙的溫柔女生站在房間里,安靜地看著書桌,整體氛圍清新治愈。
可以看到,不論是圖中有的,還是指令要求的,Vidu Q1參考生圖都能做到完整還原。
其實上述案例是一次參考了10個物品,這意味著只需把多個物體放在一張圖中,其實Vidu Q1參考生圖可以參考的物體數量遠不止7張,而是無上限的,簡直是生圖領域的大殺器。
圖片
主體一致性,全面超越
更令人驚嘆的是,Vidu Q1參考生圖在一致性上的表現堪稱驚艷,全面超越了Flux Kontext等同類產品,甚至也超過了Nano Banana。
圖片
無論是多人互動、多場景切換,還是多次生成,它都能保證人物的面貌、特征高度穩定。
諸如多角色混淆、人物走樣、服飾或細節丟失等常見問題,在Vidu Q1參考生圖中幾乎不存在。
這種卓越的主體一致性,正是Vidu Q1參考生圖邁向「生產級應用」的核心優勢。
相較于Nano Banana,Vidu Q1參考生圖真實表現又如何?
prompt:圖1人物拿著圖2展示
就來一張簡單的,圖1拿著圖2展示,Vidu Q1參考生圖非常自然地呈現,而Nano Banana米飯擺放有些不合理。
左:Vidu;右:Nano Banana
再來看一個案例,不同模型的表現又如何?
圖片
prompt:圖1人物拿著圖3吃圖2
可以看到,Vidu Q1和Nano Banana保持了原圖的高度一致性。
而Flux.1 Kontext在衣服、人臉一致性上表現欠佳,且蛋糕比例失調,沒有體現勺子這個元素。
從左至右:Vidu Q1、Nano Banana、Flux.1 Kontext
假設讓Vidu Q1和Nano Banana,補全如下這張彩虹圖,誰做的更好?
圖片
prompt:把彩虹的右半邊補全,形成半圓彩虹
實測可以發現,Nano Banana未能準確理解提示詞中,彩虹補全要求,僅生成了另外一半彩虹。
而Vidu Q1參考原圖,成功補出未出現在圖片中的另一半彩虹,展現了極強的畫面理解力和一致性。
左:Vidu Q1;右:Nano Banana
高還原度,所見即所得
Vidu Q1參考生圖不僅支持多張參考圖輸入、主體一致性出色,還在還原度上實現了質的突破。
它在保持參考圖特征的同時,能生成高度貼近原始輸入內容,真正做到「所見即所得」。
業內常見的參考模糊、相似卻失真的問題,在Vidu Q1參考生圖面前迎刃而解。
接下來,要PK就來一個復雜的,一次上傳五張圖,具體如下:
圖片
prompt:側面視角,[@圖1]站在[@圖3]灶臺邊[@圖2]鍋前手中拿著大勺[@圖5]攪拌,鍋里裝著[@圖2],背景[@圖3][@圖4],動漫風格,2D,動畫風格
顯然,Nano Banana在主體一致性上表現欠佳,核心元素如衣袖、領口花紋細節,與原圖差異明顯。
而Vidu Q1展現了驚艷的實力,不僅完美還原動漫主體,連手套、衣服等細節都實現了1:1精準復刻。
左:Vidu;右:Nano Banana
再比如,參考圖中男子,將其背景P為教室。
圖片
prompt:參考圖中人物,修改背景為人物在班里座位上認真聽課
以下四大模型,在背景生成上各有特點。
但在人物臉部特征、服飾細節上,Vidu Q1參考生圖都做到了最逼真還原。
Nano Banana生成的人物雙眼皮消失,發型與服裝均出現變化;Midjourney給人物戴上眼鏡,無中生有;Flux.1 Kontext生成的人物雙眼皮模糊,臉上還多了許多斑點。
從左至右:Vidu Q1、Nano Banana、Midjourney、Flux.1 Kontex
創意玩法上天,只有想不到的
一款AI工具,僅做到一致性還遠遠不夠,還需擁有強大的創作自由度,滿足多樣化的創意需求。
最近,Nano Banana被全網整出各種花活兒,讓人直呼上頭。
比如,3D人偶手辦、老照片修復/上色、多角度視圖生成、真人Cosplay、名人合影等等。
一個比較火的玩法,修復老照片,讓無數人淚目。
Vidu Q1參考生圖創作自由度,同樣令人驚嘆!
僅需「一張圖+一句話」,它就能輕松實現換裝、換背景、換角色、換道具。
甚至,Vidu Q1參考生圖也能一鍵直出人物手辦。
圖片
輸入線稿圖后,Vidu Q1魔法棒一揮,瞬間就能變成桌面上的3D立體擺件。
圖片
prompt :[@圖1]變成三維立體建筑擺在桌子上,涂上顏色
順便......還能幫你上色。
圖片
prompt:[@圖1]變成三維立體建筑擺在桌子上,建筑物替換成木頭材質,草木替換成綠色,最下面的水系替換成藍色。
假設手里有一張北京著名標志建筑圖,它能變成由金屬質感的立體冰箱貼。
[@圖1]變成金屬質感的冰箱貼
萬物皆可合成
簡單的兩張圖合成,一鍵實現換裝、換背景、換風格。
馬斯克一秒換裝:
圖片
現實中,馬斯克沒嘗試過這樣的穿衣風格!
同理,演員一秒換上戲服,馬上知道古裝戲上裝效果:
圖片
Vidu Q1參考生圖不僅能實現一鍵換裝,更精細的面具,也能一鍵搞定。
比如,llya戴上三星堆黃金面具,Vidu Q1參考生圖還原度高,保留了Ilya標志性的「短發」。
圖片
最近,一款帽子「讓人頭禿」,Ilya驚呼「革命性突破」:
圖片
發際線本已稀疏的Ilya,Vidu Q1參考生圖生成的戴上帽子的效果是這樣的:
圖片
不過要讓小扎戴上這頂帽子,只能靠AI了。Vidu Q1參考生圖嘗試一把,效果逼真,AI看了都得直呼離譜:只有碳基智能才能想到的!
圖片
不止是真人照片,肖像畫中的人物在Vidu Q1參考生圖中也可以復活。比如,十一國慶快來了,可以讓名畫+名建筑,古往今來,五湖四海,任由AI打卡。
比如,蒙娜麗莎打卡北京地標祈年殿:
圖片
光影、建筑細節、背景人物,真實感拉滿。
類似的例子,可以換其他背景。比如,讓汽車登火星:
圖片
還可以反向操作,讓古代名人體驗現代生活,代言各種現代產品。
比如,北宋文豪蘇軾如果會彈吉他,大江東去該多豪邁?丙辰中秋,他又該如何表達對弟弟子由的思念?
蘇軾彈吉他
甚至古代的仕女都能免費給你打廣告。
貴妃醉酒:茅臺版
在Vidu Q1參考生圖中,還可以讓圖片中的人物,擺出各種Pose。
比如,現實中鬧掰了的Ilya和奧特曼,利用Vidu Q1的參考生圖,完全可以在「賽博世界」中重歸于好,一起比心??。
圖片
讓魯迅和馬斯克跨越時空,拍一張合影。
prompt:圖1與圖2合影
Vidu可以解放創意,讓人放飛想象:主體一致不跑偏,風格融合更自然。
而且合成2張圖只是Vidu Q1參考生圖的基礎操作。
Vidu Q1支持多圖參考,這就能滿足復雜劇情、合影、多角色電商等場景。
Vidu Q1參考生圖在還原高度一致基礎上,還支持產品、道具、場景、光線等任意切換,真實性極強。
萬物皆可替 AI一鍵換裝
它能一鍵生成著裝效果,宛如24小時在線的專屬搭配顧問。
前段時間,男友Travis Kelce向霉霉求婚,配文「你的英語老師和體育老師要結婚了」掀爆全網。
圖片
說不定,許多歌迷們迫不及待地想看到,霉霉提前穿上婚紗的樣子。
上傳一張霉霉、一張婚紗圖,還有一張現場圖,Vidu Q1幫你如愿。
圖片
最終輸出的圖,讓人眼前一亮,穿上婚紗后的霉霉簡直美若天仙。
圖片
不僅是大明星,每個人都可以輕松實現一鍵換裝。
網購一件衣服不知款式合不合身,上傳一張個人照片,有了Vidu Q1,即可在線秒換春夏秋冬的衣服。
圖片
分別輸入不同季節服飾后,換裝瞬間完成了,不論哪一款穿著都好看。
圖片
圖片
又或是,把小紅書的OOTD全部試一遍。
圖片
從著裝到配飾,簡直一絕。
圖片
如果你是一名設計師,想看看手辦的格子紋理效果,輸入相關物料圖片,Vidu Q1參考生圖瞬間實現。
圖片
或是一款已打好版的衣服,想要嘗試不同花紋,Q1也可以玩兒出不同花樣。
圖片
甚至,你還可以替換圖中特定的對象。
比如,現代版「貍貓換太子」:女人手里的小孩換成寵物或者卡通人物。
圖片
或者換成史迪奇:
圖片
即便替換的對象,在圖中比較小,也沒關系,比如把小女孩手中的牛奶替換為橘子汁。
圖片
Vidu Q1還能讓你「云游」世界,天天曬出不一樣的朋友圈,十一假期可以利用AI拍出完美大片了。
從相冊中,上傳一張自拍照,以及一張布達拉宮圖,P圖瞬間完成,人物和背景超自然融合,可以發圈了。
世界名畫,整出花活
再以馬格利特一幅世界名畫《人類之子》為模板,玩一場「綠色蘋果」大替換。
一句話換成南瓜,位置也是非常精準,而且人物衣服、顏色保持著高度一致性。
將南瓜放大、再放大,就得到了如下的樣子。
換個道具,一只粉色的拖鞋。
這次,再換個人物主體——黃仁勛,老黃的皮衣、眼鏡,完美還原。
兩幅世界名畫,又能碰撞出怎樣的火花?
梵高的《星夜》和馬格利特《人類之子》完美融合,堪稱孤品。
花樣玩法
《大話西游之大圣娶親》中,孫悟空戴上金箍雖獲得了無邊的法力,卻沒能保護好心愛的紫霞仙子。
不如,就讓Vidu Q1挽回這份「遺憾」。
老照片糊到看不清,讓Vidu Q1增強清晰度并換個背景,只能說太驚艷了。
和霉霉同框,自然到根本看不出來是P的。
狂「卷」一致性解鎖AI生產級應用
從「參考生視頻」,再到「參考生圖」,Vidu的每一次進化是其在「一致性」賽道上又一次發力。
為什么他們如此執著于「一致性」?
回想AI視頻發展歷程,從Sora驚艷亮相,再到Runway Gen-4、Luma Ray 2、Midjourney V1等模型不斷迭代,最初讓人驚嘆「AI終于能生成視頻了」。
但很快,問題就暴露了:AI生成視頻往往風格跳躍、人物面目全非,細節更是隨時崩壞。
想象拍一部廣告,主角的臉從開場到結尾最后一幀變換三次,結果可想而知。
圖片
在國內,生數科技很早就洞察到這一痛點。
去年7月,Vidu 全球首推「參考生視頻」功能,以參考圖為「錨點」,確保生成過程不偏航。
這恰恰提升了AI視頻一致性,人物不會變形,風格也不會跳脫。
比如上傳一個女孩、帕臺農神廟、一束花,Vidu絲滑地將其呈現在一個場景中。
圖片
圖片
從這里開始,生數就把一致性從視頻層面,擴展到了多模態可控。
今年4月,Vidu Q1進一步升級,升級了首尾幀運鏡,加入了文生音效等功能,讓一致性覆蓋了視覺、音頻。
VBench評測中,Q1勇奪文生視頻雙榜第一,力壓Sora、Gen-3。
圖片
如今,焦點來到了最新的Vidu Q1「參考生圖」功能,同時7張圖,將一致性推向高峰。
做到了多人、多場景下高一致性,還具備了創作自由度,讓萬物皆可合成、皆可替、皆可變。
圖是基礎,視頻是延伸——先從「參考生圖」生成素材,再無縫轉為動態視頻。
整個過程,一致性貫穿始終,實現了「精細化可控」的閉環。
不難看出,一致性開啟了AI視頻「生產級應用」的新紀元。這意味著,它不再是人們手里的娛樂玩具,而是規模化落地的生產力引擎。
電商廣告,多場景拿捏
通過靈活的主體變換和場景切換,Vidu Q1參考生圖能完美適配廣告、電商、媒體、消費品等多個行業。
電商、廣告公司可以用它生成無限創意的鏡頭、海報,讓人力制作成本大幅下降;動畫師可以快速制作原型,進而專注于IP背后故事的創造......
比如,上傳五張不同的圖,讓Vidu Q1參考生圖去合成。
圖片
[@圖2]背景改為[@圖5],[@圖5]背景標注[@圖1]VOGUE logo,[@圖2]人物腳下擺著一款[@圖3]包,[@圖2]人物戴著[@圖4]帽子,[@圖2]背景不變,構圖不變,主體不變
時尚雜志大片,瞬間拿捏,每張圖細節全部呈現。
圖片
馬上中秋節了,電商想要宣傳自家月餅,不用攝影大師,Vidu Q1參考生圖直接拍出宣傳大片。
一般來說,傳統素材制作需1周,拍攝耗時2天,而Q1僅需一天即可完成全流程創作,效率提升90%。
話不多說,直接上演示。
一款抹茶冰皮月餅,想要為其配上一張「花好月圓」的背景圖,再扔給Vidu。
圖片
[@圖1]背景替換為[@圖2]的背景,嚴格遵循[@圖1]的擺放位置,擺放整齊
下圖中,Vidu Q1輸出效果令人驚艷,可以直接拿來制作宣傳圖了。
圖片
再比如,商家還有一款普通的抹茶月餅,想要不同的效果。
圖片
圖片
可以看到,Vidu Q1「參考生圖」功能助力電商促銷生成,只需一鍵合成,即可適配不同場景與節日主題。
再舉個栗子,輸入一張汽車渲染圖,就可以得到不同顏色、不同場景的圖片。
圖片
圖中的汽車變成黃/紅/黑色,行駛在海灘、街道、高速公路、雪地上
圖片
然后,將以上四張圖片分別作為Vidu Q1首尾幀的輸入和輸出,一鍵直出高級感廣告大片。
AI視頻的下半場,比拼的是誰能讓它「真正可用」。
只有高一致性,AI才能真正落地到電商、媒體、影視等高價值場景,創造規模化的價值。
如今,生數用行動證明,一致性是通往「生產級」的鑰匙。