圖像編輯自回歸又奪SOTA:VAREdit秒殺擴(kuò)散模型,速度快2.2倍,編輯精準(zhǔn)度飆升30%!
論文鏈接:https://arxiv.org/pdf/2508.15772
Git 鏈接:https://github.com/HiDream-ai/VAREdit
亮點(diǎn)直擊
- VAREdit,這是首個基于微調(diào)的視覺自回歸模型,用于指令引導(dǎo)的圖像編輯任務(wù);
- 本文發(fā)現(xiàn)了 VAREdit 在最精細(xì)尺度條件下存在尺度不匹配問題,并提出了SAR 模塊作為有效的解決方案;
- VAREdit 在標(biāo)準(zhǔn)圖像編輯基準(zhǔn)上取得了新SOTA,在編輯遵循性和生成效率方面均超越了主流擴(kuò)散模型。
VAREdit 在指令引導(dǎo)的圖像編輯中實(shí)現(xiàn)了高精度性能。它在各種復(fù)雜的編輯場景中表現(xiàn)出色,包括對象級修改(添加、替換、移除)、屬性更改(材質(zhì)、文本、姿態(tài)、風(fēng)格、顏色)和復(fù)雜的合成編輯。
總結(jié)速覽
解決的問題
當(dāng)前主流的擴(kuò)散模型雖然在指令引導(dǎo)的圖像編輯中實(shí)現(xiàn)了高視覺保真度,但由于其全局去噪機(jī)制,編輯區(qū)域往往會與整個圖像上下文糾纏,導(dǎo)致:
- 非預(yù)期的圖像修改;
- 編輯指令遵循性差;
- 編輯過程不夠可控。
這暴露出擴(kuò)散模型在編輯精度和語義控制方面的根本性缺陷。
提出的方案
提出了 VAREdit,一種基于視覺自回歸(Visual Autoregressive, VAR)框架的圖像編輯方法,核心思想包括:
- 將圖像編輯建模為一個“下一尺度預(yù)測”問題;
- 在源圖像特征和文本指令的條件下,逐尺度生成目標(biāo)圖像特征,實(shí)現(xiàn)精細(xì)化控制的圖像編輯;
- 針對不同尺度間的條件引導(dǎo)難題,引入了尺度對齊參考模塊(SAR),解決尺度不匹配問題。
應(yīng)用的技術(shù)
- 視覺自回歸建模:將圖像合成看作基于離散視覺 token 的序列生成過程,具備因果性和組合性;
- 多尺度生成機(jī)制:從粗到細(xì)逐步預(yù)測圖像特征,實(shí)現(xiàn)高效編輯;
- SAR 模塊(Scale-Aligned Reference):在 Transformer 的首個自注意力層中注入尺度匹配的條件信息,提升跨尺度建模能力;
- 微調(diào)范式:在預(yù)訓(xùn)練模型基礎(chǔ)上進(jìn)行微調(diào),適應(yīng)圖像編輯任務(wù)。
達(dá)到的效果
- 在標(biāo)準(zhǔn)圖像編輯基準(zhǔn)上取得最新SOTA;
- GPT-Balance 得分比主流擴(kuò)散模型高出 30%+,顯著提升指令遵循性;
- 在512×512 分辨率圖像編輯任務(wù)中僅需 1.2 秒,比同類方法 UltraEdit 快2.2 倍;
- 成功驗(yàn)證了自回歸方法在圖像編輯任務(wù)中的效率優(yōu)勢與語義控制能力。
方法
首先回顧視覺自回歸(VAR)建模范式。然后介紹 VAREdit,這是一個將指令引導(dǎo)的圖像編輯重新定義為多尺度條件生成任務(wù)的新框架。最后,分析源圖像條件引導(dǎo)所面臨的挑戰(zhàn),并提出尺度對齊參考(SAR)模塊,作為解決樸素條件引導(dǎo)中尺度不匹配問題的針對性方案。
預(yù)備知識
VAREdit
VAREdit是一個將指令引導(dǎo)的圖像編輯重新定義為條件多尺度預(yù)測問題的框架。
盡管這種方法為編輯任務(wù)提供了全面的逐尺度參考,但其計(jì)算開銷很大。序列長度加倍會導(dǎo)致自注意力計(jì)算成本呈二次增長,使其在高分辨率編輯中變得不切實(shí)際。此外,提供多個源尺度特征可能會為預(yù)測單一尺度的目標(biāo)特征引入冗余或沖突的信息,從而可能降低編輯質(zhì)量。
最精細(xì)尺度條件
為了解決全尺度條件的高昂代價(jià),本文提出了一種更高效的策略,僅基于最精細(xì)尺度的源特征 進(jìn)行條件生成。該方法的動機(jī)來源于視覺分詞器的層級結(jié)構(gòu):最精細(xì)的尺度包含了來自源圖像的最詳細(xì)、高頻的信息,這些信息通常對引導(dǎo)編輯最為關(guān)鍵。這一簡化將似然表達(dá)式縮減為:
尺度依賴性分析
高效的最精細(xì)尺度方法所帶來的尺度不匹配問題引發(fā)了一個基本問題:為了實(shí)現(xiàn)高保真編輯,哪些源尺度是真正必要的?為了研究目標(biāo)殘差與源殘差之間的尺度依賴性,本文對在全尺度源特征上訓(xùn)練的模型中的自注意力機(jī)制進(jìn)行了診斷分析。該全尺度設(shè)置允許模型自由地關(guān)注所有源尺度。
實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集
VAREdit 在一個包含 392 萬對樣本的大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練,該數(shù)據(jù)集聚合自 SEED-Data-Edit 和 ImgEdit 數(shù)據(jù)集。本文首先從 SEED-Data-Edit 數(shù)據(jù)集中提取所有單輪樣本,并將多輪對話分解為單輪編輯對。這些生成的樣本隨后通過視覺-語言模型進(jìn)行過濾,以移除指令遵循質(zhì)量較差的實(shí)例。最終訓(xùn)練數(shù)據(jù)還包含了來自 ImgEdit 的所有單輪樣本。關(guān)于此數(shù)據(jù)處理流程的更多細(xì)節(jié)見附錄。
評估
本文在兩個公認(rèn)的基準(zhǔn)上對 VAREdit 進(jìn)行了全面評估:EMU-Edit,包含 3,589 個樣本,涵蓋 8 種不同的編輯類型;PIE-Bench,包含 700 個樣本,涵蓋 10 種不同的編輯類型。
評估指標(biāo)
標(biāo)準(zhǔn)基準(zhǔn)如 EMU-Edit 和 PIE-Bench 依賴于基于 CLIP 的分?jǐn)?shù)。EMU-Edit 使用圖文相似度(CLIP-Out.)和文本-圖像方向相似度(CLIP-Dir.),而 PIE-Bench 分別評估整圖相似度(CLIP-Whole)和編輯區(qū)域相似度(CLIP-Edit)。然而,這些指標(biāo)常常無法捕捉編輯質(zhì)量的重要方面,例如偽編輯或編輯不完整。
為了解決這些不足,本文還采用了 OmniEdit 的評估協(xié)議,該協(xié)議使用 GPT-4o 作為自動評估器,提供兩個關(guān)鍵分?jǐn)?shù),評分范圍為 0-10:
- GPT-Success (Suc.):衡量對編輯指令的遵循程度,分?jǐn)?shù)越高越好。
- GPT-Overedit (Over.):評估未編輯區(qū)域的保留程度,分?jǐn)?shù)越高越好。
由于模型可以通過忽略編輯指令并輸出原圖來獲得完美的 GPT-Over. 分?jǐn)?shù),本文引入了 **GPT-Balance (Bal.)**,即 GPT-Suc. 和 GPT-Over. 的調(diào)和平均值。該平衡分?jǐn)?shù)作為本文衡量整體編輯性能的主要指標(biāo)。關(guān)于這些指標(biāo)的詳細(xì)提示詞和計(jì)算方法見附錄。
對比方法
為確保全面且嚴(yán)謹(jǐn)?shù)脑u估,本文將 VAREdit 與多種最先進(jìn)的微調(diào)方法進(jìn)行了比較。本文的對比分析涵蓋了廣泛的主流擴(kuò)散方法,包括:InstructPix2Pix、UltraEdit、OmniGen、AnySD、ACE++ 和 ICEdit。此外,本文還引入了 EditAR 這一基礎(chǔ)自回歸方法,用于基準(zhǔn)測試本文基于 VAR 的框架的有效性。關(guān)于這些基線模型的更多細(xì)節(jié)見附錄。
實(shí)現(xiàn)細(xì)節(jié)
定量結(jié)果
表 1 中的定量結(jié)果展示了 VAREdit 在編輯性能和效率方面的優(yōu)越性。
編輯質(zhì)量
在主要指標(biāo) GPT-Balance 上,VAREdit 始終優(yōu)于所有基于擴(kuò)散和自回歸的基線模型。本文的8.4B 模型在 EMU-Edit 上取得 GPT-Bal. 分?jǐn)?shù) 6.77,在 PIE-Bench 上取得 7.30,分別超越最強(qiáng)對手(EMU 上的 ICEdit,PIE 上的 UltraEdit)41.5% 和 30.8%。這表明 VAREdit 能夠在保留未變區(qū)域的同時(shí)執(zhí)行精確編輯。值得注意的是,一些方法如 OmniGen 通過過于保守的行為獲得較高的 GPT-Over. 分?jǐn)?shù),但未能執(zhí)行所請求的編輯,導(dǎo)致 GPT-Suc. 分?jǐn)?shù)較低,進(jìn)而 GPT-Bal. 分?jǐn)?shù)也較差。相比之下,VAREdit 實(shí)現(xiàn)了更好的平衡,體現(xiàn)出 VAR 范式在精確生成方面的優(yōu)勢。VAREdit 在傳統(tǒng)的基于 CLIP 的指標(biāo)上也取得了有競爭力甚至領(lǐng)先的成績。
類別間的魯棒性
圖 4 中的雷達(dá)圖按編輯類型細(xì)分了性能。VAREdit 在絕大多數(shù)類別上實(shí)現(xiàn)了最先進(jìn)的性能。盡管 2.2B 模型在具有挑戰(zhàn)性的全局風(fēng)格和文本編輯任務(wù)中存在一定局限,但 8.4B 模型顯著縮小了這一性能差距。這說明本文的框架具有良好的擴(kuò)展性,表明通過擴(kuò)大模型和數(shù)據(jù)集規(guī)模可以進(jìn)一步提升性能。
推理效率
除了高編輯質(zhì)量外,VAREdit 還提供了顯著的效率提升。8.4B 模型在512x512分辨率下完成一次編輯僅需 1.2 秒,比相似規(guī)模的 UltraEdit(7.7B,2.6 秒)快 2.2 倍,比更大的 ICEdit 模型(17.0B,8.4 秒)快 7 倍。這種高效率得益于單次多尺度生成過程。此外,2.2B 模型在僅 0.7 秒內(nèi)完成推理,同時(shí)在編輯質(zhì)量上超越所有基線方法。
定性結(jié)果
圖 5 提供了視覺對比,揭示了 VAREdit 在定量評估中取得成功的根本原因。在第一個示例中,基于擴(kuò)散的方法往往會對圖像進(jìn)行過度編輯,從而導(dǎo)致較低的 GPT-Over. 分?jǐn)?shù)。例如,InstructPix2Pix 改變了整個地面的顏色,而 ICEdit 錯誤地移除了電線桿。基礎(chǔ)的自回歸方法 EditAR 完全未能執(zhí)行指令。雖然這導(dǎo)致其 GPT-Over. 分?jǐn)?shù)較高,但 GPT-Suc. 分?jǐn)?shù)非常低。VAREdit 成功完成了任務(wù),同時(shí)精確保留了未變區(qū)域,因此獲得了最高的 GPT-Bal. 分?jǐn)?shù)。類似的觀察也適用于后續(xù)示例,進(jìn)一步驗(yàn)證了 VAREdit 的有效性。
消融實(shí)驗(yàn)與分析為單獨(dú)驗(yàn)證 SAR 模塊的貢獻(xiàn),本文進(jìn)行了一個消融實(shí)驗(yàn),比較了三種條件策略:
- Full:基于所有源圖像尺度的特征進(jìn)行條件引導(dǎo);
- Finest:僅基于最精細(xì)尺度的源圖像特征進(jìn)行條件引導(dǎo);
- SAR:本文提出的 SAR 增強(qiáng)型條件引導(dǎo)。
表 2 和圖 6 中的結(jié)果驗(yàn)證了本文在256x256分辨率下 2.2B 模型的假設(shè)。Full 設(shè)置獲得了最低的 GPT-Bal. 分?jǐn)?shù),主要原因是其 GPT-Over. 分?jǐn)?shù)顯著較低。將所有源圖像尺度引入條件引導(dǎo)會干擾目標(biāo)特征的預(yù)測,從而導(dǎo)致過度編輯。此外,該設(shè)置由于 token 序列更長,推理速度比另外兩種方案慢 60%。與 Finest 設(shè)置相比,SAR 增強(qiáng)模型獲得了更高的 GPT-Over. 分?jǐn)?shù),展示了尺度匹配信息注入的有效性。視覺結(jié)果進(jìn)一步支持了這一分析。Full 和 Finest 設(shè)置引入了意外的文本細(xì)節(jié)變化和不完整的風(fēng)格參照,而本文的 SAR 變體避免了這一缺陷。
結(jié)論
VAREdit,一種基于指令引導(dǎo)的圖像編輯框架,采用視覺自回歸(VAR)建模中的新穎“下一尺度預(yù)測”范式。VAREdit 將指令與量化后的視覺 token 特征輸入 VAR Transformer 模型,以預(yù)測目標(biāo)圖像的多尺度殘差,從而增強(qiáng)了編輯遵循性與生成效率。本文分析了不同條件引導(dǎo)策略的有效性,并提出了一種新穎的 SAR 模塊,用于在第一個自注意力層中有效注入尺度匹配的條件信息。大量實(shí)驗(yàn)證明了 VAREdit 的卓越性能,在編輯精度和生成速度方面顯著優(yōu)于現(xiàn)有最先進(jìn)方法。作為初步探索,希望本研究為未來更高效、更有效的基于自回歸的圖像編輯模型設(shè)計(jì)提供有價(jià)值的新見解。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
