圖像編輯自回歸又奪SOTA：VAREdit秒殺擴(kuò)散模型，速度快2.2倍，編輯精準(zhǔn)度飆升30%！

zhangyannni

發(fā)布于 2025-8-25 09:02

瀏覽

0收藏

圖像編輯自回歸又奪SOTA：VAREdit秒殺擴(kuò)散模型，速度快2.2倍，編輯精準(zhǔn)度飆升30%！-AI.x社區(qū)

論文鏈接：https://arxiv.org/pdf/2508.15772
Git 鏈接：https://github.com/HiDream-ai/VAREdit

亮點(diǎn)直擊

VAREdit，這是首個基于微調(diào)的視覺自回歸模型，用于指令引導(dǎo)的圖像編輯任務(wù)；
本文發(fā)現(xiàn)了 VAREdit 在最精細(xì)尺度條件下存在尺度不匹配問題，并提出了SAR 模塊作為有效的解決方案；
VAREdit 在標(biāo)準(zhǔn)圖像編輯基準(zhǔn)上取得了新SOTA，在編輯遵循性和生成效率方面均超越了主流擴(kuò)散模型。

圖像編輯自回歸又奪SOTA：VAREdit秒殺擴(kuò)散模型，速度快2.2倍，編輯精準(zhǔn)度飆升30%！-AI.x社區(qū)

VAREdit 在指令引導(dǎo)的圖像編輯中實(shí)現(xiàn)了高精度性能。它在各種復(fù)雜的編輯場景中表現(xiàn)出色，包括對象級修改（添加、替換、移除）、屬性更改（材質(zhì)、文本、姿態(tài)、風(fēng)格、顏色）和復(fù)雜的合成編輯。

總結(jié)速覽

解決的問題

當(dāng)前主流的擴(kuò)散模型雖然在指令引導(dǎo)的圖像編輯中實(shí)現(xiàn)了高視覺保真度，但由于其全局去噪機(jī)制，編輯區(qū)域往往會與整個圖像上下文糾纏，導(dǎo)致：

非預(yù)期的圖像修改；
編輯指令遵循性差；
編輯過程不夠可控。

這暴露出擴(kuò)散模型在編輯精度和語義控制方面的根本性缺陷。

提出的方案

提出了 VAREdit，一種基于視覺自回歸（Visual Autoregressive, VAR）框架的圖像編輯方法，核心思想包括：

將圖像編輯建模為一個“下一尺度預(yù)測”問題；
在源圖像特征和文本指令的條件下，逐尺度生成目標(biāo)圖像特征，實(shí)現(xiàn)精細(xì)化控制的圖像編輯；
針對不同尺度間的條件引導(dǎo)難題，引入了尺度對齊參考模塊（SAR），解決尺度不匹配問題。

應(yīng)用的技術(shù)

視覺自回歸建模：將圖像合成看作基于離散視覺 token 的序列生成過程，具備因果性和組合性；
多尺度生成機(jī)制：從粗到細(xì)逐步預(yù)測圖像特征，實(shí)現(xiàn)高效編輯；
SAR 模塊（Scale-Aligned Reference）：在 Transformer 的首個自注意力層中注入尺度匹配的條件信息，提升跨尺度建模能力；
微調(diào)范式：在預(yù)訓(xùn)練模型基礎(chǔ)上進(jìn)行微調(diào)，適應(yīng)圖像編輯任務(wù)。

達(dá)到的效果

在標(biāo)準(zhǔn)圖像編輯基準(zhǔn)上取得最新SOTA；
GPT-Balance 得分比主流擴(kuò)散模型高出 30%+，顯著提升指令遵循性；
在512×512 分辨率圖像編輯任務(wù)中僅需 1.2 秒，比同類方法 UltraEdit 快2.2 倍；
成功驗(yàn)證了自回歸方法在圖像編輯任務(wù)中的效率優(yōu)勢與語義控制能力。

方法

首先回顧視覺自回歸（VAR）建模范式。然后介紹 VAREdit，這是一個將指令引導(dǎo)的圖像編輯重新定義為多尺度條件生成任務(wù)的新框架。最后，分析源圖像條件引導(dǎo)所面臨的挑戰(zhàn)，并提出尺度對齊參考（SAR）模塊，作為解決樸素條件引導(dǎo)中尺度不匹配問題的針對性方案。

預(yù)備知識

圖像編輯自回歸又奪SOTA：VAREdit秒殺擴(kuò)散模型，速度快2.2倍，編輯精準(zhǔn)度飆升30%！-AI.x社區(qū)

VAREdit

VAREdit是一個將指令引導(dǎo)的圖像編輯重新定義為條件多尺度預(yù)測問題的框架。

圖像編輯自回歸又奪SOTA：VAREdit秒殺擴(kuò)散模型，速度快2.2倍，編輯精準(zhǔn)度飆升30%！-AI.x社區(qū)

盡管這種方法為編輯任務(wù)提供了全面的逐尺度參考，但其計(jì)算開銷很大。序列長度加倍會導(dǎo)致自注意力計(jì)算成本呈二次增長，使其在高分辨率編輯中變得不切實(shí)際。此外，提供多個源尺度特征可能會為預(yù)測單一尺度的目標(biāo)特征引入冗余或沖突的信息，從而可能降低編輯質(zhì)量。

最精細(xì)尺度條件

為了解決全尺度條件的高昂代價(jià)，本文提出了一種更高效的策略，僅基于最精細(xì)尺度的源特征進(jìn)行條件生成。該方法的動機(jī)來源于視覺分詞器的層級結(jié)構(gòu)：最精細(xì)的尺度包含了來自源圖像的最詳細(xì)、高頻的信息，這些信息通常對引導(dǎo)編輯最為關(guān)鍵。這一簡化將似然表達(dá)式縮減為：

圖像編輯自回歸又奪SOTA：VAREdit秒殺擴(kuò)散模型，速度快2.2倍，編輯精準(zhǔn)度飆升30%！-AI.x社區(qū)

尺度依賴性分析

高效的最精細(xì)尺度方法所帶來的尺度不匹配問題引發(fā)了一個基本問題：為了實(shí)現(xiàn)高保真編輯，哪些源尺度是真正必要的？為了研究目標(biāo)殘差與源殘差之間的尺度依賴性，本文對在全尺度源特征上訓(xùn)練的模型中的自注意力機(jī)制進(jìn)行了診斷分析。該全尺度設(shè)置允許模型自由地關(guān)注所有源尺度。

圖像編輯自回歸又奪SOTA：VAREdit秒殺擴(kuò)散模型，速度快2.2倍，編輯精準(zhǔn)度飆升30%！-AI.x社區(qū)

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集

VAREdit 在一個包含 392 萬對樣本的大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練，該數(shù)據(jù)集聚合自 SEED-Data-Edit 和 ImgEdit 數(shù)據(jù)集。本文首先從 SEED-Data-Edit 數(shù)據(jù)集中提取所有單輪樣本，并將多輪對話分解為單輪編輯對。這些生成的樣本隨后通過視覺-語言模型進(jìn)行過濾，以移除指令遵循質(zhì)量較差的實(shí)例。最終訓(xùn)練數(shù)據(jù)還包含了來自 ImgEdit 的所有單輪樣本。關(guān)于此數(shù)據(jù)處理流程的更多細(xì)節(jié)見附錄。

評估

本文在兩個公認(rèn)的基準(zhǔn)上對 VAREdit 進(jìn)行了全面評估：EMU-Edit，包含 3,589 個樣本，涵蓋 8 種不同的編輯類型；PIE-Bench，包含 700 個樣本，涵蓋 10 種不同的編輯類型。

評估指標(biāo)

標(biāo)準(zhǔn)基準(zhǔn)如 EMU-Edit 和 PIE-Bench 依賴于基于 CLIP 的分?jǐn)?shù)。EMU-Edit 使用圖文相似度（CLIP-Out.）和文本-圖像方向相似度（CLIP-Dir.），而 PIE-Bench 分別評估整圖相似度（CLIP-Whole）和編輯區(qū)域相似度（CLIP-Edit）。然而，這些指標(biāo)常常無法捕捉編輯質(zhì)量的重要方面，例如偽編輯或編輯不完整。

為了解決這些不足，本文還采用了 OmniEdit 的評估協(xié)議，該協(xié)議使用 GPT-4o 作為自動評估器，提供兩個關(guān)鍵分?jǐn)?shù)，評分范圍為 0-10：

GPT-Success (Suc.)：衡量對編輯指令的遵循程度，分?jǐn)?shù)越高越好。
GPT-Overedit (Over.)：評估未編輯區(qū)域的保留程度，分?jǐn)?shù)越高越好。

由于模型可以通過忽略編輯指令并輸出原圖來獲得完美的 GPT-Over. 分?jǐn)?shù)，本文引入了 **GPT-Balance (Bal.)**，即 GPT-Suc. 和 GPT-Over. 的調(diào)和平均值。該平衡分?jǐn)?shù)作為本文衡量整體編輯性能的主要指標(biāo)。關(guān)于這些指標(biāo)的詳細(xì)提示詞和計(jì)算方法見附錄。

對比方法

為確保全面且嚴(yán)謹(jǐn)?shù)脑u估，本文將 VAREdit 與多種最先進(jìn)的微調(diào)方法進(jìn)行了比較。本文的對比分析涵蓋了廣泛的主流擴(kuò)散方法，包括：InstructPix2Pix、UltraEdit、OmniGen、AnySD、ACE++ 和 ICEdit。此外，本文還引入了 EditAR 這一基礎(chǔ)自回歸方法，用于基準(zhǔn)測試本文基于 VAR 的框架的有效性。關(guān)于這些基線模型的更多細(xì)節(jié)見附錄。

實(shí)現(xiàn)細(xì)節(jié)

圖像編輯自回歸又奪SOTA：VAREdit秒殺擴(kuò)散模型，速度快2.2倍，編輯精準(zhǔn)度飆升30%！-AI.x社區(qū)

定量結(jié)果

表 1 中的定量結(jié)果展示了 VAREdit 在編輯性能和效率方面的優(yōu)越性。

圖像編輯自回歸又奪SOTA：VAREdit秒殺擴(kuò)散模型，速度快2.2倍，編輯精準(zhǔn)度飆升30%！-AI.x社區(qū)

編輯質(zhì)量

在主要指標(biāo) GPT-Balance 上，VAREdit 始終優(yōu)于所有基于擴(kuò)散和自回歸的基線模型。本文的8.4B 模型在 EMU-Edit 上取得 GPT-Bal. 分?jǐn)?shù) 6.77，在 PIE-Bench 上取得 7.30，分別超越最強(qiáng)對手（EMU 上的 ICEdit，PIE 上的 UltraEdit）41.5% 和 30.8%。這表明 VAREdit 能夠在保留未變區(qū)域的同時(shí)執(zhí)行精確編輯。值得注意的是，一些方法如 OmniGen 通過過于保守的行為獲得較高的 GPT-Over. 分?jǐn)?shù)，但未能執(zhí)行所請求的編輯，導(dǎo)致 GPT-Suc. 分?jǐn)?shù)較低，進(jìn)而 GPT-Bal. 分?jǐn)?shù)也較差。相比之下，VAREdit 實(shí)現(xiàn)了更好的平衡，體現(xiàn)出 VAR 范式在精確生成方面的優(yōu)勢。VAREdit 在傳統(tǒng)的基于 CLIP 的指標(biāo)上也取得了有競爭力甚至領(lǐng)先的成績。

類別間的魯棒性

圖 4 中的雷達(dá)圖按編輯類型細(xì)分了性能。VAREdit 在絕大多數(shù)類別上實(shí)現(xiàn)了最先進(jìn)的性能。盡管 2.2B 模型在具有挑戰(zhàn)性的全局風(fēng)格和文本編輯任務(wù)中存在一定局限，但 8.4B 模型顯著縮小了這一性能差距。這說明本文的框架具有良好的擴(kuò)展性，表明通過擴(kuò)大模型和數(shù)據(jù)集規(guī)模可以進(jìn)一步提升性能。

圖像編輯自回歸又奪SOTA：VAREdit秒殺擴(kuò)散模型，速度快2.2倍，編輯精準(zhǔn)度飆升30%！-AI.x社區(qū)

推理效率

除了高編輯質(zhì)量外，VAREdit 還提供了顯著的效率提升。8.4B 模型在512x512分辨率下完成一次編輯僅需 1.2 秒，比相似規(guī)模的 UltraEdit（7.7B，2.6 秒）快 2.2 倍，比更大的 ICEdit 模型（17.0B，8.4 秒）快 7 倍。這種高效率得益于單次多尺度生成過程。此外，2.2B 模型在僅 0.7 秒內(nèi)完成推理，同時(shí)在編輯質(zhì)量上超越所有基線方法。

定性結(jié)果

圖 5 提供了視覺對比，揭示了 VAREdit 在定量評估中取得成功的根本原因。在第一個示例中，基于擴(kuò)散的方法往往會對圖像進(jìn)行過度編輯，從而導(dǎo)致較低的 GPT-Over. 分?jǐn)?shù)。例如，InstructPix2Pix 改變了整個地面的顏色，而 ICEdit 錯誤地移除了電線桿。基礎(chǔ)的自回歸方法 EditAR 完全未能執(zhí)行指令。雖然這導(dǎo)致其 GPT-Over. 分?jǐn)?shù)較高，但 GPT-Suc. 分?jǐn)?shù)非常低。VAREdit 成功完成了任務(wù)，同時(shí)精確保留了未變區(qū)域，因此獲得了最高的 GPT-Bal. 分?jǐn)?shù)。類似的觀察也適用于后續(xù)示例，進(jìn)一步驗(yàn)證了 VAREdit 的有效性。

圖像編輯自回歸又奪SOTA：VAREdit秒殺擴(kuò)散模型，速度快2.2倍，編輯精準(zhǔn)度飆升30%！-AI.x社區(qū)

消融實(shí)驗(yàn)與分析為單獨(dú)驗(yàn)證 SAR 模塊的貢獻(xiàn)，本文進(jìn)行了一個消融實(shí)驗(yàn)，比較了三種條件策略：

Full：基于所有源圖像尺度的特征進(jìn)行條件引導(dǎo)；
Finest：僅基于最精細(xì)尺度的源圖像特征進(jìn)行條件引導(dǎo)；
SAR：本文提出的 SAR 增強(qiáng)型條件引導(dǎo)。

表 2 和圖 6 中的結(jié)果驗(yàn)證了本文在256x256分辨率下 2.2B 模型的假設(shè)。Full 設(shè)置獲得了最低的 GPT-Bal. 分?jǐn)?shù)，主要原因是其 GPT-Over. 分?jǐn)?shù)顯著較低。將所有源圖像尺度引入條件引導(dǎo)會干擾目標(biāo)特征的預(yù)測，從而導(dǎo)致過度編輯。此外，該設(shè)置由于 token 序列更長，推理速度比另外兩種方案慢 60%。與 Finest 設(shè)置相比，SAR 增強(qiáng)模型獲得了更高的 GPT-Over. 分?jǐn)?shù)，展示了尺度匹配信息注入的有效性。視覺結(jié)果進(jìn)一步支持了這一分析。Full 和 Finest 設(shè)置引入了意外的文本細(xì)節(jié)變化和不完整的風(fēng)格參照，而本文的 SAR 變體避免了這一缺陷。

圖像編輯自回歸又奪SOTA：VAREdit秒殺擴(kuò)散模型，速度快2.2倍，編輯精準(zhǔn)度飆升30%！-AI.x社區(qū)

結(jié)論

VAREdit，一種基于指令引導(dǎo)的圖像編輯框架，采用視覺自回歸（VAR）建模中的新穎“下一尺度預(yù)測”范式。VAREdit 將指令與量化后的視覺 token 特征輸入 VAR Transformer 模型，以預(yù)測目標(biāo)圖像的多尺度殘差，從而增強(qiáng)了編輯遵循性與生成效率。本文分析了不同條件引導(dǎo)策略的有效性，并提出了一種新穎的 SAR 模塊，用于在第一個自注意力層中有效注入尺度匹配的條件信息。大量實(shí)驗(yàn)證明了 VAREdit 的卓越性能，在編輯精度和生成速度方面顯著優(yōu)于現(xiàn)有最先進(jìn)方法。作為初步探索，希望本研究為未來更高效、更有效的基于自回歸的圖像編輯模型設(shè)計(jì)提供有價(jià)值的新見解。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/-_Hq3Itx9wa9aCSbcb5xVg??

標(biāo)簽

圖像生成

模型

贊

回復(fù)