精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

圖像編輯自回歸又奪SOTA:VAREdit秒殺擴(kuò)散模型,速度快2.2倍,編輯精準(zhǔn)度飆升30%!

發(fā)布于 2025-8-25 09:02
瀏覽
0收藏

圖像編輯自回歸又奪SOTA:VAREdit秒殺擴(kuò)散模型,速度快2.2倍,編輯精準(zhǔn)度飆升30%!-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2508.15772 
Git 鏈接:https://github.com/HiDream-ai/VAREdit 

亮點(diǎn)直擊

  • VAREdit,這是首個基于微調(diào)的視覺自回歸模型,用于指令引導(dǎo)的圖像編輯任務(wù);
  • 本文發(fā)現(xiàn)了 VAREdit 在最精細(xì)尺度條件下存在尺度不匹配問題,并提出了SAR 模塊作為有效的解決方案;
  • VAREdit 在標(biāo)準(zhǔn)圖像編輯基準(zhǔn)上取得了新SOTA,在編輯遵循性生成效率方面均超越了主流擴(kuò)散模型。

圖像編輯自回歸又奪SOTA:VAREdit秒殺擴(kuò)散模型,速度快2.2倍,編輯精準(zhǔn)度飆升30%!-AI.x社區(qū)

VAREdit 在指令引導(dǎo)的圖像編輯中實(shí)現(xiàn)了高精度性能。它在各種復(fù)雜的編輯場景中表現(xiàn)出色,包括對象級修改(添加、替換、移除)、屬性更改(材質(zhì)、文本、姿態(tài)、風(fēng)格、顏色)和復(fù)雜的合成編輯。

總結(jié)速覽

解決的問題

當(dāng)前主流的擴(kuò)散模型雖然在指令引導(dǎo)的圖像編輯中實(shí)現(xiàn)了高視覺保真度,但由于其全局去噪機(jī)制,編輯區(qū)域往往會與整個圖像上下文糾纏,導(dǎo)致:

  • 非預(yù)期的圖像修改
  • 編輯指令遵循性差
  • 編輯過程不夠可控

這暴露出擴(kuò)散模型在編輯精度和語義控制方面的根本性缺陷。

提出的方案

提出了 VAREdit,一種基于視覺自回歸(Visual Autoregressive, VAR)框架的圖像編輯方法,核心思想包括:

  • 將圖像編輯建模為一個“下一尺度預(yù)測”問題;
  • 在源圖像特征和文本指令的條件下,逐尺度生成目標(biāo)圖像特征,實(shí)現(xiàn)精細(xì)化控制的圖像編輯
  • 針對不同尺度間的條件引導(dǎo)難題,引入了尺度對齊參考模塊(SAR),解決尺度不匹配問題。

應(yīng)用的技術(shù)

  1. 視覺自回歸建模:將圖像合成看作基于離散視覺 token 的序列生成過程,具備因果性和組合性;
  2. 多尺度生成機(jī)制:從粗到細(xì)逐步預(yù)測圖像特征,實(shí)現(xiàn)高效編輯;
  3. SAR 模塊(Scale-Aligned Reference):在 Transformer 的首個自注意力層中注入尺度匹配的條件信息,提升跨尺度建模能力;
  4. 微調(diào)范式:在預(yù)訓(xùn)練模型基礎(chǔ)上進(jìn)行微調(diào),適應(yīng)圖像編輯任務(wù)。

達(dá)到的效果

  • 在標(biāo)準(zhǔn)圖像編輯基準(zhǔn)上取得最新SOTA
  • GPT-Balance 得分比主流擴(kuò)散模型高出 30%+,顯著提升指令遵循性;
  • 512×512 分辨率圖像編輯任務(wù)中僅需 1.2 秒,比同類方法 UltraEdit 快2.2 倍
  • 成功驗(yàn)證了自回歸方法在圖像編輯任務(wù)中的效率優(yōu)勢與語義控制能力

方法

首先回顧視覺自回歸(VAR)建模范式。然后介紹 VAREdit,這是一個將指令引導(dǎo)的圖像編輯重新定義為多尺度條件生成任務(wù)的新框架。最后,分析源圖像條件引導(dǎo)所面臨的挑戰(zhàn),并提出尺度對齊參考(SAR)模塊,作為解決樸素條件引導(dǎo)中尺度不匹配問題的針對性方案。

預(yù)備知識

圖像編輯自回歸又奪SOTA:VAREdit秒殺擴(kuò)散模型,速度快2.2倍,編輯精準(zhǔn)度飆升30%!-AI.x社區(qū)

圖像編輯自回歸又奪SOTA:VAREdit秒殺擴(kuò)散模型,速度快2.2倍,編輯精準(zhǔn)度飆升30%!-AI.x社區(qū)

圖像編輯自回歸又奪SOTA:VAREdit秒殺擴(kuò)散模型,速度快2.2倍,編輯精準(zhǔn)度飆升30%!-AI.x社區(qū)

VAREdit

VAREdit是一個將指令引導(dǎo)的圖像編輯重新定義為條件多尺度預(yù)測問題的框架。

圖像編輯自回歸又奪SOTA:VAREdit秒殺擴(kuò)散模型,速度快2.2倍,編輯精準(zhǔn)度飆升30%!-AI.x社區(qū)

圖像編輯自回歸又奪SOTA:VAREdit秒殺擴(kuò)散模型,速度快2.2倍,編輯精準(zhǔn)度飆升30%!-AI.x社區(qū)

圖像編輯自回歸又奪SOTA:VAREdit秒殺擴(kuò)散模型,速度快2.2倍,編輯精準(zhǔn)度飆升30%!-AI.x社區(qū)

盡管這種方法為編輯任務(wù)提供了全面的逐尺度參考,但其計(jì)算開銷很大。序列長度加倍會導(dǎo)致自注意力計(jì)算成本呈二次增長,使其在高分辨率編輯中變得不切實(shí)際。此外,提供多個源尺度特征可能會為預(yù)測單一尺度的目標(biāo)特征引入冗余或沖突的信息,從而可能降低編輯質(zhì)量。

最精細(xì)尺度條件

為了解決全尺度條件的高昂代價(jià),本文提出了一種更高效的策略,僅基于最精細(xì)尺度的源特征  進(jìn)行條件生成。該方法的動機(jī)來源于視覺分詞器的層級結(jié)構(gòu):最精細(xì)的尺度包含了來自源圖像的最詳細(xì)、高頻的信息,這些信息通常對引導(dǎo)編輯最為關(guān)鍵。這一簡化將似然表達(dá)式縮減為:

圖像編輯自回歸又奪SOTA:VAREdit秒殺擴(kuò)散模型,速度快2.2倍,編輯精準(zhǔn)度飆升30%!-AI.x社區(qū)

圖像編輯自回歸又奪SOTA:VAREdit秒殺擴(kuò)散模型,速度快2.2倍,編輯精準(zhǔn)度飆升30%!-AI.x社區(qū)

尺度依賴性分析

高效的最精細(xì)尺度方法所帶來的尺度不匹配問題引發(fā)了一個基本問題:為了實(shí)現(xiàn)高保真編輯,哪些源尺度是真正必要的?為了研究目標(biāo)殘差與源殘差之間的尺度依賴性,本文對在全尺度源特征上訓(xùn)練的模型中的自注意力機(jī)制進(jìn)行了診斷分析。該全尺度設(shè)置允許模型自由地關(guān)注所有源尺度。

圖像編輯自回歸又奪SOTA:VAREdit秒殺擴(kuò)散模型,速度快2.2倍,編輯精準(zhǔn)度飆升30%!-AI.x社區(qū)

圖像編輯自回歸又奪SOTA:VAREdit秒殺擴(kuò)散模型,速度快2.2倍,編輯精準(zhǔn)度飆升30%!-AI.x社區(qū)

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集

VAREdit 在一個包含 392 萬對樣本的大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練,該數(shù)據(jù)集聚合自 SEED-Data-Edit 和 ImgEdit 數(shù)據(jù)集。本文首先從 SEED-Data-Edit 數(shù)據(jù)集中提取所有單輪樣本,并將多輪對話分解為單輪編輯對。這些生成的樣本隨后通過視覺-語言模型進(jìn)行過濾,以移除指令遵循質(zhì)量較差的實(shí)例。最終訓(xùn)練數(shù)據(jù)還包含了來自 ImgEdit 的所有單輪樣本。關(guān)于此數(shù)據(jù)處理流程的更多細(xì)節(jié)見附錄。

評估

本文在兩個公認(rèn)的基準(zhǔn)上對 VAREdit 進(jìn)行了全面評估:EMU-Edit,包含 3,589 個樣本,涵蓋 8 種不同的編輯類型;PIE-Bench,包含 700 個樣本,涵蓋 10 種不同的編輯類型。

評估指標(biāo)

標(biāo)準(zhǔn)基準(zhǔn)如 EMU-Edit 和 PIE-Bench 依賴于基于 CLIP 的分?jǐn)?shù)。EMU-Edit 使用圖文相似度(CLIP-Out.)和文本-圖像方向相似度(CLIP-Dir.),而 PIE-Bench 分別評估整圖相似度(CLIP-Whole)和編輯區(qū)域相似度(CLIP-Edit)。然而,這些指標(biāo)常常無法捕捉編輯質(zhì)量的重要方面,例如偽編輯或編輯不完整。

為了解決這些不足,本文還采用了 OmniEdit 的評估協(xié)議,該協(xié)議使用 GPT-4o 作為自動評估器,提供兩個關(guān)鍵分?jǐn)?shù),評分范圍為 0-10:

  • GPT-Success (Suc.):衡量對編輯指令的遵循程度,分?jǐn)?shù)越高越好。
  • GPT-Overedit (Over.):評估未編輯區(qū)域的保留程度,分?jǐn)?shù)越高越好。


由于模型可以通過忽略編輯指令并輸出原圖來獲得完美的 GPT-Over. 分?jǐn)?shù),本文引入了 **GPT-Balance (Bal.)**,即 GPT-Suc. 和 GPT-Over. 的調(diào)和平均值。該平衡分?jǐn)?shù)作為本文衡量整體編輯性能的主要指標(biāo)。關(guān)于這些指標(biāo)的詳細(xì)提示詞和計(jì)算方法見附錄。

對比方法

為確保全面且嚴(yán)謹(jǐn)?shù)脑u估,本文將 VAREdit 與多種最先進(jìn)的微調(diào)方法進(jìn)行了比較。本文的對比分析涵蓋了廣泛的主流擴(kuò)散方法,包括:InstructPix2Pix、UltraEdit、OmniGen、AnySD、ACE++ 和 ICEdit。此外,本文還引入了 EditAR 這一基礎(chǔ)自回歸方法,用于基準(zhǔn)測試本文基于 VAR 的框架的有效性。關(guān)于這些基線模型的更多細(xì)節(jié)見附錄。

實(shí)現(xiàn)細(xì)節(jié)

圖像編輯自回歸又奪SOTA:VAREdit秒殺擴(kuò)散模型,速度快2.2倍,編輯精準(zhǔn)度飆升30%!-AI.x社區(qū)

定量結(jié)果

表 1 中的定量結(jié)果展示了 VAREdit 在編輯性能和效率方面的優(yōu)越性。

圖像編輯自回歸又奪SOTA:VAREdit秒殺擴(kuò)散模型,速度快2.2倍,編輯精準(zhǔn)度飆升30%!-AI.x社區(qū)

編輯質(zhì)量

在主要指標(biāo) GPT-Balance 上,VAREdit 始終優(yōu)于所有基于擴(kuò)散和自回歸的基線模型。本文的8.4B 模型在 EMU-Edit 上取得 GPT-Bal. 分?jǐn)?shù) 6.77,在 PIE-Bench 上取得 7.30,分別超越最強(qiáng)對手(EMU 上的 ICEdit,PIE 上的 UltraEdit)41.5% 和 30.8%。這表明 VAREdit 能夠在保留未變區(qū)域的同時(shí)執(zhí)行精確編輯。值得注意的是,一些方法如 OmniGen 通過過于保守的行為獲得較高的 GPT-Over. 分?jǐn)?shù),但未能執(zhí)行所請求的編輯,導(dǎo)致 GPT-Suc. 分?jǐn)?shù)較低,進(jìn)而 GPT-Bal. 分?jǐn)?shù)也較差。相比之下,VAREdit 實(shí)現(xiàn)了更好的平衡,體現(xiàn)出 VAR 范式在精確生成方面的優(yōu)勢。VAREdit 在傳統(tǒng)的基于 CLIP 的指標(biāo)上也取得了有競爭力甚至領(lǐng)先的成績。

類別間的魯棒性

圖 4 中的雷達(dá)圖按編輯類型細(xì)分了性能。VAREdit 在絕大多數(shù)類別上實(shí)現(xiàn)了最先進(jìn)的性能。盡管 2.2B 模型在具有挑戰(zhàn)性的全局風(fēng)格和文本編輯任務(wù)中存在一定局限,但 8.4B 模型顯著縮小了這一性能差距。這說明本文的框架具有良好的擴(kuò)展性,表明通過擴(kuò)大模型和數(shù)據(jù)集規(guī)模可以進(jìn)一步提升性能。

圖像編輯自回歸又奪SOTA:VAREdit秒殺擴(kuò)散模型,速度快2.2倍,編輯精準(zhǔn)度飆升30%!-AI.x社區(qū)

推理效率

除了高編輯質(zhì)量外,VAREdit 還提供了顯著的效率提升。8.4B 模型在512x512分辨率下完成一次編輯僅需 1.2 秒,比相似規(guī)模的 UltraEdit(7.7B,2.6 秒)快 2.2 倍,比更大的 ICEdit 模型(17.0B,8.4 秒)快 7 倍。這種高效率得益于單次多尺度生成過程。此外,2.2B 模型在僅 0.7 秒內(nèi)完成推理,同時(shí)在編輯質(zhì)量上超越所有基線方法。

定性結(jié)果

圖 5 提供了視覺對比,揭示了 VAREdit 在定量評估中取得成功的根本原因。在第一個示例中,基于擴(kuò)散的方法往往會對圖像進(jìn)行過度編輯,從而導(dǎo)致較低的 GPT-Over. 分?jǐn)?shù)。例如,InstructPix2Pix 改變了整個地面的顏色,而 ICEdit 錯誤地移除了電線桿。基礎(chǔ)的自回歸方法 EditAR 完全未能執(zhí)行指令。雖然這導(dǎo)致其 GPT-Over. 分?jǐn)?shù)較高,但 GPT-Suc. 分?jǐn)?shù)非常低。VAREdit 成功完成了任務(wù),同時(shí)精確保留了未變區(qū)域,因此獲得了最高的 GPT-Bal. 分?jǐn)?shù)。類似的觀察也適用于后續(xù)示例,進(jìn)一步驗(yàn)證了 VAREdit 的有效性。

圖像編輯自回歸又奪SOTA:VAREdit秒殺擴(kuò)散模型,速度快2.2倍,編輯精準(zhǔn)度飆升30%!-AI.x社區(qū)

消融實(shí)驗(yàn)與分析為單獨(dú)驗(yàn)證 SAR 模塊的貢獻(xiàn),本文進(jìn)行了一個消融實(shí)驗(yàn),比較了三種條件策略:

  • Full:基于所有源圖像尺度的特征進(jìn)行條件引導(dǎo);
  • Finest:僅基于最精細(xì)尺度的源圖像特征進(jìn)行條件引導(dǎo);
  • SAR:本文提出的 SAR 增強(qiáng)型條件引導(dǎo)。

表 2 和圖 6 中的結(jié)果驗(yàn)證了本文在256x256分辨率下 2.2B 模型的假設(shè)。Full 設(shè)置獲得了最低的 GPT-Bal. 分?jǐn)?shù),主要原因是其 GPT-Over. 分?jǐn)?shù)顯著較低。將所有源圖像尺度引入條件引導(dǎo)會干擾目標(biāo)特征的預(yù)測,從而導(dǎo)致過度編輯。此外,該設(shè)置由于 token 序列更長,推理速度比另外兩種方案慢 60%。與 Finest 設(shè)置相比,SAR 增強(qiáng)模型獲得了更高的 GPT-Over. 分?jǐn)?shù),展示了尺度匹配信息注入的有效性。視覺結(jié)果進(jìn)一步支持了這一分析。Full 和 Finest 設(shè)置引入了意外的文本細(xì)節(jié)變化和不完整的風(fēng)格參照,而本文的 SAR 變體避免了這一缺陷。

圖像編輯自回歸又奪SOTA:VAREdit秒殺擴(kuò)散模型,速度快2.2倍,編輯精準(zhǔn)度飆升30%!-AI.x社區(qū)

圖像編輯自回歸又奪SOTA:VAREdit秒殺擴(kuò)散模型,速度快2.2倍,編輯精準(zhǔn)度飆升30%!-AI.x社區(qū)

結(jié)論

VAREdit,一種基于指令引導(dǎo)的圖像編輯框架,采用視覺自回歸(VAR)建模中的新穎“下一尺度預(yù)測”范式。VAREdit 將指令與量化后的視覺 token 特征輸入 VAR Transformer 模型,以預(yù)測目標(biāo)圖像的多尺度殘差,從而增強(qiáng)了編輯遵循性與生成效率。本文分析了不同條件引導(dǎo)策略的有效性,并提出了一種新穎的 SAR 模塊,用于在第一個自注意力層中有效注入尺度匹配的條件信息。大量實(shí)驗(yàn)證明了 VAREdit 的卓越性能,在編輯精度和生成速度方面顯著優(yōu)于現(xiàn)有最先進(jìn)方法。作為初步探索,希望本研究為未來更高效、更有效的基于自回歸的圖像編輯模型設(shè)計(jì)提供有價(jià)值的新見解。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/-_Hq3Itx9wa9aCSbcb5xVg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 定州市| 文水县| 综艺| 池州市| 交口县| 台州市| 昌吉市| 宁明县| 怀安县| 松滋市| 绥德县| 济宁市| 吴堡县| 厦门市| 郴州市| 色达县| 工布江达县| 化德县| 濮阳县| 泗洪县| 潞城市| 华亭县| 桃园县| 宜城市| 五家渠市| 龙山县| 手游| 高邑县| 镇平县| 顺义区| 平陆县| 康定县| 大名县| 卓资县| 浮梁县| 增城市| 商城县| 济南市| 泌阳县| 安吉县| 新巴尔虎左旗|