精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

ICCV 2025 | 描述替代指令:南大聯合vivo發布DescriptiveEdit,定義語義圖像編輯新范式

發布于 2025-9-2 09:08
瀏覽
0收藏

ICCV 2025 | 描述替代指令:南大聯合vivo發布DescriptiveEdit,定義語義圖像編輯新范式-AI.x社區

文章鏈接:https://arxiv.org/abs/2508.20505 
項目鏈接:https://twinkle-ce.github.io/DescriptiveEdit/

亮點直擊

  • 基于描述的圖像編輯新范式:與現有方法依賴指令(instruction)表達編輯意圖不同,本文提出描述(description)直接引導的語義編輯框架DescriptiveEdit。
  • 參考圖控制策略:DescriptiveEdit在去噪過程中實現參考圖控制,并通過零初始化的線性層學習自適應權重,有效緩解了圖像編輯中精準編輯與結構保真的沖突。
  • 兼容良好且編輯性能卓越:DescriptiveEdit不僅可以同時支持全局與局部編輯,還可以直接兼容在基礎文生圖模型上訓練的ControlNet、IP-Adapter、LoRA等生態擴展。

ICCV 2025 | 描述替代指令:南大聯合vivo發布DescriptiveEdit,定義語義圖像編輯新范式-AI.x社區

圖1:DescriptiveEdit編輯效果展示

總結速覽

解決的問題

本文主要想解決基于指令的圖像編輯范式的以下三個問題:

  • 指令編輯數據瓶頸:基于指令的方法需要(參考圖,編輯指令,目標圖)三元組數據,但現有數據集在規模與多樣性上遠不及T2I訓練數據,限制了模型的泛化能力。
  • 架構兼容難:現有基于訓練的方法通常需修改擴散模型主干結構,不僅帶來高昂的微調成本,還影響與社區擴展模型(如ControlNet,LoRA)的兼容性。
  • 編輯靈活性與結構保真的權衡困境:現有方法難以同時兼顧指令遵循度和編輯一致性,經常導致無法遵循編輯指令或者修改非編輯區域的問題。

提出的方案

針對上述問題,本文提出了以下解決方案:

  • 建立描述(description)直接引導的語義圖像編輯框架DescriptiveEdit,在保留擴散模型原本生成能力、降低訓練開銷的同時,避免了構造高質量指令編輯三元組數據(參考圖,編輯指令,編輯圖)的問題。
  • 引入Attention Bridge在去噪過程中進行參考圖控制,并結合零初始化的可學習線性層實現參考圖與目標圖特征的自適應融合。同時,通過LoRA微調減少了可訓練參數量,從而實現高效模型訓練。
  • 推理階段引入雙系數可控機制,通過參考圖保真度系數和文本描述影響力系數調節編輯幅度。

應用的技術

DescriptiveEdit框架包含兩個技術核心:

  • 參考圖控制策略:在并行Unet(CrossAttentive Unet和Ref-Unet)之間引入 Attention Bridge進行參考圖控制,通過零初始化的線性層逐步學習最優融合系數避免早期沖突, 并結合 LoRA 微調保證訓練效率。
  • 可控推理策略:通過調整參考圖保真度系數和文本描述影響力系數,可在結構保真與語義修改之間靈活切換。

達到的效果

  • 全局和局部編輯均表現優異,編輯結果在指令遵循度和編輯一致性上取得了最佳平衡。在 Emu Edit test基準測試集上,多個關鍵指標上領先現有方法。
  • 用戶可根據需求在“輕微修改”與“大幅變更”之間自由切換,且在不同編輯場景下均保持穩定表現。
  • 該架構可擴展至DiT架構,并可與 ControlNet、IP-Adapter 等社區擴展模型良好兼容。

方法概述

ICCV 2025 | 描述替代指令:南大聯合vivo發布DescriptiveEdit,定義語義圖像編輯新范式-AI.x社區

圖2:方法框架圖

傳統指令驅動的語義圖像編輯以“參考圖 + 編輯指令 → 編輯圖像”為核心流程(如“在天空中添加煙花”)。我們將其重構為“兩階段”:指令 → 編輯描述 → 編輯圖像,其中編輯描述(如“天空中煙花綻放”)可由用戶直接提供,或由視覺語言模型根據參考圖與指令自動生成。于是核心挑戰就在于:如何設計高效的參考圖控制機制?


由于 T2I 模型本身并不支持圖像條件,我們需引入參考圖控制機制,同時避免對架構和預訓練權重的改動。潛空間擴散模型常用兩種條件控制方式:(1)交叉注意力(cross attention):輕量高效,僅編碼高層語義(如 Stable Diffusion, IP-Adapter)(2)Unet特征提取:低層對齊好,但需通道拼接并大規模微調(如 ControlNet)。我們結合兩者優勢,設計了并行Unet網絡,其中Cross-Attentive UNet負責去噪,Ref-Unet負責提取條件特征。然后,我們在兩者的自注意力層中引入Attention Bridge負責高效條件控制,其中 Query 來自 Ref-UNet,Key和Value 來自Cross-Attentive UNet。我們將Attention Bridge輸出的參考特征 Z' 與原自注意力輸出 Z 融合,從而在不改變主干結構的前提下實現參考圖控制。


然而我們發現直接將 Z 與 Z' 相加易導致參考特征過強、削弱生成效果。為此,我們引入零初始化的可學習線性映射:Zout=Z+Linear(Z′) ,初始時 Linear(Z')=0,保留生成先驗;訓練中逐步學習平衡生成與參考,引導效果可控。

ICCV 2025 | 描述替代指令:南大聯合vivo發布DescriptiveEdit,定義語義圖像編輯新范式-AI.x社區

實驗

實驗設置

訓練細節:為了確保公平比較,我們與大多數基于訓練的方法保持一致,采用 Stable Diffusion v1.5 作為基礎模型。模型使用 AdamW 優化器進行訓練,學習率設為1e-5。為了實現參數高效微調,我們對 Attention Bridge 層應用 LoRA ,并將rank設置為 64,α設置為 64。


數據集: DescriptiveEdit在 UltraEdit 數據集上進行訓練,該數據集包含約 400 萬對文本-圖像樣本。在評估階段,我們使用 Emu Edit test 基準測試集。然而我們發現該基準測試集存在不一致性,例如源圖像與目標圖像可能具有相同的文本描述(如 "a train station in a city")。為保證評估的公平性與合理性,我們在計算指標前對這些樣本進行了過濾。


對比方法:我們將DescriptiveEdit與兩類具有代表性的基線方法進行比較:(1)Training-free 方法:包括 MasaCtrl、RF-Edit、PnPInversion、FPE和 TurboEdit。(2)Training-based 方法:包括 InstructPix2Pix、MagicBrush、EmuEdit、AnyEdit和BrushEdit。


評估指標: 我們從三個維度評估語義圖像編輯模型的性能:(1)指令遵循度:使用 CLIP-T 衡量編輯描述與生成圖像的一致性。(2)圖像一致性:通過 L1 與 L2 距離衡量參考圖與編輯圖的差異;采用 CLIP-I與 DINO-I特征相似度評估;使用 SSIM評估結構保真度;采用 LPIPS衡量感知質量。(3)圖像質量:使用 PSNR 評估像素級重建精度。

定量比較

ICCV 2025 | 描述替代指令:南大聯合vivo發布DescriptiveEdit,定義語義圖像編輯新范式-AI.x社區

表1:Descriptive與基線方法的定量對比結果

DescriptiveEdit在圖像一致性上表現出色,生成結果在結構和語義上都與參考圖像高度對齊,確保編輯后的內容與參考圖保持合理關聯。同時,在指令遵循度方面,生成圖像能夠精準反映文本描述的意圖,無論是局部細節修改還是整體風格調整,都能與指令緊密匹配。整體來看,編輯效果兼顧細節與視覺效果,使得該方法在實際語義圖像編輯任務中具有較高的實用價值。

定性比較

ICCV 2025 | 描述替代指令:南大聯合vivo發布DescriptiveEdit,定義語義圖像編輯新范式-AI.x社區

圖3:Descriptive與基線方法的定性對比結果

圖3展示了全局與局部編輯任務的對比結果。與訓練型和非訓練型基線方法相比,DescriptiveEdit在語義一致性與高保真度上均表現出顯著優勢。全局編輯中,模型能夠自然改變圖像風格或替換背景,同時保持關鍵前景元素完整;局部編輯中,模型能平滑修改目標物體,如替換或添加細節,而整體結構與語義保持連貫,這些都是現有方法難以兼顧的。

消融實驗

ICCV 2025 | 描述替代指令:南大聯合vivo發布DescriptiveEdit,定義語義圖像編輯新范式-AI.x社區

圖4:描述輸入和指令輸入的定性對比結果

描述(Description) vs. 指令(Instruction): 為了驗證在圖像編輯任務中,使用描述引導的編輯是否比指令引導的編輯更有效,我們設計了可控實驗:保持其他條件一致,僅將文本輸入類型從指令改為描述。圖4結果表明,基于描述的方法能更準確傳達編輯意圖,避免非編輯區域的改變從而提升編輯效果。

ICCV 2025 | 描述替代指令:南大聯合vivo發布DescriptiveEdit,定義語義圖像編輯新范式-AI.x社區

圖5:不同強度的λ 對圖片編輯結果的影響

ICCV 2025 | 描述替代指令:南大聯合vivo發布DescriptiveEdit,定義語義圖像編輯新范式-AI.x社區

ICCV 2025 | 描述替代指令:南大聯合vivo發布DescriptiveEdit,定義語義圖像編輯新范式-AI.x社區

表2:不同注意力融合方式的定量對比結果

自適應注意力融合:我們通過與直接替換或直接相加參考特征的策略比較,驗證了自適應注意力融合的有效性。表2中的實驗結果顯示,直接替換會破壞圖像保真與結構一致性,直接相加雖有所改善但缺乏平衡控制。DescriptiveEdit通過可學習的線性層動態調節參考特征融合,實現了圖像保真與生成能力的最佳平衡,驗證了自適應特征融合在高質量圖像編輯中的作用。

與社區擴展的兼容性

ICCV 2025 | 描述替代指令:南大聯合vivo發布DescriptiveEdit,定義語義圖像編輯新范式-AI.x社區

圖6:DescriptiveEdit與社區擴展的兼容性測試

DescriptiveEdit核心優勢之一是與社區擴展方法無縫兼容,可在不修改基礎模型或重新訓練的情況下靈活集成外部控制信號。通過在 IP-Adapter、ControlNet 和 RealCartoon3D 等三種代表性模型上驗證,圖6中的結果顯示DescriptiveEdit始終能保持結構一致性,同時實現風格轉換且無明顯偽影,證明了DescriptiveEdit具備即插即用的適應性,提高了模型通用性與實用性。

跨架構魯棒性

ICCV 2025 | 描述替代指令:南大聯合vivo發布DescriptiveEdit,定義語義圖像編輯新范式-AI.x社區

圖7:DescriptiveEdit在Flux上的編輯效果展示

為了驗證DescriptiveEdit在不同擴散架構上的魯棒性,我們將其應用到 Flux中。結果顯示,DescriptiveEdit在保持結構完整性的同時,始終能生成高保真編輯結果。這表明DescriptiveEdit在不同擴散模型框架中均具有可靠性能,消除了對特定架構的依賴,進一步強化了其實用價值。

結論

本文提出了一種基于描述(description)的語義圖像編輯方法 —— DescriptiveEdit,將語義圖像編輯統一到文生圖框架中。通過引入 Attention Bridge 實現高效參考圖控制,并結合 LoRA 微調保證了訓練效率與兼容性。實驗結果表明,該方法在指令遵循度與編輯一致性等方面均優于現有方案,建立了一個可擴展、即插即用的語義圖像編輯新范式。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:https://mp.weixin.qq.com/s/ZFJ1f7YZZEKoEs5Ie1YAbA

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 清远市| 平江县| 五台县| 封丘县| 徐州市| 突泉县| 海兴县| 资中县| 巴青县| 樟树市| 噶尔县| 临潭县| 武冈市| 富宁县| 海原县| 无锡市| 大丰市| 沁阳市| 延吉市| 迁安市| 娄烦县| 江永县| 桐庐县| 汾阳市| 巴林左旗| 偃师市| 汉寿县| 尚志市| 观塘区| 汉源县| 于都县| 石柱| 天水市| 理塘县| 深水埗区| 济阳县| 合肥市| 巴彦县| 繁峙县| 平远县| 丰原市|