精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

比真圖更香?統一生成模型Echo-4o用GPT-4o合成數據“反哺”模型,多項SOTA,效果炸裂! 精華

發布于 2025-8-20 09:50
瀏覽
0收藏

比真圖更香?統一生成模型Echo-4o用GPT-4o合成數據“反哺”模型,多項SOTA,效果炸裂!-AI.x社區

文章鏈接:https://arxiv.org/pdf/2508.09987 項目鏈接:https://yejy53.github.io/Echo-4o 
Git鏈接:https://github.com/yejy53/Echo-4o 數據集:https://huggingface.co/datasets/Yejy53/Echo-4o-Image/ 

亮點直擊

  • 分析并總結了合成數據相對于真實世界圖像的優勢,強調其能夠生成罕見場景,并為指令跟隨任務提供純凈、長尾分布的監督信號
  • Echo-4o-Image,一個包含18萬樣本的合成數據集,使用GPT-4o生成,涵蓋超現實場景多參考生成指令跟隨任務
  • 數據集上微調Bagel模型,得到統一生成模型Echo-4o,該模型在多個基準測試中達到SOTA。數據集還能持續提升其他骨干(如OmniGen2和BLIP3-o),展現強大可遷移性。
  • 兩個新評測基準:GenEval++通過增加指令復雜度緩解文本到圖像評測中的分數飽和問題;Imagine-Bench專注于幻想任務,旨在評估對想象內容的理解與生成能力

比真圖更香?統一生成模型Echo-4o用GPT-4o合成數據“反哺”模型,多項SOTA,效果炸裂!-AI.x社區

總結速覽

解決的問題

  1. 現實世界圖像數據集的局限性
  • 缺乏罕見場景(如超現實幻想、多參考圖像生成),無法滿足用戶多樣化需求。
  • 存在背景噪聲文本-圖像不對齊問題,影響模型學習的準確性。
  • 長尾分布不足(如特定屬性組合“8個紅蘋果”),導致模型難以處理復雜指令。
  1. 開源模型與GPT-4o的生成能力差距
  • 指令對齊想象力生成多參考合成等任務上表現較弱。

提出的方案

  1. 構建合成數據集Echo-4o-Image
  • 超現實幻想(38K樣本,如“撲克牌組成的火車”)。
  • 多參考生成(73K樣本,支持多圖像融合)。
  • 復雜指令對齊(68K樣本,純凈背景+精準屬性控制)。
  • 利用GPT-4o生成18萬條高質量合成數據,覆蓋三類關鍵場景:
  • 通過合成數據彌補現實數據的盲區,提供干凈、可控的監督信號
  1. 訓練新模型Echo-4o
  • 基于開源基線模型Bagel,用Echo-4o-Image微調,提升生成能力。
  1. 新評測基準
  • GenEval++:增加指令復雜度,解決現有評測分數飽和問題。
  • Imagine-Bench:專注評估想象力生成(幻想實現、身份保持、美學質量)。

應用的技術

  1. 數據蒸餾技術
  • 從GPT-4o生成數據中提取高質量合成樣本,遷移至開源模型。
  1. 多模態生成模型微調
  • 統一框架(如Bagel)適配文本到圖像、多參考生成等任務。
  1. 自動化評估體系
  • 基于GPT-4.1的自動評分,結合人工驗證,確保評測嚴謹性。

達到的效果

  1. 模型性能提升
  • Echo-4o在標準評測(GenEval、DPG、OmniContext)和新基準(GenEval++、Imagine-Bench)中表現優異,尤其在復雜指令遵循想象力生成上顯著領先。
  • 支持多參考生成,實現多圖像融合與視覺一致性。
  1. 數據集泛化性
  • Echo-4o-Image遷移至其他模型(如OmniGen2、BLIP3-o)后,多項指標一致提升,證明其通用性。
  1. 解決現實數據缺陷
  • 合成數據有效補充長尾分布純凈對齊幻想場景,縮小與閉源模型的差距。

Echo-4o-Image

Echo-4o-Image——一個從GPT-4o蒸餾得到的大規模合成數據集。如圖3所示,該數據集包含約17.9萬個樣本,涵蓋三種任務類型:

  • 3.8萬項超現實幻想生成任務
  • 7.3萬項多參考圖像生成任務
  • 6.8萬項復雜指令執行任務

其中,超現實幻想和多參考生成子集包含現有資源中罕見或代表性不足的數據。下文將詳細說明數據集構建流程與策略。

超現實幻想圖像生成

本文構建了專注于超現實幻想內容的文本到圖像數據子集。這類提示詞涉及對物體常規屬性、時間或空間的不規則修改。雖然該數據類型在用戶請求中占比很大,但在真實訓練數據中卻十分罕見。

如下圖3(a)所示,設計了結構化流程來構建Echo-4o-Image的幻想生成子集:

  1. 從COCO和Open Images數據集中收集常見物體概念作為生成主體
  2. GPT-4o先進行身份屬性構建(描述顏色/形狀/尺寸等規范屬性)
  3. 隨后執行概念變形,通過創造性修改和重組引入新穎特征

比真圖更香?統一生成模型Echo-4o用GPT-4o合成數據“反哺”模型,多項SOTA,效果炸裂!-AI.x社區

變形主要分為三類:

  • 屬性替換:改變常規特征(如白色香蕉、立方體足球、手掌大小的長頸鹿)
  • 混合重組:重定義物體材質(如水晶番茄)或組合不同物體(如香蕉構成的房屋)
  • 時空異常:將物體置于不可能的場景(如云層中的火車)或融合不同時代特征(如帶有未來科技的古代文物)


本文還將單物體提示擴展到多物體幻想組合,使GPT-4o生成涉及多個實體互動的超現實指令,最終產出視覺連貫且富有創意的樣本。

多參考圖像生成

多參考圖像生成以若干參考圖像和文本提示為輸入,要求提取各圖像元素并組合成連貫輸出。該任務既需要強大的提示理解能力,又要求保留各參考圖像的顯著特征并實現無縫融合。與超現實幻想生成類似,現成訓練數據極其有限。


如上圖3(b)所示,我們設計了包含人物/物體/場景的多參考組合(每樣本2-4張輸入圖像),參考圖像涵蓋肖像、街拍、動物、物品、服飾、自然景觀、地標和室內場景等多元類別。


使用GPT-4o生成基于參考圖像的指令時:

  • 每條指令針對特定交互類型(如人-物、物-景)
  • 明確標注圖像索引(如Image_1/Image_2)以降低歧義
  • 生成目標圖像后,通過改寫策略提升語言多樣性和語義清晰度


改寫過程中,可能將"Image_1"等索引替換為對應物體的具體描述,從而增強訓練數據質量和模型在多圖像生成任務中的泛化能力。

指令跟隨數據生成

針對文本到圖像的指令跟隨任務,通過引入更復雜的多物體多屬性指令來合成數據。如圖3(c)所示:

  1. 精選基礎物體概念集
  2. 采用模板驅動策略系統構建包含顏色/位置/數量/尺寸等屬性的提示詞
  3. 使用GPT-4o生成圖像


相比真實數據,合成數據具有兩大優勢:純凈指令對齊:GPT-4o生成的圖像通常具有簡潔背景且無無關物體。例如生成"小提琴與兩雙筷子"時,這些物體會直接呈現在整潔背景上。這種視覺純凈性降低了指令跟隨任務的學習難度。


可控長尾組合:相比僅包含有限語義概念的Geneval,我們的數據集顯著提升指令復雜度。例如:

  • GenEval最復雜提示可能僅含4個語義單元(如"橙色電視和綠色蝴蝶結")
  • 本文的數據集包含"橙色電視、綠色蝴蝶結和黃色螺絲刀"或"皮帶、盤子和三個乒乓球拍"等組合


通過增加物體數量及其屬性,我們解決了真實圖像分布中長尾數據稀缺的問題。


盡管使用最先進的GPT-4o生成圖像,仍可能出現對齊錯誤(生成圖像與提示不完全匹配)。為此我們引入文本改寫策略確保數據可用性,核心原則是:"沒有無效圖像,只有無效文本"。當檢測到不對齊時,根據生成圖像修正原始文本,使每個圖像-指令對構成語義有效且一致的訓練樣本。例如圖4中,若生成圖像包含3塊手表而文本指定4塊,則將描述修正為3塊。通過改寫而非丟棄樣本,我們充分釋放了GPT-4o合成數據的價值。

Echo-4o

為了驗證本文精心構建的Echo-4o-Image數據集的有效性,對強基線模型Bagel進行微調,得到了Echo-4o——一個在文本到圖像和多參考生成任務中均表現卓越的統一多模態生成模型。


Bagel是一個統一的多模態生成模型,能夠同時實現圖像理解和生成。該模型支持文本到圖像生成和單圖像到圖像生成任務,包括圖像編輯和自由形式操控。在架構上,Bagel采用ViT進行圖像理解,VAE進行圖像生成,并使用了混合專家(mixture of transformers)方法,其中一個專家處理VAE token,另一個專家處理所有其他token。對于多參考任務,圖像的ViT和VAE特征均輸入模型。然而,盡管多圖像輸入在架構上是可行的,Bagel在多參考生成任務上的表現較差。


本文使用Echo-4o-Image中的所有文本到圖像和多參考數據對Bagel進行微調。訓練目標采用僅針對輸出圖像計算的流匹配損失(flow matching loss)。除VAE外,對所有模型組件進行了24,000步訓練,學習率為2e-5。通過這一微調過程,Echo-4o在多參考生成任務上取得了卓越的性能,同時進一步提升了文本到圖像生成能力(詳見第5節)。我們特意選擇Bagel作為基線模型,因為它基于數萬億token的交錯多模態數據進行了訓練。Echo-4o-Image在這一經過廣泛訓練的模型上仍能帶來顯著提升,這證明了精心設計的合成數據的互補價值。

GenEval++ & Imagine-Bench

指令跟隨評估——GenEval++

以往的指令跟隨基準測試(如GenEval)被廣泛用于評估圖像生成模型遵循文本指令的能力。然而,這些基準測試通常依賴目標檢測器或基于CLIP的模型進行自動評分,而這兩種方法在準確性上存在顯著局限性。如圖4所示,在GenEval中,當評估“綠色熱狗”等提示詞時,檢測器經常因“熱狗”(一種食物)與綠色之間的弱關聯而做出錯誤判斷——盡管生成的圖像在視覺上是正確的。類似地,物體之間的遮擋可能導致計數不準確,從而產生假陰性結果。此外,現有基準測試中的文本指令相對簡單,語義多樣性有限。因此,當前模型的得分通常在0.8–0.9之間,表明指標飽和,從而限制了這些基準測試的區分能力。

 

為了解決這些局限性,本文推出了GenEval++,這是一個更準確、更具挑戰性的基準測試,用于評估圖像生成中的指令遵循能力。如下圖4所示,GenEval++采用GPT-4.1多模態模型作為評估器,利用其強大的復雜語義組合理解能力來評估生成圖像與文本指令的一致性。根據預定義的檢查清單(涵蓋對象、數量、顏色、位置和大小等多重標準),評估器僅在所有條件均滿足時才判定結果為正確。此外,該基準測試覆蓋了七種任務類型,涉及不同屬性組合,每種類型包含40個高復雜度提示詞,總計280條文本指令。GenEval++具有更豐富的語義和更多樣的組合,任務難度顯著高于原始GenEval。另外,為了與“一張……的照片”的提示風格保持一致,動漫風格或包含多個不相關元素的輸出被視為無效。

比真圖更香?統一生成模型Echo-4o用GPT-4o合成數據“反哺”模型,多項SOTA,效果炸裂!-AI.x社區

超現實與幻想評估——Imagine-Bench

此外,現有的評估協議主要關注現實世界生成任務。然而,生成模型的真正價值不僅在于再現現實,還在于創造未知,這與用戶驅動的創意指令的重要組成部分相契合。為此,我們推出了一個新的基準測試Imagine-Bench,旨在評估模型在超現實和幻想圖像生成中的能力。Imagine-Bench的主要任務是為常見物體添加奇幻元素,同時保留其核心身份特征。例如,指令“一個方形的足球”要求模型將形狀改為立方體,同時保留標準的黑白足球紋理。此類任務對當前理解-生成統一模型提出了嚴格挑戰,因為它們需要打破概念與外觀之間的固有關聯,以實現真正的創造性合成。


Imagine-Bench包含270條多樣化的創意指令,涵蓋廣泛的超現實屬性。在評估過程中,每條指令首先由GPT-4o處理,生成相應的檢查清單,包含詳細解釋和預期結果(包括所需的奇幻修改和物體不變身份特征的描述)。給定提示詞和生成的圖像,GPT-4.1從三個維度進行評分:

  1. 幻想實現度(Fantasy Fulfillment)——生成的圖像是否忠實實現了提示詞的超現實方面;
  2. 身份保留度(Identity Preservation)——變換后的物體是否保留了其原始身份的基本視覺特征;
  3. 美學質量(Aesthetic Quality)——生成圖像的視覺吸引力、創造力和多樣性。

受VIEScore和OmniGen2評估協議的啟發,GPT-4.1為每個維度給出0–10的評分,并為每個評分提供明確的推理,確保評估的嚴謹性和可解釋性。進一步采用更嚴格的評分方案,最終得分為: 

實驗

本節對Echo-4o進行全面評估,重點關注其在多樣化生成任務中的表現,包括指令跟隨圖像生成、超現實/幻想圖像合成以及多參考圖像生成。結果表明,Echo-4o在這些任務中均表現優異,凸顯了Echo-4o-Image合成數據集在提升生成模型能力方面的有效性。

指令跟隨圖像生成

在兩個廣泛使用的基準測試——GenEval和DPG-Bench,以及新提出的GenEval++上評估模型的指令跟隨能力。如下表1所示,Echo-4o在GenEval上取得了0.89的分數,優于Bagel和OmniGen2等先前的統一模型。在DPG-Bench(下表2)上,Echo-4o以86.07的總分超越了SD3和UniWorld等強勁競爭對手。這些結果表明,Echo-4o在不同類型的基準測試中均表現優異,展現了其在短文本和復雜長文本指令上的強大指令跟隨生成能力。

比真圖更香?統一生成模型Echo-4o用GPT-4o合成數據“反哺”模型,多項SOTA,效果炸裂!-AI.x社區

比真圖更香?統一生成模型Echo-4o用GPT-4o合成數據“反哺”模型,多項SOTA,效果炸裂!-AI.x社區

在現有的文本到圖像指令跟隨任務中,Echo-4o始終表現卓越。與基線模型Bagel相比,Echo-4o在GenEval上實現了8.5%的提升,驗證了Echo-4o-Image數據集中純合成數據對增強指令跟隨能力的有效性。這些干凈背景的樣本提升了模型學習圖像與文本指令之間精確對齊的能力。盡管訓練數據主要由短文本指令組成,但模型在復雜長文本生成任務上也表現出強大的泛化能力,DPG-Bench上的表現即為明證。


此外,在新提出的更具挑戰性的GenEval++基準測試上,大多數模型表現不佳,得分低于0.4。盡管GenEval++的任務與GenEval的主要區別僅在于增加了一兩個額外對象及其屬性,但這一看似微小的變化顯著提高了任務難度。例如,生成五個熱狗比生成四個更具挑戰性。早期的基于擴散的模型(如SDXL)在此類場景中幾乎完全無法遵循指令。即使是Bagel和OmniGen2等先進統一模型(在GenEval上與GPT-4o差距較小),在這些更難的任務上也遠遠落后。

比真圖更香?統一生成模型Echo-4o用GPT-4o合成數據“反哺”模型,多項SOTA,效果炸裂!-AI.x社區

Echo-4o在所有模型中(除GPT-4o外)表現最佳,超越OmniGen2和Bagel達40%以上。這凸顯了Echo-4o強大的指令跟隨能力,這與Echo-4o-Image中包含更復雜、長尾的屬性數據密切相關。下圖5進一步提供了不同模型的定性比較。

比真圖更香?統一生成模型Echo-4o用GPT-4o合成數據“反哺”模型,多項SOTA,效果炸裂!-AI.x社區

超現實幻想圖像生成

本文在Imagine-Bench基準測試上評估了多個模型的理解和創意能力,結果如下表4所示。傳統圖像生成模型在此任務上表現不佳,主要因其訓練范式通常在文本概念與視覺表征之間建立直接綁定。受限于有限的理解能力,這些模型難以區分現有物體的固有概念與幻想導向指令中指定的額外要求。BLIP3o和OmniGen2等統一模型得益于更強的理解能力,取得了稍好的結果。

比真圖更香?統一生成模型Echo-4o用GPT-4o合成數據“反哺”模型,多項SOTA,效果炸裂!-AI.x社區

比真圖更香?統一生成模型Echo-4o用GPT-4o合成數據“反哺”模型,多項SOTA,效果炸裂!-AI.x社區

在開源模型中,Echo-4o表現最佳,直接受益于Echo-4o-Image中包含的幻想導向圖像數據。這些數據突破了現實世界圖像的領域限制,從而以相對直接的方式提升了性能。未來工作可探索更系統的方法,進一步提升統一模型在理解和創意生成上的能力。

多參考圖像生成

使用OminiContext基準測試評估多參考圖像生成能力。現有圖像生成模型和統一架構對這一能力的探索仍顯不足。開源模型中僅OmniGen2進行了初步嘗試,FLUX和Bagel等多數模型要么缺乏原生支持,要么完全無法適配多參考場景。通過利用專為多參考場景設計的合成數據,Echo-4o獲得了基礎Bagel架構所不具備的該能力。

如下表5所示,Echo-4o在MULTIPLE和SCENE兩種設置下均優于所有開源模型,較Bagel基線實現顯著提升,并超越此前最佳開源模型OmniGen2。下圖7的定性對比進一步表明,在二圖或三圖參考生成任務中,Echo-4o在指令遵循和參考圖像內容保真度上持續優于OmniGen2。

比真圖更香?統一生成模型Echo-4o用GPT-4o合成數據“反哺”模型,多項SOTA,效果炸裂!-AI.x社區

比真圖更香?統一生成模型Echo-4o用GPT-4o合成數據“反哺”模型,多項SOTA,效果炸裂!-AI.x社區

基礎模型的普適有效性

為驗證Echo-4o-Image數據集的廣泛有效性,本文使用該合成數據對多個現有統一模型進行微調實驗。如下圖1(b)所示,BLIP-3-o、Bagel和OmniGen2等模型在GenEval、GenEval++、DPG-Bench和OminiContext等基準測試上均獲得一致提升。

比真圖更香?統一生成模型Echo-4o用GPT-4o合成數據“反哺”模型,多項SOTA,效果炸裂!-AI.x社區

這些結果表明,Echo-4o-Image能為不同基礎模型提供通用性增強,顯著改善其指令理解、幻想圖像合成和多參考圖像生成能力。跨任務與跨架構的穩定增益證實了該數據集的廣泛適用性,及其對統一多模態生成模型高質量微調的重要價值。

與ShareGPT-4o-Image的對比

本文進一步將本數據集與GPT-4o衍生的另一合成數據集ShareGPT-4o-Image進行對比。在相同訓練設置下,兩者均用于微調Bagel基線模型直至收斂。下圖8顯示:Echo-4o-Image使指令跟隨能力大幅提升(GenEval分數從0.820增至0.895),而ShareGPT-4o-Image僅帶來邊際改善(增至0.838)。GenEval++上也呈現相似趨勢。

比真圖更香?統一生成模型Echo-4o用GPT-4o合成數據“反哺”模型,多項SOTA,效果炸裂!-AI.x社區

該差異可能源于ShareGPT-4o-Image大量數據源自ALLaVA的文本輸入(已包含高質量真實圖像對),導致其本質上復現了真實數據集的圖像,對指令跟隨的增益有限。不過ShareGPT-4o-Image仍能提升美學對齊能力。值得注意的是,ShareGPT-4o-Image缺少多參考圖像生成數據——這一Echo-4o-Image成功實現的關鍵能力——進一步突顯后者的廣泛實用性。

結論

本研究提出由GPT-4o生成的大規模合成數據集Echo-4o-Image,并通過開發Echo-4o驗證其在增強統一多模態生成模型方面的有效性。同時,推出Geneval++和Imagine-Bench兩個新基準測試,為圖像生成能力提供更全面、更具挑戰性的評估框架。


實驗結果表明,高質量合成數據集Echo-4o-Image能有效彌補真實數據集的局限,并跨不同基礎模型實現知識遷移。期望該數據集的開源能通過合成數據填補真實圖像缺口,推動統一多模態生成模型在指令跟隨、創意生成和多參考圖像合成等能力的進步。未來工作將擴展數據集至圖像編輯任務(另一高質量真實數據稀缺的場景),并對FLUX等更多模型進行微調,進一步驗證其通用性和影響力。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/J1dCttWfEM1QqFdjnfIu0A??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 金寨县| 耒阳市| 安康市| 安西县| 河北省| 垣曲县| 长乐市| 延川县| 新龙县| 凤山县| 饶河县| 固原市| 靖安县| 墨脱县| 新巴尔虎右旗| 浦江县| 清水县| 阳高县| 林甸县| 天气| 磴口县| 科尔| 黔南| 原阳县| 瓦房店市| 桐梓县| 开封市| 临沧市| 富阳市| 施甸县| 大港区| 岳西县| 云梦县| 津南区| 金湖县| 铜山县| 林甸县| 阿克苏市| 桐乡市| 安泽县| 连云港市|