自回歸新王登基!NextStep-1強(qiáng)勢(shì)登場(chǎng),圖像生成SOTA達(dá)成!高保真+強(qiáng)編輯,太能打了! 精華
文章鏈接:https://arxiv.org/pdf/2508.10711 項(xiàng)目鏈接:https://stepfun.ai/research/en/nextstep1 Git鏈接: https://github.com/stepfun-ai/NextStep-1
亮點(diǎn)直擊
- 首創(chuàng)連續(xù)圖像流匹配自回歸架構(gòu):用輕量級(jí)流匹配頭(157M)實(shí)現(xiàn)patch-by-patch生成;擺脫傳統(tǒng)擴(kuò)散模型依賴,保持SOTA生成質(zhì)量
- 突破性高維隱空間穩(wěn)定技術(shù): 創(chuàng)新通道歸一化+隨機(jī)擾動(dòng)tokenizer設(shè)計(jì);支持16通道高維空間穩(wěn)定訓(xùn)練,無(wú)偽影生成
- 統(tǒng)一的多模態(tài)生成-編輯框架: 單序列處理離散文本和連續(xù)圖像token;衍生編輯模型在主流benchmark媲美擴(kuò)散模型
總結(jié)速覽
解決的問(wèn)題
- 現(xiàn)有自回歸模型的局限性:當(dāng)前文本到圖像生成的自回歸模型要么依賴計(jì)算密集型擴(kuò)散模型處理連續(xù)圖像token,要么采用向量量化(VQ)獲取離散token但引入量化損失,導(dǎo)致性能受限。
- 性能差距:自回歸模型在圖像質(zhì)量和一致性方面仍落后于最先進(jìn)的擴(kuò)散模型(如Diffusion-based方法)。
- 訓(xùn)練穩(wěn)定性問(wèn)題:高維隱空間易導(dǎo)致訓(xùn)練不穩(wěn)定或發(fā)散,影響模型效果。
提出的方案
- NextStep-1模型:
- 基于“Next token預(yù)測(cè)”范式,結(jié)合14B參數(shù)的自回歸主干和157M參數(shù)的輕量級(jí)流匹配頭(flow matching head)。
- 同時(shí)處理離散文本token和連續(xù)圖像token,避免量化損失。
- 引入改進(jìn)的圖像tokenizer,增強(qiáng)連續(xù)token的魯棒性并穩(wěn)定高維隱空間(如16通道)的訓(xùn)練。
應(yīng)用的技術(shù)
- 混合token處理:
- 對(duì)文本使用離散token和標(biāo)準(zhǔn)語(yǔ)言建模頭,對(duì)圖像使用連續(xù)token和流匹配頭(MLP結(jié)構(gòu))。
- 流匹配目標(biāo)(Flow Matching):
- 通過(guò)流匹配目標(biāo)優(yōu)化連續(xù)圖像token的生成。
- 穩(wěn)定訓(xùn)練技術(shù):
- 圖像tokenizer設(shè)計(jì)確保隱空間分布均勻且歸一化,支持高維(16通道) latent空間的穩(wěn)定訓(xùn)練。
達(dá)到的效果
- 生成性能:
- 在文本到圖像任務(wù)中達(dá)到SOTA,指標(biāo)顯著領(lǐng)先(如WISE 0.54、GenAI-Bench 0.67、DPG-Bench 85.28)。
- 支持復(fù)雜場(chǎng)景(長(zhǎng)/短文本、世界知識(shí)需求)。
- 圖像編輯能力:
- NextStep-1-Edit在指令編輯任務(wù)中表現(xiàn)優(yōu)異(GEdit-Bench 6.58,ImgEdit-Bench 3.71)。
- 訓(xùn)練穩(wěn)定性:
- 高維隱空間(16通道)下穩(wěn)定收斂,生成高保真圖像。
框架
基于連續(xù)視覺(jué)token的統(tǒng)一多模態(tài)生成
模型架構(gòu)
圖像tokenizer 輸出的潛在表示通過(guò)像素重組(pixel-shuffle)轉(zhuǎn)換為更緊湊的序列。這是通過(guò)應(yīng)用2×2核的空間到深度變換實(shí)現(xiàn)的,該變換將2×2空間潛在表示展平到通道維度。例如,這將256×256圖像的潛在表示轉(zhuǎn)換為16×16網(wǎng)格的64通道token。該網(wǎng)格隨后被展平為256個(gè)token的一維序列,作為后續(xù)因果Transformer的輸入。
因果Transformer:從僅解碼器的Qwen2.5-14B初始化模型,利用其強(qiáng)大的語(yǔ)言理解和推理能力進(jìn)行文本到圖像生成。我們按照以下格式組織多模態(tài)輸入序列:
??{text} <image_area>h*w <boi> {image} <eoi>... ?
?
其中??{text}?
??表示離散文本token,??{image}?
??表示連續(xù)圖像token。??<boi>?
??和??<eoi>?
??是特殊token,分別標(biāo)記圖像的開始和結(jié)束。??<image_area>h*w?
?表示關(guān)于2D圖像token空間維度的元數(shù)據(jù)。
然后,來(lái)自LLM的輸出隱藏狀態(tài)被傳遞到兩個(gè)輕量級(jí)頭部以計(jì)算模態(tài)特定的損失:
- 語(yǔ)言建模頭:為文本的隱藏狀態(tài)計(jì)算交叉熵?fù)p失。
- 分塊流匹配頭:使用每個(gè)分塊的圖像隱藏狀態(tài)作為條件,在時(shí)間步對(duì)目標(biāo)分塊進(jìn)行去噪,并使用一個(gè)157M參數(shù)、12層、1536隱藏維度的MLP計(jì)算分塊流匹配損失。
對(duì)于位置信息,使用標(biāo)準(zhǔn)的1D RoPE。盡管存在更復(fù)雜的2D或多模態(tài)RoPE替代方案,我們發(fā)現(xiàn)簡(jiǎn)單的1D公式對(duì)于混合文本-圖像序列仍然非常有效,因此為了簡(jiǎn)單和效率而保留它。
數(shù)據(jù)
為了全面賦予模型廣泛且多功能的生成能力,構(gòu)建了一個(gè)由四大類數(shù)據(jù)組成的多樣化訓(xùn)練語(yǔ)料庫(kù):純文本語(yǔ)料、圖文對(duì)數(shù)據(jù)、圖像到圖像數(shù)據(jù)以及交錯(cuò)數(shù)據(jù)。每類數(shù)據(jù)都經(jīng)過(guò)精心設(shè)計(jì),用于培養(yǎng)模型不同方面的生成能力。
純文本語(yǔ)料
為了保留大語(yǔ)言模型(LLM)固有的廣泛語(yǔ)言能力,在訓(xùn)練中加入了從Step-3采樣的4000億純文本token。
圖文對(duì)數(shù)據(jù)
由圖文對(duì)組成的數(shù)據(jù)構(gòu)成了模型文本到圖像生成能力的基礎(chǔ)。我們開發(fā)了一個(gè)全面的數(shù)據(jù)處理流程,從多樣化的初始來(lái)源中篩選出高質(zhì)量、大規(guī)模的數(shù)據(jù)集:
- 數(shù)據(jù)收集:從網(wǎng)絡(luò)數(shù)據(jù)、多任務(wù)VQA數(shù)據(jù)和富含文本的文檔等多種來(lái)源收集了大規(guī)模數(shù)據(jù)集。
- 基于質(zhì)量的篩選:隨后我們應(yīng)用嚴(yán)格的篩選流程,評(píng)估每張圖像的美學(xué)質(zhì)量、水印存在情況、清晰度、OCR檢測(cè)以及圖文語(yǔ)義對(duì)齊程度。
- 重新標(biāo)注:對(duì)篩選后的圖像去重后,我們使用Step-1o-turbo為每張圖像生成中英文的豐富詳細(xì)描述。
這個(gè)多階段流程最終產(chǎn)生了5.5億個(gè)高質(zhì)量的圖文對(duì)數(shù)據(jù)集,為訓(xùn)練兼具審美感知和廣泛世界知識(shí)的模型奠定了基礎(chǔ)。
指令引導(dǎo)的圖像到圖像數(shù)據(jù)
為了實(shí)現(xiàn)廣泛的實(shí)際應(yīng)用為指令引導(dǎo)的圖像到圖像任務(wù)(如視覺(jué)感知、可控圖像生成、圖像恢復(fù)、通用圖像編輯等)篩選了高質(zhì)量數(shù)據(jù)集。
對(duì)于視覺(jué)感知和可控圖像生成任務(wù),通過(guò)對(duì)部分高質(zhì)量圖文對(duì)數(shù)據(jù)應(yīng)用ControlNet的標(biāo)注工具合成了100萬(wàn)個(gè)樣本。對(duì)于圖像恢復(fù)和通用圖像編輯,我們收集了350萬(wàn)個(gè)樣本,包括來(lái)自GPT-Image-Edit、Step1X-Edit和專有內(nèi)部數(shù)據(jù)集的數(shù)據(jù)。按照Step1X-Edit的方法,所有編輯數(shù)據(jù)都經(jīng)過(guò)基于VLM的嚴(yán)格篩選流程,評(píng)估圖像對(duì)質(zhì)量、合理性、一致性和指令對(duì)齊程度,最終得到約100萬(wàn)條高質(zhì)量的指令引導(dǎo)圖像到圖像訓(xùn)練數(shù)據(jù)。
交錯(cuò)數(shù)據(jù)
交錯(cuò)數(shù)據(jù)無(wú)縫整合了文本和圖像,提供了模態(tài)間豐富而細(xì)致的序列關(guān)聯(lián)。具體而言,我們知識(shí)豐富的交錯(cuò)數(shù)據(jù)集主要由四類組成:通用視頻交錯(cuò)數(shù)據(jù)、教程、以角色為中心的場(chǎng)景和多視角數(shù)據(jù)。
為了賦予模型廣泛的世界知識(shí),首先構(gòu)建了包含8000萬(wàn)樣本的大規(guī)模視頻交錯(cuò)數(shù)據(jù)集。這一成果通過(guò)借鑒Step-Video的精心設(shè)計(jì)流程實(shí)現(xiàn),包括幀提取、去重和標(biāo)注。此外,遵循mmtextbook的方法論,利用ASR和OCR工具收集并處理教程視頻,這部分特別針對(duì)富含文本的真實(shí)場(chǎng)景,增強(qiáng)了模型在上下文中的文本理解和生成能力。
如下圖3所示,以角色為中心的數(shù)據(jù)集NextStep-Video-Interleave-5M。對(duì)于該數(shù)據(jù)集,提取了以特定角色為中心的視頻幀,并生成類似(Oliveira and de Matos, 2025)的富有故事性的描述,從而顯著提升了模型的多輪交互能力。最后,為了加強(qiáng)幾何推理能力,從兩個(gè)開源數(shù)據(jù)集MV-ImageNet-v2和Objaverse-XL中篩選了多視角數(shù)據(jù),增強(qiáng)了模型保持多視角一致性的能力。
訓(xùn)練方案
訓(xùn)練圖像Token化器
預(yù)訓(xùn)練
預(yù)訓(xùn)練的具體超參數(shù)和數(shù)據(jù)比例如下表1所示。預(yù)訓(xùn)練采用三階段課程學(xué)習(xí),逐步提升模型能力。除預(yù)訓(xùn)練的圖像tokenizer 外,所有模型參數(shù)均端到端訓(xùn)練。
階段1:在此初始階段,模型學(xué)習(xí)圖像結(jié)構(gòu)和構(gòu)圖的基礎(chǔ)理解。為計(jì)算效率,所有圖像調(diào)整為256×256分辨率并隨機(jī)裁剪。訓(xùn)練數(shù)據(jù)混合比例為:20%純文本語(yǔ)料、60%圖文對(duì)和20%交錯(cuò)數(shù)據(jù)。本階段消耗約1.23T token。
階段2:采用動(dòng)態(tài)分辨率策略,訓(xùn)練模型處理256×256和512×512基礎(chǔ)區(qū)域的高分辨率圖像,使用不同寬高比分桶提升計(jì)算效率。本階段增加富含文本的視頻交錯(cuò)數(shù)據(jù),利用模型增強(qiáng)的細(xì)節(jié)處理能力。
退火階段:在預(yù)訓(xùn)練最后階段,對(duì)精選的2000萬(wàn)樣本(通過(guò)更嚴(yán)格的美學(xué)評(píng)分、圖像清晰度、語(yǔ)義相似度等標(biāo)準(zhǔn)篩選)進(jìn)行一輪退火訓(xùn)練,顯著提升模型輸出的圖像結(jié)構(gòu)、構(gòu)圖、紋理和美學(xué)吸引力。
后訓(xùn)練
預(yù)訓(xùn)練建立通用基礎(chǔ)模型后,后訓(xùn)練通過(guò)兩階段過(guò)程使模型輸出與人類偏好和下游任務(wù)對(duì)齊:監(jiān)督微調(diào)(SFT)和直接偏好優(yōu)化(DPO)。各階段超參數(shù)見(jiàn)表1。
監(jiān)督微調(diào)(SFT) :SFT階段增強(qiáng)模型指令跟隨能力并使其輸出符合人類偏好。500萬(wàn)樣本的SFT數(shù)據(jù)集包含三部分:
- 人工精選的高語(yǔ)義一致性和視覺(jué)吸引力圖文對(duì),輔以其他生成模型的圖像,通過(guò)蒸餾提升復(fù)雜想象提示的處理能力;
- 思維鏈(CoT)數(shù)據(jù),在生成最終圖像前加入基于語(yǔ)言的推理步驟;
- 3.3節(jié)高質(zhì)量的指令引導(dǎo)圖像到圖像數(shù)據(jù),強(qiáng)化模型編輯能力。
直接偏好優(yōu)化(DPO) :采用受Diffusion-DPO啟發(fā)的DPO方法,基于約2萬(wàn)條精選提示構(gòu)建兩類偏好數(shù)據(jù)集:
模型性能
文本到圖像生成性能
我們?cè)诙鄠€(gè)代表性基準(zhǔn)上全面評(píng)估NextStep-1的文本到圖像(T2I)生成性能,每個(gè)基準(zhǔn)針對(duì)圖像生成的不同方面,包括視覺(jué)-文本對(duì)齊和世界知識(shí)。
圖像-文本對(duì)齊:如下表2所示,在三個(gè)關(guān)鍵基準(zhǔn)上評(píng)估NextStep-1的提示跟隨能力。在GenEval上,NextStep-1得分為0.63(使用Self-CoT時(shí)為0.73),展示了強(qiáng)大的計(jì)數(shù)、定位和空間對(duì)齊能力。其出色的組合能力在GenAI-Bench上進(jìn)一步驗(yàn)證,基礎(chǔ)提示得分為0.88,高級(jí)提示得分為0.67(使用Self-CoT時(shí)為0.9和0.74)。這些結(jié)果表明NextStep-1作為自回歸圖像生成模型的卓越性能,與Stable Diffusion 3.5 Large和BAGEL等擴(kuò)散模型競(jìng)爭(zhēng)。最后,在針對(duì)長(zhǎng)上下文、多對(duì)象場(chǎng)景的DPG-Bench上,NextStep-1得分為85.28,確認(rèn)了其在復(fù)雜提示下可靠的組合保真度。
為進(jìn)行細(xì)粒度分析,在OneIG-Bench上使用英文提示評(píng)估模型。該基準(zhǔn)評(píng)估對(duì)齊、文本渲染、推理和風(fēng)格控制等領(lǐng)域的性能。如下表3所示,NextStep-1總體得分為0.417,顯著優(yōu)于其他自回歸模型,如Emu3(0.311)和Janus-Pro(0.267)。
世界知識(shí):為評(píng)估NextStep-1將世界知識(shí)融入圖像生成的能力,我們使用WISE基準(zhǔn),其強(qiáng)調(diào)事實(shí)基礎(chǔ)和語(yǔ)義理解。如下表4所示,NextStep-1以總體得分0.54(使用Self-CoT時(shí)為0.67)在自回歸模型中表現(xiàn)最佳,并超過(guò)大多數(shù)擴(kuò)散模型。值得注意的是,在提示重寫協(xié)議下,其得分提升至0.79(使用Self-CoT時(shí)為0.83)。這些結(jié)果共同證明了NextStep-1強(qiáng)大的知識(shí)感知語(yǔ)義對(duì)齊和跨領(lǐng)域推理能力。
圖像編輯性能
編輯基準(zhǔn)定量結(jié)果:通過(guò)前面100萬(wàn)高質(zhì)量編輯數(shù)據(jù)上微調(diào)NextStep-1開發(fā)了NextStep-1-Edit,其性能與先進(jìn)的基于擴(kuò)散的模型競(jìng)爭(zhēng)。如下表5所示,NextStep-1-Edit在GEdit-Bench-EN上得分為6.58,在ImgEdit-Bench上得分為3.71,表明其強(qiáng)大的實(shí)際編輯能力。
討論
圖像生成的核心:AR Transformer還是FM Head?
本框架的關(guān)鍵架構(gòu)特點(diǎn)在于使用流匹配(flow matching)目標(biāo)直接對(duì)連續(xù)圖像token進(jìn)行自回歸建模。當(dāng)前主流的圖像生成自回歸模型通常依賴重型擴(kuò)散模型處理完整圖像:自回歸模型首先生成語(yǔ)義嵌入,再通過(guò)單次去噪過(guò)程的擴(kuò)散模型生成完整圖像。相比之下,模型以分塊(patch-by-patch)方式自回歸生成圖像,用輕量級(jí)流匹配模型建模每個(gè)圖像塊的分布。這確立了我們?cè)诩冏曰貧w范式下的框架,而非由Transformer編排的擴(kuò)散模型。
Tokenizer是圖像生成的關(guān)鍵
隱空間維度的權(quán)衡:更高維隱空間能提升重建質(zhì)量但增加訓(xùn)練難度。我們比較了4/8/16通道的tokenizer變體,發(fā)現(xiàn)16通道版本在保持訓(xùn)練穩(wěn)定性的同時(shí)達(dá)到最佳FID分?jǐn)?shù)(表8)。這歸功于我們的空間到深度變換和通道歸一化設(shè)計(jì),使高維隱空間保持穩(wěn)定訓(xùn)練動(dòng)態(tài)。
通過(guò)上面圖5實(shí)證展示了這一現(xiàn)象。在中等引導(dǎo)尺度1.5下,每個(gè)token的均值和方差在整個(gè)生成過(guò)程中保持穩(wěn)定;而在高引導(dǎo)尺度3.0下,后續(xù)token的統(tǒng)計(jì)量顯著發(fā)散,這種分布偏移直接對(duì)應(yīng)視覺(jué)偽影的出現(xiàn)。我們的tokenizer設(shè)計(jì)通過(guò)通道歸一化(見(jiàn)公式(3))強(qiáng)制實(shí)現(xiàn)每個(gè)token的統(tǒng)計(jì)穩(wěn)定性,從根本上解決了這一問(wèn)題。這一簡(jiǎn)單但關(guān)鍵的設(shè)計(jì)選擇緩解了不穩(wěn)定性,使得在保持圖像質(zhì)量的前提下可以使用強(qiáng)引導(dǎo)。
此現(xiàn)象歸因于噪聲正則化培育了良好條件的隱空間,增強(qiáng)了兩個(gè)關(guān)鍵特性:tokenizer解碼器對(duì)潛在擾動(dòng)的魯棒性(下圖6)以及更分散的潛在分布(下圖7)——這一特性也被先前研究證明有益于生成。雖然尚不清楚魯棒性或分散性哪個(gè)起主導(dǎo)作用,但這些結(jié)果明確了基于噪聲的正則化的實(shí)用價(jià)值。
重建質(zhì)量決定生成質(zhì)量上限:圖像tokenizer的重建保真度從根本上決定了最終生成圖像的質(zhì)量上限,特別是對(duì)細(xì)節(jié)和紋理的還原。這一原則已被近期多項(xiàng)研究驗(yàn)證,促使擴(kuò)散模型范式轉(zhuǎn)向采用重建性能優(yōu)異的VAE(如PSNR>30)。相比之下,如下表8所示,基于VQ的自回歸模型長(zhǎng)期難以突破這一閾值。盡管重建質(zhì)量與生成質(zhì)量的權(quán)衡常被討論,本文的工作成功將自回歸模型應(yīng)用于高保真連續(xù)VAE,彌合了這一差距。
局限性與挑戰(zhàn)
生成偽影:雖然NextStep-1證明自回歸模型可在高維連續(xù)隱空間中實(shí)現(xiàn)媲美擴(kuò)散模型的生成質(zhì)量,但該方法也帶來(lái)獨(dú)特的穩(wěn)定性挑戰(zhàn)。當(dāng)從低維隱空間VAE(如下采樣因子8、4通道)轉(zhuǎn)向高維配置(如下采樣因子8、16通道)時(shí),我們觀察到幾種獨(dú)特的生成偽影。前者輸出穩(wěn)定,后者偶爾會(huì)出現(xiàn)如下圖8所示的失效模式。
潛在原因包括:
- 生成后期出現(xiàn)的局部噪聲或塊狀偽影可能源于數(shù)值不穩(wěn)定性;
- 圖像全局噪聲可能反映訓(xùn)練欠收斂,暗示增加訓(xùn)練可緩解該問(wèn)題;
- 細(xì)微網(wǎng)格狀偽影可能揭示1D位置編碼在捕捉2D空間關(guān)系時(shí)的局限性。
序列解碼的推理延遲:在H100 GPU(983 TFLOPS,3.36 TB/s帶寬)上對(duì)單批次推理的逐token延遲分析(下表9)顯示,主要瓶頸來(lái)自LLM的串行解碼,而流匹配頭的多步采樣也占顯著成本。這提示兩個(gè)優(yōu)化方向:
- 通過(guò)減少流匹配頭參數(shù)量、應(yīng)用蒸餾實(shí)現(xiàn)少步生成或采用更先進(jìn)的少步采樣器提升效率;
- 將LLM領(lǐng)域的推測(cè)解碼或多token預(yù)測(cè)技術(shù)遷移至圖像token生成。
高分辨率訓(xùn)練挑戰(zhàn):相比已建立成熟技術(shù)的擴(kuò)散模型,本框架面臨兩大挑戰(zhàn):
- 自回歸生成的嚴(yán)格序列性需要更多訓(xùn)練步數(shù)實(shí)現(xiàn)高分辨率收斂,而擴(kuò)散模型每次迭代并行優(yōu)化整圖,更直接利用2D空間歸納偏置;
- 時(shí)間步偏移等擴(kuò)散模型的高分辨率技術(shù)難以適配本框架,因流匹配頭僅作為輕量采樣器,核心生成由Transformer主干完成,采樣過(guò)程修改對(duì)輸出影響有限。針對(duì)分塊自回歸模型設(shè)計(jì)專用高分辨率策略是重要研究方向。
監(jiān)督微調(diào)(SFT)挑戰(zhàn):相比擴(kuò)散模型,本自回歸框架SFT表現(xiàn)出獨(dú)特的不穩(wěn)定動(dòng)態(tài):
- 擴(kuò)散模型通常僅需數(shù)千樣本即可穩(wěn)定適配目標(biāo)分布;
- 我們的SFT需百萬(wàn)級(jí)樣本才能顯著提升,小規(guī)模數(shù)據(jù)集下模型要么改進(jìn)微弱,要么突然過(guò)擬合目標(biāo)分布。
因此,在保持通用生成能力的同時(shí)實(shí)現(xiàn)目標(biāo)分布對(duì)齊的中間檢查點(diǎn)選擇仍是重大挑戰(zhàn)。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)
