精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

Qwen-Image-Edit發布:圖像編輯終于能“懂語義+改細節”了 原創

發布于 2025-8-29 07:37
瀏覽
0收藏

在AI快速重塑創作方式的當下,一張圖片的生成已經不再稀奇,真正難的是如何在已有圖像上進行精準、自然且語義一致的修改。比如,能否只改動畫面的一部分,卻讓整體依然協調?能否在不破壞細節的情況下,把一幅畫換個角度重現?又能否在海報里修改中英文文字,同時保持原有的字體和排版?

這正是阿里巴巴Qwen團隊在 2025年8月推出的 Qwen-Image-Edit 想要解決的問題。它基于Qwen-Image(200億參數)進化而來,定位為一款指令驅動的圖像編輯模型,不僅強化了“語義編輯”和“外觀編輯”兩大核心能力,還保持了Qwen-Image在中英文復雜文字渲染上的獨家優勢。難道說,真的要和PS說再見了嗎?

更重要的是,它已經與 Qwen Chat 集成,并開源在 Hugging Face 和 GitHub 上,開發者與創作者都可以直接使用。

接下來,我們就詳細深入了解下Qwen-Image-Edit

1. 架構升級:雙編碼機制讓編輯更自然

Qwen-Image-Edit發布:圖像編輯終于能“懂語義+改細節”了-AI.x社區

Qwen-Image-Edit依舊延續了 Multimodal Diffusion Transformer (MMDiT) 架構,但在圖像編輯環節,它引入了一個關鍵創新:雙編碼機制

  • 高層語義信息:由Qwen2.5-VL多模態大模型提取,用于保持物體身份和場景一致性;
  • 低層重建細節:由變分自編碼器(VAE)處理,用于保留未修改區域的紋理和顏色。

兩路信息被拼接輸入MMDiT的圖像流中,實現了**“語義一致+視覺保真”**的平衡。例如:旋轉一個角色時,它依然是原來的角色,不會因為視角變化而“變臉”。

在位置編碼上,Qwen團隊還提出了 MSRoPE(多模態可擴展旋轉位置編碼),通過引入“幀維度”區分修改前后圖像,使得模型可以更好地處理 文本-圖像到圖像(TI2I)編輯任務

2. 三大核心能力:語義、外觀、文字精準編輯

與傳統的“擦除+替換”不同,Qwen-Image-Edit的編輯是層次化的,覆蓋了三大維度:

2.1 語義編輯(Semantic Editing)

這是它最具突破性的地方。

  • IP 創作:可以從一只卡皮巴拉(Qwen吉祥物)生成不同風格、不同場景下的形象,甚至制作一整套 MBTI主題表情包。
  • 視角合成:支持90°甚至180°旋轉,能讓你看到原本不可見的背面,PSNR指標超越專門的視角生成模型。
  • 風格遷移:把普通人像轉化為“吉卜力工作室”風格,同時保持人物特征不丟失。

Qwen-Image-Edit發布:圖像編輯終于能“懂語義+改細節”了-AI.x社區

Qwen-Image-Edit發布:圖像編輯終于能“懂語義+改細節”了-AI.x社區

2.2 外觀編輯(Appearance Editing)

偏向細節層面的修改:

  • 添加元素:如在街景中插入招牌,并自動生成逼真的倒影;
  • 移除元素:去掉人像中的發絲或雜物,卻不影響周圍環境;
  • 精細修改:改變字母顏色、調整背景或服飾等。

Qwen-Image-Edit發布:圖像編輯終于能“懂語義+改細節”了-AI.x社區

2.3 文字編輯(Text Editing)

這是Qwen的獨家優勢。它支持中英文雙語文字精準修改,包括新增、刪除、替換,同時能保持原有的字體、字號和排版不變。 這意味著:一張中文海報中的錯別字,可以逐步框選并糾正,直到得到完全正確的版本;英文海報上的“Hope”能瞬間改成“Qwen”。

Qwen-Image-Edit發布:圖像編輯終于能“懂語義+改細節”了-AI.x社區

3. 數據與訓練:大規模、多任務、強化偏好對齊

在訓練層面,Qwen-Image-Edit延續了Qwen-Image的超大規模數據集(數十億圖文對),涵蓋 自然、設計、人物、合成 四大類,并加入了針對文字的特殊合成策略,解決中文長尾字符的稀缺問題。

訓練采用 多任務范式

  • T2I(文本生成圖像)、
  • I2I(圖像轉圖像)、
  • TI2I(文本+圖像到圖像)。

為增強編輯效果,它還融合了新視角合成與深度估計,其中深度估計部分使用 DepthPro 作為教師模型,提高了空間感一致性。

在優化階段,Qwen團隊結合了 有監督微調 + 偏好對齊(DPO、GRPO),確保模型不僅性能優異,也能貼近人類的使用習慣。

4. 實測表現:全面領先同類模型

在公開基準測試中,Qwen-Image-Edit交出了一份亮眼成績單:

  • GEdit-Bench:英語7.56、中文7.52,超過 GPT Image 1 和 FLUX.1。
  • ImgEdit:整體4.27,在對象替換(4.66)和風格變化(4.81)上表現突出。
  • KITTI 深度估計:AbsRel 0.078,與專門的DepthAnything v2不相上下。

更有意思的是,在 AI Arena人工評測 中,它在API類模型中排名第三,但在文字渲染能力上獨占鰲頭。

5. 部署與應用:開發者和創作者的雙重利器

Qwen-Image-Edit已經開放了多種使用方式:

  • Hugging Face Diffusers:直接調用,幾行Python代碼就能運行:

from diffusers import QwenImageEditPipeline
import torch
from PIL import Image

pipeline = QwenImageEditPipeline.from_pretrained("Qwen/Qwen-Image-Edit")
pipeline.to(torch.bfloat16).to("cuda")

image = Image.open("input.png").convert("RGB")
prompt = "Change the rabbit's color to purple, with a flash light background."
output = pipeline(image=image, prompt=prompt, num_inference_steps=50, true_cfg_scale=4.0).images
output.save("output.png")
  • 阿里云 Model Studio:提供大規模推理的API;
  • 開源代碼:已在GitHub發布,并采用Apache 2.0開源協議,方便二次開發。

這意味著,設計師可以快速修圖,品牌方能批量生成IP形象,甚至個人也能低門檻修正AI繪圖錯誤。

6. 展望:從圖像到視頻與3D

Qwen-Image-Edit不僅是一款圖像編輯工具,它更像是多模態交互接口的前哨。通過對“理解+生成”的統一建模,它為未來的視頻編輯、3D內容生成鋪平了道路。

可以想象,當我們能用一句話讓視頻片段重拍一個角度、讓三維模型換一個風格時,內容生產將迎來真正的“編輯自由”。

? 總結

Qwen-Image-Edit代表了多模態AI在圖像編輯方向上的一次關鍵躍遷:

  • 它不僅能精準修改圖像外觀,還能在語義層面保證連貫性;
  • 它把中英文文字編輯拉到了新的高度;
  • 它通過開源和API降低了使用門檻,真正走向產業化落地。

當AI繪畫從“生成”走向“編輯”,這背后意味著一個全新的創作邏輯——AI不僅是畫筆,更是橡皮和裁紙刀。未來,誰能掌握這樣的工具,誰就能更快、更好地迭代自己的視覺表達。


本文轉載自??Halo咯咯??    作者:基咯咯

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-8-29 07:37:05修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 佛山市| 邵阳县| 乃东县| 武胜县| 玉屏| 宣恩县| 萨嘎县| 北海市| 游戏| 孟津县| 新宁县| 永宁县| 常熟市| 临桂县| 达州市| 南岸区| 织金县| 广昌县| 汶川县| 临邑县| 陕西省| 江津市| 林甸县| 洱源县| 格尔木市| 获嘉县| 玉门市| 临安市| 河池市| 棋牌| 彩票| 普兰店市| 嘉荫县| 墨脱县| 囊谦县| 晋城| 噶尔县| 余江县| 胶南市| 镇安县| 周口市|