精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

谷歌 Fluid 顛覆共識:兩大因素被發現,AI 文生圖領域自回歸模型超越擴散模型

人工智能
科技媒體 The Decoder 10 月 22 日發布博文,報道稱谷歌 DeepMind 團隊攜手麻省理工學院(MIT),推出了全新的“Fluid”模型,在規模達到 105 億參數時候,能取得最佳的文生圖效果。

10 月 23 日消息,科技媒體 The Decoder 昨日(10 月 22 日)發布博文,報道稱谷歌 DeepMind 團隊攜手麻省理工學院(MIT),推出了全新的“Fluid”模型,在規模達到 105 億參數時候,能取得最佳的文生圖效果。

目前在文生圖領域,行業內的一個共識是自回歸模型(Autoregressive Models)不如擴散模型(Diffusion Models)。

IT之家簡要介紹下這兩種模型:

  • 擴散模型 (Diffusion Models): 這是一種最近非常熱門的內容生成技術,它模擬的是信號從噪聲中逐漸恢復的過程。擴散模型通過迭代地減少隨機噪聲來生成高質量的圖像、文本和其他形式的數據。比如應用于圖像生成領域中的 DDPM(離散擴散概率模型)及其變體就有很高的關注度。
  • 自回歸模型 (Autoregressive Models): 自回歸模型預測序列中的下一個元素時,依賴于前面的元素。在文本生成領域,像基于 Decoder-only 的 GPT 系列(如 GPT-3、GPT-4)就是典型的自回歸模型,它們逐詞預測下一個詞,從而生成連貫的文本段落。

谷歌 DeepMind 和 MIT 團隊通過深入研究,發現了使用連續 tokens(非離散 tokens)和采用隨機生成順序(非固定順序)兩個關鍵設計因素,顯著提高了自回歸模型的性能和可擴展性。

團隊表示在離散 tokens 為每個圖像區域分配一個來自有限詞匯的代碼,這會導致信息丟失,而連續 tokens 可以更精確地圖像信息存儲,減少信息丟失。這讓模型能夠更好地重建圖像,提高視覺質量。

此外大多數自回歸模型以固定順序生成圖像,而 Fluid 采用隨機生成順序,讓模型能夠在每一步預測任意位置的多個像素,這種方法在理解整體圖像結構時表現更為出色。

Fluid 模型結合了連續標記和隨機生成順序后,當其規模擴大到 105 億參數時,Fluid 在重要基準測試中超越了 Stable Diffusion 3 擴散模型和谷歌此前的 Parti 自回歸模型。

與 Parti 相比,Fluid 顯示出顯著的改進:擁有 200 億參數的 Parti 在 MS-COCO 上達到了 7.23 的 FID 分數,而僅有 3.69 億參數的小型 Fluid 模型卻達到了相同的分數。

責任編輯:龐桂玉 來源: IT之家
相關推薦

2024-05-10 07:58:03

2024-11-12 13:10:49

2024-04-26 12:51:48

2025-08-12 09:08:00

2025-03-20 11:28:34

2024-11-04 15:54:16

2023-12-20 13:34:56

2025-07-10 14:54:13

AI模型圖像生成

2022-05-25 10:28:35

模型AI

2025-07-24 09:15:00

2025-06-04 13:55:03

AI模型技術

2024-03-11 00:20:00

模型論文

2025-02-27 13:45:00

2024-10-21 11:15:00

2024-03-28 13:14:00

數據訓練

2023-05-26 17:15:40

AI搜索

2023-12-12 12:43:04

AI模型

2022-02-17 08:25:59

犬牙交錯雙塔奇兵模型

2023-09-06 12:11:21

ChatGPT語言模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 德化县| 天等县| 界首市| 黑水县| 大英县| 大渡口区| 乌兰察布市| 中牟县| 浦北县| 襄垣县| 高密市| 通海县| 耿马| 任丘市| 安丘市| 繁峙县| 石林| 宁明县| 朝阳市| 仁化县| 玉屏| 耒阳市| 涞源县| 耒阳市| 石棉县| 鸡西市| 上杭县| 登封市| 江北区| 长子县| 商河县| 神池县| 游戏| 板桥市| 甘德县| 金阳县| 泰和县| 镇远县| 沁阳市| 湖南省| 达孜县|