通用世界模型問世:不學習就能生成新領域視頻,可實時控制
隨著 OpenAI 今年 2 月發布 Sora,世界模型(World Model)再次成為了 AI 領域的熱門。
世界模型,即通過預測未來的范式對數字世界和物理世界進行理解,一直以來被認為是通往通用人工智能(AGI)的關鍵路徑之一,與當前大模型推崇的智能體(Agent)方向互相區分。
世界模型的研究促進了交互式內容的創建,并為有根據的、長期的推理提供了基礎。當前的基礎模型并不能完全滿足通用世界模型的功能——大型語言模型(LLM)受到對語言模態的依賴以及對物理世界有限理解的限制,而視頻模型(如 Sora)則缺乏對世界模擬的交互式動作控制。
在 UC San Diego、穆罕默德?本?扎耶德人工智能大學(MBZUAI)等機構的研究中,人們通過引入 Pandora 向構建通用世界模型邁出了一步。
MBZUAI 校長邢波(Eric Xing)表示,Pandora 是一個可通過語言命令實時操控的世界模型,能夠在視覺空間中實時推理概念層面。是時候超越語言世界中的 LLM,進入物理和感官世界了!
Pandora 是一種混合自回歸擴散模型,可通過生成視頻來模擬世界狀態,并允許通過自由文本動作(free-text action)進行實時控制。Pandora 通過大規模預訓練和指令調整實現了領域通用性、視頻一致性和可控性。
更加重要的是,Pandora 通過集成預訓練的 LLM(7B)和預訓練的視頻模型,繞過了從頭開始訓練的成本,只需要額外的輕量級微調。作者展示了 Pandora 在不同領域(室內 / 室外、自然 / 城市、人類 / 機器人、2D/3D 等)的廣泛輸出能力。結果表明,通過更大規模的訓練,我們能夠構建更強大的通用世界模型。
- 論文:Pandora : Towards General World Model with Natural Language Actions and Video States
- 論文地址:https://world-model.maitrix.org/assets/pandora.pdf
- 項目地址:https://github.com/maitrix-org/Pandora
- 項目展示頁面:https://world-model.maitrix.org/
該研究展示了一系列先前模型不具有的特性:
- 能模擬廣泛領域的視頻狀態:Pandora 能夠生成廣泛領域的視頻,例如室內 / 室外、自然 / 城市、人類 / 機器人、2D/3D 和其他場景。這種領域的通用性主要歸功于大規模視頻預訓練(繼承自預訓練視頻模型)。
- 該模型允許通過自由文本動作進行動態控制:Pandora 接受自然語言動作描述作為視頻生成期間的輸入,以指導未來的世界狀態。這與以前的文本到視頻模型有很大不同,以前的文本到視頻模型僅允許在視頻開頭出現文本提示。動態控制實現了世界模型的承諾,支持交互式內容生成并增強穩健的推理和規劃。該功能是通過模型的自回歸架構(允許隨時輸入文本)、預訓練的 LLM 主干(可以理解任何文本表達式)和指令調整(可以大大增強控制的有效性)來實現的。
- 動作可控性跨域遷移:如前所述,使用高質量數據進行指令調整使模型能夠學習有效的動作控制,并遷移到不同的新領域。新模型從特定領域學到的動作可以無縫地應用于不同新領域。
- 自回歸模型主干支持更長的視頻:基于擴散架構的現有視頻生成模型通常會生成固定長度(例如 2 秒)的視頻。通過將預訓練視頻模型與 LLM 自回歸主干集成,Pandora 能夠以自回歸方式無限延長視頻持續時間。結合額外的訓練(例如指令調整),作者證明 Pandora 可以生成更高質量的更長視頻(可長達 8 秒)。
方法
模型架構
Pandora 是一個自回歸世界模型。給定世界先前的狀態(例如圖像或視頻剪輯)和自然語言動作描述,它可以預測世界的下一個狀態(以視頻剪輯的形式)。
如下圖 2 所示,Pandora 的兩個核心組件包括自回歸主干網絡(源自預訓練 LLM)和視頻生成器(使用預訓練視頻模型進行初始化)。為了將這兩個組件拼接在一起,Pandora 還添加了其他必要的組件,包括視覺編碼器,以及分別將視覺編碼器連接到 LLM 主干和將 LLM 主干連接到視頻生成器的兩個適配器。
階段性訓練
通用世界模型需要實現一致性、可控性和通用性,即它需要生成一致的視頻來準確描述世界狀態,允許在視頻生成過程中隨時接受自然語言動作描述來進行動態控制,并跨越所有不同的領域執行上述操作(具有不同的場景和動作)。
直接訓練世界模型需要大量高質量序列(視頻 S1、文本 A1、視頻 S2……)作為訓練數據,而這在實踐中很難獲得。
因此,該研究設計了一個兩階段的訓練策略,包括預訓練和指令調整。
預訓練階段旨在讓模型獲得一些關鍵能力,包括:
- 視頻生成器的一致、通用視頻生成能力;
- 自回歸主干網絡的通用文本理解能力,以處理動作;
- 兩個組件之間的表征空間對齊能力。
表 1 總結了該研究收集到的數據,主要來自公共語料庫和數據處理模擬器。
定性結果
研究論文展示了一些定性結果,表明 Pandora 作為世界模擬器的核心功能,未來該研究將提供更多定量結果。
跨域的即時控制
Pandora 是一個通用世界模型,能夠生成跨廣泛領域的視頻。它允許通過自由文本動作進行動態控制,即它可以在視頻生成期間隨時接受文本動作控制并相應地預測未來的世界狀態。
Pandora 模型能夠理解現實世界的物理概念,可以生成演示基本物理現象的視頻:
動作可控性遷移
雖然一些動作及其相應的運動模式只出現在一些模擬數據中,但 Pandora 可以將動作可控性遷移到不同的未見領域。如下圖所示圖,Pandora 分別將 Coinrun 的 2D 游戲能力和 HM3D 的 3D 模擬器能力遷移到其他未見領域。
自回歸生成更長的視頻
借助自回歸主干網絡,Pandora 能夠以自回歸方式生成更高質量的更長視頻。Pandora 接受最長 5 秒(40 幀)的視頻訓練,但它能夠生成更長的視頻。下圖顯示了生成 8 秒(64 幀)視頻的結果。
盡管如此,作者表示 Pandora 很難生成高質量和良好可控的視頻。在論文中,作者展示了一些語義理解、運動控制和視頻一致性方面的失敗案例。
在進行小規模探索實驗時,作者發現數據質量,即動力學描述的精度對模型性能有很大影響。在存在高質量仿真數據的領域,模型很容易獲得良好的可控性。但在公共視頻數據集領域,GPT-4 Turbo 生成的字幕存在噪聲,導致模型并沒有表現出良好的性能。然而,當增加訓練計算量時,模型上就會涌現出跨通用領域的可控性。
Pandora 的探索表明通過更大規模的訓練,構建更強大的通用世界模型,這一研究方向具有巨大潛力。