微軟發(fā)布創(chuàng)新大模型：一張圖片就能生成游戲，游戲界ChatGPT來了

發(fā)布于 2025-2-24 09:48

瀏覽

0收藏

微軟在官網發(fā)布了專用于游戲領域的創(chuàng)新大模型——Muse。

雖然Muse基于Transformer架構，但創(chuàng)建游戲場景的方式卻非常獨特，并不依賴傳統(tǒng)的文本提示，而是通過游戲畫面和控制器操作的序列化數據作為輸入提示，從而生成連貫的游戲場景和玩法，同時更符合游戲機制和物理規(guī)則的游戲內容。

例如，僅通過一張游戲截圖，Muse 就能迅速生成多個可能的后續(xù)游戲畫面，并通過 Xbox 手柄控制角色生成與開發(fā)者操作相匹配的后續(xù)游戲內容，游戲開發(fā)效率非常高。

微軟發(fā)布創(chuàng)新大模型：一張圖片就能生成游戲，游戲界ChatGPT來了-AI.x社區(qū)

游戲開發(fā)是一個高度復雜的過程，涉及創(chuàng)意構思、角色設計、場景搭建、玩法策劃等多個環(huán)節(jié)，需要眾多專業(yè)人員協(xié)同合作。

以一個小型獨立游戲工作室開發(fā)新游戲關卡為例，CEO 提出新角色概念后，角色開發(fā)人員需花費數天甚至數周時間繪制概念草圖并反復修改，隨后3D模型師進行建模，動畫師負責角色動畫制作，程序員編寫角色行為代碼，最后由關卡設計師與環(huán)境師共同打造適配的關卡。

整個流程繁瑣復雜，且需要大量的創(chuàng)意投入和時間成本。現在，通過Muse可以輕松完成這些復雜的開發(fā)流程。

Muse架構簡單介紹

Muse與ChatGPT一樣使用了著名的Transformer作為核心架構。為了將游戲畫面和玩家操作轉化為模型能夠處理的序列化數據，還引入了VQGAN圖像編碼器。

VQGAN的作用是將游戲畫面中的每一幀圖像編碼為一系列離散的tokens，不僅保留了原始圖像的關鍵信息，還能夠被Transformer模型高效處理。

微軟發(fā)布創(chuàng)新大模型：一張圖片就能生成游戲，游戲界ChatGPT來了-AI.x社區(qū)

每個游戲畫面被編碼為540個離散tokens，這些標記構成了模型輸入的一部分，幫助模型能夠在生成過程中靈活地處理圖像數據，同時保持對游戲畫面細節(jié)的高保真度。

微軟發(fā)布創(chuàng)新大模型：一張圖片就能生成游戲，游戲界ChatGPT來了-AI.x社區(qū)

玩家的操作也被離散化處理，以適配模型的輸入格式。玩家控制器的按鈕操作被直接編碼為離散值，而搖桿的連續(xù)操作則被劃分為11個離散區(qū)間。

在訓練過程中，Muse利用了大規(guī)模的計算資源和優(yōu)化策略，例如，1.6B參數的Muse模型在訓練時使用了高達1×1022算力，使得模型能夠在復雜的3D游戲環(huán)境中學習到更精細的動態(tài)關系，從而生成更加真實和連貫的游戲玩法序列。

微軟發(fā)布創(chuàng)新大模型：一張圖片就能生成游戲，游戲界ChatGPT來了-AI.x社區(qū)

為了進一步提升模型的性能，微軟還在訓練過程中采用了AdamW優(yōu)化器，并結合了余弦退火學習率策略，在訓練過程中動態(tài)調整學習率，從而提高模型的收斂速度和最終性能。模型還采用了批量歸一化和權重衰減等技術，以防止過擬合并提高模型的泛化能力。

高質量訓練數據

為了提升Muse模型的生成性能，微軟與Ninja Theory工作室合作獲取了《Bleeding Edge》的大量真實玩家游戲數據。

為了收集訓練數據，微軟從游戲中提取了超過50萬場玩家的游戲會話，涵蓋了各種游戲場景、角色行為和玩家操作。同時對這些數據經過清洗和匿名化處理，以確保玩家隱私和數據安全。

游戲畫面的圖像幀被提取為300×180像素的分辨率，以確保模型能夠捕捉到足夠的細節(jié)；控制器操作則被離散化處理，包括按鈕操作和搖桿的移動方向。這些數據被整合為時間序列，每個序列包含10幀圖像和對應的控制器操作，形成了模型的輸入和輸出對。

最終，從這些數據中提煉出了兩個數據集：7 Maps和 Skygarden 數據集。7 Maps 數據集包含 60,986 場比賽，約500,000個玩家軌跡，數據總量達到27T，相當于7年多的游戲時間。

微軟發(fā)布創(chuàng)新大模型：一張圖片就能生成游戲，游戲界ChatGPT來了-AI.x社區(qū)

經過下采樣到10Hz后，約有 14 億幀數據，并按照80:10:10 的比例劃分為訓練集、驗證集和測試集。Skygarden 數據集則聚焦于單個地圖，包含 66,709 個玩家軌跡，約 3.1 億幀數據，同樣進行了80:10:10 的劃分和10Hz下采樣處理。

Muse測試數據

為了測試Muse的性能，微軟使用了連貫性、多樣性和持續(xù)性三種測試基準進行了綜合評估。

在連貫性測試中，團隊使用了FVD指標來衡量生成游戲畫面與真實游戲畫面之間的相似度。結果顯示，隨著模型規(guī)模的增大和計算資源的增加，FVD指標顯著降低，表明生成的游戲畫面與真實畫面之間的差異越來越小。

例如，1.6B參數的MUSE模型在高分辨率圖像上的表現尤為出色，能夠生成長達2分鐘的連貫游戲畫面。

微軟發(fā)布創(chuàng)新大模型：一張圖片就能生成游戲，游戲界ChatGPT來了-AI.x社區(qū)

在多樣性測試中，團隊使用了Wasserstein距離來衡量生成動作與真實人類動作之間的分布差異。測試結果表明，MUSE模型能夠生成多種不同的游戲玩法，且生成的動作分布與人類玩家的真實動作分布高度一致。

此外，團隊還通過定性分析展示了模型生成的多樣化行為，例如，玩家角色可以選擇不同的路徑、使用不同的技能，甚至在外觀上也存在差異。

微軟發(fā)布創(chuàng)新大模型：一張圖片就能生成游戲，游戲界ChatGPT來了-AI.x社區(qū)

持續(xù)性測試則通過在游戲畫面中插入新的元素，包括游戲角色、道具或地圖等元素，來評估模型是否能夠將這些修改融入后續(xù)生成的畫面中。

結果顯示，當模型在生成過程中被提示包含這些修改后的畫面時，能以超過85%持續(xù)生成包含這些元素的畫面。這表明MUSE模型能夠有效地支持創(chuàng)意人員的迭代創(chuàng)作過程。

微軟游戲研究負責人KatjaHofmann表示，研發(fā)Muse的主要原因是2022年11月OpenAI發(fā)布了ChatGPT。當時意識到基于 Transformer 架構的AI模型在大量數據訓練下的巨大商業(yè)潛力，同時手中也有豐富的游戲數據，于是想利用這些數據訓練出更好的游戲模型。

目前，Muse模型可以在微軟的Azure AI Foundry上體驗。

本文轉自 AIGC開放社區(qū) ，作者：AIGC開放社區(qū)

原文鏈接:??https://mp.weixin.qq.com/s/3vFxCvJU_k_IgxNBE4pnuA??

標簽

微軟

游戲

生成

贊

回復