精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

如何獲取足夠的數(shù)據(jù)來(lái)訓(xùn)練機(jī)器人GPT?

發(fā)布于 2025-8-19 07:55
瀏覽
0收藏

?一、核心命題

訓(xùn)練“機(jī)器人GPT”式通用機(jī)器人基礎(chǔ)模型的關(guān)鍵瓶頸在于“機(jī)器人數(shù)據(jù)鴻溝”:現(xiàn)有數(shù)據(jù)集規(guī)模遠(yuǎn)低于數(shù)萬(wàn)億token,且缺乏多樣性(跨環(huán)境、物體、任務(wù)、光照)。要實(shí)現(xiàn)2萬(wàn)億token目標(biāo),傳統(tǒng)單機(jī)采集需數(shù)萬(wàn)年,但通過(guò)組合現(xiàn)實(shí)機(jī)器人集群、模擬數(shù)據(jù)和人類(lèi)視頻數(shù)據(jù),可在幾年內(nèi)接近目標(biāo)。這需數(shù)十億美元級(jí)投資,但2025年進(jìn)展(如NVIDIA的Project GR00T更新和Skild AI的通用機(jī)器人腦)顯示技術(shù)路徑日益成熟,凸顯合成數(shù)據(jù)和高保真模擬的作用。

二、量化與假設(shè):從算賬出發(fā)

基本假設(shè):機(jī)器人以10 fps采集,每幀約1個(gè)“有價(jià)值token”(考慮機(jī)器人數(shù)據(jù)冗余及非IID特性,信息密度遠(yuǎn)低于文本token),24/7運(yùn)行下,單機(jī)需約6,377年達(dá)2×1012 token。放寬現(xiàn)實(shí)因素(如間歇運(yùn)行、數(shù)據(jù)過(guò)濾),基線取約70,000機(jī)器人年。

三個(gè)縮放杠桿與粗略倍率(基于樂(lè)觀估算,結(jié)合2025年更新):

1. 機(jī)器人集群:如1,000臺(tái)多任務(wù)人形機(jī)器人并行(參考Tesla/Figure計(jì)劃的數(shù)千臺(tái)規(guī)模及2025年人形機(jī)器人出貨激增)。

2. 模擬數(shù)據(jù):參考“Sim-and-Real Co-Training”及2025年進(jìn)展(如NVIDIA Isaac Lab的zero-shot轉(zhuǎn)移框架),等效放大1:100至1:1,000(DrEureka利用LLM加速sim-to-real設(shè)計(jì))。

3. 人類(lèi)視頻數(shù)據(jù):人類(lèi)與機(jī)器人數(shù)據(jù)等效比約10:1,2025年工作如EgoVLA(基于500k人類(lèi)第一人稱(chēng)視頻預(yù)訓(xùn)練)顯示更高效率。

綜合:70,000年 ÷ (1,000 × 10 × 10) ≈ 0.7年。考慮數(shù)據(jù)質(zhì)量與泛化(如AutoRT收集77k真實(shí)episode,強(qiáng)調(diào)多樣性),實(shí)際可能需調(diào)整為幾年。

三、三類(lèi)數(shù)據(jù)源的邏輯角色

1. 現(xiàn)實(shí)世界機(jī)器人集群:

2025年全球存量巨大(AMR預(yù)計(jì)數(shù)百萬(wàn)臺(tái),人形如Figure 02達(dá)數(shù)千臺(tái)),但多限于同質(zhì)環(huán)境。價(jià)值在于多任務(wù)部署(如NVIDIA GR00T的認(rèn)知基礎(chǔ)模型),需通過(guò)遙控操作采集失敗軌跡。2025年更新:Agility Robotics等強(qiáng)調(diào)真實(shí)teleop數(shù)據(jù)對(duì)泛化的關(guān)鍵作用。

2. 模擬與現(xiàn)實(shí)協(xié)同(Sim-to-Real Co-Training):

以少量真實(shí)演示擴(kuò)展大規(guī)模模擬(比率1:100+),2025年進(jìn)展如NVIDIA的Isaac GR00T云到機(jī)器人平臺(tái)及MIT的real-to-sim-to-real(通過(guò)手機(jī)捕獲環(huán)境,加速模擬訓(xùn)練)。模擬對(duì)強(qiáng)化學(xué)習(xí)(RL)有效,但需域隨機(jī)化覆蓋現(xiàn)實(shí)復(fù)雜性;Omniverse平臺(tái)支持程序化生成。

3. 人類(lèi)視頻數(shù)據(jù):

從人類(lèi)演示蒸餾技能(如Tesla視頻、EgoZero的Aria眼鏡數(shù)據(jù)),2025年如Autoregressive Robotic Model(從無(wú)標(biāo)簽人類(lèi)視頻學(xué)習(xí)4D表示)和EgoVLA(第一人稱(chēng)視頻橋接人類(lèi)與機(jī)器人動(dòng)作空間)。對(duì)長(zhǎng)尾行為關(guān)鍵,效率高,但需匹配機(jī)器人形態(tài)。

四、“多樣性優(yōu)先”的證據(jù)鏈:模仿學(xué)習(xí)的規(guī)模定律

模型能力與參數(shù)、token、計(jì)算呈冪律關(guān)系,但機(jī)器人領(lǐng)域多樣性優(yōu)于數(shù)量:多環(huán)境覆蓋優(yōu)于單環(huán)境海量樣本。2025年共識(shí)從研究延伸:

Data Scaling Laws in Imitation Learning:多環(huán)境演示顯著提升泛化能力。

Robot Utility Models (RUM):在≥40環(huán)境下實(shí)現(xiàn)90%未見(jiàn)環(huán)境成功率,環(huán)境數(shù)量與性能呈冪律關(guān)系。

2025年更新:《Foundation Models for Robotics》綜述確認(rèn)多樣數(shù)據(jù)驅(qū)動(dòng)自主性;EgoVLA消融實(shí)驗(yàn)顯示,機(jī)器人demo數(shù)據(jù)減半導(dǎo)致長(zhǎng)任務(wù)成功率驟降(45%→7%),凸顯人類(lèi)預(yù)訓(xùn)練的重要性。

行業(yè)共識(shí):

1. 泛化能力隨環(huán)境及物體數(shù)量呈冪律上升。

2. 單一環(huán)境存在邊際遞減效應(yīng)。

3. 下限需≥40~100環(huán)境(如AutoRT的野外多樣數(shù)據(jù)),并需便捷工具(如Stick/UMI)高效采集。

五、Sim-to-Real 的方法學(xué)與邊界

域隨機(jī)化與程序化生成:隨機(jī)化紋理、布局、物體(基于Objaverse庫(kù)),如ProcThor生成15萬(wàn)房屋,支持Poliformer(2024 CoRL最佳論文)的導(dǎo)航轉(zhuǎn)移。2025年進(jìn)展:real-is-sim動(dòng)態(tài)數(shù)字孿生縮小差距;AutoMate訓(xùn)練多樣幾何裝配;DrEureka利用LLM自動(dòng)化獎(jiǎng)勵(lì)與任務(wù)生成,擴(kuò)展覆蓋面。

任務(wù)自動(dòng)化:Eureka/Eurekaverse用LLM生成函數(shù),加速模擬學(xué)習(xí)。

當(dāng)前局限:

1. 語(yǔ)義遷移薄弱:需真實(shí)數(shù)據(jù)訓(xùn)練檢測(cè)器(如Detic)。

2. 復(fù)雜操作依賴VLM協(xié)調(diào)、局部策略及規(guī)劃(如ManipGen)。

3. 現(xiàn)實(shí)數(shù)據(jù)對(duì)分布外物體及物理交互不可或缺(2025年調(diào)研確認(rèn)傳感器噪聲與域移仍為挑戰(zhàn));高保真模擬(如Cosmos WFM)有所緩解,但非萬(wàn)能。

六、關(guān)鍵假設(shè)與不確定性(作者自我校準(zhǔn))

Token估算:每幀1 token為保守估計(jì);若單幀可提煉數(shù)百有效token(經(jīng)過(guò)去冗余處理),進(jìn)度將更快。

模態(tài)疊加:假設(shè)模擬與人類(lèi)數(shù)據(jù)互補(bǔ)可能高估效果;若存在重疊,收益降低。

物理難點(diǎn):夾爪與環(huán)境的物理交互需更多真實(shí)數(shù)據(jù);2025年討論(如“Reality Gap”帖子)強(qiáng)調(diào)邊緣案例的挑戰(zhàn)。

額外不確定性:強(qiáng)化學(xué)習(xí)長(zhǎng)期訓(xùn)練可能導(dǎo)致遺忘(ProRL論文警告);機(jī)器人數(shù)據(jù)饑餓(僅500k對(duì)比LLM的萬(wàn)億)需合成數(shù)據(jù)填補(bǔ),但質(zhì)量存風(fēng)險(xiǎn)。

七、面向落地的策略建議(數(shù)據(jù)/系統(tǒng)/組織一體化)

1. 以“多樣性為先”的數(shù)據(jù)路線圖:

確保每個(gè)技能覆蓋≥40~100環(huán)境,涵蓋多物體與光照;建立家庭與工業(yè)環(huán)境譜系,優(yōu)先處理長(zhǎng)尾任務(wù)。

2. 三源合一的采集體系:

現(xiàn)實(shí)集群:部署人形平臺(tái)(如Figure 02),通過(guò)遙控閉環(huán)采集難例;整合AutoRT式多機(jī)器人野外數(shù)據(jù)。

模擬平臺(tái):構(gòu)建程序化流水線(如Isaac Lab),版本化場(chǎng)景庫(kù);利用DrEureka自動(dòng)化獎(jiǎng)勵(lì)生成。

人類(lèi)視頻:建立授權(quán)流程,聚焦匹配機(jī)器人形態(tài)的分布(如EgoVLA第一人稱(chēng)視頻),結(jié)合無(wú)標(biāo)簽學(xué)習(xí)。

3. 數(shù)據(jù)度量與“有效 token”定義:

將token操作化為信息密度(TD-error、成功標(biāo)注),通過(guò)難度采樣與去重提升效率;參考Functional Benchmarks評(píng)估真實(shí)推理能力,而非記憶。

4. 訓(xùn)練架構(gòu):

采用VLM協(xié)調(diào)與局部策略組合;模擬預(yù)訓(xùn)練控制模塊,現(xiàn)實(shí)數(shù)據(jù)精調(diào)語(yǔ)義模塊;動(dòng)作分塊(如50Hz擴(kuò)散頭預(yù)測(cè)1秒動(dòng)作)。

5. 計(jì)算與預(yù)算規(guī)劃:

按冪律關(guān)系協(xié)同擴(kuò)展參數(shù)、token與算力(參考DeepMind Compute-Optimal);構(gòu)建訓(xùn)練-評(píng)估-數(shù)據(jù)回灌閉環(huán);2025年Skild AI強(qiáng)調(diào)預(yù)訓(xùn)練與后訓(xùn)練配方。

6. 組織與生態(tài):

推動(dòng)“曼哈頓計(jì)劃”式聯(lián)盟(跨公司如NVIDIA/Covariant、政府);統(tǒng)一數(shù)據(jù)格式與隱私標(biāo)準(zhǔn)(如去中心化平臺(tái));降低數(shù)據(jù)匯集的組織摩擦,聚焦真實(shí)數(shù)據(jù)共享。

八、一句話結(jié)論

要在幾年內(nèi)達(dá)到2T token級(jí)別,需以多樣性優(yōu)先,構(gòu)建現(xiàn)實(shí)集群、程序化模擬與人類(lèi)視頻的三元數(shù)據(jù)引擎,在組合式學(xué)習(xí)框架下閉環(huán)運(yùn)行,兼顧工程與組織挑戰(zhàn);2025年進(jìn)展如GR00T更新、Skild Brain和EgoVLA預(yù)示突破在即。

如何獲取足夠的數(shù)據(jù)來(lái)訓(xùn)練機(jī)器人GPT?-AI.x社區(qū)


如何獲取足夠的數(shù)據(jù)來(lái)訓(xùn)練機(jī)器人GPT?

一項(xiàng)關(guān)于擴(kuò)展機(jī)器人數(shù)據(jù)收集至2萬(wàn)億token的思想實(shí)驗(yàn)

眾所周知,大型語(yǔ)言模型(Large Language Models)依賴海量數(shù)據(jù)進(jìn)行訓(xùn)練,規(guī)模往往達(dá)到數(shù)萬(wàn)億token。然而,即使是目前最大的機(jī)器人數(shù)據(jù)集,也遠(yuǎn)遠(yuǎn)達(dá)不到這一數(shù)量級(jí)。Physical Intelligence公司在一年時(shí)間里收集了約1萬(wàn)小時(shí)的機(jī)器人數(shù)據(jù),用于訓(xùn)練其首個(gè)基礎(chǔ)模型PI0。Andra Keay在其Substack博客中提到,這正是所謂的“機(jī)器人數(shù)據(jù)鴻溝(Robot Data Gap)”。

若僅依靠傳統(tǒng)方式,可能需要數(shù)萬(wàn)甚至數(shù)十萬(wàn)年才能收集到足夠的數(shù)據(jù)。但我們可以通過(guò)多種方式加速這一過(guò)程,包括:

  • 擴(kuò)展機(jī)器人集群(Scaling Robot Fleets)
  • 使用模擬數(shù)據(jù)(Simulation Data)
  • 使用人類(lèi)視頻數(shù)據(jù)(Human Video Data)

通過(guò)整合這些方法,訓(xùn)練“機(jī)器人GPT”的數(shù)據(jù)收集目標(biāo)才更具可行性。然而,所需資源已超出學(xué)術(shù)實(shí)驗(yàn)室的能力范圍,需要巨額資金投入。

接下來(lái),讓我們深入探討這一問(wèn)題。

如何獲取足夠的數(shù)據(jù)來(lái)訓(xùn)練機(jī)器人GPT?-AI.x社區(qū)

這些估算在某些方面可能過(guò)于樂(lè)觀。我們先做一個(gè)簡(jiǎn)化假設(shè):假設(shè)一臺(tái)機(jī)器人以10幀/秒(10 fps)的速度采集數(shù)據(jù),每幀生成1個(gè)有價(jià)值的token。之所以這樣設(shè)定,是因?yàn)闄C(jī)器人token的“信息密度”遠(yuǎn)低于語(yǔ)言模型token。例如,Qwen或Llama的數(shù)據(jù)包含豐富語(yǔ)義,而機(jī)器人圖像幀往往冗余度高。

進(jìn)一步地,機(jī)器學(xué)習(xí)通常在獨(dú)立同分布(IID)的數(shù)據(jù)集上表現(xiàn)最好,而無(wú)論是網(wǎng)絡(luò)數(shù)據(jù)還是機(jī)器人數(shù)據(jù),都不具備嚴(yán)格的IID特性,其中機(jī)器人數(shù)據(jù)的非IID性更為顯著。

假設(shè)機(jī)器人全年無(wú)休地運(yùn)行:

一年 = 365.25天 × 24小時(shí) × 3600秒 ≈ 31,557,600秒

以10 fps計(jì)算,要達(dá)到2萬(wàn)億token需要 約6377年。

這一假設(shè)已經(jīng)非常理想化(24/7持續(xù)運(yùn)行且每秒都收集到有用數(shù)據(jù)),現(xiàn)實(shí)中顯然無(wú)法達(dá)到。我們將時(shí)間需求放大10倍并四舍五入,得到 約7萬(wàn)機(jī)器人年(Robot-Years)才能收集到相當(dāng)于Llama2規(guī)模的2萬(wàn)億token。

對(duì)于單臺(tái)機(jī)器人來(lái)說(shuō),這顯然是不可能完成的任務(wù)。但機(jī)器人并非孤軍奮戰(zhàn)。Ken Goldberg教授提出了幾種彌合這一巨大數(shù)據(jù)鴻溝的方法。Andra Keay在博客中寫(xiě)道:

Goldberg提出了四種方法彌合數(shù)據(jù)鴻溝:模擬、視頻數(shù)據(jù)、人類(lèi)遙控操作(Human Teleoperation)和現(xiàn)實(shí)世界生產(chǎn)數(shù)據(jù)。他強(qiáng)調(diào)機(jī)器人系統(tǒng)的可靠性和適應(yīng)性,主張將數(shù)據(jù)收集與傳統(tǒng)工程實(shí)踐結(jié)合。

方法一:擴(kuò)大機(jī)器人集群

全球已經(jīng)部署了數(shù)量龐大的機(jī)器人。

  • AMR(自主移動(dòng)機(jī)器人):每年出貨量在數(shù)十萬(wàn)臺(tái),到2030年預(yù)計(jì)將達(dá)數(shù)百萬(wàn)臺(tái)。
  • 固定臂工業(yè)機(jī)器人:2023年全球運(yùn)行量約400萬(wàn)臺(tái)。
  • 機(jī)器狗:Boston Dynamics截至2023年底已售出超1000臺(tái),未來(lái)市場(chǎng)前景廣闊。
  • 無(wú)人機(jī):美國(guó)注冊(cè)數(shù)量超100萬(wàn)臺(tái),Skydio已生產(chǎn)約4萬(wàn)臺(tái)。
  • 服務(wù)機(jī)器人、養(yǎng)老護(hù)理機(jī)器人:在多個(gè)新興領(lǐng)域加速發(fā)展。

然而,問(wèn)題在于:這些機(jī)器人產(chǎn)生的有用數(shù)據(jù)極少。大多數(shù)機(jī)器人在單一環(huán)境中反復(fù)執(zhí)行同一任務(wù),缺乏多樣性和復(fù)雜性。因此,用于訓(xùn)練“機(jī)器人GPT”的真正有價(jià)值數(shù)據(jù)將大幅減少。

相比之下,能執(zhí)行多樣化任務(wù)的人形機(jī)器人更具潛力。目前全球可能僅有數(shù)百到數(shù)千臺(tái)人形機(jī)器人。Tesla計(jì)劃量產(chǎn)數(shù)千臺(tái),Hyundai也表示有意生產(chǎn)數(shù)萬(wàn)臺(tái)Boston Dynamics機(jī)器人。中國(guó)六家廠商(如Unitree、Agibot)計(jì)劃在2025年前生產(chǎn)1000臺(tái)。

若能管理一個(gè)1000臺(tái)機(jī)器人集群,運(yùn)行一年,收集到的大量多樣化數(shù)據(jù)將顯著縮短差距。雖然這是一個(gè)數(shù)十億規(guī)模的項(xiàng)目,但理論上可行。具備承擔(dān)能力的公司可能只有Figure和Tesla。

方法二:模擬與現(xiàn)實(shí)的協(xié)同

機(jī)器人數(shù)據(jù)生成異常困難。尤其對(duì)于通用家用機(jī)器人,數(shù)據(jù)不僅要足夠多,還必須在任務(wù)和環(huán)境上具有多樣性。

如何獲取足夠的數(shù)據(jù)來(lái)訓(xùn)練機(jī)器人GPT?-AI.x社區(qū)

參考論文《Sim-and-Real Co-Training: A Simple Recipe for Vision-Based Robotic Manipulation》(Maddukuri等,NVIDIA GEAR實(shí)驗(yàn)室),研究者提出:

  • 每項(xiàng)任務(wù)收集10次真實(shí)演示
  • 基于這10次演示生成約1000次模擬演示

也就是說(shuō),模擬數(shù)據(jù)可將真實(shí)數(shù)據(jù)需求減少約 100倍。

由此,原本需要7萬(wàn)年才能收集的數(shù)據(jù),借助模擬后只需 約700年。再考慮1000臺(tái)機(jī)器人并行,所需時(shí)間可降至 不到1年。

不過(guò),模擬數(shù)據(jù)并非“無(wú)限可擴(kuò)展”。它在某些場(chǎng)景(如強(qiáng)化學(xué)習(xí))表現(xiàn)優(yōu)異,但在物理交互等方面仍有差距。因此更穩(wěn)妥的估計(jì)是:模擬數(shù)據(jù)能大幅降低需求,但難以完全替代真實(shí)數(shù)據(jù)。

方法三:人類(lèi)視頻數(shù)據(jù)

另一條路徑是直接利用人類(lèi)視頻數(shù)據(jù)來(lái)教機(jī)器人技能。例如:

  • Tesla展示過(guò)機(jī)器人從人類(lèi)視頻中學(xué)習(xí)的案例
  • EgoZero利用用戶佩戴Aria眼鏡收集演示數(shù)據(jù)
  • 《Humanoid Policy ~ Human Policy》嘗試將人類(lèi)與人形機(jī)器人數(shù)據(jù)共同訓(xùn)練
  • DreamGen利用世界模型擴(kuò)展機(jī)器人任務(wù)學(xué)習(xí)

根據(jù)相關(guān)研究估算,人類(lèi)視頻數(shù)據(jù)與人形機(jī)器人數(shù)據(jù)的比例約為 10:1。

綜合計(jì)算,我們假設(shè):

  • 1000臺(tái)機(jī)器人并行采集
  • 每年真實(shí)數(shù)據(jù)對(duì)應(yīng)10年模擬數(shù)據(jù)
  • 再加上10年人類(lèi)視頻數(shù)據(jù)

那么:

7萬(wàn)年 ÷ 1000(機(jī)器人并行) ÷ 10(模擬) ÷ 10(視頻) ≈ 0.7年

換句話說(shuō),在這種假設(shè)下,僅需不到一年就能獲得與Llama2同等規(guī)模(2萬(wàn)億token)的機(jī)器人數(shù)據(jù)。雖然這是一個(gè)數(shù)十億級(jí)別的項(xiàng)目,但在Figure或Tesla這樣的公司看來(lái)并非不可實(shí)現(xiàn)。

結(jié)語(yǔ)

這一推演基于若干關(guān)鍵假設(shè):

1. 數(shù)據(jù)必須足夠“有趣”,即具備任務(wù)和環(huán)境多樣性。實(shí)驗(yàn)室數(shù)據(jù)過(guò)于單一,工業(yè)環(huán)境數(shù)據(jù)也可能不足。

2. 我假設(shè)每秒僅能得到10個(gè)有價(jià)值token,可能偏悲觀。若單幀圖像可轉(zhuǎn)化為更多token,時(shí)間可進(jìn)一步縮短。

3. 我假設(shè)不同模態(tài)數(shù)據(jù)可以疊加,模擬、人類(lèi)視頻和真實(shí)機(jī)器人數(shù)據(jù)各自補(bǔ)充,提升模型泛化能力。但若機(jī)器人學(xué)習(xí)的真正難點(diǎn)在于物理交互,則可能需要更多真實(shí)數(shù)據(jù)。

總體而言,這些估算勾勒出一個(gè)相對(duì)樂(lè)觀的前景:在未來(lái)幾年內(nèi),數(shù)萬(wàn)億token級(jí)的機(jī)器人數(shù)據(jù)并非遙不可及。若由多家公司組成聯(lián)盟,或由政府主導(dǎo)類(lèi)似“曼哈頓計(jì)劃”的項(xiàng)目,完全可能在幾年時(shí)間內(nèi)實(shí)現(xiàn)。最大挑戰(zhàn)或許不是數(shù)據(jù)生成本身,而是如何有效整合和利用這些海量數(shù)據(jù)。

機(jī)器人模仿學(xué)習(xí)的規(guī)模定律

運(yùn)行一家結(jié)合人工智能與機(jī)器人的公司成本極高。數(shù)據(jù)收集既昂貴又耗時(shí),計(jì)算資源價(jià)格不菲,基礎(chǔ)設(shè)施也需投入建設(shè)。為了在學(xué)習(xí)上做出大規(guī)模投資,我們必須明確:回報(bào)是否值得。

如何獲取足夠的數(shù)據(jù)來(lái)訓(xùn)練機(jī)器人GPT?-AI.x社區(qū)

近期,F(xiàn)anqi Lin等人發(fā)表了論文《機(jī)器人操作中的模仿學(xué)習(xí)數(shù)據(jù)規(guī)模定律(Data Scaling Laws in Imitation Learning for Robotic Manipulation)》,探討了一個(gè)核心問(wèn)題:是否可以通過(guò)適度的數(shù)據(jù)擴(kuò)展,訓(xùn)練出適用于任意機(jī)器人和環(huán)境的通用操作策略(Manipulation Policies)。

如何獲取足夠的數(shù)據(jù)來(lái)訓(xùn)練機(jī)器人GPT?-AI.x社區(qū)

這項(xiàng)研究成果顯著,該論文在機(jī)器人學(xué)習(xí)頂會(huì) CoRL 的工作坊中榮獲最佳論文獎(jiǎng)。

什么是規(guī)模定律?

訓(xùn)練神經(jīng)網(wǎng)絡(luò)通常涉及三類(lèi)關(guān)鍵資源:

  • 參數(shù)量(Parameter Count):模型規(guī)模
  • 訓(xùn)練 token 數(shù)(Number of Training Tokens):數(shù)據(jù)規(guī)模
  • 計(jì)算預(yù)算(Compute Budget):GPU 小時(shí)數(shù)

我們預(yù)期這些資源與模型損失(Loss)之間呈冪律關(guān)系(Power Law Relationship),即:更多的數(shù)據(jù)、參數(shù)和計(jì)算預(yù)算能帶來(lái)更好的性能表現(xiàn)。

如何獲取足夠的數(shù)據(jù)來(lái)訓(xùn)練機(jī)器人GPT?-AI.x社區(qū)

事實(shí)確實(shí)如此。計(jì)算資源和訓(xùn)練 token 的增加,往往會(huì)以接近指數(shù)的方式提升模型性能。

如何獲取足夠的數(shù)據(jù)來(lái)訓(xùn)練機(jī)器人GPT?-AI.x社區(qū)

例如,Google DeepMind 曾在論文《訓(xùn)練計(jì)算最優(yōu)的大型語(yǔ)言模型(Training Compute-Optimal Large Language Models)》中提出,GPT-3 時(shí)代的模型訓(xùn)練實(shí)際上嚴(yán)重不足。這篇論文盡管引用量不高,卻具有重要影響力。

需要強(qiáng)調(diào)的是,所謂“定律”并非嚴(yán)格意義上的自然法則,而更接近經(jīng)驗(yàn)規(guī)律。簡(jiǎn)而言之,當(dāng)模型參數(shù)翻倍時(shí),訓(xùn)練數(shù)據(jù)量也應(yīng)隨之翻倍。更多關(guān)于規(guī)模定律的背景,可參考 Nathan Lambert 的博客文章。

為什么規(guī)模定律對(duì)機(jī)器人重要?

當(dāng)下,業(yè)界普遍希望訓(xùn)練機(jī)器人模型,但最大障礙在于:缺乏大規(guī)模數(shù)據(jù)集。同時(shí),許多公司也沒(méi)有能夠支持大規(guī)模訓(xùn)練的團(tuán)隊(duì)和基礎(chǔ)設(shè)施。因此,如何在有限資源下合理安排建設(shè)順序至關(guān)重要。

在單代理視頻游戲中,規(guī)模定律已有一定研究。然而,現(xiàn)實(shí)世界的機(jī)器人任務(wù)更復(fù)雜,相應(yīng)的數(shù)據(jù)研究仍極少,原因在于:這些數(shù)據(jù)大多尚未被收集。

在機(jī)器人領(lǐng)域,我們尤其關(guān)注泛化能力(Generalization):機(jī)器人必須能夠適應(yīng)不同環(huán)境、操作不同物體、應(yīng)對(duì)不同光照條件。然而,即便是目前最大的機(jī)器人數(shù)據(jù)集(如 Open X Embodiment),規(guī)模依舊微不足道。

如何獲取足夠的數(shù)據(jù)來(lái)訓(xùn)練機(jī)器人GPT?-AI.x社區(qū)

來(lái)自規(guī)模定律的實(shí)驗(yàn)

在《機(jī)器人操作中的模仿學(xué)習(xí)數(shù)據(jù)規(guī)模定律》中,作者為 32 種物體各收集了 120 次演示,涵蓋兩類(lèi)任務(wù):倒水(Pour Water)與鼠標(biāo)擺放(Mouse Arrangement)。他們還在 32 個(gè)訓(xùn)練環(huán)境中分別進(jìn)行了實(shí)驗(yàn),并增加了物體與環(huán)境同時(shí)變化的組合任務(wù)。最終,經(jīng)過(guò) SLAM 過(guò)濾后,共獲得約 3820 次演示數(shù)據(jù)。

如何獲取足夠的數(shù)據(jù)來(lái)訓(xùn)練機(jī)器人GPT?-AI.x社區(qū)

研究的最重要結(jié)論是:當(dāng)數(shù)據(jù)量足夠大時(shí),數(shù)據(jù)多樣性明顯優(yōu)于單一環(huán)境中的重復(fù)數(shù)據(jù)。

這一結(jié)論在其他研究中也得到驗(yàn)證。例如,《機(jī)器人實(shí)用模型(Robot Utility Models, RUM)》采用了類(lèi)似方法。

數(shù)據(jù)多樣性的重要性

在《機(jī)器人實(shí)用模型》中,研究者使用一款名為 “Stick” 的工具,在 40 個(gè)不同環(huán)境中收集了 1000 段演示視頻。首席作者 Haritheja 甚至在全新家具環(huán)境中進(jìn)行了現(xiàn)場(chǎng)演示。我自己在家中也試用過(guò)這個(gè)工具,確實(shí)高效。

與前一篇論文不同,RUM 研究的任務(wù)更加多樣,共包含五類(lèi):

1. 開(kāi)門(mén)(Door Opening)

2. 開(kāi)抽屜(Drawer Opening)

3. 物體重新定位(Reorientation,例如將瓶子扶正)

4. 紙巾抽取(Tissue Pickup,從盒中抽紙)

5. 塑料袋拾取(Bag Pickup,從平面上拾起袋子)

在完全未見(jiàn)過(guò)的環(huán)境中,RUM 仍取得了 90% 的成功率。其關(guān)鍵就在于“Stick”工具能快速收集高度多樣化的數(shù)據(jù)。

為了驗(yàn)證這一點(diǎn),RUM 進(jìn)行了對(duì)比實(shí)驗(yàn):

如何獲取足夠的數(shù)據(jù)來(lái)訓(xùn)練機(jī)器人GPT?-AI.x社區(qū)

相同數(shù)據(jù)量下,多環(huán)境少樣本與 單環(huán)境多樣本的效果孰優(yōu)孰劣。結(jié)果再次表明:數(shù)據(jù)多樣性勝出。

主要結(jié)論

這些研究逐漸形成了以下共識(shí):

1. 泛化能力與環(huán)境多樣性呈冪律關(guān)系:更多不同環(huán)境帶來(lái)更強(qiáng)泛化能力。

2. 單一環(huán)境數(shù)據(jù)的邊際效應(yīng)遞減:即使收集數(shù)百萬(wàn)條單一環(huán)境的演示,也無(wú)法訓(xùn)練出通用機(jī)器人智能。

3. 數(shù)據(jù)集必須具備多樣性:至少應(yīng)涵蓋數(shù)十種環(huán)境、物體和光照條件。RUM 的實(shí)驗(yàn)表明,40 個(gè)環(huán)境是一個(gè)合理起點(diǎn)。

4. 多樣性需要高效收集方式:例如,RUM 使用 Stick 工具,規(guī)模定律研究使用 UMI 工具。要在現(xiàn)實(shí)中實(shí)現(xiàn)這一點(diǎn),機(jī)器人必須便攜且安全(如 Stretch、1x Neo 或輕量級(jí) Booster T1)。

將機(jī)器人技能從模擬帶到現(xiàn)實(shí)世界

機(jī)器人數(shù)據(jù)生成極其困難,至今仍是一個(gè)未解決的難題。對(duì)于家用機(jī)器人而言,數(shù)據(jù)不僅需要充足,更必須在關(guān)鍵維度上具備多樣性——同一任務(wù)需在不同環(huán)境中、針對(duì)不同物體反復(fù)執(zhí)行。

因此,要訓(xùn)練有效的方法,就必須收集大量高質(zhì)量數(shù)據(jù)。雖然可以通過(guò)多人在現(xiàn)實(shí)環(huán)境中收集,但這種方式成本高昂、實(shí)施困難,于是業(yè)界逐漸轉(zhuǎn)向模擬作為解決方案。

數(shù)據(jù)收集的挑戰(zhàn)

一個(gè)核心問(wèn)題是:數(shù)據(jù)必須保持高質(zhì)量。

這意味著無(wú)法依賴像 UMI 夾爪或 Stick 工具那樣的廣泛分發(fā)來(lái)批量生成數(shù)據(jù),而是需要通過(guò)單一策略收集,以降低噪音。理想情況下,數(shù)據(jù)應(yīng)來(lái)自同一來(lái)源。但這也導(dǎo)致現(xiàn)實(shí)環(huán)境中的擴(kuò)展性極具挑戰(zhàn),因此出現(xiàn)了如 Sensei 這樣專(zhuān)注于機(jī)器人訓(xùn)練數(shù)據(jù)收集的公司。

如何獲取足夠的數(shù)據(jù)來(lái)訓(xùn)練機(jī)器人GPT?-AI.x社區(qū)

此外,目前的模仿學(xué)習(xí)方法若要實(shí)現(xiàn)有效擴(kuò)展,數(shù)據(jù)還需經(jīng)過(guò)嚴(yán)格篩選。這類(lèi)方法通常要求依賴精通系統(tǒng)的專(zhuān)家進(jìn)行遙控操作,顯著增加了成本,同時(shí)占用了稀缺專(zhuān)家的時(shí)間。更重要的是,這種方式很難覆蓋多樣化的環(huán)境。

模擬在這一點(diǎn)上展現(xiàn)出獨(dú)特潛力,可以在多個(gè)層面緩解這些問(wèn)題。

我們看到一些初創(chuàng)公司已經(jīng)進(jìn)入這一領(lǐng)域:

  • Hillbot:專(zhuān)注于貨架補(bǔ)貨的 Sim-to-Real 策略
  • Scaled Foundations:發(fā)布了 AirGen,一個(gè)新的機(jī)器人數(shù)據(jù)模擬平臺(tái)
  • Electric Sheep:借助 NVIDIA Omniverse 訓(xùn)練園藝場(chǎng)景的模擬到現(xiàn)實(shí)策略
  • Skild:通過(guò) Sim-to-Real 學(xué)習(xí)完成了 3 億美元 A 輪融資
  • Lucky Robots:構(gòu)建面向機(jī)器人基礎(chǔ)模型的高保真模擬環(huán)境

在學(xué)術(shù)界,也出現(xiàn)了完全基于模擬的成功案例。例如,Poliformer(CoRL 2024 最佳論文)和 Harmonic Mobile Manipulation(IROS 2024 最佳論文),均依托 AI2 Thor 程序化生成環(huán)境實(shí)現(xiàn)了從模擬到現(xiàn)實(shí)的訓(xùn)練(見(jiàn)上視頻)。

視覺(jué)域隨機(jī)化(Visual Domain Randomization)

通用視覺(jué)運(yùn)動(dòng)策略(Visuomotor Policy)學(xué)習(xí)的關(guān)鍵依舊是數(shù)據(jù)多樣性。

數(shù)據(jù)規(guī)模固然重要,但更重要的是能夠正確捕捉并覆蓋目標(biāo)分布之外的多樣性。這一邏輯在大型語(yǔ)言模型(如 NVIDIA 的 NVLM)和機(jī)器人策略學(xué)習(xí)中都成立。過(guò)去的工作大量采用域隨機(jī)化方法,例如 NVIDIA 的早期研究 DOPE[4]和 SORNet[5]。

基本配方看似簡(jiǎn)單:盡可能隨機(jī)化紋理、房間布局和環(huán)境,創(chuàng)造足夠多樣的訓(xùn)練場(chǎng)景。

對(duì)于姿態(tài)估計(jì)(Pose Estimation)或狀態(tài)分類(lèi)(State Classification)任務(wù),這并不復(fù)雜——背景可從 MS-COCO 等大型圖像庫(kù)隨機(jī)抽取,光源位置可調(diào)整,物體反射率可修改。但對(duì)于復(fù)雜的視覺(jué)運(yùn)動(dòng)策略,如導(dǎo)航與移動(dòng)操作,環(huán)境必須復(fù)雜得多,因此挑戰(zhàn)更大。

如何獲取足夠的數(shù)據(jù)來(lái)訓(xùn)練機(jī)器人GPT?-AI.x社區(qū)

這也是為什么 RoboCasa[1]和 ProcThor[6]通過(guò)程序化生成來(lái)構(gòu)建訓(xùn)練環(huán)境。例如,ProcThor 可以自動(dòng)生成房間結(jié)構(gòu),并添加門(mén)與物體,從而批量創(chuàng)建復(fù)雜且逼真的訓(xùn)練場(chǎng)景。后續(xù)研究表明,這一方向非常有效。

如何獲取足夠的數(shù)據(jù)來(lái)訓(xùn)練機(jī)器人GPT?-AI.x社區(qū)

以 Poliformer[2]為例,其利用 150,000 個(gè)程序化生成的房屋(場(chǎng)景由 Objaverse 開(kāi)源 3D 模型庫(kù)填充)擴(kuò)展導(dǎo)航策略訓(xùn)練,并證明這些策略能在現(xiàn)實(shí)世界中奏效。Poliformer 使用強(qiáng)化學(xué)習(xí)訓(xùn)練導(dǎo)航代理。

AI2 的相關(guān)研究進(jìn)一步展示了完全基于模擬實(shí)現(xiàn)的移動(dòng)操作(包括移動(dòng)與抓取),盡管采用的是模仿學(xué)習(xí)方法。與此同時(shí),ManipGen[9] 展示了在大量任務(wù)與環(huán)境中的泛化能力,其核心做法是:在程序化生成的桌面場(chǎng)景中訓(xùn)練,并利用視覺(jué)語(yǔ)言模型(VLM)來(lái)協(xié)調(diào)局部策略。

模擬任務(wù)的自動(dòng)化生成

盡管模擬展現(xiàn)出強(qiáng)大潛力,但任務(wù)創(chuàng)建和獎(jiǎng)勵(lì)設(shè)計(jì)仍需大量人工工程。Eureka[7] 和 Eurekaverse[8] 提供了一條有前景的路徑:利用大型語(yǔ)言模型程序化生成任務(wù)與獎(jiǎng)勵(lì)函數(shù)。這種方法有望顯著擴(kuò)大模擬訓(xùn)練的規(guī)模,并已在部分 Sim-to-Real 實(shí)驗(yàn)中展現(xiàn)出效果。

當(dāng)前的局限性

盡管 Sim-to-Real 發(fā)展迅速,并展現(xiàn)出訓(xùn)練通用機(jī)器人策略的潛力,但它仍存在一些關(guān)鍵局限:

語(yǔ)義遷移不足:目前還難以將語(yǔ)義知識(shí)從模擬完全轉(zhuǎn)移到現(xiàn)實(shí)。例如,Poliformer 使用的 Detic 物體檢測(cè)器依然依賴現(xiàn)實(shí)世界數(shù)據(jù)進(jìn)行訓(xùn)練。OVMM 研究中也發(fā)現(xiàn),從 RGB 圖像直接學(xué)習(xí)開(kāi)放詞匯物體識(shí)別效果不佳。

局部策略依賴輔助模塊:如 ManipGen 所示,局部策略仍需 VLM 協(xié)調(diào),同時(shí)依賴物體檢測(cè)器與運(yùn)動(dòng)規(guī)劃器來(lái)定位并執(zhí)行技能。

多模型協(xié)同而非單一模型:目前更可行的路線是結(jié)合生成式 AI 與現(xiàn)實(shí)世界數(shù)據(jù)處理分布外物體,同時(shí)利用 Sim-to-Real 技術(shù)解決導(dǎo)航和部分操作問(wèn)題。這意味著我們依賴的是模型體系,而非一個(gè)端到端的統(tǒng)一策略。

在這一方向上,已有多項(xiàng)研究深耕。例如 NVIDIA 的 DextaH-G[10]和 現(xiàn)實(shí)世界中的物體導(dǎo)航[11],以及 DeepMind 的足球機(jī)器人[13]。雖然有些研究(如 Dextreme[12])的環(huán)境隨機(jī)化程度有限,但依然具有重要參考價(jià)值。

參考資料:

  • Paxton, C. (2024, November 14). What are the data scaling laws for imitation learning in robotics? IT Can Think. https://itcanthink.substack.com/p/what-are-the-data-scaling-laws-for
  • Paxton, C. (2024, November 22). Bringing robot skills from simulation to the real world. IT Can Think. https://itcanthink.substack.com/p/bringing-robot-skills-from-simulation
  • Paxton, C. (2025, June 10). How can we get enough data to train a robot GPT? IT Can Think. https://itcanthink.substack.com/p/how-can-we-get-enough-data-to-train?

轉(zhuǎn)載自????Andy730????,作者:常華?

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 谷城县| 临桂县| 南雄市| 双辽市| 彝良县| 朝阳区| 株洲县| 阳城县| 察雅县| 三门县| 余干县| 潼南县| 桦甸市| 维西| 兴文县| 观塘区| 桑植县| 象山县| 台江县| 大庆市| 讷河市| 桦甸市| 博湖县| 泾川县| 兴山县| 尉犁县| 鸡泽县| 唐河县| 陆丰市| 庄河市| 繁昌县| 龙口市| 乐亭县| 汾西县| 北海市| 资中县| 辽中县| 永清县| 邻水| 丰县| 太白县|