精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

強(qiáng)化學(xué)習(xí)的“GPT-3 時(shí)刻”即將到來(lái) 原創(chuàng)

發(fā)布于 2025-8-29 09:27
瀏覽
0收藏

編者按: 強(qiáng)化學(xué)習(xí)能否像?GPT-3?改變自然語(yǔ)言處理那樣,通過(guò)大規(guī)模擴(kuò)展實(shí)現(xiàn)質(zhì)的飛躍?為什么強(qiáng)化學(xué)習(xí)至今仍困在“先預(yù)訓(xùn)練,再微調(diào)”的傳統(tǒng)模式中?為什么即使是最先進(jìn)的?RL?模型,一旦脫離訓(xùn)練環(huán)境就變得如此脆弱?

無(wú)論是自動(dòng)駕駛、機(jī)器人控制,還是復(fù)雜系統(tǒng)優(yōu)化,我們都需要能夠快速適應(yīng)新任務(wù)、具備真正泛化能力的智能體。然而當(dāng)前的 RL 模型就像是“高分低能”的應(yīng)試選手 —— 在熟悉的測(cè)試環(huán)境中表現(xiàn)優(yōu)異,但面對(duì)真實(shí)世界的復(fù)雜性時(shí)卻束手無(wú)策。

本文提出了 replication training 范式,為強(qiáng)化學(xué)習(xí)的規(guī)模化擴(kuò)展指明了全新方向。作者不再拘泥于傳統(tǒng)的游戲環(huán)境或仿真場(chǎng)景,而是大膽提議讓 AI 復(fù)制現(xiàn)有的軟件產(chǎn)品。它利用了互聯(lián)網(wǎng)上豐富的軟件資源,提供了客觀明確的評(píng)估標(biāo)準(zhǔn),同時(shí)訓(xùn)練了 AI 在長(zhǎng)周期項(xiàng)目中保持穩(wěn)定輸出的能力。

作者 | Matthew Barnett, Tamay Besiroglu, Ege Erdil

編譯 | 岳揚(yáng)

GPT-3 證明了,僅僅通過(guò)擴(kuò)大語(yǔ)言模型的規(guī)模,就能帶來(lái)強(qiáng)大的、task-agnostic(譯者注:模型不依賴特定任務(wù)的設(shè)計(jì)或微調(diào),就能處理多種不同類型的任務(wù)。)、few-shot(譯者注:模型僅需極少量示例,就能快速理解并執(zhí)行新任務(wù)。)的性能,其表現(xiàn)通常優(yōu)于經(jīng)過(guò)精心微調(diào)的模型。在 GPT-3 出現(xiàn)之前,要達(dá)到最先進(jìn)的性能,首先需要在大型通用文本語(yǔ)料庫(kù)上對(duì)模型進(jìn)行預(yù)訓(xùn)練,然后再針對(duì)特定任務(wù)進(jìn)行微調(diào)。

如今的強(qiáng)化學(xué)習(xí)同樣困在類似 GPT-3 之前的范式里。我們首先是對(duì)大模型進(jìn)行預(yù)訓(xùn)練,然后在高度專業(yè)化的環(huán)境中,對(duì)特定任務(wù)進(jìn)行精細(xì)的微調(diào)。但這種方法的根本局限在于:由此獲得的能力難以泛化,導(dǎo)致性能“脆弱”(brittle performance) ——?模型一旦脫離訓(xùn)練期間接觸的精確語(yǔ)境,性能便會(huì)迅速退化。

強(qiáng)化學(xué)習(xí)的“GPT-3 時(shí)刻”即將到來(lái)-AI.x社區(qū)

我們認(rèn)為強(qiáng)化學(xué)習(xí)(RL)即將迎來(lái)其“GPT-3 時(shí)刻”。相比在有限數(shù)量的訓(xùn)練場(chǎng)景或任務(wù)設(shè)置上微調(diào)模型,我們預(yù)計(jì)該領(lǐng)域?qū)⑥D(zhuǎn)向在數(shù)千個(gè)多樣化環(huán)境上進(jìn)行大規(guī)模訓(xùn)練。有效實(shí)施這一做法將催生出具有 few-shot、task-agnostic 能力的 RL 模型,能夠快速適應(yīng)全新的任務(wù)。但實(shí)現(xiàn)這一點(diǎn)需要訓(xùn)練環(huán)境在規(guī)模和多樣性上遠(yuǎn)超當(dāng)前任何的可用資源。

01 究竟需要多少 RL 資源?

當(dāng)前的 RL 數(shù)據(jù)集相對(duì)較小。例如,DeepSeek-R1 在大約 60 萬(wàn)個(gè)數(shù)學(xué)問(wèn)題上進(jìn)行了訓(xùn)練,這相當(dāng)于人類連續(xù)努力六年的工作量(假設(shè)每個(gè)任務(wù)耗時(shí)五分鐘完成)。相比之下,重建 GPT-3 那包含 3000 億 token 的訓(xùn)練語(yǔ)料庫(kù),若按人類平均書寫速度計(jì)算,需要大約數(shù)萬(wàn)年的寫作時(shí)間。

需要說(shuō)明的是,要達(dá)到與當(dāng)前前沿模型預(yù)訓(xùn)練預(yù)算相當(dāng)?shù)?RL 計(jì)算支出,按人類完成相同任務(wù)所需時(shí)長(zhǎng)來(lái)衡量,可能需要大約上萬(wàn)年。 DeepSeek-R1 在 RL 階段使用了約 6e23 FLOP 的計(jì)算量[1],按人類效率折算,對(duì)應(yīng)約 6 年的時(shí)長(zhǎng)。假設(shè)未來(lái)的訓(xùn)練任務(wù)使用與 DeepSeek-R1 相似的訓(xùn)練輪次(epochs)和組大小(group sizes),將此擴(kuò)展至約 6e26 FLOP 意味著需要人類約 6000 年的工作時(shí)長(zhǎng)。

尚不確定未來(lái)的強(qiáng)化學(xué)習(xí)訓(xùn)練會(huì)需要更大的還是更小的組規(guī)模(group sizes)、抑或是更多的訓(xùn)練輪次(epochs),尤其是隨著任務(wù)分布多樣性的增加。我們?cè)谶@方面缺乏足夠的數(shù)據(jù),因此精確估算等效的人類工作時(shí)間仍很困難,盡管 1 萬(wàn)年左右似乎是一個(gè)較為合理的數(shù)量級(jí)。

這一過(guò)程要求模型完成的工作量,其規(guī)模可與 Windows Server 2008、GTA V 或 Red Hat Linux 7.1 等大型項(xiàng)目相當(dāng) —— 每個(gè)項(xiàng)目估計(jì)都需要約 1 萬(wàn)年的累計(jì)人類工作量。

將強(qiáng)化學(xué)習(xí)(RL)擴(kuò)展到這一規(guī)模在經(jīng)濟(jì)上是高效的。由于算力成本在總訓(xùn)練成本中占據(jù)主導(dǎo)地位,將強(qiáng)化學(xué)習(xí)的規(guī)模提升到與預(yù)訓(xùn)練預(yù)算相當(dāng)?shù)乃剑茉诓幻黠@增加總成本的情況下帶來(lái)大幅的性能提升。 然而,要實(shí)現(xiàn)這一目標(biāo),就必須大規(guī)模擴(kuò)展強(qiáng)化學(xué)習(xí)環(huán)境(RL environments)的體量,同時(shí)確保任務(wù)能夠?qū)崿F(xiàn)自動(dòng)化評(píng)估。這很可能需要開(kāi)發(fā)新的構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境的方法。

02 Replication training

想象一下,每次當(dāng)你想要通過(guò)下一個(gè)詞預(yù)測(cè)方法(next-token prediction)預(yù)訓(xùn)練語(yǔ)言模型時(shí),都必須親手創(chuàng)建整個(gè)訓(xùn)練語(yǔ)料庫(kù)。顯然,這極其不切實(shí)際。因此,我們轉(zhuǎn)而利用海量的現(xiàn)有內(nèi)容 —— 如書籍、學(xué)術(shù)論文、博客帖子和 Reddit 討論內(nèi)容來(lái)構(gòu)建訓(xùn)練語(yǔ)料庫(kù)。

同樣,我們推測(cè),RL(強(qiáng)化學(xué)習(xí))領(lǐng)域的“GPT-3 時(shí)刻”將主要依托于一種稱為 replication training 的新范式來(lái)實(shí)現(xiàn)。 該范式要求 AI 復(fù)制現(xiàn)有的軟件產(chǎn)品或其內(nèi)部特定功能。實(shí)現(xiàn)復(fù)雜的哈希與加密算法的簡(jiǎn)單命令行工具是較為理想的初期目標(biāo),這種方案可以輕松擴(kuò)展到更復(fù)雜的軟件,例如網(wǎng)站、專業(yè)軟件和游戲。

每項(xiàng)復(fù)制任務(wù)(replication tasks)均包含詳細(xì)的說(shuō)明規(guī)范和用于參考的實(shí)現(xiàn)方案。其核心思想是,AI 模型經(jīng)過(guò)訓(xùn)練后能夠生成與用于參考的實(shí)現(xiàn)方案完全一致的方案。這種清晰直接的方法極大地簡(jiǎn)化了評(píng)估過(guò)程,因?yàn)樵u(píng)分標(biāo)準(zhǔn)客觀且明確:生成的實(shí)現(xiàn)方案的行為要么與用于參考的實(shí)現(xiàn)方案完全一致,要么就是不一致。

盡管這些復(fù)制任務(wù)(replication tasks)可能與日常的軟件工程活動(dòng)有所不同,但它們專門針對(duì)當(dāng)前 AI 系統(tǒng)難以掌握的關(guān)鍵能力。例如,復(fù)制一個(gè)復(fù)雜的算法(如依據(jù)詳細(xì)規(guī)范進(jìn)行開(kāi)發(fā)的、包含萬(wàn)行量級(jí)代碼的加密/解密 CLI 工具),要求模型必須做到:

  • 準(zhǔn)確閱讀并深度理解詳細(xì)指令。
  • 一絲不茍且精確無(wú)誤地執(zhí)行指令。
  • 能夠發(fā)現(xiàn)早期錯(cuò)誤并可靠地恢復(fù)。
  • 在長(zhǎng)時(shí)間周期(相當(dāng)于人類數(shù)月時(shí)間的開(kāi)發(fā)工作量)內(nèi)保持穩(wěn)定輸出 —— 在此過(guò)程中,質(zhì)量?jī)?yōu)劣完全由功能正確性直接判定。
  • 在遇到困難時(shí)展現(xiàn)出韌性,而非草率止步于看起來(lái)“差不多能用”的方案。

我們預(yù)測(cè),replication training 將成為 AI 領(lǐng)域的下一個(gè)范式,因?yàn)樗樠恿宋覀冊(cè)?AI 發(fā)展過(guò)程中已觀察到的趨勢(shì) —— 利用海量的現(xiàn)有人類生成數(shù)據(jù)來(lái)創(chuàng)建新任務(wù)。就像自然語(yǔ)言一樣,軟件在互聯(lián)網(wǎng)上同樣資源豐富。因此,replication training 提供了一種可擴(kuò)展的途徑,能高效生成復(fù)雜任務(wù),推動(dòng)我們實(shí)現(xiàn)可端到端完成完整軟件項(xiàng)目的 AI。

然而,這種方法也面臨著幾項(xiàng)挑戰(zhàn)。編寫有效且全面的測(cè)試仍然是一項(xiàng)非同小可的任務(wù),需要大量的工程投入。此外,復(fù)制任務(wù)(replication tasks)本身具有一定的人造性,因?yàn)榫_復(fù)制現(xiàn)有軟件并非日常軟件工程的典型工作(盡管在軟件移植、遺留系統(tǒng)重構(gòu)、凈室重新實(shí)現(xiàn)【譯者注:clean-room reimplementations,指在嚴(yán)格隔離原始代碼知識(shí)的前提下,僅通過(guò)分析功能規(guī)范或外部行為,重新實(shí)現(xiàn)與原有軟件功能相同的程序。該過(guò)程需確保開(kāi)發(fā)團(tuán)隊(duì)從未接觸過(guò)原始源代碼,以避免法律上的版權(quán)/專利侵權(quán)風(fēng)險(xiǎn)。】)等場(chǎng)景中確有其例。

盡管存在這些挑戰(zhàn),但我們認(rèn)為 replication training 為將強(qiáng)化學(xué)習(xí)環(huán)境(RL environments)擴(kuò)展到實(shí)現(xiàn)有意義泛化所需的龐大規(guī)模提供了一條清晰明確的路徑。它很可能將成為解鎖強(qiáng)化學(xué)習(xí)“GPT-3 時(shí)刻”的關(guān)鍵,為達(dá)成穩(wěn)健的、task-agnostic 的性能提供所需的數(shù)萬(wàn)年量級(jí)的經(jīng)驗(yàn)積累。

replication training 會(huì)是解鎖 full automation of labor(譯者注:通過(guò) AI / 機(jī)器人系統(tǒng)實(shí)現(xiàn)人類所有勞動(dòng)形式的自動(dòng)化替代,達(dá)到無(wú)需人類直接參與即可完成經(jīng)濟(jì)生產(chǎn)活動(dòng)的終極狀態(tài)。)的終極范式嗎?對(duì)此我們持懷疑態(tài)度。雖然它能催生可在精確設(shè)計(jì)規(guī)范下自主完成高復(fù)雜度軟件項(xiàng)目的系統(tǒng),但我們推測(cè),這些能力仍將遜色于人類所具備的開(kāi)放式能力。即便 AI 成為高級(jí)編程專家,它們?cè)讵M窄的軟件領(lǐng)域之外的高層管理(譯者注:high-level management,指組織架構(gòu)中涉及戰(zhàn)略決策、資源分配和跨部門協(xié)調(diào)的頂層管理職能。)與自主規(guī)劃(agentic planning)方面也未必能勝任。

然而,正如我們需要先發(fā)明預(yù)訓(xùn)練,才能邁向 replication training,replication training 仍可作為通往下一范式的橋梁。我們對(duì)這一新范式的未來(lái)潛力充滿期待。

END

本期互動(dòng)內(nèi)容 ??

?您預(yù)測(cè) RL 領(lǐng)域的“GPT-3時(shí)刻”會(huì)在什么時(shí)間節(jié)點(diǎn)出現(xiàn)?3 年內(nèi)、5-10 年,還是更久?請(qǐng)分享您的判斷依據(jù)。

本文經(jīng)原作者授權(quán),由 Baihai IDP 編譯。如需轉(zhuǎn)載譯文,請(qǐng)聯(lián)系獲取授權(quán)。

原文鏈接:

https://www.mechanize.work/blog/the-upcoming-gpt-3-moment-for-rl/

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 黔东| 曲麻莱县| 金秀| 普格县| 大洼县| 社会| 沁水县| 新建县| 龙陵县| 新龙县| 岚皋县| 贺兰县| 饶平县| 繁昌县| 姜堰市| 富宁县| 肇庆市| 张掖市| 梧州市| 习水县| 当阳市| 泾川县| 东宁县| 防城港市| 高雄县| 永年县| 姚安县| 盈江县| 鲜城| 榆中县| 城口县| 冕宁县| 文登市| 辽源市| 宽城| 万安县| 共和县| 大英县| 金秀| 拜泉县| 仁寿县|