精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

Meta超級(jí)智能實(shí)驗(yàn)室新論文陷爭(zhēng)議!被指忽略大量前人研究

人工智能
MSL這篇新論文的核心思想是通過一種Language Self-Play(LSP)的方法,讓大型語(yǔ)言模型在沒有額外訓(xùn)練數(shù)據(jù)的情況下實(shí)現(xiàn)自我提升。

Meta超級(jí)智能實(shí)驗(yàn)室(MSL)又被送上爭(zhēng)議的風(fēng)口浪尖了。

不過,這次不是人事風(fēng)波,而是他們的第二篇論文《Language Self-Play For Data-Free Training》被質(zhì)疑忽視前人研究、缺乏創(chuàng)新

圖片圖片

究竟是啥論文?

讓模型在博弈中學(xué)習(xí)

總的來說,MSL這篇新論文的核心思想是通過一種Language Self-Play(LSP)的方法,讓大型語(yǔ)言模型在沒有額外訓(xùn)練數(shù)據(jù)的情況下實(shí)現(xiàn)自我提升

這一方法旨在應(yīng)對(duì)當(dāng)前大語(yǔ)言模型高度依賴大規(guī)模、高質(zhì)量訓(xùn)練數(shù)據(jù),且訓(xùn)練數(shù)據(jù)有限所帶來的困境。

為此,LSP將模型的學(xué)習(xí)過程設(shè)計(jì)成一個(gè)博弈框架,讓同一個(gè)語(yǔ)言模型扮演兩個(gè)角色進(jìn)行對(duì)抗,從而實(shí)現(xiàn)無(wú)數(shù)據(jù)訓(xùn)練。

圖片圖片

具體來說,這兩個(gè)角色分別是:

  • 挑戰(zhàn)者:負(fù)責(zé)生成越來越有挑戰(zhàn)性的問題或指令。
  • 解決者:負(fù)責(zé)回答或執(zhí)行這些指令。

在對(duì)抗過程中,挑戰(zhàn)者不斷生成越來越刁鉆的問題或指令,以降低解決者的預(yù)期回報(bào);而解決者則必須努力理解并回答這些指令,以最大化自身回報(bào)——這其實(shí)就是我們熟悉的極小極大博弈(minimax game)。

圖片圖片

通過這樣的對(duì)抗訓(xùn)練,模型能夠在不斷博弈中持續(xù)改進(jìn),逐步提升能力。

此外,與傳統(tǒng)對(duì)抗訓(xùn)練不同,LSP讓單個(gè)語(yǔ)言模型同時(shí)扮演“挑戰(zhàn)者”和“解決者”兩個(gè)角色,研究人員給模型設(shè)計(jì)了一個(gè)特殊的“挑戰(zhàn)者提示”(Challenger Prompt):當(dāng)接收到該提示時(shí),模型進(jìn)入挑戰(zhàn)者模式,生成難題;否則,它就扮演解決者角色,回答問題。

這種單一模型的設(shè)計(jì)避免了訓(xùn)練獨(dú)立對(duì)抗模型所帶來的額外開銷和不穩(wěn)定性。整個(gè)過程完全自主,模型在自我對(duì)抗中不斷迭代,從而在沒有外部數(shù)據(jù)輸入的情況下提升自身能力

為了將這個(gè)博弈轉(zhuǎn)化成模型強(qiáng)化學(xué)習(xí)的過程,研究中采用了GRPO技巧,讓模型在每輪訓(xùn)練中進(jìn)行如下操作:

  • 挑戰(zhàn)者生成問題:每輪生成N個(gè)問題。
  • 解決者回答問題:對(duì)于每個(gè)問題,解決者生成一定數(shù)量的答案,并分別計(jì)算獎(jiǎng)勵(lì)。
  • 計(jì)算組價(jià)值與優(yōu)勢(shì):把解決者對(duì)同一個(gè)問題的所有答案的獎(jiǎng)勵(lì)進(jìn)行平均,得到這個(gè)問題整體的難度或表現(xiàn)水平。然后用每個(gè)答案的實(shí)際獎(jiǎng)勵(lì)減去組價(jià)值,判斷這個(gè)答案比平均水平高還是低。 - 更新挑戰(zhàn)者優(yōu)勢(shì):通過計(jì)算優(yōu)勢(shì)函數(shù)獲得問題和答案的反饋,優(yōu)化自己出題的策略。

圖片圖片

通過這種獎(jiǎng)勵(lì)機(jī)制,挑戰(zhàn)者生成的問題會(huì)針對(duì)解決者的薄弱環(huán)節(jié),從而推動(dòng)模型不斷改進(jìn)。

研究將這一方法稱為Language Self-Play Zero(LSP-Zero),其中 Zero 表示零和。

此外,在實(shí)踐中,研究者發(fā)現(xiàn)LSP-Zero有時(shí)會(huì)退化,例如模型為了獲取獎(jiǎng)勵(lì)而生成無(wú)意義但能獲得高分的內(nèi)容(即獎(jiǎng)勵(lì) hacking)。

針對(duì)解決這個(gè)問題,他們?cè)贚SP算法中引入了“自我質(zhì)量獎(jiǎng)勵(lì)” (RQ),引導(dǎo)博弈朝高質(zhì)量交互發(fā)展,使訓(xùn)練可長(zhǎng)期進(jìn)行。

(注:LSP的具體算法如下表)

圖片圖片

最后,為了驗(yàn)證LSP算法的有效性,研究者使用Llama-3.2-3B-Instruct模型在Alpaca Eval基準(zhǔn)上進(jìn)行了兩組實(shí)驗(yàn)。

實(shí)驗(yàn)一將算法與基礎(chǔ)模型本身以及一個(gè)通過傳統(tǒng)強(qiáng)化學(xué)習(xí)微調(diào)的大語(yǔ)言模型進(jìn)行比較。

實(shí)驗(yàn)結(jié)果顯示,沒有使用任何數(shù)據(jù)的LSP和LSP-Zero和使用了數(shù)據(jù)的GRPO相當(dāng),并且顯著優(yōu)于原始模型。而在 Vicuna這類對(duì)話型和開放式指令的數(shù)據(jù)集上,LSP 的表現(xiàn)遠(yuǎn)超GRPO。

圖片圖片

實(shí)驗(yàn)二以實(shí)驗(yàn)一中通過數(shù)據(jù)驅(qū)動(dòng) RL(GRPO)訓(xùn)練得到的模型為起點(diǎn),進(jìn)一步使用 LSP-Zero 和 LSP 進(jìn)行訓(xùn)練,計(jì)算這些模型相對(duì)于Llama-3.2-3B-Instruct的勝率,并與初始的 RL 模型進(jìn)行對(duì)比。

實(shí)驗(yàn)顯示,經(jīng)過LSP的進(jìn)一步訓(xùn)練后,模型的整體勝率從40.9%顯著提升到了43.1%。

同樣的,LSP在Vicuna數(shù)據(jù)集上的提升尤為明顯。這表明 LSP 可以作為一種有效的方法,在數(shù)據(jù)驅(qū)動(dòng)的訓(xùn)練之后繼續(xù)挖掘模型潛力。

圖片圖片

總的來說,實(shí)驗(yàn)結(jié)果表明,LSP-Zero和LSP算法能夠在無(wú)需訓(xùn)練數(shù)據(jù)的情況下提升預(yù)訓(xùn)練LLM的性能,尤其是在對(duì)話類任務(wù)上表現(xiàn)顯著,而這可能意味著AI正在從依賴人類數(shù)據(jù)過渡到自主學(xué)習(xí)系統(tǒng)。

網(wǎng)友:感覺忽略了大量前人研究?

雖然(……)但是,LSP一經(jīng)發(fā)布后,在網(wǎng)友們這倒是出了些小插曲。

一位推特網(wǎng)友直言:LSP自稱是突破性工作,但實(shí)際上忽視了大量前人研究,還順帶翻了一些舊賬。

抱歉了,Meta“超級(jí)智能”實(shí)驗(yàn)室,但 @_AndrewZhao 等人的工作做得更好,而你們卻沒有引用。其實(shí)很多人都做過類似研究(比如 @Benjamin_eecs),無(wú)論是聯(lián)合最大化還是極小極大,不管是驗(yàn)證器還是獎(jiǎng)勵(lì)模型。為什么要把這說成是突破呢?你們?cè)赩icuna上的評(píng)測(cè)確實(shí)做得不錯(cuò),簡(jiǎn)直是2023年LLaMA社區(qū)的典型操作。

圖片圖片

而且,就連失敗的模型也大同小異。

圖片圖片

評(píng)論區(qū)有網(wǎng)友表示這可能是一篇老工作,然后拿到MSL發(fā)的:

圖片圖片

(注:網(wǎng)友提及的論文如下:[1]Absolute Zero: Reinforced Self-play Reasoning with Zero Data[2]SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning[3]Scalable Reinforcement Post-Training Beyond Static Human Prompts)

截至目前,MSL及論文作者尚未對(duì)此作出回應(yīng)。

參考鏈接

[1]https://x.com/teortaxesTex/status/1965654111069876296

[2]https://x.com/_akhaliq/status/1965601392187638018

[3]https://x.com/tydsh/status/1965856666580361705

[4]https://arxiv.org/pdf/2404.10642

[5]https://arxiv.org/pdf/2411.00062

[6]https://arxiv.org/pdf/2505.03335

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2025-09-08 23:19:25

2025-07-01 09:04:00

2025-08-20 09:10:00

2016-10-19 18:40:30

2025-06-30 08:44:00

2024-07-19 11:50:28

2025-07-02 01:40:00

OpenAI人工智能扎克伯格

2025-07-21 09:13:00

2021-08-04 09:48:05

數(shù)字化

2020-01-14 11:28:43

IBM開源SysFlow

2009-05-30 08:43:47

惠普裁員英國(guó)研究實(shí)驗(yàn)室

2015-02-06 09:23:52

賽可達(dá)實(shí)驗(yàn)室網(wǎng)絡(luò)安全

2011-05-25 17:51:40

2021-05-06 08:48:30

谷歌人工智能AI

2023-10-17 12:33:27

AI模型

2023-09-21 12:20:27

2010-02-03 23:57:48

2017-10-12 15:51:14

AI人工智能

2025-08-20 12:41:10

2022-04-18 10:07:30

服務(wù)器安全設(shè)置
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 岳池县| 余干县| 泉州市| 阜新市| 分宜县| 百色市| 永福县| 天门市| 卢氏县| 堆龙德庆县| 福海县| 新蔡县| 句容市| 方正县| 江源县| 黑龙江省| 金寨县| 南郑县| 渑池县| 柘荣县| 徐汇区| 乌审旗| 景洪市| 盘锦市| 泸州市| 阿城市| 吉水县| 崇文区| 龙里县| 新蔡县| 定安县| 台南市| 呼和浩特市| 景谷| 随州市| 长武县| 和田县| 丹寨县| 永德县| 晋江市| 嵊泗县|