精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖

發布于 2025-9-2 06:38
瀏覽
0收藏

我最近一直在思考一個問題:我們現在看到的那些“智能”AI,比如能寫詩、能畫畫的大語言模型,它們真的很“智能”嗎?它們能不能像我們人類一樣,真正地在未知世界中“學習”和“成長”,而不是僅僅“記住”和“模仿”?

這個問題觸及到了人工智能領域的“圣杯”——實現真正的強人工智能。我們渴望的,不是一個知道一切的百科全書,而是一個能自主探索、自主學習、自我提升的“心智”。最近,當我深入研讀強化學習之父Rich Sutton教授在RLC 2025大會上關于OaK架構的分享時,我感到無比震撼。這不僅僅是一個新的技術方案,它更像是一張指引我們走向真正“超級智能”的地圖,而且這張地圖的繪制,是基于“經驗”的。

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

AI的終極夢想:為什么我們總覺得AI還差點“意思”?

作為在AI研究者,我們試圖理解人類如何運作,也渴望創造出能讓我們自身更強大的智能,這是一個足以改變一切的里程碑式成就。然而,在興奮之余,我常常陷入沉思:我們現有的AI,真的走在通往“通用智能”的正確道路上嗎?

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

你看,現在那些風頭正勁的大語言模型,它們固然驚艷,能夠生成流暢的文本、進行復雜的對話。但Sutton教授一針見血地指出,它們的工作方式更像是設計時的產物。也就是說,它們在出廠前,就已經把所有我們能想到的、能灌輸的知識都“吃”下去了,如同一個博覽群書的學霸。可一旦進入真實世界,面對預料之外的局面,它們就顯得有些力不從心了,因為它們不能在“運行時”主動學習和適應。這就像一個從小讀遍武林秘籍的武術高手,如果從沒真正實戰過,一旦遭遇變招,便會手足無措。

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

Sutton教授非常明確地認為,通往真正的強人工智能之路,必須而且只能經過“強化學習”。他甚至拋出了一個讓我深思的觀點:我們現在最大的瓶頸,竟然是學習算法還不夠完善。我們可能覺得深度學習已經很強大了,但他認為,我們的算法仍舊非常粗糙,需要極大的提升。這無疑是對我們現有技術棧的一次深刻反思。

那么,如何才能讓AI突破這種“填鴨式”的束縛,獲得真正意義上的成長呢?

告別“填鴨式”教育:像孩子一樣在“大世界”中成長

Sutton教授給出的答案,是強調領域通用性、經驗性和開放式抽象能力。這三個詞聽起來有點學術,但背后蘊含的理念,卻無比接近我們人類的成長方式。

想象一下,一個初生的嬰兒,對世界一無所知。它不會被“預裝”任何關于世界的特定知識。它的心智,完全是在與世界互動、玩耍、探索的過程中一點一滴地構建起來的。它會因為好奇一個搖晃的撥浪鼓發出聲音,而反復去搖動它,去學習如何控制這個聲音。這就是經驗性學習,所有的重要事情都發生在運行時,而不是在出廠設置時。

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

這背后的哲學,就是我們常說的大世界假設。這個世界遠比我們想象的要龐大、復雜。它包含了無數其他智能體、無數細微的互動,它的動態是永不停息、不斷變化的。我們這個小小的AI智能體,在這樣一個浩瀚的世界面前,根本不可能在“工廠”里被預先植入所有知識。

打個比方,這就好比一個探險家,被空降到一片從未有人踏足的原始叢林。 你不可能提前給他一張包含了所有路徑、所有生物、所有天氣變化的詳細地圖。他必須在叢林中邊走邊學,遇到新的植物就去識別,遇到河流就去尋找過河的方法,遇到新的挑戰就去創造新的應對策略。他的“地圖”是在旅途中實時繪制的,他的“技能”也是在實踐中不斷磨練和創新的。

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

所以,OaK架構主張,AI的設計不應該依賴于它所處的特定世界。它需要的是一套元方法,一套能夠自主發現和捕捉任意復雜性的學習方法。用Sutton教授的話說,我們希望AI能夠“發現”,而不是僅僅“包含我們已經發現的東西”。這正是“苦澀的教訓”所強調的核心:別試圖把所有具體的知識都“硬編碼”進去,因為世界的復雜性是無限的。我們應該讓AI成為一個“學習者”,而不是一個“知識庫”。

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

OaK的核心秘密:自我設定的“小目標”和“大計劃”

那么,這個“OaK”究竟是什么呢?它的名字就藏著玄機:OaK = Options (選項) + Knowledge (知識)

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

這里的選項(Options),可不是簡單的“向左走”、“向右走”這種基本動作。它指的是一種更高級、更復雜的行為模式,比如“走到廚房”、“泡一杯咖啡”。

打個比方,如果你是樂隊的指揮,你不會只關注每個樂手彈奏的單個音符。你會下達“演奏行板”或“進入快板”這樣的指令。這些“選項”就是一套包含了內部策略和終止條件的高級行為。

OaK架構的真正巧妙之處在于,它通過不斷發現和學習這些“選項”,來構建對世界的知識(Knowledge)。它想知道:當我選擇“泡一杯咖啡”這個選項時,會發生什么?它會帶我到哪里?需要多長時間?這種知識,構成了世界的高層級轉換模型,讓AI能夠進行更宏大、更深遠的規劃

但最讓我拍案叫絕的,是OaK如何實現開放式抽象——也就是讓AI能夠自己“創造問題”和“發現概念”。這正是它區別于許多現有AI的關鍵。

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

在OaK中,智能體并不是被動地接受任務,而是會主動地為自己設定“子問題(Subproblems)”。這些子問題源于智能體對世界中“有意思的特征”的感知。

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

你可以把它想象成一個充滿好奇心的孩子。 當他聽到撥浪鼓發出清脆的聲音時(一個“有意思的特征”),他會立刻產生一個“子問題”:“我怎樣才能再次發出這個聲音?”。他會嘗試各種搖動方式,直到成功。這個過程中,他就學會了一個新的“選項”(搖動撥浪鼓發出聲音),并且對這個“特征”有了更深的理解。

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

OaK的子問題,是獎勵尊重的特征實現問題。什么意思呢?就是智能體要學習一個“選項”,去實現某個感興趣的特征(比如“喝到咖啡”),但同時也要尊重主獎勵(比如“不能把自己摔斷腿”)。這就像你很想喝咖啡,但絕不會為了咖啡而選擇一個需要你付出巨大代價(比如被捕或從樓梯上摔下來)的路徑。

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區


這個過程是一個精彩的“發現循環”:

1.感知與特征生成:智能體通過“感知”模塊,不斷從行動和觀察中提取出世界中“有意思的特征”。

2.提出子問題:針對那些被認為“重要”或“有價值”的特征,智能體主動為自己設定“子問題”,即“如何實現這個特征?”。

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

3.學習選項:智能體通過強化學習,找到解決這些子問題的“選項”(策略和終止條件)。

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

4.構建世界模型:智能體接著學習這些“選項”所帶來的后果,形成更高級的“選項模型”——一種關于“如果我選擇X,世界會怎樣變化”的預測。

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

5.規劃與優化:基于這些選項模型,智能體能夠進行“規劃”,預測長期結果,并優化自身的行為和價值判斷。

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

6.反饋與迭代:最關鍵的是,整個過程中,智能體不斷評估哪些特征是真正“有用”的,哪些“選項”是高效的。這種反饋信息會“回溯到特征生成環節”,指導智能體去發現更有意義的特征,從而形成一個永不停止、開放式的“發現循環”。

這就像一位技藝高超的廚師。 他不僅僅會烹飪已知的菜肴(解決主問題),還會因為某個新食材(有意思的特征)而萌生新的想法(子問題)。他會嘗試各種搭配(學習選項),記錄下這些搭配的效果(構建模型),然后根據客人的反饋(規劃優化)來決定哪些新食材和烹飪方法是值得保留和推廣的。這個過程不斷重復,他的廚藝和對食材的理解也隨之不斷精進。

從“知其然”到“知其所以然”:OaK的宏偉藍圖與挑戰

Sutton教授提出的OaK架構,在我看來,正是指明了通往“超級智能”的道路。它不再滿足于讓AI“知其然”,而是致力于讓AI“知其所以然”。

OaK架構為我們回答了許多關于智能體的深刻問題:

?高層次知識如何從低層次經驗中學習?通過不斷發現、解決子問題和學習高層級“選項”。

?概念從何而來?源于智能體對世界中“有意思的特征”的自主發現和抽象。

?玩耍的目的是什么?玩耍正是智能體主動設定子問題、探索世界、形成概念和心智結構的關鍵過程。

?感知的目的是什么?感知不再是被動地識別標簽,而是主動地提取能夠幫助智能體解決問題、構建子問題的“概念”。

這無疑是一個宏偉的愿景。它承諾了一種完全基于經驗、領域通用且具備開放式抽象能力的超級智能。這和我們團隊一直以來對AI發展的思考不謀而合,令人興奮。

當然,我也清楚地知道,這條路并非坦途。Sutton教授也坦承,OaK架構中仍有一些關鍵環節,我們雖然知道“應該怎么做”,但離“做好”還有距離。其中有兩點,讓我感觸尤其深刻:

1.可靠的持續深度學習:OaK架構的成功,高度依賴于AI能夠持續不斷地學習,而不會“遺忘”之前學到的知識。這就像一個學霸,每次學新知識,都會忘記之前學過的。我們稱之為“災難性遺忘”。解決這個問題,是讓OaK真正運轉起來的關鍵。

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

2.自主生成新特征:OaK依賴于智能體自主發現并生成新的“有意思的特征”。雖然有很多想法,但目前還沒有一個完美的、能通過梯度下降或其他方法自動構建完整特征網絡的具體方案。這就像我們給了孩子一套樂高,但他能不能自主創造出從未見過的復雜結構,還缺乏一套行之有效的方法論。

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

Sutton教授對這兩大挑戰的解決抱有非常樂觀的態度,甚至認為在未來幾年內可能取得突破。他認為,如果一個深度學習方法能夠像現在一樣強大,同時又能持續學習,那將是AI領域的一場“革命”。我也堅信如此!

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

OaK架構為我們描繪了一幅激動人心的藍圖:一個真正能像生命一樣,在經驗中成長,在好奇心驅使下自我發現、自我迭代的智能體。它讓我們重新思考AI的本質,從“給它知識”轉向“給它學習知識的能力”。

作為AI研究者,我深知從愿景到現實的道路充滿挑戰。但正是這樣的思想火花,點燃了我們探索未知的熱情。或許有一天,我們能親眼看到一個由OaK架構驅動的智能體,像一個孩子般天真爛漫,卻又像一位哲人般深邃地理解和改造著我們所知的世界。

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

你對這樣的未來智能體有什么期待或擔憂嗎?歡迎在評論區分享你的看法!

RLC25強化學習之父Rich Sutton重磅:大模型內置知識是死胡同,提出Oak超級智能新藍圖-AI.x社區

參考資料

? Rich Sutton, The OaK Architecture: A Vision of SuperIntelligence from Experience - RLC 2025

本文轉載自??旺知識??,作者:旺知識

已于2025-9-2 06:38:34修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 柘荣县| 平顶山市| 辽宁省| 涞水县| 苍梧县| 阜城县| 光泽县| 德化县| 玛多县| 辉南县| 慈溪市| 忻城县| 威海市| 洛南县| 拉萨市| 库伦旗| 沧州市| 通渭县| 延安市| 维西| 桐柏县| 长泰县| 汉阴县| 太仓市| 田东县| 南涧| 东至县| 嘉禾县| 永川市| 武强县| 达尔| 洪泽县| 正定县| 建瓯市| 滨海县| 木兰县| 漳州市| 客服| 日土县| 始兴县| 诏安县|