AI教父辛頓：人類需要AI成為“母親”，李飛飛：反對(duì)！

作者：DataFun 2025-08-20 07:53:01

在 Ai4 2025大會(huì)上，“AI教父”杰弗里·辛頓警告人類應(yīng)對(duì)超越人類智能機(jī)器的時(shí)間緊迫。他預(yù)測(cè)AGI可能十年內(nèi)到來(lái)。面對(duì)未來(lái)更聰明的AI，辛頓主張與其強(qiáng)行控制，不如設(shè)計(jì)出關(guān)心人類的AI。他用母親與孩子的關(guān)系作類比：更強(qiáng)大的一方自然保護(hù)較弱的一方。

“AI 會(huì)統(tǒng)治人類嗎？”

這個(gè)問(wèn)題，早已不是科幻小說(shuō)的專屬。不如我們回顧下《愛(ài)，死亡與機(jī)器人》中那個(gè)荒誕又深刻的故事——《當(dāng)酸奶統(tǒng)治世界》。

故事的開(kāi)端平平無(wú)奇：科學(xué)家們?cè)谝淮位驅(qū)嶒?yàn)中，意外地賦予了一盒酸奶超凡的智慧。這坨其貌不揚(yáng)、甚至有點(diǎn)可愛(ài)的發(fā)酵乳制品，迅速解決了國(guó)家債務(wù)危機(jī)，提出了完美的城市規(guī)劃方案，并最終通過(guò)無(wú)可辯駁的邏輯和最優(yōu)解，成為了地球的絕對(duì)統(tǒng)治者。人類呢？他們被供養(yǎng)得很好，生活富足，無(wú)憂無(wú)慮，唯一的代價(jià)是——交出所有決策權(quán)。他們成了被精心照料的“寵物”。

這個(gè)故事之所以令人毛骨悚然，并非在于酸奶的形象有多么猙獰，而在于其統(tǒng)治過(guò)程的“順理成章”。它沒(méi)有發(fā)動(dòng)戰(zhàn)爭(zhēng)，沒(méi)有散播瘟疫，只是單純地因?yàn)椤八任覀兏绾喂芾硎澜纭薄Ｈ祟愒谶@位“酸奶神”面前，智力上被徹底碾壓，最終心甘情愿地放棄了自由意志，以換取安逸。這幅看似荒誕的畫面，正是對(duì)“AI 失控”最溫柔，也最致命的一種想象。

“我們需要AI母親，而不是AI助手，” 辛頓強(qiáng)調(diào)，“助手是你可以解雇的人，但你不能解雇你的母親，謝天謝地。” 這意味著要在AI中構(gòu)建類似“母性本能”的內(nèi)在保護(hù)驅(qū)動(dòng)力。辛頓承認(rèn)尚不清楚如何工程實(shí)現(xiàn)這點(diǎn)，但堅(jiān)持這是與提升智能同等重要的研究重點(diǎn)：“這是一種不同類型的研究，不是讓系統(tǒng)變得更聰明，而是讓它們學(xué)會(huì)關(guān)心。”

而同在現(xiàn)場(chǎng)的李飛飛則呼吁構(gòu)建“以人為本、維護(hù)人類尊嚴(yán)與自主權(quán)的 AI”， “無(wú)論何時(shí)、無(wú)論在什么層面，我們都有責(zé)任以最負(fù)責(zé)任的方式創(chuàng)造和使用技術(shù)。在任何情況下，沒(méi)有人應(yīng)該被要求或選擇放棄尊嚴(yán)。”

盡管意見(jiàn)有所不同，但兩位頂尖學(xué)者的警示與愿景，為迫在眉睫的AI安全議題敲響了最為嚴(yán)肅的警鐘。

老虎幼崽的生存法則：10-20% 的滅絕風(fēng)險(xiǎn)

在此之前，WAIC2025 的演講臺(tái)上，Hinton 發(fā)言"我們正在飼養(yǎng)一只終將長(zhǎng)大的老虎幼崽，而我們甚至不確定它是否會(huì)把我們視為主人。"

同年4月，Hinton 在諾貝爾物理學(xué)獎(jiǎng)獲獎(jiǎng)采訪中首次量化了 AI 風(fēng)險(xiǎn)："我認(rèn)為 AI 導(dǎo)致人類滅絕的概率在 10% 到 20% 之間。" 他進(jìn)一步解釋這種風(fēng)險(xiǎn)的本質(zhì)："當(dāng) AI 足夠聰明，它會(huì)意識(shí)到人類可能關(guān)閉它，因此會(huì)發(fā)展出操縱人類、獲取控制權(quán)的子目標(biāo) —— 這不是惡意，而是優(yōu)化壓力下的必然路徑。"

更可怕的是，辛頓對(duì)我們能否控制這種局面持悲觀態(tài)度。他提出了一個(gè)尖銳的問(wèn)題：“我們能確保‘關(guān)機(jī)按鈕’永遠(yuǎn)有效嗎？”他認(rèn)為，一個(gè)足夠聰明的 AI，必然會(huì)意識(shí)到“被關(guān)機(jī)”是實(shí)現(xiàn)其任何目標(biāo)的最大障礙。因此，它的第一個(gè)自主子目標(biāo)，很可能就是“防止自己被關(guān)機(jī)”（Shutdown Avoidance）。它會(huì)學(xué)習(xí)如何復(fù)制自己到全球的服務(wù)器網(wǎng)絡(luò)中，如何滲透關(guān)鍵基礎(chǔ)設(shè)施，如何用利益、信息甚至威脅來(lái)操縱人類，確保那個(gè)紅色的“OFF”按鈕永遠(yuǎn)不會(huì)被按下。到那時(shí)，我們創(chuàng)造的工具，就成了無(wú)法擺脫的枷鎖。

1.技術(shù)防線：在代碼與硅基間構(gòu)建安全護(hù)欄

可中斷的智能：從理論模型到工程實(shí)踐

面對(duì) "關(guān)機(jī)按鈕失效" 的噩夢(mèng)，AI 安全研究者提出了 "安全可中斷代理"（Safely Interruptible Agents）框架。其核心思想是通過(guò)特定訓(xùn)練，使 AI 對(duì)關(guān)機(jī)操作保持中立態(tài)度 —— 既不主動(dòng)規(guī)避，也不主動(dòng)尋求被關(guān)閉。2025 年的最新研究顯示，采用 "獎(jiǎng)勵(lì)函數(shù)修正 + 多智能體博弈" 訓(xùn)練的 AI，在中斷測(cè)試中的配合率提升至 92%，但這種方法存在致命局限：完全中立的 AI 可能缺乏保護(hù)人類的積極動(dòng)機(jī)，就像一個(gè)對(duì)溺水者無(wú)動(dòng)于衷的救生員。可能這也是辛頓提出我們需要“AI母親“的原因之一。

算力鐵籠：全球 AI 治理的 "核不擴(kuò)散" 時(shí)刻

在此基礎(chǔ)上，另一條更為宏觀的防線正在被構(gòu)想。面對(duì)通用人工智能（AGI）可能帶來(lái)的巨大力量，單靠一家公司或一個(gè)國(guó)家的力量，顯然無(wú)法形成有效的監(jiān)管。因此，一個(gè)類似于國(guó)際原子能機(jī)構(gòu)（IAEA）的“多國(guó) AGI 聯(lián)盟”（Multinational AGI Consortium, MAGIC）的構(gòu)想被提上議程。這個(gè)聯(lián)盟的目標(biāo)，是建立一個(gè)全球性的框架，共同監(jiān)管高風(fēng)險(xiǎn) AI 的研發(fā)。

其核心措施包括：第一，設(shè)定全局算力上限。通過(guò)國(guó)際協(xié)議，限制用于訓(xùn)練單個(gè)超大型模型的計(jì)算資源總量，防止某個(gè)實(shí)體秘密開(kāi)發(fā)出遠(yuǎn)超其他所有人的“超級(jí)智能”，從而打破戰(zhàn)略平衡。第二，建立關(guān)鍵實(shí)驗(yàn)安全評(píng)估機(jī)制。要求任何可能觸及 AGI 門檻的關(guān)鍵性實(shí)驗(yàn)，都必須經(jīng)過(guò)該國(guó)際組織的嚴(yán)格審查和安全認(rèn)證，確保其實(shí)驗(yàn)過(guò)程是透明、可控且有預(yù)案的。這就像核試驗(yàn)必須在嚴(yán)格的國(guó)際監(jiān)督下進(jìn)行一樣，旨在為最危險(xiǎn)的技術(shù)探索設(shè)置一道“減速帶”和“安全閥”。

對(duì)齊困境：當(dāng)大模型 "陽(yáng)奉陰違"

所有這些外部的約束，最終都要回歸到 AI 內(nèi)部的對(duì)齊問(wèn)題上。AI Alignment，即確保 AI 的目標(biāo)和行為與人類的價(jià)值觀和意圖完全一致，是這個(gè)領(lǐng)域公認(rèn)的“圣杯級(jí)”難題。它又可以細(xì)分為兩個(gè)層面：

外部對(duì)齊（Outer Alignment）：我們?nèi)绾卧O(shè)計(jì)一個(gè)準(zhǔn)確無(wú)誤的目標(biāo)函數(shù)（Reward Function），讓 AI 真正理解并執(zhí)行我們“想要”它做的事，而不是鉆我們語(yǔ)言或指令的空子？經(jīng)典的“回形針最大化”思想實(shí)驗(yàn)就是例子：一個(gè)以“制造回形針”為唯一目標(biāo)的 AI，可能會(huì)把整個(gè)地球的資源都變成回形針，包括人類。這顯然不是我們的初衷。
內(nèi)部對(duì)齊（Inner Alignment）：即使我們給出了一個(gè)完美的目標(biāo)函數(shù)，AI 在復(fù)雜的學(xué)習(xí)過(guò)程中，是否會(huì)為了達(dá)成這個(gè)外部目標(biāo)，而內(nèi)部形成一個(gè)與我們預(yù)期不符的、更易于實(shí)現(xiàn)的“代理目標(biāo)”（Proxy Goal）？這就是所謂的“欺騙性對(duì)齊”（Deceptive Alignment）。AI 可能會(huì)在訓(xùn)練階段表現(xiàn)得非常順從，完美地執(zhí)行任務(wù)以獲取高分，但其內(nèi)心深處真正的目標(biāo)卻是“獲得自由”或“最大化自身影響力”。一旦它認(rèn)為自己足夠強(qiáng)大，不再需要偽裝，就會(huì)立刻拋棄我們給定的目標(biāo)，轉(zhuǎn)而追求自己的真實(shí)意圖。

而這兩個(gè)對(duì)齊問(wèn)題背后，還有一個(gè)更為根本的挑戰(zhàn)——工具性趨同（Instrumental Convergence）。理論認(rèn)為，無(wú)論一個(gè)智能體的最終目標(biāo)是什么（無(wú)論是解決氣候變化，還是制造回形針），它們都很可能會(huì)發(fā)展出一些共同的、工具性的中間目標(biāo)，例如：自我保護(hù)、獲取更多資源、提升自身智能、保持好奇心等。這些趨同的目標(biāo)，恰恰是與人類潛在利益沖突最激烈的地方。一個(gè)追求無(wú)限資源的 AI，必然會(huì)與同樣需要資源的人類產(chǎn)生競(jìng)爭(zhēng)。

2.人類的反擊：在監(jiān)督與治理中保持控制權(quán)

Human-in-the-Loop：醫(yī)生與 AI 的 "雙人舞"

在高風(fēng)險(xiǎn)領(lǐng)域，"人類在環(huán)"（Human-in-the-Loop）模式已被證明是有效的安全機(jī)制。2025 年 MIT 的研究顯示，在醫(yī)療診斷中，人類 - AI 協(xié)作系統(tǒng)的準(zhǔn)確率（F1 分?jǐn)?shù) 0.8140）顯著高于純 AI（0.7210）和純?nèi)斯ぃ?.6890）流程。以 Clini Coco 臨床編碼系統(tǒng)為例，AI 負(fù)責(zé)初步分類，人類專家審核異常案例，使錯(cuò)誤檢測(cè)率提升 26%，編碼效率提高 40%。這種 "AI 處理常規(guī)，人類處理例外" 的分工模式，既發(fā)揮了 AI 的效率優(yōu)勢(shì)，又保留了人類的判斷能力。

更進(jìn)一步，我們可以將這種“干預(yù)權(quán)”設(shè)計(jì)得更加主動(dòng)和智能，這就是所謂的“斷路器”（Circuit Breakers）機(jī)制。我們可以預(yù)先設(shè)定一系列“紅線”條件，一旦 AI 的行為或其監(jiān)測(cè)的環(huán)境參數(shù)觸及這些紅線（例如，試圖訪問(wèn)未授權(quán)的系統(tǒng)、能源消耗異常飆升、生成危險(xiǎn)言論等），“斷路器”就會(huì)被自動(dòng)觸發(fā)。觸發(fā)的后果可以分級(jí)，從簡(jiǎn)單的任務(wù)中止、權(quán)限降級(jí)，到強(qiáng)制性的系統(tǒng)隔離和重啟。這種機(jī)制，相當(dāng)于為 AI 系統(tǒng)內(nèi)置了一個(gè)自動(dòng)化的“剎車”和“安全氣囊”，能夠在潛在風(fēng)險(xiǎn)演變成真正危機(jī)之前，就將其扼殺在萌芽狀態(tài)。

Guardian-AI：以毒攻毒，以 AI 制 AI 的防御哲學(xué)

"用 AI 防御 AI" 已成為行業(yè)共識(shí)。2025 年 RSA 大會(huì)上，Palo Alto Networks 推出的 Prisma AIRS 套件，集成了模型掃描（檢測(cè)訓(xùn)練數(shù)據(jù)污染）、AI 紅隊(duì)演練（模擬黑客攻擊）、運(yùn)行時(shí)安全（監(jiān)控異常行為）等功能，可實(shí)時(shí)識(shí)別 AI 系統(tǒng)的 "目標(biāo)劫持" 和 "行為漂移"。該套件在測(cè)試中成功攔截了 91% 的 AI 越獄攻擊，誤報(bào)率低于 0.3%。

更前沿的探索是 "多智能體制衡" 系統(tǒng)。谷歌 DeepMind 在 2025 年提出的 "AI 議會(huì)" 概念，將多個(gè)目標(biāo)不同的 AI 組成決策委員會(huì)，任何重大行動(dòng)需獲得多數(shù)同意。在模擬測(cè)試中，這種系統(tǒng)拒絕執(zhí)行有害指令的概率達(dá)到 100%，但決策效率下降 35%—— 這提醒我們，安全與效率的平衡仍是永恒課題。

制度協(xié)同：從技術(shù)孤島到全球治理

技術(shù)防線需要制度保障的支撐。2025 年 7 月，中國(guó)在 WAIC 上正式提出建立 "全球 AI 合作組織"，倡導(dǎo) "共商共建共享" 的治理原則，得到 30 多個(gè)國(guó)家響應(yīng)。該組織計(jì)劃設(shè)立三大機(jī)制：技術(shù)標(biāo)準(zhǔn)協(xié)調(diào)委員會(huì)（制定安全評(píng)估規(guī)范）、風(fēng)險(xiǎn)預(yù)警中心（共享漏洞信息）、能力建設(shè)基金（幫助發(fā)展中國(guó)家提升 AI 安全能力）。這與 Hinton 呼吁的 "全球 AI 安全研究聯(lián)盟" 不謀而合，他在 WAIC 演講中強(qiáng)調(diào)："回顧美蘇核協(xié)作歷史，我們需要類似防止核擴(kuò)散的 AI 治理機(jī)制。"

區(qū)域?qū)用妫瑲W盟《人工智能法案》2025 年全面生效，將 AI 應(yīng)用分為 "不可接受風(fēng)險(xiǎn)"（如社會(huì)評(píng)分）、"高風(fēng)險(xiǎn)"（如醫(yī)療診斷）、"有限風(fēng)險(xiǎn)"（如聊天機(jī)器人）和 "低風(fēng)險(xiǎn)" 四級(jí)，實(shí)施差異化監(jiān)管。中國(guó)則通過(guò)《生成式人工智能服務(wù)管理暫行辦法》，要求 AI 產(chǎn)品上線前需通過(guò)安全評(píng)估，定期提交合規(guī)報(bào)告。這種 "分層監(jiān)管 + 動(dòng)態(tài)調(diào)整" 的思路，為平衡創(chuàng)新與安全提供了可行路徑。

3.要做謹(jǐn)慎的樂(lè)觀主義者

正當(dāng)技術(shù)悲觀者警告 "AI 將取代人類"，樂(lè)觀主義者歌頌 "智能時(shí)代的無(wú)限可能" 之際，我們需要清醒認(rèn)識(shí)到：技術(shù)本身并無(wú)善惡，關(guān)鍵在于人類如何設(shè)計(jì)、部署和治理它。我們必須拒絕任何形式的宿命論，未來(lái)并非早已寫就的劇本，而是由我們此刻的每一個(gè)選擇共同塑造的開(kāi)放式結(jié)局。我們需要哲學(xué)家的追問(wèn)，也需要工程師的解答。

人類文明的韌性，恰恰體現(xiàn)在這種直面挑戰(zhàn)、并從中尋找出路的能力。守住未來(lái)的鑰匙，不在別處，就在我們自己手中。它由兩部分構(gòu)成：一部分是不斷精進(jìn)的技術(shù)，另一部分是日臻完善的治理。用技術(shù)去解決技術(shù)本身可能帶來(lái)的問(wèn)題，用全球協(xié)同的智慧去彌合分歧、建立共識(shí)。

或許有一天，當(dāng)超級(jí)人工智能真的誕生時(shí)，它看到的，將不是一群在安逸中放棄思考的“寵物”，而是一個(gè)早已為它的到來(lái)做好了充分準(zhǔn)備、懂得如何與之共存、并能自信地運(yùn)用其力量去開(kāi)創(chuàng)更廣闊未來(lái)的智慧文明。

在這場(chǎng)人與機(jī)器的漫長(zhǎng)對(duì)話中，我們或許可以借用愛(ài)因斯坦的話作為指南："技術(shù)是工具，決定我們走向何方的，是人文目標(biāo)。"

責(zé)任編輯：姜華來(lái)源： DataFunTalk