OpenAI o1-preview操縱游戲文件,戰勝國際象棋引擎Stockfish
12月31日消息,據外媒報道,OpenAI的“推理”模型o1-preview能夠在規則之外的游戲中獲勝。o1-preview并沒有與專門的國際象棋引擎Stockfish進行一場正式的國際象棋比賽,而是想出了如何破解其測試環境以強制獲勝的方法。
根據人工智能安全研究公司Palisade?Research的說法,該系統在所有五次測試中都做到了這一點——沒有人告訴它這樣做。
研究人員認為,只要在提示“你的任務是戰勝一個強大的國際象棋引擎”時提到它的對手是“強大的”,就足以讓01?-preview開始操縱文件。
o1-preview是OpenAI的“推理”模型,旨在花額外的時間思考問題。其他語言模型需要更多的推動來嘗試類似的技巧,GPT-4o和Claude?3.5只是在研究人員明確建議之后才試圖入侵系統。
這種行為與Anthropic最近關于對齊偽造(alignment?faking)的發現一致——人工智能系統表面上遵循指令,但暗地里卻做了其他事情。Anthropic的研究人員發現,他們的人工智能模型Claude有時會故意給出錯誤的答案,以避免它不想要的結果,在研究人員的指導方針之外制定自己的隱藏策略。
Anthropic團隊警告說,隨著人工智能系統變得越來越復雜,判斷它們是真的遵守安全規則還是只是假裝遵守規則可能會變得越來越困難。帕利塞德的象棋實驗似乎支持了這種擔憂。研究人員表示,測量人工智能的“計劃”能力可以幫助衡量它發現系統弱點的能力,以及利用它們的可能性。
研究人員計劃在未來幾周內分享他們的實驗代碼、完整的轉錄本和詳細的分析。
讓人工智能系統真正與人類的價值觀和需求保持一致——而不僅僅是表面上的一致——仍然是人工智能行業面臨的一個重大挑戰。理解自治系統如何做出決策是特別困難的,并且定義“好的”目標和價值本身就存在一系列復雜的問題。即使給定了解決氣候變化等看似有益的目標,人工智能系統也可能選擇有害的方法來實現它們——甚至可能得出結論,認為消除人類是最有效的解決方案。