剛剛,谷歌發布71頁AI科研報告!6大領域全面超越專家,幾小時頂幾個月
在最新一篇長達71頁的論文里,谷歌給科研界丟下了一顆重磅炸彈。
過去一年,DeepMind的FunSearch已經展示了AI在數學發現中的潛力,MIT等團隊也提出了AI co-scientist的概念。
但與這些探索相比,谷歌這次的系統走得更遠:它不僅能提出新方法、驗證實驗結果,還在多個領域超越了頂尖專家。
論文地址:https://arxiv.org/abs/2509.06503
和傳統代碼只追求正確性不同,實證軟件的目標只有一個:讓科研任務的指標分數盡可能高。
這意味著,AI已經開始介入科學研究的最核心環節——假設驗證與方法創新。
不止是寫代碼,而是科研「實證軟件」
在科研中,最耗時的環節并不是提出想法,而是如何驗證。
科學家們往往要為一個問題編寫和調試大量實驗代碼,嘗試幾十甚至上百種模型和參數組合,這個過程動輒數月。
谷歌的新系統把這一環節徹底加速,他們提出了一個概念:實證軟件。
與常規軟件通常只以功能正確性作為評判標準不同,實證軟件的首要目標是最大化預設的質量評分。
也就是說,科研問題被重新抽象為一種可計分任務(scorable task)。
任務中包含清晰的問題描述、衡量優劣的指標和數據集,AI要做的,就是直接朝著分數最高的方向不斷優化。
在這一機制下,AI的角色已經不再是一個寫代碼的小助手,而更像是一個高速運轉的實驗員。
它會先生成研究思路并寫出可執行的代碼,然后在沙箱環境中運行,利用樹搜索的方法篩選出值得深入的候選方案,再讓大語言模型對代碼進行反復的改寫和優化。
整個過程循環往復,直到找到最優解。
AI科研系統的工作流程:科研問題被轉化為可計分任務,經由大語言模型生成代碼,并通過樹搜索反復迭代優化,最終獲得最佳方案。
研究員也強調:
其輸出作為代碼化的解決方案,可驗證、可解釋且可復現。
換句話說,這不是簡單的一段程序,而是真正符合科研標準的成果。
六大領域的硬核成績單
谷歌這套系統真正驚艷的地方,是它在六個完全不同的科學領域里,都拿出了堪比專家的成果。
基因組學:比專家強14%
在單細胞RNA測序(scRNA-seq)數據的批次整合問題上,谷歌的系統展現了真正的科研創新力。
這類任務的難點在于,不同實驗批次之間會產生復雜的技術偏差,如何在消除這些偏差的同時保留真實的生物學信號,一直是領域里的核心挑戰。
研究人員并沒有只讓系統從零開始,而是把現有方法的文字說明直接輸入給它。
比如BBKNN,這是一種常見的批次校正方法,核心思路是:在每個批次內部為細胞尋找最近鄰居,再把這些鄰居集合合并,得到一個批次校正后的整體圖。
BBKNN 的方法描述示例。研究人員將其輸入系統,AI 在此基礎上進行改寫和優化
在這樣的基礎上,AI能夠生成新的變體并進行組合。
最終,它把BBKNN和另一種方法ComBat拼接在一起,得到一個完全新穎的解法。
結果顯示,在OpenProblems V2.0.0的綜合指標上,比最佳人工方法提升了14%。
在單細胞RNA測序批次整合任務上,AI系統自動組合方法,整體得分超過現有專家工具
公共健康:超過CDC官方模型
美國在疫情期間,CDC的CovidHub Ensemble被視為預測住院人數的「黃金標準」。
而谷歌的系統自動生成的14個模型,集體表現超過了官方Ensemble。
地理遙感:分割精度破 0.80
在高分辨率遙感圖像分割任務中,系統生成的三種模型全部超過現有方法,分割精度(mIoU)突破0.80。
更重要的是,它利用U-Net、SegFormer等架構,并結合圖像增強手段,說明它不僅在「復制」,也在「改造和優化」。
AI系統生成的分割結果(下排),與人工標注結果(中排)高度接近,明顯優于傳統模型
神經科學:全腦7萬神經元預測
在Zebrafish全腦神經活動預測中,AI系統不僅打敗了所有現有基線,還設計出能結合生物物理模擬器的混合模型。
在斑馬魚全腦神經活動預測中,AI系統生成的模型(藍色)整體誤差更低,全面超越現有基線方法(紅色),其中TS-Jaxley更是將生物物理模擬器融入預測,提升了可解釋性
數學:難積分迎刃而解
數學問題一向是最能考驗算法極限的地方。
谷歌的系統被拿來挑戰19個異常棘手的積分任務,結果出乎意料:標準數值方法幾乎全軍覆沒,而AI系統卻成功算出了其中17個。
數值積分任務的部分示例。谷歌系統在19個測試積分中成功求解了17個,而標準數值方法未能給出結果。
這說明,它并不只是停留在表面,而是真正學會了如何在復雜數學場景中找到突破口。
對科研人員來說,這意味著在長期困擾的數值計算上,AI已經能給出可用的答案。
時間序列:零起步構建通用預測庫
在通用時間序列預測的GIFT-Eval基準上,谷歌的系統完成了一件幾乎不可能的事:
從零開始,只靠一段代碼不斷爬坡優化,硬是煉成了一個能覆蓋28個數據集、跨越7個領域、適配從秒到年的10種頻率的通用預測庫。
這意味著,AI不僅能解具體問題,還能自己總結出一套通用方法——科研里最難啃的「跨領域泛化」,它也啃下來了。
科研范式的轉折:AI能創新,也能跨界
如果說前面的六個案例只是成績單,那么它們背后真正震撼的是:AI已經不滿足于模仿,而是在科研中展現出了創新能力與跨學科的通用性。
在基因組學任務中,它能夠自動把兩個不同的專家方法組合起來,得到比人類更優的解;
在神經科學任務里,它甚至首次把生物物理模擬器和深度模型拼接,開辟出一種全新的混合思路。
類似的嘗試在學界和業界已有先例:比如DeepResearchGym提供了評測框架,OpenProblems.bio社區建立了scRNA-seq的公開基準。
但谷歌的系統首次在這些基準上全面跑通pipeline,給出了可量化、可復現的專家級結果。
這種創新并不是單點突破,而是跨學科的普遍現象。
從基因組學到公共健康,從遙感影像到時間序列預測,系統都能快速適配,找到新的路徑。
這些基準的多樣性使我們能夠綜合評估其在零樣本泛化、高維信號處理、不確定性量化、復雜數據語義解釋和系統層面建模等方面的能力。
過去科學家依靠反復試驗推進,如今AI系統也能以相同方式進行大規模試錯,而且速度提升數百倍——把幾個月的探索壓縮到幾小時。
這意味著科研節奏可能迎來真正的「指數級加速」。
當AI走進實驗室,人類該做什么?
AI已經能在多個前沿領域生成新方法、驗證結果、超越專家,人類科學家的角色也正在被重新定義。
在這套系統里,AI負責的是不知疲倦的實驗與探索:
成千上萬種方案的嘗試、優化和篩選,本來需要幾個月甚至更久,如今壓縮到幾小時或幾天。
我們的系統能夠快速生成專家級別的解決方案,將一組想法的探索時間從數月縮短到數小時或數天。
而科學家的職責,正逐漸轉向提出方向、判斷價值、定義優先級。
AI可以在技術路徑上無限拓展,但科研問題本身的意義、背后的社會價值,仍然需要人類去設定和把握。
這意味著,科研分工正在走向一種新的格局:
AI或許會成為高效實驗員和方法發明者,人類則站在更高的維度上進行選擇與決策。
這意味著,谷歌的系統不再只是一個「研究工具」的實驗,而是邁向了和FunSearch、AI co-scientist等項目同一賽道的下一步——
從單點突破走向跨領域的科研合作者。
值得一提的是,谷歌已經將這套系統產出的最佳方案全部開源,并提供交互界面讓研究人員追蹤整個搜索與突破過程。
這種開放姿態,意味著科研界可以直接在真實任務里驗證、擴展這些AI生成解法。