剛剛，谷歌發布71頁AI科研報告！6大領域全面超越專家，幾小時頂幾個月

2025-09-12 11:02:36

人工智能新聞

谷歌最新71頁論文震驚科研界：AI不止能寫代碼，還能像科學家一樣提出新方法、跑實驗，甚至在六大領域全面超越專家！過去要花幾個月的探索，如今幾小時就能完成，科研節奏正在被AI改寫。

在最新一篇長達71頁的論文里，谷歌給科研界丟下了一顆重磅炸彈。

過去一年，DeepMind的FunSearch已經展示了AI在數學發現中的潛力，MIT等團隊也提出了AI co-scientist的概念。

但與這些探索相比，谷歌這次的系統走得更遠：它不僅能提出新方法、驗證實驗結果，還在多個領域超越了頂尖專家。

論文地址：https://arxiv.org/abs/2509.06503

和傳統代碼只追求正確性不同，實證軟件的目標只有一個：讓科研任務的指標分數盡可能高。

這意味著，AI已經開始介入科學研究的最核心環節——假設驗證與方法創新。

不止是寫代碼，而是科研「實證軟件」

在科研中，最耗時的環節并不是提出想法，而是如何驗證。

科學家們往往要為一個問題編寫和調試大量實驗代碼，嘗試幾十甚至上百種模型和參數組合，這個過程動輒數月。

谷歌的新系統把這一環節徹底加速，他們提出了一個概念：實證軟件。

與常規軟件通常只以功能正確性作為評判標準不同，實證軟件的首要目標是最大化預設的質量評分。

也就是說，科研問題被重新抽象為一種可計分任務（scorable task）。

任務中包含清晰的問題描述、衡量優劣的指標和數據集，AI要做的，就是直接朝著分數最高的方向不斷優化。

在這一機制下，AI的角色已經不再是一個寫代碼的小助手，而更像是一個高速運轉的實驗員。

它會先生成研究思路并寫出可執行的代碼，然后在沙箱環境中運行，利用樹搜索的方法篩選出值得深入的候選方案，再讓大語言模型對代碼進行反復的改寫和優化。

整個過程循環往復，直到找到最優解。

AI科研系統的工作流程：科研問題被轉化為可計分任務，經由大語言模型生成代碼，并通過樹搜索反復迭代優化，最終獲得最佳方案。

研究員也強調：

其輸出作為代碼化的解決方案，可驗證、可解釋且可復現。

換句話說，這不是簡單的一段程序，而是真正符合科研標準的成果。

六大領域的硬核成績單

谷歌這套系統真正驚艷的地方，是它在六個完全不同的科學領域里，都拿出了堪比專家的成果。

基因組學：比專家強14%

在單細胞RNA測序（scRNA-seq）數據的批次整合問題上，谷歌的系統展現了真正的科研創新力。

這類任務的難點在于，不同實驗批次之間會產生復雜的技術偏差，如何在消除這些偏差的同時保留真實的生物學信號，一直是領域里的核心挑戰。

研究人員并沒有只讓系統從零開始，而是把現有方法的文字說明直接輸入給它。

比如BBKNN，這是一種常見的批次校正方法，核心思路是：在每個批次內部為細胞尋找最近鄰居，再把這些鄰居集合合并，得到一個批次校正后的整體圖。

BBKNN 的方法描述示例。研究人員將其輸入系統，AI 在此基礎上進行改寫和優化

在這樣的基礎上，AI能夠生成新的變體并進行組合。

最終，它把BBKNN和另一種方法ComBat拼接在一起，得到一個完全新穎的解法。

結果顯示，在OpenProblems V2.0.0的綜合指標上，比最佳人工方法提升了14%。

在單細胞RNA測序批次整合任務上，AI系統自動組合方法，整體得分超過現有專家工具

公共健康：超過CDC官方模型

美國在疫情期間，CDC的CovidHub Ensemble被視為預測住院人數的「黃金標準」。

而谷歌的系統自動生成的14個模型，集體表現超過了官方Ensemble。

地理遙感：分割精度破 0.80

在高分辨率遙感圖像分割任務中，系統生成的三種模型全部超過現有方法，分割精度（mIoU）突破0.80。

更重要的是，它利用U-Net、SegFormer等架構，并結合圖像增強手段，說明它不僅在「復制」，也在「改造和優化」。

AI系統生成的分割結果（下排），與人工標注結果（中排）高度接近，明顯優于傳統模型

神經科學：全腦7萬神經元預測

在Zebrafish全腦神經活動預測中，AI系統不僅打敗了所有現有基線，還設計出能結合生物物理模擬器的混合模型。

在斑馬魚全腦神經活動預測中，AI系統生成的模型（藍色）整體誤差更低，全面超越現有基線方法（紅色），其中TS-Jaxley更是將生物物理模擬器融入預測，提升了可解釋性

數學：難積分迎刃而解

數學問題一向是最能考驗算法極限的地方。

谷歌的系統被拿來挑戰19個異常棘手的積分任務，結果出乎意料：標準數值方法幾乎全軍覆沒，而AI系統卻成功算出了其中17個。

數值積分任務的部分示例。谷歌系統在19個測試積分中成功求解了17個，而標準數值方法未能給出結果。

這說明，它并不只是停留在表面，而是真正學會了如何在復雜數學場景中找到突破口。

對科研人員來說，這意味著在長期困擾的數值計算上，AI已經能給出可用的答案。

時間序列：零起步構建通用預測庫

在通用時間序列預測的GIFT-Eval基準上，谷歌的系統完成了一件幾乎不可能的事：

從零開始，只靠一段代碼不斷爬坡優化，硬是煉成了一個能覆蓋28個數據集、跨越7個領域、適配從秒到年的10種頻率的通用預測庫。

這意味著，AI不僅能解具體問題，還能自己總結出一套通用方法——科研里最難啃的「跨領域泛化」，它也啃下來了。

科研范式的轉折：AI能創新，也能跨界

如果說前面的六個案例只是成績單，那么它們背后真正震撼的是：AI已經不滿足于模仿，而是在科研中展現出了創新能力與跨學科的通用性。

在基因組學任務中，它能夠自動把兩個不同的專家方法組合起來，得到比人類更優的解；

在神經科學任務里，它甚至首次把生物物理模擬器和深度模型拼接，開辟出一種全新的混合思路。

類似的嘗試在學界和業界已有先例：比如DeepResearchGym提供了評測框架，OpenProblems.bio社區建立了scRNA-seq的公開基準。

但谷歌的系統首次在這些基準上全面跑通pipeline，給出了可量化、可復現的專家級結果。

這種創新并不是單點突破，而是跨學科的普遍現象。

從基因組學到公共健康，從遙感影像到時間序列預測，系統都能快速適配，找到新的路徑。

這些基準的多樣性使我們能夠綜合評估其在零樣本泛化、高維信號處理、不確定性量化、復雜數據語義解釋和系統層面建模等方面的能力。

過去科學家依靠反復試驗推進，如今AI系統也能以相同方式進行大規模試錯，而且速度提升數百倍——把幾個月的探索壓縮到幾小時。

這意味著科研節奏可能迎來真正的「指數級加速」。

當AI走進實驗室，人類該做什么？

AI已經能在多個前沿領域生成新方法、驗證結果、超越專家，人類科學家的角色也正在被重新定義。

在這套系統里，AI負責的是不知疲倦的實驗與探索：

成千上萬種方案的嘗試、優化和篩選，本來需要幾個月甚至更久，如今壓縮到幾小時或幾天。

我們的系統能夠快速生成專家級別的解決方案，將一組想法的探索時間從數月縮短到數小時或數天。

而科學家的職責，正逐漸轉向提出方向、判斷價值、定義優先級。

AI可以在技術路徑上無限拓展，但科研問題本身的意義、背后的社會價值，仍然需要人類去設定和把握。

這意味著，科研分工正在走向一種新的格局：

AI或許會成為高效實驗員和方法發明者，人類則站在更高的維度上進行選擇與決策。

這意味著，谷歌的系統不再只是一個「研究工具」的實驗，而是邁向了和FunSearch、AI co-scientist等項目同一賽道的下一步——

從單點突破走向跨領域的科研合作者。

值得一提的是，谷歌已經將這套系統產出的最佳方案全部開源，并提供交互界面讓研究人員追蹤整個搜索與突破過程。

這種開放姿態，意味著科研界可以直接在真實任務里驗證、擴展這些AI生成解法。

責任編輯：張燕妮來源：新智元

谷歌 AI 代碼

精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

剛剛，谷歌發布71頁AI科研報告！6大領域全面超越專家，幾小時頂幾個月

不止是寫代碼，而是科研「實證軟件」

六大領域的硬核成績單

科研范式的轉折：AI能創新，也能跨界

當AI走進實驗室，人類該做什么？