剛剛，OpenAI發布GPT-4.1，性能暴漲、100萬上下文

Aceryt

發布于 2025-4-15 09:44

瀏覽

0收藏

今天凌晨1點，OpenAI進行了技術直播發布了最新模型——GPT-4.1。

除了GPT-4.1之外，還有GPT 4.1-Mini和GPT 4.1-Nano兩款模型，在多模態處理、代碼能力、指令遵循、成本方面實現大幅度提升。特別是支持100萬token上下文，這對于金融分析、小說寫作、教育等領域幫助巨大。

由于GPT-4.1的發布，OpenAI宣布將會淘汰剛發布不久的GPT-4.5，其能力可見一斑。

目前，如果想體驗GPT-4.1而無法通過API身份驗證的小伙伴，微軟已經在Azure OpenAI上線了該模型，可以使用了。

剛剛，OpenAI發布GPT-4.1，性能暴漲、100萬上下文-AI.x社區

GPT-4.1簡單介紹

GPT-4.1最大亮點之一就是支持100萬tokens上下文，這也是OpenAI首次發布長窗口模型。

與前代模型相比，GPT-4.1、GPT-4.1 Mini和GPT-4.1 Nano能夠處理多達100萬tokens的上下文，是GPT-4o的8倍。

OpenAI在Long Context Evals上對長文本進行了測試，測試結果顯示，GPT-4.1系列的三個模型均能夠在語料庫的任何深度找到目標文本，無論是開頭、中間還是結尾，甚至在長達100萬tokens的上下文中，模型依然能夠準確地定位目標文本。

剛剛，OpenAI發布GPT-4.1，性能暴漲、100萬上下文-AI.x社區

OpenAI還在Multi-Round Coreference進行了測試，通過創建合成對話來測試模型在長上下文中的理解和推理能力。在這些對話中，用戶和助手交替進行對話，用戶可能會要求模型生成一首關于某個主題的詩，接著要求生成另一首關于不同主題的詩，然后可能要求生成一個關于第三個主題的短故事。模型需要在這些復雜的對話中找到特定的內容，例如“第二篇關于某個主題的短故事”。

測試結果顯示，GPT-4.1在處理長達128K tokens的數據時顯著優于GPT-4o，并且在長達100萬tokens的上下文中依然能夠保持較高的性能。

剛剛，OpenAI發布GPT-4.1，性能暴漲、100萬上下文-AI.x社區

在編碼能力測試中，SWEBench評估將模型置于 Python 代碼庫環境，讓其探索代碼庫、編寫代碼和測試用例。結果顯示，GPT-4.1 的準確率達到 55% ，而 GPT-4o僅為 33%。

剛剛，OpenAI發布GPT-4.1，性能暴漲、100萬上下文-AI.x社區

在多語言編碼能力測試方面，Ader polyglot 基準測試涵蓋多種編程語言和不同格式要求。GPT-4.1 在差異性能上較 GPT-4o提升一倍，在處理多語言編程任務、代碼優化和版本管理時更高效。

在指令遵循能力測試中，OpenAI 構建內部評估體系，模擬 API 開發者使用場景，測試模型對復雜指令的遵循能力。每個樣本包含分屬不同類別的復雜指令，并分難度等級。在困難子集評估中，GPT-4.1 遠超 GPT-4o。

剛剛，OpenAI發布GPT-4.1，性能暴漲、100萬上下文-AI.x社區

在多模態處理測試的視頻 MME 基準測試中，GPT 4.1 對30 - 60 分鐘無字幕視頻進行理解并回答多項選擇題，取得72%的成績，達到當前最佳水平，在視頻內容理解上實現重大突破。

剛剛，OpenAI發布GPT-4.1，性能暴漲、100萬上下文-AI.x社區

價格方面，GPT -4.1系列在性能提升的同時，價格更具競爭力。GPT -4.1 相比 GPT-4o 價格降低 26%，而GPT -4.1 Nano 作為最小、最快且最便宜的模型，每百萬 token 的成本僅為12美分。

實際應用GPT-4.1案例

湯森路透是全球領先的金融和法律信息提供商，其專業級AI助手CoCounsel被廣泛應用于法律工作。

CoCounsel的主要任務是幫助法律專業人士處理復雜的法律文件和工作流程。在測試GPT-4.1時，路透社發現該模型在多文檔審查方面表現出色，尤其是在處理涉及多個長文檔的復雜法律工作流程時。

與GPT-4o相比，GPT-4.1在內部長上下文基準測試中的多文檔審查準確性提高了17%。這一提升對于法律專業人士來說至關重要，因為它直接關系到CoCounsel處理復雜法律工作流程的能力。

剛剛，OpenAI發布GPT-4.1，性能暴漲、100萬上下文-AI.x社區

法律文件通常包含多個長文檔，這些文檔之間可能存在復雜的相互關系，例如沖突條款或補充上下文。GPT-4.1在這些方面表現出了極高的可靠性，能夠準確識別文檔之間的細微關系，這對于法律分析和決策至關重要。

而在處理多個法律文件時，GPT-4.1能夠有效地維護跨文檔的上下文信息，并準確識別出文檔之間的沖突條款或補充信息。這

Carlyle是一家全球領先的私募股權投資公司，其業務涉及大量的金融數據分析和文檔處理。Carlyle使用GPT-4.1來從多個長文檔中準確提取顆粒化的金融數據，這些文檔包括PDF文件、Excel表格和其他復雜格式。

Carlyle的內部評估顯示，GPT-4.1在從大型文檔中檢索數據方面的表現比其他可用模型高出50%。

GPT-4.1在處理非常大的文檔時表現出色，尤其是在密集數據的檢索方面。該模型成功克服了其他模型的關鍵限制，包括檢索問題、中間位置丟失信息的錯誤以及跨文檔的多跳推理。

這些能力使得GPT-4.1能夠更高效地從復雜的金融文檔中提取關鍵信息，為Carlyle的分析師提供了更準確、更全面的數據支持。

剛剛，OpenAI發布GPT-4.1，性能暴漲、100萬上下文-AI.x社區

Windsurf是一家專注于提供高效開發工具的公司，其內部編碼基準測試為評估AI模型在實際開發中的表現提供了一個重要的參考。在對GPT-4.1進行測試時，Windsurf發現該模型在編碼任務中的表現比前代GPT-4o有了顯著提升：GPT-4.1在Windsurf的內部編碼基準測試中得分比GPT-4o高出60%。

Windsurf的用戶反饋顯示，GPT-4.1在工具調用方面比GPT-4o更高效，效率提升了30%。GPT-4.1在編碼過程中重復進行不必要的編輯或過度細化的步驟的可能性比GPT-4o降低了約50%。

本文轉自 AIGC開放社區，作者：AIGC開放社區

原文鏈接:??https://mp.weixin.qq.com/s/Dfnh2JBZkpouQMxnRDZW8g??

標簽

模型

訓練

贊

回復