gpt-realtime 發(fā)布：讓語音 AI 真正走進(jìn)生產(chǎn)環(huán)境原創(chuàng)

發(fā)布于 2025-9-3 08:48

瀏覽

0收藏

過去幾年，大家對(duì) AI 聊天模型的關(guān)注大多停留在文字交互。但想象一下：如果你能和 AI 直接進(jìn)行自然流暢的語音對(duì)話，它不僅能理解你說的復(fù)雜需求，還能在對(duì)話中自主調(diào)用工具、幫你處理任務(wù)——是不是就像擁有了一個(gè)“隨身助理”？

OpenAI 最新推出的 gpt-realtime 模型和全面升級(jí)的 Realtime API，正是向這個(gè)方向邁出的重要一步。它們不只是實(shí)驗(yàn)室里的概念，而是已經(jīng)準(zhǔn)備好在生產(chǎn)環(huán)境中大規(guī)模落地的語音 AI 基礎(chǔ)設(shè)施。

1、gpt-realtime：有史以來最強(qiáng)的語音模型

這次發(fā)布的 gpt-realtime 被稱為 OpenAI 最先進(jìn)的語音到語音模型。與傳統(tǒng)的“語音識(shí)別 + 文字生成 + 語音合成”三段式流程不同，它采用了單模型端到端生成，直接將語音輸入轉(zhuǎn)化為語音輸出。

這樣帶來的好處非常明顯：

延遲更低：去掉了中間環(huán)節(jié)，響應(yīng)幾乎接近實(shí)時(shí)；
語氣更自然：能保留說話的細(xì)微差別和情緒；
對(duì)話更流暢：不會(huì)出現(xiàn)“聽得懂但說得生硬”的情況。

在官方內(nèi)部測(cè)試中，gpt-realtime 的綜合能力大幅超越上一代：

在Big Bench Audio 推理測(cè)試中，準(zhǔn)確率達(dá)到 **82.8%**（上一代僅 65.6%）；
在MultiChallenge 多輪對(duì)話測(cè)試中，指令遵循率提升至 **30.5%**（相比上一代 20.6%）；
在ComplexFuncBench 函數(shù)調(diào)用測(cè)試中，正確率提高到 **66.5%**，意味著它能更精準(zhǔn)地在對(duì)話中調(diào)用外部工具。

gpt-realtime 發(fā)布：讓語音 AI 真正走進(jìn)生產(chǎn)環(huán)境-AI.x社區(qū)

換句話說，它不僅“會(huì)說”，而且“會(huì)做”。

2、為什么說這是真正的生產(chǎn)級(jí)語音 AI？

過去開發(fā)語音助手，最大的問題在于：要把語音輸入拆解為多個(gè)獨(dú)立模塊（語音識(shí)別、意圖理解、NLP、語音合成等），開發(fā)者要拼接不同模型，調(diào)優(yōu)各種接口，復(fù)雜且容易出錯(cuò)。

而 Realtime API + gpt-realtime 直接解決了這個(gè)問題。

它帶來的優(yōu)勢(shì)可以歸納為三點(diǎn)：

高可靠性：經(jīng)過大規(guī)模開發(fā)者內(nèi)測(cè)打磨，能支持企業(yè)級(jí)應(yīng)用；
低延遲：?jiǎn)文Ｐ椭苯犹幚硪纛l，響應(yīng)快到接近對(duì)話即時(shí)反饋；
高質(zhì)量：語音更加自然，支持跨語言切換、識(shí)別笑聲、語氣詞，甚至能精準(zhǔn)復(fù)述電話號(hào)碼、VIN 等字母數(shù)字組合。

不難想象，未來的客服熱線、教育輔導(dǎo)、智能硬件語音助手，都會(huì)直接采用這一套架構(gòu)。

Zillow 的 AI 負(fù)責(zé)人 Josh Weisberg 就評(píng)價(jià)說： “它能處理復(fù)雜、多步驟的請(qǐng)求，比如按生活方式篩選房源、指導(dǎo)買房預(yù)算，幾乎像朋友一樣自然。”

gpt-realtime 發(fā)布：讓語音 AI 真正走進(jìn)生產(chǎn)環(huán)境-AI.x社區(qū)

3、Realtime API 的全新能力：不僅能“說”，還能“看”和“打電話”

除了模型升級(jí)，Realtime API 本身也迎來了幾個(gè)關(guān)鍵能力：

?? 遠(yuǎn)程 MCP 服務(wù)器支持

開發(fā)者可以通過配置 MCP（Model Context Protocol） 服務(wù)器，讓語音代理直接調(diào)用外部工具。例如接入 Stripe 支付，只需指定 MCP 服務(wù)器地址即可，無需額外集成。

示例配置：

{
  "session": {
    "type": "realtime",
    "tools": [
      {
        "type": "mcp",
        "server_label": "stripe",
        "server_url": "https://mcp.stripe.com",
        "authorization": "{access_token}",
        "require_approval": "never"
      }
    ]
  }
}

?? 圖像輸入

現(xiàn)在你可以把 圖片、截圖與語音對(duì)話一起輸入。比如：

讓 AI 閱讀截圖上的文字；
上傳照片并問“這是什么？”；
在客服場(chǎng)景中直接上傳賬單截圖，請(qǐng) AI 輔助說明。

示例請(qǐng)求：

{
  "type": "conversation.item.create",
  "item": {
    "type": "message",
    "role": "user",
    "content": [
      {
        "type": "input_image",
        "image_url": "data:image/png;base64,{image_bytes}"
      }
    ]
  }
}