精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

谷歌終于贏了OpenAI一回:實(shí)驗(yàn)版本Gemini 1.5 Pro超越GPT-4o

人工智能 新聞
當(dāng)我們問(wèn) Gemini 1.5 Pro (0801) 9.9 和 9.11 哪個(gè)數(shù)大時(shí),模型一次就能回答正確,并給出了理由。

近兩日,谷歌在不斷發(fā)布最新研究。繼昨日放出最強(qiáng)端側(cè) Gemma 2 2B 小模型后,剛剛,Gemini 1.5 Pro 實(shí)驗(yàn)版本 (0801) 已經(jīng)推出。

用戶(hù)可以通過(guò) Google AI Studio 和 Gemini API 進(jìn)行測(cè)試和反饋。

既然免費(fèi),那我們幫大家測(cè)試一下最近比較火的比大小問(wèn)題。當(dāng)我們問(wèn) Gemini 1.5 Pro (0801) 9.9 和 9.11 哪個(gè)數(shù)大時(shí),模型一次就能回答正確,并給出了理由。

圖片

當(dāng)我們繼續(xù)追問(wèn)「Strawberry 單詞里面有多少個(gè) r」時(shí),然而 Gemini 1.5 Pro (0801) 卻翻車(chē)了。在提示語(yǔ)中施加「咒語(yǔ)」一步一步來(lái),模型分析到第四步就出錯(cuò)了。

圖片

  • Google AI Studio 測(cè)試地址:https://aistudio.google.com/app/prompts/new_chat

不過(guò),從官方評(píng)測(cè)來(lái)看,Gemini 1.5 Pro (0801) 各項(xiàng)指標(biāo)還是很能打的。新模型迅速奪得著名的 LMSYS Chatbot Arena 排行榜榜首,并擁有令人印象深刻的 ELO 分?jǐn)?shù),得分為 1300。

這一成就使 Gemini 1.5 Pro (0801) 領(lǐng)先于 OpenAI 的 GPT-4o(ELO:1286)和 Anthropic 的 Claude-3.5 Sonnet(ELO:1271)等強(qiáng)大競(jìng)爭(zhēng)對(duì)手,這或許預(yù)示著人工智能格局的轉(zhuǎn)變。

圖片

Gemini 團(tuán)隊(duì)關(guān)鍵成員 Simon Tokumine 稱(chēng) Gemini 1.5 Pro (0801) 是谷歌迄今為止制造的最強(qiáng)大、最智能的 Gemini (模型)。

除了拿到 Chatbot Arena 榜首,Gemini 1.5 Pro (0801) 在多語(yǔ)言任務(wù)、數(shù)學(xué)、Hard Prompt 和編碼等領(lǐng)域也表現(xiàn)相當(dāng)出色。

具體而言,Gemini 1.5 Pro (0801) 在中文、日語(yǔ)、德語(yǔ)、俄語(yǔ)方面均表現(xiàn)第一。

圖片

圖片

但在編碼、Hard Prompt 領(lǐng)域,Claude 3.5 Sonnet、GPT-4o、Llama 405B 仍然處于領(lǐng)先地位。

圖片

圖片

在 win-rate 熱圖上:Gemini 1.5 Pro (0801) 對(duì)陣 GPT-4o 的勝率為 54%,對(duì)陣 Claude-3.5-Sonnet 的勝率為 59%。

圖片

Gemini 1.5 Pro (0801) 在 Vision 排行榜上也第一!

圖片

圖片

網(wǎng)友紛紛表示,谷歌這次真是出乎所有人的預(yù)料,沒(méi)有提前官宣就突然開(kāi)放測(cè)試最強(qiáng)模型,這次壓力給到了 OpenAI。

圖片

雖然 Gemini 1.5 Pro (0801) 取得了很高的成績(jī),但它仍處于實(shí)驗(yàn)階段。這意味著該模型在廣泛使用之前可能會(huì)進(jìn)行進(jìn)一步的修改。 

網(wǎng)友評(píng)測(cè)

有網(wǎng)友對(duì) Gemini 1.5 Pro (0801) 的內(nèi)容提取能力、代碼生成能力、推理能力等進(jìn)行了測(cè)試,我們來(lái)看下他的測(cè)試結(jié)果。

圖片

來(lái)源:https://x.com/omarsar0/status/1819162249593840110

首先,Gemini 1.5 Pro (0801) 的圖像信息提取功能很強(qiáng),例如輸入一張發(fā)票圖像,將發(fā)票細(xì)節(jié)用 JSON 格式編寫(xiě)出來(lái):

圖片

再來(lái)看下 Gemini 1.5 Pro (0801) 的 PDF 文檔內(nèi)容提取功能,以經(jīng)典論文《Attention Is All You Need》為例,提取論文章節(jié)目錄:

圖片

讓 Gemini 1.5 Pro (0801) 生成一個(gè)幫助學(xué)習(xí)大型語(yǔ)言模型(LLM)知識(shí)的 Python 游戲,該模型直接生成了一整段代碼:

圖片

圖片

值得一提的是,Gemini 1.5 Pro (0801) 還給出了詳細(xì)的代碼解釋?zhuān)ùa中函數(shù)的作用、該 Python 游戲的玩法等等。

圖片

這段程序可以直接在 Google AI Studio 中運(yùn)行,并且可以試玩,例如做道關(guān)于 Tokenization 定義的選擇題:

圖片

如果覺(jué)得選擇題太簡(jiǎn)單無(wú)聊,可以進(jìn)一步讓 Gemini 1.5 Pro (0801) 生成一個(gè)更復(fù)雜的游戲:

圖片

圖片

得到一個(gè) LLM 專(zhuān)業(yè)知識(shí)句子填空游戲:

圖片

為了測(cè)試 Gemini 1.5 Pro (0801) 的推理能力,網(wǎng)友提問(wèn)了一個(gè)「吹蠟燭」問(wèn)題,但模型回答錯(cuò)誤:

圖片

盡管有一些瑕疵,但 Gemini 1.5 Pro (0801) 的確表現(xiàn)出接近 GPT-4o 的視覺(jué)能力,以及接近 Claude 3.5 Sonnet 的代碼生成和 PDF 理解、推理能力,值得期待。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-07-19 14:08:02

2024-11-22 15:00:00

模型數(shù)據(jù)

2024-05-15 09:58:06

谷歌大模型

2024-05-21 12:23:17

2025-01-22 16:57:32

字節(jié)跳動(dòng)豆包大模型

2025-08-07 14:05:40

OpenAI大模型開(kāi)源

2024-11-22 12:39:56

2024-05-14 07:30:52

OpenAIGPT-4模型

2024-12-18 13:24:30

谷歌AI大語(yǔ)言模型

2024-08-14 14:30:00

AI訓(xùn)練

2024-05-14 11:29:15

2025-03-31 08:50:00

AI生成模型

2025-08-14 18:20:04

GPT-5奧特曼模型

2024-08-22 13:40:08

開(kāi)發(fā)者GPT-4oepoch

2024-05-15 17:34:15

2024-08-08 14:27:29

2023-12-20 15:32:02

模型數(shù)據(jù)

2025-05-19 08:33:00

2025-06-17 08:40:44

2024-05-20 08:20:00

OpenAI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 新泰市| 团风县| 普兰县| 通城县| 义乌市| 黄冈市| 理塘县| 弥勒县| 隆德县| 新巴尔虎右旗| 桂东县| 江达县| 忻州市| 漳州市| 蚌埠市| 湘潭县| 黄冈市| 农安县| 邳州市| 宝坻区| 甘孜县| 东阿县| 额尔古纳市| 绍兴县| 清河县| 叙永县| 突泉县| 潮州市| 方正县| 蕉岭县| 赣榆县| 兴安县| 磴口县| 大足县| 鲜城| 奈曼旗| 定襄县| 长春市| 永康市| 惠安县| 双牌县|