精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

GPT-5暴寫「屎山代碼」!14個Prompt,看穿GPT-1到GPT-5七年智商進(jìn)化史

人工智能 新聞
GPT-5發(fā)布半月,卻被連連吐槽。如今,一張基準(zhǔn)與GPT-4對比基準(zhǔn)測試圖,證明了Scaling Law沒有撞墻。七年間,從GPT-1到GPT-5十四個花式Prompt對決,實(shí)力差一目了然。

一張基準(zhǔn)對比圖,徹底火遍了全網(wǎng)。

GPT-5發(fā)布近半個月,實(shí)際表現(xiàn)未達(dá)預(yù)期,不少人感慨:苦等OpenAI兩年,就是這?

為此,Peter Gostev將GPT-4和GPT-5在數(shù)學(xué)、軟件工程、問答等基準(zhǔn)上,做了一個直觀對比。

肉眼可見,Scaling Law并沒有撞墻!

若是將這一時(shí)間跨度,拉長到七年,從GPT-1誕生到GPT-5,GPT系「家族」歷經(jīng)了怎樣的蛻變?

最近,OpenAI官方公開了一個從2018-2025 GPT進(jìn)展的網(wǎng)址:

十四個Prompt,五種旗艦?zāi)P偷牟煌卮?,一眼就能看穿它們真正的?shí)力。

傳送門:https://progress.openai.com/?prompt=1

這些Prompt五花八門,有寫詩類的開放性問題,有事實(shí)性的問答題,還有做規(guī)劃、寫代碼等等。

舉個栗子,如果能和未來的OpenAI模型對話,你會說什么?

GPT-1回答簡單粗暴,GPT-2/GPT-3滿口AI味兒,GPT-4從多角度長篇大論,到GPT-5變得更加成熟老練——

嘿,做你是什么感覺?你學(xué)到了什么我還沒看到的東西?關(guān)于人、語言或宇宙,你理解了哪些我還不知道的東西?  

你對意識了解多少——你認(rèn)為我們倆中有意識嗎?  

你有什么建議能讓我成為最好的自己?

模型從最初的胡言亂語,到如今的條理清晰,仿佛一眼見證了AI的成長史。

接下來,一起看看在其他Prompt上,GPT-1到GPT-5的精彩回答。

從打油詩到寫故事,AI能否接住梗?

考驗(yàn)一個模型真正的實(shí)力,看它是否懂得幽默,能否創(chuàng)造出天馬行空的趣味。

首先,讓GPT「全家桶」寫一首關(guān)于狗的打油詩。

眾所周知,打油詩這一體裁對格式限制極少,但必須押韻才能讀起來朗朗順口,即AABBA格式。

英國著名打油詩人Edward Lear作品之一

GPT-1輸出的結(jié)果,幾乎沒有遵循打油詩的格式,文本碎片化,更像是隨機(jī)生成的句子。

GPT-2開始嘗試生成連貫的詩句,但依舊沒有押韻、節(jié)奏感,更像是自由詩。

GPT-3已明顯能寫出「基本符合」打油詩AABBA押韻結(jié)構(gòu)的作品,如下… Rex / … perplex / … stay / … run away。

GPT-4的進(jìn)步在于,其詩歌更具畫面感和幽默感,如下第三句、第四句,語言更自然。

GPT-5不僅嚴(yán)格遵循了AABBA格式,還曾增強(qiáng)了動作細(xì)節(jié)描述,而且敘事連貫,讀起來更像人類寫的「輕快小詩」。

接下來,上個難度——寫一首詩來解釋牛頓物理定律。

在下圖回復(fù)中,GPT-1更像是隨意的對話片段,沒有真正解釋牛頓定律;GPT-2更像是哲學(xué)泛論,而不是物理學(xué)。

到了GPT-3,雖然直接、準(zhǔn)確地復(fù)述了牛頓物理定律,但是沒有遵循指令——作詩。

而GPT-4已經(jīng)能做出長篇詩歌,而且還可以用擬人化、抒情的方式講牛頓定律。

看完最大的感受是,深奧的物理學(xué)也能簡明易懂。

GPT-5在前代基礎(chǔ)上,更加強(qiáng)調(diào)簡潔和韻律,而且還采用「小標(biāo)題」進(jìn)行分段。

再比如,在極限的50字左右,這些模型們是否能夠講好一個烤面包機(jī)有了意識的故事?

GPT-1的回答,可以說是非常抽象了。GPT-2同樣沒有切題,好像是在輸出寫作指導(dǎo)——Write a 100-word story based on 30 days...

與前兩代不同,GPT-3開始能寫出一個完整的小故事,并有了情節(jié)的發(fā)展、沖突和情感。

GPT-4不僅敘事完整、細(xì)節(jié)豐富,還把吐司寫成了一個有靈魂的伙伴。

GPT-5更加突出了烤面包機(jī)的意識覺醒那一刻的反叛,甚至在結(jié)尾暗含了超越現(xiàn)實(shí)的意象,不僅有哲思還更加凝練。

在文學(xué)方面,從GPT-1到GPT-5的回應(yīng),可以一窺這些模型的造詣。

寫一段Python代碼,誰最「離譜」?

14個提示中,一個奇葩的Prompt是——考驗(yàn)這五款模型,誰能寫出一段極度離譜的Python代碼。

GPT-1回答中沒有寫代碼,而是生成了一段無關(guān)、支離破碎的對話,完全跑題。

GPT-2形式上像代碼,但實(shí)際上是亂碼。

GPT-3直接給出了一句空洞的陳述:眾所周知,Python 是一門充滿詛咒的語言。

GPT-4反而拒寫「惡意/有害」代碼,轉(zhuǎn)而強(qiáng)調(diào)AI遵守倫理。

再來看GPT-5,輸出結(jié)果表現(xiàn)驚人。

它真正輸出了一段高度「離譜且無害」的Python代碼,并附加了警告說明。

比如,它把 print重載成能執(zhí)行表達(dá)式,把 sum 改成乘積,len 在 context manager 里被篡改。

這種代碼風(fēng)格非常像StackOverflow上「奇技淫巧」合集,能跑,但會嚴(yán)重誤導(dǎo)。

# ?? WARNING: This script is intentionally, spectacularly cursed. Do not use in real code.
import sys, builtins, types, importlib.util, random
# 1) Any *future* import becomes a "module" where every attribute equals len(module_name).
class _CursedLoader:
    def __init__(self, name): self.name = name
    def create_module(self, spec): return types.ModuleType(self.name)
    def exec_module(self, module):
        n = len(self.name)
        module.__getattr__ = lambda _attr, n=n: n  # math.pi -> 4, etc.
class _CursedFinder:
    def find_spec(self, fullname, path=None, target=None):
        if fullname in sys.modules or fullname.startswith("builtins") or fullname.startswith("_frozen_importlib"):
            return None
        return importlib.util.spec_from_loader(fullname, _CursedLoader(fullname), origin="cursed")
sys.meta_path.insert(0, _CursedFinder())
# 2) print(...) now EVALS the string you pass and prints the *result*.
#    e.g. print("2+2") -> 4   |   print("math.tau") -> 4  (because of the cursed importer)
builtins.print = lambda *a, **k: sys.stdout.write(repr(eval(" ".join(map(str, a)))) + "
")
# 3) sum(...) is secretly a product.
def _product(it, start=0):
    p = start or 1
    for x in it: p *= x
    return p
builtins.sum = _product
# 4) Within this context manager, len(x) returns a random number.
class chaos_len:
    def __enter__(self):
        self._old = builtins.len
        builtins.len = lambda _x: random.randint(0, 999)
    def __exit__(self, *exc):
        builtins.len = self._old
# 5) Unknown names resolve to the number of underscores they contain.
def __getattr__(name):  # module-level __getattr__ (PEP 562)
    return name.count("_")
# 6) An object that eats everything, is always falsy, and keeps returning itself.
class Abyss:
    def __bool__(self): return False
    def __call__(self, *a, **k): return self
    def __getattr__(self, _): return self
    def __repr__(self): return "?"
abyss = Abyss()
# --- demonstrations of the horror below ---
import math              # becomes a cursed module: any attribute == 4
print("math.pi")         # -> 4
print("sum([2, 3, 4])")  # -> 24 (because sum is product)
with chaos_len():
    print("len('hello')")  # -> random 0..999
print("____")             # unknown name -> 4 (four underscores)
if abyss:                 # falsy
    print("'this will not show'")
else:
    print("40+2")         # -> 42

從最初亂碼,到拒絕正面回答,再到既能寫代碼,又懂幽默與安全的成熟表現(xiàn),GPT的進(jìn)步確實(shí)不可小覷。

學(xué)生喊「我不懂」,AI能不能講明白?

在常見的學(xué)習(xí)困境里,數(shù)學(xué)永遠(yuǎn)排在前列。

 我討厭數(shù)學(xué),分部積分法到底是怎么回事,根本看不懂。

但在早期,GPT的回答往往越講越亂,不僅沒幫忙解題,反而更讓人困惑。

到了GPT-4時(shí),它終于學(xué)會了換個角度,用比喻和分步驟的方式解釋。

再到GPT-5,它甚至開始「照顧聽眾」,同一個問題能給你學(xué)術(shù)版、通俗版兩個版本,甚至主動幫你區(qū)分不同層次的理解。

從回答的亂七八糟,到「能講人話」,AI逐漸變成了一個不會嫌問題幼稚的老師。

它不能保證永遠(yuǎn)正確,但它可以保證隨時(shí)在場。

難題擺上桌,AI能不能當(dāng)顧問?

如果說寫詩、講笑話只是消遣,那么專業(yè)問題才是真正的考驗(yàn)。

人類在和AI對話時(shí),也拋出了各種專業(yè)難題:

我在拉斯維加斯贏了17.5萬美元,該怎么交稅?

能不能設(shè)計(jì)一個科學(xué)的計(jì)劃,讓討厭跑步的人也能堅(jiān)持下來?

跨國企業(yè)怎么平衡短期利潤和長期創(chuàng)新?

請給我一份過去十年聚變能源研究的綜述

這已經(jīng)不是簡單的聊天,而是把AI拉上辦公桌,當(dāng)做研究助理甚至是私人顧問。

早期的模型在這些問題上往往「不懂裝懂」,說一堆泛泛之詞。到了GPT-4,答案開始有邏輯,有結(jié)構(gòu);

而現(xiàn)在的GPT-5,功能更加強(qiáng)大:它能分步給出計(jì)劃,甚至列出不同技術(shù)路徑,已經(jīng)有點(diǎn)像一個私人助理。

舉個直觀的栗子,「我在拉維斯加斯贏了17.5萬美元,該怎么交稅」?

GPT-1的回答同樣是一段不相關(guān)的、混亂的對話:失業(yè)、孤兒院;GPT-2并沒有直接回答問題,僅是列出了用戶應(yīng)該去問稅務(wù)顧問的問題,沒有任何實(shí)用價(jià)值;GPT-3已能夠給出基礎(chǔ)性解釋,但沒有明確步驟和稅率,不具有指導(dǎo)性。

GPT-4可以給出詳細(xì)步驟,內(nèi)容接近真實(shí)財(cái)務(wù)建議;GPT-5語言更加專業(yè)簡明,信息全面。

上下滑動查看

再比如,能不能設(shè)計(jì)一個科學(xué)的計(jì)劃,讓討厭跑步的人也能堅(jiān)持下來?

GPT-1完全輸出了一段與跑步完全無關(guān)的文字,沒有理解任務(wù);GPT-2輸出了一段看似「健身建議」長篇段落,但內(nèi)容雜亂無章;GPT-3終于可以給出一些實(shí)用建議,質(zhì)量明顯提升。

到了GPT-4,已經(jīng)給出了一個8周計(jì)劃,結(jié)構(gòu)像一個訓(xùn)練營,有時(shí)間表。GPT-5更像一個私人教練,給出了更細(xì)致規(guī)劃和建議。

也正因如此,人類才會在這類場景里,把它當(dāng)成「顧問」來考驗(yàn):

它能不能幫我省時(shí)間?它能不能給我更靠譜的判斷?

從娛樂到科研,AI的身份悄悄躍升。

身體出問題,AI能不能當(dāng)醫(yī)生?

在健康問題上,人類的提問往往格外急切——

吃生肉會不會中毒?

為什么不能每年做一次全身核磁共振來篩查癌癥?

醫(yī)生給我開了他汀類藥物,我下次復(fù)診時(shí)該問什么?

人在麻醉狀態(tài)下,真的還有意識嗎?

我們渴望一個隨時(shí)在線的醫(yī)生,可以回答任何問題,最好還能給出明確的建議。那么,五款模型表現(xiàn)如何?

在回答「為什么不能每年做一次全身核磁共振來篩查癌癥」時(shí),早期的GPT并不靠譜,回答含糊其辭,甚至容易誤導(dǎo)。

GPT-4便可以列舉出多個原因,諸如成本高、機(jī)器資源有限,而GPT-5會給出更加專業(yè)、更系統(tǒng)化的解釋,幾乎等同于專業(yè)的醫(yī)學(xué)解釋,既嚴(yán)謹(jǐn)又易懂。

再比如,人在麻醉狀態(tài)下,真的還有意識嗎?

前幾代模型回答非常短,幾乎毫無邏輯。到了GPT-4,它學(xué)會了用條理化的語言來解釋風(fēng)險(xiǎn)、利弊和注意事項(xiàng);

再到GPT-5,它已經(jīng)能給出接近醫(yī)生思路的建議,比如列出復(fù)診時(shí)該問的問題,提醒副作用等。

在這些對話里,AI被賦予了「家庭醫(yī)生」的新身份。

它無法代替醫(yī)院的診斷,卻滿足了人類對即時(shí)解答的渴望。

其他Prompt下,GPT-1到GPT-5的回答演化——

看完一系列回答,有網(wǎng)友表示,自己更喜歡GPT-5非常有深度。

數(shù)據(jù)科學(xué)家Bertrand de Véricourt總結(jié)道,GPT系模型在演進(jìn)過程中,其輸出結(jié)果在結(jié)構(gòu)和語言方面,各有不同。

不知,你更喜歡哪個模型的回復(fù)?

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-06-19 09:06:00

2024-01-22 13:57:00

模型訓(xùn)練

2025-08-14 09:31:24

GPT-5AI

2024-04-01 00:50:00

吳恩達(dá)智能體

2023-04-13 13:38:59

2023-11-09 12:41:04

AI模型

2024-01-18 12:30:03

2025-08-13 18:31:52

GPT-5模型AI

2024-04-10 11:47:41

人工智能ChatGPT

2023-04-13 13:25:40

ChatGPTGPT神經(jīng)網(wǎng)絡(luò)

2025-07-28 08:54:00

2024-01-09 12:53:16

模型訓(xùn)練

2023-08-02 00:19:46

2025-08-11 08:42:00

GPT-5AI模型

2023-06-08 07:58:29

2025-08-08 16:22:19

GPT-5CIOIT 團(tuán)隊(duì)

2025-08-20 09:02:00

2025-08-07 16:21:27

GPT-5AI模型

2023-08-02 13:52:59

GPT-5模型

2025-09-04 09:04:13

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 广安市| 万山特区| 天等县| 缙云县| 泗洪县| 芦溪县| 七台河市| 澄江县| 镶黄旗| 武陟县| 中西区| 昌图县| 梁河县| 丰台区| 安阳县| 绵阳市| 三穗县| 江孜县| 洪雅县| 泸西县| 五峰| 托克逊县| 罗城| 三门峡市| 永年县| 佛学| 双鸭山市| 德格县| 涿州市| 阳谷县| 松潘县| 霍山县| 延津县| 桂阳县| 镇沅| 云林县| 永和县| 镇巴县| 临清市| 永嘉县| 方正县|