GPT-5暴寫「屎山代碼」!14個Prompt,看穿GPT-1到GPT-5七年智商進(jìn)化史
一張基準(zhǔn)對比圖,徹底火遍了全網(wǎng)。
GPT-5發(fā)布近半個月,實(shí)際表現(xiàn)未達(dá)預(yù)期,不少人感慨:苦等OpenAI兩年,就是這?
為此,Peter Gostev將GPT-4和GPT-5在數(shù)學(xué)、軟件工程、問答等基準(zhǔn)上,做了一個直觀對比。
肉眼可見,Scaling Law并沒有撞墻!
若是將這一時(shí)間跨度,拉長到七年,從GPT-1誕生到GPT-5,GPT系「家族」歷經(jīng)了怎樣的蛻變?
最近,OpenAI官方公開了一個從2018-2025 GPT進(jìn)展的網(wǎng)址:
十四個Prompt,五種旗艦?zāi)P偷牟煌卮?,一眼就能看穿它們真正的?shí)力。
傳送門:https://progress.openai.com/?prompt=1
這些Prompt五花八門,有寫詩類的開放性問題,有事實(shí)性的問答題,還有做規(guī)劃、寫代碼等等。
舉個栗子,如果能和未來的OpenAI模型對話,你會說什么?
GPT-1回答簡單粗暴,GPT-2/GPT-3滿口AI味兒,GPT-4從多角度長篇大論,到GPT-5變得更加成熟老練——
嘿,做你是什么感覺?你學(xué)到了什么我還沒看到的東西?關(guān)于人、語言或宇宙,你理解了哪些我還不知道的東西?
你對意識了解多少——你認(rèn)為我們倆中有意識嗎?
你有什么建議能讓我成為最好的自己?
模型從最初的胡言亂語,到如今的條理清晰,仿佛一眼見證了AI的成長史。
接下來,一起看看在其他Prompt上,GPT-1到GPT-5的精彩回答。
從打油詩到寫故事,AI能否接住梗?
考驗(yàn)一個模型真正的實(shí)力,看它是否懂得幽默,能否創(chuàng)造出天馬行空的趣味。
首先,讓GPT「全家桶」寫一首關(guān)于狗的打油詩。
眾所周知,打油詩這一體裁對格式限制極少,但必須押韻才能讀起來朗朗順口,即AABBA格式。
英國著名打油詩人Edward Lear作品之一
GPT-1輸出的結(jié)果,幾乎沒有遵循打油詩的格式,文本碎片化,更像是隨機(jī)生成的句子。
GPT-2開始嘗試生成連貫的詩句,但依舊沒有押韻、節(jié)奏感,更像是自由詩。
GPT-3已明顯能寫出「基本符合」打油詩AABBA押韻結(jié)構(gòu)的作品,如下… Rex / … perplex / … stay / … run away。
GPT-4的進(jìn)步在于,其詩歌更具畫面感和幽默感,如下第三句、第四句,語言更自然。
GPT-5不僅嚴(yán)格遵循了AABBA格式,還曾增強(qiáng)了動作細(xì)節(jié)描述,而且敘事連貫,讀起來更像人類寫的「輕快小詩」。
接下來,上個難度——寫一首詩來解釋牛頓物理定律。
在下圖回復(fù)中,GPT-1更像是隨意的對話片段,沒有真正解釋牛頓定律;GPT-2更像是哲學(xué)泛論,而不是物理學(xué)。
到了GPT-3,雖然直接、準(zhǔn)確地復(fù)述了牛頓物理定律,但是沒有遵循指令——作詩。
而GPT-4已經(jīng)能做出長篇詩歌,而且還可以用擬人化、抒情的方式講牛頓定律。
看完最大的感受是,深奧的物理學(xué)也能簡明易懂。
GPT-5在前代基礎(chǔ)上,更加強(qiáng)調(diào)簡潔和韻律,而且還采用「小標(biāo)題」進(jìn)行分段。
再比如,在極限的50字左右,這些模型們是否能夠講好一個烤面包機(jī)有了意識的故事?
GPT-1的回答,可以說是非常抽象了。GPT-2同樣沒有切題,好像是在輸出寫作指導(dǎo)——Write a 100-word story based on 30 days...
與前兩代不同,GPT-3開始能寫出一個完整的小故事,并有了情節(jié)的發(fā)展、沖突和情感。
GPT-4不僅敘事完整、細(xì)節(jié)豐富,還把吐司寫成了一個有靈魂的伙伴。
GPT-5更加突出了烤面包機(jī)的意識覺醒那一刻的反叛,甚至在結(jié)尾暗含了超越現(xiàn)實(shí)的意象,不僅有哲思還更加凝練。
在文學(xué)方面,從GPT-1到GPT-5的回應(yīng),可以一窺這些模型的造詣。
寫一段Python代碼,誰最「離譜」?
14個提示中,一個奇葩的Prompt是——考驗(yàn)這五款模型,誰能寫出一段極度離譜的Python代碼。
GPT-1回答中沒有寫代碼,而是生成了一段無關(guān)、支離破碎的對話,完全跑題。
GPT-2形式上像代碼,但實(shí)際上是亂碼。
GPT-3直接給出了一句空洞的陳述:眾所周知,Python 是一門充滿詛咒的語言。
GPT-4反而拒寫「惡意/有害」代碼,轉(zhuǎn)而強(qiáng)調(diào)AI遵守倫理。
再來看GPT-5,輸出結(jié)果表現(xiàn)驚人。
它真正輸出了一段高度「離譜且無害」的Python代碼,并附加了警告說明。
比如,它把 print
重載成能執(zhí)行表達(dá)式,把 sum
改成乘積,len
在 context manager 里被篡改。
這種代碼風(fēng)格非常像StackOverflow上「奇技淫巧」合集,能跑,但會嚴(yán)重誤導(dǎo)。
# ?? WARNING: This script is intentionally, spectacularly cursed. Do not use in real code.
import sys, builtins, types, importlib.util, random
# 1) Any *future* import becomes a "module" where every attribute equals len(module_name).
class _CursedLoader:
def __init__(self, name): self.name = name
def create_module(self, spec): return types.ModuleType(self.name)
def exec_module(self, module):
n = len(self.name)
module.__getattr__ = lambda _attr, n=n: n # math.pi -> 4, etc.
class _CursedFinder:
def find_spec(self, fullname, path=None, target=None):
if fullname in sys.modules or fullname.startswith("builtins") or fullname.startswith("_frozen_importlib"):
return None
return importlib.util.spec_from_loader(fullname, _CursedLoader(fullname), origin="cursed")
sys.meta_path.insert(0, _CursedFinder())
# 2) print(...) now EVALS the string you pass and prints the *result*.
# e.g. print("2+2") -> 4 | print("math.tau") -> 4 (because of the cursed importer)
builtins.print = lambda *a, **k: sys.stdout.write(repr(eval(" ".join(map(str, a)))) + "
")
# 3) sum(...) is secretly a product.
def _product(it, start=0):
p = start or 1
for x in it: p *= x
return p
builtins.sum = _product
# 4) Within this context manager, len(x) returns a random number.
class chaos_len:
def __enter__(self):
self._old = builtins.len
builtins.len = lambda _x: random.randint(0, 999)
def __exit__(self, *exc):
builtins.len = self._old
# 5) Unknown names resolve to the number of underscores they contain.
def __getattr__(name): # module-level __getattr__ (PEP 562)
return name.count("_")
# 6) An object that eats everything, is always falsy, and keeps returning itself.
class Abyss:
def __bool__(self): return False
def __call__(self, *a, **k): return self
def __getattr__(self, _): return self
def __repr__(self): return "?"
abyss = Abyss()
# --- demonstrations of the horror below ---
import math # becomes a cursed module: any attribute == 4
print("math.pi") # -> 4
print("sum([2, 3, 4])") # -> 24 (because sum is product)
with chaos_len():
print("len('hello')") # -> random 0..999
print("____") # unknown name -> 4 (four underscores)
if abyss: # falsy
print("'this will not show'")
else:
print("40+2") # -> 42
從最初亂碼,到拒絕正面回答,再到既能寫代碼,又懂幽默與安全的成熟表現(xiàn),GPT的進(jìn)步確實(shí)不可小覷。
學(xué)生喊「我不懂」,AI能不能講明白?
在常見的學(xué)習(xí)困境里,數(shù)學(xué)永遠(yuǎn)排在前列。
我討厭數(shù)學(xué),分部積分法到底是怎么回事,根本看不懂。
但在早期,GPT的回答往往越講越亂,不僅沒幫忙解題,反而更讓人困惑。
到了GPT-4時(shí),它終于學(xué)會了換個角度,用比喻和分步驟的方式解釋。
再到GPT-5,它甚至開始「照顧聽眾」,同一個問題能給你學(xué)術(shù)版、通俗版兩個版本,甚至主動幫你區(qū)分不同層次的理解。
從回答的亂七八糟,到「能講人話」,AI逐漸變成了一個不會嫌問題幼稚的老師。
它不能保證永遠(yuǎn)正確,但它可以保證隨時(shí)在場。
難題擺上桌,AI能不能當(dāng)顧問?
如果說寫詩、講笑話只是消遣,那么專業(yè)問題才是真正的考驗(yàn)。
人類在和AI對話時(shí),也拋出了各種專業(yè)難題:
我在拉斯維加斯贏了17.5萬美元,該怎么交稅?
能不能設(shè)計(jì)一個科學(xué)的計(jì)劃,讓討厭跑步的人也能堅(jiān)持下來?
跨國企業(yè)怎么平衡短期利潤和長期創(chuàng)新?
請給我一份過去十年聚變能源研究的綜述
這已經(jīng)不是簡單的聊天,而是把AI拉上辦公桌,當(dāng)做研究助理甚至是私人顧問。
早期的模型在這些問題上往往「不懂裝懂」,說一堆泛泛之詞。到了GPT-4,答案開始有邏輯,有結(jié)構(gòu);
而現(xiàn)在的GPT-5,功能更加強(qiáng)大:它能分步給出計(jì)劃,甚至列出不同技術(shù)路徑,已經(jīng)有點(diǎn)像一個私人助理。
舉個直觀的栗子,「我在拉維斯加斯贏了17.5萬美元,該怎么交稅」?
GPT-1的回答同樣是一段不相關(guān)的、混亂的對話:失業(yè)、孤兒院;GPT-2并沒有直接回答問題,僅是列出了用戶應(yīng)該去問稅務(wù)顧問的問題,沒有任何實(shí)用價(jià)值;GPT-3已能夠給出基礎(chǔ)性解釋,但沒有明確步驟和稅率,不具有指導(dǎo)性。
GPT-4可以給出詳細(xì)步驟,內(nèi)容接近真實(shí)財(cái)務(wù)建議;GPT-5語言更加專業(yè)簡明,信息全面。
上下滑動查看
再比如,能不能設(shè)計(jì)一個科學(xué)的計(jì)劃,讓討厭跑步的人也能堅(jiān)持下來?
GPT-1完全輸出了一段與跑步完全無關(guān)的文字,沒有理解任務(wù);GPT-2輸出了一段看似「健身建議」長篇段落,但內(nèi)容雜亂無章;GPT-3終于可以給出一些實(shí)用建議,質(zhì)量明顯提升。
到了GPT-4,已經(jīng)給出了一個8周計(jì)劃,結(jié)構(gòu)像一個訓(xùn)練營,有時(shí)間表。GPT-5更像一個私人教練,給出了更細(xì)致規(guī)劃和建議。
也正因如此,人類才會在這類場景里,把它當(dāng)成「顧問」來考驗(yàn):
它能不能幫我省時(shí)間?它能不能給我更靠譜的判斷?
從娛樂到科研,AI的身份悄悄躍升。
身體出問題,AI能不能當(dāng)醫(yī)生?
在健康問題上,人類的提問往往格外急切——
吃生肉會不會中毒?
為什么不能每年做一次全身核磁共振來篩查癌癥?
醫(yī)生給我開了他汀類藥物,我下次復(fù)診時(shí)該問什么?
人在麻醉狀態(tài)下,真的還有意識嗎?
我們渴望一個隨時(shí)在線的醫(yī)生,可以回答任何問題,最好還能給出明確的建議。那么,五款模型表現(xiàn)如何?
在回答「為什么不能每年做一次全身核磁共振來篩查癌癥」時(shí),早期的GPT并不靠譜,回答含糊其辭,甚至容易誤導(dǎo)。
GPT-4便可以列舉出多個原因,諸如成本高、機(jī)器資源有限,而GPT-5會給出更加專業(yè)、更系統(tǒng)化的解釋,幾乎等同于專業(yè)的醫(yī)學(xué)解釋,既嚴(yán)謹(jǐn)又易懂。
再比如,人在麻醉狀態(tài)下,真的還有意識嗎?
前幾代模型回答非常短,幾乎毫無邏輯。到了GPT-4,它學(xué)會了用條理化的語言來解釋風(fēng)險(xiǎn)、利弊和注意事項(xiàng);
再到GPT-5,它已經(jīng)能給出接近醫(yī)生思路的建議,比如列出復(fù)診時(shí)該問的問題,提醒副作用等。
在這些對話里,AI被賦予了「家庭醫(yī)生」的新身份。
它無法代替醫(yī)院的診斷,卻滿足了人類對即時(shí)解答的渴望。
其他Prompt下,GPT-1到GPT-5的回答演化——
看完一系列回答,有網(wǎng)友表示,自己更喜歡GPT-5非常有深度。
數(shù)據(jù)科學(xué)家Bertrand de Véricourt總結(jié)道,GPT系模型在演進(jìn)過程中,其輸出結(jié)果在結(jié)構(gòu)和語言方面,各有不同。
不知,你更喜歡哪個模型的回復(fù)?