Transformer作者:DeepSeek才有搞頭,OpenAI指望不上了
“閉源人工智能在阻礙我們探索真正的科學?!?/span>
說這句話的不是別人,是大名鼎鼎的Transformer發明者——Ashish Vaswani。
大佬之所以這么說,是因為他覺得OpenAI等閉源廠商被商業化沖昏了頭腦,沒心思做基礎研究。
在Scaling Law碰壁后,獨角獸們越來越搞不清技術方向。
迫于投資者壓力,不得不親自下場探索落地場景,更沒精力去搞科研了。
為了填補這塊空白,一路從Google到Adept再到Essential AI三次搬家的Vaswani,今年再度迎來巨大轉折點——
All in基礎研究,并且堅持要走開源路線。
萬萬沒想到,大佬三遷,只為打造西方世界的DeepSeek。
“我們很樂意成為西方世界的DeepSeek”
2017年,還在Google Brain工作的Vaswani與團隊共同寫出了《Attention Is All You Need》,這篇論文在5年后開啟了如今的GenAI大航海時代。
可惜的是,老東家不太給力,各種條條框框把人束縛得動彈不得,這讓Vaswani心灰意冷。
2022年,他離家出走,與Niki Parmar(Transformer八子之一)和David Luan(當時的Adept CEO)創辦了Adept AI。
可惜好景不長,據BloomBerg報道,Vaswani在Adept與某位聯合創始人爆發了一次嚴重沖突。
這次爭執讓他意識到:
只有創立一個完全屬于自己的公司,才能有絕對的自由。
于是2022年底,他再次揮手告別,拉起新團隊創立了Essential AI。
最開始,Essential AI還走的是務實派路線——主要業務就是幫企業做財務分析自動化。
結果,就在今年年初,Vaswani突然對董事會宣布:
放棄公司現有業務,并將精力全部投入基礎研究。
What???
這不是把商業模式直接推翻重來嗎?
要知道,對于一家原本服務于企業客戶的初創公司來說,這可是一個風險性極高的Bet。
出乎意料的是,董事會和資方居然都在一定程度上對Vaswani表示了支持。
參與Essential AI上一輪融資的AMD在采訪中表示:
這個路線確實有點不太尋常,但人工智能領域需要更開放的替代方案。
看來,三次遷居的努力沒有白費,Vaswani終于如愿以償,集結了一幫理念同頻的大佬。
為商業化四處奔波的這么多年,與資本和客戶打了無數次交道,Vaswani真的累了。
驀然回首,在他的精神世界中,其實一直有一塊能承載他一切美好期許的土地,這片伊甸園的名字叫做——開源。
他在Essential官網上寫道:
在教育和醫療等領域,有真正的科學需要追求,我們不能讓封閉的人工智能阻礙人類探索這些新方向。
是不是聽著很耳熟,沒錯,Vaswani在與Economics Time的采訪中直接承認了:
“短期內,我們想要成為西方世界的DeepSeek?!?/span>
Vaswani認為,要想推動AI的邊界絕不能靠OpenAI、Anthropic等依靠閉源模式盈利的獨角獸。
在他的設想里,AI不該只服務于商業,而是要真正進入教育、醫療等關乎大眾的場景,讓普通人也能享受到技術紅利。
比如,一個偏遠地區的孩子也能用開源AI上到最好的課;一個小診所也能借助開源工具做出最準確的診斷。
更重要的是,Vaswani可不光是喊口號,Essential在轉型后的確下了不少真功夫。
提出轉型后的不久,2025年4月,Essential AI團隊發表了一篇題為《Rethinking Reflection in Pre-Training》的論文。
這篇論文提出了一個顛覆性觀點:
大型語言模型的反思能力其實在預訓練階段就開始萌芽。
簡單來說,相較于用RL在后訓練打補丁,他們在預訓練中取得了突破,并且這個技術可能大幅降低訓練成本。
要真能成,那對整個開源社區絕對是大利好。
Vaswani看到了什么?
為什么Vaswani說不能把希望寄托在獨角獸公司身上?
Vaswani擔心,這些模型性能最優異的獨角獸正在阻礙人工智能進步。
有幾家公司關閉了長期的研發工作,以便將所有資源用于商業化,這種現象在市場環境惡化時更加明顯。
自Scaling Law迎來邊際收益遞減的拐點后,AI獨角獸的產品化傾向已是眾人皆知。
Anthropic做瀏覽器,OpenAI派出著名產品經理Kevin Weil…….各大模型廠商紛紛下場,親自探索商業模式。
這折射出來的一個問題是創新者窘境。
Scaling Law興起后,暴力美學的砝碼使得AI研究的天平從學術機構幾乎完全向企業實驗室傾斜。
不過,產業界雖壟斷了最稀缺的生產要素,他們真的可以All in創新嗎?
絕大多數時候不能。因為那可能燒掉幾個億,而且不一定能看到回報。
關鍵在于,無論公司成立的初衷是什么,創始人最終都得優先對投資人負責。
因此,探索商業模式和利益最大化是閉源模型的最終歸宿,這從一開始就注定了。
如今,這把熱烈的商業化之火同樣燒到了硅谷這批天之驕子身上。
今天等著小扎買買買,明天聽說OpenAI搞收購,下個月又去創業。
這種節奏很適合追熱點,但科研不一樣——要搞出突破性的成果,你得花幾年甚至十幾年死磕一個方向。
而頻繁的流動,讓團隊很難靜下心來。
Vaswani嘆息道,這不是科學應有的進步方式。
那Vaswani想要怎么做?開源陣營能夠拯救AI嗎?
老生常談的話題——人多力量大,知識共享才是推動AI技術發展的關鍵動力。
閉源公司雖手握頂級資源和技術成果,但為了維護投資人的利益,不得不把這些秘密藏起來,以阻礙競爭對手。
但如果有成千上萬的研究者和開發者一起貢獻代碼,整個生態齊心協力,并行推進,也許能克服開源陣營資源匱乏的問題。
當然,開源最重要的問題在于資金來源,畢竟咱不能總靠“用愛發電”。
對此,Vaswani參考了互聯網產品的解法:
交叉補貼大法好
什么是交叉補貼呢?
這是互聯網時代很常見的一種商業模式,典型案例就是瀏覽器:Google搜索對用戶完全免費,取得市場份額后依靠廣告回血。
簡單來說,就是一部分業務賺錢,用來補貼另一部分業務。
Vaswani對于Essential AI的計劃是這樣的:
先構建一個開源的垂直領域模型,這個基座本身不收錢。
但如果有客戶想用這個基座搭建自己的AI,可以向Essential AI購買訓練數據和相關產品。
通過這個途徑賺來的錢,正好能用來反哺開源社區。
這樣,既能保證技術開放,又能讓公司活下去。
此外,Vaswani還指出閉源不一定代表更高的投資回報率。
雖然閉源模型看起來更容易變現,但實際上也面臨巨大的成本壓力。
實際上,如果按照之前科技互聯網的發展來看,開源通常是更賺錢的一方,畢竟構建起了一整個生態。
One More Thing
最后,關于Ashish Vaswani,或許還有一點點可以多說的。
作為《Attention Is All You Need》論文的“一作”,他博士師承的兩位導師,都是華人。
在2011年的南加州大學,有兩名活躍在自然語言處理(NLP)前沿的教授——蔣偉(David Chiang)與黃亮(Liang Huang)。
他倆都是Ashish Vaswani的導師。
△圖左為蔣偉教授,圖右為黃亮教授
蔣偉教授的學士和碩士均就讀于哈佛大學,后到賓夕法尼亞大學攻讀博士,他提出的分層短語翻譯模型曾被Google Translate采用。
黃亮教授本科畢業于上海交通大學計算機系,同樣是在賓夕法尼亞大學進修的PhD,主要研究方向是開發高效算法來加速NLP任務,Vaswani是他指導的第一名博士生。
怎么說呢,雖然Transformer八子里沒有華人作者,但“功勞簿”里,也并非全然沒有華人貢獻。
這實際也是另一個維度的開源之力。AI也好、深度學習也好,之所以可以站上浪潮之巔,根本上就在于始終有一個持續交流、開放互助的生態環境。
開源是一種選擇,更是一種精神和信仰。