美團首個開源大模型正式發(fā)布!LongCat-Flash-Chat能否撼動AI格局?
美團正式發(fā)布并開源了自己的首個大語言模型——LongCat-Flash-Chat。
說實話,這個消息讓我挺意外的。美團,這個我們天天用來點外賣、叫車的平臺,突然宣布要在AI大模型領(lǐng)域正面挑戰(zhàn)OpenAI、Anthropic這些巨頭。更讓人意外的是,他們不僅發(fā)布了,還直接開源了。
9月1日,美團技術(shù)團隊正式發(fā)布并開源了LongCat-Flash-Chat模型,這標志著美團從AI應(yīng)用場景的使用者,正式轉(zhuǎn)身成為AI基礎(chǔ)技術(shù)的貢獻者。
圖片
技術(shù)亮點
LongCat-Flash-Chat最大的技術(shù)亮點在于在架構(gòu)層面引入 “零計算專家(Zero-Computation Experts)” 機制,總參數(shù)量 560 B,每個 token 依據(jù)上下文需求僅激活 18.6B~31.3 B 參數(shù),實現(xiàn)算力按需分配和高效利用。
為控制總算力消耗,訓(xùn)練過程采用 PID 控制器實時微調(diào)專家偏置,將單 token 平均激活量穩(wěn)定在約 27 B。
此外,LongCat-Flash 在層間鋪設(shè)跨層通道,使 MoE 的通信和計算能很大程度上并行,極大提高了訓(xùn)練和推理效率。
配合定制化的底層優(yōu)化,LongCat-Flash 在 30 天內(nèi)完成高效訓(xùn)練,并在 H800 上實現(xiàn)單用戶 100+ tokens/s 的推理速度。LongCat-Flash 還對常用大模型組件和訓(xùn)練方式進行了改進,使用了超參遷移和模型層疊加的方式進行訓(xùn)練,并結(jié)合了多項策略保證訓(xùn)練穩(wěn)定性,使得訓(xùn)練全程高效且順利。
美團的AI野心:從外賣到通用智能
其實,美團涉足AI大模型并不突然。早在幾年前,美團就在內(nèi)部大量應(yīng)用AI技術(shù)來優(yōu)化配送路徑、提升搜索推薦效果、智能客服等業(yè)務(wù)場景。
我翻了翻美團技術(shù)團隊的歷年論文,發(fā)現(xiàn)他們在機器學(xué)習(xí)、深度學(xué)習(xí)領(lǐng)域已經(jīng)積累了不少技術(shù)成果。從搜索推薦算法到配送系統(tǒng)的運籌優(yōu)化,從計算機視覺到自然語言處理,美團技術(shù)團隊的研究覆蓋面相當廣泛。
特別值得注意的是,美團在2022年就開始探索粗排優(yōu)化的深度學(xué)習(xí)方法,通過知識蒸餾和對比學(xué)習(xí)來聯(lián)動精排與粗排,這些技術(shù)積累為今天的大模型研發(fā)打下了堅實基礎(chǔ)。
不過,從垂直領(lǐng)域的AI應(yīng)用跨越到通用大語言模型,這中間的技術(shù)鴻溝還是很大的。美團選擇在這個時點發(fā)力,我覺得有幾個原因:
? 業(yè)務(wù)需求驅(qū)動 - 美團需要更智能的對話系統(tǒng)來處理復(fù)雜的用戶咨詢
? 技術(shù)積累到位 - 多年的AI應(yīng)用經(jīng)驗讓團隊具備了做大模型的能力
? 開源生態(tài)布局 - 通過開源獲得更大的技術(shù)影響力和開發(fā)者社區(qū)
開源策略的深層考量
美團選擇開源這個模型,我覺得背后的考量挺有意思的。
首先,開源能夠快速建立技術(shù)影響力。在AI大模型這個賽道,技術(shù)實力的展示比什么宣傳都有效。通過開源,美團能夠讓更多開發(fā)者接觸和使用他們的技術(shù),形成技術(shù)品牌效應(yīng)。
其次,開源有助于技術(shù)迭代。大模型的訓(xùn)練和優(yōu)化需要海量的反饋數(shù)據(jù),開源社區(qū)能夠提供這樣的數(shù)據(jù)來源。這對美團來說,是一個低成本獲得大規(guī)模測試的好方法。
最后,也是最現(xiàn)實的一點,美團可能認為在大模型的商業(yè)化路徑上,API服務(wù)比模型本身更有價值。開源模型能夠吸引更多開發(fā)者,進而為美團的AI基礎(chǔ)設(shè)施服務(wù)導(dǎo)流。
總的來說,美團這次發(fā)布LongCat-Flash-Chat,展現(xiàn)了一種務(wù)實的技術(shù)路線。他們沒有盲目追求參數(shù)規(guī)模或者性能跑分,而是專注于解決實際應(yīng)用中的效率問題。這種思路在當前的AI發(fā)展階段,可能比追求極致性能更有實用價值。
至于這個模型能否在激烈的競爭中站穩(wěn)腳跟,我覺得關(guān)鍵還是看后續(xù)的迭代速度和生態(tài)建設(shè)。畢竟在AI這個賽道,技術(shù)領(lǐng)先只是第一步,能不能形成可持續(xù)的競爭優(yōu)勢,還需要更多時間來驗證。