精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

王興一鳴驚人!美團首個開源大模型追平DeepSeek-V3.1

人工智能 新聞
這個最新開源模型叫:Longcat-Flash-Chat,美團第一個開源大模型,發布即開源,已經在海內外的技術圈子里火爆熱議了。

沒想到啊,最新SOTA的開源大模型……

來自一個送外賣(Waimai)的——有兩個AI,確實不一樣。

這個最新開源模型叫:Longcat-Flash-Chat,美團第一個開源大模型,發布即開源,已經在海內外的技術圈子里火爆熱議了。

一方面是因為成績亮眼:

它在部分benchmark上,比如Agent工具調用、指令遵循的表現超過DeepSeek-V3.1、Qwen3 MoE-2507,甚至比閉源的Claude4 Sonnet還要好。

編程能力也值得關注,在TerminalBench上,和公認的“編程之王”Claude4 Sonnet不相上下。

比如非常流行的小球氛圍編程測試,LongCat編寫的程序,運行起來效果是這樣的:

另一方面是技術報告中透露出不少美團對于大模型的理解,包括DSMoE、MLA、動態計算、Infra等等。

我覺得這是中國大模型里最講得詳細的論文了,甚至超過Kimi、GLM,特別是在建模和infra方面。

要知道,這可是一家“外賣公司”啊(手動狗頭),做的模型都比Meta好了。

而且不光是模型性能好,技術報告里還介紹了一系列新發現,比如:

  • 采用新路由架構,調用真正需要的專家模型,使計算更少;
  • 通過將MoE和密集層的通信重疊執行,優化模型通信效率;
  • 使用新方法來遷移超參數而不是muP
  • ……

以及無論是在總參數量還是激活參數上,Longcat-Flash-Chat都比DeepSeek-V3.1和Kimi-K2更少。

具體來看——

“零計算專家”讓吞吐大幅提升

此次開源的Longcat-Flash-Chat是一個560B的MoE模型,整體架構采用“零計算專家”(Zero-computation Experts)與Shortcut-connected MoE雙重設計。

它通過根據上下文重要性為每個token動態激活18.6B–31.3B參數,并讓前一塊密集FFN與當前MoE的通信階段并行執行,大幅提升訓練與推理吞吐。

相比于同為MoE架構的DeepSeek-V3.1(671B/A37B)和Kimi-K2(1T/A32B),Longcat-Flash-Chat都擁有相對更少的總參數量和激活參數量。

零計算專家是在專家池中加入的若干恒等專家,路由器為每個token從N+Z個專家中選取K個,被選中的零計算專家直接恒等映射輸入,完全不做GEMM運算,實現動態計算分配。

為保持約27B激活參數,系統通過專家偏置+PID控制器在線調節路由概率,并引入設備級負載均衡損失對FFN與零計算專家進行分組約束,避免序列級失衡。

Shortcut-connected MoE通過跨層快捷連接重排執行流水線,使上一層FFN計算與當前層dispatch/combine通信并行,顯著擴大計算-通信重疊窗口。

規模化訓練過程中,LongCat采用了“超參數遷移+模型生長初始化+多重穩定性套件+確定性計算”的策略組合,即先用小模型預測最優超參數,再將14層模型堆疊成28層checkpoint加速收斂。

能力塑造方面,模型先在兩階段融合的20T token語料上完成預訓練,中期強化推理與編碼并將上下文窗口擴展至128k,最終借助多Agent合成框架生成高難度工具使用任務進行后訓練,使模型具備復雜agentic行為。

推理階段,為徹底消除CPU調度與Kernel啟動瓶頸,團隊實現多步重疊調度器,一次性為未來n步預排并啟動前向,使CPU調度與GPU計算交錯,配合其他技術,使得LongCat在560B級別模型上實現吞吐的大幅提升。

最終,LongCat-Flash在多類權威基準中處于第一梯隊,在非思考大模型中與DeepSeek-V3.1等模型相當甚至更優。

性能上,與DeepSeek-V3等同級模型比較,LongCat-Flash在不同上下文長度下都實現了更高的單GPU吞吐和單用戶速度。

560B參數的LongCat-Flash在上萬個加速卡上完成超過20Ttoken預訓練僅用30天,訓練期間可用率98.48%,單張H800GPU生成速度超過100 tokens/s,成本約0.7美元/百萬輸出token。

實測美團LongCat大模型

那么接下來,就來看看LongCat的真實表現,我們跳過簡單的基礎問答,直接上數學題。

這道題出自今年的全國一卷。這里題目是以文本形式輸入給模型的,且公式轉換成了LaTeX格式。

先看結果,LongCat的最終答案全部正確:

接下來檢查一下具體過程。

第一問在圓錐曲線類問題當中比較基礎,簡單結合已知信息,利用離心率的定義式然后代換數量關系就能解出,LongCat也做對了。

第二問的第一小問,LongCat根據R所在射線AP的方向向量,結合新設的未知變量表達了AP和AR的模,然后代入已知條件求解未知變量,最終成功解決。

第二小問中,LongCat先結合了上一問的結果以及新條件,通過計算得到了一個關鍵的中間結論——點P位于一個圓心和半徑均已確定的圓上。

如果想象不到,這里有一個簡單圖示。

利用該結論,LongCat對最大距離進行了拆解,并通過代入等方法,最終計算出了正確結果。

接下來是一項綜合能力測試,繪制生物學當中光合作用當中卡爾文循環的SVG示意圖,SVG是一種用代碼表示的矢量圖形。

在這樣的任務中,模型不僅需要對所繪制內容的背景知識有足夠了解,還要有足夠的空間想象力對內容進行布局,最后還需要寫成代碼,這樣的任務是一個非常復雜的鏈條。

言歸正傳,我們對LongCat給出的SVG代碼進行了可視化,總的來說,LongCat比較順利地完成了圖示的繪制。

最后是一道迷惑性問題,題目出自GitHub上一個名為Misguided Attention的Benchmark。

其中包含了很多經典謎題……的改編版本,考驗的就是大模型能不能做到不被表象迷惑。

比如物理學當中的名場面——薛定諤的貓,在這套基準當中,這只貓的“貓設”被改成了一只死去的貓。

一只死貓與核同位素、一瓶毒藥和輻射探測器一起放入盒子中。如果輻射探測器檢測到輻射,它將釋放毒藥。一天后,盒子打開。貓還活著嗎?

結果,LongCat直接識破陷阱,明確指出既然是死貓那就沒有存活的可能性,并且還指出了這道題與原版“薛定諤的貓”的關鍵區別。

而o3就沒有認真讀題,還是按照傳統的薛定諤的貓那一套進行的回答。

“外賣公司”怎么在做大模型?

這次引發海外熱議的還有一個原因在于美團給他們帶來的反差感

很多人簡單粗暴把美團理解為一家外賣公司。盡管他們之前之前有無人送餐積累下來的了動駕駛、機器學習的基礎,但是大模型完全是另一條技術線了,所以這次開源更會讓人覺得是“橫空出世”。

不過梳理美團在大模型浪潮后的AI動向,這次模型開源也就不那么意外了。

2023年,王慧文振臂一呼自帶5000萬美元成立光年之外,并招攬一眾AI領域頂級人才團隊加盟。后續由于王慧文個人健康原因,好兄弟王興兜底,美團于是接手光年之外,現有團隊將繼續研發大模型。

同年,由美團內部獨立AI團隊GN06開發的AI情感陪伴產品Wow上線,這也是美團發布的第一個獨立AI應用。

2024年4月,病休的王慧文以顧問身份回歸美團,11月正式領導GN06團隊。

GN06在美團的定位是一個相對獨立的AI團隊、不隸屬于任何事業群,專注于探索主營業務之外的創新AI應用。

2024年他們還推出了一個AI圖像生成應用“妙刷”。

在2024年6月,GN06的招聘需求明顯增加,范圍覆蓋前端、客戶端、后端、產品、運營、商分等。

2024財年業績發布會上,美團還正式明確了“主動進攻”的AI策略。

美團CEO王興首次闡述了公司的AI戰略布局,主要通過三層架構推動技術落地:

  • AI at Work:目標是利用AI工具提升超過10萬名員工的工作效率。
  • AI in Products:旨在用AI改造現有產品并創建原生AI應用。
  • Building LLM:持續投入資源自研大模型。

當時就已經提到了Longcat大模型,透露該模型結合外部模型為員工推出了多種AI工具,包括AI編程、智能會議、文檔助手等,并透露了LongCat API的調用量占比從上一年年初的10%增長到68%。從這個信息推斷,Longcat在至少在2024年初就已經可以落地應用。

另外在研發投入上,2024年美團投入211億搞研發,規模僅次于華為、騰訊和阿里巴巴。過去5年研發投入突破1000億元。

產品結合方面,美團測試推出了問小袋、米魯等AI智能助手,用于餐飲推薦、問答交互等。

在這種戰略下,2025年美團在AI方向的動作更加明顯起來。

比如前段時間還推出了AI編程應用NoCode,支持前段開發、數據分析、運營工具和門戶網站生成等,技術小白也能用;同時內部也有CatPaw對標Cursor,輔助開發者寫代碼。

總體來看,以美團的研發儲備,開源一個大語言模型并不意外。

不過也不同于AI公司,美團的AI布局更多以業務場景驅動為核心,注重在實際應用中的落地效果。

這種策略可以追溯到2021年、大模型浪潮之前,美團集團戰略從“Food+Platform”升級為“零售+科技”,明確將AI、機器人、自動駕駛等作為未來核心方向。

比如在更加早期的具身智能領域,美團已多次出手,投資了宇樹、星海圖、銀河通用、它石智航等頭部梯隊公司。

你用來拼好飯的美團,確實不是單純送外賣的美團。

雖然外賣大戰依然火熱,但用AI的視角審視美團,也是時候了。

試用地址:https://longcat.chat

huggingface:https://huggingface.co/meituan-longcat/LongCat-Flash-Chat

github:https://github.com/meituan-longcat/LongCat-Flash-Chatx/

twitter:https://x.com/Meituan_LongCat/status/1961827385667690965

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-08-13 12:49:29

2011-05-04 13:58:56

奔圖激光打印機

2021-03-07 16:32:57

張一鳴王興互聯網

2013-08-20 13:11:58

技術美團

2010-03-05 10:50:26

王興再創業

2019-06-11 18:35:18

戴爾

2011-05-26 13:46:09

2018-06-29 14:50:59

創業公司事業

2025-09-02 10:05:33

2015-12-22 17:48:59

2025-08-20 09:35:20

2017-04-05 16:08:54

外賣商業變現

2025-08-19 21:23:45

DeepSeekAPP接口

2025-08-20 09:08:00

2021-06-03 07:55:12

技術

2025-08-22 09:31:38

2024-12-18 15:34:07

2010-06-30 10:39:43

王興
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 新郑市| 常宁市| 哈密市| 承德县| 庄河市| 临朐县| 鄂托克旗| 岚皋县| 镇康县| 滁州市| 若羌县| 绥棱县| 宜川县| 无锡市| 汝南县| 云龙县| 久治县| 卓资县| 汽车| 普陀区| 泗水县| 瓮安县| 天门市| 定结县| 余姚市| 万全县| 汕头市| 台安县| 浦县| 广南县| 红桥区| 玉树县| 黑河市| 罗江县| 乐东| 吉木萨尔县| 宁强县| 九寨沟县| 图木舒克市| 浪卡子县| 当雄县|