精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

普林斯頓大學提出首個基于MoE的稀疏時序預測大模型，參數量擴展到2.4billion

發布于 2024-9-29 15:24

瀏覽

0收藏

今天給大家介紹一篇普林斯頓大學提出的時間序列大模型工作，是首個基于MoE的百萬級別參數時間序列大模型，將時序大模型參數量擴展到2.4billion的水平，在多個數據集上取得了顯著優于其他時間序列大模型的效果。

普林斯頓大學提出首個基于MoE的稀疏時序預測大模型，參數量擴展到2.4billion-AI.x社區

論文標題：TIME-MOE: BILLION-SCALE TIME SERIES FOUNDATION MODELS WITH MIXTURE OF EXPERTS

下載地址：https://arxiv.org/pdf/2409.16040v1

1、背景

時間序列大模型是目前的一個研究熱點，很多工作都利用大量的時間序列數據訓練專屬于時間序列領域的大模型。但是，仍然有很多大模型領域的研究問題在時間序列大模型領域中沒有得到深入研究。例如大模型中已經有一些基于MoE的稀疏模型結構取得顯著效果，但是在時間序列領域還沒有這方面研究。此外，時間序列大模型也面臨著靈活性、可擴展性等問題。

為了解決這些問題，本文提出基于MoE的稀疏時間序列大模型，將參數量擴展到例2.4billion，取得了顯著的效果提升。下面介紹一篇Time-MoE的模型結構。

2、建模方法

Time-MoE主要包括4個核心模塊：輸入Embedding處理、MoE結構、多分辨率建模、訓練數據和損失函數。

在輸入Embedding的處理上，區別于現在主流的PatchTST等patch粒度的時序建模方法（滑動窗口劃分子序列過MLP生成Embedding），Time-MoE采用了點維度的Embedding生成方法，以最大程度保留完整的時序信息輸入后續模型。時間序列中的每個數據點，通過SwiGLU生成Embedding。SwiGLU是目前LLaMa等大語言模型的Embedding生成網絡結構，通過門控的形式實現對輸入信息的選擇，這里將其應用到時間序列領域。GLU和UYSwiGLU的計算公式如下：

普林斯頓大學提出首個基于MoE的稀疏時序預測大模型，參數量擴展到2.4billion-AI.x社區

在MoE結構上，Time-MoE采用MoE的結構構建稀疏網絡。整體模型結構是一個Decoder-only的生成式Transfomrer結構。將每一個FFN層替換成一個MoE網絡，實現這部分的稀疏結構，這也是語言模型中的一種稀疏化方法的引入。每個時間序列數據點會根據一個router進行各個專家的選擇，找到相應FFN子網絡進行前向傳播。

在多分辨率建模上，Time-MoE使用多個不同的輸出頭，每個輸出頭對應一個分辨率的預測結果，實現多分辨率的同時預測。

普林斯頓大學提出首個基于MoE的稀疏時序預測大模型，參數量擴展到2.4billion-AI.x社區

在訓練過程中，文中構建了包括9個domain、300billion的時間序列樣本點的數據集。損失函數使用Huber loss，這是一種MSE和MAE的融合體，用來緩解MAE對于異常點的敏感性。同時，為了防止MoE的門權重都集中在少量專家上，引入復雜均衡的損失函數，控制各個門的樣本點分配比例，防止贏者通吃現象的發生。

3、實驗效果

文中在多個數據集上對比了各類時間序列大模型的效果，Time-MoE取得了顯著效果提升。

普林斯頓大學提出首個基于MoE的稀疏時序預測大模型，參數量擴展到2.4billion-AI.x社區

通過對比模型激活參數量、不同參數量下模型效果等方面，可以看出在相同參數量下，本文提出的Tim-MoE取得了比較顯著的效果提升。

普林斯頓大學提出首個基于MoE的稀疏時序預測大模型，參數量擴展到2.4billion-AI.x社區

對比Time-MoE和其他模型的預測case效果，可以看出Time-MoE的預測結果明顯優于其他方法。

普林斯頓大學提出首個基于MoE的稀疏時序預測大模型，參數量擴展到2.4billion-AI.x社區

本文轉載自??圓圓的算法筆記??，作者： Fareise ????

標簽

贊

收藏

回復

舉報

回復

相關推薦

普林斯頓數學教授，成史上首位阿貝爾獎雙料獲獎者

duhorse ? 2879瀏覽 ? 0回復
直接擴展到無限長，谷歌Infini-Transformer終結上下文長度之爭

輕薄滴假象 ? 3143瀏覽 ? 0回復
專治大模型說胡話，精確率100%！華科等提出首個「故障token」檢測/分類方法

duhorse ? 2937瀏覽 ? 0回復
基于MoE的通用圖像融合模型，添加2.8%參數完成多項任務

輕薄滴假象 ? 3217瀏覽 ? 0回復
單個4090可推理，2000億稀疏大模型「天工MoE」開源

輕薄滴假象 ? 3073瀏覽 ? 0回復
Meta NLLB團隊：將神經機器翻譯擴展到200種語言，問鼎Nature！

AIGC最前線 ? 4870瀏覽 ? 0回復
清華推出首個通用城市時空預測模型UniST，零樣本場景開箱即用｜KDD2024

Crystalcxt ? 3660瀏覽 ? 0回復
《奇點更近了》作者再預言：2045年，智能將擴展到100萬倍

duhorse ? 3312瀏覽 ? 0回復
時間序列預測+NLP大模型新作：為時序預測自動生成隱式Prompt

海因斯DK ? 4510瀏覽 ? 0回復
為什么將RAG擴展到生產環境如此困難？

丟翅膀的魚 ? 2817瀏覽 ? 0回復
清華大學最新發布：統一時序預測模型，上下文長度首次擴展至千級別，適用各類數據集

海因斯DK ? 5737瀏覽 ? 0回復
“左腳踩右腳”提升文生圖模型綜合能力！清北牛津普林斯頓聯合發布IterComp

angel ? 3835瀏覽 ? 0回復
清華大學NeurIPS'24：時序大模型AutoTimes，結合In-context Learning提升預測效果

海因斯DK ? 7203瀏覽 ? 0回復
HunYuan MoE：聊一聊 LLM 參數量、計算量和 MFU 等

sbf_2000 ? 9327瀏覽 ? 0回復
HunYuan MoE：聊一聊 LLM 參數量、計算量和 MFU 等

amei2000go ? 4945瀏覽 ? 0回復
是時候接受真實世界的檢驗啦！UCLA&谷歌提出首個評估生成視頻物理常識數據集VideoPhy

angel ? 3821瀏覽 ? 0回復
8卡32B模型超越o1預覽版、DeepSeek V3，普林斯頓、北大提出層次化RL推理新范式

輕薄滴假象 ? 2819瀏覽 ? 0回復
時序+圖像+文本，多模態增強的時序預測模型

海因斯DK ? 9894瀏覽 ? 0回復
時序Pattern提取+語義對齊增強基于LLM的時序預測效果

海因斯DK ? 4711瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

搜索場景下的相關性和效率聯合建模方法 2025-08-15 06:45:30發布
DeepSeek-R1簡明解析：從DeepSeek-V3到DeepSeek-R1，LLM是如何實現自我進化的？ 2025-07-31 00:47:43發布

熱門推薦

智能體主流框架深度研究報告：功能特性、用戶群體、技術架構與商業化路徑分析 0回復

一鍵搞定補幀+上色！神器ToonComposer讓動畫“動”起來、“靚”起來！效率飆升！ 1回復

2025年AI Builder 工具箱：20個開源神器讓你效率飆升 0回復

邁向 Agent 時代的第一步！DeepSeek-V3.1 重磅發布，多維度升級超驚艷，開啟智能推理新體驗 0回復

刷爆AI圈！字節Waver 1.0，統一視頻生成新里程碑！ 0回復

上一篇：一文總結特征增強&個性化在CTR預估中的經典方法和效果對比

下一篇：時序預測數據處理新方法匯總：多粒度和頻域的可逆歸一化

社區精華內容

目錄

主站蜘蛛池模板：灵宝市| 新河县| 固镇县| 五峰| 万年县| 平遥县| 焉耆| 平塘县| 青岛市| 府谷县| 峨眉山市| 安化县| 车险| 泽普县| 玉林市| 湾仔区| 永昌县| 屏东县| 博野县| 阳山县| 思南县| 兴国县| 山东| 卫辉市| 锡林郭勒盟| 鄱阳县| 卢氏县| 石楼县| 哈尔滨市| 北辰区| 三都| 孟津县| 庐江县| 乐昌市| 平武县| 汝城县| 建始县| 怀安县| 嵩明县| 汝南县| 阳曲县|