精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

小紅書 NoteLLM-2：用于推薦的多模態表征

發布于 2025-2-6 15:23

瀏覽

0收藏

一、背景

本文中我們繼續介紹小紅書用于多模態場景筆記推薦的 NoteLLM-2。

對應的論文為：[2405.16789] NoteLLM-2: Multimodal Large Representation Models for Recommendation [1]

二、摘要

LLM 在文本理解方面展現了卓越能力，現有研究也已探討了其在文本 Embedding 任務中的應用，然而，利用 LLM 輔助多模態表征任務的研究尚不多見。本文作者旨在探索 LLM 在多模態 Item-to-Item（I2I）推薦中增強多模態表征的潛力。

如下圖 Figure 1 所示，一種可行的方法是將多模態大模型（MLLM）遷移至表征任務中（Figure 1 下部分）。然而，預訓練 MLLM 通常需要收集高質量、大規模的多模態數據，導致訓練過程復雜且成本高昂。這使得社區高度依賴開源 MLLM，阻礙了針對特定表征場景的定制化訓練。

因此，作者設計了一種端到端的訓練方法（Figure 1 上部分），能夠整合任何現有的 LLM 與 Vision Encoder，以構建高效的多模態表征模型（Multimodal Large Representation Model，MLRM）。

小紅書 NoteLLM-2：用于推薦的多模態表征-AI.x社區

初步實驗表明，采用端到端方法微調的 LLM 往往會忽視圖像內容。為克服這一挑戰，作者提出 NoteLLM-2，專為多模態表征設計。作者提出了兩種增強視覺信息關注度的方法：

第一種基于 Prompt 視角，將多模態內容分離為視覺內容與文本內容，采用多模態 In-Content Learning（ICL）方法，指導 LLM 同時關注兩種模態并聚合關鍵信息。
第二種方法從模型架構出發，利用 Late Fusion 機制直接將視覺信息融入文本信息。

大量實驗已證實提出方法的有效性。

三、引言

3.1 問題定義

與針對文本場景的 NoteLLM 類似，NoteLLM-2 主要用于多模態 I2I Note 推薦任務。Note Pool 為 N={n1, n2, …, nm}，其中 m 表示 Note 數量。每條 Note 包含：標題（Title）、主題（Topic）、文本內容（Content）和圖像（Image）。ni=(ti, tpi, cti, vi) 表示第 i 條 Note。該任務目標是從 N 中選出與 Query Note 相似的前 k 條 Target Note。

3.2 數據集構建

和 NoteLLM 類似，采用共現（co-occurrence）機制基于用戶行為構建相關 Note 對。該機制基于一個假設：經常一起閱讀的 Note 可能是相關的。具體來說，作者統計了用戶查看 Note nA 后點擊 Note nB 的次數。同時，為了區分不同用戶共現的貢獻，為不同的點擊分配了不同的權重。具體的計算方式如下所示：

小紅書 NoteLLM-2：用于推薦的多模態表征-AI.x社區

其中 SnA -> nB 表示從 Note nA 到 Note nB 的共現得分，Nu 表示用戶 u 點擊的 Note 集合的數量。歸一化可以防止活躍用戶可能的無差別點擊而導致的誤導。在計算完所有的 Note 對共現得分后，就可以構成共現得分集合Sni：

小紅書 NoteLLM-2：用于推薦的多模態表征-AI.x社區

隨后，從集合 Sni 中過濾掉得分超過上限 up 和低于下限 low 的異常 Note。最后，從過濾后的集合中選出共現得分最高的 t 條 Note，作為與 Note ni 的相關 Note。

作者從平臺獲取了一個真實世界的多模態 I2I 數據集。從兩周內收集的用戶行為數據中隨機選取相關 Note 對，用于構建訓練數據集。訓練數據集中 10% Note 對用于驗證集。然后，從接下來一周的 Note 中隨機選取，形成測試集的 Note Pool，排除任何已存在于訓練數據集中的 Note。訓練集包含 150 萬條 Note 和 110 萬對 Note 對。測試數據集包含 50 萬條 Note 和 2.1 萬對 Note 對。如下圖 Table 6 為其詳細的統計信息：

小紅書 NoteLLM-2：用于推薦的多模態表征-AI.x社區

為更準確地評估 MLRM 的多模態表征能力，而非過度依賴文本模態，作者在測試數據集中收集了包含簡短 Note 的配對數據。將 Token 長度少于 50 的 Note 定義為 Short Note，這類 Note 約占測試 Note 總數的 10%。并進一步分類：

將包含短 Query Note 的對定義為Short Query Pair，數量為 5620 對。
將包含短 Target Note 的對定義為Short Target Pair，數量為 5582 對。
PS：如果 Query 和 Target Note 都比較短，那么該 Note 對會同時位于兩個類別中？

3.3 Note 壓縮提示構建

和 NoteLLM 類似，Note 壓縮 Prompt 如下圖所示，只不過多了 <IMG> placeholer，在實際使用時需要替換為對應的 Vision Embedding：

小紅書 NoteLLM-2：用于推薦的多模態表征-AI.x社區

四、方案

作者發現未經 Pretrain 而 End2End 訓練的 MLRM 表現欠佳，主要原因在于 LLM 處理后容易忽略 Vision 信息。因此，作者的設計更加關注 Vision 信號，為此，作者提出 NoteLLM-2，該框架包含兩種從不同角度考量的方法：

第一種：從 Prompt 視角出發，稱為mICL。此方法通過調整 Prompt 來改變對 Vision 信息的 Attention 模式。
第二種：從模型架構角度出發，將 Late Fusion 與 Vision Prompt 相結合。通過延遲 Vision 信息的融合，增強 Vision 信息對最終 Representation 的影響。

改進后的整體框架如下圖 Figure 2(b) 所示。具體而言，給定 Note ni，mICL 機制并不嘗試將多模態信息壓縮為一個單一 Token，而是將多模態 Note 拆分為兩種模態。隨后，采用類似于 ICL 的方式來聚合多模態信息：

小紅書 NoteLLM-2：用于推薦的多模態表征-AI.x社區

作者將 Note 壓縮 Prompt 重新表述成如下所示，其中 <IMG_EMB> 是一個特殊 Token：

小紅書 NoteLLM-2：用于推薦的多模態表征-AI.x社區

在利用 LLM 處理多模態 Embedding 后：

選擇相關的 Hidden State 來表示 Note，記作 nvi。由于 Decoder 的 Causal Attention 機制，nvi 僅包含 Note 的 Vision 信息。
同時選取最后一個 Token 的 Hidden State 作為多模態 Note Representation，記作 nmi，包含 Vision 和文本信息。

Late Fusion 機制采用原始 Vision Embedding 來增強 Note Embedding，這避免了因 LLM 空間導致的文本偏差，并融入更多原始 Vision 信息。其中的 Vis Emb 是通過 Vision Encoder 對整幅圖提取的視覺特征，比如 CLIP ViT-B 中 [CLS] Token 對應的 Hidden State。隨后采用線性層將這些特征轉換到 LLM 空間，記作 v ? ?ht，采用相同的門控機制，將原始 Vision 信息融合進兩個 Note Embedding 中：

小紅書 NoteLLM-2：用于推薦的多模態表征-AI.x社區

其中小紅書 NoteLLM-2：用于推薦的多模態表征-AI.x社區和表示融合的 Note Embedding。[?,?] 表示連接操作，而 ?? 和 ?? 是可學習的參數。⊙ 是逐元素乘積。

接下來，采用兩個融合的 Embedding 進行對比學習，如下所示：

小紅書 NoteLLM-2：用于推薦的多模態表征-AI.x社區

小紅書 NoteLLM-2：用于推薦的多模態表征-AI.x社區

其中小紅書 NoteLLM-2：用于推薦的多模態表征-AI.x社區是來自 Vision Note Embedding 的損失，而是來自多模態 Note Embedding 的損失。最終損失的計算方式如下：

小紅書 NoteLLM-2：用于推薦的多模態表征-AI.x社區

其中 α 是超參數。在評估中，我們使用小紅書 NoteLLM-2：用于推薦的多模態表征-AI.x社區作為 Note Embedding，其包含多模態信息。

五、實驗&結論

5.1 實驗配置

在構建相關 Note 對時，將共現分數的上限 up 設定為 30，下限 low 設定為 0.01，并將 t 值設為 3。為了遵守 Contex 長度限制，對超過 20 個 Token 的標題進行截斷，對超過 80 個 Token 的內容進行截斷。在微調實驗中，為了公平比較，添加了一個線性 Projector，將 Note Embedding 的維度降至 64。Batch Size B 設置為 128（在 8 x 80GB A100 上訓練，每個 GPU Batch Size 為 16），每 Batch 包含 256 條 Note。溫度參數 ε 初始化為 3。更多訓練超參數如下圖 Table 7 所示，訓練中使用 DeepSpeed Zero-3 訓練（由于 Qwen-VL-Chat 每個圖像有 256 個 Vision Embedding，因此在 32 x 80GB A100 訓練，每個 GPU 的 Batch Size 為 4）：

小紅書 NoteLLM-2：用于推薦的多模態表征-AI.x社區

為了評估 MLRM 的表征能力，作者根據 Query Note 的內容對 Note Pool 中的所有 Note（不包括Query Note）進行排序。并根據 Target Note 在排序列表中的位置計算召回率。在測試數據集上報告 All Pair、Shore Query Pair 和 Short Target Pair 的 Recall@100、Recall@1k 和 Recall@10k。

5.2 微調的 MLRM 的多模態表征性能

使用幾個開源的 MLLM 進行 zero-shot 實驗，如下圖 Table 10 所示，發現 zero-shot 不足以使 MLLM 適應表征任務，其性能甚至比基線 BM25（The Probabilistic Relevance Framework: BM25 and Beyond Contents [2]）還要差，因此有必要對 MLLM 進行微調以用于表征任務。

小紅書 NoteLLM-2：用于推薦的多模態表征-AI.x社區

作者設計了三種端到端的 MLRM 來檢驗表征訓練方法：

MTomato-Base：使用 Tomato（作者基于 LLaMA 2Continuous Pretraining 的 LLM，其缺乏視覺感知能力）作為 LLM，CLIP ViT-B作為 Vision Encoder，以及一個隨機初始化的Q-Former作為 Connector，以提高效率。
MQwen-Base：使用Qwen-Chat替換 MTomato-Base 中的 Tomato。
MQwen-bigG：使用ViT-bigG替換 MQwen-Base 中的 CLIP ViT-B。

如下圖 Table 9 所示為不同模型詳細的配置以及推理速度對比：

小紅書 NoteLLM-2：用于推薦的多模態表征-AI.x社區

作者將這些模型的 Vision Embedding 長度設置為 16，以提高效率。為了進行比較，選擇兩種預訓練的 MLLM：BLIP-2 和 Qwen-VL-Chat 進行對比。這些模型中的所有 Vision Encoder 都被凍結以支持更大的 Batch Size。

結果下圖 Table 1 所示，可以觀察到：

首先，基于 LLM 的 MLRM 顯著優于現有基線。All Pair 評估中，Qwen-VL-Chat 在 R@100 上相比傳統的 METER Co-attn 取得 10.78%（78.54/68.22）的提升。
其次，端到端的訓練表征方法可以增強模型的多模態表示能力。All Pair 評估中，MQwen-bigG 相比 Qwen-Chat 在 R@100 上提高 6.31%（77.64/73.03）。
然而，當 Vision Encoder 很小，例如 CLIP ViT-B 時，多模態感知的增強并不明顯（73.03 -> 74.02）。
最后，盡管使用相同的 Vision Encoder 和 LLM，MQwen-bigG 比 Qwen-VL-Chat 更有效率（上圖 Table 9 的11.5 ->35.2/36.8），但性仍然存在差距（下圖最后兩行）。

小紅書 NoteLLM-2：用于推薦的多模態表征-AI.x社區

5.3 性能評估

作者在三種 MLRM 上對 NoteLLM-2 的所有組件進行實驗，以驗證方法的有效性。此外，還進行了消融研究——僅采用 Late Fusion 策略，即僅通過 Late Fusion 整合圖像與文本信息，而不將圖像 Embedding 輸入至 LLM。

實驗結果如圖 Table 3 所示：

首先，Vision Encoder 相對較小時，NoteLLM-2顯著提升 MTomato-Base 和 MQwen-Base 的整體性能。
同時，NoteLLM-2主要增強了 MQwen-bigG 在 Short Pair上的表現。
其次，mICL 提升了所有模型的性能，而Late Fusion 在 Vision Encoder 較小的模型中效果更為顯著。
此外，僅采用Late Fusion是一種直接且高效的融合方式，但在 Vision Encoder 能力更強時可能成為限制，因為它可能無法充分有效地與 LLM 交互，導致性能下降。
最后，MQwen-bigG 結合 NoteLLM-2 的表現仍不及 Qwen-VL-Chat，特別是在 Short 對方面。作者認為這歸因于MQwen-bigG（16 個 Vision Token）與Qwen-VL-Chat（256 個 Vision Token）在 Vision Token 個數上的顯著差異。

小紅書 NoteLLM-2：用于推薦的多模態表征-AI.x社區

5.4 增強型 MLRM 的顯著性評分

為進一步探究 NoteLLM-2 對 MLRM 的影響，作者展示了增強型 MLRM 在顯著性分數上的差異。原始微調方法的顯著性分數為 Sv、St 和 So，而增強微調方法的顯著性分數為

小紅書 NoteLLM-2：用于推薦的多模態表征-AI.x社區、和。作者將視覺 Note 壓縮 Token 視為 Vision Embedding Ev 的一部分。

實驗結果如下圖 Figure 4 所示，所有增強型 MLRM 的表征均強化了對圖像的直接關注，同時在淺層減少了對 So 的重視，而 St 則基本保持不變。這一現象歸因于 mICL 采用相同的壓縮 Prompt 對兩種模態進行壓縮，通過識別圖像信息中的相似壓縮模式，mICL 能夠增強多模態表征對圖像的集中度，這與 ICL 的作用機制相似。

小紅書 NoteLLM-2：用于推薦的多模態表征-AI.x社區

5.5 超參分析

作者使用 MTomato-Base 進行超參數分析實驗。

視覺 Token 長度的影響，如下圖 Table 4 所示。將長度從 16 縮減至 8，在 Short Pair 任務中性能有所下降，表明視覺 Token 長度與推理速度之間存在性能權衡。

小紅書 NoteLLM-2：用于推薦的多模態表征-AI.x社區

文本與視覺損失比例的影響，如下圖 Table 5 所示。當比例較小時，性能略有下降；但隨著比例增大，發現對文本與視覺損失比例的變化表現出不敏感性。

小紅書 NoteLLM-2：用于推薦的多模態表征-AI.x社區

六、參考鏈接

https://arxiv.org/abs/2405.16789
https://www.staff.city.ac.uk/~sbrp622/papers/foundations_bm25_review.pdf

本文轉載自 ??AI閑談??，作者： AI閑談

標簽

贊

收藏

回復

舉報

回復

相關推薦

中科院等：8項測試第一，遠超知乎豆瓣小紅書

Crystalcxt ? 4830瀏覽 ? 0回復
檢索增強型多模態思維鏈推理用于大型語言模型

AIRoobt ? 4565瀏覽 ? 0回復
Web2Code：適用于多模態大模型的大規模網頁轉代碼數據集與評估框架

sbf_2000 ? 5589瀏覽 ? 0回復
南理工&InstantX&小紅書發布CSGO:簡單高效的端到端風格遷移框架

angel ? 3750瀏覽 ? 0回復
小紅書開源StoryMaker：個性化圖像生成模型，實現角色一致性與背景變化的完美結合

angel ? 8477瀏覽 ? 0回復
多階段對比學習+多專家CLIP實現細粒度多模態表征學習

海因斯DK ? 5894瀏覽 ? 0回復
Cephalo：專門用于仿生設計的多模態視覺大型語言模型

魯班模錘1 ? 3932瀏覽 ? 0回復
多模態大模型Qwen2的深入了解

一起AI技術 ? 5330瀏覽 ? 0回復
Jina CLIP v2：為多模態RAG設計的向量模型

kede96 ? 4818瀏覽 ? 0回復
淺看大模型用于Text2SQL的綜述

大模型自然語言處理 ? 4573瀏覽 ? 0回復
適用于多圖的多模態大模型：粗粒度離散表征+細粒度連續表征提升圖像編碼準確性

海因斯DK ? 4474瀏覽 ? 0回復
InternLM-XComposer2.5-OmniLive：用于長期流媒體視頻和音頻交互的綜合多模態人工智能系統

Halo咯咯 ? 3393瀏覽 ? 0回復
Qwen 團隊發布 QvQ：用于多模態推理的開放權重模型

Halo咯咯 ? 3696瀏覽 ? 0回復
Google 發布了用于視頻生成的最先進的“Veo 2”和用于圖像創建的“Improved Imagen 3”

Halo咯咯 ? 3051瀏覽 ? 0回復
小紅書翻譯緊急上線，見證歷史：大模型翻譯首次上線C端應用！AI竟自稱是GPT-4?

51CTO技術棧 ? 3398瀏覽 ? 0回復
小紅書 NoteLLM：用于筆記推薦和標簽生成的 LLM

amei2000go ? 7952瀏覽 ? 0回復
Agno框架介紹：用于構建多模態智能體的輕量庫

51CTO內容精選 ? 2785瀏覽 ? 0回復
MTBench：用于金融時序推理和回答的多模態時間序列基準

靈度智能 ? 2290瀏覽 ? 0回復
PaRT：小紅書團隊讓AI平均對話時長顯著提升21.77%

大語言模型論文跟蹤 ? 2642瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

阿里云 SkeletonHunter：診斷與定位大模型訓練中的網絡故障 4天前發布
Delta AI 集群的 GPU 故障分析和刻畫 2025-08-18 06:41:57發布

熱門推薦

智能體主流框架深度研究報告：功能特性、用戶群體、技術架構與商業化路徑分析 0回復

一鍵搞定補幀+上色！神器ToonComposer讓動畫“動”起來、“靚”起來！效率飆升！ 1回復

2025年AI Builder 工具箱：20個開源神器讓你效率飆升 0回復

邁向 Agent 時代的第一步！DeepSeek-V3.1 重磅發布，多維度升級超驚艷，開啟智能推理新體驗 0回復

刷爆AI圈！字節Waver 1.0，統一視頻生成新里程碑！ 0回復

上一篇：小紅書 NoteLLM：用于筆記推薦和標簽生成的 LLM

下一篇：綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關鍵結論

社區精華內容

目錄

主站蜘蛛池模板：文登市| 米脂县| 武安市| 彰化县| 明光市| 扬中市| 溆浦县| 沂源县| 华亭县| 金门县| 綦江县| 霸州市| 临洮县| 莱西市| 平果县| 和田县| 牙克石市| 分宜县| 古蔺县| 秀山| 正宁县| 景宁| 郸城县| 濮阳县| 岳普湖县| 昌平区| 沁水县| 黄龙县| 自贡市| 龙江县| 绥棱县| 梧州市| 凉城县| 瑞金市| 子洲县| 五华县| 安岳县| 章丘市| 临猗县| 宁夏| 盐山县|