精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

小紅書 NoteLLM-2:用于推薦的多模態表征

發布于 2025-2-6 15:23
瀏覽
0收藏

一、背景

本文中我們繼續介紹小紅書用于多模態場景筆記推薦的 NoteLLM-2。

對應的論文為:[2405.16789] NoteLLM-2: Multimodal Large Representation Models for Recommendation [1]

二、摘要

LLM 在文本理解方面展現了卓越能力,現有研究也已探討了其在文本 Embedding 任務中的應用,然而,利用 LLM 輔助多模態表征任務的研究尚不多見。本文作者旨在探索 LLM 在多模態 Item-to-Item(I2I)推薦中增強多模態表征的潛力。

如下圖 Figure  1 所示,一種可行的方法是將多模態大模型(MLLM)遷移至表征任務中(Figure 1 下部分)。然而,預訓練 MLLM 通常需要收集高質量、大規模的多模態數據,導致訓練過程復雜且成本高昂。這使得社區高度依賴開源 MLLM,阻礙了針對特定表征場景的定制化訓練。

因此,作者設計了一種端到端的訓練方法(Figure 1 上部分),能夠整合任何現有的 LLM 與 Vision Encoder,以構建高效的多模態表征模型(Multimodal Large Representation Model,MLRM)。

小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區

初步實驗表明,采用端到端方法微調的 LLM 往往會忽視圖像內容。為克服這一挑戰,作者提出 NoteLLM-2,專為多模態表征設計。作者提出了兩種增強視覺信息關注度的方法:

  • 第一種基于 Prompt 視角,將多模態內容分離為視覺內容與文本內容,采用多模態 In-Content Learning(ICL)方法,指導 LLM 同時關注兩種模態并聚合關鍵信息。
  • 第二種方法從模型架構出發,利用 Late Fusion 機制直接將視覺信息融入文本信息。

大量實驗已證實提出方法的有效性。

三、引言

3.1 問題定義

與針對文本場景的 NoteLLM 類似,NoteLLM-2 主要用于多模態 I2I Note 推薦任務。Note Pool 為 N={n1, n2, …, nm},其中 m 表示 Note 數量。每條 Note 包含:標題(Title)、主題(Topic)、文本內容(Content)和圖像(Image)。ni=(ti, tpi, cti, vi) 表示第 i 條 Note。該任務目標是從 N 中選出與 Query Note 相似的前 k 條 Target Note。

3.2 數據集構建

和 NoteLLM 類似,采用共現(co-occurrence)機制基于用戶行為構建相關 Note 對。該機制基于一個假設:經常一起閱讀的 Note 可能是相關的。具體來說,作者統計了用戶查看 Note nA 后點擊 Note nB 的次數。同時,為了區分不同用戶共現的貢獻,為不同的點擊分配了不同的權重。具體的計算方式如下所示:

小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區

其中 SnA -> nB 表示從 Note nA 到 Note nB 的共現得分,Nu 表示用戶 u 點擊的 Note 集合的數量。歸一化可以防止活躍用戶可能的無差別點擊而導致的誤導。在計算完所有的 Note 對共現得分后,就可以構成共現得分集合Sni:

小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區

隨后,從集合 Sni 中過濾掉得分超過上限 up 和低于下限 low 的異常 Note。最后,從過濾后的集合中選出共現得分最高的 t 條 Note,作為與 Note ni 的相關 Note。

作者從平臺獲取了一個真實世界的多模態 I2I 數據集。從兩周內收集的用戶行為數據中隨機選取相關 Note 對,用于構建訓練數據集。訓練數據集中 10% Note 對用于驗證集。然后,從接下來一周的 Note 中隨機選取,形成測試集的 Note Pool,排除任何已存在于訓練數據集中的 Note。訓練集包含 150 萬條 Note 和 110 萬對 Note 對。測試數據集包含 50 萬條 Note 和 2.1 萬對 Note 對。如下圖 Table 6 為其詳細的統計信息:

小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區

為更準確地評估 MLRM 的多模態表征能力,而非過度依賴文本模態,作者在測試數據集中收集了包含簡短 Note 的配對數據。將 Token 長度少于 50 的 Note 定義為 Short Note,這類 Note 約占測試 Note 總數的 10%。并進一步分類:

  • 將包含短 Query Note 的對定義為Short Query Pair,數量為 5620 對。
  • 將包含短 Target Note 的對定義為Short Target Pair,數量為 5582 對。
  • PS:如果 Query 和 Target Note 都比較短,那么該 Note 對會同時位于兩個類別中?

3.3 Note 壓縮提示構建

和 NoteLLM 類似,Note 壓縮 Prompt 如下圖所示,只不過多了 <IMG> placeholer,在實際使用時需要替換為對應的 Vision Embedding:

小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區

四、方案

作者發現未經 Pretrain 而 End2End 訓練的 MLRM 表現欠佳,主要原因在于 LLM 處理后容易忽略 Vision 信息。因此,作者的設計更加關注 Vision 信號,為此,作者提出 NoteLLM-2,該框架包含兩種從不同角度考量的方法:

  • 第一種:從 Prompt 視角出發,稱為mICL。此方法通過調整 Prompt 來改變對 Vision 信息的 Attention 模式。
  • 第二種:從模型架構角度出發,將 Late Fusion 與 Vision Prompt 相結合。通過延遲 Vision 信息的融合,增強 Vision 信息對最終 Representation 的影響。

改進后的整體框架如下圖 Figure 2(b) 所示。具體而言,給定 Note ni,mICL 機制并不嘗試將多模態信息壓縮為一個單一 Token,而是將多模態 Note 拆分為兩種模態。隨后,采用類似于 ICL 的方式來聚合多模態信息:

小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區

作者將 Note 壓縮 Prompt 重新表述成如下所示,其中 <IMG_EMB> 是一個特殊 Token:

小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區

在利用 LLM 處理多模態 Embedding 后:

  • 選擇相關的 Hidden State 來表示 Note,記作 nvi。由于 Decoder 的 Causal Attention 機制,nvi 僅包含 Note 的 Vision 信息。
  • 同時選取最后一個 Token 的 Hidden State 作為多模態 Note Representation,記作 nmi,包含 Vision 和文本信息。

Late Fusion 機制采用原始 Vision Embedding 來增強 Note Embedding,這避免了因 LLM 空間導致的文本偏差,并融入更多原始 Vision 信息。其中的 Vis Emb 是通過 Vision Encoder 對整幅圖提取的視覺特征,比如 CLIP ViT-B 中 [CLS] Token 對應的 Hidden State。隨后采用線性層將這些特征轉換到 LLM 空間,記作 v ? ?ht,采用相同的門控機制,將原始 Vision 信息融合進兩個 Note Embedding 中:

小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區

其中 小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區表示融合的 Note Embedding。[?,?] 表示連接操作,而 ?? 和 ?? 是可學習的參數。⊙ 是逐元素乘積。

接下來,采用兩個融合的 Embedding 進行對比學習,如下所示:

小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區

小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區

其中小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區是來自 Vision Note Embedding 的損失,而小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區是來自多模態 Note Embedding 的損失。最終損失的計算方式如下:

小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區

其中 α 是超參數。在評估中,我們使用 小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區作為 Note Embedding,其包含多模態信息。

五、實驗&結論

5.1 實驗配置

在構建相關 Note 對時,將共現分數的上限 up 設定為 30,下限 low 設定為 0.01,并將 t 值設為 3。為了遵守 Contex 長度限制,對超過 20 個 Token 的標題進行截斷,對超過 80 個 Token 的內容進行截斷。在微調實驗中,為了公平比較,添加了一個線性 Projector,將 Note Embedding 的維度降至 64。Batch Size B 設置為 128(在 8 x 80GB A100 上訓練,每個 GPU Batch Size 為 16),每 Batch 包含 256 條 Note。溫度參數 ε 初始化為 3。更多訓練超參數如下圖 Table 7 所示,訓練中使用 DeepSpeed Zero-3 訓練(由于 Qwen-VL-Chat 每個圖像有 256 個 Vision Embedding,因此在 32 x 80GB A100 訓練,每個 GPU 的 Batch Size 為 4):

小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區

為了評估 MLRM 的表征能力,作者根據 Query Note 的內容對 Note Pool 中的所有 Note(不包括Query Note)進行排序。并根據 Target Note 在排序列表中的位置計算召回率。在測試數據集上報告 All Pair、Shore Query Pair 和 Short Target Pair 的 Recall@100、Recall@1k 和 Recall@10k。

5.2 微調的 MLRM 的多模態表征性能

使用幾個開源的 MLLM 進行 zero-shot 實驗,如下圖 Table 10 所示,發現 zero-shot 不足以使 MLLM 適應表征任務,其性能甚至比基線 BM25(The Probabilistic Relevance Framework: BM25 and Beyond Contents [2]) 還要差,因此有必要對 MLLM 進行微調以用于表征任務。

小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區

作者設計了三種端到端的 MLRM 來檢驗表征訓練方法:

  • MTomato-Base:使用 Tomato(作者基于 LLaMA 2Continuous Pretraining 的 LLM,其缺乏視覺感知能力)作為 LLM,CLIP ViT-B作為 Vision Encoder,以及一個隨機初始化的Q-Former作為 Connector,以提高效率。
  • MQwen-Base:使用Qwen-Chat替換 MTomato-Base 中的 Tomato。
  • MQwen-bigG:使用ViT-bigG替換 MQwen-Base 中的 CLIP ViT-B。

如下圖 Table 9 所示為不同模型詳細的配置以及推理速度對比:

小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區

作者將這些模型的 Vision Embedding 長度設置為 16,以提高效率。為了進行比較,選擇兩種預訓練的 MLLM:BLIP-2 和 Qwen-VL-Chat 進行對比。這些模型中的所有 Vision Encoder 都被凍結以支持更大的 Batch Size。

結果下圖 Table 1 所示, 可以觀察到:

  • 首先,基于 LLM 的 MLRM 顯著優于現有基線。All Pair 評估中,Qwen-VL-Chat 在 R@100 上相比傳統的 METER Co-attn 取得 10.78%(78.54/68.22) 的提升。
  • 其次,端到端的訓練表征方法可以增強模型的多模態表示能力。All Pair 評估中,MQwen-bigG 相比 Qwen-Chat 在 R@100 上提高 6.31%(77.64/73.03)。
  • 然而,當 Vision Encoder 很小,例如 CLIP ViT-B 時,多模態感知的增強并不明顯(73.03 -> 74.02)。
  • 最后,盡管使用相同的 Vision Encoder 和 LLM,MQwen-bigG 比 Qwen-VL-Chat 更有效率(上圖 Table 9 的11.5 ->35.2/36.8),但性仍然存在差距(下圖最后兩行)。

小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區

5.3 性能評估

作者在三種 MLRM 上對 NoteLLM-2 的所有組件進行實驗,以驗證方法的有效性。此外,還進行了消融研究——僅采用 Late Fusion 策略,即僅通過 Late Fusion 整合圖像與文本信息,而不將圖像 Embedding 輸入至 LLM。

實驗結果如圖 Table 3 所示:

  • 首先,Vision Encoder 相對較小時,NoteLLM-2顯著提升 MTomato-Base 和 MQwen-Base 的整體性能。
  • 同時,NoteLLM-2主要增強了 MQwen-bigG 在 Short Pair上的表現。
  • 其次,mICL 提升了所有模型的性能,而Late Fusion 在 Vision Encoder 較小的模型中效果更為顯著。
  • 此外,僅采用Late Fusion是一種直接且高效的融合方式,但在 Vision Encoder 能力更強時可能成為限制,因為它可能無法充分有效地與 LLM 交互,導致性能下降。
  • 最后,MQwen-bigG 結合 NoteLLM-2 的表現仍不及 Qwen-VL-Chat,特別是在 Short 對方面。作者認為這歸因于MQwen-bigG(16 個 Vision Token)與Qwen-VL-Chat(256 個 Vision Token)在 Vision Token 個數上的顯著差異。

小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區

5.4 增強型 MLRM 的顯著性評分

為進一步探究 NoteLLM-2 對 MLRM 的影響,作者展示了增強型 MLRM 在顯著性分數上的差異。原始微調方法的顯著性分數為 Sv、St 和 So,而增強微調方法的顯著性分數為

小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區、小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區。作者將視覺 Note 壓縮 Token 視為 Vision Embedding Ev 的一部分。

實驗結果如下圖 Figure 4 所示,所有增強型 MLRM 的表征均強化了對圖像的直接關注,同時在淺層減少了對 So 的重視,而 St 則基本保持不變。這一現象歸因于 mICL 采用相同的壓縮 Prompt 對兩種模態進行壓縮,通過識別圖像信息中的相似壓縮模式,mICL 能夠增強多模態表征對圖像的集中度,這與 ICL 的作用機制相似。

小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區

5.5 超參分析

作者使用 MTomato-Base 進行超參數分析實驗。

視覺 Token 長度的影響,如下圖 Table 4 所示。將長度從 16 縮減至 8,在 Short Pair 任務中性能有所下降,表明視覺 Token 長度與推理速度之間存在性能權衡。

小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區

文本與視覺損失比例的影響,如下圖 Table 5 所示。當比例較小時,性能略有下降;但隨著比例增大,發現對文本與視覺損失比例的變化表現出不敏感性。

小紅書 NoteLLM-2:用于推薦的多模態表征-AI.x社區

六、參考鏈接

  1. https://arxiv.org/abs/2405.16789
  2. https://www.staff.city.ac.uk/~sbrp622/papers/foundations_bm25_review.pdf

本文轉載自 ??AI閑談??,作者: AI閑談

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 文登市| 米脂县| 武安市| 彰化县| 明光市| 扬中市| 溆浦县| 沂源县| 华亭县| 金门县| 綦江县| 霸州市| 临洮县| 莱西市| 平果县| 和田县| 牙克石市| 分宜县| 古蔺县| 秀山| 正宁县| 景宁| 郸城县| 濮阳县| 岳普湖县| 昌平区| 沁水县| 黄龙县| 自贡市| 龙江县| 绥棱县| 梧州市| 凉城县| 瑞金市| 子洲县| 五华县| 安岳县| 章丘市| 临猗县| 宁夏| 盐山县|