精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

高質量多模態(tài)訓練數據生成思路-SynthVLM 原創(chuàng)

發(fā)布于 2025-8-14 07:28
瀏覽
0收藏

針對高質量、精確對齊的圖像 - 文本對稀缺,提出一種新的數據生成管道 SynthVLM ,用于生成圖像 - caption 對:SynthVLM - 100K,并通過微調模型,SynthVLM-100K 上預訓練的模型就超越了依賴 LLaVA - 558K 的基準方法,方法簡單直接,下面看看。

高質量多模態(tài)訓練數據生成思路-SynthVLM-AI.x社區(qū)

高質量多模態(tài)訓練數據生成思路-SynthVLM-AI.x社區(qū)

方法

SynthVLM通過兩個步驟構建高質量的圖像-文本數據集:

高質量多模態(tài)訓練數據生成思路-SynthVLM-AI.x社區(qū)

SynthVLM 數據合成方法的流水線如下:首先,篩選高質量的圖像-標題對;接著,合成高質量數據,并依據 CLIP 得分進行后續(xù)篩選。

1、合成數據集構建
  • 數據來源:為確保caption的多樣性,結合了人工生成和模型生成的caption。人工生成的caption主要來自LAION、CC和SBU,模型生成的caption則利用BLIP2對DataComp數據集中的圖像重新生成。
  • caption篩選:為保證數據集質量,先去除低質量caption,如廣告、重復描述和語法錯誤較多的內容。篩選過程借助ChatGPT,并結合N-grams、Perplexity等統計指標,僅保留高質量、信息豐富的caption用于訓練。接著,計算這些caption及其相應原始圖像的CLIPScore,選擇得分前40%的圖像-caption對,組成100萬caption的候選集,此步驟有效減少了存儲開銷和處理時間。
  • 圖像生成:在篩選出100萬高質量caption后,使用Stable Diffusion XL(SDXL)模型生成圖像。SDXL能夠高效生成高質量、高分辨率(1024x1024)的圖像,有效解決了現有數據集圖像分辨率低的問題,提升了訓練數據的質量和實用性。
2、合成數據選擇
  • 評估指標:為更好地確保圖像與文本描述的對齊,繼續(xù)使用CLIPScore評估圖像與文本的對齊程度。由于生成的圖像分辨率為1024×1024,需調整為336×336以適配CLIP模型,這一過程可能導致圖像質量損失,因此引入結構相似性指數(SSIM)來衡量圖像質量。最終,通過加權求和的方式將CLIPScore和SSIMScore結合,如下:高質量多模態(tài)訓練數據生成思路-SynthVLM-AI.x社區(qū)λ設為0.5以平衡兩者的貢獻。
  • 數據篩選:對100萬合成的圖像-caption對計算CLIPScore和SSIMScore,選擇得分最高的10萬對,這些對代表了圖像和caption之間最準確、有意義的匹配,從而構建出高質量、高度對齊的合成數據集。

高質量多模態(tài)訓練數據生成思路-SynthVLM-AI.x社區(qū)

用于字幕過濾的指標與提示

實驗性能

高質量多模態(tài)訓練數據生成思路-SynthVLM-AI.x社區(qū)

高質量多模態(tài)訓練數據生成思路-SynthVLM-AI.x社區(qū)

高質量多模態(tài)訓練數據生成思路-SynthVLM-AI.x社區(qū)

參考文獻:SynthVLM: Towards High-Quality and Efficient Synthesis of Image-Caption Datasets for Vision-Language Models,https://arxiv.org/pdf/2407.20756

本文轉載自??大模型自然語言處理??   作者:llmnlp

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-8-14 10:17:10修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 宝坻区| 宜昌市| 马公市| 铜陵市| 广东省| 政和县| 勃利县| 卓资县| 南通市| 集安市| 修武县| 西宁市| 德惠市| 额尔古纳市| 且末县| 石城县| 霞浦县| 鹰潭市| 房山区| 永济市| 武强县| 加查县| 定安县| 紫金县| 清河县| 饶平县| 宣汉县| 泽库县| 华阴市| 上蔡县| 连州市| 曲靖市| 丹巴县| 咸宁市| 来安县| 阳泉市| 乌鲁木齐县| 西林县| 浙江省| 留坝县| 伊金霍洛旗|