高質量多模態(tài)訓練數據生成思路-SynthVLM 原創(chuàng)
針對高質量、精確對齊的圖像 - 文本對稀缺,提出一種新的數據生成管道 SynthVLM ,用于生成圖像 - caption 對:SynthVLM - 100K,并通過微調模型,SynthVLM-100K 上預訓練的模型就超越了依賴 LLaVA - 558K 的基準方法,方法簡單直接,下面看看。
方法
SynthVLM通過兩個步驟構建高質量的圖像-文本數據集:
SynthVLM 數據合成方法的流水線如下:首先,篩選高質量的圖像-標題對;接著,合成高質量數據,并依據 CLIP 得分進行后續(xù)篩選。
1、合成數據集構建
- 數據來源:為確保caption的多樣性,結合了人工生成和模型生成的caption。人工生成的caption主要來自LAION、CC和SBU,模型生成的caption則利用BLIP2對DataComp數據集中的圖像重新生成。
- caption篩選:為保證數據集質量,先去除低質量caption,如廣告、重復描述和語法錯誤較多的內容。篩選過程借助ChatGPT,并結合N-grams、Perplexity等統計指標,僅保留高質量、信息豐富的caption用于訓練。接著,計算這些caption及其相應原始圖像的CLIPScore,選擇得分前40%的圖像-caption對,組成100萬caption的候選集,此步驟有效減少了存儲開銷和處理時間。
- 圖像生成:在篩選出100萬高質量caption后,使用Stable Diffusion XL(SDXL)模型生成圖像。SDXL能夠高效生成高質量、高分辨率(1024x1024)的圖像,有效解決了現有數據集圖像分辨率低的問題,提升了訓練數據的質量和實用性。
2、合成數據選擇
- 評估指標:為更好地確保圖像與文本描述的對齊,繼續(xù)使用CLIPScore評估圖像與文本的對齊程度。由于生成的圖像分辨率為1024×1024,需調整為336×336以適配CLIP模型,這一過程可能導致圖像質量損失,因此引入結構相似性指數(SSIM)來衡量圖像質量。最終,通過加權求和的方式將CLIPScore和SSIMScore結合,如下:
λ設為0.5以平衡兩者的貢獻。
- 數據篩選:對100萬合成的圖像-caption對計算CLIPScore和SSIMScore,選擇得分最高的10萬對,這些對代表了圖像和caption之間最準確、有意義的匹配,從而構建出高質量、高度對齊的合成數據集。
用于字幕過濾的指標與提示
實驗性能
參考文獻:SynthVLM: Towards High-Quality and Efficient Synthesis of Image-Caption Datasets for Vision-Language Models,https://arxiv.org/pdf/2407.20756
本文轉載自??大模型自然語言處理?? 作者:llmnlp
?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-8-14 10:17:10修改
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦