聚焦結構化注意力,探索提升多模態大模型文檔問答性能
本文聚焦多模態大語言模型(MLLMs)在文檔問答(DocQA)任務中的性能提升,提出無需改動模型架構或額外訓練的結構化輸入方法,通過保留文檔層次結構與空間關系(如標題、表格、圖像位置)優化理解能力。研究發現,傳統無結構OCR輸入導致注意力分散,性能下降,而 LaTeX 范式結構化輸入顯著提升表現。注意力分析揭示其誘導“結構化注意力”,減少無關區域干擾,聚焦語義核心。在MMLongBench、PaperTab等四個數據集上驗證,該方法尤其在復雜圖表任務中效果顯著,為智能文檔處理與自動問答提供高效的解決方案。
01、引言
多模態大語言模型(Multimodal Large Language Models, MLLMs)蓬勃發展的今天,文檔理解(Document Understanding)作為一項涉及文本、圖表和圖像的復雜任務,依然面臨諸多挑戰。如何高效整合多源信息、理解文檔的層次結構,成為提升 MLLMs 性能的關鍵問題。研究發現了一種無需修改模型架構或額外訓練的新方法:僅通過結構化輸入提升 MLLMs在文檔問答(DocQA)任務中的表現,同時通過注意力分析實踐探尋結構化輸入帶來性能提升的深層原因。
02、文檔理解的核心挑戰
文檔理解要求模型同時處理文本、圖表、圖像等多模態信息,并準確回答問題。然而,現有方法多依賴于擴展上下文窗口或優化檢索增強生成(RAG),忽略了一個關鍵問題:輸入格式如何影響模型的理解能力?
研究發現,傳統的無結構 OCR 文本輸入在某些case下未提升模型性能,反而因注意力分散和結構丟失導致性能下降。例如,在 MMLongBench 數據集上,加入無結構 OCR 文本后,模型準確率從 0.389 下降至 0.370。
當前主流多模態大模型已經具備處理多模態信息的能力,其中Qwen2.5-VL-7B-Instruct,Phi-3.5-Vision-Instruct,SmolVLM-Instruct等在多個多模態任務上達到了SOTA,但在文檔閱讀任務中仍表現不佳。以往文檔閱讀模型通過訓練得到專用模型來進行文檔閱讀理解,并基于文檔回答問題,如mPLUG-DocOwl,Textmonkey等模型。但隨著RAG的快速發展,像ColBERT 和ColPali 這樣的RAG方法在分別檢索文本或視覺信息方面已被證明有效,當前主流方法通常基于RAG檢索證據頁面,然后將證據信息直接輸入多模態大模型中以便回答DocQAs。但當問題需要整合來自兩種模態的信息時,它們通常表現不佳。
隨著通用大模型的發展和AGI概念的普及,如何直接利用通用多模態大模型達到目的,不額外進行訓練成為研究熱點。改變輸入結構能否幫助多模態大模型進行高效推理為本文探討的重點。本文致力于探尋通用多模態大模型在何種條件下能夠具有更加高效的推理理解能力,能否具備在trainning free的條件下達到較高的多元素文檔理解能力。
03、創新方法
結構化輸入與注意力分析
為解決這一問題,提出了一種基于 LaTeX 范式的結構保留方法。該方法通過保留文檔的層次結構和空間關系(如標題、表格、圖像的位置),從而為模型提供更清晰的語義引導。
具體流程包括:
- 結構化編碼:將 OCR 文本和圖像輸入 MLLMs,提示模型盡可能保留圖表、表格和文本的結構,生成 LaTeX 格式的表示。
- 聯合輸入:將結構化文本與原始圖像一同輸入模型,指導其在回答問題時關注關鍵區域。
- 注意力分析:通過比較僅圖像輸入、圖像加無結構文本、圖像加結構化文本三種情況的注意力分布,發現結構化輸入顯著減少了注意力浪費,引導模型聚焦于語義相關的文本和圖像區域。
實驗結果表明,該方法在多個文檔理解基準數據集上顯著提升了模型性能。例如,在 MMLongBench 上,QWEN2.5-VL-7B-INSTRUCT 的準確率從 0.389 提升至 0.435;在 PaperTab 數據集上,準確率提升高達 20%,得益于 LaTeX 格式對表格和圖表的精準解析。
04、通過注意力機制進行深層原因探究
進一步的,通過注意力分析揭示了結構化輸入的內在機制。無結構文本輸入導致模型注意力分布散亂,浪費在圖像邊緣或無關區域;而結構化文本添加了結構化約束,誘導模型形成“結構化注意力”模式,聚焦于文檔的核心內容(如圖表、文本塊)。例如,在一個案例中,模型需根據圖表回答“西德居民對美俄關系的看法比例”。無結構輸入下,注意力分散在圖像空白區域;結構化輸入后,注意力集中于圖表和相關文本,顯著提高答案準確性。
結構化輸入幫助減少MLLMs對于圖片邊界token的關注度,提高了模型對于文章主體部分的注意力得分。
具體實例分析,證明結構化輸入的重要意義。
05、實驗驗證與數據支持
在四個文檔理解基準數據集(MMLongBench、LongDocUrl、PaperTab、FetaTab)上測試4種 MLLMs 模型(如 QWEN2-VL-7B-INSTRUCT、Phi-3.5-Vision-Instruct)。結果顯示,結構化輸入在所有數據集上均提升了模型性能,尤其在包含復雜圖表的 PaperTab 數據集上效果顯著。消融實驗進一步證明,僅用結構化文本或僅用圖像的性能均低于兩者結合,驗證了結構化輸入與圖像聯合使用的必要性。
06、總結與展望
實踐研究揭示了輸入格式對 MLLMs 文檔理解能力的關鍵影響,提出了一種簡單而高效的結構化輸入方法。未來可進一步探索更先進的結構提取技術或設計注意力控制插件,以進一步釋放 MLLMs 在文檔理解中的潛力。該研究提供了一種無需重訓模型即可提升性能的實用方案,適用于智能文檔處理、自動問答等場景。在沒有額外訓練和架構修改的前提下,通過簡單的結構化文本輸入,可以提升現有多模態大模型在文檔理解任務中的表現。此項研究可以幫助用戶分析、工作解析等場景中更準確地提取信息,提升工作效率。同時,RAG(檢索增強生成)系統也能結合結構化輸入來降低信息檢索中的噪聲,從而更高效地利用檢索到的證據頁面,為未來文檔處理與分析提供了新的實踐路徑。