精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

在開源模型上復(fù)現(xiàn)類似OpenAI o3的“thinking-with-image”能力:Mini-o3淺嘗 原創(chuàng)

發(fā)布于 2025-9-11 09:13
瀏覽
0收藏

VLMs已具備調(diào)用圖像中心工具的能力,稱為“thinking-with-image”(以圖思考),通過支持細(xì)粒度推理提升模型對(duì)復(fù)雜視覺場(chǎng)景的理解能力。然而,開源VLMs在“需要試錯(cuò)探索的復(fù)雜視覺搜索任務(wù)”中存在顯著短板,表現(xiàn)兩大問題:

  1. 復(fù)雜任務(wù)上準(zhǔn)確率極低
    高難度視覺搜索數(shù)據(jù)集熵(如DeepEyes)的準(zhǔn)確率遠(yuǎn)低于實(shí)際應(yīng)用需求。
  2. 推理模式單一 + 交互輪次有限
    現(xiàn)有開源模型(如DeepEyes)無法生成靈活的推理策略,僅能進(jìn)行“單次定位-觀察”的簡(jiǎn)單流程,而無法像OpenAI o3(閉源模型)那樣,采用“深度優(yōu)先搜索”“試錯(cuò)探索”“自我反思”等多樣化策略。例如,在尋找圖像中隱藏的小目標(biāo)時(shí),開源模型往往“一次裁剪錯(cuò)誤即終止”,而o3會(huì)“回溯至原始圖像、嘗試其他區(qū)域、交叉驗(yàn)證觀察結(jié)果”。在開源模型上復(fù)現(xiàn)類似OpenAI o3的“thinking-with-image”能力:Mini-o3淺嘗-AI.x社區(qū)
  3. 不同交互回合數(shù)下正確軌跡的分布情況。Mini-o3 展現(xiàn)出更深層次的思考路徑和更強(qiáng)的性能表現(xiàn)。盡管在訓(xùn)練階段上限較小(即 6 回合),其仍表現(xiàn)出測(cè)試時(shí)回合數(shù)的縮放特性:當(dāng)最大回合數(shù)從 4 增加到 32 時(shí),準(zhǔn)確率持續(xù)上升。

下面看下這份“復(fù)現(xiàn)OpenAI o3風(fēng)格行為”的技術(shù)食譜,包括數(shù)據(jù)集構(gòu)建、數(shù)據(jù)收集 pipeline、強(qiáng)化學(xué)習(xí)優(yōu)化策略三部分。

方法

Mini-o3 的交互遵循 “Thought(思考)-Action(動(dòng)作)-Observation(觀察) ” 循環(huán),直到輸出最終答案或達(dá)到上下文 / 輪次限制。

在開源模型上復(fù)現(xiàn)類似OpenAI o3的“thinking-with-image”能力:Mini-o3淺嘗-AI.x社區(qū)

多輪 Agentic 圖像工具調(diào)用框架:在每一輪中,模型基于前一次的觀察(或輸入問題和圖像)迭代生成思考和動(dòng)作。每一輪的觀察結(jié)果是根據(jù)相應(yīng)動(dòng)作所指示的參數(shù)獲取的。

  • Thought(T?) :模型基于歷史交互記錄(含輸入圖像、問題、過往觀察)生成的內(nèi)部推理過程,用于指導(dǎo)下一步動(dòng)作。核心目標(biāo)是鼓勵(lì)“試錯(cuò)探索”“回溯驗(yàn)證”等多樣化推理模式,而非單一路徑。
  • Action(A?)  : 模型執(zhí)行的具體操作,分為兩類:

     a.??bbox_2d??:歸一化邊界框(范圍[0,1]2),指定裁剪區(qū)域;

     b.??source??:操作對(duì)象,可選擇“原始圖像”或“歷史觀察結(jié)果”(支持跨輪次回溯)。

(1)Grounding:通過參數(shù)化指令調(diào)用圖像工具,裁剪特定區(qū)域。參數(shù)包括:

(2)輸出最終答案:當(dāng)模型判斷已獲取足夠信息時(shí),直接返回結(jié)果。

  • Observation(O?) : 執(zhí)行Action后得到的環(huán)境反饋,即工具裁剪后的圖像 patch。該結(jié)果會(huì)被追加到交互歷史中,作為下一輪推理的輸入。

因此得出循環(huán)邏輯:用戶輸入(圖像+問題)→ 模型生成Thought→ 執(zhí)行Action→ 獲得Observation→ 基于新歷史再次生成Thought→ …→ 輸出答案/終止。

兩階段訓(xùn)練范式

為平衡“基礎(chǔ)能力初始化”與“復(fù)雜推理優(yōu)化”,Mini-o3分階段訓(xùn)練:

  • 階段1:SFT:讓模型掌握“合法的多輪交互軌跡生成能力”,即學(xué)會(huì)根據(jù)問題和圖像,生成符合邏輯的Thought-Action-Observation序列,避免無意義的工具調(diào)用或過早終止。
  • 階段2:帶可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR):在SFT基礎(chǔ)上,通過強(qiáng)化學(xué)習(xí)優(yōu)化模型的推理策略,提升復(fù)雜任務(wù)的成功率(如需要10+輪交互的視覺搜索)。

訓(xùn)練數(shù)據(jù)構(gòu)建

為解決現(xiàn)有視覺數(shù)據(jù)集任務(wù)簡(jiǎn)單、無法激發(fā)復(fù)雜推理的痛點(diǎn),構(gòu)建兩類數(shù)據(jù):“挑戰(zhàn)性任務(wù)數(shù)據(jù)集”與“多樣化交互軌跡數(shù)據(jù)集”。

設(shè)計(jì)邏輯:

現(xiàn)有開源模型推理能力薄弱的關(guān)鍵原因之一是:訓(xùn)練數(shù)據(jù)多為“目標(biāo)易定位、無需試錯(cuò)”的簡(jiǎn)單任務(wù)(如HR-Bench),模型僅需“單次圖像觀察”即可輸出答案,無需發(fā)展多輪推理策略。因此,Mini-o3的訓(xùn)練數(shù)據(jù)構(gòu)建圍繞兩大需求展開:

  1. 任務(wù)層面:提供“必須通過試錯(cuò)探索才能完成”的高難度視覺搜索任務(wù),迫使模型主動(dòng)調(diào)用圖像工具進(jìn)行多輪交互;
  2. 軌跡層面:提供“覆蓋多樣化推理策略”的多輪交互范例,幫助基座模型(Qwen2.5-VL-7B-Instruct)初始化“Thought-Action-Observation”循環(huán)能力。
兩類數(shù)據(jù)集情況
  1. 視覺探針數(shù)據(jù)集

在開源模型上復(fù)現(xiàn)類似OpenAI o3的“thinking-with-image”能力:Mini-o3淺嘗-AI.x社區(qū)

為強(qiáng)化學(xué)習(xí)RL提供“需要試錯(cuò)探索的挑戰(zhàn)性任務(wù)”,避免模型在簡(jiǎn)單任務(wù)上形成“shortcut學(xué)習(xí)”(如直接定位目標(biāo),無需多輪推理),強(qiáng)制模型發(fā)展深度推理能力。任務(wù)形式:每條樣本為“高分辨率圖像+視覺搜索問題+標(biāo)準(zhǔn)答案”,例如:

  • 圖像:包含密集干擾物的集裝箱場(chǎng)景(分辨率7952×5304);
  • 問題:“‘67.200’下方的數(shù)字是什么?”;
  • 標(biāo)準(zhǔn)答案:“22G1”。

作用:為后續(xù)訓(xùn)練提供需要復(fù)雜推理的任務(wù)基礎(chǔ),確保強(qiáng)化學(xué)習(xí)階段模型能學(xué)到“試錯(cuò)探索”“回溯驗(yàn)證”等高級(jí)策略,而非簡(jiǎn)單的“目標(biāo)定位”能力。

  1. 多樣化冷啟動(dòng)數(shù)據(jù)集

在開源模型上復(fù)現(xiàn)類似OpenAI o3的“thinking-with-image”能力:Mini-o3淺嘗-AI.x社區(qū)

冷啟動(dòng)數(shù)據(jù)采集pipline

解決基座模型(Qwen2.5-VL-7B-Instruct)的“能力初始化”問題:該模型未接觸過多輪圖像工具交互數(shù)據(jù),直接用強(qiáng)化學(xué)習(xí)訓(xùn)練會(huì)導(dǎo)致“軌跡過短”“推理模式單一”(如平均僅1輪交互)。因此,需通過冷啟動(dòng)數(shù)據(jù)教會(huì)模型“如何生成合法、多樣的多輪交互軌跡”。

軌跡形式:每條軌跡為“輸入圖像+問題+多輪Thought-Action-Observation序列+最終答案”,例如:

  • 問題:“‘CINKER PICTURES’下方的文本是什么?”;
  • 軌跡:11輪交互,包含“裁剪A區(qū)域(未找到)→ 回溯原始圖像→ 裁剪B區(qū)域(未找到)→ 重新檢查A區(qū)域細(xì)節(jié)→ 定位目標(biāo)”等步驟,每輪均附帶推理Thought(如“當(dāng)前區(qū)域未發(fā)現(xiàn)目標(biāo),需嘗試右側(cè)區(qū)域”)。

強(qiáng)化學(xué)習(xí)策略

  1. 降低單圖像最大像素?cái)?shù)

基座模型上下文長(zhǎng)度固定為32K tokens,而高分辨率圖像(默認(rèn)12M像素)會(huì)占用大量tokens,導(dǎo)致單輪圖像輸入后,剩余tokens僅能支持1-2輪交互,無法滿足復(fù)雜任務(wù)“多輪試錯(cuò)”的需求。

將單圖像的最大像素?cái)?shù)從12M降至2M。這一調(diào)整在不損失關(guān)鍵細(xì)節(jié)的前提下,大幅減少單輪圖像的token占用,使得32K上下文可支持6+輪交互,為試錯(cuò)探索提供足夠的軌跡長(zhǎng)度。

在開源模型上復(fù)現(xiàn)類似OpenAI o3的“thinking-with-image”能力:Mini-o3淺嘗-AI.x社區(qū)

VisualProbe-Hard數(shù)據(jù)集準(zhǔn)確率從36.1%(12M像素)提升至48.0%(2M像素),驗(yàn)證了“更多有效交互輪次”對(duì)復(fù)雜任務(wù)的價(jià)值

  1. 翻轉(zhuǎn)掩碼策略

在標(biāo)準(zhǔn)GRPO中,若模型生成的軌跡“超過訓(xùn)練輪次上限(6輪)”或“超出上下文長(zhǎng)度”(即“超輪次軌跡”),會(huì)被標(biāo)記為“無效軌跡”,獎(jiǎng)勵(lì)設(shè)為0。經(jīng)過獎(jiǎng)勵(lì)歸一化后,這類軌跡會(huì)產(chǎn)生Negative Advantage,導(dǎo)致模型在訓(xùn)練中被“懲罰”,進(jìn)而傾向于“過早終止交互”(如3-4輪就輸出答案),抑制深度推理能力。

通過引入“Completion Mask”,對(duì)超輪次軌跡的損失進(jìn)行“掩碼屏蔽”,避免其產(chǎn)生負(fù)向?qū)W習(xí)信號(hào):

在開源模型上復(fù)現(xiàn)類似OpenAI o3的“thinking-with-image”能力:Mini-o3淺嘗-AI.x社區(qū)

翻轉(zhuǎn)掩碼技術(shù)示意圖。不完整響應(yīng)指的是超出交互輪次或上下文長(zhǎng)度最大限制的響應(yīng)

在開源模型上復(fù)現(xiàn)類似OpenAI o3的“thinking-with-image”能力:Mini-o3淺嘗-AI.x社區(qū)

如上圖,引入“Completion Mask”效果:訓(xùn)練時(shí)僅限制6輪,但測(cè)試時(shí)模型可自然擴(kuò)展至32輪,且準(zhǔn)確率隨輪次增加而提升。

性能

在開源模型上復(fù)現(xiàn)類似OpenAI o3的“thinking-with-image”能力:Mini-o3淺嘗-AI.x社區(qū)

在開源模型上復(fù)現(xiàn)類似OpenAI o3的“thinking-with-image”能力:Mini-o3淺嘗-AI.x社區(qū)

在開源模型上復(fù)現(xiàn)類似OpenAI o3的“thinking-with-image”能力:Mini-o3淺嘗-AI.x社區(qū)

參考文獻(xiàn):Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search,https://arxiv.org/pdf/2509.07969v1

本文轉(zhuǎn)載自??大模型自然語言處理??   作者:llmnlp

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-9-11 09:44:36修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 太康县| 鄯善县| 罗定市| 庆阳市| 盐山县| 休宁县| 吕梁市| 蓝田县| 湖口县| 苏尼特右旗| 阳朔县| 铜山县| 山西省| 营山县| 德令哈市| 锡林浩特市| 江安县| 揭东县| 万年县| 纳雍县| 丰顺县| 含山县| 梓潼县| 罗田县| 桐庐县| 广平县| 礼泉县| 莱西市| 河东区| 昌吉市| 淮滨县| 皮山县| 徐汇区| 久治县| 朝阳市| 邵阳市| 岳阳市| 洛阳市| 旬阳县| 仁布县| 科技|