精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!

發布于 2025-8-19 09:35
瀏覽
0收藏

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

論文鏈接:https://arxiv.org/pdf/2508.10881 

項目鏈接:https://lg-li.github.io/project/tooncomposer/

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

亮點直擊

  • 后關鍵幀階段(post-keyframing stage),一種新的卡通制作范式,將中間幀補全與上色整合為一個由 AI 驅動的流程,顯著減少了人工工作量。
  • ToonComposer,首個基于 DiT 的卡通生成模型,專為后關鍵幀階段設計,結合稀疏草圖注入與區域控制功能,能夠從稀疏輸入生成高質量的卡通視頻。
  • 設計了一種基于 SLRA 的卡通適配機制,一種新穎的低秩適配策略,能夠有效調整 DiT 模型的空間行為以適應卡通領域,同時保留其時間先驗。
  • 整理了一個包含多樣草圖的卡通視頻片段數據集,開發了一個高質量的基準數據集PKBench,其中包含真實的人工繪制草圖,用于卡通后關鍵幀任務的評估。

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

ToonComposer 使用稀疏關鍵幀草圖生成的視頻樣本

總結速覽

解決的問題

  • 傳統動畫制作流程復雜且高度依賴人工,包括關鍵幀繪制、中間幀補全和上色三個階段;
  • 現有 AI 方法各階段分離處理,導致誤差累積、偽影生成,特別是在處理大幅運動和稀疏草圖輸入時效果不佳;
  • 缺乏統一、高效的生成方案,能夠在保證質量的同時減少創作負擔、提升靈活性。

提出的方案

  • 引入ToonComposer:一個統一的生成模型,將中間幀補全與上色整合為單一的后關鍵幀階段(post-keyframing stage)
  • 提出稀疏草圖注入機制:通過關鍵幀草圖實現精確控制,支持任意時間位置插入草圖以增強運動控制;
  • 構建PKBench基準數據集:包含真實人工繪制草圖,用于模擬實際使用場景并進行客觀評估。

應用的技術

  • 基于DiT(Diffusion Transformer)構建的卡通生成模型;
  • 引入空間低秩適配器(SLRA):將現代視頻基礎模型適配到卡通領域,同時保留時間建模能力;
  • 支持極稀疏輸入生成:僅需一張草圖和一幀上色參考圖即可生成完整卡通視頻;
  • 構建多樣化訓練數據集,覆蓋多種草圖風格與運動類型。

達到的效果

  • 在視覺質量、運動一致性和制作效率方面全面優于現有方法
  • 大幅減少人工工作量,提升創作流程中的靈活性與控制力
  • 實現了從稀疏輸入生成高質量卡通視頻的能力,更貼近真實創作需求
  • 為 AI 輔助卡通制作提供了一個高效、實用、可控的全新范式

方法

本文提出了 ToonComposer,一種新穎的生成式后關鍵幀模型,能夠在稀疏控制條件下生成高質量的卡通視頻。為實現這一目標,本文提出了一種精心設計的稀疏草圖注入策略,有效支持在任意時間點進行精確的草圖控制。此外,為了充分利用視頻生成模型中的時間先驗,本文設計了一種新穎的低秩適配策略,該策略能夠高效地將空間先驗適配到卡通領域,同時保留時間先驗不變。為了進一步減輕藝術家的工作負擔并提升效率,本文的方法還支持區域級控制,使藝術家只需繪制部分草圖,其余空白區域的運動生成則由模型自動推理完成。

后關鍵幀階段

近年來,卡通行業顯著受益于生成式 AI 的發展,特別是在中間幀補全和上色階段。雖然這些方法在卡通視頻制作中具有幫助,但現有方法通常受限于高人工成本或較低的視頻質量。例如,上色方法通常需要一幀上色參考圖和逐幀草圖輸入,獲取成本較高。盡管最近的中間幀補全方法可用于生成逐幀草圖,但在處理大幅運動時仍面臨挑戰,導致在上色階段出現誤差累積問題。

事實上,這兩個階段高度相互依賴:它們都需要在關鍵幀/草圖之間進行元素對應關系的搜索與插值,這表明它們的內部機制具有相似性。受到這一觀察的啟發,本文提出了“后關鍵幀階段”,這是一種全新的卡通制作流程,將中間幀補全與上色整合為統一的生成過程。在給定一幀上色參考圖和一幀草圖的條件下,后關鍵幀階段旨在直接生成一段高質量的卡通視頻,遵循這兩個輸入所提供的指導信息。該過程顯著降低了對逐幀草圖的需求,避免了跨階段誤差累積的風險。

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

在本工作中,本文采用了最近提出的強大視頻生成模型 Wan 作為基礎。

稀疏草圖注入

先進的視頻生成模型(如 Wan)在生成高質量視頻方面表現出色。盡管其圖像到視頻(I2V)變體支持由初始幀引導的視頻生成,但在任意時間點使用稀疏草圖實現精確控制仍未被探索。

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

該機制使草圖條件在生成過程中能夠高效地以時間感知方式集成到潛在空間中。此外,它還支持同時使用多個關鍵幀和草圖作為控制輸入。鑒于某些卡通場景中運動的復雜性,精確控制通常需要多個關鍵幀和草圖。因此,本文擴展了該公式以支持多個彩色參考幀和多個草圖輸入。因此,DiT 模型的前向步驟被表示為:

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

卡通自適應

先前的工作已證明將視頻生成模型自適應到卡通領域是成功的。通過僅微調時空 U-Net 的空間層,原模型中的時間運動先驗得以保留,同時外觀部分被適配為卡通風格。然而,隨著視頻生成模型的發展,3D 全注意力機制已被廣泛應用于現代視頻生成模型中,其中空間和時間表示在潛在空間中交織在一起。因此,無法像以往工作那樣直接進行空間自適應。

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

SLRA 的操作過程如下圖 4 所示。SLRA 確保在不破壞時間連貫性的前提下學習卡通特有的空間特征,從而高效地將基于 DiT 的視頻擴散模型適配到卡通領域。

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

區域級控制

有時卡通創作者可能只希望繪制前景草圖,并讓生成器為其生成背景。如果他們僅僅將背景留空,可能會導致不良的偽影,如下圖 9 第二行所示。

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

作為對時間上稀疏關鍵幀和草圖支持的補充,本文的區域級控制允許輸入草圖在空間上也是稀疏的,進一步減輕了卡通創作者的要求和工作負擔。

訓練目標

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

實驗

實驗設置

數據集  基于本文的內部視頻資源,本文構建了 PKData,一個高質量的卡通數據集,包含 37K 個多樣化的卡通視頻片段。每個片段都配有由 CogVLM 生成的描述性字幕和一組草圖幀。考慮到由于不同藝術家偏好或創作工具導致草圖風格多樣,本文對數據集進行了多樣化草圖增強。具體而言,本文使用四種開源的基于 CNN 的草圖模型為每幀合成四個版本的草圖,包括 ControlNet 中使用的兩個基本線稿模型、Anime2Sketch 和 Anyline。


此外,使用來自多位藝術家的小規模真實草圖數據集,結合 in-context LoRA 微調了一個基于 FLUX 的圖像到圖像生成模型。該模型被命名為 IC-Sketcher,用于生成另一版本的草圖。下圖 5 展示了一個具有多種草圖的示例幀。

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

基準測試  首先在一個來自卡通電影的合成基準上評估本文的方法(經授權,僅用于評估),其中每幀的草圖由草圖模型生成。由于該基準具備真實標簽,采用基于參考的評估指標。此外,本文開發了 PKBench,一個新穎的基準,包含人工繪制的草圖,用于在真實場景中更全面地評估卡通后關鍵幀生成。PKBench 包含 30 個樣本,每個樣本包括:1)一個上色的參考幀,2)描述場景的文本提示,3)由專業藝術家繪制的起始幀和結束幀的兩個真實草圖。

評估指標  采用以下評估指標:

  1. 用于合成基準的基于參考的感知指標,包括 LPIPS、DISTS 和 CLIP 圖像相似度;
  2. 用于合成和真實基準的參考無關視頻質量指標,來自 VBench,包括主體一致性(S.C.)、運動一致性(M.C.)、背景一致性(B.C.)和美學質量(A.Q.);
  3. 在真實基準上進行的人類感知質量用戶研究。

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

合成基準評估

首先在合成卡通基準上評估 ToonComposer,并與現有方法進行比較,包括 AniDoc、LVCD 和 ToonCrafter。在該合成評估中,草圖由同一草圖模型從卡通視頻幀中提取而得。為確保評估公平,在空間和時間維度上對齊真實標簽,以符合各模型的預設設置進行指標計算。

基線方法 

盡管本文的模型只需一次推理即可生成最終的卡通視頻,現有方法則需要一個兩階段的流程,如下圖 2 所示。對于 ToonCrafter,首先通過插值起始和結束草圖幀生成稠密草圖序列,然后使用其草圖引導模式(該模式需要輸入起始和結束的上色幀)生成最終的卡通視頻。對于 LVCD 和 AniDoc,本文首先使用 ToonCrafter 插值得到稠密草圖序列,然后分別使用這兩個模型將草圖上色為最終卡通視頻。

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

結果 

下表 1 顯示了合成評估的數值結果。本文的方法在基于參考的指標和無參考指標上均優于現有方法。例如,本文的模型報告了顯著更低的 DISTS 分數,表明其感知質量遠優于其他方法。

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

下圖 6 可視化展示了這些方法之間的定性比較,真實視頻作為參考。在兩個樣本中,本文的方法生成了平滑自然的卡通視頻幀,而其他方法在處理稀疏草圖的復雜場景時表現不佳。

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

例如,在第一個樣本的放大區域中,AniDoc 和 ToonCrafter 生成了扭曲的人臉。LVCD 雖然生成了合理的人臉,但在后續幀中丟失了所有細節。相比之下,本文的方法生成了清晰的人臉,并保留了第一個參考幀中的人物身份。這些觀察結果與上表 1 中本文方法的數值優勢一致。

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

真實基準評估

除了在合成測試集上的評估外,還在本文提出的真實人工草圖基準 PKBench 上比較了所有方法。由于每個樣本沒有對應的真實標簽,本文使用 VBench 的無參考指標評估生成的視頻。下表 2 顯示了量化比較結果,本文的模型在所有指標上均優于現有方法,在外觀和運動質量方面表現更佳。

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

下圖 7 展示了所有方法之間的可視化比較,最右列提供了隨機選取區域的放大視圖。可以觀察到,現有方法偏離了第一個參考幀的整體風格。具體來說,ToonCrafter 生成的中間幀具有明顯的粗線條,這可能受到人工繪制草圖中粗筆觸的影響,暴露出其對多樣草圖風格的魯棒性有限。相比之下,本文的 ToonComposer 生成的視頻幀在視覺質量、運動連貫性和風格一致性方面表現更優,與量化結果一致。

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

人類評估

為了進一步研究用戶對生成結果的偏好,進行了人類評估,比較本文的方法與其他基線方法所生成的結果。本文從基準中隨機選擇了 30 個樣本,并使用前述流程為每種方法生成卡通視頻。評估過程共涉及 47 位參與者,每位參與者被要求選擇在美學質量和運動質量方面表現最好的視頻。結果如下表 3 所示,本文的方法在兩個指標上均獲得最高勝率,顯著超過第二名的競爭者。

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

討論與分析

SLRA 的消融實驗  為了評估空間自適應在 ToonComposer 中的重要性,本文對 SLRA 進行了消融實驗,結果詳見上圖 4。

本文修改 SLRA 的內部注意力機制,以探索替代的適應行為:

  • 時間適應(Temp. Adapt.),專注于時間動態;
  • 時空聯合適應(S.T. Adapt.),同時調整空間與時間;
  • 退化的線性適配器(Linear Adapt.),完全移除注意力模塊;
  • 使用 LoRA 的基線方法,該方法修改 DiT 注意力模塊中的所有線性層(query、key、value 和 output)。該設計在隱式上同時改變了空間和時間行為。


為確保公平,LoRA 的秩設置為 24,以匹配 SLRA 的可訓練參數數量。所有模型均在相同設置下訓練。評估指標包括 LPIPS、DISTS 和 CLIP 圖像相似度。


結果如下表 4 和下圖 8 所示,SLRA 在數值結果和視覺質量方面均優于所有變體。具體而言: a)Temp. Adapt. 和 b)S.T. Adapt. 由于空間調整不足或沖突,導致誤差較高;c)Linear Adapt. 缺乏卡通美學所需的細致適配;盡管 d)LoRA 的適應范圍更廣,但由于其適應不夠針對性,破壞了平滑過渡所需的時間先驗,因此表現不如 SLRA。

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

這些發現強調了 SLRA 在調整 DiT 的空間行為以適配卡通特征方面的有效性,同時保持了時間先驗的完整性。

區域級控制的使用場景 

可視化了區域級控制對生成視頻的影響。若無區域級控制,在關鍵幀草圖中留下空白區域會被模型解釋為無紋理區域,導致生成幀中出現平坦區域,如上圖 9 的第二行所示。相比之下,啟用區域級控制后,用戶可以使用畫筆工具簡單地繪制區域,指示需要根據上下文生成合理運動的區域。如上圖 9 最后一行所示,本文的模型能夠根據輸入關鍵幀、草圖和給定的掩碼推斷出合理的火車運動,并在掩碼區域自動生成可信的運動效果。

該機制顯著提升了靈活性,進一步減輕了真實場景中的人工工作負擔。

隨著關鍵幀草圖數量增加的可控性 

ToonComposer 的稀疏草圖注入機制支持可變數量的輸入關鍵幀草圖,從而實現靈活控制,提升其在卡通制作流程中的實用性。這種適應性使藝術家能夠根據所需動作的復雜性,在創意控制與自動化之間取得平衡。如下圖 10 所示,本文展示了 ToonComposer 在相同文本提示條件下,根據不同數量的輸入草圖生成不同卡通序列的能力。更多示例見補充視頻,展示了本文方法在多種場景下的多樣性。

一鍵搞定補幀+上色!神器ToonComposer讓動畫“動”起來、“靚”起來!效率飆升!-AI.x社區

對 3D 動畫的泛化能力 

盡管制作流程存在差異,ToonComposer 通過將初始參考幀適配為 3D 渲染圖像,擴展了其在 3D 渲染動畫中的適用性。本文在一個緊湊的 3D 動畫片段數據集上對模型進行了微調,使其能夠以后關鍵幀方式生成高質量的 3D 風格序列。這種適應性突出了 ToonComposer 的多樣性及其在更廣泛動畫應用中的潛力。這些 3D 動畫樣本包含在補充視頻中。

結論

ToonComposer,一種新穎的模型,通過統一的生成流程“后關鍵幀”(post-keyframing)自動化中間幀繪制與上色等繁瑣任務,從而簡化卡通制作流程。ToonComposer 構建于 DiT 架構之上,利用稀疏關鍵幀草圖和單張上色參考圖,生成高質量、風格一致的卡通視頻序列。實驗表明,ToonComposer 在視覺保真度、動作連貫性和制作效率方面均優于現有方法。稀疏草圖注入與區域級控制等特性為藝術家提供了精確性與靈活性,使 ToonComposer 成為卡通創作的多功能系統。盡管存在如計算成本等限制,ToonComposer 仍為通過生成模型簡化卡通制作流程提供了一個有前景的解決方案。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/AAElOKWC_LnksgbNRI5h6Q??

收藏
回復
舉報
1條回復
按時間正序
/
按時間倒序
geisnic
geisnic

“特斯拉Linux系統工程師,存儲工程師火熱招聘中!
想摘系統、愛折騰、有追求?
掃碼生成專屬內推碼,我幫你一鍵推上車”

回復
2025-8-27 16:15:59
回復
相關推薦
主站蜘蛛池模板: 奈曼旗| 永登县| 涡阳县| 拜泉县| 安阳县| 丹棱县| 邳州市| 阿图什市| 如皋市| 连山| 和田市| 嘉义市| 怀安县| 天峻县| 右玉县| 锡林浩特市| 西畴县| 许昌县| 金堂县| 玉山县| 滦南县| 文山县| 舒城县| 云浮市| 棋牌| 潼南县| 绥芬河市| 武乡县| 泸溪县| 庄浪县| 日土县| 金华市| 砀山县| 博罗县| 东源县| 星子县| 如东县| 富宁县| 新建县| 黄龙县| 和林格尔县|