短視頻內容理解與生成技術在美團的創新實踐

原創精選

2022-04-15 15:46:06

人工智能新聞

針對視頻數據，如何通過計算機視覺技術用相關數據，為用戶和商家提供更好的服務，是一項重要的研發課題。本文將為大家分享短視頻內容理解與生成技術在美團業務場景的落地實踐。

作者 | 馬彬

1. 背景

美團圍繞豐富的本地生活服務電商場景，積累了豐富的視頻數據。

上面展示了美團業務場景下的一個菜品評論示例。可以看到，視頻相較于文本和圖像可以提供更加豐富的信息，創意菜“冰與火之歌”中火焰與巧克力和冰淇淋的動態交互，通過短視頻形式進行了生動的呈現，進而給商家和用戶提供多元化的內容展示和消費指引。

視頻行業發展

我們能夠快速進入了視頻爆炸的時代，是因為多個技術領域都取得了顯著的進步，包括拍攝采集設備小型化、視頻編解碼技術的進步、網絡通信技術的提升等。近年來，由于視覺AI算法不斷成熟，在視頻場景中被廣泛應用。本文將主要圍繞如何通過視覺AI技術的加持，來提高視頻內容創作生產和分發的效率。美團AI——場景驅動技術

說到美團，大家首先會想到點外賣的場景，不過，除了外賣之外，美團還有其他200多項業務，涵蓋了“吃”、“住”、“行”、“玩”等生活服務場景，以及“美團優選”“團好貨”等零售電商。豐富的業務場景帶來了多樣化的數據以及多元化的落地應用，進而驅動底層技術的創新迭代。同時，底層技術的沉淀，又可以賦能各業務的數字化、智能化升級，形成互相促進的正向循環。美團業務場景短視頻

豐富的內容和展示形式（C端）本文分享的一些技術實踐案例，主要圍繞著“吃”來展開。美團在每個場景站位都有內容布局和展示形式，短視頻技術在美團C端也有豐富的應用，例如：大家打開大眾點評App看到的首頁Feed流視頻卡片、沉浸態視頻、視頻筆記、用戶評論、搜索結果頁等。這些視頻內容在呈現給用戶之前，都要先經過了很多算法模型的理解和處理。

豐富的內容和展示形式（B端）而在商家端（B端）的視頻內容展示形式包括，景區介紹——讓消費者在線上感受更立體的游玩體驗；酒店相冊速覽——將相冊中的靜態圖像合成視頻，全面地展示酒店信息，幫助用戶快速了解酒店全貌（其中自動生成的技術會在下文2.2.2章節進行介紹）；

商家品牌廣告——算法可以通過智能剪輯等功能，降低商家編輯創作視頻的門檻；商家視頻相冊——商家可以自行上傳各類視頻內容，算法為視頻打上標簽，幫助商家管理視頻；商品視頻/動圖——上文提到美團的業務范圍也包括零售電商，這部分對于商品信息展示就非常有優勢。舉個例子，生鮮類商品，如螃蟹、蝦的運動信息很難通過靜態圖像呈現，而通過動圖可為用戶提供更多商品參考信息。短視頻技術應用場景

從應用場景來看，短視頻在線上的應用主要包括：內容運營管理、內容搜索推薦、廣告營銷、創意生產。底層的支撐技術，主要可以分為兩類：內容理解和內容生產。內容理解主要回答視頻中什么時間點，出現什么樣的內容的問題。內容生產通常建立在內容理解基礎上，對視頻素材進行加工處理。典型的技術包括，視頻智能封面、智能剪輯。下面我將分別介紹這兩類技術在美團場景下的實踐。

2. 短視頻內容理解和生成技術實踐

2.1 短視頻內容理解

2.1.1 視頻標簽

視頻內容理解的主要目標是，概括視頻中出現的重要概念，打開視頻內容的“黑盒”，讓機器知道盒子里有什么，為下游應用提供語義信息，以便更好地對視頻做管理和分發。根據結果的形式，內容理解可以分為顯式和隱式兩種。

其中，顯式是指通過視頻分類相關技術，給視頻打上人可以理解的文本標簽。隱式主要指以向量形式表示的嵌入特征，在推薦、搜索等場景下與模型結合直接面向最終任務建模。可以粗略地理解為，前者主要面向人，后者主要面向機器學習算法。顯式的視頻內容標簽在很多場景下是必要的，例如：內容運營場景，運營人員需要根據標簽，開展供需分析，高價值內容圈選等工作。

上圖中展示的是內容理解為視頻打標簽的概要流程，這里的每個標簽都是可供人理解的一個關鍵詞。通常情況下，為了更好地維護和使用，大量標簽會根據彼此之間的邏輯關系，組織成標簽體系。

2.1.2 視頻標簽的不同維度與粒度

那么視頻標簽的應用場景有哪些？它背后的技術難點是什么？在美團場景下比較有代表性的例子——美食探店視頻，內容非常豐富。標簽體系的設定尤為關鍵，打什么樣的標簽來描述視頻內容比較合適？首先，標簽的定義需要產品、運營、算法多方面的視角共同敲定。在該案例中，共有三層標簽，越上層越抽象。

其中，主題標簽對整體視頻內容的概括能力較強，如美食探店主題；中間層會進一步拆分，描述拍攝場景相關內容，如店內、店外環境；最底層拆分成細粒度實體，理解到宮保雞丁還是番茄炒雞蛋的粒度。不同層的標簽有不同的應用，最上層視頻主題標簽可應用于高價值內容的篩選及運營手段。

它的主要難點是抽象程度高，“美食探店”這個詞概括程度很高，人在看過視頻后可以理解，但從視覺特征建模的角度，需要具備什么特點才能算美食探店，對模型的學習能力提出了較大的挑戰。

2.1.3 基礎表征學習

解決方案主要關注兩方面：一方面是與標簽無關的通用基礎表征提升，另一方面是面向特定標簽的分類性能提升。初始模型需要有比較好基礎表征能力，這部分不涉及下游最終任務（例如：識別是否是美食探店視頻），而是模型權重的預訓練。好的基礎表征，對于下游任務的性能提升事半功倍。由于視頻標簽的標注代價非常昂貴，技術方案層面需要考慮的是：如何在盡量少用業務全監督標注數據的情況下學習更好的基礎特征。

首先，在任務無關的基礎模型表征層面，我們采用了在美團視頻數據上的自監督預訓練特征，相比在公開數據集上的預訓練模型，更加契合業務數據分布。其次，在語義信息嵌入層面（如上圖所示），存在多源含標簽數據可以利用。值得一提的是，美團業務場景下比較有特色的弱標注數據，例如：用戶在餐廳中做點評，圖片和視頻上層抽象標簽是美食，評論文本中大概率會提到具體在店里吃的菜品名稱，這是可挖掘的優質監督信息，可以通過視覺文本相關性度量等技術手段進行清洗。這里展示了自動挖掘出的標簽為“烤肉”的視頻樣本。

視頻樣本

通過使用這部分數據做預訓練，可以得到一個初始的Teacher Model，給業務場景無標注數據打上偽標簽。這里比較關鍵的是由于預測結果不完全準確，需要基于分類置信度等信息做偽標簽清洗，隨后拿到增量數據與Teacher Model一起做業務場景下更好的特征表達，迭代清洗得到Student Model，作為下游任務的基礎表征模型。在實踐中，我們發現數據迭代相較于模型結構的改進收益更大。

2.1.4 模型迭代

面向具體標簽的性能提升主要應對的問題是，如何在基礎表征模型的基礎上，高效迭代目標類別的樣本數據，提升標簽分類模型的性能。樣本的迭代分為離線和在線兩部分，以美食探店標簽為例，首先需要離線標注少量正樣本，微調基礎表征模型得到初始分類模型。這時模型的識別準確率通常較低，但即便如此，對樣本的清洗、迭代也很有幫助。設想如果標注員從存量樣本池里漫無目的地篩選，可能看了成百上千個視頻都很難發現一個目標類別的樣本，而通過初始模型做預篩選，可以每看幾個視頻就能篩出一個目標樣本，對標注效率有顯著的提升。第二步如何持續迭代更多線上樣本，提升標簽分類模型準確率至關重要。我們對于模型線上預測的結果分兩條回流路徑。線上模型預測結果非常置信，或是若干個模型認知一致，可以自動回流模型預測標簽加入模型訓練，對于高置信但錯誤的噪聲標簽，可以通過模型訓練過程中的一些抵抗噪聲的技術，如：置信學習進行自動剔除。更有價值的是，我們在實踐中發現對于模型性能提升ROI更高的是人工修正模型非置信數據，例如三個模型預測結果差異較大的樣本，篩出后交給人工確認。這種主動學習的方式，可以避免在大量簡單樣本上浪費標注人力，針對性地擴充對模型性能提升更有價值的標注數據。

2.1.5 視頻主題標簽應用——高價值內容篩選聚合

上圖展示了點評推薦業務視覺主題標簽的應用案例，最具代表性的即為高價值內容的圈選：在點評App首頁信息流的達人探店Tab中，運營同學通過標簽篩選出有「美食探店」標簽的視頻進行展示。可以讓用戶以沉浸式地體驗方式更全面地了解到店內的信息，同時也為商家提供了一個很好的窗口，起到宣傳引流的作用。

2.1.6 視頻標簽的不同維度與粒度

上圖展示了，不同維度標簽對于技術有不同要求，其中細粒度實體理解，需要識別具體是哪道菜，與上層粗粒度標簽的問題不同，需要考慮如何應對技術挑戰。首先是細粒度識別任務，需要對視覺特征進行更精細的建模；其次，視頻中的菜品理解相較于單張圖像中的菜品識別更有挑戰，需要應對數據的跨域問題。

2.1.7 菜品圖像識別能力向視頻領域的遷移

抽象出關鍵問題后，我們來分別應對。首先在細粒度識別問題上，菜品的視覺相似性度量挑戰在于不同食材的特征及位置關系沒有標準化的定義，同一道菜不同的師傅很可能做出兩種完全不同的樣子。這就需要模型既能夠聚焦局部細粒度特征，又能夠融合全局信息進行判別。為了解決這個問題，我們提出了一種堆疊式全局-局部注意力網絡，同時捕捉形狀紋理線索和局部的食材差異，對菜品識別效果有顯著提升，相關成果發表在ACM MM國際會議上（ISIA Food-500: A Dataset for Large-Scale Food Recognition via Stacked Global-Local Attention Network）。

上圖（右）中展示的是第二部分的挑戰。圖像和視頻幀中的相同物體常常有著不同的外觀表現，例如：圖片中的螃蟹常常是煮熟了擺在盤中，而視頻幀中經常出現烹飪過程中鮮活的螃蟹，它們在視覺層面差別很大。我們主要從數據分布的角度去應對這部分跨域差異。

業務場景積累了大量有標注的美食圖像，這些樣本預測結果的判別性通常較好，但由于數據分布差異，視頻幀中的螃蟹則不能被很確信地預測。對此我們希望提升視頻幀場景中預測結果的判別性。一方面，利用核范數最大化的方法，獲取更好的預測分布。另一方面，利用知識蒸餾的方式，不斷通過強大的模型來指導輕量化網絡的預測。再結合視頻幀數據的半自動標注，即可在視頻場景下獲得較好的性能。

2.1.8 細粒度菜品圖像識別能力

基于以上在美食場景內容理解的積累，我們在ICCV2021上舉辦了Large-Scale Fine-Grained Food Analysis比賽。菜品圖像來自美團的實際業務場景，包含1500類中餐菜品，競賽數據集持續開放：https://foodai-workshop.meituan.com/foodai2021.html#index，歡迎大家下載使用，共同提升挑戰性場景下的識別性能。

2.1.9 菜品細粒度標簽應用——按搜出封面

在視頻中識別出細粒度的菜品名稱有什么應用呢？這里再跟大家分享一個點評搜索業務場景的應用——按搜出封面。實現的效果是根據用戶輸入的搜索關鍵詞，為同一套視頻內容展示不同的封面。圖中的離線部分展示了視頻片段的切分和優選過程，首先通過關鍵幀提取，基礎質量過濾篩選出適合展示的畫面；再通過菜品細粒度標簽識別理解到在什么時間點出現什么菜品，作為候選封面素材，存儲在數據庫中。線上用戶對感興趣內容進行搜索時，根據視頻的多個封面候選與用戶查詢詞的相關性，為用戶展現最契合的封面，提升搜索的體驗。

比如，同樣是搜索“火鍋”，左圖是默認封面，右圖是“按搜出封面”的結果。可以看到，左邊的結果有一些以人物為主體的封面，與用戶搜索火鍋視頻預期看到的內容不符，直觀感覺像是不相關的Bad Case。而按搜出封面的展示結果，搜索到的內容都是火鍋畫面，體驗較好。這也是對視頻片段理解到細粒度標簽，在美團場景下的創新應用。

2.1.10 挖掘更為豐富的視頻片段標簽

以上都是圍繞美食視頻展開，但美團還有很多其他的業務場景。如何自動挖掘更為豐富的視頻標簽，讓標簽體系本身能夠自動擴展，而不是全部依賴人工整理定義，是一個重要的課題。我們基于點評豐富的用戶評論數據開展相關工作。上圖中的例子是用戶的筆記，可以看到內容中既包含視頻又包含若干張圖片，還有一大段描述，這幾個模態具有關聯性，存在共性的概念。通過一些統計學習的方式，在視覺和文本兩個模態之間做交叉驗證，可以挖掘出視頻片段和標簽的對應關系。

2.1.11 視頻片段語義標簽挖掘結果示例

例如，通過算法自動挖掘出視頻片段和標簽，左圖展示了標簽出現的頻率，呈現出明顯的長尾分布。但值得注意的是，通過這種方式，算法能夠發掘到粒度較細的有意義標簽，比如“絲巾畫”。通過這種方式可以在盡量減少人工參與的前提下，發現美團場景更多重要的標簽。

2.2 短視頻內容生成

下面，我們來講講如何在內容理解的基礎上做內容生產。內容生產是在短視頻AI應用場景非常重要的部分，以下分享更多涉及到的是視頻素材的解構與理解。

視頻內容生產的流程鏈路（如上圖所示），其中內容生成環節主要是原始視頻上傳到云端后，作為素材，通過算法進行剪輯加工，更好地發揮出內容的潛在價值。比如在廣告場景，通過算法識別并剪輯出原始視頻中展示商家環境，菜品效果的精華片段，提升信息的密度與質量。另外，視頻內容生產根據應用形式可分為三類：

圖片生成視頻，常見的形式有相冊速覽視頻自動生成；
視頻生成視頻片段，典型案例是長視頻精彩片段剪輯，變成更精簡的短視頻做二次分發；
視頻像素級編輯，主要涉及精細化的畫面特效編輯。

下面，我們就三類應用形式展開說明。

2.2.1 圖像生成視頻——餐飲場景美食動圖生成

第一類，圖像生成視頻。該部分要做的更多是針對圖像素材的理解和加工，使用戶對技術細節無感的前提下，一鍵端到端生成理想素材。如上圖所示，商家只需要輸入生產素材的圖像相冊，一切交給AI算法：首先算法會自動去除拍攝質量較差的，不適合展示的圖片；然后做內容識別，質量分析。內容識別包括內容標簽，質量分析包括清晰度、美學分；由于原始圖像素材的尺寸難以直接適配目標展位，需要根據美學評價模型，對圖像進行智能裁切；最終，疊加Ken-Burns、轉場等特效，得到渲染結果。商家即可獲得一個編排精美的美食視頻。

2.2.2 圖像生成視頻——酒店場景相冊速覽視頻生成

還有酒店場景下相冊速覽視頻生成的例子，相比動圖，需要結合音頻與轉場特效的配合。同時，視頻對優先展示什么樣的內容有更高要求，需要結合業務場景的特點，根據設計師制定的腳本模板，通過算法自動篩選特定類型的圖像填充到模板相應位置。

2.2.3 視頻生成視頻片段

第二類，視頻生成視頻片段。主要是將長視頻切分并優選出若干個更精彩、符合用戶預期的內容作展示。從算法階段劃分為片段生成和片段篩選排序。片段生成部分，通過時序切分算法，獲取鏡頭片段及關鍵幀。片段排序部分，比較關鍵，它決定了視頻優先順序。這也是比較困難的部分，它有兩個維度：

通用質量維度，包含清晰度，美學分等；
語義維度，例如：在美食視頻中，菜品成品展示，制作過程等通常是比較精彩的片段。語義維度的理解主要是采用前面介紹的內容理解模型來支持。

2.2.3.1 智能封面與精彩片段

原始封面

算法剪輯視頻（10s）

我們通過視頻生成視頻片段，實現了兩種應用場景。一是智能動態封面，主要基于通用基礎質量優選出清晰度更高、有動態信息量、無閃爍卡頓的視頻片段作為視頻的封面，相比于默認片段的效果更好。

2.2.4 視頻像素級編輯處理——菜品視頻特效

第三類，視頻像素級編輯。比如這里展示了一個基于視頻物體分割（VOS，Video Object Segmentation）技術的菜品創意特效，背后的關鍵技術，是美團自研的高效語義分割方法，該方法已在CVPR 2021發表了論文（Rethinking BiSeNet For Real-time Semantic Segmentation），感興趣的同學，可以了解一下。

像素級編輯處理最重要的技術之一是語義分割，在應用場景中面臨的主要技術挑戰是既要保證分割模型時效性，也要保證分辨率，保持高頻細節信息。我們對于經典的BiSeNet方法做出了進一步改進，提出了基于細節引導的高效語義分割方法。

具體的做法如網絡結構所示，左邊淺藍色部分是網絡的推理框架，沿用了BiSeNet Context分支的設計，Context分支的主干選用了我們自研的主干STDCNet。與BiSeNet不同的是，我們對Stage3進行一個細節引導的訓練，如右邊的淺綠色部分所示，引導Stage3學習細節特征；淺綠色部分只參與訓練，不參與模型推理，因此不會造成額外的時間消耗。

首先對于分割的Ground Truth，我們通過不同步長的Laplacian卷積，獲取一個富集圖像邊緣和角點信息的細節真值；之后通過細節真值和設計的細節Loss來引導Stage3的淺層特征學習細節特征。由于圖像的細節真值前后背景分布嚴重不均衡，因此我們采用的是DICE loss和BCE loss聯合訓練的方式；為了驗證細節引導的有效性，我們做了這個實驗，從特征可視化的結果中可以看出多尺度獲取的細節真值對網絡進行細節引導能獲得最好的結果，細節信息引導對模型的性能也有所提升。

效果方面，通過對比可以看出我們的方法對于分割細節的高頻信息保持具有較大的優勢。

3. 總結展望

以上分享了美團在視頻標簽、視頻封面與剪輯、視頻細粒度像素級編輯技術領域，通過與業務場景的結合期望為商家和用戶提供更加智能的信息展示和獲取方式。未來，短視頻技術應用方面，在美團豐富的業務場景包括本地生活服務、零售電商，都會發揮更大的潛在價值。視頻理解技術方面，多模態自監督訓練，對于緩解標注數據依賴，提升模型在復雜業務場景的泛化性能方面非常有價值，我們也在做一些嘗試和探索。

4. 本文作者

馬彬，美團視覺智能部工程師。

責任編輯：美團技術團隊來源：美團技術團隊

數據視頻技術

精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频