火山引擎多媒體實驗室重要突破!LiveGS 技術登榜 SIGGRAPH,重新定義移動端自由視角視頻直播
近日,火山引擎多媒體實驗室的最新研究成果 LiveGS: Live Free-Viewpoint Video via High-Performance Gaussian Splatting for Mobile Devices 成功入選計算機圖形學頂會 SIGGRAPH Emerging Technologies,并于2025年8月10日至8月14日在加拿大溫哥華對外展出。這一技術突破首次實現了移動端實時自由視角視頻(FVV)直播的完整鏈路落地,在視覺保真度、計算效率和傳輸成本之間達成了前所未有的平衡,為互動直播、沉浸式娛樂等場景開辟了技術新范式。
圖1 論文主頁
打破技術瓶頸:從實驗室走向移動端的實時自由視角革命
自由視角視頻(FVV)允許用戶從任意角度探索場景,是元宇宙、沉浸式直播等前沿領域的核心技術。但長期以來,體積視頻的高計算負載和高帶寬傳輸需求一直是移動端應用的“攔路虎”。火山引擎多媒體實驗室的LiveGS 系統通過三大創新,首次實現了“端到端實時 FVV 直播”的工程化落地:
三大技術突破,重新定義移動端 FVV 標準
1. 實時 3D 高斯表示:告別離線優化,毫秒級重建逼真人體模型
傳統 3D 高斯潑濺技術需要幾分鐘乃至幾十分鐘進行場景優化,無法滿足直播需求。LiveGS 創新性采用前饋神經網絡架構,結合 Sobel 特征自適應建模策略,對人體不同區域(如平坦膚色區與細節豐富的頭發、衣物)采用粗細粒度差異化建模,在保證渲染質量的前提下,將高斯數量減少70%,實現無需逐場景優化的實時 3D 重建。實驗顯示,系統可在 A10顯卡上以超過 30 FPS 的幀率運行,延遲控制在1秒以內。
圖2 LiveGS 前饋神經網絡架構圖
2. 低損耗壓縮傳輸:500倍壓縮率下 PSNR 損失<3dB,適配標準視頻鏈路
LiveGS 將 3D 高斯屬性(尺度、不透明度、深度等)映射到 2D 視頻平面,采用 YUV 4:2:0 格式結合可變位打包(VBP)技術進行量化編碼。通過基于渲染重要性的比特率分配策略(深度和 RGB 區域優先編碼),在實現500倍壓縮的同時,將畫質損失控制在 PSNR 3dB 以內,完美適配現有視頻傳輸鏈路,帶寬需求低于20Mbps。
圖3 LiveGS 編碼傳輸示意圖
3. 移動端渲染優化:區域化高斯裁剪,算力消耗直降70%
針對移動端算力限制,LiveGS 提出基于掩碼的高斯選擇策略:高頻區域(如面部、手部)保留全部像素高斯,低頻區域(如軀干)僅保留1/3像素,渲染高斯數量減少70%。結合混合渲染技術,在 iPhone 15 等設備上實現了 30FPS 流暢的視角旋轉、縮放等交互操作,推動 FVV 從 PC 端走向大眾移動端。
抖音“裸眼3D”直播
同時,多媒體實驗室還成功研發了一項創新技術,該技術能通過普通的單目視頻直接生成自由視角視頻,并且具備直播能力。實驗室和抖音團隊一起成功落地了“裸眼 3D”直播,帶給用戶全新的直播觀看體驗!
經過云端 AI 大模型處理,2D 直播可以被實時處理為帶有 3D 信息的直播流,包含深度等 3D 空間信息,然后經過編碼、轉碼等處理,通過直播鏈路分發至用戶設備。在移動客戶端上,根據深度信息,實時對直播內容進行 3D 重建;用戶通過晃動手機,可將 3D 內容實時渲染至不同的觀看視角,從而實現“裸眼 3D”效果。
從技術創新到場景落地:開啟沉浸式互動新體驗
LiveGS 的突破不僅是算法層面的革新,更構建了“實時采集 - 云端重建 - 壓縮傳輸 - 移動端渲染”的完整技術閉環解決方案,其應用場景覆蓋:
- 體育賽事直播:用戶可自由切換視角,360°解析運動員動作細節,如籃球扣籃的空中姿態、賽車過彎的輪胎動態;
- 虛擬偶像演出:支持多角度實時互動,觀眾可自定義鏡頭焦點,打造「私人定制」的沉浸式觀看體驗;
- 遠程會議與教育:動態捕捉演講者姿態與手勢,結合自由視角切換增強跨空間溝通的臨場感;
- 電商直播:用戶可360°查看商品細節(如服飾剪裁、珠寶紋理),以沉浸式交互提升購物決策效率。
圖4 LivsGS 直播系統架構示意圖