阿里重磅開源Qwen2-VL：能理解超20分鐘視頻，媲美GPT-4o！

Aceryt

發布于 2024-8-30 10:22

瀏覽

0收藏

阿里巴巴開源了最新視覺多模態模型Qwen2-VL，根據測試數據顯示，其72B模型在大部分指標超過了OpenAI的GPT-4o，Anthropic的Claude3.5-Sonnet等著名閉源模型，成為目前最強多模態模型之一。

Qwen2-VL支持中文、英文、日文、韓文等眾多語言，可以在 Apache 2.0 協議下進行商業化使用。同時阿里發布了 Qwen2-VL-72B的API，幫助開發者增強或開發多模態功能的生成式AI應用。

開源地址：https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d

Github：https://github.com/QwenLM/Qwen2-VL

在線demo：https://huggingface.co/spaces/Qwen/Qwen2-VL

API：https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api

阿里重磅開源Qwen2-VL：能理解超20分鐘視頻，媲美GPT-4o！-AI.x社區

Qwen2-VL特色功能與性能測試

Qwen2-VL是基于Qwen2開發而成，相比第一代Qwen-VL有以下特色功能。

可理解20分鐘以上的長視頻：Qwen2-VL 可理解長視頻，并將其用于基于視頻的問答、對話和內容創作等應用中。

例如，對于一部長達兩個小時的紀錄片，用戶詢問其中某個特定歷史事件的具體時間和背景，Qwen2-VL 可以快速檢索視頻內容，從復雜的影像和解說中提取出關鍵信息，為用戶提供詳細準確的回答。

Qwen2-VL還可以根據長視頻的內容進行故事續寫、影評撰寫或者創意改編。例如，一個 30 分鐘的科普長視頻，Qwen2-VL 可以提取其中的核心知識，創作出一篇通俗易懂的科普文章，或者以視頻中的某個情節為靈感構思出一部全新的小說。

可操作手機和機器人的視覺智能體：借助復雜推理和決策的能力，Qwen2-VL 可集成到手機、機器人等設備，根據視覺環境和文字指令進行自動操作。

能讀懂不同分辨率和不同長寬比的圖片：Qwen2-VL 在 MathVista、DocVQA、RealWorldQA、MTVQA等視覺理解基準測試中取得了全球領先的表現。

性能評估方面，阿里從大學題目、數學、文檔表格多語言文字圖像的理解、通用場景下的問答、視頻理解、Agent進行了綜合測試。

結果顯示，72B的大部分性能超過了GPT-4o，僅在對綜合的大學題目上和 GPT-4o 還有一些差距。

阿里重磅開源Qwen2-VL：能理解超20分鐘視頻，媲美GPT-4o！-AI.x社區

在7B模型上，其性能與GPT-4mini的水平一樣，尤其是像 DocVQA 之類的文檔理解能力和 MTVQA 考察的圖片中多語言文字理解能力都處于 SOTA 水平。

阿里重磅開源Qwen2-VL：能理解超20分鐘視頻，媲美GPT-4o！-AI.x社區

Qwen2-VL架構簡單介紹

模型架構方面， Qwen2-VL 在架構上的一大改進是實現了對原生動態分辨率的全面支持。與上一代模型相比，Qwen2-VL 能夠處理任意分辨率的圖像輸入，不同大小圖片被轉換為動態數量的tokens，最小只占 4 個 tokens。

這種設計不僅確保了模型輸入與圖像原始信息之間的高度一致性，更是模擬了人類視覺感知的自然方式，賦予模型處理任意尺寸圖像的強大能力，使其在圖像處理領域展現出更加靈活和高效的表現。

阿里重磅開源Qwen2-VL：能理解超20分鐘視頻，媲美GPT-4o！-AI.x社區

Qwen2-VL在架構上的另一重要創新則是多模態旋轉位置嵌入（M-ROPE）。傳統的旋轉位置嵌入只能捕捉一維序列的位置信息，而 M-ROPE 通過將原始旋轉嵌入分解為代表時間、高度和寬度的三個部分。

使得大規模語言模型能夠同時捕捉和整合一維文本序列、二維視覺圖像以及三維視頻的位置信息。這一創新賦予了語言模型強大的多模態處理和推理能力，能夠更好地理解和建模復雜的多模態數據能力。

案例展示

目前，阿里已經展示了Qwen2-VL的多個實際應用案例，例如，對一大段視頻進行詳細解讀。

阿里重磅開源Qwen2-VL：能理解超20分鐘視頻，媲美GPT-4o！-AI.x社區

用戶：請詳細描述一下視頻。

Qwen2-VL：視頻開始時，一名男子對著鏡頭說話，后面是一群人坐在控制室里。然后鏡頭切換到兩個漂浮在空間站內的男子，可以看到他們對著鏡頭說話。這些人似乎是宇航員，他們穿著太空服。

空間站里充滿了各種設備和機械，鏡頭四處移動以顯示空間站的不同區域。這些人繼續對著鏡頭說話，他們似乎在討論他們的使命和正在執行的各種任務。總的來說，該視頻讓人們對太空探索的世界和宇航員的日常生活有了一個有趣的了解。

用戶還可以基于視頻繼續提問，兩位宇航員穿的衣服是什么顏色的？Qwen2-VL回答：兩名宇航員穿著藍色和黑色的衣服。

你也可以向Qwen2-VL發送一張杭州蕭山到北京的飛機票，然后基于上面的內容進行提問：“這趟航班什么時候到達？到達時目的地的天氣如何？”

阿里重磅開源Qwen2-VL：能理解超20分鐘視頻，媲美GPT-4o！-AI.x社區

Qwen2-VL具備了GPT-4o的實時問答功能，讓其對一些書、植物、手勢等進行解讀。

本文轉自 AIGC開放社區，作者：AIGC開放社區

原文鏈接:??https://mp.weixin.qq.com/s/4uiC1uuH1Noej_dCzql4FQ??

標簽

開源

視頻

贊

回復

舉報

回復

相關推薦

文本直接生成2分鐘視頻，即將開源模型StreamingT2V

Aceryt ? 5301瀏覽 ? 0回復
谷歌重磅發布Gemini 1.5 Pro：能自動寫影評，理解視頻！

Aceryt ? 5621瀏覽 ? 0回復
谷歌發布Veo：文生超1分鐘、1080P視頻，媲美Sora

Aceryt ? 5411瀏覽 ? 0回復
20個具體案例揭秘：GPT-4o 如何顛覆我們的日常生活

數師兄 ? 5560瀏覽 ? 0回復
GPT-4o 的數學又雙叕進步了？來 MathBench 看看新版 GPT-4o 到底強在哪！

戀戀青鳥 ? 4351瀏覽 ? 0回復
GPT-4o背后可能的語音技術

魚蟲子 ? 4065瀏覽 ? 0回復
阿里新開源語音模型Qwen2-Audio ，實測優于 Gemini-1.5-pro，網友：離GPT-4o只差一步

51CTO技術棧 ? 3923瀏覽 ? 0回復
阿里史上最大規模開源發布，超GPT-4o 、Llama-3.1！

Aceryt ? 2965瀏覽 ? 0回復
Qwen2-VL全面解讀！阿里開源多模態視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet

angel ? 1.4w瀏覽 ? 0回復
擊敗GPT-4o、僅次于o1！英偉達重磅開源超強大模型--Nemotron

Aceryt ? 4072瀏覽 ? 0回復
重磅開源Nemotron大模型：擊敗GPT-4o、僅次于o1！

51CTO技術棧 ? 2800瀏覽 ? 0回復
人工智能新高度：GLM-4-Plus，智譜AI打造媲美GPT-4o的基座大模型

穿越時空111 ? 6414瀏覽 ? 0回復
超GPT-4o，1240億參數！最強開源多模態模型 Pixtral Large！

Aceryt ? 3304瀏覽 ? 0回復
Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型！！（擊敗 Claude 和 GPT-4o）

老蛀蟲 ? 6464瀏覽 ? 0回復
微軟發布Phi-4，最強小模型！參數極小、超GPT-4o

Aceryt ? 2919瀏覽 ? 0回復
重磅！微軟開源最強小模型Phi-4，超GPT-4o、可商用

Aceryt ? 3156瀏覽 ? 0回復
LLM合集：MiniMax-01 開源，性能比肩 GPT-4o，上下文窗口領先 20-32 倍

AIPaperDaily ? 3589瀏覽 ? 0回復
DeepSeek-R1-Distill-Qwen-1.5B 在某些基準測試中超越了 GPT-4o

Halo咯咯 ? 1.4w瀏覽 ? 0回復
10分鐘讓WPS接入DeepSeek，實現AI賦能

AI取經路 ? 6372瀏覽 ? 0回復

Aceryt

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

51CTO

51CTO博客

51CTO學堂

阿里重磅開源Qwen2-VL：能理解超20分鐘視頻，媲美GPT-4o！

Qwen2-VL特色功能與性能測試

Qwen2-VL架構簡單介紹

案例展示

目錄