精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

阿里重磅開源Qwen2-VL:能理解超20分鐘視頻,媲美GPT-4o!

發布于 2024-8-30 10:22
瀏覽
0收藏

阿里巴巴開源了最新視覺多模態模型Qwen2-VL,根據測試數據顯示,其72B模型在大部分指標超過了OpenAI的GPT-4o,Anthropic的Claude3.5-Sonnet等著名閉源模型,成為目前最強多模態模型之一。


Qwen2-VL支持中文、英文、日文、韓文等眾多語言,可以在 Apache 2.0 協議下進行商業化使用。同時阿里發布了 Qwen2-VL-72B的API,幫助開發者增強或開發多模態功能的生成式AI應用。


開源地址:https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d

Github:https://github.com/QwenLM/Qwen2-VL

在線demo:https://huggingface.co/spaces/Qwen/Qwen2-VL

API:https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api

阿里重磅開源Qwen2-VL:能理解超20分鐘視頻,媲美GPT-4o!-AI.x社區

Qwen2-VL特色功能與性能測試

Qwen2-VL是基于Qwen2開發而成,相比第一代Qwen-VL有以下特色功能。


可理解20分鐘以上的長視頻:Qwen2-VL 可理解長視頻,并將其用于基于視頻的問答、對話和內容創作等應用中。


例如,對于一部長達兩個小時的紀錄片,用戶詢問其中某個特定歷史事件的具體時間和背景,Qwen2-VL 可以快速檢索視頻內容,從復雜的影像和解說中提取出關鍵信息,為用戶提供詳細準確的回答。


Qwen2-VL還可以根據長視頻的內容進行故事續寫、影評撰寫或者創意改編。例如,一個 30 分鐘的科普長視頻,Qwen2-VL 可以提取其中的核心知識,創作出一篇通俗易懂的科普文章,或者以視頻中的某個情節為靈感構思出一部全新的小說。


可操作手機和機器人的視覺智能體:借助復雜推理和決策的能力,Qwen2-VL 可集成到手機、機器人等設備,根據視覺環境和文字指令進行自動操作。


能讀懂不同分辨率和不同長寬比的圖片:Qwen2-VL 在 MathVista、DocVQA、RealWorldQA、MTVQA等視覺理解基準測試中取得了全球領先的表現。


性能評估方面,阿里從大學題目、數學、文檔表格多語言文字圖像的理解、通用場景下的問答、視頻理解、Agent進行了綜合測試。


結果顯示,72B的大部分性能超過了GPT-4o,僅在對綜合的大學題目上和 GPT-4o 還有一些差距

阿里重磅開源Qwen2-VL:能理解超20分鐘視頻,媲美GPT-4o!-AI.x社區

在7B模型上,其性能與GPT-4mini的水平一樣,尤其是像 DocVQA 之類的文檔理解能力和 MTVQA 考察的圖片中多語言文字理解能力都處于 SOTA 水平。

阿里重磅開源Qwen2-VL:能理解超20分鐘視頻,媲美GPT-4o!-AI.x社區

Qwen2-VL架構簡單介紹

模型架構方面, Qwen2-VL 在架構上的一大改進是實現了對原生動態分辨率的全面支持。與上一代模型相比,Qwen2-VL 能夠處理任意分辨率的圖像輸入,不同大小圖片被轉換為動態數量的tokens,最小只占 4 個 tokens。


這種設計不僅確保了模型輸入與圖像原始信息之間的高度一致性,更是模擬了人類視覺感知的自然方式,賦予模型處理任意尺寸圖像的強大能力,使其在圖像處理領域展現出更加靈活和高效的表現。

阿里重磅開源Qwen2-VL:能理解超20分鐘視頻,媲美GPT-4o!-AI.x社區

Qwen2-VL在架構上的另一重要創新則是多模態旋轉位置嵌入(M-ROPE)。傳統的旋轉位置嵌入只能捕捉一維序列的位置信息,而 M-ROPE 通過將原始旋轉嵌入分解為代表時間、高度和寬度的三個部分。


使得大規模語言模型能夠同時捕捉和整合一維文本序列、二維視覺圖像以及三維視頻的位置信息。這一創新賦予了語言模型強大的多模態處理和推理能力,能夠更好地理解和建模復雜的多模態數據能力。

案例展示

目前,阿里已經展示了Qwen2-VL的多個實際應用案例,例如,對一大段視頻進行詳細解讀。

阿里重磅開源Qwen2-VL:能理解超20分鐘視頻,媲美GPT-4o!-AI.x社區

用戶:請詳細描述一下視頻。


Qwen2-VL:視頻開始時,一名男子對著鏡頭說話,后面是一群人坐在控制室里。然后鏡頭切換到兩個漂浮在空間站內的男子,可以看到他們對著鏡頭說話。這些人似乎是宇航員,他們穿著太空服。


空間站里充滿了各種設備和機械,鏡頭四處移動以顯示空間站的不同區域。這些人繼續對著鏡頭說話,他們似乎在討論他們的使命和正在執行的各種任務。總的來說,該視頻讓人們對太空探索的世界和宇航員的日常生活有了一個有趣的了解。


用戶還可以基于視頻繼續提問,兩位宇航員穿的衣服是什么顏色的?Qwen2-VL回答:兩名宇航員穿著藍色和黑色的衣服。


你也可以向Qwen2-VL發送一張杭州蕭山到北京的飛機票,然后基于上面的內容進行提問:“這趟航班什么時候到達?到達時目的地的天氣如何?”

阿里重磅開源Qwen2-VL:能理解超20分鐘視頻,媲美GPT-4o!-AI.x社區

Qwen2-VL具備了GPT-4o的實時問答功能,讓其對一些書、植物、手勢等進行解讀。


本文轉自 AIGC開放社區  ,作者:AIGC開放社區


原文鏈接:??https://mp.weixin.qq.com/s/4uiC1uuH1Noej_dCzql4FQ??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 商水县| 叙永县| 南华县| 宁陵县| 福泉市| 太康县| 界首市| 怀集县| 文成县| 安岳县| 台安县| 德钦县| 广德县| 古浪县| 农安县| 汤阴县| 勐海县| 武冈市| 运城市| 张家川| 尚志市| 元江| 太康县| 威海市| 甘南县| 开平市| 丰城市| 玛沁县| 平远县| 苍山县| 衡山县| 彩票| 蒙阴县| 清新县| 桐梓县| 林芝县| 云南省| 高唐县| 油尖旺区| 宝兴县| 怀集县|