多模態與偽多模態大模型原創

AI探索時代

發布于 2024-9-10 09:24

瀏覽

0收藏

“ 透過現象看本質，才是最應該做的選擇 ”

對大模型了解的人應該知道，大模型是因為openAI的GPT模型爆火的，當然大模型的發展也是經過多年的發展才有了今天的地步。

在之前的文章中也介紹過，大模型的全程是大規模預訓練語言模型的簡稱，也就是說大模型剛開始是在語言處理領域大放異彩的。

因此，可以說大模型是深度學習，也就是神經網絡模型與自然語言處理相結合而產生的一種技術。

而隨著大模型在自然語言處理領域的爆發，一些技術人員開始把大模型應用到圖片處理，視頻處理等領域，后來慢慢就誕生了處理各種模態數據的模型。

到今天，多模態成為了主流。

多模態大模型

什么是多模態？

模態值得是數據類型，比如文本，圖片，視頻等；而多模態就是指能夠同時處理文本，圖片，視頻等多種模態數據的模型。

簡單來說，多模態大模型就像一個人一樣，他既會寫字認字，也會繪畫欣賞畫，他即能通過拍視頻的方式表達自己；也能看懂別人視頻所表達的思想。

而多模態大模型就是這樣，它既能看懂別人的文字，也能看懂別人的視頻，也可以把別人的視頻用語言表達出來，這就是多模態大模型。

多模態與偽多模態大模型-AI.x社區

這種實現方式，需要解決很多技術難點，比如說文本和視頻或圖片內容等多種模態數據之間的融合，模態之間的數據差異問題，數據對齊與一致性問題等。

這種實現多模態大模型的方式，叫做真多模態大模型。

但實現多模態只有這種方式嗎？

其實，還有另一種實現多模態的方式或者說方法；那就是在多個處理不同模態數據的大模型之上，構建一個虛擬的“多模態大模型”，我叫他偽多模態大模型。

簡單來說就是真實的多模態大模型就相當于一個無所不能的人，天文地理，物理化學，前知五百年后曉五百世；而偽多模態大模型，就相當于給阿斗配一個頂級智囊團，雖然阿斗什么都不懂，但他可以問啊。

多模態與偽多模態大模型-AI.x社區

就比如說，用戶輸入一段文字，這時前置模塊就可以識別出這是文本模塊，那么它就可以問其它的大模型，你們誰能處理文本，然后文本模型就會說我我我。

而如果用戶輸入一段視頻，那么前置模塊就可以找一個視頻處理的大模型，最后再通過后置的轉化模塊，把輸出數據轉化為用戶需要的格式。

這就是偽多模態，很多初創企業干的就是這種產品，他們通過集成多種類型的模型，來實現對多種模態數據的處理。

多模態與偽多模態大模型-AI.x社區

當然，這種偽多模態模型雖然在外人看來都差不多，但我們要知道它們使用的是完全不同的技術；并且，偽多模態大模型雖然能夠處理一些簡單任務，但在復雜任務中可能就沒有真正的多模態模型表現得好了。

很多東西如果不能透過表象看本質，就會導致很大的認知偏差；比如說，我們都以為語音處理的大模型，它是直接處理語音格式的數據，事實上是會有一個前置層，先把語音文件轉化為文本格式，然后再讓大模型處理。

等大模型處理完之后，再把文本格式的數據轉換為語音數據輸出，前者技術叫ASR，后者叫TTS。

本文轉載自公眾號AI探索時代作者：DFires

原文鏈接：??https://mp.weixin.qq.com/s/AXTjnpb2l1c-KeZSOpm_NA??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

多模態

偽多模態

大模型

贊

回復

舉報

回復

相關推薦

多模態視覺-語言大模型的架構演進

angel ? 6067瀏覽 ? 0回復
「多模態大模型」解讀 | 突破單一文本模態局限

Baihai_IDP ? 4088瀏覽 ? 0回復
什么是多模態大模型？為什么需要多模態大模型？

AI探索時代 ? 6346瀏覽 ? 0回復
多模態大模型之模態融合的注意點及難點

AI探索時代 ? 7925瀏覽 ? 0回復
多模態大模型數據分析與實踐

zhcs333 ? 5608瀏覽 ? 0回復
多模態大模型最全綜述導讀

shizhi02 ? 4011瀏覽 ? 0回復
多模態大模型中，多模態融合后怎樣知道最終結果受哪種模態影響更大？

shizhi02 ? 2934瀏覽 ? 0回復
多模態大模型：基礎架構

魯班模錘1 ? 3593瀏覽 ? 0回復
南大&阿里發布多模態大模型WINGS，解決基于LLM的多模態訓練災難遺忘問題

海因斯DK ? 4098瀏覽 ? 0回復
什么是多模態大模型

AI探索時代 ? 4805瀏覽 ? 0回復
多模態大模型Qwen2的深入了解

一起AI技術 ? 5344瀏覽 ? 0回復
多模態大模型數據構造方法

shizhi02 ? 4106瀏覽 ? 0回復
【多模態&RAG】多模態RAG ColPali實踐

大模型自然語言處理 ? 3101瀏覽 ? 0回復
如何全面評估多模態大模型能力？MLLM評測任務與指標總結

shizhi02 ? 9482瀏覽 ? 0回復
多模態大語言模型的空間智能探秘：突破與挑戰

十一月雨_55 ? 3402瀏覽 ? 0回復
EarthMarker：首個視覺提示遙感多模態大模型

AIRoobt ? 6269瀏覽 ? 0回復
醫學領域大模型與多模態大模型的綜合調查

知識圖譜科技 ? 3399瀏覽 ? 0回復
多模態理解和生成：多模態理解與生成統一獎勵模型；將獎勵模型多模態情緒識別上

AI研究前瞻 ? 3059瀏覽 ? 0回復
融合語言模型的多模態大模型研究

zhcs333 ? 2916瀏覽 ? 0回復

AI探索時代

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

51CTO

51CTO博客

51CTO學堂

多模態與偽多模態大模型原創

多模態大模型

目錄

精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

51CTO

51CTO博客

51CTO學堂

多模態與偽多模態大模型 原創

多模態大模型

目錄

多模態與偽多模態大模型原創