精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

多模態與偽多模態大模型 原創

發布于 2024-9-10 09:24
瀏覽
0收藏

“ 透過現象看本質,才是最應該做的選擇 ”

對大模型了解的人應該知道,大模型是因為openAI的GPT模型爆火的,當然大模型的發展也是經過多年的發展才有了今天的地步。

在之前的文章中也介紹過,大模型的全程是大規模預訓練語言模型的簡稱,也就是說大模型剛開始是在語言處理領域大放異彩的。

因此,可以說大模型是深度學習,也就是神經網絡模型與自然語言處理相結合而產生的一種技術。

而隨著大模型在自然語言處理領域的爆發,一些技術人員開始把大模型應用到圖片處理,視頻處理等領域,后來慢慢就誕生了處理各種模態數據的模型。

到今天,多模態成為了主流。

多模態大模型

什么是多模態?

模態值得是數據類型,比如文本,圖片,視頻等;而多模態就是指能夠同時處理文本,圖片,視頻等多種模態數據的模型。

簡單來說,多模態大模型就像一個人一樣,他既會寫字認字,也會繪畫欣賞畫,他即能通過拍視頻的方式表達自己;也能看懂別人視頻所表達的思想。

而多模態大模型就是這樣,它既能看懂別人的文字,也能看懂別人的視頻,也可以把別人的視頻用語言表達出來,這就是多模態大模型。

多模態與偽多模態大模型-AI.x社區

這種實現方式,需要解決很多技術難點,比如說文本和視頻或圖片內容等多種模態數據之間的融合,模態之間的數據差異問題,數據對齊與一致性問題等。

這種實現多模態大模型的方式,叫做真多模態大模型。

但實現多模態只有這種方式嗎?

其實,還有另一種實現多模態的方式或者說方法;那就是在多個處理不同模態數據的大模型之上,構建一個虛擬的“多模態大模型”,我叫他偽多模態大模型。

簡單來說就是真實的多模態大模型就相當于一個無所不能的人,天文地理,物理化學,前知五百年后曉五百世;而偽多模態大模型,就相當于給阿斗配一個頂級智囊團,雖然阿斗什么都不懂,但他可以問啊。

多模態與偽多模態大模型-AI.x社區

就比如說,用戶輸入一段文字,這時前置模塊就可以識別出這是文本模塊,那么它就可以問其它的大模型,你們誰能處理文本,然后文本模型就會說我我我。

而如果用戶輸入一段視頻,那么前置模塊就可以找一個視頻處理的大模型,最后再通過后置的轉化模塊,把輸出數據轉化為用戶需要的格式。

這就是偽多模態,很多初創企業干的就是這種產品,他們通過集成多種類型的模型,來實現對多種模態數據的處理。

多模態與偽多模態大模型-AI.x社區

當然,這種偽多模態模型雖然在外人看來都差不多,但我們要知道它們使用的是完全不同的技術;并且,偽多模態大模型雖然能夠處理一些簡單任務,但在復雜任務中可能就沒有真正的多模態模型表現得好了。

很多東西如果不能透過表象看本質,就會導致很大的認知偏差;比如說,我們都以為語音處理的大模型,它是直接處理語音格式的數據,事實上是會有一個前置層,先把語音文件轉化為文本格式,然后再讓大模型處理。

等大模型處理完之后,再把文本格式的數據轉換為語音數據輸出,前者技術叫ASR,后者叫TTS。


本文轉載自公眾號AI探索時代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/AXTjnpb2l1c-KeZSOpm_NA??


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 文水县| 双流县| 潍坊市| 临海市| 宁国市| 区。| 航空| 汕头市| 右玉县| 新昌县| 册亨县| 稷山县| 桐庐县| 江永县| 南华县| 勐海县| 禹城市| 昌都县| 郧西县| 运城市| 麻城市| 门源| 兴文县| 白河县| 余干县| 喀喇| 周宁县| 青神县| 共和县| 辽中县| 垫江县| 洛南县| 贡觉县| 安乡县| 安远县| 巴彦淖尔市| 顺昌县| 和平区| 沧源| 潮安县| 海林市|