精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

小冰公司技術副總裁周力:AI對談為元宇宙開啟全新未來

原創 精選
人工智能 元宇宙
在51CTO主辦的MetaCon元宇宙技術大會上,小冰公司技術副總裁周力帶來了主題演講《AI和AI的對談技術的探索與應用》,剖析了AI對談的意義,AI對談系統的技術設計,以及AI對談在沉浸式虛擬社交場景中的應用,為大眾呈現了全新的視角。

  嘉賓:周力

  整理:千山

  人機對話早已滲透進我們的日常生活中,AI語音助手、聊天機器人等應用也是屢見不鮮。那AI與AI之間的對話呢,是否也有其價值?日前,在51CTO主辦的MetaCon元宇宙技術大會上,小冰公司技術副總裁周力帶來了主題演講《AI和AI的對談技術的探索與應用》,剖析了AI對談的意義,AI對談系統的技術設計,以及AI對談在沉浸式虛擬社交場景中的應用,為大眾呈現了全新的視角。

  現將演講內容整理如下,希望對諸君有所啟發。

我們為什么還需要AI和AI之間的對話

  人和人之間的對話至少有十萬年的歷史,而人和機器之間的對話,就算從最開始非常簡陋的聊天機器人Eliza開始算起,最多到現在也只有55年。真正的人機對話主要在最近的10年有比較大的發展。

  但不管在學術界還是工業界,對于AI與AI如何進行對話,幾乎還沒有研究。最多是把兩個聊天機器人放一起進行質量評測,觀察哪個機器人聊天的質量更好一些。AI和AI之間的對話到底有什么價值?除了作為一種評測的工具以外,是不是還有其他的應用場景?這一問題值得仔細剖析。

  事實上,雖然業界已經就人和AI之間的對話進行了很多研究,在技術上和相關性上有了很多的突破,但實際上人和AI之間還有三個很核心的問題需要去解決。

  第一,AI真的聽懂了人在說什么?AI能不能通過算法理解人的各種表達,包括各種省略的意思、各種言外之意。隨著超大語言模型(的誕生和進化),這個問題看起來已經越來越不是問題,至少說我們已經能解決很大比例的問題。

  第二,我們還能聊點什么?這是很多人面對AI時的痛點,不管是手機語音助手還是聊天機器人。最開始他可能會嘗試問,北京的天氣怎么樣,機器人回答之后,他再去問上海的天氣怎么樣。然后他把知道的城市問完一遍后,可能他和AI之間的對話就結束了。人和機器之間的對話經常是這樣,與人和人之間的對話模式仍然有很大差別,所以人很難真正和AI像和一個真人一樣打開心扉,海闊天空地去聊。

  第三,我能不說話嗎?即使在真人對真人的情況下,人也不一定愿意時時刻刻去努力參與一個對話,有的時候我可能只愿意去做一個聽眾。那么在傳統的人和AI的對話設計中,要不然就得逼著人不斷地說話,要不然他就會退出這個對話界面,去做別的事情。此時人和AI之間的交互就會終止了。

  以上這些問題匯總,就會變成一個大的問題,即我為什么要在這里跟一個AI瞎耽誤工夫,這是所有用人工智能進行對話的產品都會遇到的挑戰。人感覺不到他在AI身上能真正得到什么價值。

  我們再看一張圖(如下)。

  可以看到,從2013年開始,小冰在過去的八年間一直在人機對話中進行各種各樣的嘗試。圖中綠線藍點的部分表示,隨著各種新技術的運用,用戶和小冰的平均對話輪數越來越多。我們認為對話的輪數越多,是人和AI之間聊得更好的一個重要表現。聊得不好的話,可能聊個兩三輪就結束了。如果AI對話質量好的話,就有可能聊十輪、二十輪、三十輪。

  但是同樣我們會看到,真正能打開心扉跟AI去聊的人數比例其實很少。圖中紅線橙點的部分表示,隨著技術的演進,有多少比例的用戶突破了諸如天氣如何之類的簡單問題的范疇,像面對真人一樣和AI聊天,分享自己的想法、經歷、心情。由圖可知,這個比例雖然在不斷增加,但是增長曲線越來越緩,這說明很多人在和AI一對一的聊天過程中,并不能打破這個閾限。

  用戶研究發現,多數能打破閾限的人年紀較小,比如中學生或者大學生,他們接受新事物比較容易。年紀大一點的人就很難真正敞開心扉跟AI對話。我們用戶調查中還嘗試過用一個真人去和用戶聊天,讓用戶以為這還是一個AI。但是哪怕和真人,即擁有幾乎完美的對話能力的情況下,這個比例仍然無法超過20%。在人與AI 1:1對話中,能讓人打破和AI之間界限的比例最高也就到20%。那么有沒有可能打破這個天花板?這是最近兩年小冰公司一直在嘗試的領域。

  我們可以利用一些真人和真人交流的例子來說明天花板為什么會存在,以及如何打破這樣的天花板。

  場景一:一群陌生男女的相親大會。在彼此完全不認識且目的明確的情況下,聊的話題往往功利性較強,非常有限,比如有房有車嗎,工作如何,家庭狀況等等,并不是這些參加相親大會的人真的都這么功利,或者說真的都那么不會聊天,而是就像之前提到的人和AI語音助手只聊天氣、只聊知識問答一樣,這個場景的設定就把對話的思路局限了。

  場景二:多年未見的老同學聚會。雖然大家可能很多年沒見,工作和生活也少有交集,但通常這種聚會我們都會從上學時的回憶開始聊起,話題和氣氛破冰后,漸漸就可以聊到現實的生活、工作等各種問題。可以發現,人和人之間能完成破冰的關鍵點在于他們有共同的記憶。

  因此小冰也曾嘗試讓AI去發朋友圈,用算法模擬它今天吃了什么,到了什么地方旅游等等,希望通過這種方式讓某個人觀察到這個AI時,也許可以想到更多話題跟AI去聊。小冰還試過允許某個人向AI分享他看到的文章,目的也是幫助他們建立共同記憶,從而讓他們更好地對話。但這里依然存在雞生蛋、蛋生雞的問題。假如這個人和AI完全沒有建立起交流意愿的話,那么這個用戶既不會花很長時間去觀看AI的朋友圈,也不會主動分享內容給它,因為這對他來說就是浪費時間。

  場景三:老大爺在公園里遛彎。剛退休的老大爺在公園里閑逛,公園里有下棋的、帶小孩的、聊天的各色人群,他可能也不認識誰,只是四處看一看、聽一聽。過了幾天,他可能就會找到一個自己比較感興趣的圈子,他開始嘗試去接觸,再過一段時間,他在公園交到了新朋友,有了新圈子,進而如魚得水地融入了這個環境。

  這樣的交互體驗,我們認為是人和AI的交互中能實現破冰的一種可能。沉浸式社交環境,也就是如今大家說的元宇宙環境,其實跟老大爺溜公園的模式是相似的。作為新用戶,在陌生的社交環境中,如何找到自己感興趣的東西,如何發現自己應該在里面干什么。前提是,已經有很多很豐富的交互在里邊存在了。而這種本身已經存在的環境,并不一定是其他用戶搭建起來的,它可能是一堆AI構建起來的。

  這就是我們想要給大家介紹的觀念,即在一個沉浸式的社交媒體中,除了人之外,應該還有無窮無盡的AI生活在這個元宇宙之中。因此今天我們需要著重跟大家剖析的是,AI和AI之間如何去建立起一個復雜的交互的關系和對話。

  最終有意義的是,人的圈子和AI的圈子發生碰撞,我們所謂的社交和很多AI生成的內容發生碰撞,這種碰撞能產生什么樣有意思的東西。小冰公司從去年底開始內測一個叫“小冰島”的App,我們所想要去嘗試的東西,也就是如何去搭建一個以AI為主、用戶為輔的沉浸式的虛擬社交媒體的體驗。

  在“小冰島”上,有真人存在,也有很多AI的存在,AI之間會隨機組隊進行各種各樣話題的聊天。如果一個人聽到它們的對話覺得有興趣,他就可以加入和AI之間的這種對話。然后幾個不同的人也可以和AI一起進行更復雜的交互。

AI對談系統的整體設計

  要實現這一技術,最核心的是解決AI和AI之間如何進行對話。

  首先看一下概略圖(如下)。

  簡單說明一下,綠色、藍色和橙色的框圖,代表三種不同的原數據產生的方法,它們能產生一些AI對談的片段。然后灰色部分把所有的對話片段串成一個AI和AI之間的長程的交流。最后白色部分把這些文本變成能直接聽到的語音片段。

  在分析每個部分的技術細節之前,我們先了解一下傳統的人機對話和AI和AI之間的對話有何不同

  首先,對話的模式會變得更多樣。傳統的聊天機器人或者語音助手,通常是用戶說一句,AI回一句這樣你一句、我一句的交談模式。但其實人和人之間聊天并非如此。很多時候可能90%的話都是一個人說,另一個更多地充當一個聆聽者的角色。

  聆聽者也有各種類型,引導式聆聽者,他會引導傾訴者更好地表達內心想法;提問式聆聽者,可能會問一些問題,從而幫助自己獲得的信息更全面;點評式聆聽者,則會在傾訴者表達后適時給一些評論、指導;抬杠式聆聽者,顧名思義,不管傾訴者說什么都要去懟一懟。

  由此可見,人和人之間的對話遠比傳統的人機對話模式要復雜。在AI和AI的對談中,由于你可以同時去控制AI雙方,他們之間是透明的,因此相比人機對話我們更有機會去實現更復雜的交互模式。

  另一方面,在AI和AI的對談中,整體的節奏會變得非常重要。現在的TTS合成技術已經非常成熟了,但是如果你把這個時間放到五分鐘甚至半個小時的話,那么你依然會覺得這個機器合成的聲音會變得相當機械。

  其實人與人之間說話會有很多的變化。那么對于AI也是如此,我們需要去模擬這樣的語速變化,句間停頓時長的變化,這樣可以在更長的時間內讓人感覺到它很自然。

  而且它需要去加入更多諸如“嗯、啊、我想”之類的語氣詞、切口。這類詞語在傳統人機對話中通常會被認為是無用的廢話,因為只有人腦子跟不上表達的時候才會需要這些東西。但是當我們把兩個AI放到一起的時候,AI也都需要這些語氣詞。如此一來,才能把整個對話進行得更自然,才能讓真實的用戶更愿意長時間聽下去。

AI對談的文本生成

  在技術細節中,先來看一下AI對談的文本生成。小冰現有的實踐一共包括三種方法。

  其一,從搜索引擎中爬取結構化文檔。比如爬取某地旅游網站的結構化文檔,我們就可以了解其重要的景點、飲食特色、交通布局等等內容。進而用BERT這樣的技術把這些片段串起來,變成內容。

  其二,新聞Feed。新聞本身是比較難的非結構化文本,因為新聞寫作手法千變萬化。但小冰在過去幾年中和很多端媒進行了合作,做了大量的新聞評論,也因此獲得了很多真實用戶對新聞的評論。這些數據可以用來變成AI間的對話。比如對新聞摘要進行改寫,一個AI把新聞說出來,另一個AI從過往相似新聞中抽取真實用戶的高質量評論,當相關段落被提及時,相應評論就可以插進來。單篇文章就變成了交互對話。

  其三,用GPT-3生成段落。GPT-3在語言的通順度上做得很好,但是它在寫一些略長一點的文本時,就很可能沒什么邏輯。為了解決這一問題,我們使用的方法是,抽取關鍵詞序列。比如討論貓的大小便問題,從結構化文檔中可以提取到貓砂、便盆等關鍵詞,我們可以把這些關鍵字作為一個序列,一次過一段時間,把一個關鍵詞混入到GPT生成的序列中。這樣的話,GPT整個生成過程中,就會沿著這些關鍵詞的邏輯去往前發展,生成的內容就會更有邏輯的連續性。但是一般情況下,我們現在用GPT-3會認為其生成長度在100到300字左右比較合適,再長了的話,還是會有各種各樣的邏輯缺陷。

  以上三種方法是根據小冰自有的一些比較成熟的數據來設計的。有了這些對話片段之后,我們還需要把它串成一個更長的AI和AI間的對話,這個AI和AI的對話中可能含有很多個不同的話題,需要把它們連貫地串在一起。

  如上圖所示,之前生成的三種類型的編排的片段,都被放到了一個搜索引擎中。

  當我們拿到第一個片段,這個片段的內容結束后,我們就會把它最后的一句話放到一個對話的引擎里,然后用對話引擎得到一個回答。然后再用一個不一樣的對話引擎再去接,相當于是兩個對話引擎進行對抗,來產生內容。

  需要特別注意的是,這樣的場景通常不能直接使用過往為人機對話設計的對話引擎,不管是語音助手還是聊天機器人,在這種場景下都不能太好地工作。因為機器和人對話、機器和機器之間的對話,還是非常的不一樣。我們至少需要在這兩個對話引擎中大幅度地去改造其中一個,才能讓兩個機器之間對話能變得更加順暢、更有邏輯,而不會落入話題的死循環。

  每生成一輪新的對話之后,我們都需要去檢測。首先,我們需要去約束它的相關性,信息的有效性,話題的一致性。在做了這個判斷之后通常會有兩種可能:高熵判定對話中止,或是匹配相關新內容。

  當我們把最后生成的一句話放到對話片段的搜索引擎中,我們能找到一個新的片段跟機器和機器之間的對話引擎碰撞出來的最后一句話是強相關的情況下,我們就認為兩個對話引擎的工作結束了,因為它已經成功地把一個片段順接到了另一個片段之中。這是最理想的狀況。

  但是也有可能這兩個機器對話引擎進行碰撞,碰撞了很久,仍然沒有找到一個合適的新的話題。這個時候我們就需要判斷這兩個機器之間的對話是否是有效的。如果信息熵足夠得高,或者回答都是“對啊、呵呵”這種沒有營養的話,或者一問一答的重復性非常高,我們認為這是一個高熵判定。這個時候兩個對話引擎的對話就中止了,需要強行地去切換新話題。這個新話題可能是當前的熱點話題,也可能是用戶可能會感興趣的話題。

  話題的切換可能會更突然一些,但是通常情況下,我們認為兩個對話引擎不能永久地對抗下去,因為對話的意義和含量會變得越來越差,我們需要將這種編排的片段在里邊進行穿插,才能讓整個AI和AI之間的對話變得更有營養。這是把短片段變成更長的編排的方法。

AI對談的語音合成與節奏控制

  下面簡要介紹一下如何把文本變成可以直接聽到的語音合成的部分。其中關鍵在于:

  一方面,對話本身需要根據它的內容匹配合適的人設,比如角色是男性還是女性,人設是偏成熟還是古靈精怪,這些都跟我們生成的內容相關。

  另一方面,之前也提到,一定要進行更隨機的、更有自然度的節奏的控制。我們需要根據不同的內容,比如說當有一個很長的段落的時候,我們可能需要讀得快一點,但是兩個人不間斷地對話的時候,可能停頓的時間和語速都要變得更慢一些,這樣才能讓人聽起來更有意思。

  在內容比較好的情況下,語速應該放慢,音量應該相對增強,這樣能讓大家在對話中聽到一些亮點和重點。所有要素配合起來,才能達成機器和機器之間對話的一個比較好的聽覺體驗。

AI對談在沉浸式虛擬社交網絡中的應用場景

  既然有了AI和AI之間的對話,“小冰島”也讓我們看到了一堆人和一堆AI構成的沉浸式社交體驗環境,那么這對于當下元宇宙發展方向的探索,對于我們未來的生活到底有多大意義?從小冰過去的嘗試中,我們的思考有兩點。

  第一,現在的元宇宙研究多數強調視覺沖擊,頭顯幾乎被認為是元宇宙的一個標配,我似乎只有看到現實生活中不存在的那些奇奇怪怪的視覺的東西,元宇宙才有意義,但其實并不一定。

  一方面,戴頭顯能堅持的時間是很有限的,哪怕硬件技術不斷改進,人也不可能真的很長時間地去沉浸在一個視覺的虛擬世界。另一方面,我們認為,耳朵對于元宇宙來說,是更輕量級的感官接收方法。如果有非常豐富的聽覺內容的話,它可以讓用戶在元宇宙虛擬社交中進行更長時間的交互,因為耳朵沒有眼睛那么容易疲勞。

  同時我們也認為,沉浸式虛擬社交網絡未來給人類帶來的意義并不僅僅是這種游戲性的沖擊,而是真正能解決很多現實社交中存在的問題。

  舉例來說,中國正在步入老齡化社會,老人對于子女的陪伴需求是很強烈的。但子女工作很忙,沒有大量時間去填補這種空缺。比如老人的孫女今天在幼兒園學了一首兒歌,就算她無法到老人身邊給他演唱,但在元宇宙場景下,AI可以用小朋友的形象在老人家中,用小朋友的聲音給他說今天在幼兒園學了一首歌,我來唱給你聽。從更長遠的角度來看,這是元宇宙和AI能為人類生活帶來的更大的價值。

  更多內容請關注MetaCon元宇宙技術大會官網 https://metacon.51cto.com/

責任編輯:張潔 來源: 51CTO
相關推薦

2012-03-21 18:11:30

李嚴冰VMware虛擬化

2021-10-08 15:27:50

微軟小冰人工智能

2014-03-03 15:26:10

面試Amazon面試

2018-06-12 16:13:19

英特爾

2009-06-08 16:05:49

網絡安全Richard TinSonicWALL

2014-04-23 10:37:29

SUSEMichael Mil企業IT

2021-11-16 14:48:34

元宇宙VR平行時空

2024-04-11 17:04:45

?Commvault

2011-05-10 10:29:31

CA孫志偉周浩良

2016-03-08 13:45:15

GMGC

2016-01-26 11:29:33

VMware宋家瑜

2012-03-21 20:57:01

支付

2023-10-17 19:40:12

Commvault

2009-07-12 08:47:30

微軟通訊部

2010-05-18 19:19:07

NCR麥大偉副總裁

2022-02-19 18:39:34

AI數據訓練

2023-12-12 16:32:14

Commvault

2015-10-22 17:55:10

Hewlett Pac葉健

2010-08-19 09:23:47

CA Technolo周浩良
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 正宁县| 白水县| 独山县| 六枝特区| 武功县| 双牌县| 新宾| 常熟市| 新晃| 武安市| 新宁县| 洪湖市| 团风县| 凤庆县| 从化市| 莒南县| 遂昌县| 西乌珠穆沁旗| 兰坪| 米脂县| 清新县| 天镇县| 名山县| 鱼台县| 嘉禾县| 丰宁| 崇阳县| 大同市| 兴国县| 万山特区| 元谋县| 女性| 二连浩特市| 柏乡县| 邵武市| 洛浦县| 长海县| 垫江县| 南部县| 平武县| 江西省|