Sergey Levine教授解讀機器人AI的演進
?“想象一下,有一天我們能夠打造出一個在廚房里執行各種任務的家庭機器人。那么問題就不僅僅是感知了。你真的需要學會各種個人操縱技能,以便能夠廣泛地泛化。”
—— Sergey?
Craig: 嗨,我是Craig Smith,歡迎收聽《AI視界》。今天我和Sergey Levine進行了交談,他是加州大學伯克利分校的副教授,在該校的機器人人工智能與學習實驗室從事研究,并推動著AI控制機器人的邊界。Sergey談到了他最近在強化學習和從世界各地的機器人中聚合數據集方面的一些工作,以幫助訓練一個能夠在不同類型的機器人之間泛化的模型。這是關于具身AI的激動人心的研究,將這一變革性技術從計算機帶到了現實世界。我希望你會像我一樣覺得這次對話很有趣。那么,Sergey,你能先介紹一下自己嗎?
Sergey: 我是加州大學伯克利分校的副教授,之前在斯坦福大學獲得了博士學位,我還每周在谷歌的機器人部門工作一天,也在那里從事機器人學習方面的工作。我的研究涉及機器人領域,但也涉及到機器學習、強化學習等許多其他相關技術。最近,我的團隊還在從事與語言模型、計算設計等相關的強化學習工作,以及決策制定的其他方面。
Craig: 大家都在談論世界模型,他們正在將世界模型和語言模型結合起來。你有在研究世界模型嗎?你對此持什么看法?
Sergey: 是的,我想我有一些話可以說。通常,如果我們想要控制機器人系統,機器學習有幾種方法可以實現這一目標。一種非常簡單的方法是模仿學習。模仿學習就是利用通常由控制系統的人提供的演示,然后模仿這些演示來嘗試生成一個代理。機器人也可以為其他很多事情服務。可以說,語言模型只是巨大的模仿學習機器,因為它們在模仿人類生成文本。還有許多其他方法可以做到這一點。
Sergey: 所謂世界模型實質上就是一個動態模型,它表示環境將如何響應代理的行為,我們也可以從數據中學習到這一點。在強化學習中,通常將其稱為基于模型的RL。基于模型的RL意味著訓練一個模型來模擬環境行為,然后使用該模型來確定在世界中如何行動。實際上,這是一個非常古老的學科。事實上,在模型無關RL變得如此流行之前,最早的學習控制方法實際上是基于模型的RL方法。一些最早期的神經網絡控制方法實際上使用了動態建模。而且,有很多不同的實例化方法。你可以通過采取圖像觀測并進行視頻預測來實例化動態模型或世界模型。你也可以通過學習非重建性表示來實例化它們,或者是大致上捕捉系統狀態而不一定將其重新映射回像素,然后進行預測。因此,有很多不同的方法來做到這一點。
Craig: 最近我和Wave談到了他們的Gaia模型,并看過了相關視頻。但他們將該模型內置到一個控制器中,連接到一個控制器,用于操作自動駕駛車輛。與您所從事的強化學習有什么不同之處,這種結構或架構有什么不同?
Sergey: 我覺得我沒法說太多,因為我不知道他們的系統是如何工作的。我看過公開材料,和其他人一樣,但我對細節并沒有真正的了解。也許有一點我可以說的是,大多數基于學習的控制方法不一定需要預測機器人攝像頭將來會觀察到的原始像素。這是一種方法,可以通過這種方法做很多事情,但我認為更重要的區別實際上是我們能夠多大程度上利用數據來產生更優化的決策,通過預測是一種方法,你可以預測像素,這就是視頻預測模型所做的。你也可以預測結果或獎勵,這是價值函數所做的。歸根結底,它們實際上并沒有那么不同,也許更大的區別是你能否得到一個在真實世界中真正有效的系統,是由訓練數據決定的。例如,如果你想要實際在廣闊的開放世界環境中工作的機器人操作系統,你需要在廣闊的開放世界環境中對其進行訓練。所以我在研究中實際上關心的很多內容是,我們如何開發可以使用大量數據的基于學習的控制技術,以及我們如何確定我們可以獲取什么樣的數據集來獲得真正的泛化能力?在我的情況下,通常是機器人操縱技能,但也包括機器人導航技能等方面的技能,比如倉儲系統的操縱。
Sergey: 很多時候,這些問題在很大程度上可以歸結為感知問題。所以如果你以正確的方式構建你的環境,那么只要你能夠檢測到物體在哪里,你就可以使用手工設計的策略來解決這個問題。這種方式往往效果不太好。如果你想把機器人系統帶到更開放的環境中,比如有一天你想象中建造一個家用機器人,可以在廚房里執行各種任務,那么問題就不僅僅是感知了。那時你真的需要學會各種個人操縱技能,并且需要能夠廣泛地泛化。
Sergey: 所以在這里我可能可以討論一下一個我們最近實際上做的項目,這實際上是谷歌、伯克利和其他幾所大學之間的合作項目,試圖看看我們如何能夠得到真正能夠泛化到不同機器人形態的機器人控制器。這實際上非常重要,因為如果很多問題都涉及到數據,那么從一個單一機器人中獲取到廣度和多樣性的數據,使得家用機器人能夠實現你所期望的廣泛泛化,是非常困難的。但如果你可以從許多不同的機器人中匯集數據,那么也許你就可以真正地獲得這種覆蓋范圍。而且,如果你真的能做到這一點,并且你得到了一個可以在各種機器人之間泛化的系統,那么你就可以得到一些真正酷的東西,原則上,有人可以組裝一些新的機器人系統,然后將這種機器人大腦插入其中,立即獲得可以控制該機器人的東西。到目前為止,我們在這方面所做的工作并不是太關心構建更好的模型,而是僅僅是獲取這種多樣化的數據集,并應用我們之前已經開發的標準技術,而這實際上效果還不錯。這個項目叫做RTX,其想法是我們從最后有34個不同的研究實驗室那里獲得了數據。
Sergey: 谷歌是其中之一,伯克利也是。實際上,在伯克利有兩個實驗室參與了這個項目,然后我們在這個數據上訓練了一個模型,來執行基本上是以語言為條件的操縱任務。
Sergey: 我認為你給機器人一個指令,比如撿起番茄放進碗里,機器人應該執行這個任務。然后我們拿這個模型,交給了貢獻數據的不同實驗室,并讓他們與他們研究的任何模型進行比較,基本上是在他們自己的系統上進行訓練的,而多機器人模型實際上在成功率方面,平均提高了約50%,這實際上非常有趣,因為這與每個實驗室的個體系統相競爭,并且可以假設有優秀的研究人員。他們建立了一個相當好的工作系統。現在,這實際上是一種模仿學習方法,是以語言為條件的模仿學習。我認為,無論是模仿還是預測還是世界建模,我認為這些技術中的許多技術都可以做到。我想要傳達的更重要的信息是,通過實際獲取這些數據集,你實際上可以得到一個可以插入所有這些不同機器人的系統,并且實際上從中獲得良好結果。
Craig: 嗯,這很有趣。這個模型是通過各個參與實驗室的數據集進行訓練的。
Sergey: 是的,在這些實驗中,我們并沒有測試它是否可以泛化到一個新的機器人。這對于這個領域來說是一個非常激動人心的前沿,但那仍然是在未來。這只是試圖回答這樣一個問題:如果你包括其他實驗室的數據,那么一個實驗室的機器人是否會變得更好?當然,如果你處于少數派,如果你是那些提供相對較少數據的團隊之一,你會預期看到相對更多來自其他人的好處。有趣的是,即使是大多數貢獻者也看到了很多好處。
Sergey: 所以可能最大的數據集約有10萬次試驗,來自谷歌自己的機器人,也就是我們在很多機器人研究中使用的移動底座。通過這個系統,我們實際上能夠在各種測試中對其進行測試。我們有一套困難查詢的測試套件。實際上,這些查詢需要從網絡上合成預訓練的知識以及良好的指令跟隨能力,因此這些需要空間推理等技能,而在最困難的測試中,我們實際上看到了性能提高了三倍,僅使用谷歌數據集。現在在我看來,這實際上是非常深刻的,因為谷歌的數據集是非常精心策劃的,是由專業人士收集機器人數據的,而事實上,將所有這些來自長列表的學術實驗室的額外數據源包括在內,實際上導致了這么大的改進,這確實表明了當你將足夠多的來自不同來源的數據組合在一起時,會發生一種神奇的事情。是的,所以對于這些實驗,我們實際上是在傳遞模型。好的,數據集現在是公開的了。
Sergey: 所以任何人都可以拿到這個數據集并下載它,然后訓練自己的模型。實際上,我們在加州大學伯克利分校有一個正在進行的項目,我的學生們都在參與。對于那個最初的實驗,只是模型權重。嗯,這很有趣。只有模型權重。
Craig: 那么這個模型的架構在每個實驗室都在復制。他們沒有使用自己的模型。
Sergey: 是的,對的,所以這是完全相同的模型,完全相同的權重,必須驅動所有位置的所有機器人。是的,如果你仔細想想,這實際上是一件非常不容易的事情,對吧?因為模型只能看到機器人通過攝像頭接收到的東西,必須解決這個問題。現在我正在駕駛一個U形機器人,一個UR-10工業機器人,與現在我正在駕駛一個成本低廉的WTOX機器人相比,或者現在我正在駕駛一個Franca或谷歌機器人,然后相應地調整控制。
Craig: 我在實驗室時記得,你們的機器人是網絡化的,所以從一個機器人學到的知識會更新到一個中央大腦,然后控制每個機器人。你是否進行過類似的更廣泛的實驗,就像這個一樣?
Sergey: 是的,是的,我很高興你問到了這個問題。實際上,在過去的五年里,這正是我們一直試圖做的事情,從某種程度上說,這種多機器人訓練的努力部分上是承認了這種臂農場方法的局限性。所以把很多機器人放在一個房間里是很好的,如果你想要原型化,比如說,強化學習算法,但是如果你真的想要廣泛的泛化,它們不能都在同一個房間里。所以你真的需要更好地覆蓋世界,通過匯集來自許多不同地點的機器人的數據,現在你可以得到更好的覆蓋。現在這仍然是一個可能成為更大系統的原型,因為這些仍然是研究人員收集的數據集,本質上是在做科學實驗。所以你可以想象,將來,匯集不會是跨不同的研究實驗室,而是跨不同的部署機器人。
Sergey: 現在,當然,這是一個更復雜的任務,需要不僅僅是科學,還需要某種組織的努力,公司的共識等等。但我認為,這實際上是真正的問題,一旦這一點得以實現,你可以想象未來,來自各種不同地點的各種不同部署機器人的數據流將被聚合起來,然后用于訓練一個集中式的機器人大腦,然后將其交給這些機器人以提高它們的性能。我們想要冒這個項目的風險的關鍵是,即使在任何規模下進行這樣的操作,你知道,即使在學術實驗室的規模下,你是否可以得到一個可以驅動所有不同機器人的策略?因為如果這是不可能的,那么聚合異構數據就行不通,我們需要想辦法進行標準化。標準化是困難的,所以現在我們知道的是,我們不必太擔心標準化。
Craig: 是的,這個模型,然后權重被傳遞,它們控制著不同形式的功能機器人,對吧,我是說?或者它們只是變種?
Sergey: 所以在這些實驗中,機器人都是帶有并行夾持器的手臂。我們現在正在試驗單臂和雙臂系統之間的泛化。將來某個時候,我們還將研究多指系統等等。到目前為止,真相是有點廣告,它只是一個帶有并行夾持器的手臂。它們只是不同品牌的手臂。現在它們確實有很大的不同。所以小規模的業余Widow X手臂可能長約50厘米,相對較小,夾持器較弱。而UR-10機器人是一種用于制造業的工業機器人,相當大,更強壯,有更強大的電機,更強的夾持器,等等。所以有很多的變化。但它們仍然是同一類型。
Craig: 是的,你在這些聚合數據上訓練的模型是強化學習。你能描述一下這個模型嗎?
Sergey: 我們實際上訓練了兩個模型。一個基于去年在谷歌開發的RT1模型。RT1模型基本上是一個Transformer,它讀入語言指令、命令、圖像,然后輸出離散化的、分詞化的行為。所以它幾乎可以說是基于Transformer的策略的最明顯的設計方式。第二個模型是RT2模型,這是一個更近期的發展,它實際上使用了一個來自預先訓練的視覺語言模型的骨干。
Sergey: 所以視覺語言模型是經過訓練的,可以查看圖像并輸出文本問題的回答。所以你給它一張圖片,然后你說像這張圖片里有一只狗嗎?它會產生一些文本來回答。然后我們拿這個視覺語言預訓練的骨干,然后進一步在機器人數據上進行微調,以輸出機器人觀察的機器人行為。所以你可以想象一下,VLM有很多任務可以做。它可以回答問題,它可以產生標題。現在還有一項任務,那就是給定一個機器人指令,輸出機器人的動作。現在這是一個更強大的模型,因為它有來自視覺語言模型預訓練的互聯網知識,然后我們用于更復雜的查詢,如空間關系等等。
Craig: 你大部分的工作都是在數據方面還是在模型方面。
Sergey: 嗯,實際上兩者都是,某種程度上它們也是相輔相成的,因為取決于你的算法能處理什么,這將決定你需要獲得的數據類型。例如,我實驗室現在做的更多的算法工作關注的是離線強化學習技術。
Sergey: 離線強化學習基本上是一種利用數據產生更優策略的方法。因此,模仿學習方法。它們接收數據并產生重現數據中行為的策略。離線RL方法接收數據并嘗試產生比數據中平均行為更好的行為。因此,直觀地說,你可以將其視為使用數據來了解可用的選項,然后在這些選項中選擇最佳的。實際上,像我們之前討論過的使用世界模型的方法,可以看作是離線RL方法,因為它們的工作方式通常是在現有數據上訓練世界模型,然后使用它來提取比數據集中典型的東西更好的控制策略。但也有其他建立離線RL技術的方式,不依賴于世界模型,而依賴于價值函數等等。
Craig: 你認為研究將朝著什么方向發展,因為一切都在如此迅速地發展?對于機器人控制來說,你認為研究將會確定一種架構,然后會有該架構的不同版本,但每個人都會同意這是最好的方式,然后只是一個訓練的問題,泛化跨機器人和網絡化數據?還是你認為將會有一系列模型用于各種功能?
Sergey: 是的,好問題,所以我會給你一個答案。這是一個稍微理想化的答案,也許這更像是我希望事情朝著的方向發展。我不知道這是否一定是事情將會發展的方式,但我認為對于機器人學來說,采用一種習慣性地擁有可重用模型的范式是非常重要的,在計算機視覺和自然語言處理中,如果一個研究人員提出了一個好的模型,其他機器人研究人員應該能夠使用它。
現在,這可能看起來是一個非常明顯的事情,但實際上這并不是機器人學今天的工作方式。大多數機器人學習研究,產生的工件實際上不是模型,而是代碼、論文或見解。這些模型本身幾乎從來不是可移植的,更不用說跨實驗室甚至同一實驗室不同位置,同一實驗室不同時間等等。
Sergey: 我認為我們真的需要將這個過程轉向一個方向,即我們有了在不同位置和系統、不同對象等等之間進行泛化的數據集訓練的模型,然后我們可以將其提供給其他研究人員、其他從業者,他們也可以在他們的系統上運行,一旦我們找到了一個這樣做的好方法,也許使用像RTX數據集這樣的東西,它有多個機器人,也許使用其他數據,但是一些我們可以養成這種習慣的東西。
Sergey: 那么我們實際上可以作為一個社區朝著共享的、可泛化的系統的方向取得更多的進展。現在,在這之前,絕對不能質疑人們是否會使用相同的架構、相同的模型,如果他們甚至不能在之間共享任何東西,那是不可能的。但是一旦我們可以分享一些東西,也許關鍵是一個數據集,它能夠實現這一點,那么社區就可以找到解決辦法,也許到了那時,也許有一個單一的預訓練的骨干,就像自然語言處理中的Lama模型,在機器人學中有一個類似的模型,然后人們可以在其上構建。或者也許會有幾種這樣的東西。也許會有一些大的、設備齊全的實驗室生產的東西,其他人就可以在此基礎上構建。但在我們達到任何這些目標之前,我們需要養成一個實際上可以運行的模型的習慣。
Craig: 機器人學的另一方面就是硬件,我前幾天和一個人談話,他談到了機器人控制系統的未來,他非常樂觀,說三到五年內將會有家用機器人,這聽起來對我來說不太可能,因為僅僅硬件方面就不是至少我見過的硬件,它們還沒有能力在充滿隨機性的非結構化環境中進行釋放。你認為硬件與人工智能的發展步調一致嗎?還是滯后?
Sergey: 這是個很好的問題。我認為這個問題非常重要的一部分就是我們需要什么樣的硬件。我認為在很大程度上,學習方法實際上應該降低硬件的門檻。基本上你可以做的一種練習是拿一個類似垃圾拾取器的小設備,看看你可以在家里做什么樣的任務。我是說,顯然它非常有限,所以有些事情你可能做不到,但也有很多你可以做的事情。當然你可以打掃地板,把東西放在廚房的不同位置。一個相對原始的機器人系統實際上可以完成很多事情。
Sergey: 切爾西·芬(Chelsea Finn)教授團隊的一項非常出色的工作,我也在其中稍微幫了點忙,由一位名叫Tony Zhao的學生開發了一個由Trostin Robotics的兩個低成本機器人組成的雙手臂機器人系統。所以這些甚至不是高級的工業機械臂。它們基本上是非常復雜的業余機器人。所以它們每個大約花費5000美元,他的研究中大部分的聰明之處在于設計了一個非常方便的遠程操作系統,一個他可以用手持的方式控制這個相當便宜的雙手臂系統的遠程操作裝置,他會展示各種非常復雜的行為。你可以看到像給腳穿鞋,用膠帶把箱子固定住等等,然后你知道可以產生自主策略的學習方法設計得很好,但并不特別深刻。
Sergey: 它基本上使用了最先進的基于Transformer的技術,但并沒有真正具有任何特別驚人的創新。關鍵在于構建一個真正好的遠程操作系統,使他能夠產生這些行為,然后有一個非常高質量的工程師將其轉化為策略。所以這被稱為阿羅哈系統,對于那些正在聽的人,我鼓勵你們去看一看,它可能會給你們一些想法,即使是非常原始的硬件,如果配備了正確的數據,正確類型的遠程操作裝置來提供數據和良好的基礎現代機器學習技術。現在這仍然不能完成家務,但我懷疑對于觀看這些阿羅哈視頻的人們來說,這可能會稍微改變他們對于我們每天任務所需硬件的想法。所以可能仍然存在一些創新,但可能比你想象的要少。
Craig: 這很有趣。控制器方面,人工智能方面,模型方面,這是?我是說,如果那個硬件是足夠的,那控制方面還需要多少進步?
Sergey: 這是一個復雜的問題,因為這可能在很大程度上取決于對穩健性和泛化程度的要求。在某種程度上,這有點類似于自動駕駛的故事,如果你想要構建一輛能夠在90%的情況下成功的自動駕駛汽車,那么這可能是我們已經有了十多年的事情了。但是如果你想要一輛能夠成功避免災難性故障的自動駕駛汽車,具有足夠的穩健性,可以在任何城市的任何道路上部署,只需處理所有那些邊緣情況,那這仍然是一個懸而未決的問題,我認為對于家用機器人也將是一樣的,如果你想削減大部分的事情和大部分的情況,也許那還沒有完全到位,但我認為可以想象我們很快就能達到那個目標。但要完全解決那些邊緣情況需要多長時間,這是一個更加復雜的問題。
Sergey: 我認為一個非常有趣的事情是,在過去的12個月中,視覺語言模型的發展程度,這對于機器人來說尤其重要,因為雖然視覺語言模型通常用于更多的感知、傳統感知任務、問答等等,但是關于視覺觀察的推理,關于對象的空間布局的推理,這些事情很可能會轉化為更好的機器人能力,因為泛化是我提到的那些大挑戰之一,邊緣情況問題,我認為有很多理由對這些模型最終改善機器人控制器的穩健性感到樂觀。
Sergey: 人們正在談論將語言和視覺,或者我應該說語言和世界模型,結合到能夠進行推理、規劃和采取行動的代理中。這聽起來對我來說非常像機器人控制。
Sergey: 我想問的是,研究和從事機器人控制的人們,研究走在不同的軌道上,答案有點復雜,但簡單來說,也許是,是與許多機器人問題密切相關的。事實上,在機器人領域,有很多關于使用語言模型構建計劃,然后將這些計劃連接到某種可以實現它們的控制機制的工作。現在,這方面的工作可能大約是在兩年前開始的。在這個領域,可能更為人熟知的一項工作是谷歌的Seikan論文,它使用語言模型為機器人規劃了長期行為。最初在這個領域,人們關注的一個重大挑戰是如何將語言模型與感知和行動連接起來,因為標準的語言模型必須在世界的符號表示上運行,所以你必須將這些符號表示與豐富的感知和復雜的執行聯系起來。最初這樣做的方法是沿著你描述的方式進行的,試圖構建一種聯合規劃過程,該過程將找出一個概率序列的符號步驟,基本上是語言,以及將導致這一結果的相應行為。實際上,我的一位同事來自Skult,提出了一篇名為“基于地面的解碼”的論文,提出了一種貝葉斯濾波方法來做到這一點。不過,我們在過去的大約六到九個月里看到的一件事是,隨著視覺語言模型變得越來越強大,一種非常吸引人的替代方案是,實際上訓練模型來解決整個問題。現在這些模型仍然可以進行規劃。
Sergey: 如果你有一個視覺語言模型,可以輸出文本,也可以輸出行動,你可以進行類似于思維鏈提示的操作。你可以說,好的,這里有一個復雜的問題,然后產生解決該問題的步驟,一旦你產生了這些步驟,然后產生行動,這是可行的。所以你可以告訴一個機器人,好的,比如,準備早餐,而要準備早餐,我需要做這個和這個,然后,對于這個過程的第一步,它會嘗試輸出行動。所以這是使用視覺語言模型的一種可行方式,但這仍然是一個模型。你仍然會得到一個模型,這是非常可取的,因為如果你有一個模型,那么你就不需要解決這個問題,試圖將視覺觀察數據塞入符號表示,然后傳遞給語言模型。基本上,通過整體的聯合訓練,這個接口不是通過手工設計的,而是自然地出現。
Sergey: 這實際上是R2-2模型的原則,其中一個例子是我們詢問它。我們有意構建了一個場景,其中正確的行為有點不明顯。所以我們有一個場景,里面有一些常見的家庭用品和一些錯誤類型的工具,所以應該用一個石頭釘子。沒有錘子,但有一塊石頭,我們問,“好的,你需要用釘子釘入釘子,你應該怎么做?”然后它想出了你應該拿起石頭。它實際上說了石頭,然后轉到相應的行動。所以現在這是非常原始的規劃,對吧?所以它更像是語義推理而不是規劃。但這些東西還處于萌芽階段。我認為它們在未來幾年里還會取得更大的進步。
Craig: 在過去的五年里,我認為自從我上次和你交談以來的時間,你們領域的進步是否與生成式人工智能的進步相一致?
Sergey: 我認為機器人領域的進步總是會落后于其他領域,因為當我們找到有效的學習技術時,然后從概念上的方法到產品,再到小規模原型,再到大規模原型,總是需要更長的時間,因為對于生成模型,嗯,你可以從網絡上獲取大量數據,所以從開發方法到將其擴展到互聯網規模的數據通常的延遲時間比較短。
Sergey: 但對于機器人來說,通常情況并非如此。所以雖然生成模型的現代進展確實對機器人產生了重大影響,而且這些技術的特別有趣的適應是與強化學習、規劃等相結合,但我認為到目前為止,我們對這些事物的潛力有很多良好的跡象,但我們還沒有像擴散模型那樣為圖像生成或語言模型那樣的大規模原型。我認為關鍵是獲得這些種類的可重用模型,這些模型具有大量且多樣化的數據,這樣我們就可以生產這些更大的原型。
Craig: 是的,那么你們實驗室接下來會做什么?
Sergey: 我們希望做的一件事是向社區提供預訓練模型,現在我們實際上有了一個可以輕松適應各種下游應用的數據集。所以不只是一個可以做任何事情的模型,也許這是一個太雄心勃勃的目標,但至少是一個可以適應做任何事情的模型。所以你可以想象,比如說,一個模型被預先訓練,用于接收語言、接收目標觀察、其他形式的命令,并為各種不同的機器人體制輸出結果,這不一定是解決每個問題,但至少提供了一個很好的初始化。所以如果有人有一個特定的機器人系統,有一個特定的任務表述,一個特定的目標,他們可以拿來用這個,用更少的數據,來適應他們的問題。我認為現在我們實際上已經有了良好的多機器人數據集和相當成熟的技術,可以訓練具有可變輸入和輸出的模型,我們實際上已經準備好了。所以我們的第一個原型應該很快就會推出。但這將是第一步。
Sergey: 接下來,我們需要探究這樣一個系統的生命周期實際上是什么樣的?哪些是有效調整機器人基礎模型到特定領域、不同形態、不同命令等的正確技術?在那里可能實際上有很多有趣的問題需要解答。例如,機器人可以自主收集數據,因此你是否可以基于其中一個這些預訓練模型來進行自主微調程序?你是否可以有一個尊重安全約束的微調程序等等?所以一旦我們有了基礎模型,就有很多有趣的問題可以解答。
Craig:我一直在和人們討論專有、開源辯論的問題。在生成式人工智能和機器人領域,是否存在類似的情況,即有著巨大資源的企業?我的意思是,機器人并不像你所說的模型那樣計算密集型。是這樣嗎?因此,在產業和研究中發生的事情是否更加平等?
Sergey: 是的,這是復雜的。所以當然,計算約束是一個問題,尤其是當我們進入到視覺語言模型時。最有效的視覺語言模型實際上是最大的模型。例如,R2-2模型的最大版本有500億個參數,非常接近目前最大的模型。當然,你可以在小得多的規模上做很多實驗,這使得它在某種程度上更容易接近。
Sergey: 就數據而言,這有點有趣。肯定有一些公司部署了大量機器人。不過,這些公司的數據未必是最有趣的,因為如果它們部署在一個倉庫里,主要是拿取物品,也許在某些方面,研究人員的開放數據實際上更有趣。如果是移動性問題,如自動駕駛,情況就有所不同,像是,確實有一些大型工業公司擁有自己的專有技術,但即使在那里,像是從汽車儀表板安裝的攝像頭構建的數據集現在也非常龐大。當然,它肯定不像特斯拉或Waymo
?擁有的那樣大,但是還是相當可觀。所以我認為你說得對,一些專有優勢可能并不那么大,但這有點。或許更悲觀的看法是,因為沒有人擁有數據,所以公司也沒有數據。
Craig: 自主車輛的控制和機器人手臂或其他形式因素的控制,它們是不同的領域嗎?我是說,當你們在研究這些模型時,你們也在考慮它們在自動駕駛中的應用嗎?
Sergey: 傳統上,這些是非常不同的問題,但我們越來越多地看到一種整合的趨勢,因為非常相似的構建模塊可以被重用。所以我認為實際上的自動駕駛可能是其中最棘手的問題之一,因為有所有的約束和法規等等。但對于小規模移動機器人,比如,無人機、人行道機器人等,我們已經有研究項目開發了基于視覺的導航策略。對于這些東西,它們使用的基本上是與我們用于機器人操縱問題的完全相同的架構,一個非常自然的下一步是實際上結合起來,不僅僅是有相同的架構,而是實際上是相同的模型。
Sergey: 原則上,在這一點上,實際上并沒有任何技術障礙。現在,當然,開車,比如說,一輛自動駕駛汽車的控制遠不僅僅是避開障礙物和到達目的地。你必須加入很多知識、約束等等,這可能是相當專業化的。但我的假設是,我們可能會看到很多在這些東西的核心感知行動系統上具有相同基本構建塊的整合,也許它們的區別在于位于其上的規劃層,然后在特定情況下指導它們實際要做什么。
Sergey: 你的工作呢?因為計算約束、資金、工資等等的原因,學術界對于產業的吸引力是否更大,或者你是否在學術界和產業之間工作?你是堅定的嗎?
Sergey: 是的,我有20%的時間在谷歌DeepMind工作。我認為,就產業研究員或學術研究員在機器人領域的吸引力或進步程度而言,可能它更傾向于學術界,而不是像自然語言處理或視覺領域那樣。也許部分原因是因為在事情真正產生收入之前,還有許多大問題需要解決,你可以構建一個提供實際商業案例的語言模型或視覺系統,而類似的機器人技術可能還需要幾年的時間。不過,我確實認為進展迅速,我所帶領的許多學生對于基于他們正在開發的技術創辦公司等事情感到興奮。所以我認為在不久的將來我們將會看到這方面的追趕。
Craig: 你認為今年AI進入公共領域,人們經常將機器人與AI混淆。這一天會到來嗎?我是說,顯然這一天會到來,但你認為什么時候會到來,當會有一些商業應用或開源應用被公眾接受時,人們會突然談論機器人而不是AI嗎?
Sergey: 是的,這是一個復雜的問題,因為我認為如果我必須猜測,我會猜測除了核心技術之外,還需要相當大的前期投資來克服實用化的激活能量。在某種程度上,這并不是前所未有的,因為與語言模型幾乎相同的事情發生在那里。下一個令牌預測的核心技術是相當古老的。真正需要的是將大量的精力投入到對它們進行工程化和策劃,收集和組裝正確的數據集,使它們真正有效,以至于基本上任何人都可以使用。這部分。
Sergey: 那里有一個科學問題,但很多問題實際上是組織經濟學的問題,而這些問題很難預測,因為它們更多地與人們決定何時投入大量資源來使之成為現實相關,而不僅僅是預測技術的進化。技術可能會穩步發展,但轉折點實際上是資源分配,所以我不能預測這將會發生的時間。如果我必須打賭,我會更接近于五年而不是十年,但我不確定。
Craig: 這個爭論已經在社區中引起了很多爭議。你對此有什么看法,還是你的領域足夠獨立,你不會參與其中?
Sergey: 是的,這是一個復雜的問題。我傾向于不太愿意參與這樣的討論,因為我不太確定事情會如何發展,我認為,也許作為一個機器人學家,我可能更傾向于對我們整體AI系統的現狀有些悲觀。很難想象一個無法控制機器人進行人類容易的基本事情的AI系統會有多么能力非凡,但這些東西很難預測。我認為在AI研究中唯一的常數可能是,人們經常被事情的易于想象以及事情的困難程度所驚訝。如果我們回到幾十年前,想到藝術家和作家會被AI系統威脅到,那是在園丁和清潔工之前,這是非常令人震驚的,但這是我們今天生活的世界。也許這告訴我們要對我們的預測保持一些謙虛。
Craig: 是的,沒錯。全球各國政府非常關注對生成式AI
?的監管。是否有關于機器人或AI和機器人的監管,或者政府是否正在關注?是否有政府支持?有很多關于為研究和小型公司提供計算資源,以便這些資源不會被這些大型科技公司控制的討論。在機器人領域是否有這樣的討論,政府應該或可以提供更多資源來加速研究?
Sergey: 是的,肯定有很多關于這個問題的討論。就我所見,通常情況下,這并不是將機器人或人工智能與其他事物區分開來的事情。當然有關于這個的討論。但我還沒有看到很多實際行動,但我想這是一個進展緩慢的事情。在這方面,我不認為我會和其他任何人工智能研究者說出不同的話。從我目前所見,我認為沒有任何特別特殊的事情對待機器人。但是,這是一個重大問題,我們在美國肯定需要認真考慮我們如何保持技術優勢以及如何分配必要的資源。
Craig: 這引出了另一個問題,因為我在中國度過了我生命中的很多時間。在這項研究中,中國處于什么位置?你認為他們領先還是落后?
Sergey: 我不太確定。有一件事我可以說,我認為來自中國大學的研究人員在人工智能的各個領域,包括機器人學,在所有領域都取得了很大的成功,而且肯定有很多非常有趣的研究成果來自中國。例如,當我們進行很多數據集收集工作時,我們實際上非常驚訝地發現,上海的一些研究人員發布了一個非常驚人的數據集,與我們收集的數據集在規模、范圍和多樣性上相當,這很棒。他們以開源的方式發布了它。我和他們通過電話交談過。他們對他們想要用它做什么有很有趣的想法,所以我看到了很多質量和結果方面的提高。
Sergey: 另一個有趣的事情是,實際上有相當多的硬件進步是由中國的公司推動的。例如,四足步行研究中最廣泛使用的平臺之一是來自中國的一個名為Unitary的公司,我認為這個平臺之所以如此吸引人的原因是因為它相對簡單,價格實惠,并且設計得讓研究人員容易進入其中的內部機制,我認為這實際上也是一件非常好的事情,因為雖然我們可能會擔心競爭等問題,但最終這實際上是加速了美國的研究進程。這是我到目前為止所見到的,我不想對什么是好或壞做出價值判斷。看起來有很多事情在發生。
Craig: 這一期就到這里了。我要感謝Sergey抽出時間來和我們交談。與此同時,請記住,奇點也許不會很近,但人工智能正在改變你的世界,所以要注意。
本文轉載自 ??MoPaaS魔泊云??,作者: Sergey Levine
