精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

OpenAI發布新年目標,Agent智能體或將迎來百模大戰

人工智能
關于智能體,有網友爆料,OpenAI 可能在 1 月份發布一個名為 “operator” 的 Agent,這個 Agent 將具備直接控制電腦的能力。其實24年10月份的時候,Claude 就已經發布了基于 Claude 3.5 Sonnet 多模態大模型,可操作電腦的智能體。

2025年1月1日,OpenAI CEO 奧特曼公布了公司的新年目標,涵蓋AGI、智能體、4o升級、模型更好記憶、更長上下文等等。

圖片圖片

關于智能體,有網友爆料,OpenAI 可能在 1 月份發布一個名為 “operator” 的 Agent,這個 Agent 將具備直接控制電腦的能力。

圖片圖片

其實24年10月份的時候,Claude 就已經發布了基于 Claude 3.5 Sonnet 多模態大模型,可操作電腦的智能體。

圖片圖片

上圖左側是智能體的執行過程,Claude 能夠感知計算機界面并與之交互,將用戶的指令(例如“使用我的計算機和在線數據填寫此表格”)轉換為計算機命令(例如,檢查電子表格;移動光標以打開 Web 瀏覽器;等等)。

要實現這種智能體至少依賴大模型的三項技術能力。

第一,用戶意圖理解能力,比如,用戶說“打開瀏覽器并搜索 AI 最新進展”,大模型需要解析出“打開瀏覽器”和“搜索 AI 最新進展”兩個子任務。

第二,任務規劃與執行能力,需要將復雜的任務分解為一系列可執行的子任務。例如,“發送一封郵件”分解為“打開郵箱應用”、“點擊撰寫按鈕”、“輸入收件人”、“輸入內容”、“點擊發送”等步驟。

第三,視覺理解能力(多模態大模型),例如,“打開網址”需要識別瀏覽器地址欄的位置并輸入 URL。

幾乎同一時間,微軟也開源了一款基于GPT-4V視覺大模型的屏幕解析工具——OmniParser,能夠將用戶界面(UI)截圖轉換為結構化元素,幫助 AI 精準理解屏幕內容并生成操作指令。

圖片圖片

當然,國內大模型也不甘示弱,智譜手機端 AutoGLM,通過語音指令模擬人操作,實現電商購物、點外賣、微信回復等功能。

下面是這三款工具總結對比:

圖片圖片

不過現階段,這類智能體還有瑕疵,能力并不完美。

但我覺得沒關系,我們不指望它能完成一個大型或者復雜的任務,現階段能幫我們完成單一、重復性工作就挺好,嗯...自動搶票?

哦,對了前幾天谷歌也發布了類似智能體,基于新版多模態大模型 Gemini 2.0 的瀏覽器智能體,可以自動使用瀏覽器完成工作。

過去一年智能體話題一直保持很高熱度,10月份時候 OpenAI 還開源了一款多智能體Python開發框架——Swarm。

圖片圖片

這次又將智能體列為新年目標,看起來是要大干一場。估計各大模型廠商也要在這一領域卷一卷了。

我們仍然選擇趴窗戶看。

責任編輯:武曉燕 來源: 渡碼
相關推薦

2023-07-07 14:30:49

2025-05-19 09:10:00

2025-07-18 10:46:11

2024-10-18 15:20:00

2024-12-31 10:48:04

2025-04-21 08:35:00

OpenAI智能體編程

2025-05-08 07:54:24

2025-03-21 09:50:56

2023-09-14 18:33:50

2015-07-22 16:24:00

云計算云服務云服務漲價

2024-10-15 17:28:05

2025-03-14 08:14:44

2025-03-12 09:32:38

2023-07-31 16:17:41

2025-05-26 08:57:06

2009-11-16 10:02:19

Google Chrome OS開放下載

2025-05-21 14:20:50

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 哈尔滨市| 任丘市| 甘肃省| 资源县| 马关县| 沙田区| 乾安县| 武夷山市| 乾安县| 天津市| 太和县| 揭东县| 奈曼旗| 枣庄市| 五原县| 荆门市| 宁武县| 永安市| 新疆| 仁寿县| 永定县| 修水县| 政和县| 吉林省| 饶阳县| 大丰市| 句容市| 岳普湖县| 新竹市| 临高县| 额尔古纳市| 广河县| 四川省| 公主岭市| 新和县| 建昌县| 清苑县| 岳池县| 普洱| 徐水县| 星子县|