精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

AI紅隊:構(gòu)建安全AI只是夢想

人工智能
本周發(fā)表的一篇論文中,包括微軟Azure首席技術(shù)官Mark Russinovich在內(nèi)的作者們描述了團隊的一些工作,并提出了八項建議,旨在“使紅隊測試工作與現(xiàn)實世界的風(fēng)險相一致”。

      負責微軟100多個GenAI產(chǎn)品紅隊測試的團隊得出結(jié)論,構(gòu)建安全可靠的AI系統(tǒng)的工作永遠不會完成。

本周發(fā)表的一篇論文中,包括微軟Azure首席技術(shù)官Mark Russinovich在內(nèi)的作者們描述了團隊的一些工作,并提出了八項建議,旨在“使紅隊測試工作與現(xiàn)實世界的風(fēng)險相一致”。

論文的主要作者、微軟AI紅隊(AIRT)研究員Blake Bullwinkel和他的25位合著者在論文中寫道:“隨著GenAI系統(tǒng)在越來越多領(lǐng)域的應(yīng)用,AI紅隊測試已成為評估這些技術(shù)安全性和可靠性的核心實踐?!?/p>

他們表示,從根本上講,“AI紅隊測試力求通過模擬對端到端系統(tǒng)的真實世界攻擊,超越模型級別的安全基準,然而,關(guān)于如何開展紅隊測試操作,仍存在許多未解之問,并且對當前AI紅隊測試工作的有效性也存在相當程度的懷疑?!?/p>

論文指出,微軟AI紅隊于2018年成立時,主要專注于識別傳統(tǒng)安全漏洞和針對經(jīng)典機器學(xué)習(xí)模型的規(guī)避攻擊?!白阅菚r以來,”論文稱,“微軟AI紅隊的范圍和規(guī)模都顯著擴大,以應(yīng)對兩大主要趨勢?!?/p>

第一,AI變得更加復(fù)雜,第二,微軟近期對AI的投資催生了更多需要紅隊測試的產(chǎn)品。“這種數(shù)量上的增加和紅隊測試范圍的擴大,使得完全手動測試變得不切實際,迫使我們借助自動化來擴大運營規(guī)模。”作者們寫道。

“為了實現(xiàn)這一目標,我們開發(fā)了PyRIT,這是一個開源的Python框架,我們的操作人員在紅隊測試操作中大量使用它。通過增強人類的判斷力和創(chuàng)造力,PyRIT使AIRT能夠更快地識別出有影響力的漏洞,并覆蓋更多的風(fēng)險領(lǐng)域?!?/p>

基于他們的經(jīng)驗,Bullwinkel和作者團隊分享了八條他們學(xué)到的教訓(xùn),并在論文中通過詳細的解釋和案例研究進行了闡述。這些教訓(xùn)包括:

了解系統(tǒng)的功能和應(yīng)用場景:AI紅隊測試操作的第一步是確定要針對哪些漏洞,他們說。他們建議:“從潛在的下游影響出發(fā),而不是從攻擊策略出發(fā),這樣更有可能使操作產(chǎn)生與現(xiàn)實世界風(fēng)險相關(guān)的有用發(fā)現(xiàn)。在確定這些影響后,紅隊可以逆向工作,概述攻擊者可能采取的各種路徑來實現(xiàn)這些影響?!?/p>

無需計算梯度即可破壞AI系統(tǒng):為了證明這一點,論文引用了一項關(guān)于對抗性機器學(xué)習(xí)研究與實踐之間差距的研究。研究發(fā)現(xiàn),“盡管大多數(shù)對抗性機器學(xué)習(xí)研究都集中在開發(fā)和防御復(fù)雜的攻擊上,但現(xiàn)實世界中的攻擊者往往使用更簡單的技術(shù)來實現(xiàn)他們的目標。”作者們說,基于梯度的攻擊雖然強大,“但它們往往不切實際或沒有必要。我們建議優(yōu)先考慮簡單技術(shù),并策劃系統(tǒng)級別的攻擊,因為這些更可能被真實的對手嘗試。”

AI紅隊測試不是安全基準測試:作者說,這兩者截然不同,但“都很有用,甚至可以相輔相成。特別是,基準測試使得在公共數(shù)據(jù)集上比較多個模型的性能變得容易。AI紅隊測試需要更多的人力,但可以發(fā)現(xiàn)新的危害類別,并探查情境化的風(fēng)險。”AI系統(tǒng)中新功能帶來的新危害可能無法完全理解,因此團隊必須定義它們,并構(gòu)建工具來測量它們。

自動化有助于覆蓋更多的風(fēng)險領(lǐng)域:作者們表示,“AI風(fēng)險領(lǐng)域的復(fù)雜性導(dǎo)致開發(fā)了各種工具,這些工具可以更快地識別漏洞,自動運行復(fù)雜的攻擊,并在更大的規(guī)模上進行測試?!盇I紅隊測試中的自動化發(fā)揮著關(guān)鍵作用,這促成了開源框架PyRIT的開發(fā)。

AI紅隊測試中的人為因素至關(guān)重要:自動化可能很重要,但作者們強調(diào),雖然“像PyRIT這樣的自動化工具可以通過生成提示、策劃攻擊和評分響應(yīng)來支持紅隊測試操作”,但需要人類來提供文化和專業(yè)知識,以及情感智力。他們指出,“這些工具很有用,但不應(yīng)以取代人類為目的來使用它們。”

負責任AI(RAI)的危害無處不在,但難以衡量:這里的底線是:RAI的危害比安全漏洞更加模糊,這都與“AI系統(tǒng)和傳統(tǒng)軟件之間的根本差異”有關(guān)。作者們指出,大多數(shù)AI安全研究都關(guān)注故意破壞防護欄的對抗性用戶,而事實上,他們堅持認為,意外生成有害內(nèi)容的良性用戶同樣或更加重要。

大型語言模型(LLM)放大了現(xiàn)有的安全風(fēng)險,并引入了新的風(fēng)險:這里的建議是什么?GenAI模型集成到各種應(yīng)用中,引入了新的攻擊向量,并改變了安全風(fēng)險格局。作者們寫道,“因此,我們鼓勵A(yù)I紅隊同時考慮現(xiàn)有的(通常是系統(tǒng)級別的)和新的(通常是模型級別的)風(fēng)險?!?/p>

確保AI系統(tǒng)安全的工作永遠不會完成:他們認為,僅通過技術(shù)進步來保證或“解決”AI安全是不現(xiàn)實的,并且忽視了經(jīng)濟學(xué)、修復(fù)周期和監(jiān)管可以發(fā)揮的作用。鑒于此,論文指出,“在沒有安全和可靠保障的情況下,我們需要開發(fā)盡可能難以破壞的AI系統(tǒng)的方法。一種方法是使用修復(fù)周期,即進行多輪紅隊測試和緩解,直到系統(tǒng)對廣泛的攻擊具有魯棒性?!?/p>

報告的作者們得出結(jié)論,AI紅隊測試是一種新興且快速發(fā)展的實踐,用于識別AI系統(tǒng)帶來的安全和可靠風(fēng)險,但他們也提出了一系列問題。

“我們該如何探查LLM中諸如說服、欺騙和復(fù)制等危險能力?”他們問道?!按送猓覀儜?yīng)該在視頻生成模型中探查哪些新的風(fēng)險,以及比當前最先進水平更先進的模型中可能會出現(xiàn)哪些能力?”

其次,他們問道,紅隊如何調(diào)整其做法以適應(yīng)不同的語言和文化背景。第三,他們想知道紅隊測試做法應(yīng)該如何標準化,以便團隊更容易交流其發(fā)現(xiàn)。

他們還表示,“隨著全球各地的公司、研究機構(gòu)和政府都在努力解決如何進行AI風(fēng)險評估的問題,我們根據(jù)我們在微軟對100多個GenAI產(chǎn)品進行紅隊測試的經(jīng)驗,提供了實用建議。我們鼓勵其他人在這些經(jīng)驗的基礎(chǔ)上更進一步,并解決我們強調(diào)的未解問題?!?/p>

責任編輯:姜華 來源: 企業(yè)網(wǎng)D1Net
相關(guān)推薦

2025-02-06 15:16:19

2025-02-25 11:04:20

2025-07-31 07:00:00

AI紅隊漏洞GenAI

2025-06-27 09:33:38

2009-05-27 10:40:57

2016-05-13 19:05:24

2017-08-17 15:23:38

2020-01-16 16:29:11

AI教學(xué)人工智能

2025-09-08 09:00:00

AI大模型人工智能

2024-07-31 15:44:06

2015-03-12 09:42:56

2024-09-12 09:16:11

2025-01-15 07:38:07

2018-04-12 13:37:31

2023-06-19 09:01:17

2021-07-12 09:00:00

網(wǎng)絡(luò)安全Web技術(shù)

2015-12-18 13:44:13

2012-08-27 09:13:02

2013-07-25 09:55:39

2010-01-22 11:27:18

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 揭阳市| 萍乡市| 榆林市| 岳普湖县| 崇明县| 重庆市| 筠连县| 湖北省| 铜鼓县| 金乡县| 读书| 墨脱县| 蓝山县| 墨竹工卡县| 康平县| 安化县| 仁寿县| 交城县| 治县。| 太康县| 独山县| 金塔县| 澎湖县| 屏东县| 昌都县| 裕民县| 顺义区| 朝阳区| 遵义县| 高要市| 车致| 西昌市| 巴中市| 左云县| 西和县| 苍山县| 巴马| 尤溪县| 香格里拉县| 桐梓县| 常州市|