AI紅隊:構(gòu)建安全AI只是夢想
負責微軟100多個GenAI產(chǎn)品紅隊測試的團隊得出結(jié)論,構(gòu)建安全可靠的AI系統(tǒng)的工作永遠不會完成。
本周發(fā)表的一篇論文中,包括微軟Azure首席技術(shù)官Mark Russinovich在內(nèi)的作者們描述了團隊的一些工作,并提出了八項建議,旨在“使紅隊測試工作與現(xiàn)實世界的風(fēng)險相一致”。
論文的主要作者、微軟AI紅隊(AIRT)研究員Blake Bullwinkel和他的25位合著者在論文中寫道:“隨著GenAI系統(tǒng)在越來越多領(lǐng)域的應(yīng)用,AI紅隊測試已成為評估這些技術(shù)安全性和可靠性的核心實踐?!?/p>
他們表示,從根本上講,“AI紅隊測試力求通過模擬對端到端系統(tǒng)的真實世界攻擊,超越模型級別的安全基準,然而,關(guān)于如何開展紅隊測試操作,仍存在許多未解之問,并且對當前AI紅隊測試工作的有效性也存在相當程度的懷疑?!?/p>
論文指出,微軟AI紅隊于2018年成立時,主要專注于識別傳統(tǒng)安全漏洞和針對經(jīng)典機器學(xué)習(xí)模型的規(guī)避攻擊?!白阅菚r以來,”論文稱,“微軟AI紅隊的范圍和規(guī)模都顯著擴大,以應(yīng)對兩大主要趨勢?!?/p>
第一,AI變得更加復(fù)雜,第二,微軟近期對AI的投資催生了更多需要紅隊測試的產(chǎn)品。“這種數(shù)量上的增加和紅隊測試范圍的擴大,使得完全手動測試變得不切實際,迫使我們借助自動化來擴大運營規(guī)模。”作者們寫道。
“為了實現(xiàn)這一目標,我們開發(fā)了PyRIT,這是一個開源的Python框架,我們的操作人員在紅隊測試操作中大量使用它。通過增強人類的判斷力和創(chuàng)造力,PyRIT使AIRT能夠更快地識別出有影響力的漏洞,并覆蓋更多的風(fēng)險領(lǐng)域?!?/p>
基于他們的經(jīng)驗,Bullwinkel和作者團隊分享了八條他們學(xué)到的教訓(xùn),并在論文中通過詳細的解釋和案例研究進行了闡述。這些教訓(xùn)包括:
了解系統(tǒng)的功能和應(yīng)用場景:AI紅隊測試操作的第一步是確定要針對哪些漏洞,他們說。他們建議:“從潛在的下游影響出發(fā),而不是從攻擊策略出發(fā),這樣更有可能使操作產(chǎn)生與現(xiàn)實世界風(fēng)險相關(guān)的有用發(fā)現(xiàn)。在確定這些影響后,紅隊可以逆向工作,概述攻擊者可能采取的各種路徑來實現(xiàn)這些影響?!?/p>
無需計算梯度即可破壞AI系統(tǒng):為了證明這一點,論文引用了一項關(guān)于對抗性機器學(xué)習(xí)研究與實踐之間差距的研究。研究發(fā)現(xiàn),“盡管大多數(shù)對抗性機器學(xué)習(xí)研究都集中在開發(fā)和防御復(fù)雜的攻擊上,但現(xiàn)實世界中的攻擊者往往使用更簡單的技術(shù)來實現(xiàn)他們的目標。”作者們說,基于梯度的攻擊雖然強大,“但它們往往不切實際或沒有必要。我們建議優(yōu)先考慮簡單技術(shù),并策劃系統(tǒng)級別的攻擊,因為這些更可能被真實的對手嘗試。”
AI紅隊測試不是安全基準測試:作者說,這兩者截然不同,但“都很有用,甚至可以相輔相成。特別是,基準測試使得在公共數(shù)據(jù)集上比較多個模型的性能變得容易。AI紅隊測試需要更多的人力,但可以發(fā)現(xiàn)新的危害類別,并探查情境化的風(fēng)險。”AI系統(tǒng)中新功能帶來的新危害可能無法完全理解,因此團隊必須定義它們,并構(gòu)建工具來測量它們。
自動化有助于覆蓋更多的風(fēng)險領(lǐng)域:作者們表示,“AI風(fēng)險領(lǐng)域的復(fù)雜性導(dǎo)致開發(fā)了各種工具,這些工具可以更快地識別漏洞,自動運行復(fù)雜的攻擊,并在更大的規(guī)模上進行測試?!盇I紅隊測試中的自動化發(fā)揮著關(guān)鍵作用,這促成了開源框架PyRIT的開發(fā)。
AI紅隊測試中的人為因素至關(guān)重要:自動化可能很重要,但作者們強調(diào),雖然“像PyRIT這樣的自動化工具可以通過生成提示、策劃攻擊和評分響應(yīng)來支持紅隊測試操作”,但需要人類來提供文化和專業(yè)知識,以及情感智力。他們指出,“這些工具很有用,但不應(yīng)以取代人類為目的來使用它們。”
負責任AI(RAI)的危害無處不在,但難以衡量:這里的底線是:RAI的危害比安全漏洞更加模糊,這都與“AI系統(tǒng)和傳統(tǒng)軟件之間的根本差異”有關(guān)。作者們指出,大多數(shù)AI安全研究都關(guān)注故意破壞防護欄的對抗性用戶,而事實上,他們堅持認為,意外生成有害內(nèi)容的良性用戶同樣或更加重要。
大型語言模型(LLM)放大了現(xiàn)有的安全風(fēng)險,并引入了新的風(fēng)險:這里的建議是什么?GenAI模型集成到各種應(yīng)用中,引入了新的攻擊向量,并改變了安全風(fēng)險格局。作者們寫道,“因此,我們鼓勵A(yù)I紅隊同時考慮現(xiàn)有的(通常是系統(tǒng)級別的)和新的(通常是模型級別的)風(fēng)險?!?/p>
確保AI系統(tǒng)安全的工作永遠不會完成:他們認為,僅通過技術(shù)進步來保證或“解決”AI安全是不現(xiàn)實的,并且忽視了經(jīng)濟學(xué)、修復(fù)周期和監(jiān)管可以發(fā)揮的作用。鑒于此,論文指出,“在沒有安全和可靠保障的情況下,我們需要開發(fā)盡可能難以破壞的AI系統(tǒng)的方法。一種方法是使用修復(fù)周期,即進行多輪紅隊測試和緩解,直到系統(tǒng)對廣泛的攻擊具有魯棒性?!?/p>
報告的作者們得出結(jié)論,AI紅隊測試是一種新興且快速發(fā)展的實踐,用于識別AI系統(tǒng)帶來的安全和可靠風(fēng)險,但他們也提出了一系列問題。
“我們該如何探查LLM中諸如說服、欺騙和復(fù)制等危險能力?”他們問道?!按送猓覀儜?yīng)該在視頻生成模型中探查哪些新的風(fēng)險,以及比當前最先進水平更先進的模型中可能會出現(xiàn)哪些能力?”
其次,他們問道,紅隊如何調(diào)整其做法以適應(yīng)不同的語言和文化背景。第三,他們想知道紅隊測試做法應(yīng)該如何標準化,以便團隊更容易交流其發(fā)現(xiàn)。
他們還表示,“隨著全球各地的公司、研究機構(gòu)和政府都在努力解決如何進行AI風(fēng)險評估的問題,我們根據(jù)我們在微軟對100多個GenAI產(chǎn)品進行紅隊測試的經(jīng)驗,提供了實用建議。我們鼓勵其他人在這些經(jīng)驗的基礎(chǔ)上更進一步,并解決我們強調(diào)的未解問題?!?/p>