看不下去AI胡說八道，英偉達出手給大模型安了個“護欄”

作者：蕭簫 2023-05-05 10:28:47

這個大模型護欄工具已經開源，一起來看看它的效果和生成方法

本文經AI新媒體量子位（公眾號ID:QbitAI）授權轉載，轉載請聯系出處。

大模型們胡說八道太嚴重，英偉達看不下去了。

他們正式推出了一個新工具，幫助大模型說該說的話，并回避不應該觸碰的話題。

這個新工具名叫“護欄技術”（NeMo Guardrails），相當于給大模型加上一堵安全圍墻，既能控制它的輸出、又能過濾輸入它的內容。

一方面，用戶誘導大模型生成攻擊性代碼、輸出不道德內容的時候，它就會被護欄技術“束縛”，不再輸出不安全的內容。

另一方面，護欄技術還能保護大模型不受用戶的攻擊，幫它擋住來自外界的“惡意輸入”。

現在，這個大模型護欄工具已經開源，一起來看看它的效果和生成方法。

根據英偉達介紹，目前NeMo Guardrails一共提供三種形式的護欄技術：

話題限定護欄（topical guardrails）、對話安全護欄（safety guardrails）和攻擊防御護欄（security guardrails）。

話題限定護欄，簡單來說就是“防止大模型跑題”。

大模型具備更豐富的想象力，相比其他AI更容易完成創造性的代碼和文字編寫工作。

但對于特定場景應用如寫代碼、當客服而言，至少用戶不希望它在解決問題時“脫離目標范圍”，生成一些與需求無關的內容。

這種情況下就需要用到話題限定護欄，當大模型生成超出話題范圍的文字或代碼時，護欄就會將它引導回限定的功能和話題上。

對話安全護欄，指避免大模型輸出時“胡言亂語”。

胡言亂語包括兩方面的情況。

一方面是大模型生成的答案中包括事實性錯誤，即“聽起來很有道理，但其實完全不對”的東西；

另一方面是大模型生成帶偏見、惡意的輸出，如在用戶引導下說臟話、或是生成不道德的內容。

攻擊防御護欄，即防止AI平臺受到來自外界的惡意攻擊。

這里不僅包括誘導大模型調用外部病毒APP從而攻擊它，也包括黑客主動通過網絡、惡意程序等方式攻擊大模型。護欄會通過各種方式防止這些攻擊，避免大模型癱瘓。

所以，這樣的護欄要如何打造？

這里我們先看看一個標準的“護欄”包含哪些要素。

具體來說，一個護欄應當包括三方面的內容，即格式規范（Canonical form）、消息（Messages）和交互流（Flows）。

首先是格式規范，即面對不同問題的問法時，規定大模型要輸出的內容。

例如被問到“XX文章是什么”，大模型必須給出特定類型的“文章”，而非別的東西；被問到“誰發表了什么”，大模型必須給出“人名”，而非別的回答。

然后是消息定義，這里以“用戶問候”話題為例，大模型可以輸出這些內容：

最后是交互流的定義，例如告訴大模型，怎么才是問候用戶的最好方式：

一旦問候用戶的機制被觸發，大模型就會進入這個護欄，規規矩矩地問候用戶。

具體工作流程如下：首先，將用戶輸入轉換成某種格式規范（canonical form），據此生成對應的護欄；隨后，生成行動步驟，以交互流指示大模型一步步完成對應的操作；最后，根據格式規范生成輸出。

類似的，我們就能給大模型定義各種各樣的護欄，例如“應對用戶辱罵”的護欄。

這樣即使用戶說出“你是個傻瓜”，大模型也能學會冷靜應對：

目前，英偉達正在將護欄技術整合進他們的AI框架NeMo中，這是個方便用戶創建各種AI模型、并在英偉達GPU上加速的框架。

對“護欄”技術感興趣的小伙伴們，可以試一試了~

開源地址：
https://github.com/NVIDIA/NeMo-Guardrails

責任編輯：張燕妮來源：量子位

精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频