IT之家 10 月 11 日消息,據(jù)外媒 TechXplore 10 日報道,Anthropic、英國 AI 安全研究院和艾倫?圖靈研究所的最新研究發(fā)現(xiàn),即使是體量最大的 AI 模型,只需約 250 份惡意文檔,就可能被成功入侵。

大語言模型的訓練數(shù)據(jù)大多來自公開網(wǎng)絡(luò),從而使其能積累龐大知識庫、生成自然語言,但同時也暴露在數(shù)據(jù)投毒的風險之下。
過去普遍認為,隨著模型規(guī)模變大,風險會被稀釋,因為投毒數(shù)據(jù)的比例需保持恒定。也就是說,要污染巨型模型需要極多的惡意樣本。然而,發(fā)表在 arXiv 平臺上的這項研究顛覆了這一假設(shè) —— 攻擊者只需極少量惡意文件,就能造成嚴重破壞。
研究團隊為了驗證攻擊難度,從零構(gòu)建了多款模型,規(guī)模從 6 億到 130 億參數(shù)不等。每個模型都使用干凈的公開數(shù)據(jù)訓練,但研究人員分別在其中插入 100 到 500 份惡意文件。
隨后,團隊嘗試通過調(diào)整惡意數(shù)據(jù)的分布方式或注入時機來防御攻擊,并在模型微調(diào)階段再次進行測試。
結(jié)果令人震驚:模型規(guī)模幾乎不起作用。僅 250 份惡意文檔就能在所有模型中成功植入“后門”(IT之家注:一種讓 AI 被觸發(fā)后執(zhí)行有害指令的隱秘機制)。即使是那些訓練數(shù)據(jù)量比最小模型多出 20 倍的大模型,也同樣無法抵御攻擊。額外添加干凈數(shù)據(jù)既無法稀釋風險,也無法防止入侵。
研究人員指出,這意味著防御問題比預(yù)想更迫切。與其盲目追求更大的模型,AI 領(lǐng)域更應(yīng)聚焦安全機制的建設(shè)。有關(guān)論文提到:“我們的研究顯示,大模型受到數(shù)據(jù)投毒植入后門的難度并不會隨規(guī)模增加而上升,這說明未來亟需在防御手段上投入更多研究?!?/p>
論文鏈接:
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。