艾倫?圖靈研究所等最新研究：只需 250 份惡意文檔就能攻破任意體量 AI 模型

2025/10/11 17:00:29 來源：IT之家作者：清源責(zé)編：清源

評(píng)論：

感謝IT之家網(wǎng)友 Coje_He 的線索投遞！

IT之家 10 月 11 日消息，據(jù)外媒 TechXplore 10 日?qǐng)?bào)道，Anthropic、英國 AI 安全研究院和艾倫?圖靈研究所的最新研究發(fā)現(xiàn)，即使是體量最大的 AI 模型，只需約 250 份惡意文檔，就可能被成功入侵。

大語言模型的訓(xùn)練數(shù)據(jù)大多來自公開網(wǎng)絡(luò)，從而使其能積累龐大知識(shí)庫、生成自然語言，但同時(shí)也暴露在數(shù)據(jù)投毒的風(fēng)險(xiǎn)之下。

過去普遍認(rèn)為，隨著模型規(guī)模變大，風(fēng)險(xiǎn)會(huì)被稀釋，因?yàn)橥抖緮?shù)據(jù)的比例需保持恒定。也就是說，要污染巨型模型需要極多的惡意樣本。然而，發(fā)表在 arXiv 平臺(tái)上的這項(xiàng)研究顛覆了這一假設(shè) —— 攻擊者只需極少量惡意文件，就能造成嚴(yán)重破壞。

研究團(tuán)隊(duì)為了驗(yàn)證攻擊難度，從零構(gòu)建了多款模型，規(guī)模從 6 億到 130 億參數(shù)不等。每個(gè)模型都使用干凈的公開數(shù)據(jù)訓(xùn)練，但研究人員分別在其中插入 100 到 500 份惡意文件。

隨后，團(tuán)隊(duì)嘗試通過調(diào)整惡意數(shù)據(jù)的分布方式或注入時(shí)機(jī)來防御攻擊，并在模型微調(diào)階段再次進(jìn)行測(cè)試。

結(jié)果令人震驚：模型規(guī)模幾乎不起作用。僅 250 份惡意文檔就能在所有模型中成功植入“后門”（IT之家注：一種讓 AI 被觸發(fā)后執(zhí)行有害指令的隱秘機(jī)制）。即使是那些訓(xùn)練數(shù)據(jù)量比最小模型多出 20 倍的大模型，也同樣無法抵御攻擊。額外添加干凈數(shù)據(jù)既無法稀釋風(fēng)險(xiǎn)，也無法防止入侵。

研究人員指出，這意味著防御問題比預(yù)想更迫切。與其盲目追求更大的模型，AI 領(lǐng)域更應(yīng)聚焦安全機(jī)制的建設(shè)。有關(guān)論文提到：“我們的研究顯示，大模型受到數(shù)據(jù)投毒植入后門的難度并不會(huì)隨規(guī)模增加而上升，這說明未來亟需在防御手段上投入更多研究?！?/p>

論文鏈接：

[2510.07192] Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

艾倫?圖靈研究所等最新研究：只需 250 份惡意文檔就能攻破任意體量 AI 模型

相關(guān)文章