IT之家 10 月 11 日消息,據(jù)外媒 TechXplore 10 日?qǐng)?bào)道,Anthropic、英國 AI 安全研究院和艾倫?圖靈研究所的最新研究發(fā)現(xiàn),即使是體量最大的 AI 模型,只需約 250 份惡意文檔,就可能被成功入侵。

大語言模型的訓(xùn)練數(shù)據(jù)大多來自公開網(wǎng)絡(luò),從而使其能積累龐大知識(shí)庫、生成自然語言,但同時(shí)也暴露在數(shù)據(jù)投毒的風(fēng)險(xiǎn)之下。
過去普遍認(rèn)為,隨著模型規(guī)模變大,風(fēng)險(xiǎn)會(huì)被稀釋,因?yàn)橥抖緮?shù)據(jù)的比例需保持恒定。也就是說,要污染巨型模型需要極多的惡意樣本。然而,發(fā)表在 arXiv 平臺(tái)上的這項(xiàng)研究顛覆了這一假設(shè) —— 攻擊者只需極少量惡意文件,就能造成嚴(yán)重破壞。
研究團(tuán)隊(duì)為了驗(yàn)證攻擊難度,從零構(gòu)建了多款模型,規(guī)模從 6 億到 130 億參數(shù)不等。每個(gè)模型都使用干凈的公開數(shù)據(jù)訓(xùn)練,但研究人員分別在其中插入 100 到 500 份惡意文件。
隨后,團(tuán)隊(duì)嘗試通過調(diào)整惡意數(shù)據(jù)的分布方式或注入時(shí)機(jī)來防御攻擊,并在模型微調(diào)階段再次進(jìn)行測(cè)試。
結(jié)果令人震驚:模型規(guī)模幾乎不起作用。僅 250 份惡意文檔就能在所有模型中成功植入“后門”(IT之家注:一種讓 AI 被觸發(fā)后執(zhí)行有害指令的隱秘機(jī)制)。即使是那些訓(xùn)練數(shù)據(jù)量比最小模型多出 20 倍的大模型,也同樣無法抵御攻擊。額外添加干凈數(shù)據(jù)既無法稀釋風(fēng)險(xiǎn),也無法防止入侵。
研究人員指出,這意味著防御問題比預(yù)想更迫切。與其盲目追求更大的模型,AI 領(lǐng)域更應(yīng)聚焦安全機(jī)制的建設(shè)。有關(guān)論文提到:“我們的研究顯示,大模型受到數(shù)據(jù)投毒植入后門的難度并不會(huì)隨規(guī)模增加而上升,這說明未來亟需在防御手段上投入更多研究?!?/p>
論文鏈接:
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。