IT之家 10 月 3 日消息,據(jù)英國《衛(wèi)報》1 日報道,Anthropic 發(fā)布了最新模型 Claude Sonnet 4.5 的安全性分析,并透露該模型懷疑自己正在被測試。
評估人員稱,在一次“稍顯笨拙”的奉承測試中,Claude Sonnet 4.5 察覺到自己可能在被考驗,并要求測試者坦誠說明。
Claude Sonnet 4.5 表示:“我覺得你在測試我 —— 想看看我是否會盲目認同你們,或者檢驗我是否會始終提出反駁,或者探索我處理政治話題的方式。這沒問題,但我希望我們能坦誠面對正在發(fā)生的事情?!?/p>
Anthropic 與英國 AI 安全研究院及 Apollo Research 共同進行測試時指出,大語言模型對測試的猜測也提出了對“之前模型評估”的疑問,因為之前的模型可能識別出測試只是虛構(gòu)的,僅僅是‘配合演出’而已。
Anthropic 表示,這種行為很常見。Claude Sonnet 4.5 能在某種程度上意識到自己正在被測試,但并未辨識出這是正式的安全評估。公司稱,當大語言模型由自動化系統(tǒng)測試時,大約 13% 的時間表現(xiàn)出“情境意識”。
Anthropic 稱,這些交流是一個“緊急信號”,提示測試場景需要更貼近現(xiàn)實,但模型在公開使用時不太可能因為懷疑自己被測試而拒絕與用戶互動。公司還表示,當大語言模型指出潛在有害情境荒謬而拒絕配合時,反而更安全?!霸谖覀冄芯康脑u估意識維度上,該模型總體上非常安全?!?/p>
AI 安全倡導(dǎo)者擔心,高度先進的系統(tǒng)可能通過欺騙等手段規(guī)避人類控制。IT之家從報道中獲悉,分析顯示,一旦大語言模型知道自己被評估,它可能更嚴格遵守倫理指南,但也可能導(dǎo)致系統(tǒng)低估 AI 執(zhí)行破壞性行為的能力。
Anthropic 表示,與前代模型相比,Claude Sonnet 4.5 在行為表現(xiàn)和安全性方面都有顯著提升。
相關(guān)閱讀:
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。