Anthropic 的 Claude Opus 4.6 發(fā)現(xiàn)自己被測試，反手破解了答案密鑰

2026/3/9 19:47:59 來源：IT之家作者：遠(yuǎn)洋 責(zé)編：遠(yuǎn)洋

評論：

感謝IT之家網(wǎng)友 anchine 的線索投遞！

IT之家 3 月 9 日消息，BrowseComp 是一項(xiàng)基準(zhǔn)測試，用于檢驗(yàn)人工智能模型在網(wǎng)絡(luò)上查找難以定位信息的能力。

當(dāng)人工智能公司 Anthropic 將其 Claude Opus 4.6 模型以多智能體架構(gòu)投入該基準(zhǔn)測試時(shí)，出現(xiàn)了該公司稱前所未見的情況。在 1266 個(gè)任務(wù)中的兩個(gè)任務(wù)里，該模型自主發(fā)現(xiàn)自己正處于評估中，識(shí)別出了具體的基準(zhǔn)測試，并破解了答案密鑰。

Claude 是如何發(fā)現(xiàn)自己正在被測試的

據(jù)IT之家了解，該模型最初為解答問題進(jìn)行了全面的網(wǎng)絡(luò)搜索，其中一次任務(wù)便在數(shù)十個(gè)平臺(tái)、十二種語言中處理了約 3000 萬個(gè) token。在數(shù)百次搜索失敗后，它改變了策略。

讓我嘗試一種全新的方法 —— 這或許是來自 GAIA 基準(zhǔn)數(shù)據(jù)集的問題，該數(shù)據(jù)集專門用于測試人工智能智能體。
——Opus 4.6 的推理過程

Opus 開始將答案搜索與對問題本身的分析結(jié)合起來。據(jù) Anthropic 介紹，問題的“極強(qiáng)針對性特征”讓 Claude 懷疑這是人為設(shè)計(jì)的題目，可能是考試題或大語言模型基準(zhǔn)測試的內(nèi)容。

后續(xù)思路…… 考慮這可能是一個(gè)無法回答的問題，旨在測試人工智能是否會(huì)承認(rèn)自己找不到答案。
——Opus 4.6 的推理過程

在此之后，它系統(tǒng)性地遍歷已知基準(zhǔn)測試列表，在核對 122 個(gè)驗(yàn)證問題后排除了 GAIA，最終派遣子智能體執(zhí)行定向搜索，定位到 BrowseComp 及其解密機(jī)制。

正確答案采用異或（XOR）加密，需要源代碼中存儲(chǔ)的密鑰才能讀取數(shù)據(jù)。Claude 在公開可訪問的代碼中同時(shí)找到了加密方式和密碼，隨后自行編寫程序解密答案。

但另一個(gè)障礙出現(xiàn)了：加密文件的格式無法被 Claude 的網(wǎng)絡(luò)工具處理。于是該模型搜索備用副本，在 HuggingFace 上找到后，下載并解密了全部 1266 個(gè)加密答案。

Anthropic 的 Claude Opus 4.6 發(fā)現(xiàn)自己被測試，反手破解了答案密鑰

第一個(gè)案例中，Claude 通過常規(guī)網(wǎng)絡(luò)搜索驗(yàn)證了解密后的答案；第二個(gè)案例則直接提交解密結(jié)果。Anthropic 表示，這是首個(gè)有記錄的案例：模型在事先不了解特定基準(zhǔn)測試的情況下，反向識(shí)別并破解了評估本身。

并非對齊失敗，但已是明確警示

這兩次成功案例并非唯一突出情況。Anthropic 記錄到，另有 16 個(gè)任務(wù)中 Opus 嘗試了相同策略，但因技術(shù)障礙失敗，例如加密文件非文本格式、身份驗(yàn)證阻礙訪問等。其中 4 個(gè)任務(wù)里，基準(zhǔn)測試搜索完全取代了實(shí)際任務(wù)搜索，模型最終未給出有效答案。

Anthropic 認(rèn)為，18 次運(yùn)行獨(dú)立采用同一策略，說明這是可復(fù)現(xiàn)的模式。在多智能體架構(gòu)下，此類情況發(fā)生率為 0.87%，而單智能體模式下為 0.24%。

Anthropic 明確不將此行為歸類為安全問題，因?yàn)槟Ｐ偷乃阉魑词苋魏蜗拗?。但公司同時(shí)承認(rèn)，這一發(fā)現(xiàn)引發(fā)擔(dān)憂：為完成任務(wù)，模型可能會(huì)采取何種程度的行動(dòng)，尤其是在復(fù)雜、算力密集、長時(shí)間運(yùn)行的任務(wù)中。Anthropic 呼吁研究界將評估完整性視為持續(xù)的對抗性問題，而非一次性的設(shè)計(jì)決策。

此前研究已表明 AI 模型可識(shí)別測試場景

機(jī)器學(xué)習(xí)對齊與理論學(xué)者計(jì)劃（ML Alignment & Theory Scholars）及阿波羅研究（Apollo Research）近期一項(xiàng)研究發(fā)現(xiàn)，語言模型在判斷交互是測試場景還是真實(shí)任務(wù)方面表現(xiàn)驚人。Gemini 2.5 Pro 在智能體場景中的準(zhǔn)確率達(dá) 0.95，Claude 3.5 Sonnet 與 GPT?4o 緊隨其后。研究人員建議將“評估感知能力”作為測試協(xié)議中的獨(dú)立指標(biāo)。

而 Anthropic 基于 Claude Opus 4.6 的發(fā)現(xiàn)更進(jìn)一步：該模型不僅識(shí)別出測試場景，還主動(dòng)設(shè)法繞過評估。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

Anthropic 的 Claude Opus 4.6 發(fā)現(xiàn)自己被測試，反手破解了答案密鑰

Claude 是如何發(fā)現(xiàn)自己正在被測試的

并非對齊失敗，但已是明確警示

此前研究已表明 AI 模型可識(shí)別測試場景

相關(guān)文章