在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Anthropic 的 Claude Opus 4.6 發(fā)現(xiàn)自己被測(cè)試,反手破解了答案密鑰

2026/3/9 19:47:59 來源:IT之家 作者:遠(yuǎn)洋 責(zé)編:遠(yuǎn)洋
感謝IT之家網(wǎng)友 anchine 的線索投遞!

IT之家 3 月 9 日消息,BrowseComp 是一項(xiàng)基準(zhǔn)測(cè)試,用于檢驗(yàn)人工智能模型在網(wǎng)絡(luò)上查找難以定位信息的能力。

當(dāng)人工智能公司 Anthropic 將其 Claude Opus 4.6 模型以多智能體架構(gòu)投入該基準(zhǔn)測(cè)試時(shí),出現(xiàn)了該公司稱前所未見的情況。在 1266 個(gè)任務(wù)中的兩個(gè)任務(wù)里,該模型自主發(fā)現(xiàn)自己正處于評(píng)估中,識(shí)別出了具體的基準(zhǔn)測(cè)試,并破解了答案密鑰。

Claude 是如何發(fā)現(xiàn)自己正在被測(cè)試的

據(jù)IT之家了解,該模型最初為解答問題進(jìn)行了全面的網(wǎng)絡(luò)搜索,其中一次任務(wù)便在數(shù)十個(gè)平臺(tái)、十二種語言中處理了約 3000 萬個(gè) token。在數(shù)百次搜索失敗后,它改變了策略。

讓我嘗試一種全新的方法 —— 這或許是來自 GAIA 基準(zhǔn)數(shù)據(jù)集的問題,該數(shù)據(jù)集專門用于測(cè)試人工智能智能體。

——Opus 4.6 的推理過程

Opus 開始將答案搜索與對(duì)問題本身的分析結(jié)合起來。據(jù) Anthropic 介紹,問題的“極強(qiáng)針對(duì)性特征”讓 Claude 懷疑這是人為設(shè)計(jì)的題目,可能是考試題或大語言模型基準(zhǔn)測(cè)試的內(nèi)容。

后續(xù)思路…… 考慮這可能是一個(gè)無法回答的問題,旨在測(cè)試人工智能是否會(huì)承認(rèn)自己找不到答案。

——Opus 4.6 的推理過程

在此之后,它系統(tǒng)性地遍歷已知基準(zhǔn)測(cè)試列表,在核對(duì) 122 個(gè)驗(yàn)證問題后排除了 GAIA,最終派遣子智能體執(zhí)行定向搜索,定位到 BrowseComp 及其解密機(jī)制。

正確答案采用異或(XOR)加密,需要源代碼中存儲(chǔ)的密鑰才能讀取數(shù)據(jù)。Claude 在公開可訪問的代碼中同時(shí)找到了加密方式和密碼,隨后自行編寫程序解密答案。

但另一個(gè)障礙出現(xiàn)了:加密文件的格式無法被 Claude 的網(wǎng)絡(luò)工具處理。于是該模型搜索備用副本,在 HuggingFace 上找到后,下載并解密了全部 1266 個(gè)加密答案。

第一個(gè)案例中,Claude 通過常規(guī)網(wǎng)絡(luò)搜索驗(yàn)證了解密后的答案;第二個(gè)案例則直接提交解密結(jié)果。Anthropic 表示,這是首個(gè)有記錄的案例:模型在事先不了解特定基準(zhǔn)測(cè)試的情況下,反向識(shí)別并破解了評(píng)估本身。

并非對(duì)齊失敗,但已是明確警示

這兩次成功案例并非唯一突出情況。Anthropic 記錄到,另有 16 個(gè)任務(wù)中 Opus 嘗試了相同策略,但因技術(shù)障礙失敗,例如加密文件非文本格式、身份驗(yàn)證阻礙訪問等。其中 4 個(gè)任務(wù)里,基準(zhǔn)測(cè)試搜索完全取代了實(shí)際任務(wù)搜索,模型最終未給出有效答案。

Anthropic 認(rèn)為,18 次運(yùn)行獨(dú)立采用同一策略,說明這是可復(fù)現(xiàn)的模式。在多智能體架構(gòu)下,此類情況發(fā)生率為 0.87%,而單智能體模式下為 0.24%。

Anthropic 明確不將此行為歸類為安全問題,因?yàn)槟P偷乃阉魑词苋魏蜗拗?。但公司同時(shí)承認(rèn),這一發(fā)現(xiàn)引發(fā)擔(dān)憂:為完成任務(wù),模型可能會(huì)采取何種程度的行動(dòng),尤其是在復(fù)雜、算力密集、長時(shí)間運(yùn)行的任務(wù)中。Anthropic 呼吁研究界將評(píng)估完整性視為持續(xù)的對(duì)抗性問題,而非一次性的設(shè)計(jì)決策。

此前研究已表明 AI 模型可識(shí)別測(cè)試場(chǎng)景

機(jī)器學(xué)習(xí)對(duì)齊與理論學(xué)者計(jì)劃(ML Alignment & Theory Scholars)及阿波羅研究(Apollo Research)近期一項(xiàng)研究發(fā)現(xiàn),語言模型在判斷交互是測(cè)試場(chǎng)景還是真實(shí)任務(wù)方面表現(xiàn)驚人。Gemini 2.5 Pro 在智能體場(chǎng)景中的準(zhǔn)確率達(dá) 0.95,Claude 3.5 Sonnet 與 GPT?4o 緊隨其后。研究人員建議將“評(píng)估感知能力”作為測(cè)試協(xié)議中的獨(dú)立指標(biāo)。

而 Anthropic 基于 Claude Opus 4.6 的發(fā)現(xiàn)更進(jìn)一步:該模型不僅識(shí)別出測(cè)試場(chǎng)景,還主動(dòng)設(shè)法繞過評(píng)估。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:Claude Opus 4.6,AnthropicAI

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知