在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

微軟:AI 聊天機器人越聊越“笨”,主流大模型在多輪對話中成功率降至 65%

2026/2/20 22:44:25 來源:IT之家 作者:問舟 責編:問舟

IT之家 2 月 20 日消息,當用戶與 AI 聊天機器人進行長對話時,可能會感覺它們變得越來越“笨”,而這種感覺如今有了科學依據。

據 Windows Central 今日報道,微軟研究院與賽富時(Salesforce)聯(lián)合發(fā)表的一項研究證實,即使是目前最先進的大語言模型,在多輪對話中的可靠性也會急劇下降。

研究人員對包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在內的 15 款頂尖模型進行了超過 20 萬次模擬對話分析,揭示出一個被稱為“迷失會話”的系統(tǒng)性缺陷。

數據顯示,這些模型在單次提示任務中的成功率可達 90%,但當同樣的任務被拆解成多輪自然對話后,成功率驟降至約 65%。

研究指出,模型的“智力”本身并未顯著下降 —— 其核心能力僅降低約 15%—— 但“不可靠性”卻飆升 112%。也就是說,AI 大模型仍然具備解決問題的能力,但在多輪對話中變得高度不穩(wěn)定,難以持續(xù)跟蹤上下文。

報告指出,當前大多數模型主要在“單輪”基準測試下進行評估,即一次性接收全部指令的理想實驗環(huán)境。但現(xiàn)實中的人類交流通常是漸進式的,信息在多輪互動中逐步補充。研究發(fā)現(xiàn),一旦任務被“拆分”到多個回合中,即便是最先進的模型,也容易出現(xiàn)系統(tǒng)性失誤。

研究人員進一步分析了造成性能下降的行為機制。

  • 首先是“過早生成”:模型往往在用戶尚未完整說明需求前就嘗試給出最終答案。一旦在早期回合中形成錯誤假設(IT之家注:可能是指第一印象),模型后續(xù)便會在該錯誤的基礎上繼續(xù)推理,而不是隨著新信息的加入進行修正,從而導致錯誤逐步放大。

  • 其次是“答案膨脹”。在多輪對話中,模型的回復長度比單輪對話增加了 20% 至 300%。更長的回答往往包含更多假設與“幻覺”,這些內容隨后被納入對話的持續(xù)上下文,從而進一步影響后續(xù)推理的準確性。

令人意外的是,即使是配備了額外“思考詞元”(thinking tokens)的新一代推理模型,如 OpenAI  o3 和 DeepSeek R1,也未能顯著改善在多輪對話中的表現(xiàn)。研究還發(fā)現(xiàn),將模型溫度參數設置為 0—— 這一常用于確保一致性的技巧 —— 對此類對話衰減幾乎沒有防護作用。

這一發(fā)現(xiàn)對當前 AI 行業(yè)的評估方式提出了質疑。研究人員指出,現(xiàn)有的基準測試主要基于理想的單輪場景,忽略了模型在真實世界中的行為。對于依賴 AI 構建復雜對話流程或智能體的開發(fā)者而言,這一結論意味著嚴峻挑戰(zhàn)。

目前最有效的應對方式反而是減少多輪往返交流,將所有必要數據、約束條件和指令一次性在單個完整提示中提供,以提高輸出一致性。

廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:微軟,大語言模型

軟媒旗下網站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知