微軟：AI 聊天機(jī)器人越聊越“笨”，主流大模型在多輪對(duì)話中成功率降至 65%

2026/2/20 22:44:25 來(lái)源：IT之家作者：問(wèn)舟 責(zé)編：問(wèn)舟

評(píng)論：

IT之家 2 月 20 日消息，當(dāng)用戶與 AI 聊天機(jī)器人進(jìn)行長(zhǎng)對(duì)話時(shí)，可能會(huì)感覺它們變得越來(lái)越“笨”，而這種感覺如今有了科學(xué)依據(jù)。

據(jù) Windows Central 今日?qǐng)?bào)道，微軟研究院與賽富時(shí)（Salesforce）聯(lián)合發(fā)表的一項(xiàng)研究證實(shí)，即使是目前最先進(jìn)的大語(yǔ)言模型，在多輪對(duì)話中的可靠性也會(huì)急劇下降。

研究人員對(duì)包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在內(nèi)的 15 款頂尖模型進(jìn)行了超過(guò) 20 萬(wàn)次模擬對(duì)話分析，揭示出一個(gè)被稱為“迷失會(huì)話”的系統(tǒng)性缺陷。

數(shù)據(jù)顯示，這些模型在單次提示任務(wù)中的成功率可達(dá) 90%，但當(dāng)同樣的任務(wù)被拆解成多輪自然對(duì)話后，成功率驟降至約 65%。

研究指出，模型的“智力”本身并未顯著下降 —— 其核心能力僅降低約 15%—— 但“不可靠性”卻飆升 112%。也就是說(shuō)，AI 大模型仍然具備解決問(wèn)題的能力，但在多輪對(duì)話中變得高度不穩(wěn)定，難以持續(xù)跟蹤上下文。

報(bào)告指出，當(dāng)前大多數(shù)模型主要在“單輪”基準(zhǔn)測(cè)試下進(jìn)行評(píng)估，即一次性接收全部指令的理想實(shí)驗(yàn)環(huán)境。但現(xiàn)實(shí)中的人類交流通常是漸進(jìn)式的，信息在多輪互動(dòng)中逐步補(bǔ)充。研究發(fā)現(xiàn)，一旦任務(wù)被“拆分”到多個(gè)回合中，即便是最先進(jìn)的模型，也容易出現(xiàn)系統(tǒng)性失誤。

研究人員進(jìn)一步分析了造成性能下降的行為機(jī)制。

首先是“過(guò)早生成”：模型往往在用戶尚未完整說(shuō)明需求前就嘗試給出最終答案。一旦在早期回合中形成錯(cuò)誤假設(shè)（IT之家注：可能是指第一印象），模型后續(xù)便會(huì)在該錯(cuò)誤的基礎(chǔ)上繼續(xù)推理，而不是隨著新信息的加入進(jìn)行修正，從而導(dǎo)致錯(cuò)誤逐步放大。
其次是“答案膨脹”。在多輪對(duì)話中，模型的回復(fù)長(zhǎng)度比單輪對(duì)話增加了 20% 至 300%。更長(zhǎng)的回答往往包含更多假設(shè)與“幻覺”，這些內(nèi)容隨后被納入對(duì)話的持續(xù)上下文，從而進(jìn)一步影響后續(xù)推理的準(zhǔn)確性。

令人意外的是，即使是配備了額外“思考詞元”（thinking tokens）的新一代推理模型，如 OpenAI o3 和 DeepSeek R1，也未能顯著改善在多輪對(duì)話中的表現(xiàn)。研究還發(fā)現(xiàn)，將模型溫度參數(shù)設(shè)置為 0—— 這一常用于確保一致性的技巧 —— 對(duì)此類對(duì)話衰減幾乎沒有防護(hù)作用。

微軟：AI 聊天機(jī)器人越聊越“笨”，主流大模型在多輪對(duì)話中成功率降至 65%

這一發(fā)現(xiàn)對(duì)當(dāng)前 AI 行業(yè)的評(píng)估方式提出了質(zhì)疑。研究人員指出，現(xiàn)有的基準(zhǔn)測(cè)試主要基于理想的單輪場(chǎng)景，忽略了模型在真實(shí)世界中的行為。對(duì)于依賴 AI 構(gòu)建復(fù)雜對(duì)話流程或智能體的開發(fā)者而言，這一結(jié)論意味著嚴(yán)峻挑戰(zhàn)。

微軟：AI 聊天機(jī)器人越聊越“笨”，主流大模型在多輪對(duì)話中成功率降至 65%

目前最有效的應(yīng)對(duì)方式反而是減少多輪往返交流，將所有必要數(shù)據(jù)、約束條件和指令一次性在單個(gè)完整提示中提供，以提高輸出一致性。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

微軟：AI 聊天機(jī)器人越聊越“笨”，主流大模型在多輪對(duì)話中成功率降至 65%

相關(guān)文章

微軟：AI 聊天機(jī)器人越聊越“笨”，主流大模型在多輪對(duì)話中成功率降至 65%