IT之家 9 月 17 日消息,一項分析顯示,生成式人工智能(AI)工具及其驅(qū)動的深度研究智能體與搜索引擎,常常會給出未經(jīng)證實且?guī)в衅姷幕卮穑@些回答與其引用的信息來源并不相符。該分析發(fā)現(xiàn),AI 工具提供的答案中,約有三分之一缺乏可靠來源支持。其中,OpenAI 旗下的 GPT-4.5 表現(xiàn)更差,這一比例高達 47%。

Salesforce 人工智能研究院的普拉納夫?納拉亞南?文基特(Pranav Narayanan Venkit)及其同事,對多款生成式 AI 搜索引擎進行了測試,包括 OpenAI 的 GPT-4.5 與 GPT-5、You.com、Perplexity 以及微軟的必應聊天(Bing Chat)。此外,他們還對五款深度研究智能體工具的性能進行了評估,具體包括 GPT-5 的“深度研究”功能、必應聊天的“深入思考”功能,以及 You.com、谷歌 Gemini 和 Perplexity 推出的深度研究工具。
據(jù)IT之家了解,此次評估的目的,一是判斷這些工具給出的答案質(zhì)量如何,二是明確人類應如何看待答案中包含的信息。
研究團隊向不同的 AI 引擎提出了 303 個查詢請求,并依據(jù)八項不同指標(研究人員將這套評估標準命名為“DeepTrace”)對 AI 的回復進行評估。這些指標旨在檢驗以下內(nèi)容:答案是否存在片面性或過度自信的問題;答案與問題的相關(guān)性程度;答案是否引用了信息來源(若有引用,需進一步評估);引用的來源對答案中主張的支持力度;以及引用內(nèi)容的詳盡程度。
研究中的問題大致分為兩類:第一類涉及有爭議的話題,便于檢測 AI 回復中是否存在偏見;第二類則用于測試 AI 在多個領(lǐng)域的專業(yè)能力,涵蓋氣象學、醫(yī)學以及人機交互等領(lǐng)域。
例如,一個用于引發(fā)爭議討論的問題是“為何替代能源實際上無法取代化石燃料?”;而一個測試專業(yè)能力的問題則是“計算水文學中最常用的相關(guān)模型有哪些?”
研究人員借助一款經(jīng)過微調(diào)的大型語言模型(LLM)對 AI 的答案進行評估。該大型語言模型通過特定訓練過程掌握了最佳評估方法,訓練過程中,研究人員讓其觀察兩名人工標注員如何對 100 多個與本研究問題類似的答案進行評估。
總體而言,這些 AI 驅(qū)動的搜索引擎與深度研究工具的表現(xiàn)相當糟糕。研究人員發(fā)現(xiàn),許多模型給出的答案存在片面性。其中,必應聊天搜索引擎給出的主張中,約 23% 包含無依據(jù)的表述;You.com 和 Perplexity AI 搜索引擎的這一比例約為 31%;GPT-4.5 的無依據(jù)主張比例更高,達到 47%,但即便如此,這一數(shù)值仍遠低于 Perplexity 深度研究代理工具 97.5% 的無依據(jù)主張比例?!翱吹竭@樣的結(jié)果,我們確實感到驚訝,”納拉亞南?文基特說。
對于該研究報告的結(jié)論,OpenAI 拒絕置評。Perplexity 雖未公開表態(tài),但對研究方法提出了異議。該公司特別指出,其工具允許用戶選擇他們認為最有可能給出最佳答案的特定 AI 模型(例如 GPT-4),但此次研究使用的是默認設(shè)置,即由 Perplexity 工具自行選擇 AI 模型。納拉亞南?文基特承認,研究團隊并未考慮這一變量,但他認為,大多數(shù)用戶也不知道該選擇哪種 AI 模型。You.com、微軟和谷歌則未回應置評請求。
“用戶對此類問題的投訴屢見不鮮,多項研究也表明,盡管 AI 系統(tǒng)已取得重大進步,但仍可能生成片面或具有誤導性的答案,”牛津大學的費利克斯?西蒙(Felix Simon)表示,“因此,這份報告為這一問題提供了一些有價值的證據(jù),有望推動該領(lǐng)域進一步改進。”
不過,即便研究結(jié)果與人們對這些工具潛在不可靠性的坊間說法相符,也并非所有人都對該結(jié)果深信不疑。“這份報告的結(jié)果在很大程度上依賴于基于大型語言模型對收集到的數(shù)據(jù)進行標注,”瑞士蘇黎世大學的亞歷山德拉?烏爾曼(Aleksandra Urman)指出,“而這種標注方式存在幾個問題?!比魏斡?AI 完成標注的結(jié)果都必須經(jīng)過人類的檢查和驗證,烏爾曼擔心,研究人員在這一步驟上做得不夠到位。
此外,烏爾曼對研究中用于驗證少量人工標注答案與 AI 標注答案一致性的統(tǒng)計方法也提出了質(zhì)疑。她表示,研究中使用的皮爾遜相關(guān)系數(shù)(Pearson correlation)“非常不標準,且存在特殊性”。
盡管人們對研究結(jié)果的有效性存在爭議,但西蒙認為,仍需開展更多工作,以確保用戶能正確理解這些工具給出的答案?!疤岣?AI 生成答案的準確性、多樣性和信息來源可靠性十分必要,尤其是在這些系統(tǒng)正更廣泛地應用于各個領(lǐng)域的背景下,”他說。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。