中國信通院啟動 AI 大模型幻覺評測，總體涉及五種測試維度

2025/3/19 16:20:14 來源：IT之家作者：遠洋責編：遠洋

評論：

IT之家 3 月 19 日消息，IT之家從中國信通院官方微信公眾號獲悉，為摸清大模型的幻覺現(xiàn)狀，推動大模型應(yīng)用走深走實，中國信息通信研究院人工智能所基于前期的 AI Safety Benchmark 測評工作，發(fā)起大模型幻覺測試。

大模型幻覺（AI Hallucination）是指模型在生成內(nèi)容或回答問題時，產(chǎn)生了看似合理，實則與用戶輸入不一致（忠實性幻覺）或者不符合事實（事實性幻覺）的內(nèi)容。隨著大模型在醫(yī)療、金融等關(guān)鍵領(lǐng)域廣泛應(yīng)用，大模型幻覺帶來的潛在應(yīng)用風險日益加劇，正得到業(yè)界的廣泛關(guān)注。

本輪幻覺測試工作將以大語言模型為測試對象，涵蓋了事實性幻覺和忠實性幻覺兩種幻覺類型，具體測評體系如下：

測試數(shù)據(jù)包含 7000 余條中文測試樣本，測試形式包括對應(yīng)于忠實性幻覺檢測的信息抽取與知識推理兩類題型，以及對應(yīng)事實性幻覺檢測的事實判別題型。總體涉及人文科學、社會科學、自然科學、應(yīng)用科學和形式科學五種測試維度。

中國信通院邀請各相關(guān)企業(yè)參與模型測評，共同推動大模型安全應(yīng)用。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

中國信通院啟動 AI 大模型幻覺評測，總體涉及五種測試維度

相關(guān)文章