在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

中國信通院啟動 AI 大模型幻覺評測,總體涉及五種測試維度

2025/3/19 16:20:14 來源:IT之家 作者:遠洋 責編:遠洋

IT之家 3 月 19 日消息,IT之家從中國信通院官方微信公眾號獲悉,為摸清大模型的幻覺現(xiàn)狀,推動大模型應(yīng)用走深走實,中國信息通信研究院人工智能所基于前期的 AI Safety Benchmark 測評工作,發(fā)起大模型幻覺測試。

大模型幻覺(AI Hallucination)是指模型在生成內(nèi)容或回答問題時,產(chǎn)生了看似合理,實則與用戶輸入不一致(忠實性幻覺)或者不符合事實(事實性幻覺)的內(nèi)容。隨著大模型在醫(yī)療、金融等關(guān)鍵領(lǐng)域廣泛應(yīng)用,大模型幻覺帶來的潛在應(yīng)用風險日益加劇,正得到業(yè)界的廣泛關(guān)注。

本輪幻覺測試工作將以大語言模型為測試對象,涵蓋了事實性幻覺和忠實性幻覺兩種幻覺類型,具體測評體系如下:

圖片

測試數(shù)據(jù)包含 7000 余條中文測試樣本,測試形式包括對應(yīng)于忠實性幻覺檢測的信息抽取與知識推理兩類題型,以及對應(yīng)事實性幻覺檢測的事實判別題型。總體涉及人文科學、社會科學、自然科學、應(yīng)用科學和形式科學五種測試維度。

圖片

中國信通院邀請各相關(guān)企業(yè)參與模型測評,共同推動大模型安全應(yīng)用。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能,AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知