IT之家 3 月 22 日消息,由于傳統(tǒng) AI 基準(zhǔn)測試方法難以全面評估模型能力,AI 開發(fā)者正嘗試更具創(chuàng)意的測試方式,其中一種測試手段,則是微軟沙盒建造游戲《我的世界》。
據(jù)外媒 TechCrunch 報道,名為阿迪?辛格(Adi Singh)的高三學(xué)生創(chuàng)建了專門為 AI 評測而開發(fā)的網(wǎng)站 Minecraft Benchmark(簡稱 MC-Bench),讓 AI 模型在《我的世界》中同臺競技,基于相同的提示生成建筑作品。用戶可以為自己認為更出色的作品投票,而投票結(jié)束后才會顯示具體是哪款 AI 生成了哪些作品。

其認為選擇《我的世界》的意義并不在于游戲本身,而在于它的知名度。即便沒玩過這款游戲,人們依然能分辨哪個方塊狀的菠蘿更逼真?!啊段业氖澜纭纺茏?AI 發(fā)展的進步更加直觀,大家對《我的世界》的風(fēng)格和視覺效果都很熟悉?!?/p>
目前,MC-Bench 的志愿貢獻者共有 8 人。IT之家從 MC-Bench 網(wǎng)站的信息獲悉,Anthropic、谷歌、OpenAI 和阿里巴巴為該項目提供了 AI 計算資源支持,但并未直接參與開發(fā)。
“目前,我們的測試仍然較為基礎(chǔ),主要用于觀察 AI 從 GPT-3 時代至今的進步。但未來,我們或許會拓展到更復(fù)雜的目標(biāo)導(dǎo)向任務(wù)和長期規(guī)劃能力評估,游戲或許是測試 AI 智能體推理能力的一種理想方式 —— 相比現(xiàn)實世界,它更安全,也更可控?!?/p>

嚴(yán)格來說,MC-Bench 仍屬于編程基準(zhǔn)測試,因為 AI 需要編寫代碼來生成建筑,例如“霜雪人”或“熱帶風(fēng)情的海濱小屋”。
相較于分析代碼,大多數(shù)用戶更容易通過作品本身來評判 AI 的表現(xiàn)。至于這些測試結(jié)果是否能真正衡量 AI 的實際應(yīng)用價值,仍有待商榷。但辛格認為,這些數(shù)據(jù)仍然具備重要參考意義?!癕C-Bench 當(dāng)前的排行榜與我的實際使用體驗高度吻合,而這在許多傳統(tǒng)文本基準(zhǔn)測試中并不常見?;蛟S,它能幫助 AI 開發(fā)者判斷自己是否走在正確的方向上?!?/p>
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。