在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Meta 推出強(qiáng)化學(xué)習(xí)新框架 SWEET-RL,讓 AI 更懂人類意圖

2025/3/24 10:53:59 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 3 月 24 日消息,科技媒體 marktechpost 昨日(3 月 23 日)發(fā)布博文,報(bào)道稱 Meta AI 公司攜手加州大學(xué)伯克利分校,合作推出名為 SWEET-RL 的強(qiáng)化學(xué)習(xí)框架,并發(fā)布了 CollaborativeAgentBench(ColBench)基準(zhǔn)測試。

這一創(chuàng)新旨在提升大語言模型(LLMs)在多輪人機(jī)協(xié)作任務(wù)中的表現(xiàn),特別是在后端編程和前端設(shè)計(jì)領(lǐng)域。SWEET-RL 通過逐輪優(yōu)化決策,顯著提高了模型的任務(wù)完成率,并展示了其在開源模型(如 Llama-3.1-8B)與專有模型(如 GPT-4o)競爭中的潛力。

項(xiàng)目背景

IT之家援引博文介紹,大語言模型正逐漸演變?yōu)槟軌驁?zhí)行復(fù)雜任務(wù)的自主智能體,但在多輪決策任務(wù)中仍面臨挑戰(zhàn)。

傳統(tǒng)訓(xùn)練方法依賴于單輪反饋或模仿高概率行為,無法有效處理長期依賴和累積目標(biāo)。這導(dǎo)致模型在協(xié)作場景中表現(xiàn)不佳,特別是在理解人類意圖和多步驟推理方面。

SWEET-RL 的創(chuàng)新之處

SWEET-RL 采用非對(duì)稱的“演員-評(píng)論家”結(jié)構(gòu),評(píng)論家在訓(xùn)練過程中可以訪問額外信息(如正確答案),從而更精確地評(píng)估演員的決策。

該框架直接建模逐輪的優(yōu)勢函數(shù),簡化了信用分配過程,并與 LLMs 的預(yù)訓(xùn)練架構(gòu)更好地對(duì)齊。實(shí)驗(yàn)結(jié)果顯示,SWEET-RL 在后端編程任務(wù)中通過率提升至 48.0%,前端設(shè)計(jì)任務(wù)的余弦相似度達(dá)到 76.9%,顯著優(yōu)于其他多輪強(qiáng)化學(xué)習(xí)方法。

ColBench 基準(zhǔn)測試

ColBench 包含超過 10000 個(gè)訓(xùn)練任務(wù)和 1000 個(gè)測試案例,模擬真實(shí)的人機(jī)協(xié)作場景。任務(wù)設(shè)計(jì)涵蓋后端編程(如 Python 函數(shù)編寫)和前端設(shè)計(jì)(如 HTML 代碼生成),并限制每輪交互最多 10 次。

這一基準(zhǔn)測試通過單元測試通過率(代碼)和余弦相似度(設(shè)計(jì))評(píng)估模型表現(xiàn),為多輪任務(wù)提供了可靠的評(píng)估標(biāo)準(zhǔn)。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:Meta,AI

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知