在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

研究揭示 AI 智能體開發(fā)失衡:過度聚焦編程,忽視多數勞動力市場

2026/3/8 15:38:08 來源:IT之家 作者:遠洋 責編:遠洋

IT之家 3 月 8 日消息,一項大規(guī)模研究顯示:AI 智能體開發(fā)幾乎只聚焦編程任務,忽視了絕大多數勞動力市場。

卡內基梅隆大學與斯坦福大學的研究人員,系統(tǒng)性對比了涵蓋 72342 項任務的 43 個智能體基準測試與美國勞動力市場。他們借助美國政府的 O*NET 數據庫(該數據庫對工作活動進行了多維度詳細分類),將基準測試任務映射到 1016 種真實職業(yè)。

IT之家注意到,該研究揭示了一種失衡現狀:當前智能體開發(fā)幾乎只針對計算機與數學領域,而這一以編程為主的領域僅占美國總就業(yè)人數的 7.6%。

分析發(fā)現,多個高度數字化的工作領域在現有基準測試中幾乎沒有體現。管理領域數字化率達 88%,卻僅占所有分析基準測試任務的 1.4%;法律工作數字化率 70%,占比僅 0.3%;建筑與工程領域數字化率 71%,占比也只有 0.7%。

研究人員認為,AI 智能體恰恰能在這些領域實現短期生產力提升,但這些領域也存在特殊技術挑戰(zhàn),包括目標模糊、成果需長期驗證等。

從資本分配(即各專業(yè)領域總收入)來看,管理、法律等經濟價值最高的領域在基準測試中占比依然偏低;與此同時,個人服務、護理等低薪勞動密集型領域也幾乎未被關注。

研究表明,這種失衡在個人技能層面同樣嚴重。研究人員構建了分類體系,將職業(yè)技能分為四類:信息獲取、思維處理、人際互動、工作成果?,F實中,四類所需技能分布相對均衡。

但智能體基準測試只聚焦“獲取信息”和“計算機操作”兩類,二者合計僅覆蓋美國就業(yè)市場的不到 5%。而涉及大量現實工作的“人際互動”類別,在基準測試中幾乎沒有涉及。

研究人員將這種偏向歸因于方法上的便捷性:那些易于編寫任務指令、檢驗結果的領域獲得了過多關注。盡管這推動了細分領域的快速發(fā)展,但研究團隊警告,這可能讓智能體開發(fā)偏離社會與經濟回報最大的領域。

研究人員特別將 OpenAI 的 GDPval 基準測試列為正面案例:盡管規(guī)模相對較小,卻覆蓋了最廣泛的專業(yè)領域與技能。OpenAI 在 2025 年專門設計該基準,用于衡量 AI 智能體對不同領域真實知識工作的影響。

為衡量 AI 智能體在覆蓋工作領域中的實際自主程度,研究人員制定了可量化的自主性指標:將其定義為智能體在既定成功率下可處理的最大任務復雜度,復雜度通過分層工作流的步驟數衡量。

研究顯示,即便在覆蓋最充分的軟件開發(fā)領域,任務復雜度提升時,智能體成功率也會急劇下降。智能體在思維處理、產出工作成果等獨立活動中表現最佳,但即便在相對簡單的任務中,也難以勝任信息查找檢索、與人協作等工作。

少數可用于對照測試的基準(如 SWE-bench)顯示:OpenHands 框架表現優(yōu)于 SWE-agent,Claude 優(yōu)于 GPT,中等復雜度任務中這一差距尤為明顯。但研究人員提醒,這些趨勢未必適用于其他復雜度級別,并呼吁更廣泛地公開智能體運行軌跡,以開展更系統(tǒng)的對比。

基于研究結果,研究人員提出未來基準測試的三大設計原則:

1. 新基準應專門針對管理、法律等覆蓋不足但高度數字化的領域,或追求跨領域、跨技能的廣泛覆蓋。

2. 基準測試需更貼近現實、更復雜。許多自動生成的基準僅捕捉了真實工作的簡化片段,而人工編寫的任務(如 GDPval、TheAgentCompany 基準)則覆蓋多元領域與技能;若需通過自動生成實現規(guī)?;?,任務設計應反映真實的領域與技能構成。

3. 推動更精細化的評估。僅衡量智能體是否完成任務,無法定位其具體失效環(huán)節(jié)。研究人員建議,從人類演示中自動提取工作流,設立中間檢查點,從而更細致地評估智能體表現。該研究還提供了框架與配套資源,幫助基準設計者發(fā)現覆蓋缺口、助力開發(fā)者明確改進方向、幫助用戶為具體任務選擇合適的自主等級。

這些結論與現實使用情況一致:Anthropic 近期基于數百萬次人類-智能體交互的分析顯示,軟件開發(fā)占公共 API 中所有智能體工具調用的近 50%,而其他行業(yè)各自僅占幾個百分點。Anthropic 將當前階段稱為“智能體應用的早期階段”。

加州大學伯克利分校及合作機構 2025 年末的研究也得出相似結論:企業(yè)目前大多將 AI 智能體作為簡單、高度受控的工具,自主操作步驟極少。該研究認為,系統(tǒng)可靠性仍是最大障礙。

廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:AI智能體,AI

軟媒旗下網站: IT之家 最會買 - 返利返現優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知