研究揭示 AI 智能體開發(fā)失衡：過度聚焦編程，忽視多數(shù)勞動(dòng)力市場

2026/3/8 15:38:08 來源：IT之家作者：遠(yuǎn)洋 責(zé)編：遠(yuǎn)洋

評論：

IT之家 3 月 8 日消息，一項(xiàng)大規(guī)模研究顯示：AI 智能體開發(fā)幾乎只聚焦編程任務(wù)，忽視了絕大多數(shù)勞動(dòng)力市場。

卡內(nèi)基梅隆大學(xué)與斯坦福大學(xué)的研究人員，系統(tǒng)性對比了涵蓋 72342 項(xiàng)任務(wù)的 43 個(gè)智能體基準(zhǔn)測試與美國勞動(dòng)力市場。他們借助美國政府的 O*NET 數(shù)據(jù)庫（該數(shù)據(jù)庫對工作活動(dòng)進(jìn)行了多維度詳細(xì)分類），將基準(zhǔn)測試任務(wù)映射到 1016 種真實(shí)職業(yè)。

IT之家注意到，該研究揭示了一種失衡現(xiàn)狀：當(dāng)前智能體開發(fā)幾乎只針對計(jì)算機(jī)與數(shù)學(xué)領(lǐng)域，而這一以編程為主的領(lǐng)域僅占美國總就業(yè)人數(shù)的 7.6%。

分析發(fā)現(xiàn)，多個(gè)高度數(shù)字化的工作領(lǐng)域在現(xiàn)有基準(zhǔn)測試中幾乎沒有體現(xiàn)。管理領(lǐng)域數(shù)字化率達(dá) 88%，卻僅占所有分析基準(zhǔn)測試任務(wù)的 1.4%；法律工作數(shù)字化率 70%，占比僅 0.3%；建筑與工程領(lǐng)域數(shù)字化率 71%，占比也只有 0.7%。

研究人員認(rèn)為，AI 智能體恰恰能在這些領(lǐng)域?qū)崿F(xiàn)短期生產(chǎn)力提升，但這些領(lǐng)域也存在特殊技術(shù)挑戰(zhàn)，包括目標(biāo)模糊、成果需長期驗(yàn)證等。

從資本分配（即各專業(yè)領(lǐng)域總收入）來看，管理、法律等經(jīng)濟(jì)價(jià)值最高的領(lǐng)域在基準(zhǔn)測試中占比依然偏低；與此同時(shí)，個(gè)人服務(wù)、護(hù)理等低薪勞動(dòng)密集型領(lǐng)域也幾乎未被關(guān)注。

研究表明，這種失衡在個(gè)人技能層面同樣嚴(yán)重。研究人員構(gòu)建了分類體系，將職業(yè)技能分為四類：信息獲取、思維處理、人際互動(dòng)、工作成果?，F(xiàn)實(shí)中，四類所需技能分布相對均衡。

但智能體基準(zhǔn)測試只聚焦“獲取信息”和“計(jì)算機(jī)操作”兩類，二者合計(jì)僅覆蓋美國就業(yè)市場的不到 5%。而涉及大量現(xiàn)實(shí)工作的“人際互動(dòng)”類別，在基準(zhǔn)測試中幾乎沒有涉及。

研究人員將這種偏向歸因于方法上的便捷性：那些易于編寫任務(wù)指令、檢驗(yàn)結(jié)果的領(lǐng)域獲得了過多關(guān)注。盡管這推動(dòng)了細(xì)分領(lǐng)域的快速發(fā)展，但研究團(tuán)隊(duì)警告，這可能讓智能體開發(fā)偏離社會(huì)與經(jīng)濟(jì)回報(bào)最大的領(lǐng)域。

研究人員特別將 OpenAI 的 GDPval 基準(zhǔn)測試列為正面案例：盡管規(guī)模相對較小，卻覆蓋了最廣泛的專業(yè)領(lǐng)域與技能。OpenAI 在 2025 年專門設(shè)計(jì)該基準(zhǔn)，用于衡量 AI 智能體對不同領(lǐng)域真實(shí)知識工作的影響。

為衡量 AI 智能體在覆蓋工作領(lǐng)域中的實(shí)際自主程度，研究人員制定了可量化的自主性指標(biāo)：將其定義為智能體在既定成功率下可處理的最大任務(wù)復(fù)雜度，復(fù)雜度通過分層工作流的步驟數(shù)衡量。

研究顯示，即便在覆蓋最充分的軟件開發(fā)領(lǐng)域，任務(wù)復(fù)雜度提升時(shí)，智能體成功率也會(huì)急劇下降。智能體在思維處理、產(chǎn)出工作成果等獨(dú)立活動(dòng)中表現(xiàn)最佳，但即便在相對簡單的任務(wù)中，也難以勝任信息查找檢索、與人協(xié)作等工作。

少數(shù)可用于對照測試的基準(zhǔn)（如 SWE-bench）顯示：OpenHands 框架表現(xiàn)優(yōu)于 SWE-agent，Claude 優(yōu)于 GPT，中等復(fù)雜度任務(wù)中這一差距尤為明顯。但研究人員提醒，這些趨勢未必適用于其他復(fù)雜度級別，并呼吁更廣泛地公開智能體運(yùn)行軌跡，以開展更系統(tǒng)的對比。

基于研究結(jié)果，研究人員提出未來基準(zhǔn)測試的三大設(shè)計(jì)原則：

1. 新基準(zhǔn)應(yīng)專門針對管理、法律等覆蓋不足但高度數(shù)字化的領(lǐng)域，或追求跨領(lǐng)域、跨技能的廣泛覆蓋。

2. 基準(zhǔn)測試需更貼近現(xiàn)實(shí)、更復(fù)雜。許多自動(dòng)生成的基準(zhǔn)僅捕捉了真實(shí)工作的簡化片段，而人工編寫的任務(wù)（如 GDPval、TheAgentCompany 基準(zhǔn)）則覆蓋多元領(lǐng)域與技能；若需通過自動(dòng)生成實(shí)現(xiàn)規(guī)?；?，任務(wù)設(shè)計(jì)應(yīng)反映真實(shí)的領(lǐng)域與技能構(gòu)成。

3. 推動(dòng)更精細(xì)化的評估。僅衡量智能體是否完成任務(wù)，無法定位其具體失效環(huán)節(jié)。研究人員建議，從人類演示中自動(dòng)提取工作流，設(shè)立中間檢查點(diǎn)，從而更細(xì)致地評估智能體表現(xiàn)。該研究還提供了框架與配套資源，幫助基準(zhǔn)設(shè)計(jì)者發(fā)現(xiàn)覆蓋缺口、助力開發(fā)者明確改進(jìn)方向、幫助用戶為具體任務(wù)選擇合適的自主等級。

這些結(jié)論與現(xiàn)實(shí)使用情況一致：Anthropic 近期基于數(shù)百萬次人類-智能體交互的分析顯示，軟件開發(fā)占公共 API 中所有智能體工具調(diào)用的近 50%，而其他行業(yè)各自僅占幾個(gè)百分點(diǎn)。Anthropic 將當(dāng)前階段稱為“智能體應(yīng)用的早期階段”。

加州大學(xué)伯克利分校及合作機(jī)構(gòu) 2025 年末的研究也得出相似結(jié)論：企業(yè)目前大多將 AI 智能體作為簡單、高度受控的工具，自主操作步驟極少。該研究認(rèn)為，系統(tǒng)可靠性仍是最大障礙。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

研究揭示 AI 智能體開發(fā)失衡：過度聚焦編程，忽視多數(shù)勞動(dòng)力市場

相關(guān)文章