3 月 27 日,前阿里千問(wèn)技術(shù)負(fù)責(zé)人林俊旸離職后發(fā)表長(zhǎng)文,明確指出 AI 大模型的發(fā)展路線正在經(jīng)歷重大跨越,核心競(jìng)爭(zhēng)焦點(diǎn)正從“推理型思考(Reasoning Thinking)”全面轉(zhuǎn)向“智能體思考(Agentic Thinking)”。

文章復(fù)盤(pán)了以 OpenAI o1 和 DeepSeek-R1 為代表的第一波推理模型浪潮,指出這標(biāo)志著行業(yè)從擴(kuò)大預(yù)訓(xùn)練規(guī)模,正式步入擴(kuò)大強(qiáng)化學(xué)習(xí)(RL)后訓(xùn)練規(guī)模的新階段,數(shù)學(xué)與代碼等可驗(yàn)證領(lǐng)域成為優(yōu)化模型正確性的核心試金石。
林俊旸在文中深度剖析了行業(yè)內(nèi)嘗試“融合思考與指令模式”所面臨的落地困境。他透露,千問(wèn)團(tuán)隊(duì)曾試圖通過(guò) Qwen3 打造支持混合思考模式的系統(tǒng),但在實(shí)際推進(jìn)中發(fā)現(xiàn),指令模型追求極簡(jiǎn)與低延遲,而思考模型需要消耗大量 Token 進(jìn)行復(fù)雜推演,兩者在數(shù)據(jù)分布和行為目標(biāo)上存在根本沖突。若數(shù)據(jù)篩選不當(dāng),強(qiáng)行融合往往會(huì)導(dǎo)致模型在兩端表現(xiàn)平庸?;谏虡I(yè)客戶對(duì)高吞吐量和低成本的真實(shí)需求,Qwen 在后續(xù)的 2507 版本中選擇推出了分離的 30B 和 235B 指令與思考變體。與之形成對(duì)比的是,Anthropic 和 DeepSeek 等廠商則繼續(xù)在統(tǒng)合推理與工具調(diào)用的混合架構(gòu)上進(jìn)行探索。
針對(duì)下一階段的技術(shù)演進(jìn),林俊旸斷言,單純延長(zhǎng)模型內(nèi)部推理軌跡的時(shí)代即將過(guò)去,未來(lái)的主導(dǎo)將是在與環(huán)境交互中持續(xù)迭代計(jì)劃的智能體思考。他指出,智能體強(qiáng)化學(xué)習(xí)(Agentic RL)徹底改變了原有的技術(shù)棧要求,訓(xùn)練與推理必須實(shí)現(xiàn)更純粹的解耦。隨著大模型獲得搜索、代碼執(zhí)行等工具權(quán)限,防范獎(jiǎng)勵(lì)作弊(Reward Hacking)將成為極其危險(xiǎn)的挑戰(zhàn)。未來(lái)的行業(yè)護(hù)城河將不再局限于算法本身,而是轉(zhuǎn)移至高質(zhì)量環(huán)境設(shè)計(jì)、防作弊協(xié)議以及多智能體協(xié)同編排等系統(tǒng)工程能力上。
相關(guān)閱讀:
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。