林俊旸從阿里離職后首發(fā)長(zhǎng)文：復(fù)盤(pán)千問(wèn)路線受阻，斷言 AI 演進(jìn)全面轉(zhuǎn)向智能體

2026/3/27 7:52:59 來(lái)源：鳳凰科技作者：簫雨責(zé)編：問(wèn)舟

評(píng)論：

感謝IT之家網(wǎng)友 HH_KK 的線索投遞！

3 月 27 日，前阿里千問(wèn)技術(shù)負(fù)責(zé)人林俊旸離職后發(fā)表長(zhǎng)文，明確指出 AI 大模型的發(fā)展路線正在經(jīng)歷重大跨越，核心競(jìng)爭(zhēng)焦點(diǎn)正從“推理型思考（Reasoning Thinking）”全面轉(zhuǎn)向“智能體思考（Agentic Thinking）”。

文章復(fù)盤(pán)了以 OpenAI o1 和 DeepSeek-R1 為代表的第一波推理模型浪潮，指出這標(biāo)志著行業(yè)從擴(kuò)大預(yù)訓(xùn)練規(guī)模，正式步入擴(kuò)大強(qiáng)化學(xué)習(xí)（RL）后訓(xùn)練規(guī)模的新階段，數(shù)學(xué)與代碼等可驗(yàn)證領(lǐng)域成為優(yōu)化模型正確性的核心試金石。

林俊旸在文中深度剖析了行業(yè)內(nèi)嘗試“融合思考與指令模式”所面臨的落地困境。他透露，千問(wèn)團(tuán)隊(duì)曾試圖通過(guò) Qwen3 打造支持混合思考模式的系統(tǒng)，但在實(shí)際推進(jìn)中發(fā)現(xiàn)，指令模型追求極簡(jiǎn)與低延遲，而思考模型需要消耗大量 Token 進(jìn)行復(fù)雜推演，兩者在數(shù)據(jù)分布和行為目標(biāo)上存在根本沖突。若數(shù)據(jù)篩選不當(dāng)，強(qiáng)行融合往往會(huì)導(dǎo)致模型在兩端表現(xiàn)平庸?；谏虡I(yè)客戶對(duì)高吞吐量和低成本的真實(shí)需求，Qwen 在后續(xù)的 2507 版本中選擇推出了分離的 30B 和 235B 指令與思考變體。與之形成對(duì)比的是，Anthropic 和 DeepSeek 等廠商則繼續(xù)在統(tǒng)合推理與工具調(diào)用的混合架構(gòu)上進(jìn)行探索。

針對(duì)下一階段的技術(shù)演進(jìn)，林俊旸斷言，單純延長(zhǎng)模型內(nèi)部推理軌跡的時(shí)代即將過(guò)去，未來(lái)的主導(dǎo)將是在與環(huán)境交互中持續(xù)迭代計(jì)劃的智能體思考。他指出，智能體強(qiáng)化學(xué)習(xí)（Agentic RL）徹底改變了原有的技術(shù)棧要求，訓(xùn)練與推理必須實(shí)現(xiàn)更純粹的解耦。隨著大模型獲得搜索、代碼執(zhí)行等工具權(quán)限，防范獎(jiǎng)勵(lì)作弊（Reward Hacking）將成為極其危險(xiǎn)的挑戰(zhàn)。未來(lái)的行業(yè)護(hù)城河將不再局限于算法本身，而是轉(zhuǎn)移至高質(zhì)量環(huán)境設(shè)計(jì)、防作弊協(xié)議以及多智能體協(xié)同編排等系統(tǒng)工程能力上。

相關(guān)閱讀：

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

林俊旸從阿里離職后首發(fā)長(zhǎng)文：復(fù)盤(pán)千問(wèn)路線受阻，斷言 AI 演進(jìn)全面轉(zhuǎn)向智能體

相關(guān)文章

林俊旸從阿里離職后首發(fā)長(zhǎng)文：復(fù)盤(pán)千問(wèn)路線受阻，斷言 AI 演進(jìn)全面轉(zhuǎn)向智能體