英偉達(dá)合作推出 Fast-dLLM 框架，AI 擴(kuò)散模型推理速度最高飆升 27.6 倍

2025/6/3 11:29:46 來源：IT之家作者：故淵責(zé)編：故淵

評論：

IT之家 6 月 3 日消息，科技媒體 marktechpost 昨日（6 月 2 日）發(fā)布博文，報(bào)道稱英偉達(dá)聯(lián)合麻省理工學(xué)院（MIT）、香港大學(xué)，合作推出 Fast-dLLM 框架，大幅提升擴(kuò)散模型（Diffusion-based LLMs）的推理速度。

擴(kuò)散模型被認(rèn)為是傳統(tǒng)自回歸模型（Autoregressive Models）的有力競爭者，采用雙向注意力機(jī)制（Bidirectional Attention Mechanisms），理論上能通過同步生成多個(gè)詞元（Multi-token Generation）加速解碼過程。

不過在實(shí)際應(yīng)用中，擴(kuò)散模型的推理速度往往無法媲美自回歸模型，每次生成步驟都需要重復(fù)計(jì)算全部注意力狀態(tài)，導(dǎo)致計(jì)算成本高昂。此外，多詞元同步解碼時(shí)，詞元間的依賴關(guān)系易被破壞，生成質(zhì)量下降，讓其難以滿足實(shí)際需求。

IT之家援引博文介紹，英偉達(dá)組建的聯(lián)合團(tuán)隊(duì)為解決上述瓶頸，研發(fā)了 Fast-dLLM 框架。該框架引入兩大創(chuàng)新：塊狀近似 KV 緩存機(jī)制和置信度感知并行解碼策略。

英偉達(dá)合作推出 Fast-dLLM 框架，AI 擴(kuò)散模型推理速度最高飆升 27.6 倍

KV 緩存通過將序列劃分為塊（Blocks），預(yù)計(jì)算并存儲(chǔ)其他塊的激活值（KV Activations），在后續(xù)解碼中重復(fù)利用，顯著減少計(jì)算冗余。其 DualCache 版本進(jìn)一步緩存前后綴詞元（Prefix and Suffix Tokens），利用相鄰?fù)评聿襟E的高相似性提升效率。

而置信度解碼則根據(jù)設(shè)定的閾值（Confidence Threshold），選擇性解碼高置信度的詞元，避免同步采樣帶來的依賴沖突，確保生成質(zhì)量。

Fast-dLLM 在多項(xiàng)基準(zhǔn)測試中展現(xiàn)了驚人表現(xiàn)。在 GSM8K 數(shù)據(jù)集上，生成長度為 1024 詞元時(shí)，其 8-shot 配置下實(shí)現(xiàn)了 27.6 倍加速，準(zhǔn)確率達(dá) 76.0%；在 MATH 基準(zhǔn)測試中，加速倍數(shù)為 6.5 倍，準(zhǔn)確率約為 39.3%；在 HumanEval 和 MBPP 測試中，分別實(shí)現(xiàn)了 3.2 倍和 7.8 倍加速，準(zhǔn)確率維持在 54.3% 和基線水平附近。

英偉達(dá)合作推出 Fast-dLLM 框架，AI 擴(kuò)散模型推理速度最高飆升 27.6 倍

整體來看，F(xiàn)ast-dLLM 在加速的同時(shí)，準(zhǔn)確率僅下降 1-2 個(gè)百分點(diǎn)，證明其有效平衡速度與質(zhì)量。這項(xiàng)研究通過解決推理效率和解碼質(zhì)量問題，讓擴(kuò)散模型在實(shí)際語言生成任務(wù)中具備了與自回歸模型競爭的實(shí)力，為未來廣泛應(yīng)用奠定了基礎(chǔ)。

英偉達(dá)合作推出 Fast-dLLM 框架，AI 擴(kuò)散模型推理速度最高飆升 27.6 倍

IT之家附上參考地址

Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding 論文
Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding 項(xiàng)目界面

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

英偉達(dá)合作推出 Fast-dLLM 框架，AI 擴(kuò)散模型推理速度最高飆升 27.6 倍

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

英偉達(dá)合作推出 Fast-dLLM 框架，AI 擴(kuò)散模型推理速度最高飆升 27.6 倍

相關(guān)文章

英偉達(dá)合作推出 Fast-dLLM 框架，AI 擴(kuò)散模型推理速度最高飆升 27.6 倍