豆包提出全新稀疏模型架構(gòu) UltraMem，推理成本較 MoE 最高可降 83%

2025/2/12 12:58:01 來源：IT之家作者：清源責(zé)編：清源

評論：

感謝IT之家網(wǎng)友刺客、某咸魚的小號的線索投遞！

IT之家 2 月 12 日消息，豆包大模型團(tuán)隊今日宣布，字節(jié)跳動豆包大模型團(tuán)隊提出了全新的稀疏模型架構(gòu) UltraMem，該架構(gòu)有效解決了 MoE 推理時高額的訪存問題，推理速度較 MoE 架構(gòu)提升 2-6 倍，推理成本最高可降低 83%。該研究還揭示了新架構(gòu)的 Scaling Law，證明其不僅具備優(yōu)異的 Scaling 特性，更在性能上超越了 MoE。

實驗結(jié)果表明，訓(xùn)練規(guī)模達(dá) 2000 萬 value 的 UltraMem 模型，在同等計算資源下可同時實現(xiàn)業(yè)界領(lǐng)先的推理速度和模型性能，為構(gòu)建數(shù)十億規(guī)模 value 或 expert 開辟了新路徑。

據(jù)介紹，UltraMem 是一種同樣將計算和參數(shù)解耦的稀疏模型架構(gòu)，在保證模型效果的前提下解決了推理的訪存問題。實驗結(jié)果表明，在參數(shù)和激活條件相同的情況下，UltraMem 在模型效果上超越了 MoE，并將推理速度提升了 2-6 倍。此外，在常見 batch size 規(guī)模下，UltraMem 的訪存成本幾乎與同計算量的 Dense 模型相當(dāng)。

豆包提出全新稀疏模型架構(gòu) UltraMem，推理成本較 MoE 最高可降 83%

在 Transformer 架構(gòu)下，模型的性能與其參數(shù)數(shù)量和計算復(fù)雜度呈對數(shù)關(guān)系。隨著 LLM 規(guī)模不斷增大，推理成本會急劇增加，速度變慢。

盡管 MoE 架構(gòu)已經(jīng)成功將計算和參數(shù)解耦，但在推理時，較小的 batch size 就會激活全部專家，導(dǎo)致訪存急劇上升，進(jìn)而使推理延遲大幅增加。

IT之家注：“MoE”指 Mixture of Experts（專家混合）架構(gòu)，是一種用于提升模型性能和效率的架構(gòu)設(shè)計。在 MoE 架構(gòu)中，模型由多個子模型（專家）組成，每個專家負(fù)責(zé)處理輸入數(shù)據(jù)的一部分。在訓(xùn)練和推理過程中，根據(jù)輸入數(shù)據(jù)的特征，會選擇性地激活部分專家來進(jìn)行計算，從而實現(xiàn)計算和參數(shù)的解耦，提高模型的靈活性和效率。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

豆包提出全新稀疏模型架構(gòu) UltraMem，推理成本較 MoE 最高可降 83%

相關(guān)文章