IT之家 12 月 4 日消息,科技媒體 Wccftech 昨日(12 月 3 日)發(fā)布博文,報(bào)道稱在“混合專家”模型上,英偉達(dá)的 GB200 NVL72 AI 服務(wù)器取得重大性能突破。
基于開源大語言模型 Kimi K2 Thinking、Deepseek-R1-0528、Mistral Large 3 測試,相比上一代 Hopper HGX 200 性能提升 10 倍。



IT之家注:混合專家模型(MoE)是一種高效的 AI 大模型架構(gòu)。它不像傳統(tǒng)模型那樣在處理每個(gè)任務(wù)時(shí)都動(dòng)用全部“腦力”(參數(shù)),而是像一個(gè)專家團(tuán)隊(duì),根據(jù)任務(wù)類型只激活一小部分最相關(guān)的“專家”(參數(shù)子集)來解決問題。這樣做能顯著降低計(jì)算成本,提高處理速度。


英偉達(dá)為了解決 MoE 模型擴(kuò)展時(shí)遇到的性能瓶頸,采用了“協(xié)同設(shè)計(jì)”(co-design)的策略,該方法整合了 GB200 的 72 芯片配置、高達(dá) 30TB 的快速共享內(nèi)存、第二代 Transformer 引擎以及第五代 NVLink 高速互聯(lián)技術(shù)。
通過這些技術(shù)的協(xié)同工作,系統(tǒng)能夠高效地將 Token 批次拆分并分配到各個(gè) GPU,同時(shí)以非線性速率提升通信量,從而將專家并行計(jì)算(expert parallelism)提升至全新水平,最終實(shí)現(xiàn)了性能的巨大飛躍。
除了硬件層面的協(xié)同設(shè)計(jì),英偉達(dá)還實(shí)施了多項(xiàng)全棧優(yōu)化措施來提升 MoE 模型的推理性能。例如,NVIDIA Dynamo 框架通過將預(yù)填充(prefill)和解碼(decode)任務(wù)分配給不同的 GPU,實(shí)現(xiàn)了任務(wù)的解耦服務(wù),允許解碼階段以大規(guī)模專家并行方式運(yùn)行。

同時(shí),系統(tǒng)還采用了 NVFP4 格式,這種數(shù)據(jù)格式在保持計(jì)算精度的同時(shí),進(jìn)一步提高了性能和效率,確保了整個(gè) AI 計(jì)算流程的高效穩(wěn)定。
該媒體指出,此次 GB200 NVL72 取得的性能突破,對英偉達(dá)及其合作伙伴具有重要意義。這一進(jìn)展成功克服了 MoE 模型在擴(kuò)展時(shí)面臨的計(jì)算瓶頸,從而能夠滿足日益增長的 AI 算力需求,并鞏固了英偉達(dá)在 AI 服務(wù)器市場的領(lǐng)先地位。


廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。