IT之家 9 月 29 日消息,今晚,DeepSeek-V3.2-Exp 發(fā)布并開源,引入稀疏 Attention 架構(gòu)。華為宣布昇騰已快速基于 vLLM/SGLang 等推理框架完成適配部署,實現(xiàn) DeepSeek-V3.2-Exp 0day 支持,并面向開發(fā)者開源所有推理代碼和算子實現(xiàn)。
IT之家從官方介紹獲悉,昇騰在 DeepSeek-V3.2-Exp 一發(fā)布開源即實現(xiàn)了 DeepSeek-V3.2-Exp BF16 模型部署,并在 CANN 平臺上完成對應(yīng)的優(yōu)化適配,整體部署策略沿用 DeepSeek 的大 EP 并行方案,針對稀疏 DSA 結(jié)構(gòu),疊加實現(xiàn)長序列親和的 CP 并行策略,兼顧時延和吞吐,在 128K 長序列下能夠保持 TTFT 低于 2 秒、TPOT 低于 30 毫秒的推理生成速度。
NPU DeepSeek-V3.2-Exp 推理優(yōu)化實踐:
昇騰針對 DeepSeek-V3.2-Exp 架構(gòu)中兩個全新的算子:Lightning Indexer (LI) 以及 Sparse Flash Attention (SFA),針對性地進行算子 Tiling 設(shè)計、Cube 核與 Vector 核間的流水優(yōu)化、計算流程的實現(xiàn)優(yōu)化等,模型和融合 Kernel 均已開源。
NPU DeepSeek-V3.2-Exp Ascend C 融合算子優(yōu)化:
為進一步提高昇騰融合算子的編程易用性,昇騰 CANN 首次推出大融合算子的編程體系 PyPTO,旨在簡化算子開發(fā)流程,同時保持高性能計算能力。該框架創(chuàng)新性地采用 PTO (Parallel Tensor / Tile Operation) 編程范式,以 Tensor 為基本數(shù)據(jù)表達方式,構(gòu)建計算圖,實現(xiàn)高效計算與優(yōu)化。目前在昇騰上已經(jīng)基于 PyPTO 完成 DeepSeek-V3.2-Exp 模型中 DeepSeek Indexer Attention 和 Lightning indexer 算子的開發(fā)實踐,僅需幾百行代碼即可完成動態(tài) Shape 算子編程和算子整網(wǎng)運行。
基于 PyPTO 的 Lightning Indexer 和 DeepSeek Indexer Attention 算子開發(fā)實踐:
昇騰不僅提供了 DeepSeek-V3.2-Exp 的官方參考實踐,也同步支持 vLLM 和 SGLang 等業(yè)界主流大模型推理框架部署,提供完整功能,能夠讓廣泛的開發(fā)者在社區(qū)直接下載相關(guān)代碼體驗 DeepSeek-V3.2-Exp 模型,可以在昇騰實現(xiàn)融合算子、稀疏訪存、多核并行計算等深度優(yōu)化能力,并持續(xù)優(yōu)化 DeepSeek-V3.2-Exp 在主流社區(qū)的推理性能。
大模型推理框架 vLLM 及昇騰實現(xiàn):
https://github.com/vllm-project/vllm-ascend/tree/v0.9.1-dev/examples/deepseek.md
大模型推理框架 SGLang 及昇騰實現(xiàn):
TileLang 是由 Tile-AI 社區(qū)發(fā)起的 Tile-level 的類 Python 的 AI 編程語言(DSL)項目,在 Tile 粒度上進行編程和編譯,實現(xiàn)模型算子和硬件的高效協(xié)同。昇騰已經(jīng)實現(xiàn) TileLang 的 Sparse Flash Attention 和 Lightning Indexer 算子開發(fā),后續(xù)將支持更完備的 NPU 算子并提升性能和泛化性。
NPU DeepSeek-V3.2-Exp TileLang 算子開發(fā)實踐:
TileLang-Ascend 開源社區(qū):
昇騰憑借敏捷協(xié)同優(yōu)化能力,0Day 高效完成 DeepSeek-V3.2-Exp 適配,不僅深度開放自研編程語言 AscendC 及 PyTorch 算子源碼,也積極擁抱開源生態(tài),同步實現(xiàn) vLLM、SGLang 等主流框架的快速支持,并攜手開源社區(qū) Tile-AI 共同開源 NPU 編程項目 TileLang-Ascend。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。