Day-0 支持：摩爾線程完成智譜 GLM-5.2 極速適配

2026/6/17 16:25:11 來源：IT之家作者：歸瀧責(zé)編：歸瀧

評論：

感謝IT之家網(wǎng)友華南吳彥祖、若怡的線索投遞！

IT之家 6 月 17 日消息，智譜今日宣布上線并開源 GLM-5.2。在全球百萬用戶參與盲測的前端開發(fā)評估系統(tǒng) Code Arena 上，GLM-5.2 取得全球可用模型第一的表現(xiàn)。摩爾線程今日宣布在 AI 訓(xùn)推一體全功能 GPU 智算卡 MTT S5000 上，完成對智譜新一代開源旗艦?zāi)Ｐ?GLM-5.2 的 Day-0 極速適配。

據(jù)介紹，摩爾線程技術(shù)團(tuán)隊(duì)基于 SGLang-MUSA 推理引擎及 TileLang-MUSA 算子編程語言，完成了模型結(jié)構(gòu)適配、關(guān)鍵算子優(yōu)化、框架拉起與部署驗(yàn)證，在 MTT S5000 上實(shí)現(xiàn) GLM-5.2 的高效、高精度推理。摩爾線程還表示，MTT S5000 從硬件算力、軟件棧到開源框架進(jìn)行了全鏈路適配與深度優(yōu)化：

支撐超長上下文
GLM-5.2 的 Solid 1M 上下文與長程任務(wù)能力，使長 Prompt 編碼、上下文讀入與 KV Cache 生成成為推理鏈路中的關(guān)鍵環(huán)節(jié)。長輸入請求在進(jìn)入生成階段前，需要先完成大規(guī)模 Prefill 計(jì)算；這一階段高度依賴并行矩陣計(jì)算、Attention 算子效率、顯存容量與訪存帶寬。
MTT S5000 憑借硬件級原生 FP8 加速，單卡稠密算力高達(dá) 1000 TFLOPS，配備 80GB 大容量顯存與 1.6TB/s 超高帶寬，可在長輸入 Prefill 階段集中釋放高吞吐優(yōu)勢，為百萬 token 級上下文處理提供充足緩存空間和穩(wěn)定數(shù)據(jù)吞吐。依托 MUSA C++、Triton-MUSA 與 TileLang-MUSA 等工具鏈，GLM-5.2 相關(guān)算子結(jié)構(gòu)可快速遷移并針對長序列場景持續(xù)優(yōu)化，幫助降低長上下文請求的首 Token 等待時(shí)間（TTFT），提升 AI Coding、RAG 和長文檔分析等場景的在線推理效率。
賦能前沿 Coding 與 Agent 能力
面向 GLM-5.2 重點(diǎn)強(qiáng)化的編程、智能體和長程任務(wù)場景，摩爾線程基于 GLM 家族多代模型的適配與優(yōu)化經(jīng)驗(yàn)，將模型結(jié)構(gòu)適配、算子優(yōu)化、框架拉起和部署驗(yàn)證能力快速遷移至 GLM-5.2。通過原生算子定制、TileLang-MUSA 編程優(yōu)化和 SGLang-MUSA 推理框架協(xié)同，MTT S5000 能夠在保障模型精度的前提下提升推理吞吐、降低響應(yīng)延遲，為客戶提供面向 AI Coding、Agent 工作流和長文檔分析的高效推理服務(wù)。

IT之家附開源鏈接如下：

GitHub：https://github.com/zai-org/GLM-5
Hugging Face：https://huggingface.co/zai-org/GLM-5.2
ModelScope：https://modelscope.cn/models/ZhipuAI/GLM-5.2

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

Day-0 支持：摩爾線程完成智譜 GLM-5.2 極速適配

支撐超長上下文

賦能前沿 Coding 與 Agent 能力

相關(guān)文章