IT之家 6 月 17 日消息,智譜今日宣布上線并開源 GLM-5.2。在全球百萬用戶參與盲測的前端開發(fā)評估系統(tǒng) Code Arena 上,GLM-5.2 取得全球可用模型第一的表現(xiàn)。摩爾線程今日宣布在 AI 訓(xùn)推一體全功能 GPU 智算卡 MTT S5000 上,完成對智譜新一代開源旗艦?zāi)P?GLM-5.2 的 Day-0 極速適配。

據(jù)介紹,摩爾線程技術(shù)團(tuán)隊(duì)基于 SGLang-MUSA 推理引擎及 TileLang-MUSA 算子編程語言,完成了模型結(jié)構(gòu)適配、關(guān)鍵算子優(yōu)化、框架拉起與部署驗(yàn)證,在 MTT S5000 上實(shí)現(xiàn) GLM-5.2 的高效、高精度推理。摩爾線程還表示,MTT S5000 從硬件算力、軟件棧到開源框架進(jìn)行了全鏈路適配與深度優(yōu)化:
支撐超長上下文
GLM-5.2 的 Solid 1M 上下文與長程任務(wù)能力,使長 Prompt 編碼、上下文讀入與 KV Cache 生成成為推理鏈路中的關(guān)鍵環(huán)節(jié)。長輸入請求在進(jìn)入生成階段前,需要先完成大規(guī)模 Prefill 計(jì)算;這一階段高度依賴并行矩陣計(jì)算、Attention 算子效率、顯存容量與訪存帶寬。
MTT S5000 憑借硬件級原生 FP8 加速,單卡稠密算力高達(dá) 1000 TFLOPS,配備 80GB 大容量顯存與 1.6TB/s 超高帶寬,可在長輸入 Prefill 階段集中釋放高吞吐優(yōu)勢,為百萬 token 級上下文處理提供充足緩存空間和穩(wěn)定數(shù)據(jù)吞吐。依托 MUSA C++、Triton-MUSA 與 TileLang-MUSA 等工具鏈,GLM-5.2 相關(guān)算子結(jié)構(gòu)可快速遷移并針對長序列場景持續(xù)優(yōu)化,幫助降低長上下文請求的首 Token 等待時(shí)間(TTFT),提升 AI Coding、RAG 和長文檔分析等場景的在線推理效率。
賦能前沿 Coding 與 Agent 能力
面向 GLM-5.2 重點(diǎn)強(qiáng)化的編程、智能體和長程任務(wù)場景,摩爾線程基于 GLM 家族多代模型的適配與優(yōu)化經(jīng)驗(yàn),將模型結(jié)構(gòu)適配、算子優(yōu)化、框架拉起和部署驗(yàn)證能力快速遷移至 GLM-5.2。通過原生算子定制、TileLang-MUSA 編程優(yōu)化和 SGLang-MUSA 推理框架協(xié)同,MTT S5000 能夠在保障模型精度的前提下提升推理吞吐、降低響應(yīng)延遲,為客戶提供面向 AI Coding、Agent 工作流和長文檔分析的高效推理服務(wù)。
IT之家附開源鏈接如下:
Hugging Face:https://huggingface.co/zai-org/GLM-5.2
ModelScope:https://modelscope.cn/models/ZhipuAI/GLM-5.2
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。