IT之家 9 月 13 日消息,元象 XVERSE 發(fā)布中國最大 MoE 開源模型 XVERSE-MoE-A36B。
該模型總參數(shù) 255B,激活參數(shù) 36B,官方號稱效果能“大致達到”超過 100B 大模型的“跨級”性能躍升,同時訓練時間減少 30%,推理性能提升 100%,使每 token 成本大幅下降。
MoE(Mixture of Experts)混合專家模型架構(gòu),將多個細分領(lǐng)域的專家模型組合成一個超級模型,在擴大模型規(guī)模的同時,保持模型性能最大化,甚至還能降低訓練和推理的計算成本。谷歌 Gemini-1.5、OpenAI 的 GPT-4 、馬斯克旗下 xAI 公司的 Grok 等大模型都使用了 MoE。
在多個評測中,元象 MoE 超過多個同類模型,包括國內(nèi)千億 MoE 模型 Skywork-MoE、傳統(tǒng) MoE 霸主 Mixtral-8x22B 以及 3140 億參數(shù)的 MoE 開源模型 Grok-1-A86B 等。

IT之家附相關(guān)鏈接:
Hugging Face:https://huggingface.co/xverse/XVERSE-MoE-A36B
魔搭:https://modelscope.cn/models/xverse/XVERSE-MoE-A36B
Github:https://github.com/xverse-ai/XVERSE-MoE-A36B
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。