IT之家 3 月 19 日消息,今天凌晨,小米宣布推出三款大模型 —— MiMo-V2-Pro & Omni & TTS。目前,這些模型已經(jīng)登陸 Xiaomi miclaw、MiMo Studio、金山辦公、小米瀏覽器,通過 OpenClaw、OpenCode、KiloCode、Blackbox、Cline 接入,可限時免費體驗一周。



IT之家匯總官方對各模型的介紹如下:
小米面向 Agent 時代的旗艦基座模型:Xiaomi MiMo-V2-Pro
Xiaomi MiMo-V2-Pro 專為現(xiàn)實世界中高強度的 Agent 工作場景而打造。其擁有超過 1T 的總參數(shù)量(42B 激活參數(shù)),采用創(chuàng)新的混合注意力架構,并支持 1M 超長上下文長度。小米還在更為廣泛的 Agent 場景中持續(xù) Scaling 算力,進一步拓展了智能的動作空間,實現(xiàn)了從 Coding 到 Claw 的重要泛化。在 Artificial Analysis 排行榜上,MiMo-V2-Pro 位列全球第八,國內第二。

在 OpenClaw、Claude Code 等智能體框架中,MiMo-V2-Pro 能夠在無人工干預的條件下完成復雜工作流編排、長程規(guī)劃與精準工具調用,并持續(xù)可靠地交付最終結果。整體使用體感已超越 Claude Sonnet 4.6,逼近 Opus 4.6,但模型 API 定價僅為其 1/5,降低了前沿智能的使用門檻。
MiMo-V2-Pro 專為 Agent 場景深度優(yōu)化。其針對復雜多樣的 Agent Scaffold 進行 SFT & RL,具備更強的工具調用與多步推理能力。在 OpenClaw 標準評測榜單 PinchBench、ClawEval 上,MiMo-V2-Pro 效果處于全球頂尖。同時,憑借 1M 上下文窗口,MiMo-V2-Pro 能夠從容支撐高強度的真實 Claw 復雜應用流。

MiMo-V2-Pro 能夠參與更嚴肅的代碼工程構建。內部工程師評測顯示,其體感已接近 Claude Opus 4.6,并展現(xiàn)出高階的代碼智能:擁有更出色的系統(tǒng)設計與任務規(guī)劃能力、更優(yōu)雅的代碼風格,以及更高效直接的問題解決路徑。
MiMo-V2-Pro 模型現(xiàn)已正式開放 API 服務,支持 1M 上下文長度,并根據(jù)使用量分段計價:
256K 上下文以內:輸入 $1 / 百萬 tokens,輸出 $3 / 百萬 tokens
1M 上下文以內:輸入 $2 / 百萬 tokens,輸出 $6 / 百萬 tokens
訪問 https://platform.xiaomimimo.com,即刻接入 API。
MiMo Claw 模塊現(xiàn)已全面打通金山 WebOffice 生態(tài)。原生支持 Word、Excel、PPT、PDF 四大主流格式,無縫覆蓋超 95% 的日常文檔類型。
Xiaomi MiMo 底層推理引擎與金山辦公生態(tài)實現(xiàn)框架級集成。WPS 靈犀現(xiàn)已接入 MiMo-V2-Pro 模型,向靈犀 Claw 提問或布置任務,辦公更高效。
小米面向 Agent 時代的全模態(tài)基座模型:Xiaomi MiMo-V2-Omni
其專為現(xiàn)實世界中復雜的多模態(tài)交互與執(zhí)行場景而生,可無縫接入各種 Agent 框架,實現(xiàn)了從理解到操控的跨越,大幅降低了全模態(tài) Agent 的落地門檻。

音頻理解方面,支持從環(huán)境聲分類、多說話人分離、音頻-視覺聯(lián)合推理,到超過 10 小時連續(xù)長音頻的深度理解。綜合表現(xiàn)超越 Gemini 3 Pro,是當前最強的音頻理解基座模型之一。
圖像理解方面,MiMo-V2-Omni 展現(xiàn)出強大的多學科視覺推理與復雜圖表分析能力,超越 Claude Opus 4.6,逼近 Gemini 3 Pro 等頂尖閉源模型水平。
視頻理解方面,支持原生音視頻聯(lián)合輸入,實現(xiàn)真正的多模態(tài)視頻理解。通過創(chuàng)新的視頻預訓練,模型具備強大的情境感知與未來推理能力。
MiMo-V2-Omni 能夠跨模態(tài)理解復雜環(huán)境、自主制定并執(zhí)行計劃、在遇到異常時實時修正策略,最終端到端地交付完整結果。
MiMo-V2-Omni 模型現(xiàn)已正式開放 API 服務,支持 256K 上下文長度,輸入 $0.4 / 百萬 tokens,輸出 $2 / 百萬 tokens。
訪問 https://platform.xiaomimimo.com,即刻接入 API。
此外,MiMo-V2-Omni 聯(lián)合 OpenClaw、OpenCode、KiloCode、Blackbox 及 Cline 等五大 Agent 開發(fā)框架團隊,為全球開發(fā)者提供為期一周的限時免費接口支持。
專為 Agent 時代的全模態(tài)交互而生:Xiaomi MiMo-V2-TTS 語音合成大模型
Xiaomi MiMo-V2-TTS 是小米自主研發(fā)的語音合成大模型。它基于自研 Audio Tokenizer 和多碼本語音-文本聯(lián)合建模架構,經(jīng)過上億小時語音數(shù)據(jù)的大規(guī)模預訓練與多維度強化學習,實現(xiàn)了高度可控的多粒度語音風格控制。MiMo-V2-TTS 支持從整體風格定調到局部情緒表達的精準調節(jié),能在同一句話內完成語氣轉折和情感遞變;真實還原人類說話的自然韻律;在唱歌時,也能準確表達音高和節(jié)奏,自然且富有表現(xiàn)力。
在訓練過程中,MiMo-V2-TTS 首先通過超大規(guī)模語音-文本混合預訓練,在海量數(shù)據(jù)中習得了強大的跨模態(tài)對齊與理解生成的統(tǒng)一能力;在此基礎上,通過少量高質量監(jiān)督數(shù)據(jù)的微調,模型獲得了可泛化的多粒度與多風格指令控制能力。
為進一步激發(fā)模型在大規(guī)模預訓練中積累的高表現(xiàn)力語音生成潛力,小米引入了多維度強化學習,兼顧了穩(wěn)定性與表現(xiàn)力。具體而言,MiMo-V2-TTS 在強化學習階段,圍繞更自然的韻律、更穩(wěn)定的音質、更準確的字詞表達、更高質量的音色克隆以及不同場景下恰當?shù)恼Z氣和表達方式等多個維度持續(xù)優(yōu)化。得益于多層碼本建模架構,模型在高保真的離散 token 空間中對語音進行建模,充分保留了原始語音中的豐富信息,使強化學習階段能夠直接利用語音相關獎勵信號對模型進行優(yōu)化,從而讓多維獎勵信號更有效地作用于生成過程。
MiMo-V2-TTS 支持從整體到局部的多層次語音風格控制。用戶可通過自然語言指令設定整體語音基調,同時對句內局部片段進行細粒度的情緒調節(jié),實現(xiàn)同一語句中語氣轉折與情感遞變的自然過渡。
該模型還具備豐富的多元表達能力:支持多種方言的自然發(fā)音,可進行角色扮演式的風格化演繹,更能實現(xiàn)高質量的歌聲合成 —— 讓同一個模型既能說、能演、也能唱,支持東北話、四川話、河南話、粵語、臺灣腔等多種方言。
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。