小米深夜上線三大自研 MiMo-V2 系列模型：旗艦 Pro / 全模態(tài)基座 Omni / 語音合成 TTS

2026/3/19 1:27:48 來源：IT之家作者：清源責編：清源

評論：

感謝IT之家網(wǎng)友 Qetesh、順勢而為、鬧麻O_oi、靜靜的聽你說、耐小心、Domado、軟媒用戶1392612、Kirayomato、軟媒用戶389454、Anguiao、軟媒新友2601776、鋪路公司、Alita的迷弟、斯文當不了飯吃、JARK006、Unsuited_ 的線索投遞！

IT之家 3 月 19 日消息，今天凌晨，小米宣布推出三款大模型 —— MiMo-V2-Pro & Omni & TTS。目前，這些模型已經(jīng)登陸 Xiaomi miclaw、MiMo Studio、金山辦公、小米瀏覽器，通過 OpenClaw、OpenCode、KiloCode、Blackbox、Cline 接入，可限時免費體驗一周。

640 (1080×1325)

IT之家匯總官方對各模型的介紹如下：

小米面向 Agent 時代的旗艦基座模型：Xiaomi MiMo-V2-Pro

Xiaomi MiMo-V2-Pro 專為現(xiàn)實世界中高強度的 Agent 工作場景而打造。其擁有超過 1T 的總參數(shù)量（42B 激活參數(shù)），采用創(chuàng)新的混合注意力架構，并支持 1M 超長上下文長度。小米還在更為廣泛的 Agent 場景中持續(xù) Scaling 算力，進一步拓展了智能的動作空間，實現(xiàn)了從 Coding 到 Claw 的重要泛化。在 Artificial Analysis 排行榜上，MiMo-V2-Pro 位列全球第八，國內第二。

在 OpenClaw、Claude Code 等智能體框架中，MiMo-V2-Pro 能夠在無人工干預的條件下完成復雜工作流編排、長程規(guī)劃與精準工具調用，并持續(xù)可靠地交付最終結果。整體使用體感已超越 Claude Sonnet 4.6，逼近 Opus 4.6，但模型 API 定價僅為其 1/5，降低了前沿智能的使用門檻。

MiMo-V2-Pro 專為 Agent 場景深度優(yōu)化。其針對復雜多樣的 Agent Scaffold 進行 SFT & RL，具備更強的工具調用與多步推理能力。在 OpenClaw 標準評測榜單 PinchBench、ClawEval 上，MiMo-V2-Pro 效果處于全球頂尖。同時，憑借 1M 上下文窗口，MiMo-V2-Pro 能夠從容支撐高強度的真實 Claw 復雜應用流。

MiMo-V2-Pro 能夠參與更嚴肅的代碼工程構建。內部工程師評測顯示，其體感已接近 Claude Opus 4.6，并展現(xiàn)出高階的代碼智能：擁有更出色的系統(tǒng)設計與任務規(guī)劃能力、更優(yōu)雅的代碼風格，以及更高效直接的問題解決路徑。

MiMo-V2-Pro 模型現(xiàn)已正式開放 API 服務，支持 1M 上下文長度，并根據(jù)使用量分段計價：

256K 上下文以內：輸入 $1 / 百萬 tokens，輸出 $3 / 百萬 tokens
1M 上下文以內：輸入 $2 / 百萬 tokens，輸出 $6 / 百萬 tokens

訪問 https://platform.xiaomimimo.com，即刻接入 API。

MiMo Claw 模塊現(xiàn)已全面打通金山 WebOffice 生態(tài)。原生支持 Word、Excel、PPT、PDF 四大主流格式，無縫覆蓋超 95% 的日常文檔類型。

Xiaomi MiMo 底層推理引擎與金山辦公生態(tài)實現(xiàn)框架級集成。WPS 靈犀現(xiàn)已接入 MiMo-V2-Pro 模型，向靈犀 Claw 提問或布置任務，辦公更高效。

小米面向 Agent 時代的全模態(tài)基座模型：Xiaomi MiMo-V2-Omni

其專為現(xiàn)實世界中復雜的多模態(tài)交互與執(zhí)行場景而生，可無縫接入各種 Agent 框架，實現(xiàn)了從理解到操控的跨越，大幅降低了全模態(tài) Agent 的落地門檻。

音頻理解方面，支持從環(huán)境聲分類、多說話人分離、音頻-視覺聯(lián)合推理，到超過 10 小時連續(xù)長音頻的深度理解。綜合表現(xiàn)超越 Gemini 3 Pro，是當前最強的音頻理解基座模型之一。

圖像理解方面，MiMo-V2-Omni 展現(xiàn)出強大的多學科視覺推理與復雜圖表分析能力，超越 Claude Opus 4.6，逼近 Gemini 3 Pro 等頂尖閉源模型水平。

視頻理解方面，支持原生音視頻聯(lián)合輸入，實現(xiàn)真正的多模態(tài)視頻理解。通過創(chuàng)新的視頻預訓練，模型具備強大的情境感知與未來推理能力。

MiMo-V2-Omni 能夠跨模態(tài)理解復雜環(huán)境、自主制定并執(zhí)行計劃、在遇到異常時實時修正策略，最終端到端地交付完整結果。

MiMo-V2-Omni 模型現(xiàn)已正式開放 API 服務，支持 256K 上下文長度，輸入 $0.4 / 百萬 tokens，輸出 $2 / 百萬 tokens。

訪問 https://platform.xiaomimimo.com，即刻接入 API。

此外，MiMo-V2-Omni 聯(lián)合 OpenClaw、OpenCode、KiloCode、Blackbox 及 Cline 等五大 Agent 開發(fā)框架團隊，為全球開發(fā)者提供為期一周的限時免費接口支持。

專為 Agent 時代的全模態(tài)交互而生：Xiaomi MiMo-V2-TTS 語音合成大模型

Xiaomi MiMo-V2-TTS 是小米自主研發(fā)的語音合成大模型。它基于自研 Audio Tokenizer 和多碼本語音-文本聯(lián)合建模架構，經(jīng)過上億小時語音數(shù)據(jù)的大規(guī)模預訓練與多維度強化學習，實現(xiàn)了高度可控的多粒度語音風格控制。MiMo-V2-TTS 支持從整體風格定調到局部情緒表達的精準調節(jié)，能在同一句話內完成語氣轉折和情感遞變；真實還原人類說話的自然韻律；在唱歌時，也能準確表達音高和節(jié)奏，自然且富有表現(xiàn)力。

在訓練過程中，MiMo-V2-TTS 首先通過超大規(guī)模語音-文本混合預訓練，在海量數(shù)據(jù)中習得了強大的跨模態(tài)對齊與理解生成的統(tǒng)一能力；在此基礎上，通過少量高質量監(jiān)督數(shù)據(jù)的微調，模型獲得了可泛化的多粒度與多風格指令控制能力。

為進一步激發(fā)模型在大規(guī)模預訓練中積累的高表現(xiàn)力語音生成潛力，小米引入了多維度強化學習，兼顧了穩(wěn)定性與表現(xiàn)力。具體而言，MiMo-V2-TTS 在強化學習階段，圍繞更自然的韻律、更穩(wěn)定的音質、更準確的字詞表達、更高質量的音色克隆以及不同場景下恰當?shù)恼Z氣和表達方式等多個維度持續(xù)優(yōu)化。得益于多層碼本建模架構，模型在高保真的離散 token 空間中對語音進行建模，充分保留了原始語音中的豐富信息，使強化學習階段能夠直接利用語音相關獎勵信號對模型進行優(yōu)化，從而讓多維獎勵信號更有效地作用于生成過程。

MiMo-V2-TTS 支持從整體到局部的多層次語音風格控制。用戶可通過自然語言指令設定整體語音基調，同時對句內局部片段進行細粒度的情緒調節(jié)，實現(xiàn)同一語句中語氣轉折與情感遞變的自然過渡。

該模型還具備豐富的多元表達能力：支持多種方言的自然發(fā)音，可進行角色扮演式的風格化演繹，更能實現(xiàn)高質量的歌聲合成 —— 讓同一個模型既能說、能演、也能唱，支持東北話、四川話、河南話、粵語、臺灣腔等多種方言。

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：小米AI，小米大模型，小米MiMo

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

小米深夜上線三大自研 MiMo-V2 系列模型：旗艦 Pro / 全模態(tài)基座 Omni / 語音合成 TTS

小米面向 Agent 時代的旗艦基座模型：Xiaomi MiMo-V2-Pro

小米面向 Agent 時代的全模態(tài)基座模型：Xiaomi MiMo-V2-Omni

專為 Agent 時代的全模態(tài)交互而生：Xiaomi MiMo-V2-TTS 語音合成大模型

相關文章