在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

小米深夜上線三大自研 MiMo-V2 系列模型:旗艦 Pro / 全模態(tài)基座 Omni / 語音合成 TTS

2026/3/19 1:27:48 來源:IT之家 作者:清源 責編:清源
感謝IT之家網(wǎng)友 Qetesh順勢而為、鬧麻O_oi、靜靜的聽你說耐小心、Domado軟媒用戶1392612、Kirayomato、軟媒用戶389454、Anguiao軟媒新友2601776、鋪路公司、Alita的迷弟斯文當不了飯吃、JARK006、Unsuited_ 的線索投遞!

IT之家 3 月 19 日消息,今天凌晨,小米宣布推出三款大模型 —— MiMo-V2-Pro & Omni & TTS。目前,這些模型已經(jīng)登陸 Xiaomi miclaw、MiMo Studio、金山辦公、小米瀏覽器,通過 OpenClaw、OpenCode、KiloCode、Blackbox、Cline 接入,可限時免費體驗一周。

640 (1080×1325)

IT之家匯總官方對各模型的介紹如下:

小米面向 Agent 時代的旗艦基座模型:Xiaomi MiMo-V2-Pro

Xiaomi MiMo-V2-Pro 專為現(xiàn)實世界中高強度的 Agent 工作場景而打造。其擁有超過 1T 的總參數(shù)量(42B 激活參數(shù)),采用創(chuàng)新的混合注意力架構,并支持 1M 超長上下文長度。小米還在更為廣泛的 Agent 場景中持續(xù) Scaling 算力,進一步拓展了智能的動作空間,實現(xiàn)了從 Coding 到 Claw 的重要泛化。在 Artificial Analysis 排行榜上,MiMo-V2-Pro 位列全球第八,國內第二。

圖片

在 OpenClaw、Claude Code 等智能體框架中,MiMo-V2-Pro 能夠在無人工干預的條件下完成復雜工作流編排、長程規(guī)劃與精準工具調用,并持續(xù)可靠地交付最終結果。整體使用體感已超越 Claude Sonnet 4.6,逼近 Opus 4.6,但模型 API 定價僅為其 1/5,降低了前沿智能的使用門檻。

MiMo-V2-Pro 專為 Agent 場景深度優(yōu)化。其針對復雜多樣的 Agent Scaffold 進行 SFT & RL,具備更強的工具調用與多步推理能力。在 OpenClaw 標準評測榜單 PinchBench、ClawEval 上,MiMo-V2-Pro 效果處于全球頂尖。同時,憑借 1M 上下文窗口,MiMo-V2-Pro 能夠從容支撐高強度的真實 Claw 復雜應用流。

圖片

MiMo-V2-Pro 能夠參與更嚴肅的代碼工程構建。內部工程師評測顯示,其體感已接近 Claude Opus 4.6,并展現(xiàn)出高階的代碼智能:擁有更出色的系統(tǒng)設計與任務規(guī)劃能力、更優(yōu)雅的代碼風格,以及更高效直接的問題解決路徑。

MiMo-V2-Pro 模型現(xiàn)已正式開放 API 服務,支持 1M 上下文長度,并根據(jù)使用量分段計價:

  • 256K 上下文以內:輸入 $1 / 百萬 tokens,輸出 $3 / 百萬 tokens

  • 1M 上下文以內:輸入 $2 / 百萬 tokens,輸出 $6 / 百萬 tokens

訪問 https://platform.xiaomimimo.com,即刻接入 API。

MiMo Claw 模塊現(xiàn)已全面打通金山 WebOffice 生態(tài)。原生支持 Word、Excel、PPT、PDF 四大主流格式,無縫覆蓋超 95% 的日常文檔類型。

Xiaomi MiMo 底層推理引擎與金山辦公生態(tài)實現(xiàn)框架級集成。WPS 靈犀現(xiàn)已接入 MiMo-V2-Pro 模型,向靈犀 Claw 提問或布置任務,辦公更高效。

小米面向 Agent 時代的全模態(tài)基座模型:Xiaomi MiMo-V2-Omni

其專為現(xiàn)實世界中復雜的多模態(tài)交互與執(zhí)行場景而生,可無縫接入各種 Agent 框架,實現(xiàn)了從理解到操控的跨越,大幅降低了全模態(tài) Agent 的落地門檻。

圖片

音頻理解方面,支持從環(huán)境聲分類、多說話人分離、音頻-視覺聯(lián)合推理,到超過 10 小時連續(xù)長音頻的深度理解。綜合表現(xiàn)超越 Gemini 3 Pro,是當前最強的音頻理解基座模型之一。

圖像理解方面,MiMo-V2-Omni 展現(xiàn)出強大的多學科視覺推理與復雜圖表分析能力,超越 Claude Opus 4.6,逼近 Gemini 3 Pro 等頂尖閉源模型水平。

視頻理解方面,支持原生音視頻聯(lián)合輸入,實現(xiàn)真正的多模態(tài)視頻理解。通過創(chuàng)新的視頻預訓練,模型具備強大的情境感知與未來推理能力。

MiMo-V2-Omni 能夠跨模態(tài)理解復雜環(huán)境、自主制定并執(zhí)行計劃、在遇到異常時實時修正策略,最終端到端地交付完整結果。

MiMo-V2-Omni 模型現(xiàn)已正式開放 API 服務,支持 256K 上下文長度,輸入 $0.4 / 百萬 tokens,輸出 $2 / 百萬 tokens。

訪問 https://platform.xiaomimimo.com,即刻接入 API。

此外,MiMo-V2-Omni 聯(lián)合 OpenClaw、OpenCode、KiloCode、Blackbox 及 Cline 等五大 Agent 開發(fā)框架團隊,為全球開發(fā)者提供為期一周的限時免費接口支持。

專為 Agent 時代的全模態(tài)交互而生:Xiaomi MiMo-V2-TTS 語音合成大模型

Xiaomi MiMo-V2-TTS 是小米自主研發(fā)的語音合成大模型。它基于自研 Audio Tokenizer 和多碼本語音-文本聯(lián)合建模架構,經(jīng)過上億小時語音數(shù)據(jù)的大規(guī)模預訓練與多維度強化學習,實現(xiàn)了高度可控的多粒度語音風格控制。MiMo-V2-TTS 支持從整體風格定調到局部情緒表達的精準調節(jié),能在同一句話內完成語氣轉折和情感遞變;真實還原人類說話的自然韻律;在唱歌時,也能準確表達音高和節(jié)奏,自然且富有表現(xiàn)力。

在訓練過程中,MiMo-V2-TTS 首先通過超大規(guī)模語音-文本混合預訓練,在海量數(shù)據(jù)中習得了強大的跨模態(tài)對齊與理解生成的統(tǒng)一能力;在此基礎上,通過少量高質量監(jiān)督數(shù)據(jù)的微調,模型獲得了可泛化的多粒度與多風格指令控制能力。

為進一步激發(fā)模型在大規(guī)模預訓練中積累的高表現(xiàn)力語音生成潛力,小米引入了多維度強化學習,兼顧了穩(wěn)定性與表現(xiàn)力。具體而言,MiMo-V2-TTS 在強化學習階段,圍繞更自然的韻律、更穩(wěn)定的音質、更準確的字詞表達、更高質量的音色克隆以及不同場景下恰當?shù)恼Z氣和表達方式等多個維度持續(xù)優(yōu)化。得益于多層碼本建模架構,模型在高保真的離散 token 空間中對語音進行建模,充分保留了原始語音中的豐富信息,使強化學習階段能夠直接利用語音相關獎勵信號對模型進行優(yōu)化,從而讓多維獎勵信號更有效地作用于生成過程。

MiMo-V2-TTS 支持從整體到局部的多層次語音風格控制。用戶可通過自然語言指令設定整體語音基調,同時對句內局部片段進行細粒度的情緒調節(jié),實現(xiàn)同一語句中語氣轉折與情感遞變的自然過渡。

該模型還具備豐富的多元表達能力:支持多種方言的自然發(fā)音,可進行角色扮演式的風格化演繹,更能實現(xiàn)高質量的歌聲合成 —— 讓同一個模型既能說、能演、也能唱,支持東北話、四川話、河南話、粵語、臺灣腔等多種方言。

廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:小米AI小米大模型,小米MiMo

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知