小米發(fā)布 MiMo-V2.5-TTS / ASR 語音大模型：通過自然語言調(diào)度聲音表現(xiàn)

2026/4/24 7:34:22 來源：IT之家作者：浩渺責(zé)編：浩渺

評論：

感謝IT之家網(wǎng)友 Unsuited_、Domado、順勢而為、貝爾摩德的線索投遞！

IT之家 4 月 24 日消息，小米今日正式發(fā)布 MiMo-V2.5-TTS Series 與 MiMo-V2.5-ASR —— 一套面向 Agent 時代的全鏈路語音模型系列，覆蓋識別與合成兩大核心能力，讓語音的輸入與輸出都可以被語言自由調(diào)度。

IT之家從官方介紹獲悉，MiMo-V2.5-TTS Series 包含三款模型，現(xiàn)已登陸小米 MiMo 開放平臺，并且限時免費(fèi)。三者共享統(tǒng)一的風(fēng)格指令遵循、音頻標(biāo)簽控制與文本理解能力，讓聲音表現(xiàn)可以被語言精細(xì)調(diào)度，分別覆蓋三種典型創(chuàng)作需求：

MiMo-V2.5-TTS：內(nèi)置多款高質(zhì)量精品音色，支持語速、情緒、語氣等精細(xì)化控制，開箱即用，滿足多場景表達(dá)。
MiMo-V2.5-TTS-VoiceDesign：一句話快速定義并生成全新音色，讓音色創(chuàng)作更直觀、更高效。
MiMo-V2.5-TTS-VoiceClone：少量樣本高保真復(fù)刻目標(biāo)音色，同時保持穩(wěn)定的風(fēng)格指令遵循與音頻標(biāo)簽控制能力。
MiMo-V2.5-ASR 正式開源。模型在中英雙語、中文方言、Code-Switch、強(qiáng)噪音、多說話人等復(fù)雜真實(shí)場景下的語音識別性能達(dá)到業(yè)界領(lǐng)先水平，為 Agent 提供清晰可靠的語音轉(zhuǎn)寫，確保每一次交互都建立在精準(zhǔn)的理解之上。

MiMo-V2.5-TTS

精準(zhǔn)的風(fēng)格指令遵循能力

從簡短的單句指令，到一整份導(dǎo)演筆記，模型都能穩(wěn)定理解并遵循，覆蓋情緒、語氣、語速、發(fā)聲方式、語言風(fēng)格等多個維度。指令不必寫成結(jié)構(gòu)化參數(shù) —— 像給演員說戲一樣把想要的感覺描述出來，模型就會落到對應(yīng)的演繹之中。

對于一致性要求更高的場景 —— 有聲劇、游戲 NPC、角色化對話等 —— 模型還支持導(dǎo)演劇本級的結(jié)構(gòu)化輸入：把人物、場景、詳細(xì)指導(dǎo)分層描述，各層按自己的節(jié)奏獨(dú)立更新、自由組合。這種分層既讓角色的音色身份貫穿始終，也讓每一句話的表演都能被單獨(dú)控制。

靈活的音頻標(biāo)簽控制能力

除了段落級的自然語言指令，模型還支持行內(nèi)音頻標(biāo)簽，用于在文本特定位置精準(zhǔn)控制情緒、狀態(tài)或風(fēng)格。標(biāo)簽支持中英雙語和開放文本描述，允許在同一段文本中靈活混用。從簡單的情感標(biāo)注，到多標(biāo)簽疊加、細(xì)粒度排布的復(fù)雜編排，模型都能穩(wěn)定表達(dá)，在標(biāo)簽的表達(dá)力和組合穩(wěn)定性上均有出色表現(xiàn)。

豐富的文本理解能力

即便沒有任何 prompt，也沒有任何標(biāo)簽 —— 就是一段最普通的文本 —— 模型也能直接表現(xiàn)出其中的韻律與情感。標(biāo)點(diǎn)的停頓、句式的起伏，會被自然呈現(xiàn)；文本中暗藏的情感弧線，從平靜敘述到激烈轉(zhuǎn)折，模型能主動捕捉；甚至連字里行間透露出的說話人身份（年齡、氣質(zhì)、角色類型），也會自動落到聲音里。換句話說：最樸素的純文本，交給它，也能還你一段有血有肉的演繹。

MiMo-V2.5-ASR

如果說 TTS 是在“輸出”端讓聲音成為創(chuàng)作工具，那么 ASR 就是在“輸入”端為這一切打開大門。在真實(shí)場景下，語種切換、背景噪聲、說話人帶著濃重的方言口音，在這樣的環(huán)境里還能聽清、聽準(zhǔn)，才是真正好用的語音識別。

MiMo-V2.5-ASR 作為全鏈路語音模型系列的聽覺基座，在中英雙語、中文方言、Code-Switch、強(qiáng)噪音、多說話人、高知識密度等復(fù)雜真實(shí)場景下均達(dá)到業(yè)界領(lǐng)先水平。它不只是為了把清晰的語音轉(zhuǎn)成文字，更是讓 Agent 在嘈雜的真實(shí)聲音里，抓住每一個值得被理解的字詞。