IT之家 4 月 24 日消息,小米今日正式發(fā)布 MiMo-V2.5-TTS Series 與 MiMo-V2.5-ASR —— 一套面向 Agent 時代的全鏈路語音模型系列,覆蓋識別與合成兩大核心能力,讓語音的輸入與輸出都可以被語言自由調(diào)度。

IT之家從官方介紹獲悉,MiMo-V2.5-TTS Series 包含三款模型,現(xiàn)已登陸小米 MiMo 開放平臺,并且限時免費。三者共享統(tǒng)一的風(fēng)格指令遵循、音頻標(biāo)簽控制與文本理解能力,讓聲音表現(xiàn)可以被語言精細調(diào)度,分別覆蓋三種典型創(chuàng)作需求:
MiMo-V2.5-TTS:內(nèi)置多款高質(zhì)量精品音色,支持語速、情緒、語氣等精細化控制,開箱即用,滿足多場景表達。
MiMo-V2.5-TTS-VoiceDesign:一句話快速定義并生成全新音色,讓音色創(chuàng)作更直觀、更高效。
MiMo-V2.5-TTS-VoiceClone:少量樣本高保真復(fù)刻目標(biāo)音色,同時保持穩(wěn)定的風(fēng)格指令遵循與音頻標(biāo)簽控制能力。
MiMo-V2.5-ASR 正式開源。模型在中英雙語、中文方言、Code-Switch、強噪音、多說話人等復(fù)雜真實場景下的語音識別性能達到業(yè)界領(lǐng)先水平,為 Agent 提供清晰可靠的語音轉(zhuǎn)寫,確保每一次交互都建立在精準(zhǔn)的理解之上。
MiMo-V2.5-TTS
精準(zhǔn)的風(fēng)格指令遵循能力
從簡短的單句指令,到一整份導(dǎo)演筆記,模型都能穩(wěn)定理解并遵循,覆蓋情緒、語氣、語速、發(fā)聲方式、語言風(fēng)格等多個維度。指令不必寫成結(jié)構(gòu)化參數(shù) —— 像給演員說戲一樣把想要的感覺描述出來,模型就會落到對應(yīng)的演繹之中。
對于一致性要求更高的場景 —— 有聲劇、游戲 NPC、角色化對話等 —— 模型還支持導(dǎo)演劇本級的結(jié)構(gòu)化輸入:把人物、場景、詳細指導(dǎo)分層描述,各層按自己的節(jié)奏獨立更新、自由組合。這種分層既讓角色的音色身份貫穿始終,也讓每一句話的表演都能被單獨控制。
靈活的音頻標(biāo)簽控制能力
除了段落級的自然語言指令,模型還支持行內(nèi)音頻標(biāo)簽,用于在文本特定位置精準(zhǔn)控制情緒、狀態(tài)或風(fēng)格。標(biāo)簽支持中英雙語和開放文本描述,允許在同一段文本中靈活混用。從簡單的情感標(biāo)注,到多標(biāo)簽疊加、細粒度排布的復(fù)雜編排,模型都能穩(wěn)定表達,在標(biāo)簽的表達力和組合穩(wěn)定性上均有出色表現(xiàn)。
豐富的文本理解能力
即便沒有任何 prompt,也沒有任何標(biāo)簽 —— 就是一段最普通的文本 —— 模型也能直接表現(xiàn)出其中的韻律與情感。標(biāo)點的停頓、句式的起伏,會被自然呈現(xiàn);文本中暗藏的情感弧線,從平靜敘述到激烈轉(zhuǎn)折,模型能主動捕捉;甚至連字里行間透露出的說話人身份(年齡、氣質(zhì)、角色類型),也會自動落到聲音里。換句話說:最樸素的純文本,交給它,也能還你一段有血有肉的演繹。
MiMo-V2.5-ASR
如果說 TTS 是在“輸出”端讓聲音成為創(chuàng)作工具,那么 ASR 就是在“輸入”端為這一切打開大門。在真實場景下,語種切換、背景噪聲、說話人帶著濃重的方言口音,在這樣的環(huán)境里還能聽清、聽準(zhǔn),才是真正好用的語音識別。
MiMo-V2.5-ASR 作為全鏈路語音模型系列的聽覺基座,在中英雙語、中文方言、Code-Switch、強噪音、多說話人、高知識密度等復(fù)雜真實場景下均達到業(yè)界領(lǐng)先水平。它不只是為了把清晰的語音轉(zhuǎn)成文字,更是讓 Agent 在嘈雜的真實聲音里,抓住每一個值得被理解的字詞。
核心特點
中文方言:支持吳語、粵語、閩南語、四川話等方言
英文復(fù)雜場景:在 AMI 等復(fù)雜英文場景 Open ASR Leaderboard 上達到領(lǐng)先水平
Code-Switch:中英 Code-Switch 語音轉(zhuǎn)錄自由流暢,無需預(yù)設(shè)語種標(biāo)簽
歌曲識別:中英文歌曲歌詞識別,在伴奏與人聲混合場景下保持高精度
強噪音場景:在高噪音、遠場拾音等復(fù)雜聲學(xué)環(huán)境中保持魯棒識別
多說話人:支持多人交叉對話場景的準(zhǔn)確轉(zhuǎn)錄,如會議場景
強知識關(guān)聯(lián):古詩詞、專業(yè)術(shù)語、人名、地名等知識密集型內(nèi)容的精準(zhǔn)識別
原生標(biāo)點:結(jié)合語音韻律與語義原生輸出標(biāo)點,轉(zhuǎn)寫結(jié)果即拿即用,無需后處理
性能表現(xiàn)
MiMo-V2.5-ASR 在中英文通用、中文方言、Code-Switch 及歌詞識別等多個維度上均取得當(dāng)前最優(yōu)或極具競爭力的結(jié)果,展現(xiàn)出跨場景、跨語種的穩(wěn)定優(yōu)勢。以下為代表性評測結(jié)果:

如何使用
MiMo-V2.5-TTS、MiMo-V2.5-TTS-VoiceDesign、MiMo-V2.5-TTS-VoiceClone 均在 Xiaomi MiMo API 開放平臺限時免費,同時,用戶可以到 Xiaomi MiMo Studio 進行快速體驗。
MiMo-V2.5-ASR 目前已開源模型權(quán)重和代碼,支持開發(fā)者和研究者直接使用或二次開發(fā)。

參考
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。