打破全球語言壁壘：Meta 推出支持 1600 種語言的語音識別系統(tǒng)并開源

2025/11/11 17:12:38 來源：IT之家作者：遠洋責編：遠洋

評論：

IT之家 11 月 11 日消息，Meta 基礎人工智能研究（FAIR）團隊推出了“全語種自動語音識別系統(tǒng)”（Omnilingual ASR），該系統(tǒng)可支持 1600 多種語言的語音轉(zhuǎn)寫，大幅拓展了當前語音識別技術的語言覆蓋范圍。

此前，大多數(shù)語音識別工具都專注于幾百種資源豐富的語言，這些語言有大量的轉(zhuǎn)錄音頻。而全球現(xiàn)存 7000 余種語言中，絕大多數(shù)因缺乏訓練數(shù)據(jù)而幾乎無法獲得人工智能支持。Omnilingual ASR 的推出旨在彌合這一鴻溝。

據(jù) Meta 介紹，在其支持的 1600 種語言中，有 500 種系首次被任何 AI 系統(tǒng)所覆蓋。FAIR 團隊將該系統(tǒng)視為邁向“通用語音轉(zhuǎn)寫系統(tǒng)”的重要一步，有望助力打破全球語言壁壘，促進跨語言溝通與信息可及性。

據(jù)IT之家了解，系統(tǒng)識別精度與訓練數(shù)據(jù)量密切相關。根據(jù) Meta 公布的數(shù)據(jù)，Omnilingual ASR 在測試的 1600 種語言中，對其中 78% 的語言實現(xiàn)了低于 10% 的字符錯誤率（CER）；對于至少擁有 10 小時訓練音頻的語言，達此精度標準的比例提升至 95%；即便對于音頻時長不足 10 小時的“低資源語言”，仍有 36% 實現(xiàn)了低于 10% CER 的表現(xiàn)。

為推動后續(xù)研究與實際應用落地，Meta 同步發(fā)布了“全語種 ASR 語料庫”（Omnilingual ASR Corpus）—— 一個包含 350 種代表性不足語言的、大規(guī)模轉(zhuǎn)錄語音數(shù)據(jù)集。該語料庫采用知識共享署名許可協(xié)議（CC-BY）開放獲取，旨在支持開發(fā)者與研究人員針對特定本地語言需求，構(gòu)建或適配定制化的語音識別模型。

Omnilingual ASR 的一項關鍵創(chuàng)新在于其“自帶語言”（Bring Your Own Language）功能，該功能依托上下文學習（in-context learning）機制實現(xiàn)。受大型語言模型技術啟發(fā)，用戶僅需提供少量配對的語音與文本樣本，系統(tǒng)即可直接從中學習，無需重新訓練或依賴高算力資源，就能添加新的語言。

Meta 指出，理論上該方法可將 Omnilingual ASR 的語言支持能力擴展至 5400 余種，遠超當前行業(yè)標準。盡管對極低資源語言的識別質(zhì)量尚不及完全訓練的水平，但該技術已首次為眾多此前完全缺乏語音識別能力的語言社區(qū)提供了切實可行的解決方案。

Meta 以 Apache 2.0 開源許可協(xié)議發(fā)布 Omnilingual ASR 全部模型，允許研究人員與開發(fā)者自由使用、修改及商用；配套數(shù)據(jù)集則采用 CC-BY 協(xié)議開放。Omnilingual ASR 模型家族涵蓋從適用于低功耗設備的輕量級 3 億參數(shù)版本，到追求“頂尖精度”的 70 億參數(shù)版本，滿足不同應用場景需求。所有模型均基于 FAIR 自主研發(fā)的 PyTorch 框架 fairseq2 構(gòu)建。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：語音識別，Meta

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

打破全球語言壁壘：Meta 推出支持 1600 種語言的語音識別系統(tǒng)并開源

相關文章