IT之家 11 月 11 日消息,Meta 基礎人工智能研究(FAIR)團隊推出了“全語種自動語音識別系統(tǒng)”(Omnilingual ASR),該系統(tǒng)可支持 1600 多種語言的語音轉(zhuǎn)寫,大幅拓展了當前語音識別技術的語言覆蓋范圍。

此前,大多數(shù)語音識別工具都專注于幾百種資源豐富的語言,這些語言有大量的轉(zhuǎn)錄音頻。而全球現(xiàn)存 7000 余種語言中,絕大多數(shù)因缺乏訓練數(shù)據(jù)而幾乎無法獲得人工智能支持。Omnilingual ASR 的推出旨在彌合這一鴻溝。
據(jù) Meta 介紹,在其支持的 1600 種語言中,有 500 種系首次被任何 AI 系統(tǒng)所覆蓋。FAIR 團隊將該系統(tǒng)視為邁向“通用語音轉(zhuǎn)寫系統(tǒng)”的重要一步,有望助力打破全球語言壁壘,促進跨語言溝通與信息可及性。
據(jù)IT之家了解,系統(tǒng)識別精度與訓練數(shù)據(jù)量密切相關。根據(jù) Meta 公布的數(shù)據(jù),Omnilingual ASR 在測試的 1600 種語言中,對其中 78% 的語言實現(xiàn)了低于 10% 的字符錯誤率(CER);對于至少擁有 10 小時訓練音頻的語言,達此精度標準的比例提升至 95%;即便對于音頻時長不足 10 小時的“低資源語言”,仍有 36% 實現(xiàn)了低于 10% CER 的表現(xiàn)。
為推動后續(xù)研究與實際應用落地,Meta 同步發(fā)布了“全語種 ASR 語料庫”(Omnilingual ASR Corpus)—— 一個包含 350 種代表性不足語言的、大規(guī)模轉(zhuǎn)錄語音數(shù)據(jù)集。該語料庫采用知識共享署名許可協(xié)議(CC-BY)開放獲取,旨在支持開發(fā)者與研究人員針對特定本地語言需求,構(gòu)建或適配定制化的語音識別模型。
Omnilingual ASR 的一項關鍵創(chuàng)新在于其“自帶語言”(Bring Your Own Language)功能,該功能依托上下文學習(in-context learning)機制實現(xiàn)。受大型語言模型技術啟發(fā),用戶僅需提供少量配對的語音與文本樣本,系統(tǒng)即可直接從中學習,無需重新訓練或依賴高算力資源,就能添加新的語言。
Meta 指出,理論上該方法可將 Omnilingual ASR 的語言支持能力擴展至 5400 余種,遠超當前行業(yè)標準。盡管對極低資源語言的識別質(zhì)量尚不及完全訓練的水平,但該技術已首次為眾多此前完全缺乏語音識別能力的語言社區(qū)提供了切實可行的解決方案。
Meta 以 Apache 2.0 開源許可協(xié)議發(fā)布 Omnilingual ASR 全部模型,允許研究人員與開發(fā)者自由使用、修改及商用;配套數(shù)據(jù)集則采用 CC-BY 協(xié)議開放。Omnilingual ASR 模型家族涵蓋從適用于低功耗設備的輕量級 3 億參數(shù)版本,到追求“頂尖精度”的 70 億參數(shù)版本,滿足不同應用場景需求。所有模型均基于 FAIR 自主研發(fā)的 PyTorch 框架 fairseq2 構(gòu)建。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。