IT之家 6 月 18 日消息,當?shù)貢r間 6 月 17 日,Canonical 公布了一項名為 Project Myna 的新項目,旨在為 Ubuntu 桌面操作系統(tǒng)引入本地化的語音轉(zhuǎn)文字功能。
該項目得名于擅長模仿人類說話的鷯哥 / 八哥鳥,首個版本計劃隨 Ubuntu 26.10(Stonking Stingray)一同發(fā)布,并成為 Ubuntu 桌面體驗的核心組成部分。

Myna 被定位為一款原生桌面聽寫工具,而非語音助手或語音控制系統(tǒng)。IT之家注意到,用戶按下鍵盤快捷鍵后即可開始說話,轉(zhuǎn)錄后的文字會直接插入當前正在使用的應(yīng)用程序中,聽寫過程中屏幕會顯示明確的視覺反饋。
Canonical 表示,首版功能范圍將刻意收窄,不會涉及語音助手、語音命令、桌面控制、翻譯工具或自動語言檢測等功能,目標是把基礎(chǔ)聽寫體驗做扎實。
在技術(shù)架構(gòu)上,Myna 使用 AI 語音識別模型,所有識別任務(wù)均在用戶本地機器上運行,下載安裝必要的模型后無需任何互聯(lián)網(wǎng)連接。首版以 Wayland 上的 Ubuntu 桌面為目標,GNOME 是主要驗證環(huán)境,架構(gòu)保持開放以便未來支持更多桌面環(huán)境。
另外,麥克風僅在用戶主動激活聽寫時才會被訪問,音頻數(shù)據(jù)在內(nèi)存中處理后即被丟棄,不會上傳至任何外部服務(wù)。整體架構(gòu)采用模塊化設(shè)計,語音識別、用戶交互、聽寫管理和文本注入分別由獨立組件處理,以便后續(xù)對各部分單獨改進而不影響整體使用體驗。
Canonical 桌面團隊成員 Jean Baptiste Lallement 表示,該團隊希望“在過多的設(shè)計決策被固定下來之前”獲得社區(qū)反饋,尤其歡迎依賴聽寫或輔助技術(shù)的用戶、已在 Linux 上使用語音識別的用戶、開發(fā)者、測試人員及文檔編寫者參與進來。項目源碼和架構(gòu)文檔已在 GPLv3 協(xié)議下托管于 GitHub。
在 Ubuntu 26.10 之后,Canonical 計劃持續(xù)改善 Myna 與桌面的集成度,并探索讓聽寫更自然、更準確的方法。后續(xù)功能的優(yōu)先級將取決于早期用戶的反饋和更多社區(qū)意見。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。