在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

豆包語音識別模型 2.0 上線:不僅“聽懂字”還能“看懂圖”,支持日韓德法等 13 種外語

2025/12/5 16:09:58 來源:IT之家 作者:汪淼 責編:汪淼
感謝IT之家網(wǎng)友 斯文當不了飯吃 的線索投遞!

IT之家 12 月 5 日消息,火山引擎今日發(fā)布豆包語音識別模型 2.0(Doubao-Seed-ASR-2.0)

模型推理能力提升,通過深度理解上下文完成精準識別,上下文整體關鍵詞召回率提升 20%;支持多模態(tài)視覺識別,不僅“聽懂字”還能“看懂圖”,通過單圖和多圖等視覺信息輸入讓文字識別更精準;支持日語、韓語、德語、法語等 13 種海外語種的精準識別。

豆包語音識別模型依托 Seed 混合專家大語言模型架構構建,在延續(xù) 1.0 版本中 20 億參數(shù)音頻編碼器的基礎上,重點針對專有名詞、人名、地名、品牌名稱及易混淆多音字等復雜場景進行優(yōu)化升級。而更強的上下文推理能力,讓模型實現(xiàn)多模態(tài)信息理解、混合語言精準識別能力。

豆包語音識別模型 2.0 基于 PPO 方案進行強化學習,不需要依賴目標詞匯的歷史出現(xiàn)記錄,通過深度理解更加泛化的上下文即可完成識別,讓語音識別更適配動態(tài)變化的真實交互場景,輸出結果更準確。

以歷史人物生平討論場景為例,當用戶提及蘇轍貶謫地“筠(IT之家注讀音:yún)州”時,如果模型缺乏推理能力會易將其誤識別為同音的“云州”“鄆州”等。而豆包語音識別模型 2.0 可依托“當前討論蘇軾、蘇轍”這一背景,即便上下文從沒出現(xiàn)過“筠州”,也能通過邏輯推理鎖定用戶所指的特定地名,最終實現(xiàn)對多音字地名的精準識別。

圖片

豆包語音識別模型 2.0 將上下文理解范圍從純文本拓展至視覺層面,讓語音識別突破“只識文字”的局限,實現(xiàn)“能識場景”的升級。它通過輔助理解單圖和多圖內容,幫助用戶在搜拍或圖片創(chuàng)作場景,識別易混淆字詞,提升識別準確性。

以搜拍場景為例,當用戶發(fā)送照片后,若想描述畫面內容,傳統(tǒng)模型可能因“滑雞”不常見而誤識別為常用詞“滑稽”。而豆包語音識別模型 2.0 能同步解析圖像,發(fā)現(xiàn)畫面中是正在玩滑板的“雞”,從而精準判斷用戶想表達的是“滑雞”,避免字詞混淆導致的識別偏差。

圖片

在圖片創(chuàng)作場景中,越來越多用戶選擇用語音指令生成或修改內容,豆包語音識別模型 2.0 可智能結合當前圖像內容進行辨析與糾錯。當用戶語音提及需修改的元素時,模型能精準判斷其真實需求 —— 比如明確用戶想調整的是畫面中的“馬頭”,而非同音且更常見的“碼頭”,最終讓圖片生成貼合預期的畫面。

圖片

豆包語音識別模型 2.0 采用 Function Call 策略,在高度保持中、英和方言識別準確度的前提下,支持日語、韓語、德語、法語、印尼語、西班牙語、葡萄牙語等 13 類語種的識別。

圖片

目前,豆包語音識別模型 2.0 已上線火山方舟體驗中心并對外提供 API 服務。

廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:豆包,語音識別模型

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知