IT之家 5 月 6 日消息,據(jù)字節(jié)跳動(dòng)旗下火山引擎官方消息,今天,Doubao-Seed-2.0-lite 升級(jí)新版本,這是豆包大模型家族首款全模態(tài)理解模型,支持視頻、圖像、音頻、文本原生統(tǒng)一理解,Agent、Coding 與 GUI 能力同步升級(jí)。在同等算力成本下,是企業(yè)大規(guī)模、批量化部署全模態(tài)推理任務(wù)的更優(yōu)性價(jià)比選擇。
Doubao-Seed-2.0-lite 全新版本已在火山方舟上線。
IT之家附官方詳細(xì)介紹如下:
全模態(tài)理解:
不止看懂圖文,更能聽懂世界
新版本的 Doubao-Seed-2.0-lite 繼續(xù)在視覺(jué)理解能力上大幅提升,在物理(HiPhO)、醫(yī)療(MedXpertQA)等高階學(xué)科推理上,表現(xiàn)大幅超越 2 月發(fā)布的 Doubao-Seed-2.0-pro。在細(xì)粒度感知(BabyVision、WorldVQA)與具身理解(ERQA)等關(guān)鍵領(lǐng)域達(dá)到 SOTA 水平,更適合企業(yè)在高價(jià)值場(chǎng)景規(guī)?;渴稹?/p>

融入語(yǔ)音理解后,新版本的 Doubao-Seed-2.0-lite 可同時(shí)理解多種輸入模態(tài),并完成跨模態(tài)聯(lián)合推理,直接處理必須“音畫結(jié)合”才能判斷的復(fù)雜業(yè)務(wù)需求。
在視頻理解場(chǎng)景下,模型能夠聯(lián)合分析視頻中的畫面與音頻信息,精準(zhǔn)辨析視頻中的視聽一致性,判斷“看到的”與“聽到的”是否一致。
同時(shí)支持根據(jù)自然語(yǔ)言指令,在視頻中精準(zhǔn)定位特定事件發(fā)生的時(shí)間點(diǎn);更能跨越多個(gè)時(shí)間段提取關(guān)鍵線索,持續(xù)追蹤人物與事件發(fā)展,并基于畫面進(jìn)行多步邏輯推理,還原事件關(guān)系與行為脈絡(luò)。

在音頻上,模型支持 19 個(gè)語(yǔ)種的精準(zhǔn)語(yǔ)音轉(zhuǎn)寫、中英文與其他 14 個(gè)語(yǔ)種互譯,還能深度捕捉語(yǔ)音中的情緒變化、環(huán)境背景聲與音樂(lè)細(xì)節(jié),輸出更完整、更接近人類認(rèn)知的語(yǔ)義信息。根據(jù)公開評(píng)測(cè)集,Doubao-Seed-2.0-lite 在語(yǔ)音識(shí)別、翻譯等多項(xiàng)音頻理解基準(zhǔn)上優(yōu)于 Gemini-3.1-Pro。

Agent 和 Coding 能力升級(jí):
長(zhǎng)任務(wù)更穩(wěn)定,勝任前后端深度開發(fā)
Doubao-Seed-2.0-lite 對(duì)多輪、多步、多約束的用戶指令遵循度顯著提升;繼續(xù)增強(qiáng)任務(wù)反思推理與多 Agent 協(xié)同調(diào)度能力,讓 Agent 在長(zhǎng)程任務(wù)中自我拆解、自我校驗(yàn),不偏題、不遺漏。
Doubao-Seed-2.0-lite 深度適配 OpenClaw、Hermes Agent 等框架,強(qiáng)化深度搜索與 Skill 動(dòng)態(tài)調(diào)用,可邊執(zhí)行、邊沉淀經(jīng)驗(yàn),越用越聰明。
模型的 Coding 能力全面覆蓋前端頁(yè)面、3D 場(chǎng)景與游戲開發(fā),交付產(chǎn)物在視覺(jué)美觀度與工程完整度上進(jìn)一步提升,勝任從原型到上線的前后端深度開發(fā)。

GUI 能力融合:
界面理解與操作執(zhí)行一體化
基于升級(jí)的 GUI 能力,Doubao-Seed-2.0-lite 將“看懂界面”與“動(dòng)手操作”打通為一條閉環(huán):既能精準(zhǔn)識(shí)別按鈕、菜單、表單、彈窗等界面元素及其狀態(tài),也能穩(wěn)定完成點(diǎn)擊、輸入、右鍵、滾動(dòng)、拖拽等 Browser Use 與 Computer Use 操作。
從讀懂一張網(wǎng)頁(yè),到跨應(yīng)用、跨窗口連續(xù)執(zhí)行一整套業(yè)務(wù)流程,讓 Agent 真正具備“端到端把活干完”的交付力。

新版本模型正在解鎖更多新場(chǎng)景
全模態(tài)理解結(jié)合持續(xù)增強(qiáng)的 Agent、Coding 和 GUI 能力,可以幫助各領(lǐng)域企業(yè)用戶解鎖更多商業(yè)化應(yīng)用場(chǎng)景。
以電競(jìng)游戲場(chǎng)景為例,在下面的 AI 電競(jìng)教練比賽例子中,模型聯(lián)合分析比賽畫面與語(yǔ)音指揮,圍繞準(zhǔn)星、身法、道具、經(jīng)濟(jì)、對(duì)槍、聲音反應(yīng)等游戲中的多維信息做切片點(diǎn)評(píng);基于視頻深度解構(gòu)能力,跨越整場(chǎng)比賽的多個(gè)回合追蹤同一選手的走位與決策軌跡,賽后生成高光 / 失誤圖譜與時(shí)間軸復(fù)盤。
依托 Agent Harness 框架,模型可連續(xù)執(zhí)行跨越 25 小時(shí)的長(zhǎng)程任務(wù),像真人教練一樣精準(zhǔn)指出玩家的提升建議。
此外,AI 電競(jìng)教練的整套交互界面也由 Doubao-Seed-2.0-lite 模型直接生成 —— 從戰(zhàn)況圖譜到時(shí)間軸復(fù)盤卡片,排版整潔、層級(jí)清晰,視覺(jué)美觀度與工程完整度均達(dá)到可上線的水準(zhǔn)。
在在線教育場(chǎng)景中,用戶也可以在 ArkClaw 中調(diào)用該模型,完成高效協(xié)作。模型定時(shí)查看英語(yǔ)課堂教學(xué)錄像,識(shí)別視頻中老師和學(xué)生的教學(xué)和學(xué)習(xí)狀態(tài)、口語(yǔ)發(fā)音與情緒變化,發(fā)送給班主任和教學(xué)組長(zhǎng);隨后調(diào)用模型 Coding 能力,還能自動(dòng)生成包括課堂亮點(diǎn)、學(xué)生表現(xiàn)高光時(shí)刻等可視化課堂表現(xiàn)報(bào)告,發(fā)送給學(xué)生家長(zhǎng)。
在海外電商運(yùn)營(yíng)場(chǎng)景中,在 Hermes Agent 中,基于模型出色的 GUI 能力,自主打開瀏覽器,在海外電商平臺(tái)上搜索英、法、西、德等多語(yǔ)言的口紅爆款視頻,一鍵下載至本地,拆解口播、 BGM、分鏡與文案要素,并回寫 Skill 庫(kù);隨后調(diào)用視頻生成能力,生成適用于海外推廣的多語(yǔ)言版視頻,并自動(dòng)登錄電商平臺(tái)發(fā)布,執(zhí)行過(guò)程不斷進(jìn)化 Skills。
此外,Doubao-Seed-2.0-mini 全新版也已同步上線,同樣支持全模態(tài)理解,對(duì)比上一版本,思考長(zhǎng)度大幅縮短,Tokens 效率更高。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。