在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

打黑神話 & 只狼超越人類玩家,淘天集團(tuán)發(fā)布首個(gè) 3D 動(dòng)作游戲?qū)S?VLA 模型

量子位 2025/8/19 14:10:52 責(zé)編:汪淼

3B 多模態(tài)大模型在動(dòng)作角色扮演游戲的戰(zhàn)斗任務(wù)中,成功率超越 GPT-4o 和人類玩家,淘天集團(tuán)未來生活實(shí)驗(yàn)室團(tuán)隊(duì)提出了 CombatVLA,已被 ICCV 2025 接收。

在復(fù)雜的三維環(huán)境中實(shí)現(xiàn)實(shí)時(shí)決策仍面臨重大挑戰(zhàn),要求模型能在秒級(jí)時(shí)間尺度做出響應(yīng),具備高分辨率感知能力,并能夠在動(dòng)態(tài)條件下進(jìn)行戰(zhàn)術(shù)推理。

如下圖所示,團(tuán)隊(duì)給出了 CombatVLA 推理得到的 AoT 解釋、解析成 Python 代碼的動(dòng)作指令,以及執(zhí)行這些動(dòng)作后的幀序列。前三行案例來自“黑神話:悟空”,第四行為“只狼:影逝二度”。

測(cè)試案例可視化

▲ 測(cè)試案例可視化
  • 第一行中,CombatVLA 檢測(cè)到自身血量較低,于是先將角色后撤到安全位置,然后按“r”鍵進(jìn)行回血操作。

  • 第二行中,CombatVLA 判斷定身技能可用,便按下“1”鍵定身敵人,并立即發(fā)動(dòng)連招,大幅削減敵人血量。

  • 第三行展示了模型有效閃避敵人攻擊,并抓住時(shí)機(jī)用蓄力重?fù)暨M(jìn)行反擊。

  • 第四行中,在 SSDT 場(chǎng)景下,CombatVLA 先用格擋動(dòng)作抵御攻擊,隨后用輕攻擊發(fā)動(dòng)忍殺,一擊擊敗敵人。

具體而言,CombatVLA 是一個(gè) 3B 級(jí)別的模型,通過動(dòng)作追蹤器收集的視頻-動(dòng)作對(duì)進(jìn)行訓(xùn)練,數(shù)據(jù)被格式化為“動(dòng)作思維”(action-of-thought, AoT)序列。隨后,CombatVLA 無縫集成進(jìn)動(dòng)作執(zhí)行框架,并通過截?cái)?AoT 策略實(shí)現(xiàn)高效推理。

實(shí)驗(yàn)結(jié)果表明,CombatVLA 不僅在戰(zhàn)斗理解基準(zhǔn)測(cè)試中超越了所有現(xiàn)有模型(如 GPT-4o 等),還在游戲戰(zhàn)斗中實(shí)現(xiàn)了 50 倍的加速。此外,CombatVLA 的任務(wù)成功率也高于人類玩家。

一. CombatVLA 概覽

視覺-語言-動(dòng)作模型(VLA)結(jié)合視覺、語義和動(dòng)作控制,推動(dòng)具身智能發(fā)展。盡管這類模型在 UI 操作和導(dǎo)航任務(wù)表現(xiàn)優(yōu)異,但 3D 戰(zhàn)斗場(chǎng)景(如“黑神話:悟空”和“只狼:影逝二度”)仍面臨三大挑戰(zhàn):

  • 1)視覺感知(如敵我定位、運(yùn)動(dòng)、環(huán)境感知);

  • 2)戰(zhàn)斗推理(識(shí)別敵方攻擊模式等);

  • 3)高效推理(實(shí)時(shí)響應(yīng)),目前尚無框架在這些任務(wù)上表現(xiàn)突出,也缺乏有效的戰(zhàn)斗理解評(píng)測(cè)基準(zhǔn)。

且當(dāng)前方案存在明顯缺陷 —— 基于強(qiáng)化學(xué)習(xí)方法操控游戲的方法們僅憑視覺輸入,通過 DQN 和 PPO 等算法訓(xùn)練智能體自主學(xué)習(xí)戰(zhàn)斗,但需要大量預(yù)設(shè)獎(jiǎng)勵(lì)和反復(fù)試錯(cuò),泛化能力弱。

依賴超大模型(如 GPT-4o)的方法們推理延遲較高,有時(shí)高達(dá) 60-90 秒,嚴(yán)重影響實(shí)時(shí)戰(zhàn)斗表現(xiàn),難以落地應(yīng)用。

為解決這些問題,團(tuán)隊(duì)提出了 CombatVLA—— 首個(gè)高效 3D 戰(zhàn)斗智能專用 VLA 模型。

CombatVLA 基于 3B 參數(shù)規(guī)模,能處理視覺輸入并輸出一系列具體可執(zhí)行的動(dòng)作指令(支持鍵鼠操作),實(shí)現(xiàn)高效戰(zhàn)斗決策。團(tuán)隊(duì)首先開發(fā)了動(dòng)作跟蹤器自動(dòng)采集大規(guī)模訓(xùn)練數(shù)據(jù),

數(shù)據(jù)被加工為“動(dòng)作思維”(Action-of-Thought, AoT)格式,方便模型理解和推理戰(zhàn)斗動(dòng)作。

接下來,CombatVLA 采用漸進(jìn)式學(xué)習(xí)范式,逐步從視頻級(jí)到幀級(jí)優(yōu)化動(dòng)作生成。

最終,模型可嵌入動(dòng)作執(zhí)行機(jī)器人中,并通過自定義截?cái)噍敵霾呗约铀偻评怼?/p>

實(shí)驗(yàn)表明,CombatVLA 在戰(zhàn)斗理解準(zhǔn)確率上超過現(xiàn)有大模型,在執(zhí)行速度上也實(shí)現(xiàn)了 50 倍提升。

本文主要貢獻(xiàn)如下:

  • 動(dòng)作跟蹤器:開發(fā)了一套后臺(tái)自動(dòng)記錄玩家動(dòng)作的工具,大幅提升數(shù)據(jù)采集效率,為后續(xù)研究提供基礎(chǔ)。

  • 戰(zhàn)斗理解基準(zhǔn):基于動(dòng)作跟蹤器建立了 CUBench 評(píng)測(cè)集,通過 VQA 任務(wù)測(cè)試模型的敵方識(shí)別和動(dòng)作推理能力。

  • AoT 數(shù)據(jù)集:提出分三階段(視頻粗粒度 / 幀級(jí)細(xì)粒度 / 幀級(jí)截?cái)啵?gòu)建 AoT 數(shù)據(jù),助力模型漸進(jìn)學(xué)習(xí)戰(zhàn)斗技能。

  • CombatVLA 模型:結(jié)合自適應(yīng)動(dòng)作權(quán)重?fù)p失,經(jīng)過漸進(jìn)式訓(xùn)練,在戰(zhàn)斗理解基準(zhǔn)上達(dá)到最優(yōu)。

  • 動(dòng)作執(zhí)行框架:將 CombatVLA 無縫嵌入 PC 端執(zhí)行,實(shí)現(xiàn)基于截?cái)嗖呗缘?50 倍加速。

CombatVLA 在 CUBench 和任務(wù)級(jí)實(shí)際評(píng)測(cè)中均達(dá)到最優(yōu)性能

▲ CombatVLA 在 CUBench 和任務(wù)級(jí)實(shí)際評(píng)測(cè)中均達(dá)到最優(yōu)性能

二.動(dòng)作追蹤器和評(píng)測(cè)基準(zhǔn)

團(tuán)隊(duì)開發(fā)了一個(gè)動(dòng)作跟蹤器,用于收集游戲中的人類動(dòng)作序列,為戰(zhàn)斗理解模型提供了大量訓(xùn)練數(shù)據(jù)。此外,團(tuán)隊(duì)還基于該動(dòng)作跟蹤器建立了一個(gè)全面的戰(zhàn)斗理解 benchmark,涵蓋三個(gè)不同任務(wù)。

戰(zhàn)斗理解評(píng)測(cè)基準(zhǔn) - CUBench

▲ 戰(zhàn)斗理解評(píng)測(cè)基準(zhǔn) - CUBench

2.1 動(dòng)作跟蹤器

由于標(biāo)注動(dòng)作的數(shù)據(jù)極其稀缺,團(tuán)隊(duì)開發(fā)了一個(gè)高效收集視頻-動(dòng)作對(duì)的輕量級(jí) Python 工具,稱為動(dòng)作跟蹤器。

該工具可以在后臺(tái)運(yùn)行,監(jiān)控鍵盤和鼠標(biāo)操作以記錄用戶動(dòng)作,并同步截取游戲截圖。

2.2 評(píng)測(cè)基準(zhǔn)

為了讓基于 VLM 或 VLA 的模型在 3D ARPG 游戲中有良好表現(xiàn),必須具備高維視覺感知和戰(zhàn)斗語義理解能力。

因此,團(tuán)隊(duì)基于三項(xiàng)核心能力(信息獲取、理解、推理)構(gòu)建了戰(zhàn)斗理解評(píng)測(cè)基準(zhǔn) ——CUBench,用于評(píng)估模型的戰(zhàn)斗智商。

分別為:?jiǎn)螆D判斷、多圖判斷和多圖多選,團(tuán)隊(duì)匯總出 914 條數(shù)據(jù)(39.4% 為信息獲取,22.3% 為理解,38.3% 為推理),用于全面測(cè)試模型的戰(zhàn)斗理解能力。

三.CombatVLA 模型

動(dòng)作跟蹤器、AoT 數(shù)據(jù)集、CUBench、CombatVLA 模型和動(dòng)作執(zhí)行框架

▲ 動(dòng)作跟蹤器、AoT 數(shù)據(jù)集、CUBench、CombatVLA 模型和動(dòng)作執(zhí)行框架

3.1 Action-of-Thought 數(shù)據(jù)集

受 CoT 啟發(fā),團(tuán)隊(duì)將動(dòng)作跟蹤器采集的數(shù)據(jù)轉(zhuǎn)化為“動(dòng)作思維”數(shù)據(jù),如下圖所示。具體而言,模型的輸出以 JSON 格式表達(dá),包含 [action](如“按下空格鍵”)以及 [explanation](用于描述當(dāng)前敵人狀態(tài)、該動(dòng)作的物理含義等)。

此外,還引入特殊標(biāo)記?TRUNC?,用于實(shí)現(xiàn)輸出截?cái)啵蕴岣咄评硭俣取?/p>

數(shù)據(jù)集和訓(xùn)練范式

▲ 數(shù)據(jù)集和訓(xùn)練范式

3.2 三階段漸進(jìn)式訓(xùn)練

CombatVLA 的訓(xùn)練過程遵循三級(jí)漸進(jìn)式學(xué)習(xí)范式,使模型能夠逐步掌握戰(zhàn)斗策略。具體分為:

(1)階段 1:視頻級(jí)粗粒度 AoT 微調(diào)。

該階段旨在讓模型初步理解戰(zhàn)斗環(huán)境,數(shù)據(jù)以若干幀組成的視頻為單元,結(jié)合每幀對(duì)應(yīng)的動(dòng)作(時(shí)間并不精確對(duì)齊)。

這樣,模型需要根據(jù)整體視頻內(nèi)容推測(cè)動(dòng)作,有助于建立對(duì)戰(zhàn)斗整體的初步認(rèn)知,也便于后續(xù)穩(wěn)定訓(xùn)練。

(2)階段 2:幀級(jí)細(xì)粒度 AoT 微調(diào)。

在 3D 戰(zhàn)斗游戲中,模型需要具備秒級(jí)反應(yīng)和快速?zèng)Q策能力。

此階段構(gòu)建了動(dòng)作與若干前序幀嚴(yán)格對(duì)齊的數(shù)據(jù)對(duì)(Frames-AoT),幫助模型理解動(dòng)作前因后果及戰(zhàn)斗邏輯。

例如,連續(xù)幾幀內(nèi)敵方蓄力攻擊,則模型可能觸發(fā)閃避行為。

(3)階段 3:幀級(jí)截?cái)?AoT 微調(diào)。

大模型推理速度與輸出長(zhǎng)度相關(guān),為提升實(shí)時(shí)響應(yīng),團(tuán)隊(duì)引入了?TRUNC?特殊標(biāo)記,對(duì) AoT 輸出內(nèi)容進(jìn)行截?cái)嗉铀佟?/p>

這樣既保留了 AoT 帶來的推理優(yōu)勢(shì),又顯著提升了模型推理速度。

整個(gè)訓(xùn)練過程中,視覺編碼器參數(shù)凍結(jié),僅微調(diào)語言模型參數(shù)。

在前兩階段中,AoT 的 [explanation] 置于 [action] 前面,便于模型推理出正確的動(dòng)作;在第三階段,AoT 的 [explanation] 置于 [action] 后面,便于模型進(jìn)行快速截?cái)?,以?shí)現(xiàn)推理加速。

3.3 動(dòng)作執(zhí)行框架

(1)基于 VLA 的智能體框架。

為讓視覺語言模型(VLM)能夠像人類一樣玩電腦游戲,團(tuán)隊(duì)開發(fā)了一個(gè)輕量級(jí)且高效的動(dòng)作執(zhí)行智能體。

在實(shí)際運(yùn)行中,框架接收實(shí)時(shí)游戲畫面(視頻)作為輸入,輸出則是具體的鍵鼠動(dòng)作指令,實(shí)現(xiàn)對(duì)游戲角色的自動(dòng)控制。

團(tuán)隊(duì)對(duì)實(shí)時(shí)游戲畫面進(jìn)行幀采樣,去除冗余視覺信息,降低 VLM 推理負(fù)擔(dān)。模型推理采用截?cái)噍敵霾呗?,提取有效?dòng)作并執(zhí)行。

(2)截?cái)嗤评砼c執(zhí)行。

推理過程中,每生成一個(gè)新輸出 token 就進(jìn)行監(jiān)控,一旦檢測(cè)到特殊的?TRUNC?標(biāo)記即停止,將之前的內(nèi)容解析為動(dòng)作。這大大加快了推理速度。

最后,利用“pyautogui”庫將動(dòng)作轉(zhuǎn)換為 Python 代碼,自動(dòng)完成鍵盤鼠標(biāo)操作,讓角色完成戰(zhàn)斗任務(wù)。

四.實(shí)驗(yàn)結(jié)果

4.1 實(shí)現(xiàn)細(xì)節(jié)

(1)數(shù)據(jù)集。

團(tuán)隊(duì)選用了“黑神話:悟空(BMW)”和“只狼:影逝二度(SSDT)”兩款游戲作為實(shí)驗(yàn)平臺(tái)。

標(biāo)注人員根據(jù)難度將 13 個(gè)戰(zhàn)斗任務(wù)分為四個(gè)等級(jí):簡(jiǎn)單、中等、困難和極難(如下表所示)。

團(tuán)隊(duì)通過動(dòng)作跟蹤器在“黑神話:悟空”的第 9 和第 10 任務(wù)中收集訓(xùn)練數(shù)據(jù)。AoT 涵蓋 10 種動(dòng)作,包括“wsad”移動(dòng)、“shift”沖刺、“space”翻滾(只狼中為格擋防御)、“r”回血、“1”定身、鼠標(biāo)左鍵普攻、鼠標(biāo)右鍵長(zhǎng)按重?fù)舻?,這些動(dòng)作可以組合使用。

任務(wù)定義

▲ 任務(wù)定義

(2)基準(zhǔn)測(cè)試。團(tuán)隊(duì)用戰(zhàn)斗理解基準(zhǔn)(CUBench)、通用基準(zhǔn)(如 MME、VideoMME、OCRBench)和任務(wù)級(jí)實(shí)際評(píng)測(cè)作為評(píng)測(cè)方式。

在任務(wù)級(jí)實(shí)戰(zhàn)測(cè)試中,動(dòng)作執(zhí)行框架直接操控 PC 進(jìn)行戰(zhàn)斗,每個(gè)基線模型對(duì)每個(gè)任務(wù)測(cè)試 10 次,以擊敗敵人為成功,否則為失敗,記錄成功率和平均推理時(shí)長(zhǎng)。

值得注意的是,團(tuán)隊(duì)的 CombatVLA 只在極難任務(wù)(9 和 10)上微調(diào),測(cè)試時(shí)將簡(jiǎn)單到困難難度的任務(wù)(1–8, 同一游戲的不同任務(wù))及其他游戲的任務(wù)(11–13)作為零樣本(zero-shot)測(cè)試,以考察泛化能力。

4.2 定量實(shí)驗(yàn)結(jié)果

戰(zhàn)斗理解和通用基準(zhǔn)評(píng)測(cè)結(jié)果

▲ 戰(zhàn)斗理解和通用基準(zhǔn)評(píng)測(cè)結(jié)果

(1)戰(zhàn)斗理解評(píng)測(cè)。在 CUBench 上,CombatVLA 取得了 63.61 的最高平均分,比第二名 Gemini-2.0-flash 高出 5.71 分,較原始基座 Qwen2.5-VL-3B 高出 7.74 分,顯著提升了模型的戰(zhàn)斗理解能力。

(2)通用基準(zhǔn)評(píng)測(cè)。CombatVLA 在 MME、VideoMME 和 OCRBench 等通用基準(zhǔn)上的表現(xiàn)依然與基座模型 Qwen2.5-VL-3B 相當(dāng),驗(yàn)證了團(tuán)隊(duì)方法的穩(wěn)健性和泛化能力。

(3)任務(wù)級(jí)實(shí)際評(píng)測(cè)。團(tuán)隊(duì)將 CombatVLA 接入動(dòng)作執(zhí)行代理,讓其像人類一樣自動(dòng)完成戰(zhàn)斗任務(wù)。如下圖所示,CombatVLA 不僅在簡(jiǎn)單任務(wù)接近人類外,在中高難度任務(wù)上全面超越基線,并在零樣本任務(wù)上也展現(xiàn)出較強(qiáng)的泛化能力。

任務(wù)級(jí)實(shí)際評(píng)測(cè)結(jié)果

▲ 任務(wù)級(jí)實(shí)際評(píng)測(cè)結(jié)果

(4)推理延遲。團(tuán)隊(duì)還統(tǒng)計(jì)了平均推理延遲和每次動(dòng)作所需模型調(diào)用次數(shù)(見下表)。CombatVLA 平均推理延遲僅 1.8 秒,且只需一次模型調(diào)用,比 VARP 快約 50 倍,模型調(diào)用成本僅為其 1/10。

推理延遲和調(diào)用次數(shù)比較

▲ 推理延遲和調(diào)用次數(shù)比較

結(jié)束語

本文針對(duì)當(dāng)前視覺語言模型(VLMs)或視覺-語言-動(dòng)作模型(VLAs)在 3D 動(dòng)作角色扮演游戲中缺乏秒級(jí)響應(yīng)、高分辨率感知和戰(zhàn)術(shù)推理能力的問題,提出了 CombatVLA 模型。

該模型規(guī)模為 3B,采用 AoT 序列訓(xùn)練,并引入動(dòng)作對(duì)齊損失和模態(tài)對(duì)比損失進(jìn)行優(yōu)化。

CombatVLA 可無縫集成到動(dòng)作執(zhí)行框架中,通過截?cái)?AoT 策略實(shí)現(xiàn)高效推理。

實(shí)驗(yàn)結(jié)果表明,CombatVLA 在戰(zhàn)斗理解基準(zhǔn)上全面超越現(xiàn)有模型,同時(shí)具備良好的泛化能力,并在實(shí)時(shí)戰(zhàn)斗場(chǎng)景中實(shí)現(xiàn)了 50 倍速度提升。

未來,團(tuán)隊(duì)將進(jìn)一步增強(qiáng)模型對(duì)游戲場(chǎng)景的理解能力,拓展其在更多類型游戲甚至物理世界中的應(yīng)用。

本文來自微信公眾號(hào):量子位(ID:QbitAI),作者:CombatVLA 團(tuán)隊(duì),原標(biāo)題《首個(gè) 3D 動(dòng)作游戲?qū)S?VLA 模型,打黑神話 & 只狼超越人類玩家 | ICCV 2025》

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:CombatVLA,阿里AI,游戲AIVLA模型

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知