打黑神話 & 只狼超越人類玩家，淘天集團(tuán)發(fā)布首個(gè) 3D 動(dòng)作游戲?qū)Ｓ?VLA 模型

量子位 2025/8/19 14:10:52 責(zé)編：汪淼

評(píng)論：

3B 多模態(tài)大模型在動(dòng)作角色扮演游戲的戰(zhàn)斗任務(wù)中，成功率超越 GPT-4o 和人類玩家，淘天集團(tuán)未來生活實(shí)驗(yàn)室團(tuán)隊(duì)提出了 CombatVLA，已被 ICCV 2025 接收。

在復(fù)雜的三維環(huán)境中實(shí)現(xiàn)實(shí)時(shí)決策仍面臨重大挑戰(zhàn)，要求模型能在秒級(jí)時(shí)間尺度做出響應(yīng)，具備高分辨率感知能力，并能夠在動(dòng)態(tài)條件下進(jìn)行戰(zhàn)術(shù)推理。

如下圖所示，團(tuán)隊(duì)給出了 CombatVLA 推理得到的 AoT 解釋、解析成 Python 代碼的動(dòng)作指令，以及執(zhí)行這些動(dòng)作后的幀序列。前三行案例來自“黑神話：悟空”，第四行為“只狼：影逝二度”。

測(cè)試案例可視化

▲ 測(cè)試案例可視化

第一行中，CombatVLA 檢測(cè)到自身血量較低，于是先將角色后撤到安全位置，然后按“r”鍵進(jìn)行回血操作。
第二行中，CombatVLA 判斷定身技能可用，便按下“1”鍵定身敵人，并立即發(fā)動(dòng)連招，大幅削減敵人血量。
第三行展示了模型有效閃避敵人攻擊，并抓住時(shí)機(jī)用蓄力重?fù)暨M(jìn)行反擊。
第四行中，在 SSDT 場(chǎng)景下，CombatVLA 先用格擋動(dòng)作抵御攻擊，隨后用輕攻擊發(fā)動(dòng)忍殺，一擊擊敗敵人。

具體而言，CombatVLA 是一個(gè) 3B 級(jí)別的模型，通過動(dòng)作追蹤器收集的視頻-動(dòng)作對(duì)進(jìn)行訓(xùn)練，數(shù)據(jù)被格式化為“動(dòng)作思維”（action-of-thought, AoT）序列。隨后，CombatVLA 無縫集成進(jìn)動(dòng)作執(zhí)行框架，并通過截?cái)?AoT 策略實(shí)現(xiàn)高效推理。

實(shí)驗(yàn)結(jié)果表明，CombatVLA 不僅在戰(zhàn)斗理解基準(zhǔn)測(cè)試中超越了所有現(xiàn)有模型（如 GPT-4o 等），還在游戲戰(zhàn)斗中實(shí)現(xiàn)了 50 倍的加速。此外，CombatVLA 的任務(wù)成功率也高于人類玩家。

打黑神話 & 只狼超越人類玩家，淘天集團(tuán)發(fā)布首個(gè) 3D 動(dòng)作游戲?qū)Ｓ?VLA 模型

一. CombatVLA 概覽

視覺-語言-動(dòng)作模型（VLA）結(jié)合視覺、語義和動(dòng)作控制，推動(dòng)具身智能發(fā)展。盡管這類模型在 UI 操作和導(dǎo)航任務(wù)表現(xiàn)優(yōu)異，但 3D 戰(zhàn)斗場(chǎng)景（如“黑神話：悟空”和“只狼：影逝二度”）仍面臨三大挑戰(zhàn)：

1）視覺感知（如敵我定位、運(yùn)動(dòng)、環(huán)境感知）；
2）戰(zhàn)斗推理（識(shí)別敵方攻擊模式等）；
3）高效推理（實(shí)時(shí)響應(yīng)），目前尚無框架在這些任務(wù)上表現(xiàn)突出，也缺乏有效的戰(zhàn)斗理解評(píng)測(cè)基準(zhǔn)。

且當(dāng)前方案存在明顯缺陷 —— 基于強(qiáng)化學(xué)習(xí)方法操控游戲的方法們僅憑視覺輸入，通過 DQN 和 PPO 等算法訓(xùn)練智能體自主學(xué)習(xí)戰(zhàn)斗，但需要大量預(yù)設(shè)獎(jiǎng)勵(lì)和反復(fù)試錯(cuò)，泛化能力弱。

依賴超大模型（如 GPT-4o）的方法們推理延遲較高，有時(shí)高達(dá) 60-90 秒，嚴(yán)重影響實(shí)時(shí)戰(zhàn)斗表現(xiàn)，難以落地應(yīng)用。

為解決這些問題，團(tuán)隊(duì)提出了 CombatVLA—— 首個(gè)高效 3D 戰(zhàn)斗智能專用 VLA 模型。

CombatVLA 基于 3B 參數(shù)規(guī)模，能處理視覺輸入并輸出一系列具體可執(zhí)行的動(dòng)作指令（支持鍵鼠操作），實(shí)現(xiàn)高效戰(zhàn)斗決策。團(tuán)隊(duì)首先開發(fā)了動(dòng)作跟蹤器自動(dòng)采集大規(guī)模訓(xùn)練數(shù)據(jù)，

數(shù)據(jù)被加工為“動(dòng)作思維”（Action-of-Thought, AoT）格式，方便模型理解和推理戰(zhàn)斗動(dòng)作。

接下來，CombatVLA 采用漸進(jìn)式學(xué)習(xí)范式，逐步從視頻級(jí)到幀級(jí)優(yōu)化動(dòng)作生成。

最終，模型可嵌入動(dòng)作執(zhí)行機(jī)器人中，并通過自定義截?cái)噍敵霾呗约铀偻评怼?/p>

實(shí)驗(yàn)表明，CombatVLA 在戰(zhàn)斗理解準(zhǔn)確率上超過現(xiàn)有大模型，在執(zhí)行速度上也實(shí)現(xiàn)了 50 倍提升。

本文主要貢獻(xiàn)如下：

動(dòng)作跟蹤器：開發(fā)了一套后臺(tái)自動(dòng)記錄玩家動(dòng)作的工具，大幅提升數(shù)據(jù)采集效率，為后續(xù)研究提供基礎(chǔ)。
戰(zhàn)斗理解基準(zhǔn)：基于動(dòng)作跟蹤器建立了 CUBench 評(píng)測(cè)集，通過 VQA 任務(wù)測(cè)試模型的敵方識(shí)別和動(dòng)作推理能力。
AoT 數(shù)據(jù)集：提出分三階段（視頻粗粒度 / 幀級(jí)細(xì)粒度 / 幀級(jí)截?cái)啵?gòu)建 AoT 數(shù)據(jù)，助力模型漸進(jìn)學(xué)習(xí)戰(zhàn)斗技能。
CombatVLA 模型：結(jié)合自適應(yīng)動(dòng)作權(quán)重?fù)p失，經(jīng)過漸進(jìn)式訓(xùn)練，在戰(zhàn)斗理解基準(zhǔn)上達(dá)到最優(yōu)。
動(dòng)作執(zhí)行框架：將 CombatVLA 無縫嵌入 PC 端執(zhí)行，實(shí)現(xiàn)基于截?cái)嗖呗缘?50 倍加速。

CombatVLA 在 CUBench 和任務(wù)級(jí)實(shí)際評(píng)測(cè)中均達(dá)到最優(yōu)性能

▲ CombatVLA 在 CUBench 和任務(wù)級(jí)實(shí)際評(píng)測(cè)中均達(dá)到最優(yōu)性能

二.動(dòng)作追蹤器和評(píng)測(cè)基準(zhǔn)

團(tuán)隊(duì)開發(fā)了一個(gè)動(dòng)作跟蹤器，用于收集游戲中的人類動(dòng)作序列，為戰(zhàn)斗理解模型提供了大量訓(xùn)練數(shù)據(jù)。此外，團(tuán)隊(duì)還基于該動(dòng)作跟蹤器建立了一個(gè)全面的戰(zhàn)斗理解 benchmark，涵蓋三個(gè)不同任務(wù)。

戰(zhàn)斗理解評(píng)測(cè)基準(zhǔn) - CUBench

▲ 戰(zhàn)斗理解評(píng)測(cè)基準(zhǔn) - CUBench

2.1 動(dòng)作跟蹤器

由于標(biāo)注動(dòng)作的數(shù)據(jù)極其稀缺，團(tuán)隊(duì)開發(fā)了一個(gè)高效收集視頻-動(dòng)作對(duì)的輕量級(jí) Python 工具，稱為動(dòng)作跟蹤器。

該工具可以在后臺(tái)運(yùn)行，監(jiān)控鍵盤和鼠標(biāo)操作以記錄用戶動(dòng)作，并同步截取游戲截圖。

2.2 評(píng)測(cè)基準(zhǔn)

為了讓基于 VLM 或 VLA 的模型在 3D ARPG 游戲中有良好表現(xiàn)，必須具備高維視覺感知和戰(zhàn)斗語義理解能力。

因此，團(tuán)隊(duì)基于三項(xiàng)核心能力（信息獲取、理解、推理）構(gòu)建了戰(zhàn)斗理解評(píng)測(cè)基準(zhǔn) ——CUBench，用于評(píng)估模型的戰(zhàn)斗智商。

分別為：?jiǎn)螆D判斷、多圖判斷和多圖多選，團(tuán)隊(duì)匯總出 914 條數(shù)據(jù)（39.4% 為信息獲取，22.3% 為理解，38.3% 為推理），用于全面測(cè)試模型的戰(zhàn)斗理解能力。

三.CombatVLA 模型

動(dòng)作跟蹤器、AoT 數(shù)據(jù)集、CUBench、CombatVLA 模型和動(dòng)作執(zhí)行框架

▲ 動(dòng)作跟蹤器、AoT 數(shù)據(jù)集、CUBench、CombatVLA 模型和動(dòng)作執(zhí)行框架

3.1 Action-of-Thought 數(shù)據(jù)集

受 CoT 啟發(fā)，團(tuán)隊(duì)將動(dòng)作跟蹤器采集的數(shù)據(jù)轉(zhuǎn)化為“動(dòng)作思維”數(shù)據(jù)，如下圖所示。具體而言，模型的輸出以 JSON 格式表達(dá)，包含 [action]（如“按下空格鍵”）以及 [explanation]（用于描述當(dāng)前敵人狀態(tài)、該動(dòng)作的物理含義等）。

此外，還引入特殊標(biāo)記?TRUNC?，用于實(shí)現(xiàn)輸出截?cái)啵蕴岣咄评硭俣取?/p>

數(shù)據(jù)集和訓(xùn)練范式

▲ 數(shù)據(jù)集和訓(xùn)練范式

3.2 三階段漸進(jìn)式訓(xùn)練

CombatVLA 的訓(xùn)練過程遵循三級(jí)漸進(jìn)式學(xué)習(xí)范式，使模型能夠逐步掌握戰(zhàn)斗策略。具體分為：

（1）階段 1：視頻級(jí)粗粒度 AoT 微調(diào)。

該階段旨在讓模型初步理解戰(zhàn)斗環(huán)境，數(shù)據(jù)以若干幀組成的視頻為單元，結(jié)合每幀對(duì)應(yīng)的動(dòng)作（時(shí)間并不精確對(duì)齊）。

這樣，模型需要根據(jù)整體視頻內(nèi)容推測(cè)動(dòng)作，有助于建立對(duì)戰(zhàn)斗整體的初步認(rèn)知，也便于后續(xù)穩(wěn)定訓(xùn)練。

（2）階段 2：幀級(jí)細(xì)粒度 AoT 微調(diào)。

在 3D 戰(zhàn)斗游戲中，模型需要具備秒級(jí)反應(yīng)和快速?zèng)Q策能力。

此階段構(gòu)建了動(dòng)作與若干前序幀嚴(yán)格對(duì)齊的數(shù)據(jù)對(duì)（Frames-AoT），幫助模型理解動(dòng)作前因后果及戰(zhàn)斗邏輯。

例如，連續(xù)幾幀內(nèi)敵方蓄力攻擊，則模型可能觸發(fā)閃避行為。

（3）階段 3：幀級(jí)截?cái)?AoT 微調(diào)。

大模型推理速度與輸出長(zhǎng)度相關(guān)，為提升實(shí)時(shí)響應(yīng)，團(tuán)隊(duì)引入了?TRUNC?特殊標(biāo)記，對(duì) AoT 輸出內(nèi)容進(jìn)行截?cái)嗉铀佟?/p>

這樣既保留了 AoT 帶來的推理優(yōu)勢(shì)，又顯著提升了模型推理速度。

整個(gè)訓(xùn)練過程中，視覺編碼器參數(shù)凍結(jié)，僅微調(diào)語言模型參數(shù)。

在前兩階段中，AoT 的 [explanation] 置于 [action] 前面，便于模型推理出正確的動(dòng)作；在第三階段，AoT 的 [explanation] 置于 [action] 后面，便于模型進(jìn)行快速截?cái)?，以?shí)現(xiàn)推理加速。

3.3 動(dòng)作執(zhí)行框架

（1）基于 VLA 的智能體框架。

為讓視覺語言模型（VLM）能夠像人類一樣玩電腦游戲，團(tuán)隊(duì)開發(fā)了一個(gè)輕量級(jí)且高效的動(dòng)作執(zhí)行智能體。

在實(shí)際運(yùn)行中，框架接收實(shí)時(shí)游戲畫面（視頻）作為輸入，輸出則是具體的鍵鼠動(dòng)作指令，實(shí)現(xiàn)對(duì)游戲角色的自動(dòng)控制。

團(tuán)隊(duì)對(duì)實(shí)時(shí)游戲畫面進(jìn)行幀采樣，去除冗余視覺信息，降低 VLM 推理負(fù)擔(dān)。模型推理采用截?cái)噍敵霾呗?，提取有效?dòng)作并執(zhí)行。

（2）截?cái)嗤评砼c執(zhí)行。

推理過程中，每生成一個(gè)新輸出 token 就進(jìn)行監(jiān)控，一旦檢測(cè)到特殊的?TRUNC?標(biāo)記即停止，將之前的內(nèi)容解析為動(dòng)作。這大大加快了推理速度。

最后，利用“pyautogui”庫將動(dòng)作轉(zhuǎn)換為 Python 代碼，自動(dòng)完成鍵盤鼠標(biāo)操作，讓角色完成戰(zhàn)斗任務(wù)。

四.實(shí)驗(yàn)結(jié)果

4.1 實(shí)現(xiàn)細(xì)節(jié)

（1）數(shù)據(jù)集。

團(tuán)隊(duì)選用了“黑神話：悟空（BMW）”和“只狼：影逝二度（SSDT）”兩款游戲作為實(shí)驗(yàn)平臺(tái)。

標(biāo)注人員根據(jù)難度將 13 個(gè)戰(zhàn)斗任務(wù)分為四個(gè)等級(jí)：簡(jiǎn)單、中等、困難和極難（如下表所示）。

團(tuán)隊(duì)通過動(dòng)作跟蹤器在“黑神話：悟空”的第 9 和第 10 任務(wù)中收集訓(xùn)練數(shù)據(jù)。AoT 涵蓋 10 種動(dòng)作，包括“wsad”移動(dòng)、“shift”沖刺、“space”翻滾（只狼中為格擋防御）、“r”回血、“1”定身、鼠標(biāo)左鍵普攻、鼠標(biāo)右鍵長(zhǎng)按重?fù)舻?，這些動(dòng)作可以組合使用。

任務(wù)定義

▲ 任務(wù)定義

（2）基準(zhǔn)測(cè)試。團(tuán)隊(duì)用戰(zhàn)斗理解基準(zhǔn)（CUBench）、通用基準(zhǔn)（如 MME、VideoMME、OCRBench）和任務(wù)級(jí)實(shí)際評(píng)測(cè)作為評(píng)測(cè)方式。

在任務(wù)級(jí)實(shí)戰(zhàn)測(cè)試中，動(dòng)作執(zhí)行框架直接操控 PC 進(jìn)行戰(zhàn)斗，每個(gè)基線模型對(duì)每個(gè)任務(wù)測(cè)試 10 次，以擊敗敵人為成功，否則為失敗，記錄成功率和平均推理時(shí)長(zhǎng)。

值得注意的是，團(tuán)隊(duì)的 CombatVLA 只在極難任務(wù)（9 和 10）上微調(diào)，測(cè)試時(shí)將簡(jiǎn)單到困難難度的任務(wù)（1–8, 同一游戲的不同任務(wù)）及其他游戲的任務(wù)（11–13）作為零樣本（zero-shot）測(cè)試，以考察泛化能力。

4.2 定量實(shí)驗(yàn)結(jié)果

戰(zhàn)斗理解和通用基準(zhǔn)評(píng)測(cè)結(jié)果

▲ 戰(zhàn)斗理解和通用基準(zhǔn)評(píng)測(cè)結(jié)果

（1）戰(zhàn)斗理解評(píng)測(cè)。在 CUBench 上，CombatVLA 取得了 63.61 的最高平均分，比第二名 Gemini-2.0-flash 高出 5.71 分，較原始基座 Qwen2.5-VL-3B 高出 7.74 分，顯著提升了模型的戰(zhàn)斗理解能力。

（2）通用基準(zhǔn)評(píng)測(cè)。CombatVLA 在 MME、VideoMME 和 OCRBench 等通用基準(zhǔn)上的表現(xiàn)依然與基座模型 Qwen2.5-VL-3B 相當(dāng)，驗(yàn)證了團(tuán)隊(duì)方法的穩(wěn)健性和泛化能力。

（3）任務(wù)級(jí)實(shí)際評(píng)測(cè)。團(tuán)隊(duì)將 CombatVLA 接入動(dòng)作執(zhí)行代理，讓其像人類一樣自動(dòng)完成戰(zhàn)斗任務(wù)。如下圖所示，CombatVLA 不僅在簡(jiǎn)單任務(wù)接近人類外，在中高難度任務(wù)上全面超越基線，并在零樣本任務(wù)上也展現(xiàn)出較強(qiáng)的泛化能力。

任務(wù)級(jí)實(shí)際評(píng)測(cè)結(jié)果

▲ 任務(wù)級(jí)實(shí)際評(píng)測(cè)結(jié)果

（4）推理延遲。團(tuán)隊(duì)還統(tǒng)計(jì)了平均推理延遲和每次動(dòng)作所需模型調(diào)用次數(shù)（見下表）。CombatVLA 平均推理延遲僅 1.8 秒，且只需一次模型調(diào)用，比 VARP 快約 50 倍，模型調(diào)用成本僅為其 1/10。

推理延遲和調(diào)用次數(shù)比較

▲ 推理延遲和調(diào)用次數(shù)比較

結(jié)束語

本文針對(duì)當(dāng)前視覺語言模型（VLMs）或視覺-語言-動(dòng)作模型（VLAs）在 3D 動(dòng)作角色扮演游戲中缺乏秒級(jí)響應(yīng)、高分辨率感知和戰(zhàn)術(shù)推理能力的問題，提出了 CombatVLA 模型。

該模型規(guī)模為 3B，采用 AoT 序列訓(xùn)練，并引入動(dòng)作對(duì)齊損失和模態(tài)對(duì)比損失進(jìn)行優(yōu)化。

CombatVLA 可無縫集成到動(dòng)作執(zhí)行框架中，通過截?cái)?AoT 策略實(shí)現(xiàn)高效推理。

實(shí)驗(yàn)結(jié)果表明，CombatVLA 在戰(zhàn)斗理解基準(zhǔn)上全面超越現(xiàn)有模型，同時(shí)具備良好的泛化能力，并在實(shí)時(shí)戰(zhàn)斗場(chǎng)景中實(shí)現(xiàn)了 50 倍速度提升。

未來，團(tuán)隊(duì)將進(jìn)一步增強(qiáng)模型對(duì)游戲場(chǎng)景的理解能力，拓展其在更多類型游戲甚至物理世界中的應(yīng)用。

論文鏈接：https://arxiv.org/pdf/2503.09527
項(xiàng)目主頁：https://combatvla.github.io/

本文來自微信公眾號(hào)：量子位（ID：QbitAI），作者：CombatVLA 團(tuán)隊(duì)，原標(biāo)題《首個(gè) 3D 動(dòng)作游戲?qū)Ｓ?VLA 模型，打黑神話 & 只狼超越人類玩家 | ICCV 2025》

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

打黑神話 & 只狼超越人類玩家，淘天集團(tuán)發(fā)布首個(gè) 3D 動(dòng)作游戲?qū)Ｓ?VLA 模型

一. CombatVLA 概覽

二.動(dòng)作追蹤器和評(píng)測(cè)基準(zhǔn)

三.CombatVLA 模型

四.實(shí)驗(yàn)結(jié)果

結(jié)束語

相關(guān)文章