首頁 > 智能時(shí)代>人工智能

1 米 3 宇樹 G1 完美上籃，港科大解鎖全球首個(gè)真實(shí)籃球機(jī)器人 Demo

量子位 2025/11/25 13:25:45 責(zé)編：汪淼

評論：

1 米 3 的機(jī)器人小土豆，三步上籃也可以如此絲滑。

別誤會，這臺宇樹 G1 暫時(shí)還不準(zhǔn)備參加 NBA 選秀，但它剛解鎖的“現(xiàn)實(shí)世界打籃球”技能，離上“村 BA”首發(fā)應(yīng)該不遠(yuǎn)了。

據(jù)悉，這是全球首個(gè)能在真實(shí)場景中完成籃球動作的機(jī)器人 demo，來自香港科技大學(xué)的研究團(tuán)隊(duì)。

1 米 3 宇樹 G1 完美上籃，港科大解鎖全球首個(gè)真實(shí)籃球機(jī)器人 Demo

雖然團(tuán)隊(duì)還沒公開完整的技術(shù)細(xì)節(jié)，但結(jié)合他們此前讓機(jī)器人“打籃球”的工作，這次很可能是在之前研究的基礎(chǔ)上，進(jìn)一步改良而來。

接下來，讓我們一窺究竟。

SkillMimic-v2

首先是被收錄于 SIGGRAPH 2025 的 SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations。

1 米 3 宇樹 G1 完美上籃，港科大解鎖全球首個(gè)真實(shí)籃球機(jī)器人 Demo

SkillMimic-V2 旨在解決交互演示強(qiáng)化學(xué)習(xí)（RLID）中演示軌跡稀疏、含噪且覆蓋不足的難題。

其通過引入拼接軌跡圖（STG）與狀態(tài)轉(zhuǎn)移場（STF）、自適應(yīng)軌跡采樣（ATS）等技術(shù)，成功地在低質(zhì)量數(shù)據(jù)條件下，訓(xùn)練出了兼具魯棒恢復(fù)能力與技能遷移能力的復(fù)雜交互策略。

1 米 3 宇樹 G1 完美上籃，港科大解鎖全球首個(gè)真實(shí)籃球機(jī)器人 Demo

當(dāng)前，通過動作捕捉等方式收集的數(shù)據(jù)往往存在以下缺陷：

稀疏性 (Sparse)：演示數(shù)據(jù)僅覆蓋了有限的技能變體，缺乏技能之間的過渡軌跡。
不連貫性 (Disconnected)：不同的技能片段是獨(dú)立的，缺乏自然的連接。
噪聲 (Noisy)：數(shù)據(jù)中包含物理上不可行的狀態(tài)或誤差（例如手與物體的穿模、接觸位置偏差），這在精細(xì)操作任務(wù)中會導(dǎo)致嚴(yán)重的訓(xùn)練失敗。

這些有缺陷的數(shù)據(jù)無法捕捉到技能變體和轉(zhuǎn)換的完整頻譜。

不過，相比直接去收集更好的數(shù)據(jù)，研究認(rèn)為盡管演示數(shù)據(jù)是稀疏和嘈雜的，但存在無限的物理可行軌跡 。

這些潛在的軌跡天然地能夠橋接不同的技能，或者從演示狀態(tài)的鄰域中涌現(xiàn)出來。

這就形成了一個(gè)連續(xù)的、可能的技能變體和轉(zhuǎn)換空間，從而可以利用這些不完美的演示數(shù)據(jù)，訓(xùn)練出平滑、魯棒的策略。

1 米 3 宇樹 G1 完美上籃，港科大解鎖全球首個(gè)真實(shí)籃球機(jī)器人 Demo

基于以上認(rèn)識，研究提出三個(gè)關(guān)鍵步驟發(fā)現(xiàn)并學(xué)習(xí)這些潛在軌跡：

拼接軌跡圖（Stitched Trajectory Graph，STG）：為了解決技能間的連接問題（如從運(yùn)球切換到投籃），算法在不同演示軌跡之間尋找相似狀態(tài)。如果在兩個(gè)不同技能的軌跡中發(fā)現(xiàn)相似狀態(tài)，就建立一條連接，并用掩碼標(biāo)記中間的過渡幀。這構(gòu)建了一個(gè)宏觀的圖結(jié)構(gòu)，允許策略學(xué)習(xí)未在原始數(shù)據(jù)中出現(xiàn)的技能轉(zhuǎn)換。
狀態(tài)轉(zhuǎn)移場（State Transition Field，STF）：訓(xùn)練時(shí)不只從參考軌跡的特定點(diǎn)開始，而是從其鄰域內(nèi)隨機(jī)采樣狀態(tài)初始化。對于鄰域內(nèi)的任意采樣狀態(tài)，計(jì)算其與參考軌跡中所有狀態(tài)的相似度，找到最佳匹配目標(biāo)。如果起點(diǎn)與目標(biāo)點(diǎn)距離較遠(yuǎn)，算法會插入 N 個(gè)掩碼狀態(tài)（Masked States）。這些狀態(tài)不計(jì)算獎勵，僅作為時(shí)間緩沖，迫使 RL 策略學(xué)習(xí)如何從偏離狀態(tài)“歸位”到參考軌跡，從而形成一個(gè)具有恢復(fù)能力的“場”。
自適應(yīng)軌跡采樣（Adaptive Trajectory Sampling，ATS）：根據(jù)當(dāng)前策略在某段軌跡上的表現(xiàn)（獎勵值）動態(tài)調(diào)整采樣概率。獎勵越低（越難學(xué)）的片段，被采樣的概率越高。這解決了長序列中因局部失敗導(dǎo)致整個(gè)鏈條斷裂的問題。

由此，技能轉(zhuǎn)換和泛化能力能夠遠(yuǎn)超最初不包含任何技能轉(zhuǎn)換或錯誤恢復(fù)的稀疏演示，實(shí)現(xiàn)更高效地技能學(xué)習(xí)與泛化性。

比如，在仿真環(huán)境（Isaac Gym）中，機(jī)器人可以在受到干擾時(shí)，仍可以完成上籃動作。

1 米 3 宇樹 G1 完美上籃，港科大解鎖全球首個(gè)真實(shí)籃球機(jī)器人 Demo

還能實(shí)現(xiàn)運(yùn)球-投籃間的技能轉(zhuǎn)換。

實(shí)驗(yàn)表明，相比此前的 SOTA（SkillMimic）方法，SkillMimic-V2 在困難技能（如 Layup）上的成功率從 0 提升到了 91.5%。技能轉(zhuǎn)換成功率（TSR）更是從 2.1% 飆升至 94.9%。

1 米 3 宇樹 G1 完美上籃，港科大解鎖全球首個(gè)真實(shí)籃球機(jī)器人 Demo

SkillMimic

接下來是 SkillMimic-V2 的前作 ——SkillMimic: Learning Basketball Interaction Skills from Demonstrations，這篇論文入選了 CVPR 2025 Highlight。

1 米 3 宇樹 G1 完美上籃，港科大解鎖全球首個(gè)真實(shí)籃球機(jī)器人 Demo

SkillMimic 旨在解決物理模擬人-物交互（HOI）中傳統(tǒng)方法依賴繁瑣手工獎勵設(shè)計(jì)且難以在統(tǒng)一框架下掌握多樣化技能的難題。

其通過引入統(tǒng)一 HOI 模仿獎勵與接觸圖（Contact Graph）、分層技能復(fù)用等技術(shù)，成功地在單一獎勵配置下，訓(xùn)練出了兼具精準(zhǔn)接觸控制與長程任務(wù)組合能力的通用交互策略。

1 米 3 宇樹 G1 完美上籃，港科大解鎖全球首個(gè)真實(shí)籃球機(jī)器人 Demo

研究 pipeline 包含三個(gè)部分：

首先，采集真實(shí)籃球運(yùn)動技能，構(gòu)建一個(gè)龐大的人機(jī)交互（HOI）運(yùn)動數(shù)據(jù)集。
其次，訓(xùn)練一個(gè)技能策略，通過模仿相應(yīng)的 HOI 數(shù)據(jù)來學(xué)習(xí)交互技能，設(shè)計(jì)了一個(gè)統(tǒng)一的 HOI 模仿獎勵機(jī)制，用于模仿各種不同的 HOI 狀態(tài)轉(zhuǎn)換。
最后，是訓(xùn)練一個(gè)高級控制器（HLC），用于復(fù)用已學(xué)習(xí)的技能來處理復(fù)雜任務(wù)，同時(shí)使用極其簡單的任務(wù)獎勵。

其中，SkillMimic 方法的關(guān)鍵在于：

統(tǒng)一的 HOI 模仿獎勵（Unified HOI Imitation Reward）：放棄針對每種技能單獨(dú)設(shè)計(jì)獎勵，而是設(shè)計(jì)一套通用的獎勵配置，通過模仿 HOI 數(shù)據(jù)集來學(xué)習(xí)所有技能。
分層學(xué)習(xí)架構(gòu)（Hierarchical Solution）：低層：交互技能策略（IS Policy）：通過 SkillMimic 框架學(xué)習(xí)各種基礎(chǔ)交互技能（如運(yùn)球、上籃）。高層：高級控制器（HLC）：訓(xùn)練一個(gè)高級策略來復(fù)用和組合已習(xí)得的 IS 策略，以完成長程復(fù)雜任務(wù)（如連續(xù)得分)。
數(shù)據(jù)驅(qū)動：構(gòu)建了兩個(gè)數(shù)據(jù)集 BallPlay-V（基于視頻估算）和 BallPlay-M（基于光學(xué)動捕，精度更高），包含約 35 分鐘的多樣化籃球交互數(shù)據(jù)。

實(shí)驗(yàn)表明，SkillMimic 能夠使用同一套配置學(xué)會多種風(fēng)格的籃球技能（運(yùn)球、上籃、投籃等），成功率顯著高于 DeepMimic 和 AMP。

1 米 3 宇樹 G1 完美上籃，港科大解鎖全球首個(gè)真實(shí)籃球機(jī)器人 Demo

在演示中，我們可以看到，仿真環(huán)境的機(jī)器人能夠?qū)崿F(xiàn)繞圈運(yùn)球等高級技能。

PhysHOI

如果追溯 SkillMimic 作者的工作，就會發(fā)現(xiàn)早在 2023 年，論文 PhysHOI: Physics-Based Imitation of Dynamic Human-Object Interaction 就試圖讓仿真中的機(jī)器人能夠根據(jù)演示學(xué)習(xí)籃球技能。

1 米 3 宇樹 G1 完美上籃，港科大解鎖全球首個(gè)真實(shí)籃球機(jī)器人 Demo

為實(shí)現(xiàn)這一點(diǎn)，PhysHOI 在當(dāng)時(shí)提出了一種基于物理仿真的動態(tài)人-物交互（HOI）模仿學(xué)習(xí)框架。

1 米 3 宇樹 G1 完美上籃，港科大解鎖全球首個(gè)真實(shí)籃球機(jī)器人 Demo

簡單來說，給定參考的 HOI 數(shù)據(jù)，將當(dāng)前的模擬 HOI 狀態(tài)與參考 HOI 狀態(tài)一起輸入策略模型。

策略輸出動作，并通過物理模擬器生成下一步的模擬 HOI 狀態(tài)，然后將運(yùn)動學(xué)獎勵與接觸-抓?。–G）獎勵加權(quán)結(jié)合，并優(yōu)化策略以最大化期望回報(bào)。

重復(fù)上述過程直至收斂，即可復(fù)現(xiàn)參考數(shù)據(jù)中的 HOI 技能。

1 米 3 宇樹 G1 完美上籃，港科大解鎖全球首個(gè)真實(shí)籃球機(jī)器人 Demo

除此之外，為防止運(yùn)動學(xué)模仿獎勵陷入最優(yōu)解，研究還引入了接觸圖（Contact Graph）——

給定一個(gè) HOI 幀，接觸圖節(jié)點(diǎn)包含所有身體部位和物體。每條邊都是一個(gè)二元接觸標(biāo)簽，表示接觸與否。為了簡化計(jì)算，還可以將多個(gè)身體部位聚合到一個(gè)節(jié)點(diǎn)中，形成聚合接觸圖。

同時(shí)，為了彌補(bǔ) HOI 場景的不足，研究還引入了全身籃球技巧的 BallPlay 數(shù)據(jù)集。

1 米 3 宇樹 G1 完美上籃，港科大解鎖全球首個(gè)真實(shí)籃球機(jī)器人 Demo

在實(shí)驗(yàn)中，PhysHOI 在不同大小的籃球操作上表現(xiàn)出了魯棒性。

One more thing

值得一提的是，在 PhysHOI、SkillMimic 、SkillMimic-v2 三篇工作中，王蔭槐都擔(dān)任了核心角色，網(wǎng)友調(diào)侃他是“籃球科研第一人”。

1 米 3 宇樹 G1 完美上籃，港科大解鎖全球首個(gè)真實(shí)籃球機(jī)器人 Demo

王蔭槐是香港科技大學(xué)的博士二年級學(xué)生，導(dǎo)師為譚平教授。

在此之前，他碩士就讀于北京大學(xué)，本科畢業(yè)于西安電子科技大學(xué)，并于 IDEA Research、宇樹科技以及上海人工智能實(shí)驗(yàn)室等機(jī)構(gòu)進(jìn)行實(shí)習(xí)。

從 2023 年在仿真環(huán)境的小試牛刀，到這次直接讓機(jī)器人在真實(shí)環(huán)境中打球，得益于機(jī)器人本體的發(fā)展，這速度真是很快了！

1 米 3 宇樹 G1 完美上籃，港科大解鎖全球首個(gè)真實(shí)籃球機(jī)器人 Demo

參考鏈接

[1]https://x.com/NliGjvJbycSeD6t/status/1991536374097559785
[2]https://wyhuai.github.io/info/
[3]https://ingrid789.github.io/SkillMimicV2/
[4]https://wyhuai.github.io/physhoi-page/[5]https://ingrid789.github.io/SkillMimic/

本文來自微信公眾號：量子位（ID：QbitAI），作者：henry，原標(biāo)題《1 米 3 宇樹 G1 完美上籃！港科大解鎖全球首個(gè)真實(shí)籃球機(jī)器人 Demo》

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

1 米 3 宇樹 G1 完美上籃，港科大解鎖全球首個(gè)真實(shí)籃球機(jī)器人 Demo

SkillMimic-v2

SkillMimic

PhysHOI

One more thing

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

1 米 3 宇樹 G1 完美上籃，港科大解鎖全球首個(gè)真實(shí)籃球機(jī)器人 Demo

SkillMimic-v2

SkillMimic

PhysHOI

One more thing

相關(guān)文章

1 米 3 宇樹 G1 完美上籃，港科大解鎖全球首個(gè)真實(shí)籃球機(jī)器人 Demo