在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

小米開源首代機(jī)器人 VLA 大模型 Xiaomi-Robotics-0,刷新多項(xiàng) SOTA

2026/2/12 11:34:54 來源:IT之家 作者:浩渺 責(zé)編:浩渺
感謝IT之家網(wǎng)友 順勢而為、Wagaaa、若怡 的線索投遞!

IT之家 2 月 12 日消息,小米今日對外發(fā)布開源 VLA 模型 Xiaomi-Robotics-0,擁有 47 億參數(shù)、兼具視覺語言理解與高性能實(shí)時執(zhí)行能力,刷新多項(xiàng) SOTA。它不僅在三大主流的仿真測試中獲得優(yōu)異成績,更在現(xiàn)實(shí)真機(jī)任務(wù)中實(shí)現(xiàn)了物理智能的泛化 —— 動作連貫、反應(yīng)靈敏,且能在消費(fèi)級顯卡上實(shí)現(xiàn)實(shí)時推理。

IT之家從官方介紹獲悉,物理智能的核心在于“感知-決策-執(zhí)行”的閉環(huán)質(zhì)量。為了兼顧通用理解與精細(xì)控制,Xiaomi-Robotics-0 采用了主流的 Mixture-of-Transformers (MoT) 架構(gòu)。

  • 視覺語言大腦(VLM): 團(tuán)隊采用了多模態(tài) VLM 大模型作為底座。它負(fù)責(zé)理解人類的模糊指令(如“請把毛巾疊好”),并從高清視覺輸入中捕捉空間關(guān)系。

  • 動作執(zhí)行小腦(Action Expert):為了生成高頻、平滑的動作,團(tuán)隊嵌入了多層的 Diffusion Transformer (DiT)。它不直接輸出單一動作,而是生成一個“動作塊”(Action Chunk),并通過流匹配(Flow-matching)技術(shù)確保動作的精準(zhǔn)度。

模型架構(gòu)及訓(xùn)練方法:(a) VLM 多模態(tài)與動作混合預(yù)訓(xùn)練;(b) DiT 專項(xiàng)預(yù)訓(xùn)練;(c) 目標(biāo)任務(wù)后訓(xùn)練

大部分 VLA 模型在學(xué)動作時往往會“變笨”,失去本身的理解能力。我們通過多模態(tài)與動作數(shù)據(jù)的混合訓(xùn)練,讓模型在學(xué)會操作的同時,依然保持強(qiáng)大的物體檢測、視覺問答和邏輯推理能力。

  • VLM 協(xié)同訓(xùn)練:首先引入了 Action Proposal 機(jī)制,強(qiáng)迫 VLM 模型在理解圖像的同時預(yù)測多種動作分布。這一步是為了讓 VLM 的特征空間與動作空間對齊,不再僅僅是“紙上談兵”。

  • DiT 專項(xiàng)訓(xùn)練:隨后凍結(jié) VLM,專注于訓(xùn)練 DiT,學(xué)習(xí)如何從噪聲中恢復(fù)出精準(zhǔn)的動作序列。這一階段,我們?nèi)コ?VLM 的離散 Token,完全依賴 KV 特征進(jìn)行條件生成。通過 DiT 專項(xiàng)訓(xùn)練,模型可以生成高度平滑、精準(zhǔn)的的動作序列。

▲ 多模態(tài)數(shù)據(jù)與跨本體機(jī)器人數(shù)據(jù)的分布

針對推理延遲引發(fā)的真機(jī)“動作斷層”問題,團(tuán)隊采用異步推理模式 —— 讓模型推理與機(jī)器人運(yùn)行脫離同步約束、異步執(zhí)行,從機(jī)制上保障動作連貫流暢。為進(jìn)一步強(qiáng)化模型對環(huán)境變化的響應(yīng)敏捷性與運(yùn)行穩(wěn)定性,我們引入了:

  • Clean Action Prefix:將前一時刻預(yù)測的動作作為輸入,確保動作軌跡在時間維度上是連續(xù)的、不抖動的,進(jìn)一步增加流暢性。

  • Λ-shape Attention Mask:通過特殊的注意力掩碼,強(qiáng)制模型更關(guān)注當(dāng)前的視覺反饋,而不是沉溺于歷史慣性。這讓機(jī)器人在面對環(huán)境突發(fā)變化時,能夠展現(xiàn)出極強(qiáng)的反應(yīng)性物理智能。

▲ 異步推理示意圖,模型推理延遲不影響真機(jī)連續(xù)性運(yùn)行

▲ 采用特殊的注意力掩碼機(jī)制,有效緩解動作慣性

在多維度的測試中,Xiaomi-Robotics-0 展現(xiàn)出優(yōu)異的表現(xiàn):

  • 仿真標(biāo)桿: 在 LIBERO、CALVIN 和 SimplerEnv 測試中,模型在所有的 Benchmark、30 種模型對比中,均取得了當(dāng)前最優(yōu)的結(jié)果。

  • 真實(shí)挑戰(zhàn): 團(tuán)隊在雙臂機(jī)器人平臺上部署了模型并與行業(yè)標(biāo)桿進(jìn)行了橫向?qū)Ρ?。在積木拆解和疊毛巾這種長周期、高度挑戰(zhàn)的任務(wù)中,機(jī)器人展現(xiàn)出了極高的手眼協(xié)調(diào)性。無論是剛性的積木還是柔性的織物,都能處理得游刃有余。

  • 多模態(tài)能力:模型保留了 VLM 本身的多模態(tài)理解能力,尤其是在具身更相關(guān)的 benchmark 中表現(xiàn)優(yōu)異,這是之前的 VLA 模型所不具備的。

▲ 在 VLA、VLM 的 Benchmark 以及真實(shí)機(jī)器人的效果指標(biāo)

小米宣布將模型進(jìn)行開源:

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:小米VLA 模型,Xiaomi Robotics 0

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知