Meta 發(fā)布 Multi-SpatialMLLM：多模態(tài) AI 突破空間理解瓶頸

2025/5/29 13:38:56 來源：IT之家作者：故淵責編：故淵

評論：

IT之家 5 月 29 日消息，科技媒體 marktechpost 昨日（5 月 28 日）發(fā)布博文，報道稱 Meta 公司聯(lián)合推出 Multi-SpatialMLLM 模型，整合深度感知、視覺對應和動態(tài)感知三大組件，突破單幀圖像分析的局限。

多模態(tài)大語言模型（MLLMs）近年來在視覺任務處理上取得顯著進展，但其作為獨立數(shù)字實體的應用方式限制了實際影響力。

隨著機器人和自動駕駛等領域的需求增長，MLLMs 需要具備復雜空間理解能力。然而，現(xiàn)有模型在基礎空間推理任務中頻頻失誤，例如無法準確區(qū)分左右。

過去的研究將問題歸因于缺乏專門訓練數(shù)據(jù)，并嘗試通過單張圖像的空間數(shù)據(jù)訓練改進，但這種方法局限于靜態(tài)視角分析，缺乏動態(tài)信息處理能力。

Meta 旗下的 FAIR 團隊聯(lián)合香港中文大學，為解決空間理解難題，推出 MultiSPA 數(shù)據(jù)集，涵蓋超過 2700 萬樣本，涉及多樣化的 3D 和 4D 場景。

Meta 發(fā)布 Multi-SpatialMLLM：多模態(tài) AI 突破空間理解瓶頸

該數(shù)據(jù)集結合了 Aria Digital Twin、Panoptic Studio 等高質量標注場景數(shù)據(jù)，并通過 GPT-4o 生成多樣化任務模板。

研究還設計了五個訓練任務，包括深度感知、相機移動感知和物體大小感知等，提升 Multi-SpatialMLLM 模型在多幀空間推理上的能力。

Meta 發(fā)布 Multi-SpatialMLLM：多模態(tài) AI 突破空間理解瓶頸

在 MultiSPA 基準測試中，Multi-SpatialMLLM 相比基礎模型平均提升 36%，在定性任務上的準確率達到 80-90%，遠超基礎模型的 50%，甚至在預測相機移動向量等高難度任務上也取得 18% 的準確率。

在 BLINK 基準測試中，該模型準確率接近 90%，平均提升 26.4%，超越多個專有系統(tǒng)。此外，模型在標準視覺問答（VQA）測試中保持原有性能，顯示出不依賴過度擬合空間推理任務的通用能力。

IT之家附上參考地址

廣告聲明：文內(nèi)含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

關鍵詞：Meta，AI

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线