IT之家 5 月 29 日消息,科技媒體 marktechpost 昨日(5 月 28 日)發(fā)布博文,報道稱 Meta 公司聯(lián)合推出 Multi-SpatialMLLM 模型,整合深度感知、視覺對應(yīng)和動態(tài)感知三大組件,突破單幀圖像分析的局限。
多模態(tài)大語言模型(MLLMs)近年來在視覺任務(wù)處理上取得顯著進(jìn)展,但其作為獨立數(shù)字實體的應(yīng)用方式限制了實際影響力。
隨著機(jī)器人和自動駕駛等領(lǐng)域的需求增長,MLLMs 需要具備復(fù)雜空間理解能力。然而,現(xiàn)有模型在基礎(chǔ)空間推理任務(wù)中頻頻失誤,例如無法準(zhǔn)確區(qū)分左右。
過去的研究將問題歸因于缺乏專門訓(xùn)練數(shù)據(jù),并嘗試通過單張圖像的空間數(shù)據(jù)訓(xùn)練改進(jìn),但這種方法局限于靜態(tài)視角分析,缺乏動態(tài)信息處理能力。
Meta 旗下的 FAIR 團(tuán)隊聯(lián)合香港中文大學(xué),為解決空間理解難題,推出 MultiSPA 數(shù)據(jù)集,涵蓋超過 2700 萬樣本,涉及多樣化的 3D 和 4D 場景。

該數(shù)據(jù)集結(jié)合了 Aria Digital Twin、Panoptic Studio 等高質(zhì)量標(biāo)注場景數(shù)據(jù),并通過 GPT-4o 生成多樣化任務(wù)模板。
研究還設(shè)計了五個訓(xùn)練任務(wù),包括深度感知、相機(jī)移動感知和物體大小感知等,提升 Multi-SpatialMLLM 模型在多幀空間推理上的能力。

在 MultiSPA 基準(zhǔn)測試中,Multi-SpatialMLLM 相比基礎(chǔ)模型平均提升 36%,在定性任務(wù)上的準(zhǔn)確率達(dá)到 80-90%,遠(yuǎn)超基礎(chǔ)模型的 50%,甚至在預(yù)測相機(jī)移動向量等高難度任務(wù)上也取得 18% 的準(zhǔn)確率。
在 BLINK 基準(zhǔn)測試中,該模型準(zhǔn)確率接近 90%,平均提升 26.4%,超越多個專有系統(tǒng)。此外,模型在標(biāo)準(zhǔn)視覺問答(VQA)測試中保持原有性能,顯示出不依賴過度擬合空間推理任務(wù)的通用能力。
IT之家附上參考地址
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。