IT之家 3 月 18 日消息,在昨日的 NVIDIA GTC 2026 上,理想汽車基座模型負(fù)責(zé)人詹錕發(fā)布了下一代自動駕駛基礎(chǔ)模型 MindVLA-o1。

IT之家注意到,理想汽車 CEO 李想今日發(fā)布長文談及了 MindVLA-o1。李想介紹稱,理想汽車在底層實(shí)現(xiàn)了一個核心突破:原生 3D ViT —— 真正的三維視覺編碼器。他表示,自動駕駛,只是物理 AI 的一個起點(diǎn)。
在昨天的 NVIDIA GTC 2026 上,詹錕代表理想發(fā)布了下一代自動駕駛基座模型 MindVLA-o1。我們在底層實(shí)現(xiàn)了一個核心突破:原生 3D ViT —— 真正的三維視覺編碼器。
我們在嘗試解答一個問題:人類開車看上去沒那么難,每個普通人都能把車開得又快又穩(wěn),但全世界最頂尖的企業(yè)砸了幾千億進(jìn)去,自動駕駛?cè)匀贿M(jìn)展緩慢。問題到底出在哪?
我們一直在教 AI 做成年人的事,但從來沒讓它當(dāng)過小孩。
人類在 0 到 6 歲的階段學(xué)會了走路,學(xué)會了扔球、接球??雌饋碇皇呛唵蔚膭幼?,但實(shí)際上已經(jīng)幫助孩子建立了對三維物理空間的理解。這就是為什么我們能精準(zhǔn)測距、穩(wěn)定駕駛,因?yàn)椤?D 預(yù)訓(xùn)練”6 歲前就完成了。
但今天所有的端到端系統(tǒng)本質(zhì)上都是“看 2D 視頻學(xué)開車”,更像是一個人坐在電腦前看了十萬小時行車記錄儀,然后直接上路。它有了智能,但離人類的智能程度差得遠(yuǎn)。過去我們和行業(yè)使用的 BEV 把世界從俯視角拍扁,丟失了高度信息;OCC 確實(shí)是 3D 的,但缺失了語義信息。物理 AI 缺的不是更大的模型、更多的數(shù)據(jù),而是一個能真正理解 3D 世界的視覺基礎(chǔ)。
3D ViT 解決了這個問題。不再是從 2D“還原”3D,而是讓模型一開始就工作在真實(shí)的三維世界里。以高分辨率多視角視覺為核心,在編碼階段直接完成對 3D 空間幾何和語義的統(tǒng)一理解 —— 空間結(jié)構(gòu)、位置關(guān)系、語義信息,一次完成。模型不只是看見畫面,而是理解世界,既知道它在哪,也知道它是什么。
在這個體系下,激光雷達(dá)的角色變了。它不再是感知的核心,而更像一把高精度的尺子,為視覺提供幾何標(biāo)定和近場空間約束。真正決定感知上限的,不是傳感器的物理線數(shù),而是模型的表征能力。在統(tǒng)一建模下,3D ViT 可以穩(wěn)定感知并推理到 500 米以上的空間范圍。
這件事以前不是沒人想做,是做不到,因?yàn)?3D ViT 對車端推理算力提出了極高的要求。我們自研的馬赫芯片,單顆有效算力是上一代的 3 倍,能把這套架構(gòu)真正放進(jìn)車?yán)?/strong>。
有了 3D ViT 打底,MindVLA-o1 把空間理解、思考推理、駕駛行為統(tǒng)一在一個模型里。不光看見世界,還能在隱空間里模擬未來幾秒的場景變化,想清楚再開。我們把這種能力稱之為多模態(tài)思考。
我們也已經(jīng)進(jìn)行了驗(yàn)證,這套基座模型不只是為自動駕駛設(shè)計(jì)的。同一套 VLA 基座模型,能開車,也能控制機(jī)器人,它正在逐漸演化成一個通用的物理世界智能體。
自動駕駛,只是物理 AI 的一個起點(diǎn)。

相關(guān)閱讀:
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。