IT之家 4 月 30 日消息,DeepSeek 在 GitHub 平臺正式發(fā)布了其多模態(tài)大模型,并同步公開了配套技術(shù)報告。該報告提出了一種基于“視覺原語”的創(chuàng)新推理框架,旨在突破當前多模態(tài)大語言模型(MLLMs)在空間參照任務中的核心瓶頸。

技術(shù)報告指出,盡管多模態(tài)大語言模型近年來取得長足進步,但主流的鏈式思維(CoT)推理范式仍主要局限于語言學領域?,F(xiàn)有研究多聚焦于通過高分辨率圖像裁剪等技術(shù)手段彌合“感知鴻溝”,即提升模型對視覺細節(jié)的識別能力。然而,DeepSeek 團隊認為,這一思路忽視了一個更為根本的限制:參照鴻溝。
自然語言固有的模糊性使其難以對復雜的空間布局提供精確、明確的指引。當模型需要執(zhí)行涉及嚴謹空間參照的任務時,這種語言表達的局限性往往導致推理鏈條斷裂,出現(xiàn)邏輯崩潰。
針對上述問題,DeepSeek 提出了“基于視覺原語的思考”(Thinking with Visual Primitives)框架。該框架將點、邊界框等空間標記從單純的視覺輸入元素,提升為推理過程中的“基本思維單元”。通過將這些視覺原語直接嵌入模型的思考鏈路,DeepSeek 使模型在推理過程中具備了“指代”能力 —— 即能夠?qū)⒊橄蟮恼J知軌跡錨定到圖像的具體物理坐標上,從而實現(xiàn)對空間關系的精確推演。
技術(shù)報告披露,該框架采用了高度優(yōu)化的模型架構(gòu),具備極高的視覺標記效率。盡管模型規(guī)模緊湊且圖像標記預算顯著較低,DeepSeek 的多模態(tài)模型在具有挑戰(zhàn)性的計數(shù)和空間推理基準測試上,能夠與 GPT-5.4、Claude-Sonnet-4.6 和 Gemini-3-Flash 等前沿模型匹配。這為開發(fā)更高效、更具可擴展性的 System-2 類多模態(tài)智能指明了方向。

IT之家注意到,DeepSeek 此前已經(jīng)上線了“識圖模式”,該模式和“快速模式”“專家模式”并列,并非簡單的 OCR 文字,而是終于具備了多模態(tài)識別能力。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。