DeepSeek 公布多模態(tài)模型技術(shù)報告

2026/4/30 22:39:33 來源：IT之家作者：遠洋責編：遠洋

評論：

感謝IT之家網(wǎng)友 Domado 的線索投遞！

IT之家 4 月 30 日消息，DeepSeek 在 GitHub 平臺正式發(fā)布了其多模態(tài)大模型，并同步公開了配套技術(shù)報告。該報告提出了一種基于“視覺原語”的創(chuàng)新推理框架，旨在突破當前多模態(tài)大語言模型（MLLMs）在空間參照任務中的核心瓶頸。

技術(shù)報告指出，盡管多模態(tài)大語言模型近年來取得長足進步，但主流的鏈式思維（CoT）推理范式仍主要局限于語言學領域?，F(xiàn)有研究多聚焦于通過高分辨率圖像裁剪等技術(shù)手段彌合“感知鴻溝”，即提升模型對視覺細節(jié)的識別能力。然而，DeepSeek 團隊認為，這一思路忽視了一個更為根本的限制：參照鴻溝。

自然語言固有的模糊性使其難以對復雜的空間布局提供精確、明確的指引。當模型需要執(zhí)行涉及嚴謹空間參照的任務時，這種語言表達的局限性往往導致推理鏈條斷裂，出現(xiàn)邏輯崩潰。

針對上述問題，DeepSeek 提出了“基于視覺原語的思考”（Thinking with Visual Primitives）框架。該框架將點、邊界框等空間標記從單純的視覺輸入元素，提升為推理過程中的“基本思維單元”。通過將這些視覺原語直接嵌入模型的思考鏈路，DeepSeek 使模型在推理過程中具備了“指代”能力 —— 即能夠?qū)⒊橄蟮恼J知軌跡錨定到圖像的具體物理坐標上，從而實現(xiàn)對空間關系的精確推演。

技術(shù)報告披露，該框架采用了高度優(yōu)化的模型架構(gòu)，具備極高的視覺標記效率。盡管模型規(guī)模緊湊且圖像標記預算顯著較低，DeepSeek 的多模態(tài)模型在具有挑戰(zhàn)性的計數(shù)和空間推理基準測試上，能夠與 GPT-5.4、Claude-Sonnet-4.6 和 Gemini-3-Flash 等前沿模型匹配。這為開發(fā)更高效、更具可擴展性的 System-2 類多模態(tài)智能指明了方向。

DeepSeek 公布多模態(tài)模型技術(shù)報告

IT之家注意到，DeepSeek 此前已經(jīng)上線了“識圖模式”，該模式和“快速模式”“專家模式”并列，并非簡單的 OCR 文字，而是終于具備了多模態(tài)識別能力。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：DeepSeek，多模態(tài)大模型

DeepSeek 公布多模態(tài)模型技術(shù)報告

相關文章