中國科學(xué)家提出“AI 語言”：人類難懂但模型能懂，文本壓縮至 27.9% 仍保留 99.5% 語義

2026/6/20 16:18:02 來源：IT之家作者：問舟責(zé)編：問舟

評論：

IT之家 6 月 20 日消息，上海交通大學(xué)、悉尼大學(xué)、合肥工業(yè)大學(xué)、西安交通大學(xué)、南京大學(xué)的研究人員于 6 月 18 日在預(yù)印本平臺(tái) arXiv 上發(fā)表了一項(xiàng)有趣的研究。

正如論文標(biāo)題《大語言模型并不總是需要可讀語言》，他們發(fā)現(xiàn) AI 能夠理解人類理解不了的精簡語言，所以 AI 提示詞中的大部分自然語言都屬于浪費(fèi) Token 的冗余信息。

他們提出了一種名為“BabelTele”的文本壓縮方法，能夠生成讓人類幾乎無法直接閱讀的內(nèi)容，但大語言模型（LLM）卻可以準(zhǔn)確理解其中的含義。

中國科學(xué)家提出“AI 語言”：人類難懂但模型能懂，文本壓縮至 27.9% 仍保留 99.5% 語義

其研究的核心思想是，當(dāng)前大語言模型之間的交互普遍采用為人類設(shè)計(jì)的自然語言，這包含了大量冗余信息。BabelTele 則是一種面向模型而非人類的文本表示方法，它通過融合多語言詞匯、數(shù)學(xué)符號(hào)、邏輯運(yùn)算符甚至表情符號(hào)，將原始文本壓縮成一種高度密集的“模型語言”。

論文展示了這種方法的強(qiáng)大壓縮能力：在實(shí)驗(yàn)中，BabelTele 能將文本壓縮至原來的 27.9%，同時(shí)仍保持高達(dá) 99.5% 的語義準(zhǔn)確性。

為了驗(yàn)證其有效性，研究團(tuán)隊(duì)設(shè)計(jì)了一系列實(shí)驗(yàn)。他們選取了 QuALITY 長文本問答數(shù)據(jù)集中的樣本，分別讓人類讀者和 AI 模型（Gemini 3.1 Pro）閱讀原文和 BabelTele 壓縮后的文本并回答問題。

結(jié)果顯示，人類讀者在閱讀 BabelTele 文本后，問答準(zhǔn)確率顯著下降，而 Gemini 3.1 Pro 的準(zhǔn)確率則保持穩(wěn)定。這表明，BabelTele 在犧牲人類可讀性的同時(shí)，并未丟失模型可恢復(fù)的語義信息。

在更廣泛的測試中，BabelTele 在多個(gè)基準(zhǔn)測試中都表現(xiàn)出色。無論是處理會(huì)議紀(jì)要（MeetingBank）還是長文檔問答（QuALITY），BabelTele 在同等壓縮率下的準(zhǔn)確率都優(yōu)于傳統(tǒng)的自然語言摘要和專門的提示壓縮工具（如 LLMLingua-2）。

此外，BabelTele 還被驗(yàn)證可以在不同的大語言模型間“零樣本”傳遞，即由一個(gè)模型生成的壓縮文本，另一個(gè)模型無需額外訓(xùn)練即可理解，堪稱 AI 之間的“AI 語言”。不過，研究也指出，其傳輸效果取決于壓縮模型和閱讀模型的配對。

在更貼近實(shí)際應(yīng)用的場景中，BabelTele 也展現(xiàn)了相當(dāng)不凡的潛力。在多智能體通信測試中，它能在減少約 40% 通信 Token 的同時(shí)，保持超過 96% 的任務(wù)完成度。在智能體記憶任務(wù)（LoCoMo 基準(zhǔn)測試）中，BabelTele 的記憶保留效果也優(yōu)于普通的摘要方法。

這項(xiàng)研究為 AI 行業(yè)提供了一個(gè)新的視角：在 AI Agent 和長文本處理等場景中，為大語言模型設(shè)計(jì)的“AI 語言”或許是提升效率的一種有效途徑。雖然目前 BabelTele 更多是一個(gè)探索性的概念驗(yàn)證，但它打開了一扇通往“模型原生語言”的大門。

IT之家附論文地址：
https://doi.org/10.48550/arXiv.2606.19857

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

中國科學(xué)家提出“AI 語言”：人類難懂但模型能懂，文本壓縮至 27.9% 仍保留 99.5% 語義

相關(guān)文章

中國科學(xué)家提出“AI 語言”：人類難懂但模型能懂，文本壓縮至 27.9% 仍保留 99.5% 語義