IT之家 6 月 20 日消息,上海交通大學(xué)、悉尼大學(xué)、合肥工業(yè)大學(xué)、西安交通大學(xué)、南京大學(xué)的研究人員于 6 月 18 日在預(yù)印本平臺(tái) arXiv 上發(fā)表了一項(xiàng)有趣的研究。
正如論文標(biāo)題《大語言模型并不總是需要可讀語言》,他們發(fā)現(xiàn) AI 能夠理解人類理解不了的精簡語言,所以 AI 提示詞中的大部分自然語言都屬于浪費(fèi) Token 的冗余信息。
他們提出了一種名為“BabelTele”的文本壓縮方法,能夠生成讓人類幾乎無法直接閱讀的內(nèi)容,但大語言模型(LLM)卻可以準(zhǔn)確理解其中的含義。

其研究的核心思想是,當(dāng)前大語言模型之間的交互普遍采用為人類設(shè)計(jì)的自然語言,這包含了大量冗余信息。BabelTele 則是一種面向模型而非人類的文本表示方法,它通過融合多語言詞匯、數(shù)學(xué)符號(hào)、邏輯運(yùn)算符甚至表情符號(hào),將原始文本壓縮成一種高度密集的“模型語言”。
論文展示了這種方法的強(qiáng)大壓縮能力:在實(shí)驗(yàn)中,BabelTele 能將文本壓縮至原來的 27.9%,同時(shí)仍保持高達(dá) 99.5% 的語義準(zhǔn)確性。
為了驗(yàn)證其有效性,研究團(tuán)隊(duì)設(shè)計(jì)了一系列實(shí)驗(yàn)。他們選取了 QuALITY 長文本問答數(shù)據(jù)集中的樣本,分別讓人類讀者和 AI 模型(Gemini 3.1 Pro)閱讀原文和 BabelTele 壓縮后的文本并回答問題。
結(jié)果顯示,人類讀者在閱讀 BabelTele 文本后,問答準(zhǔn)確率顯著下降,而 Gemini 3.1 Pro 的準(zhǔn)確率則保持穩(wěn)定。這表明,BabelTele 在犧牲人類可讀性的同時(shí),并未丟失模型可恢復(fù)的語義信息。
在更廣泛的測試中,BabelTele 在多個(gè)基準(zhǔn)測試中都表現(xiàn)出色。無論是處理會(huì)議紀(jì)要(MeetingBank)還是長文檔問答(QuALITY),BabelTele 在同等壓縮率下的準(zhǔn)確率都優(yōu)于傳統(tǒng)的自然語言摘要和專門的提示壓縮工具(如 LLMLingua-2)。
此外,BabelTele 還被驗(yàn)證可以在不同的大語言模型間“零樣本”傳遞,即由一個(gè)模型生成的壓縮文本,另一個(gè)模型無需額外訓(xùn)練即可理解,堪稱 AI 之間的“AI 語言”。不過,研究也指出,其傳輸效果取決于壓縮模型和閱讀模型的配對。
在更貼近實(shí)際應(yīng)用的場景中,BabelTele 也展現(xiàn)了相當(dāng)不凡的潛力。在多智能體通信測試中,它能在減少約 40% 通信 Token 的同時(shí),保持超過 96% 的任務(wù)完成度。在智能體記憶任務(wù)(LoCoMo 基準(zhǔn)測試)中,BabelTele 的記憶保留效果也優(yōu)于普通的摘要方法。
這項(xiàng)研究為 AI 行業(yè)提供了一個(gè)新的視角:在 AI Agent 和長文本處理等場景中,為大語言模型設(shè)計(jì)的“AI 語言”或許是提升效率的一種有效途徑。雖然目前 BabelTele 更多是一個(gè)探索性的概念驗(yàn)證,但它打開了一扇通往“模型原生語言”的大門。
IT之家附論文地址:
https://doi.org/10.48550/arXiv.2606.19857
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。