在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

AI 玩手機(jī)越玩越 6,西湖大學(xué)發(fā)布會(huì)自我進(jìn)化的智能體 AppAgentX

量子位 2025/3/9 13:12:19 責(zé)編:汪淼

人工智能正迎來前所未有的變革,其中,大語言模型(LLM)的崛起推動(dòng)了智能系統(tǒng)從信息處理向自主交互邁進(jìn)。

以 DeepSeek 為代表的 LLM,憑借強(qiáng)大的語言理解與推理能力,在文本創(chuàng)作、編程輔助、復(fù)雜任務(wù)規(guī)劃等領(lǐng)域展現(xiàn)出卓越表現(xiàn)。

然而,LLM 的潛力遠(yuǎn)不止于文本生成,它們正在塑造一種全新的智能體形態(tài) ——GUI 代理(GUI Agents)。這類智能體不僅能理解指令,還能像人類一樣直接操作計(jì)算機(jī)和手機(jī),擺脫對(duì)預(yù)設(shè)規(guī)則或 API 的依賴,帶來更自然、高效的交互方式,使 AI 真正融入軟件生態(tài),成為智能操作系統(tǒng)的一部分。

問題在于,目前的 LLM 代理雖然具備強(qiáng)大的推理能力,卻在任務(wù)執(zhí)行效率上存在明顯瓶頸。

為了解決這個(gè)問題,現(xiàn)在,西湖大學(xué) AGI 實(shí)驗(yàn)室張馳團(tuán)隊(duì)推出了 AppAgentX—— 一款具備自我進(jìn)化能力的 GUI 代理。它能夠在不斷執(zhí)行任務(wù)的過程中學(xué)習(xí)并優(yōu)化自身的行為模式,實(shí)現(xiàn)更加高效的操作。

AppAgentX 的核心創(chuàng)新在于:

  • 自動(dòng)歸納高效操作模式:代理能夠在執(zhí)行任務(wù)時(shí),檢測(cè)重復(fù)性操作模式,并自動(dòng)總結(jié)成更高級(jí)別的“一鍵”操作。

  • 任務(wù)執(zhí)行更快,減少重復(fù)計(jì)算:傳統(tǒng)的 LLM 代理每次執(zhí)行任務(wù)都需要重新思考操作流程,而 AppAgentX 能夠記住并復(fù)用執(zhí)行策略,從而避免重復(fù)推理,使得任務(wù)執(zhí)行更加流暢高效。

  • 完全基于視覺操作,適用于各種軟件:傳統(tǒng)自動(dòng)化方法通常需要訪問后端 API,而 AppAgentX 僅依賴屏幕視覺信息進(jìn)行操作,無需后端訪問,因此能夠在不同軟件、不同設(shè)備上通用,真正做到“即插即用”。

AppAgentX:讓智能體學(xué)會(huì)“進(jìn)化”

過去,計(jì)算機(jī)的自動(dòng)化操作主要依賴 RPA(機(jī)器人流程自動(dòng)化),通過預(yù)設(shè)規(guī)則或 API 進(jìn)行固定任務(wù)的執(zhí)行。然而,這種方式需要大量手動(dòng)配置,缺乏靈活性。

GUI 代理的出現(xiàn),改變了這一局面,被譽(yù)為軟件世界中的具身智能。

GUI 代理不依賴后端 API,而是像人類一樣,通過屏幕視覺、鼠標(biāo)和鍵盤直接操作軟件界面。這意味著,智能體可以自主學(xué)習(xí)如何操作各種應(yīng)用程序,甚至能夠在不同軟件之間切換,執(zhí)行復(fù)雜的跨應(yīng)用任務(wù)。例如:

  • 辦公場(chǎng)景:自動(dòng)整理文檔、批量發(fā)送郵件

  • 娛樂與創(chuàng)作:使用 Photoshop 處理圖像、生成視頻內(nèi)容

  • 自動(dòng)化操作:批量錄入數(shù)據(jù)、自動(dòng)處理訂單

  • 跨應(yīng)用任務(wù):從網(wǎng)頁爬取信息后填入 Excel、在多個(gè)軟件之間進(jìn)行聯(lián)動(dòng)操作

正因如此,GUI 代理被視為智能助手、數(shù)字員工、自動(dòng)化測(cè)試等領(lǐng)域的下一代解決方案,但現(xiàn)階段的挑戰(zhàn)也很突出:現(xiàn)有的智能體聰明但不夠高效。

現(xiàn)有的 LLM 代理通常采用逐步推理(Step-by-step Reasoning)的方式,即每次執(zhí)行操作前,模型都要推理下一步動(dòng)作。例如,在進(jìn)行網(wǎng)頁搜索時(shí),它可能會(huì)這樣決策:

  • 識(shí)別需要搜索的信息;

  • 點(diǎn)擊搜索框;

  • 輸入關(guān)鍵詞;

  • 點(diǎn)擊搜索按鈕。

這種方式賦予了智能體極強(qiáng)的泛化能力,使其能夠適應(yīng)新任務(wù)場(chǎng)景,但也帶來了執(zhí)行低效、重復(fù)計(jì)算嚴(yán)重的問題。AppAgentX 解決這一痛點(diǎn)的核心思路,是讓智能體學(xué)會(huì)“進(jìn)化”。

下面是一個(gè) AppAgentX 執(zhí)行播放音樂的一個(gè)例子示意圖,當(dāng)找到了“一鍵”操作,就不需要每一步都耗費(fèi)大量時(shí)間思考下一步需要做什么,從而快速完成任務(wù)。

這里可以看出智能體進(jìn)化出一個(gè)高級(jí)操作“搜索”,它取代了一系列低效的低級(jí)操作。這種進(jìn)化避免了重復(fù)耗時(shí)的逐步推理,顯著提高了代理的效率。

AppAgentX 的功能示意圖

    ▲ AppAgentX 的功能示意圖

    方法介紹

    任務(wù)軌跡的分解

在執(zhí)行任務(wù)時(shí),AppAgentX 會(huì)將整個(gè)過程分解成多個(gè)重疊的三元組(即由三個(gè)部分組成的組合)。這些三元組包含了頁面內(nèi)容和用戶界面(UI)元素的功能描述。具體來說,智能體會(huì):

  • 生成功能描述:利用大語言模型(LLM),為每個(gè)頁面和界面元素生成詳細(xì)的功能描述。這些描述幫助智能體理解每個(gè)部分的作用。

  • 合并重復(fù)描述:如果某些頁面的描述是重復(fù)生成的,智能體會(huì)將這些描述合并,以減少冗余信息。

  • 記錄交互歷史:整個(gè)交互過程會(huì)被記錄成一個(gè)節(jié)點(diǎn)鏈,形成一個(gè)完整的操作歷史,便于后續(xù)調(diào)用。

  • 進(jìn)化機(jī)制與執(zhí)行過程

在任務(wù)執(zhí)行過程中,AppAgentX 還引入了一種進(jìn)化機(jī)制,使得智能體能夠更高效地執(zhí)行操作。這個(gè)機(jī)制的核心在于生成“捷徑節(jié)點(diǎn)”,允許智能體在執(zhí)行一系列操作時(shí),跳過逐步推理的過程。具體步驟如下:

  • 生成捷徑節(jié)點(diǎn):當(dāng)智能體識(shí)別到某些操作具有固定的執(zhí)行順序時(shí),它會(huì)創(chuàng)建捷徑節(jié)點(diǎn)。這些節(jié)點(diǎn)將多個(gè)底層操作整合為一個(gè)更高級(jí)的動(dòng)作。

  • 高效執(zhí)行:通過調(diào)用這些捷徑節(jié)點(diǎn),智能體可以快速執(zhí)行一系列操作,而無需逐步推理每一步。這大大提高了任務(wù)執(zhí)行的效率。

從實(shí)驗(yàn)結(jié)果來看,AppAgentX 從單步的執(zhí)行效率到總體的 API token 消耗,在多個(gè) GUI 交互任務(wù)上展現(xiàn)出了顯著的“降本增效”。

總體來說,AppAgentX 作為一項(xiàng)創(chuàng)新的移動(dòng)終端交互技術(shù),通過構(gòu)建鏈?zhǔn)街R(shí)存儲(chǔ)架構(gòu)與動(dòng)態(tài)匹配執(zhí)行機(jī)制,在保持大型語言模型代理靈活性的同時(shí)顯著提升執(zhí)行效能,實(shí)現(xiàn)了無需后端訪問的圖形界面智能操作系統(tǒng)。

該技術(shù)突破性地解決了傳統(tǒng)智能體在響應(yīng)速度與認(rèn)知能力間的平衡難題,為移動(dòng)端 AI 應(yīng)用開辟了新的技術(shù)路徑。此項(xiàng)研究不僅標(biāo)志著智能體技術(shù)在效率與智能動(dòng)態(tài)平衡方面取得重要突破,更為人機(jī)交互領(lǐng)域提供了可擴(kuò)展的技術(shù)范式。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI手機(jī),智能體,西湖大學(xué),AppAgentX

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知