首頁 > 智能時代>人工智能

港科大教授實測 AI 眼鏡考試“作弊”：30 分鐘交卷，碾壓 95% 的學生

量子位 2026/1/6 16:32:31 責編：汪淼

評論：

離了大譜了，AI 真?走進了大學期末考場，并且還是以作弊者的身份。（你就說震不震驚吧）

沒開玩笑，事情就發(fā)生在香港科技大學《計算機網(wǎng)絡原理》的本科期末考試“現(xiàn)場”。

一副搭載 ChatGPT-5.2 模型的 AI 眼鏡，被直接戴上鼻梁，在復刻真實考試條件的情況下，完成了整套期末試卷：

港科大教授實測 AI 眼鏡考試“作弊”：30 分鐘交卷，碾壓 95% 的學生

結(jié)果甚是魔幻：30 分鐘交卷，狂攬 92.5 分，并在一百多人的排名里躋身進了前五，輕松碾壓超 95% 的人類考生：

港科大教授實測 AI 眼鏡考試“作弊”：30 分鐘交卷，碾壓 95% 的學生

果然，一代人有一代人的學習工具，以前是小抄復習資料，這回直接升級成 ——「整機」。

只不過，當這套整機已經(jīng)能完整跑完一整套考試流程時，大家關(guān)注的重點，可能不再只是 AI 會不會答卷了。

這一次，AI“作弊者”只是像人類學生那樣完整答了一遍題，卻讓傳統(tǒng)的教學評估體系看起來似乎有點站不住腳。

一副 AI 眼鏡，跑完了一整場大學期末考試

這場看似離譜的「人機同場考試」，可不是學生的臨時整活，而是由香港科技大學張軍教授、孟子立教授團隊主導的一場實驗。

目標很明確，那就是讓一副搭載大模型的 AI 眼鏡，光明正大地在考場“作弊”，然后看它能考多高分～

其選中的測試場景也是非常的簡單粗暴，直接瞄準了令無數(shù)大學生《聞風喪膽》的專業(yè)課 —— 計算機網(wǎng)絡原理。（瑟瑟發(fā)抖…

港科大教授實測 AI 眼鏡考試“作弊”：30 分鐘交卷，碾壓 95% 的學生

這門課程不僅考查海量的專業(yè)概念，更涉及嚴密的邏輯推導與算法應用，對人類學生來說是不小的挑戰(zhàn)，對 AI 而言更是難度拉滿。

對此，為了讓這位 AI 考生發(fā)揮出最強實力，項目組在「軟硬件」篩選上可謂是做足了功課！

在硬件篩選環(huán)節(jié)，項目團隊對市面上 12 款主流商業(yè)智能眼鏡進行了系統(tǒng)評估，其中也包括大家熟悉的 Meta、小米、樂奇 Rokid 等廠商的產(chǎn)品：

港科大教授實測 AI 眼鏡考試“作弊”：30 分鐘交卷，碾壓 95% 的學生

第一輪篩選后，團隊發(fā)現(xiàn)真正同時具備內(nèi)置攝像頭和集成顯示屏的產(chǎn)品其實并不多，進入候選范圍的主要只有 Meta Ray-Ban、Frame，以及樂奇 Rokid。

但實驗還需要進行二次開發(fā)，盡管 Meta 提供了設備訪問工具包，但并未開放對顯示內(nèi)容的直接控制接口，難以滿足實驗對信息呈現(xiàn)方式的要求。

相比之下，樂奇 Rokid 的 SDK 更豐富、生態(tài)更完善，開發(fā)自由度顯著更高。

再綜合考慮 Frame 在試卷識別等場景下的相機畫質(zhì)限制，研究團隊最終選擇了樂奇 AI 眼鏡作為這次人機同場考試的硬件測試選手：

港科大教授實測 AI 眼鏡考試“作弊”：30 分鐘交卷，碾壓 95% 的學生

而在決定大腦上限的大模型篩選上，團隊則對比了多款主流模型，最終鎖定了 OpenAI 目前最新的模型 —— 無論是響應速度還是通用知識能力都較強的 ChatGPT—5.2。

港科大教授實測 AI 眼鏡考試“作弊”：30 分鐘交卷，碾壓 95% 的學生

軟硬件「考生」均已就位，接下來就是重頭戲 —— 大考。

考試過程，可以用絲滑二字來形容：學生低頭查看試卷，AI 眼鏡通過攝像頭快速拍攝題目，并經(jīng)由“眼鏡 — 手機 — 云端”鏈路將圖像傳輸至遠程大模型完成推理，生成的答案再沿相反路徑返回，最終顯示在眼鏡屏幕上，供學生抄錄。

港科大教授實測 AI 眼鏡考試“作弊”：30 分鐘交卷，碾壓 95% 的學生

結(jié)果您猜怎么著？這款基于 Rokid Glasses 開發(fā)、搭載 GPT-5.2 模型的 AI 眼鏡，在本次期末考試中拿下 92.5 分，成績超過了 95% 的學生。

不僅如此，在多項選擇題和單頁短答題中，樂奇 Rokid 均獲得滿分，即便是難度更高的跨頁短答題（SAQ），也拿到了大部分分數(shù)：

港科大教授實測 AI 眼鏡考試“作弊”：30 分鐘交卷，碾壓 95% 的學生

此外，在面對那些核心問題被拆分在不同頁碼、高度依賴上下文邏輯的跨頁短答題，樂奇 Rokid 依然展現(xiàn)出了極強的推理連貫性。

即便在計算最復雜的部分偶爾出現(xiàn)偏差，但 AI 給出的中間步驟也算得上非常完整，在處理高壓知識任務時也是手拿把掐～

港科大教授實測 AI 眼鏡考試“作弊”：30 分鐘交卷，碾壓 95% 的學生

當然，這場測試在跑通軟件邏輯的同時，也無情地照出了目前商業(yè) AI 眼鏡存在的《短板》。

首先暴露出來的，是功耗問題。

在考試這樣的高壓連續(xù)場景下，連接本身就已經(jīng)成為主要耗電源，實驗中只要開啟 Wi-Fi、持續(xù)進行高分辨率圖像傳輸，30 分鐘內(nèi)眼鏡電量就會從 100% 迅速跌到 58%。

換句話說，如果 AI 眼鏡要真正走向全天候、長時間使用，功耗控制和連接穩(wěn)定性依然是繞不開的工程瓶頸…

不僅如此，項目團隊還發(fā)現(xiàn)眼鏡攝像頭的「清晰度」會直接決定 AI 的視力，一旦題目出現(xiàn)模糊、反光或拍攝角度偏差，再強的模型也只能在不完整信息上做推理，最終體現(xiàn)在答題表現(xiàn)上的，就是明顯下滑的穩(wěn)定性。

但… 這場測試帶來的沖擊和反思，并不只停留在技術(shù)層面。

在不做任何特殊照顧的前提下，AI 眼鏡依然能夠把一整套讀題 — 理解 — 作答的流程跑得又快又穩(wěn)，這反過來照出了一個更值得注意的問題 ——

當教學評估主要關(guān)注的只是最后有沒有交出一份「標準答案」時，它恰好落在了 AI 最擅長、也最穩(wěn)定的能力區(qū)間里。

也正因為如此，那套以知識點掌握程度和標準解題路徑為核心的教學評估方式，在一個早已被各種“學習機”包圍的時代，開始顯得有些吃力了。

有了聰明的 AI，傳統(tǒng)教學評估標準還站得住腳嗎

不知道大家有沒有發(fā)現(xiàn)一件挺有意思的事情：

從小學一路考到大學，我們最熟悉的考試，其實一直在反復確認同一件事，那就是有沒有把老師講的內(nèi)容記住，以及能不能按標準方法，把題一步步算對。

u1s1，在很長一段時間里，這套評估方式確實挺管用。

因為在記憶、計算、按步驟推導這些能力上，人和人之間確實存在明顯差距，有人記得牢、算得快，有人就是會漏步驟、算錯數(shù)。

成績單上的數(shù)字，也確實能覆蓋一個人相當大比例的學習表現(xiàn)。

但問題在于，當 AI 開始在這些評估維度上，也變得又快、又穩(wěn)、而且?guī)缀醪怀鲥e時，事情就開始變得微妙了…

港科大教授實測 AI 眼鏡考試“作弊”：30 分鐘交卷，碾壓 95% 的學生

此前，一位創(chuàng)業(yè)者小孩哥 Eddy Xu 通過改裝 Meta 智能眼鏡，做出了一套可以在國際象棋比賽中實時顯示最優(yōu)解法的“作弊”設備，在幾乎不需要自己思考的情況下，就能穩(wěn)定贏下對局：

港科大教授實測 AI 眼鏡考試“作弊”：30 分鐘交卷，碾壓 95% 的學生

在這個過程中，AI 眼鏡不會緊張，也不會疲勞，更不存在臨場波動，一個字形容 —— 穩(wěn)。

這和樂奇 Rokid 眼鏡參加期末考試的表現(xiàn)其實是同一套邏輯：只要題目規(guī)則清晰、評價目標單一，AI 就能把讀題 — 理解 — 推理 — 作答這套流程穩(wěn)定跑完。

哪怕脫離紙筆形態(tài)，它依然能在高度結(jié)構(gòu)化的考試里，持續(xù)拿到高分。

類似的案例并不只發(fā)生在個人層面。

此前，英國雷丁大學的一項研究還發(fā)現(xiàn)，當研究人員將 AI 生成的答卷混入考試題庫后，有高達 94% 的試卷成功“渾水摸魚”，而這些 AI 的平均成績，甚至還明顯高于真實學生…（天塌啦

這下是真有點尷尬了 —— 比人比不過，比 AI 也比不過：

港科大教授實測 AI 眼鏡考試“作弊”：30 分鐘交卷，碾壓 95% 的學生

讓人大跌眼鏡大開眼界的同時，一個原本不那么尖銳的問題被直接推到臺前 ——

當 AI 或機器比人更擅長按標準作答時，那套以筆試為核心、用來衡量知識點掌握程度的評估體系，到底在測什么？

回過頭看教學培養(yǎng)的最初目的，我們會發(fā)現(xiàn)很多被反復強調(diào)的重要能力，其實并不天然適配“一張試卷”這種形式。

—— 比如提出好問題的能力。

—— 在信息不完整時做判斷的能力。

—— 在多種方案之間權(quán)衡取舍的能力。

—— 以及理解現(xiàn)實情境、理解他人立場的能力。

……

這些能力真正指向的是學習過程、思考路徑和決策質(zhì)量，答案是否標準只是其中很小的一部分。

也是長期以來最難被傳統(tǒng)筆試捕捉，最容易被系統(tǒng)性忽略，恰好也是 AI 最難替代、也最能區(qū)分學生真實素養(yǎng)的地方。

從結(jié)果導向，轉(zhuǎn)向?qū)ν评砺窂?、探究過程、跨學科整合與創(chuàng)造性解題能力的整體評估，這也許才是 AI 眼鏡進入考場后，對現(xiàn)有教學評估體系提出的那道真正難題。

評估重心從「交答案」到「交思路」

教育心理學家加德納曾在《Frames of Mind》中提到，人類至少擁有 8 種不同類型的智能 ——

包括語言、邏輯數(shù)學、空間、音樂、人際、內(nèi)省、身體運動、自然觀察。

從這個視角看，人類能力本身就是一個高度多維的結(jié)構(gòu)，而我們所熟悉的教學評估體系，長期以來卻只集中捕捉了其中非常狹窄的一段。

港科大教授實測 AI 眼鏡考試“作弊”：30 分鐘交卷，碾壓 95% 的學生

這也不難解釋，為啥一些在標準化測試中表現(xiàn)并不突出的學生，反而能在真實世界中展現(xiàn)出更強的創(chuàng)造力、協(xié)作能力和復雜問題解決能力。

畢竟單一考試成績更多反映的只是學生在「標準化環(huán)境」中的發(fā)揮穩(wěn)定性，像真實情境下的個人綜合素質(zhì)其實顯露不太出來……

也正因如此，如何評估創(chuàng)新能力、批判性思維和復雜問題解決能力，正在成為教育評估體系繞不開的一個現(xiàn)實難題。

目前一些指向不同方向的評估嘗試，已經(jīng)出現(xiàn)～

前不久，紐約大學 Stern 商學院教授 Panos Ipeirotis 推出了一套由 AI 支撐的口試評估方式，學生不僅要提交作業(yè)，還需要當場解釋自己的決策依據(jù)和思路走向，在對話中把理解與推理展開來。

這套機制中，AI 先充當考官進行追問，再參與到后續(xù)評估環(huán)節(jié)。

Claude、Gemini 和 ChatGPT 會分別對口試轉(zhuǎn)錄進行獨立評分，隨后交叉審查并修訂結(jié)果，用來判斷學生是否真正理解問題，同時暴露教學中的共性盲區(qū)：

港科大教授實測 AI 眼鏡考試“作弊”：30 分鐘交卷，碾壓 95% 的學生

怎么說呢，感覺這種做法談不上專門“對付”AI，但確實把教學評估重心往理解本身挪了一步。

類似的變化并非個例，此前《華盛頓郵報》也提到，目前國外部分高校已經(jīng)開始引入口試、展示型作業(yè)等形式，本質(zhì)上也是為了讓學生的思考過程變得顯現(xiàn)。

所以回過頭看，當搭載 GPT-5.2 的樂奇 AI 眼鏡走進考場并交出高分時，AI 是否「考贏」了學生似乎也沒有那么重要了。

它更像一次特別但清晰的顯影實驗，讓一個長期存在卻很少被正視的問題浮出水面：

傳統(tǒng)教學評估高度依賴最終答案，卻幾乎無法刻畫整個學習過程。

分數(shù)當然是有意義的，但它所能解釋的范圍正在變窄，理解是否真正發(fā)生、思路是否連貫、判斷是否經(jīng)過取舍，這些關(guān)鍵環(huán)節(jié)，仍然被壓縮成一個單一結(jié)果，難以被區(qū)分和看見。

也正是在這一點上，單純地把技術(shù)擋在門外，其實已經(jīng)很難回應問題本身了。（也不見得阻擋得了…

更現(xiàn)實的挑戰(zhàn)，變成了如何讓學生把 AI 用在信息整理、方案推演和假設驗證上，把人的精力集中到判斷、理解和選擇這些無法被「外包」的環(huán)節(jié)。

當工具可以穩(wěn)定完成信息提取與標準作答，課堂與考試是否還能區(qū)分不同層次的思考，正被推到臺前。

本文來自微信公眾號：量子位（ID：QbitAI），作者：夢瑤，原標題《港科大教授實測 AI 眼鏡“作弊”：30 分鐘碾壓 95% 的學生，把傳統(tǒng)教學評估體系整破防了》

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

港科大教授實測 AI 眼鏡考試“作弊”：30 分鐘交卷，碾壓 95% 的學生

一副 AI 眼鏡，跑完了一整場大學期末考試

有了聰明的 AI，傳統(tǒng)教學評估標準還站得住腳嗎

評估重心從「交答案」到「交思路」

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

港科大教授實測 AI 眼鏡考試“作弊”：30 分鐘交卷，碾壓 95% 的學生

一副 AI 眼鏡，跑完了一整場大學期末考試

有了聰明的 AI，傳統(tǒng)教學評估標準還站得住腳嗎

評估重心從「交答案」到「交思路」

相關(guān)文章

一副 AI 眼鏡，跑完了一整場大學期末考試