在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

港科大教授實測 AI 眼鏡考試“作弊”:30 分鐘交卷,碾壓 95% 的學生

量子位 2026/1/6 16:32:31 責編:汪淼

離了大譜了,AI 真?走進了大學期末考場,并且還是以作弊者的身份。(你就說震不震驚吧)

沒開玩笑,事情就發(fā)生在香港科技大學《計算機網(wǎng)絡原理》的本科期末考試“現(xiàn)場”。

一副搭載 ChatGPT-5.2 模型的 AI 眼鏡,被直接戴上鼻梁,在復刻真實考試條件的情況下,完成了整套期末試卷:

結(jié)果甚是魔幻:30 分鐘交卷,狂攬 92.5 分,并在一百多人的排名里躋身進了前五,輕松碾壓超 95% 的人類考生:

果然,一代人有一代人的學習工具,以前是小抄復習資料,這回直接升級成 ——「整機」。

只不過,當這套整機已經(jīng)能完整跑完一整套考試流程時,大家關(guān)注的重點,可能不再只是 AI 會不會答卷了。

這一次,AI“作弊者”只是像人類學生那樣完整答了一遍題,卻讓傳統(tǒng)的教學評估體系看起來似乎有點站不住腳。

一副 AI 眼鏡,跑完了一整場大學期末考試

這場看似離譜的「人機同場考試」,可不是學生的臨時整活,而是由香港科技大學張軍教授、孟子立教授團隊主導的一場實驗。

目標很明確,那就是讓一副搭載大模型的 AI 眼鏡,光明正大地在考場“作弊”,然后看它能考多高分~

其選中的測試場景也是非常的簡單粗暴,直接瞄準了令無數(shù)大學生《聞風喪膽》的專業(yè)課 —— 計算機網(wǎng)絡原理。(瑟瑟發(fā)抖…

這門課程不僅考查海量的專業(yè)概念,更涉及嚴密的邏輯推導與算法應用,對人類學生來說是不小的挑戰(zhàn),對 AI 而言更是難度拉滿。

對此,為了讓這位 AI 考生發(fā)揮出最強實力,項目組在「軟硬件」篩選上可謂是做足了功課!

在硬件篩選環(huán)節(jié),項目團隊對市面上 12 款主流商業(yè)智能眼鏡進行了系統(tǒng)評估,其中也包括大家熟悉的 Meta、小米、樂奇 Rokid 等廠商的產(chǎn)品:

第一輪篩選后,團隊發(fā)現(xiàn)真正同時具備內(nèi)置攝像頭和集成顯示屏的產(chǎn)品其實并不多,進入候選范圍的主要只有 Meta Ray-Ban、Frame,以及樂奇 Rokid。

但實驗還需要進行二次開發(fā),盡管 Meta 提供了設備訪問工具包,但并未開放對顯示內(nèi)容的直接控制接口,難以滿足實驗對信息呈現(xiàn)方式的要求。

相比之下,樂奇 Rokid 的 SDK 更豐富、生態(tài)更完善,開發(fā)自由度顯著更高。

再綜合考慮 Frame 在試卷識別等場景下的相機畫質(zhì)限制,研究團隊最終選擇了樂奇 AI 眼鏡作為這次人機同場考試的硬件測試選手:

而在決定大腦上限的大模型篩選上,團隊則對比了多款主流模型,最終鎖定了 OpenAI 目前最新的模型 —— 無論是響應速度還是通用知識能力都較強的 ChatGPT—5.2

軟硬件「考生」均已就位,接下來就是重頭戲 —— 大考。

考試過程,可以用絲滑二字來形容:學生低頭查看試卷,AI 眼鏡通過攝像頭快速拍攝題目,并經(jīng)由“眼鏡 — 手機 — 云端”鏈路將圖像傳輸至遠程大模型完成推理,生成的答案再沿相反路徑返回,最終顯示在眼鏡屏幕上,供學生抄錄。

結(jié)果您猜怎么著?這款基于 Rokid Glasses 開發(fā)、搭載 GPT-5.2 模型的 AI 眼鏡,在本次期末考試中拿下 92.5 分,成績超過了 95% 的學生。

不僅如此,在多項選擇題和單頁短答題中,樂奇 Rokid 均獲得滿分,即便是難度更高的跨頁短答題(SAQ),也拿到了大部分分數(shù):

此外,在面對那些核心問題被拆分在不同頁碼、高度依賴上下文邏輯的跨頁短答題,樂奇 Rokid 依然展現(xiàn)出了極強的推理連貫性。

即便在計算最復雜的部分偶爾出現(xiàn)偏差,但 AI 給出的中間步驟也算得上非常完整,在處理高壓知識任務時也是手拿把掐~

當然,這場測試在跑通軟件邏輯的同時,也無情地照出了目前商業(yè) AI 眼鏡存在的《短板》。

首先暴露出來的,是功耗問題。

在考試這樣的高壓連續(xù)場景下,連接本身就已經(jīng)成為主要耗電源,實驗中只要開啟 Wi-Fi、持續(xù)進行高分辨率圖像傳輸,30 分鐘內(nèi)眼鏡電量就會從 100% 迅速跌到 58%。

換句話說,如果 AI 眼鏡要真正走向全天候、長時間使用,功耗控制和連接穩(wěn)定性依然是繞不開的工程瓶頸…

不僅如此,項目團隊還發(fā)現(xiàn)眼鏡攝像頭的「清晰度」會直接決定 AI 的視力,一旦題目出現(xiàn)模糊、反光或拍攝角度偏差,再強的模型也只能在不完整信息上做推理,最終體現(xiàn)在答題表現(xiàn)上的,就是明顯下滑的穩(wěn)定性。

但… 這場測試帶來的沖擊和反思,并不只停留在技術(shù)層面。

在不做任何特殊照顧的前提下,AI 眼鏡依然能夠把一整套讀題 — 理解 — 作答的流程跑得又快又穩(wěn),這反過來照出了一個更值得注意的問題 ——

教學評估主要關(guān)注的只是最后有沒有交出一份「標準答案」時,它恰好落在了 AI 最擅長、也最穩(wěn)定的能力區(qū)間里。

也正因為如此,那套以知識點掌握程度和標準解題路徑為核心的教學評估方式,在一個早已被各種“學習機”包圍的時代,開始顯得有些吃力了。

有了聰明的 AI,傳統(tǒng)教學評估標準還站得住腳嗎

不知道大家有沒有發(fā)現(xiàn)一件挺有意思的事情:

從小學一路考到大學,我們最熟悉的考試,其實一直在反復確認同一件事,那就是有沒有把老師講的內(nèi)容記住,以及能不能按標準方法,把題一步步算對。

u1s1,在很長一段時間里,這套評估方式確實挺管用。

因為在記憶、計算、按步驟推導這些能力上,人和人之間確實存在明顯差距,有人記得牢、算得快,有人就是會漏步驟、算錯數(shù)。

成績單上的數(shù)字,也確實能覆蓋一個人相當大比例的學習表現(xiàn)。

但問題在于,當 AI 開始在這些評估維度上,也變得又快、又穩(wěn)、而且?guī)缀醪怀鲥e時,事情就開始變得微妙了…

此前,一位創(chuàng)業(yè)者小孩哥 Eddy Xu 通過改裝 Meta 智能眼鏡,做出了一套可以在國際象棋比賽中實時顯示最優(yōu)解法的“作弊”設備,在幾乎不需要自己思考的情況下,就能穩(wěn)定贏下對局:

在這個過程中,AI 眼鏡不會緊張,也不會疲勞,更不存在臨場波動,一個字形容 —— 穩(wěn)。

這和樂奇 Rokid 眼鏡參加期末考試的表現(xiàn)其實是同一套邏輯:只要題目規(guī)則清晰、評價目標單一,AI 就能把讀題 — 理解 — 推理 — 作答這套流程穩(wěn)定跑完。

哪怕脫離紙筆形態(tài),它依然能在高度結(jié)構(gòu)化的考試里,持續(xù)拿到高分。

類似的案例并不只發(fā)生在個人層面。

此前,英國雷丁大學的一項研究還發(fā)現(xiàn),當研究人員將 AI 生成的答卷混入考試題庫后,有高達 94% 的試卷成功“渾水摸魚”,而這些 AI 的平均成績,甚至還明顯高于真實學生…(天塌啦

這下是真有點尷尬了 —— 比人比不過,比 AI 也比不過:

讓人大跌眼鏡大開眼界的同時,一個原本不那么尖銳的問題被直接推到臺前 ——

當 AI 或機器比人更擅長按標準作答時,那套以筆試為核心、用來衡量知識點掌握程度的評估體系,到底在測什么?

回過頭看教學培養(yǎng)的最初目的,我們會發(fā)現(xiàn)很多被反復強調(diào)的重要能力,其實并不天然適配“一張試卷”這種形式。

—— 比如提出好問題的能力。

—— 在信息不完整時做判斷的能力。

—— 在多種方案之間權(quán)衡取舍的能力。

—— 以及理解現(xiàn)實情境、理解他人立場的能力。

……

這些能力真正指向的是學習過程思考路徑決策質(zhì)量,答案是否標準只是其中很小的一部分。

也是長期以來最難被傳統(tǒng)筆試捕捉,最容易被系統(tǒng)性忽略,恰好也是 AI 最難替代、也最能區(qū)分學生真實素養(yǎng)的地方。

從結(jié)果導向,轉(zhuǎn)向?qū)ν评砺窂?、探究過程、跨學科整合與創(chuàng)造性解題能力的整體評估,這也許才是 AI 眼鏡進入考場后,對現(xiàn)有教學評估體系提出的那道真正難題。

評估重心從「交答案」到「交思路」

教育心理學家加德納曾在《Frames of Mind》中提到,人類至少擁有 8 種不同類型的智能 ——

包括語言、邏輯數(shù)學、空間、音樂、人際、內(nèi)省、身體運動、自然觀察。

從這個視角看,人類能力本身就是一個高度多維的結(jié)構(gòu),而我們所熟悉的教學評估體系,長期以來卻只集中捕捉了其中非常狹窄的一段。

這也不難解釋,為啥一些在標準化測試中表現(xiàn)并不突出的學生,反而能在真實世界中展現(xiàn)出更強的創(chuàng)造力、協(xié)作能力和復雜問題解決能力。

畢竟單一考試成績更多反映的只是學生在「標準化環(huán)境」中的發(fā)揮穩(wěn)定性,像真實情境下的個人綜合素質(zhì)其實顯露不太出來……

也正因如此,如何評估創(chuàng)新能力、批判性思維和復雜問題解決能力,正在成為教育評估體系繞不開的一個現(xiàn)實難題。

目前一些指向不同方向的評估嘗試,已經(jīng)出現(xiàn)~

前不久,紐約大學 Stern 商學院教授 Panos Ipeirotis 推出了一套由 AI 支撐的口試評估方式,學生不僅要提交作業(yè),還需要當場解釋自己的決策依據(jù)和思路走向,在對話中把理解與推理展開來。

這套機制中,AI 先充當考官進行追問,再參與到后續(xù)評估環(huán)節(jié)。

Claude、Gemini 和 ChatGPT 會分別對口試轉(zhuǎn)錄進行獨立評分,隨后交叉審查并修訂結(jié)果,用來判斷學生是否真正理解問題,同時暴露教學中的共性盲區(qū):

怎么說呢,感覺這種做法談不上專門“對付”AI,但確實把教學評估重心往理解本身挪了一步。

類似的變化并非個例,此前《華盛頓郵報》也提到,目前國外部分高校已經(jīng)開始引入口試、展示型作業(yè)等形式,本質(zhì)上也是為了讓學生的思考過程變得顯現(xiàn)。

所以回過頭看,當搭載 GPT-5.2 的樂奇 AI 眼鏡走進考場并交出高分時,AI 是否「考贏」了學生似乎也沒有那么重要了。

它更像一次特別但清晰的顯影實驗,讓一個長期存在卻很少被正視的問題浮出水面:

傳統(tǒng)教學評估高度依賴最終答案,卻幾乎無法刻畫整個學習過程。

分數(shù)當然是有意義的,但它所能解釋的范圍正在變窄,理解是否真正發(fā)生、思路是否連貫、判斷是否經(jīng)過取舍,這些關(guān)鍵環(huán)節(jié),仍然被壓縮成一個單一結(jié)果,難以被區(qū)分和看見。

也正是在這一點上,單純地把技術(shù)擋在門外,其實已經(jīng)很難回應問題本身了。(也不見得阻擋得了…

更現(xiàn)實的挑戰(zhàn),變成了如何讓學生把 AI 用在信息整理、方案推演和假設驗證上,把人的精力集中到判斷、理解和選擇這些無法被「外包」的環(huán)節(jié)。

當工具可以穩(wěn)定完成信息提取與標準作答,課堂與考試是否還能區(qū)分不同層次的思考,正被推到臺前。

本文來自微信公眾號:量子位(ID:QbitAI),作者:夢瑤,原標題《港科大教授實測 AI 眼鏡“作弊”:30 分鐘碾壓 95% 的學生,把傳統(tǒng)教學評估體系整破防了》

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:港科大AI 眼鏡,考試

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知