Science 正刊發(fā)表對 ChatGPT 的調查報告,《生成式人工智能對生產力影響的實驗證據》。
對于一些文書任務,ChatGPT 不僅能在節(jié)省 40% 時間的同時提高 18% 的績效,還降低了不同人之間的績效差異。

MIT 官方也對這一研究成果進行了報道。

對照組也會偷用
這場實驗一共邀請了 453 名受試者,分為實驗組和對照組。
這些受試者是來自不同領域、受過高等教育的專業(yè)人士。兩個組中人員的薪資水平、職業(yè)等信息如下表所示:

在為期一個月的實驗中,他們被要求完成與職業(yè)相關的寫作任務。
這些任務包括撰寫新聞稿、簡短報告、分析計劃和電子郵件,時長約為 20 到 30 分鐘。評估的指標包括效率和質量兩部分,每份成果分別交由三名相關領域的專業(yè)人士進行盲評(1-7 分)。
結果顯示,實驗組所用時間減少了 0.75 個標準差(約 11 分鐘),評分則提高了 0.41 個標準差。
如果換算成百分數,時間縮短和質量提高的比例分別是 40% 和 18%。

具體而言,實驗組首先被安排完成一項任務,之后注冊 ChatGPT(3.5 版本)。他們被告知,如果覺得 ChatGPT 好用,那么就要在第二個任務中使用。
而對照組則被要求注冊一款 LaTex 編輯器(注冊復雜度與 ChatGPT 相當),但沒有類似的告知。
結果,有 80% 的實驗組人員在第二個任務中使用了 ChatGPT,而對照組中只有不到 5% 使用了 LaTex 工具。
對于第二個任務,實驗組平均耗時為 17 分鐘,比對照組少了 10 分鐘。質量方面,實驗組的平均成績?yōu)?4.53,對照組的平均成績則為 3.802。

除了提質增效,ChatGPT 還降低了不同人之間工作質量的差異。
根據第一個任務完成情況的不同,研究人員將這些人第二次任務的評分進行了線性擬合。結果顯示,實驗組評分的擬合斜率為 0.414,比對照組低了 0.272。

那么這些人又是如何使用 ChatGPT 的呢?是直接使用輸出結果或僅做微調,還是只用來打草稿?
跟蹤結果顯示,有 33% 的受試者提交的是原汁原味的 ChatGPT 結果,而 53% 進行了修改。但這些修改可能十分微小,比如只是調整一下格式等等。
得出這一結論的理由是,他們在 ChatGPT 生成回復后的平均活動之間只有 3.3 分鐘,且大部分位于 0-2 分鐘之間。

需要說明的是,在實驗開始之前,70% 的受試人員已經聽說過 ChatGPT,32% 曾經使用過。所以,在實驗過程中,研究人員發(fā)現(xiàn),對照組中也有 10~20% 的人使用了 ChatGPT。
這一現(xiàn)象對實驗結果存在一定影響,研究人員利用了統(tǒng)計學方法進行修正。
實驗結束后,研究人員還對這些受試者進行了兩次回訪,分別有 92% 和 83% 的人給出了回復。

第一次回訪是在實驗結束后兩周,實驗組和對照組分別有 34% 和 18% 的人仍在使用 ChatGPT。六周之后,也就是實驗結束后兩個月,這組數字分別提升到了 42% 和 27%。
綜上所述,研究人員認為,ChatGPT 在提升工作質效方面確實有顯著作用,但其能否取代人類仍不明確。
作者簡介
該研究由 MIT 華裔經濟學博士生 Whitney Zhang 和同學 Shakked Noy 共同完成。
Zhang 從 2017 年開始一直在 MIT 就讀,目前的研究領域包括行為經濟學等經濟學分支領域。Zhang 還是波士頓華人社區(qū)大學初入者幫扶項目導師。
Noy 則來自新西蘭,2022 年進入 MIT 攻讀經濟學博士。
論文地址:
https://www.science.org/doi/10.1126/science.adh2586
參考鏈接:
[1]https://news.mit.edu/2023/study-finds-chatgpt-boosts-worker-productivity-writing-0714
[2]https://economics.mit.edu/people/phd-students/whitney-zhang
[3]https://economics.mit.edu/people/phd-students/shakked-noy
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。