首頁(yè) > 科學(xué)探索>科技前沿

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

新智元 2023/12/15 20:46:00 責(zé)編：問舟

評(píng)論：

感謝IT之家網(wǎng)友軟媒用戶1520111 的線索投遞！

Ilya 領(lǐng)銜的 OpenAI 對(duì)齊團(tuán)隊(duì)，剛剛發(fā)表了首篇論文 —— 用類似 GPT-2 監(jiān)督 GPT-4 的方法，或可幫人類搞定自己更聰明的超級(jí) AI！

就在剛剛，OpenAI 首席科學(xué)家 Ilya 領(lǐng)銜的超級(jí)對(duì)齊團(tuán)隊(duì)，發(fā)布了成立以來的首篇論文！

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

團(tuán)隊(duì)聲稱，已經(jīng)發(fā)現(xiàn)了對(duì)超人類模型進(jìn)行實(shí)證對(duì)齊的新研究方向。

未來超級(jí) AI 系統(tǒng)對(duì)齊的一個(gè)核心挑戰(zhàn) —— 人類需要監(jiān)督比自己更聰明人工智能系統(tǒng)。

OpenAI 的最新研究做了一個(gè)簡(jiǎn)單的類比：小模型可以監(jiān)督大模型嗎？

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

論文地址：https://cdn.openai.com/ papers / weak-to-strong-generalization.pdf

經(jīng)驗(yàn)證，通過 GPT-2 可以激發(fā)出 GPT-4 的大部分能力（接近 GPT-3.5 的性能），甚至可以正確地泛化到小模型失敗的難題上。

OpenAI 此舉開辟了一個(gè)新的研究方向，讓我們能夠直接解決一個(gè)核心挑戰(zhàn)，即調(diào)整未來的超級(jí) AI 模型，同時(shí)在迭代的實(shí)證中取得進(jìn)展。

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

為了便于大家理解，超級(jí)對(duì)齊共同負(fù)責(zé)人 Jan Leike，也發(fā)表了對(duì)這項(xiàng)研究的簡(jiǎn)要概括：

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

人類如何控制比自己更智能的 AI？

OpenAI 認(rèn)為，超級(jí)智能（比人類聰明得多的人工智能），很可能在未來十年內(nèi)出現(xiàn)。

然而，人類卻仍然不知道，該如何可靠地引導(dǎo)和控制超人 AI 系統(tǒng)。

這個(gè)問題，對(duì)于確保未來最先進(jìn)的 AI 系統(tǒng)安全且造福人類，是至關(guān)重要的。

解決這個(gè)問題對(duì)于確保未來最先進(jìn)的人工智能系統(tǒng)仍然安全并造福人類至關(guān)重要。

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

為此，今年 7 月 OpenAI 成立了「超級(jí)對(duì)齊團(tuán)隊(duì)」，來解決這類超級(jí)智能的對(duì)齊難題。

5 個(gè)月后，團(tuán)隊(duì)發(fā)表第一篇論文，介紹了實(shí)證對(duì)齊超人模型的新研究方向。

當(dāng)前的對(duì)齊方法，例如基于人類反饋的強(qiáng)化學(xué)習(xí) （RLHF），非常依賴于人類的監(jiān)督。

但未來的人工智能系統(tǒng)，顯然能夠做出極其復(fù)雜且極具創(chuàng)造性的行為，而這將使人類很難對(duì)其進(jìn)行可靠的監(jiān)督。

比如，超人模型寫出了數(shù)百萬行新穎的且具有潛在危險(xiǎn)的計(jì)算機(jī)代碼，即便是專業(yè)人士也難以完全理解，這時(shí)人類該怎么辦呢？

可見，相比于超人的 AI 模型，人類將成為一個(gè)「弱監(jiān)督者」。

而這正是 AGI 對(duì)齊的核心挑戰(zhàn) ——「弱小」的人類，如何信任并控制比他們更智能的 AI 系統(tǒng)？

超級(jí)對(duì)齊：用小模型監(jiān)督大模型？

為了在這個(gè)核心挑戰(zhàn)上取得進(jìn)展，OpenAI 提出了一可以實(shí)證研究的類比：能否用一個(gè)更小（能力較弱）的模型來監(jiān)督一個(gè)更大（能力更強(qiáng)）的模型？

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

超級(jí)對(duì)齊的簡(jiǎn)單類比：在傳統(tǒng)的 ML 中，人類監(jiān)督的人工智能系統(tǒng)比自己弱（左）。為了對(duì)齊超級(jí)智能，人類將需要監(jiān)督比他們更聰明的人工智能系統(tǒng)（中）。我們今天無法直接研究這個(gè)問題，但我們可以研究一個(gè)簡(jiǎn)單的類比：小模型能否監(jiān)督大模型（右圖）？

我們可能會(huì)天真地認(rèn)為，一個(gè)強(qiáng)大的模型不會(huì)比提供訓(xùn)練信號(hào)的弱監(jiān)督表現(xiàn)得更好。它可能只是學(xué)會(huì)模仿弱監(jiān)督所犯的所有錯(cuò)誤。

另一方面，強(qiáng)大的預(yù)訓(xùn)練模型具有出色的原始能力 —— 不需要從頭開始教它們新任務(wù)，只需要引出其潛在知識(shí)。

那么關(guān)鍵的問題是：強(qiáng)模型是否會(huì)根據(jù)弱監(jiān)督的潛在意圖進(jìn)行泛化，利用其全部能力來解決任務(wù)，即使是在弱監(jiān)督只能提供不完整或有缺陷的訓(xùn)練標(biāo)簽的難題上？

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

團(tuán)隊(duì)放出首個(gè)成果：用 GPT-2 監(jiān)督 GPT-4

對(duì)此，團(tuán)隊(duì)使用了 NLP 基準(zhǔn)測(cè)試的典型弱到強(qiáng)泛化 —— 用 GPT-2 級(jí)別的模型作為弱監(jiān)督，來微調(diào) GPT-4。

在很多情況下，這種方法都能顯著提高泛化能力。

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

使用一種簡(jiǎn)單的方法，就鼓勵(lì)性能更強(qiáng)的模型更加自信，包括在必要時(shí)自信地說出與弱監(jiān)督意見不同的意見。

在 NLP 任務(wù)上使用這種方法用 GPT-2 級(jí)模型監(jiān)督 GPT-4 時(shí)，生成的模型通常在 GPT-3 和 GPT-3.5 之間。

而在更弱的監(jiān)督下，就可以恢復(fù) GPT-4 的大部分功能。

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

當(dāng)然，這種方法更像是概念證明，具有很多局限性，比如，它并不適用于 ChatGPT 偏好數(shù)據(jù)。

不過，團(tuán)隊(duì)也發(fā)現(xiàn)了其他方法，比如最佳的早期停止和從小型到中型再到大型模型的引導(dǎo)。

總的來說，結(jié)果表明，（1）幼稚的人類監(jiān)督（比如 RLHF）可以在沒有進(jìn)一步工作的情況下。很好地?cái)U(kuò)展到超人模型，但（2）大幅改善弱到強(qiáng)的泛化是可行的。

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

代碼開源，社區(qū)共創(chuàng)

OpenAI 目前的經(jīng)驗(yàn)設(shè)置與對(duì)齊超級(jí)模型的終極問題之間，仍然存在重要的差異。

比如，未來的模型可能比當(dāng)前強(qiáng)模型，模仿當(dāng)前的弱模型錯(cuò)誤更容易，這可能會(huì)使未來的泛化更加困難。

盡管如此，OpenAI 團(tuán)隊(duì)相信實(shí)驗(yàn)設(shè)置，抓住了對(duì)齊未來超級(jí)模型的一些關(guān)鍵難點(diǎn)，使 OpenAI 能夠在這個(gè)問題上取得可以驗(yàn)證的進(jìn)展。

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

同時(shí)，他們還透露了未來工作方向，包括修正設(shè)置，開發(fā)更好的可擴(kuò)展方法，以及推進(jìn)對(duì)何時(shí)以及如何獲得良好的「弱到強(qiáng)」泛化的科學(xué)理解。

OpenAI 表示，他們正在開源代碼，讓機(jī)器學(xué)習(xí)社區(qū)研究人員立即輕松開始從弱到強(qiáng)的泛化實(shí)驗(yàn)。

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

千萬美元資助，解決超級(jí)對(duì)齊難題

這次，OpenAI 還與 Eric Schmidt 合作，啟動(dòng)了一個(gè)價(jià)值 1000 萬美元的資助計(jì)劃，支持確保超人類 AI 系統(tǒng)對(duì)齊并安全的技術(shù)研究：

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

- OpenAI 為學(xué)術(shù)實(shí)驗(yàn)室、非營(yíng)利組織和個(gè)人研究人員提供 10 萬至 200 萬美元的資助。

- 對(duì)于研究生，OpenAI 設(shè)立了為期一年、總額為 15 萬美元的 OpenAI Superalignment 獎(jiǎng)學(xué)金，包括 7.5 萬美元的津貼和 7.5 萬美元的計(jì)算及研究資金。

- 申請(qǐng)者無需有對(duì)齊工作經(jīng)驗(yàn)；OpenAI 會(huì)特別支持首次從事對(duì)齊研究的研究人員。

- 申請(qǐng)過程簡(jiǎn)潔高效，具體回復(fù)將會(huì)在申請(qǐng)截止后的四周內(nèi)給出。

OpenAI 尤其關(guān)注以下幾個(gè)研究方向：

- 弱到強(qiáng)的泛化：面對(duì)超人類模型，人類將是相對(duì)弱勢(shì)的監(jiān)督者。人類能否理解并控制強(qiáng)大模型是如何從弱監(jiān)督中學(xué)習(xí)和泛化的？

- 可解釋性：人類如何理解模型的內(nèi)部工作原理？人類能否利用這種理解來開發(fā)像 AI 謊言檢測(cè)器這類的工具來幫助人類？

- 可擴(kuò)展的監(jiān)督：人類如何利用 AI 系統(tǒng)幫助人類評(píng)估其他 AI 系統(tǒng)在復(fù)雜任務(wù)上的表現(xiàn)？

- 還有包括但不限于以下方向的多個(gè)研究領(lǐng)域：誠(chéng)實(shí)度、思維鏈的誠(chéng)實(shí)度、對(duì)抗魯棒性（adversarial robustness）、評(píng)估和測(cè)試平臺(tái)等等方向。

參考資料：

https://openai.com/research/weak-to-strong-generalization
https://openai.com/blog/superalignment-fast-grants

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

人類如何控制比自己更智能的 AI？

超級(jí)對(duì)齊：用小模型監(jiān)督大模型？

團(tuán)隊(duì)放出首個(gè)成果：用 GPT-2 監(jiān)督 GPT-4

代碼開源，社區(qū)共創(chuàng)

千萬美元資助，解決超級(jí)對(duì)齊難題

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

人類如何控制比自己更智能的 AI？

超級(jí)對(duì)齊：用小模型監(jiān)督大模型？

團(tuán)隊(duì)放出首個(gè)成果：用 GPT-2 監(jiān)督 GPT-4

代碼開源，社區(qū)共創(chuàng)

千萬美元資助，解決超級(jí)對(duì)齊難題

相關(guān)文章

OpenAI 探索用 GPT-2 小模型監(jiān)督 GPT-4 大模型，防止 AI 毀滅人類

超級(jí)對(duì)齊：用小模型監(jiān)督大模型？

千萬美元資助，解決超級(jí)對(duì)齊難題