模仿并超越，KL 正則化搜索讓 AI 下圍棋更像人類，Meta&CMU 出品

量子位 2021/12/17 15:21:02 責編：瀟公子

評論：

如果非要問 AlphaGo 有什么缺點，那就是下棋不像人類。和 AlphaGo 對弈過的頂級棋手都有這種感受，他們覺得 AI 落子經常讓人捉摸不透。

KL正則化搜索讓AI下圍棋更像人類

這不僅是 AlphaGo 的問題，許多 AI 系統(tǒng)無法解釋，且難以學習。如果想讓 AI 與人類協作，就不得不解決這個問題?，F在，來自 Meta AI 等機構的研究者們打造出一個能戰(zhàn)勝人類頂級棋手、且更容易復盤棋譜的 AI。

人類棋譜訓練 AI 模仿

他們用人類棋譜訓練 AI 模仿，并讓后者超越了人類。

KL正則化搜索讓AI下圍棋更像人類

上圖分別展示了該方法在國際象棋（左）、圍棋（右）的表現。

縱軸為 AI 與原始模型對弈的勝率，橫軸為 AI 預測人類落子位置的 Top-1 準確度。可以看出新的算法（綠色）在兩方面都已經超過了 SOTA 結果（藍色）。

像人類，還能打敗人類

正所謂“魚與熊掌難以兼得”。AlphaGo 使用的自我博弈與蒙特卡洛樹搜索（MCTS），雖然練就了無比強大的 AI，但它的下棋更像憑直覺，而非策略。如果要讓 AI 更像人類，更應當使用模仿學習（Imitative learning），但是這卻很難讓 AI 達到人類頂級棋手水準。

Meta AI 和 CMU 的研究者發(fā)現，加入了 KL 正則化搜索后，一切都不一樣了。AI 的落子策略變得與人類棋手更加相似，這就是他們提出的新方法。

在國際象棋、圍棋和無合作的博弈游戲中，這種方法在預測人類的準確性上達到了 SOTA 水平，同時也大大強于模仿學習策略。作者選擇了遺憾最小化算法（regret minimization algorithms）作為模仿學習的算法，但是非正則化遺憾最小化算法在預測人類專家行為方面的準確性較低。

因此作者引入了新的方法，引入了與搜索策略和人類模仿學習的錨策略之間的 KL 散度成正比的成本項。此算法被稱為策略正則化對沖，簡稱 piKL-hedge。

piKL-hedge 的執(zhí)行步驟如下：

KL正則化搜索讓AI下圍棋更像人類

在下圖中，piKL-Hedge（綠色）可以生成預測人類博弈的策略，其準確度與模仿學習（藍色）相同，同時性能強 1.4 倍。另一方面，在實現更高預測準確性的同時，piKL-Hedge 優(yōu)于非正則化搜索（黃色）的策略。

KL正則化搜索讓AI下圍棋更像人類

本文共有三位共同一作，分別是來自 Meta AI 的 Athul Paul Jacob、David Wu，以及 CMU 的 Gabriele Farina。

作者團隊簡介

Athul Paul Jacob 同時也是 MIT CSAIL 的二年級博士生，從 2016 年到 2018 年，他還在 Mila 擔任訪問學生研究員，在 Yoshua Bengio 手下工作，與 Bengio 共同發(fā)表了多篇論文。

David Wu 是 Meta AI 的國際象棋和圍棋首席研究員。

Gabriele Farina 是 CMU 一名六年級博士生，曾是 2019-2020 年 Facebook 經濟學和計算獎學金的獲得者，他的研究方向是人工智能、計算機科學、運籌學和經濟學。

另外，Gabriele Farina 還參與過著名的 CMU 德州撲克 AI 程序 Libratus 的開發(fā)。

作者團隊簡介

論文地址：

https://arxiv.org/abs/2112.07544

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。