人工智能再次戰勝人類玩家

發布時間：2022-12-07 10:46 原文鏈接：人工智能再次戰勝人類玩家

下棋、玩游戲，在與人類的博弈中，人工智能（AI）正在不斷成長。近日，英國DeepMind公司的AI智能體DeepNash，就在西洋陸軍棋（Stratego）中達到了專業級人類玩家的水平。該成果12月1日發表于《科學》。

事實上，在DeepNash攻克Stratego前，就有報道稱AI能夠玩“強權外交”這款類似的經典桌游。這是一款具有外交深度的游戲，玩家間存在合作與競爭關系，必要時須通過談判結交盟友。

“近年來，AI掌握本質不同的游戲的速度相當驚人。”美國密歇根大學計算機科學家Michael Wellman表示，Stratego和“強權外交”這兩款游戲大不相同，但它們都極具挑戰性，與此前AI已經掌握的游戲也截然不同。

Stratego是一款需在信息缺失情況下進行戰略思考的棋盤游戲，類似于中國的軍棋。它要比此前AI掌握的國際象棋、圍棋或撲克復雜得多。

在游戲中，雙方各有40枚棋子，且彼此看不到棋子的真實“身份”。雙方輪流移動棋子，來消滅對手的棋子，最終奪得對方軍旗或消滅所有能動的棋子的一方獲勝。因此，玩家需要進行戰略部署、收集信息，并與對方博弈。

一局Stratego游戲中會有10535種可能的布局。相比之下，圍棋的布局有10360種可能。此外，在Stratego中，AI需要推理對手超過1066種部署策略，這使德州撲克中初始的106種可能情況相形見絀。

“Stratego中可能出現的結果數量之多及其復雜性，意味著在信息完全的游戲中表現出色的算法，甚至在撲克游戲中表現良好的算法，在這款游戲中都不起作用。”DeepMind研究員Julien Perolat說。

所以Perolat和同事開發了DeepNash，該命名致敬了提出納什均衡的美國數學家約翰·納什。

納什均衡是博弈論中一種解的概念，指滿足以下條件的策略組合：任何一位玩家在此策略組合下單方面改變自己的策略（其他玩家策略不變），都不會提高自身的收益。

DeepNash將強化學習算法與深度神經網絡相結合，以找到納什均衡。強化學習包括為游戲的每個狀態找到最佳策略。為了學習最佳策略，DeepNash已經與自己進行了55億次博弈。

今年4月，DeepNash在網絡游戲平臺Gravon上與人類Stratego玩家進行了兩周的比賽。在50場比賽后，DeepNash目前在所有Gravon Stratego玩家中排名第三。

“我們的研究表明，像Stratego這樣復雜的涉及不完善信息的游戲，不需要通過搜索技術來解決。”團隊成員、DeepMind研究員Karl Tuyls表示，“這是AI邁出的一大步。”

而曾于2019年報告了玩撲克的AI——Pluribus的Meta AI研究員Noam Brown團隊，則將目光投向了一個不同的挑戰：建立一個可以玩“強權外交”的AI。

“強權外交”是一個最多可由7位玩家參與的游戲，每位玩家代表第一次世界大戰前歐洲的主要力量，游戲目標是通過移動部隊控制供應中心。重要的是，該游戲需要玩家間進行私人交流和合作，而不是像圍棋或Stratego那樣進行雙人博弈。

“當進行超過兩人的零和博弈時，納什均衡思想對游戲就不再有用了。”Brown說，他們成功訓練出了AI——Cicero。在11月22日發表于《科學》的論文中，該團隊報告稱，在40場游戲中，“Cicero的平均得分是人類玩家的兩倍多，在玩過一場以上游戲的參與者中排名前10%”。

Brown認為，可以與人類互動并解釋次優甚至非理性人類行為的游戲AI，可以為其在現實世界的應用鋪平道路。

相關論文信息：

實驗室