德州网_HHpoker下载_德扑圈APP > 德扑锦标赛 > 文章页

AI对战人类新里程碑：打6人德扑大胜世界冠军，学习成本仅千元

文章正文

发布时间：2024-10-08 22:54

文|智东西韦世玮

智东西7月12日消息，昨日，Facebook AI和美国卡耐基梅隆大学（Carnegie Mellon University）的研究人员在《科学》杂志上发表了一篇论文，他们研发出了一款名叫Pluribus的扑克人工智能机器人。

该机器人在6人无限制德州扑克比赛中击败了15名职业选手，其中包括2000年世界扑克锦标赛冠军克里斯“耶稣”弗格森和4次世界扑克巡回赛冠军达伦埃利亚斯。

Facebook声称，Pluribus是第一个在基准游戏中持续击败2个人类玩家以上的人工智能。

Pluribus由Facebook AI和卡内基梅隆大学计算机科学系，以及战略机器（Strategic Machine）、战略机器人（Strategy Robot）和优化市场（Optimized Markets）等公司共同合作研发。

研究人员在《科学》杂志中对如何创建Pluribus进行了详细介绍。

对于这项研究的意义，研究人员在论文的最后总结道：

自我博弈（self-play）与搜索形式相结合，已在完全信息双人zero-sum博弈中取得了许多令人瞩目的成功。然而，大多数现实世界的战略互动涉及隐藏信息以及两个以上的参与者。这使得理论和实践存在很大的差异性，而且明显更加困难。

为多人德州扑克开发超能AI不仅是AI领域的重要进展，也是计算机扑克领域的里程碑。

Pluribus的成功表明，尽管理论上没法保证AI在多人游戏中的表现，通过精巧的算法依然有望设计和训练出超越人类的AI。

Pluribus击败德州扑克世界冠军

扑克一直被研究人员们认为是人工智能领域的重大挑战，它可以用来衡量AI在博弈论方面的表现。

事实上，在扑克游戏中包含了许多隐藏信息，这意味着人工智能在不知道对手的牌的情况下，需要靠“虚张声势”的表现或其他策略诱惑对手，才有可能获得成功。

然而，这些战术并不适用于其他游戏，这使得扑克能够很好地与人工智能技术相抗衡。

由Facebook AI研究科学家Noam Brown和卡耐基梅隆大学的Tuomas Sandholm教授共同研发的Pluribus机器人就是人工智能在扑克游戏领域的一大突破。

在12天的测试比赛中，研究人员让Pluribus分别在两种不同的环境中人类选手进行游戏对决。一种为5位人类选手与1个Pluribus相对决，另一种为5个Pluribus与1位人类选手相对决。

其中，它的对手包括2000年世界扑克锦标赛冠军“耶稣”克里斯·弗格森（Chris Ferguson），以及4次世界扑克巡回赛冠军达伦·埃利亚斯（Darren Elias）。

针对这场测试比赛，Facebook AI的研究人员表示，如果每个筹码价值1美元，那么Pluribus每把手牌大约可赚5美元，每小时可以赢得大约1000美元的奖金。

Pluribus在游戏中考虑的投注数量主要在1到14之间变化，确切投注还需要看实际情况而变化。尽管它可以在100到10,000美元之间进行投注，但实际上玩德州扑克时，对手并不局限于那些少数选项。

通过自我游戏从零训练

就像以往人工智能被训练玩像象棋、Dota II和星际争霸II等游戏一样，Pluribus也能进行自我游戏训练。

自我游戏中，Pluribus在没有任何人工或先前人工智能游戏数据输入的情况下，与自己的副本进行对抗来掌握德州扑克的规则，以及计算战术数据。

但是，这种“自我游戏”的学习方法意味着Pluribus无法从人类那里获得任何游戏数据，也无法观察到其他人工智能系统的游戏策略。

研究人员在论文中表示，Pluribus从零开始随机运行，并逐渐改进，它需要决定将做出哪些动作和这些动作的概率分布，以产生比它早期版本策略更好的结果。

训练方面，Pluribus能够在20个小时的德州扑克训练中，达到超越人类的水平，并击败人类玩家，但是在多人游戏方面的问题依旧难以破解。

研究人员表示，这些创新具有超越扑克的重要意义，因为双人的零和博弈（一项游戏中，博弈各方有输有赢，但收益和损失相加总和永远为零）在娱乐游戏中很常见，但在现实生活中却非常罕见。主要是现实世界的场景通常涉及多个参与者，例如在线拍卖中的竞价或者交通导航。

云计算资源仅需约1030.46人民币

Pluribus的系统是在一个名为Libratus人工智能机器人的基础上创建的，是Libratus的增强版本。

Libratus是卡内基梅隆大学在2017年开发的AI扑克机器人，它在2017年成功打败了4名顶尖的德州扑克职业选手。

在对战策略方面，Libratus主要采用了一种名叫纳什均衡（Nash equilibrium）的对战策略，在博弈过程中，只要其他玩家不改变策略，单一玩家就无法通过变换策略获益。

与Libratus不同的是，Pluribus包含了一个新的在线搜索算法，可以通过搜索前面的几个游戏步骤，来评估自己下一步战术的选项。同时，Pluribus还拥有比Libratus更快的自玩算法。

在线搜索算法和自玩算法的更新与结合，使得Pluribus能用比Libratus更少的处理能力和内存来进行训练。

研究人员表示，这种效率与其他近期的AI里程碑项目形成了鲜明对比，后者需要相当于数百万美元的云计算资源来进行训练，而Pluribus只需要价值150美元（约1030.46人民币）的云计算资源。

此外，Pluribus也利用动作抽象和信息抽象来推断游戏中未来几轮的下注情况，以及批量计算相似的牌。

它还使用CFR ( Counterfactual regret minimization)算法，这是一种能使用自我博弈来进行循环推理的游戏算法，能够不断自我博弈来进行自我改进。

Pluribus将不会开源

2000年世界扑克锦标赛冠军弗格森表示，Pluribus是一个很难对付的对手，它非常擅长在一手烂牌中下薄弱的赌注并从对手的好牌中榨取价值。

已获得了4次世界扑克巡回赛冠军达伦·埃利亚斯也表示，Pluribus的主要优势是它拥有混合策略的能力，这也是人类玩家在尝试努力达到的水平。

他还认为，对人类来说，混合策略是一个完全随机的操作，大多数人在一场游戏中无法从始至终地坚持执行。

虽然Pluribus可能会让那些世界级在线锦标赛的职业扑克选手感到震惊，但他们并不需要担心会在以后的比赛中遇到Pluribus。

Facebook发言人Ari Entin表示，他们不会开源Pluribus，其中一个原因是，扑克竞赛本来就是商业性的，他们认为将其开源可能会造成负面影响。

几十年来，人工智能研究人员一直将游戏作为他们的AI代理测试平台。

近年来，由于计算技术的进步，以及数据集和人工智能技术愈加进步和复杂，人工智能在游戏平台的测试已经有了许多突破。科技巨头们也正在大力投资游戏领域，希望人工智能在该领域的突破能带动医疗、科学和能源等其他领域的突破。

结语：人工智能与人类竞赛新突破

自谷歌AlphaGo在围棋领域打败包括柯洁、李世石等世界围棋冠军后，给围棋界带来了巨大震动，人工智能与人类竞赛也一直是人们关注和讨论的话题。

过去，人工智能通过自我博弈（self-play）与搜索形式相结合，已在完全信息双人zero-sum博弈中取得了许多令人瞩目的成功。

如今，Facebook AI和卡耐基梅隆大学的研究人员开发的这款多人扑克人工智能，既是这一领域公认的里程碑，也是电脑扑克领域的重要里程碑。

Pluribus与人类职业选手对决的胜利表明，尽管它在对多人游戏种缺乏已知的强有力的理论保证，但在大规模复杂的多人且不完全信息的游戏环境中，它拥有的自我搜索游戏算法仍然可以产生超越人类的策略。

标签