中国AI麻将打出新高度!战胜真人职业选手,鹅厂「绝艺」刷新战绩

人工智能1年前发布 10100
40 00

不愧是中国AI,打麻将“轻松”登顶。

腾讯最新消息,旗下棋牌类AI“绝艺”LuckyJ在日本麻将平台“天凤”上,刷新AI在麻将领域最好成绩。

仅需1321盘对局,绝艺LuckyJ就达到了AI最高段位,比第二名Suphx减少了4052盘对局。

而且它的能力稳定在十段,要知道人类顶级选手的平均稳定段位也只有7.4。

中国AI麻将打出新高度!战胜真人职业选手,鹅厂「绝艺」刷新战绩图片

在日本麻将天凤平台上,绝艺LuckyJ也成为仅有的27个达到十段的玩家之一(包括AI),而该平台的平均活跃人数在23.8万。

不止是日本麻将,在国标麻将中,绝艺LuckyJ也曾击败过六位职业选手,成为首个战胜国标麻将职业选手的麻将AI。

中国AI麻将打出新高度!战胜真人职业选手,鹅厂「绝艺」刷新战绩图片

其中一位国标麻将选手作出了这样的评价。

我们通常所谓的妙手、灵光一现,甚至是基于经验和感觉做出的置之死地而后生的选择,对于AI来说可能都是常规操作了。

在绝艺LuckyJ拿下日本麻将十段后,还有不少网友前来祝贺。

中国AI麻将打出新高度!战胜真人职业选手,鹅厂「绝艺」刷新战绩图片

中国AI麻将打出新高度!战胜真人职业选手,鹅厂「绝艺」刷新战绩图片

毕竟在AI打麻将背后,提升的其实是AI在问题决策上的能力,这也有利于让AI去解决更多现实生活中复杂的问题。

所以绝艺LuckyJ是怎么做到的?

打麻将AI需要学会更平衡的策略

先来看AI打麻将难在哪。

对于AI来说,玩游戏是一种极佳的检验其能力的方式,常见形式比如下象棋、下围棋、打王者荣耀等。

在这其中,围棋和象棋等属于完美信息博弈。即游戏双方在每次落子前都能看到全局信息,也就是相互能看到彼此的情况。

这对AI来说难度并不高,因为它可以通过强大算力暴力求解,找到一个最优解。

但是打麻将的情况就复杂了。

玩家之间不仅无法看到多个其他玩家的牌,还有大量信息隐藏在没有揭开的牌里,这就是典型的非完美信息博弈。

也就是说AI和人类玩家在最开始时都只能看到自己手里的13张牌,另外有一百多张牌未知。而且在每次打牌时要做一系列复杂的决策,比如是否吃牌、碰牌、胡牌等,做出的决策还要兼顾进攻和防守。

与此同时,其他玩家的吃碰杠操作都会改变接下来的摸牌顺序,决策更加复杂。

在这样一个横坐标表示可观察信息量、纵坐标表示隐藏信息量的图标中,可以看到麻将包含的隐藏信息远远高于其他棋牌游戏。

中国AI麻将打出新高度!战胜真人职业选手,鹅厂「绝艺」刷新战绩图片

所以该怎么办?

腾讯AI Lab提出了一种基于强化学习和遗憾值最小化的自我博弈技术。

这使得AI能从零开始自我学习和提升能力,并最终收敛到一个最强的混合策略,在实际对战过程中可以具备更加平衡的策略能力。

同时考虑到传统的非完美信息搜索算法在麻将面前很难发挥太大作用,研究人员还基于乐观价值估计的思想,提出了一种高效的非完美搜索方法,使得AI能在海量隐藏信息的游戏状态中,实时调整当前策略,更好应对多变的战局。

据研究员介绍,相比人类,AI在麻将游戏中,拥有更加平衡的策略,对局势的计算非常精确,其中包括打每张牌的期望收益、未来可能胡哪些番型等等。在这样的“策略”训练下,AI之后也能更快速进入到其他行业中去。

在具体实战测试中,绝艺LuckyJ是在“天凤”中对决。

这是一个老牌日本麻将游戏平台,创建于2006年。

从bootstrap分布来看,绝艺LuckyJ显著强于另外两个日本麻将AI(Suphx、NAGA):LuckyJ vs Suphx p value=0.02883;LuckyJ vs NAGA p value=3e-05。

中国AI麻将打出新高度!战胜真人职业选手,鹅厂「绝艺」刷新战绩图片

另外在国标麻将将近2000场对局中,绝艺LuckyJ的平均赢番达到1.76番。

(这里番表示国标麻将的结算单位,数值越大说明赢得越多)

中国AI麻将打出新高度!战胜真人职业选手,鹅厂「绝艺」刷新战绩图片

中国AI麻将打出新高度!战胜真人职业选手,鹅厂「绝艺」刷新战绩图片

游戏AI已经跨行应用了

不过,这么费劲提升AI的打麻将能力,当然不是只想让它打麻将。

腾讯 AI Lab 研究员介绍,在游戏环境中推进决策AI的能力,最终是希望AI能从虚拟走向现实,解决真实世界的复杂问题。

在现实世界中充满了需要在非完美信息状态下做决策的场景,比如金融交易、自动驾驶、交通物流、拍卖系统等。

而且腾讯AI Lab也已经有了实际案例。

其旗下另一个决策AI绝悟,就学会了识别病理全片扫描图像中的病灶位置,效率是传统方法的400%。

中国AI麻将打出新高度!战胜真人职业选手,鹅厂「绝艺」刷新战绩图片

这个AI找寻最优看片路径的方法,是基于强化学习。

它避免了用传统的穷举方式去分析局部图像切块,而是先决策找到有观察价值的区域,并通过跨多个分辨率级别获得代表性特征,以加速完成全片判读。

通过模仿人类的思维方式,不仅提高了看片效率,还做到了节约成本。

综上,会玩《我的世界》的绝悟已经能悬壶济世了,也让人期待会打麻将的绝艺之后能跨行干啥呢?

你觉得绝艺LuckyJ有哪些可应用的方向?

© 版权声明

相关文章