社交账号登录

社交账号登录

0/34

上传头像

拖拽或者缩放虚线框,生成自己满意的头像

头像

预览

忘记密码

设置新密码

智能

Deepmind 挑战《星际争霸2》,人工智能 10:1 战胜人类玩家

罗骢2019-01-25 14:51:52

但职业选手战胜了最新版本的人工智能 AlphaStar

北京时间 25 日凌晨 2 点,Google 旗下的人工智能公司 DeepMind 在伦敦举办线上直播,公布了 10 局《星际争霸 2 》比赛录像,由其研发的游戏类人工智能 AlphaStar 向两名《星际争霸 2 》职业游戏玩家挑战,录像结果显示两名职业玩家都以 0-5 输给 AlphaStar。

《星际争霸 2》是暴雪娱乐在 2010 年 7 月发布的一款即时战略游戏(RTS)。RTS 游戏顾名思义,游戏的过程是即时进行而不是采用回合制。这意味着玩家需要在短时间内控制多个不同的单位,实时下达指令。

即时战略游戏(RTS)大多和战争题材相关,以《星际争霸 2》为例,玩家们在一块迷雾笼罩的地图上对抗,依靠探索地图获取更多信息,同时进行采集、建造、发展、战斗等过程。

在 RTS 游戏中,比赛过程随获取的信息在不断发生变化。既考验选手对游戏内的瞬间操作,也考验战术的执行,随机性很强。大约 300 个游戏指令可以分叉成接近 1 亿个可能的后续操作,而这些都要求人工智能瞬间分析做出反应。

所以相比起规则明确,有思考时间的国际象棋、围棋等传统游戏,人工智能能否在电竞类游戏中击败人类一直是关注的焦点。

从公布的录像来看,AlphaStar 先是在两周前挑战德国职业星际 2 选手 TLO,他在 2018 WCS Circuit 排名 44 位,是一名虫族玩家。

AlphaStar 在规则上有一些优势,首先比赛双方都使用的是神族,这不是 TLO 最擅长的种族。同时 AlphaStar 直接读取地图上所有的可见内容,类似于可以俯览整张地图。即使有迷雾减少信息,这也比需要切屏来操作不同区域的人类有很大的优势。

最初版本 AlphaStar 可以俯视整张地图,图片来源:YouTube

比赛中,AlphaStar 的策略比较保守,会建造大量工人,快速建立资源优势(超过人类职业选手的 16 个或 18 个的上限),虽然 AlphaStar 5:0 取得胜利,但 TLO 赛后坦言自己觉得很有机会赢下一场比赛,他需要更多对战的机会来找到 AlphaStar 的弱点。

两周的调整后,AlphaStar 又向 2018 年 WSC 奥斯汀站亚军、世界顶级神族选手之一 MaNa 发起挑战,AlphaStar 明显在战术选择和单位操作上进步很多,例如学习和尝试封路战术。人工智能带来的微操优势也被利用,其中一局比赛中,AlphaStar 将 30 多个追猎(游戏内单位)分成 2-3 组,从 3 个方向包夹 MaNa 的进攻部队。

暴雪和 DeepMind 专门在 25 日凌晨在直播平台回放了这 10 场比赛中的精选比赛。但在回放结束之后,DeepMind 宣布 AlphaStar 已经升级为更高级的版本,并在现场向 MaNa 发出了一场表演赛的挑战。

新版 AlphaStar 做了更多的限制,取消了直接读取地图可见信息的功能,它必须和人类选手一样切屏去获取信息。

左到右为比赛中神经网络从画面到分析再到判断的可视化思考过程,图片来源:YouTube

比赛中,MaNa 采取了一边骚扰,一边积攒混合部队的战术,AlphaStar 反而陷入了应对骚扰的循环任务中,没有察觉到在主要战力上的差距增大。在战力形成之后,MaNa 一波压制击溃了 AlphaStar,取得对人工智能的首胜。

现场解说称,AlphaStar 失败在面对骚扰这种重复性行为时判断失误,浪费了大量资源。

DeepMind 在过去曾开发人工智能 AlphaGo 挑战人类,并成功 4:1 击败世界冠军李世石(九段),3:0 击败世界排名第一的中国职业选手柯洁(九段)。随后,DeepMind 宣布开发竞技游戏领域的人工智能,并在《雷神之锤 3 》、《 Dota 2》这类控制单一单位的游戏里取得对人类玩家的胜利。

而在更复杂的 RTS 游戏领域,DeepMind 很早就尝试去挑战,2016 年就和暴雪签订了开源工具 PySC2 开发协议,将在游戏平台中引入机器学习方法,进行人工智能研究。

比赛回放过程中,主持人问到 DeepMind 科学家,平时如何训练 AlphaStar ?

DeepMind 科学家 Oriol Vinyals、David Silver 解释称,首先是模仿学习,团队从许多选手那里获得了很多比赛回放资料,并试图让 AI 通过观察一个人所处的环境,尽可能地模仿某个特定的动作,从而理解星际争霸的基本知识。《连线》的文章称,AlphaStar 分析了大约 50 万份匿名的游戏数据,初步让 AlphaStar 掌握了模仿人类策略的能力。

随后,DeepMind 基于不同玩家比赛数据制作出多个 AlphaStar 的代理(agent)和分叉,让它们按“Alpha League”联赛模式采用不同的战术策略,逐一相互对抗。每场比赛都会产生新的信息来迭代人工智能。

最后,DeepMind 就是在 “Alpha League”联赛中选择 5 个不易被击败的 agent 来和人类选手比赛。 

Alpha League 示意图,图片来源:YouTube

选择暴雪的《星际争霸2》作为研究项目,正是 DeepMind 团队看中这款游戏既具有高水平的竞技难度,同时游戏人群广泛,超过 240 万的游戏玩家可以提供大量的游戏比赛数据。

基于游戏的人工智能研究并非只是为了娱乐,在现实世界中,基于大量数据进行复杂的预测是人工智能最基本的挑战。其中涉及到的变量远比星际争霸要复杂得多,面对许多难以预测的突发情况,人工智能必须要既作出正确的对策,还要根据实际情况细微的调整对策。

在直播的最后,另一场值得期待的“大战”也发出了预告。

芬兰电竞战队 ENCE 也发布通告,称 WCS 星际争霸 2 全球总冠军芬兰选手 Serral 将在与星际 2 人工智能上演一场人机大战,时间定于 2 月 15 日。

题图来源:DeepMind 官网

喜欢这篇文章?去 App 商店搜 好奇心日报 ,每天看点不一样的。