《星海争霸 II》玩家,很快就可在天梯上为 DeepMind 的论文付出贡献了

《星海争霸 II》玩家,很快就可在天梯上为 DeepMind 的论文付出贡献了

7 月 10 日晚上,暴雪联合 DeepMind 发表新闻,DeepMind 开发的《星海争霸 II》AI「AlphaStar」很快就会出现《星海争霸 II》欧洲伺服器的 1v1 天梯比赛。人类玩家不仅有机会与 AI 配对、和它们展开标準比赛,比赛结果也会像正常比赛影响自己的天梯分数。

在《星海争霸 II》做科研实验

正如人尽皆知的围棋 AI AlphaGo,DeepMind 喜欢的强化学习 AI 研究过程,是在某项比赛(博弈)环境进行技术探索,在新技术的辅助下让智慧体从历史数据学习、从自我博弈学习,然后与人类高手比赛,评估 AI 的水準。樊麾、李世乭、柯洁都光荣成为「人工智慧测试高级工程师」。

《星海争霸 II》玩家,很快就可在天梯上为 DeepMind 的论文付出贡献了

此次《星海争霸 II》AI「AlphaStar」的研究过程,DeepMind 继续沿用这个思路,但这次他们更大胆,让大批不同水準的普通玩家参与 AI 表现评估,最终的比赛结果会写到《星海争霸 II》AI 科研计画的论文,投稿到学术期刊。这就是暴雪和 DeepMind 联手把 AI 送上天梯比赛的最重要原因。

进入《星海争霸 II》游戏,在 1v1 比赛设置了允许接入 DeepMind(DeepMind opt-in)之后,参加 1v1 天梯比赛的玩家就可能会遇到 AlphaStar。为了控制所有比赛变项都尽量接近正常的人类 1v1 天梯比赛,以及减小不同比赛间的差异,AlphaStar 会随机配到一部分玩家的天梯比赛,且 AI 会保持匿名,配到的玩家和《星海争霸 II》后台都无法知道哪些比赛有 AlphaStar 参与。不过,设置允许接入 AI 后,相信玩家立即就会开始对配到 AI 产生期待,而且比赛开始之后,也可能很快就会发现对手有些不寻常之处。

《星海争霸 II》玩家,很快就可在天梯上为 DeepMind 的论文付出贡献了

1 月的比赛中,AlphaStar 会建造大量工人,快速建立资源优势(超过人类职业选手的 16 个或 18 个上限)。

《星海争霸 II》玩家,很快就可在天梯上为 DeepMind 的论文付出贡献了

1 月的比赛中,AlphaStar 控制的两个追猎者黑血极限逃生。

今年 1 月时 AlphaStar 就曾与人类职业选手比赛并取得全胜。相比当时的版本,此次更大规模测试的 AlphaStar 版本有些改动,其中一些明显对人类有利:

参与测试的 AlphaStar 都从人类比赛 replay 和自我比赛学习,没有从与人类的对局学习,同时 AlphaStar 的表现会在整个测试期间保持不变,不进行训练学习;这样得到的测试结果能直接反映 DeepMind 目前的技术水準到达怎样程度。另一方面,既是 AlphaStar 技术方案的一大亮点,参与测试的 AlphaStar 也会是 AlphaStar 种群(AlphaStar league,详见下文)的多个不同个体,配到的不同 AlphaStar 个体可能会有迥异的游戏表现。

AlphaStar 技术特点

这里把 AlphaStar 的技术特点总结如下(详细可参见文章):

《星海争霸 II》玩家,很快就可在天梯上为 DeepMind 的论文付出贡献了

AlphaStar league 的个体形成明显的策略分布。

此次在 AlphaStar 测试的大行动空间下的长序列建模,以及群体强化学习的训练策略,都是对提升强化学习演算法表现上限、应对複杂环境长期任务的积极技术探索。我们期待早日看到 DeepMind 的论文发表,更期待早日看到基于强化学习的决策系统让整个领域发展得更成熟。当然了,喜欢《星海争霸 II》的读者,可以準备一下,为 DeepMind 这篇论文贡献一份力量吧!