新一代AlphaGo Zero让人类连做对手的资格都没有?

出品:科普中国
制作:缪子文化 王轩
监制:中国科学院计算机网络信息中心
2017年10月19日 , 谷歌子公司DeepMind发布了AlphaGo的新版本 。 很多人知道AlpoaGo是一个人工智能程序 , 却不知道它其实是一个家族 , 早期战胜韩国选手李世石的是AlphaGo Lee 。 在乌镇击败世界冠军柯洁的是AlphaGo Master 。 本次发布的是AlphaGo Zero , 它经过3天的训练便以100:0的战绩击败了他的哥哥AlphoGo Lee , 经过40天的训练便击败了它的另一个哥哥AlphoGo Master 。

新一代AlphaGo Zero让人类连做对手的资格都没有?

文章插图

AlphaGo Zero最大特点
【新一代AlphaGo Zero让人类连做对手的资格都没有?】本次发布的AlphaGo Zero与之前版本相比 , 最大的区别在于 , 它不再依靠人类的指导来成长 , 即之前的AlphaGo Lee是依赖于人工录入的大量棋谱来帮助其学习如何下棋 , 说白了 , 它是在人的指导下学习 , 可以理解为是人类千年围棋经验教出的学生 。
而AlphaGo Zero使用了强化学习算法 , 即不再依赖任何棋谱 , 编程人员输入围棋基本规则后 , 不再进行任何教导 , 完全由其自己进行摸索 , 总结走棋方法 , 相当于人工智能完全按照自己的方法学习 。 AlphaGo Lee完败于摒弃了人类经验的AlphaGo Zero , 这说明人类的经验可能误导了AlphaGo Lee , 进而限制了它的发展 。
AlphaGo Zero的行棋方式在开局和收官阶段 , 与人类选手有较大的相似之处 , 而盘中的行棋风格的确与人类选手和之前版本的AlPhaGo有较大不同 , 而正是这种不同让其可以在100次与AlphaGo Lee的交战中立于不败 , 换个说法 , 如果当初AlphaGo Lee没有拜人类为师 , 而是向机器学习 , 那么对于拥有更强计算能力的AlphaGo Lee来说 , 胜负还未可知 。
除了零经验学习外 , AlphaGo Zero的另一大特点是将之前版本AlphaGo的两个神经网络融为一体 , 在之前版本的AlphaGo上 , 如何走棋是由“策略网络”和“价值网络”两个神经网络来计算如何行棋的 , 即首先由“策略网络”利用之前累积的经验 , 判断在当前棋型下哪些位置适合行棋 , 之后由“价值网络”对在这些位置行棋后的种种可能进行模拟 , 计算胜率 , 最终选择出行棋位置 。
而AlphaGo Zero将二者融为了一体 , 对之前两个网络的特征提取等模块进行了共用 , 可以在计算出可能行棋的位置时便给出相应的“胜率” , 大幅提高效率 , 减少了训练所需的时间 。 这也是AlphaGo Zero在训练了三天就打败了训练了几个月的AlphaGo Lee的主要原因之一 。
新一代AlphaGo Zero让人类连做对手的资格都没有?

文章插图

人工智能不仅是计算机科学领域发展的制高点 , 在所有行业都具有无限潜力和应用价值 , 目前世界各国普遍看好 , 人工智能技术将成长为下一次技术革命契机 。 即便最终人工智能没有达到革命级别的颠覆程度 , AI已经在逐渐改变我们的生活 。
以往人工智能的进步都是建立在软件与硬件同步发展的基础上 , 神经网络算法最早在上个世纪中叶就被提出 , 然而受限于计算能力 , 神经网络算法一直发展缓慢 。
之后随着硬件计算速度的不断提高 , 已有的软件算法不断被实现并改进 , 改进的算法对硬件要求更高 , 从而进一步促进了硬件的发展 , 而AlphaGo Zero的出现完全建立在算法更新的基础上 。

推荐阅读