“阿尔法围棋”之父自称四小时长谈说服霍金
去年10月,在击败欧洲围棋冠军樊麾时,“阿尔法围棋”记住了3000万张棋谱。而昨天,打败李世石的时候,它已经记住了1亿张棋谱。
深度学习、自我进化、拥有人类棋手般的直觉……“阿尔法围棋”到底有多牛?
“阿尔法围棋”之父德米什·哈萨比斯
“阿尔法围棋”是谁搞出来的?
“阿尔法围棋”是谷歌旗下“深度思维(DeepMind)”公司开发的人工智能围棋程序。2010年,“深度思维”公司成立于英国,主要研究学习玩电子游戏的人工神经网络。
短短两年时间,“深度思维”就攻克了7种电视游戏,并超过了人类神经反应极限。因此,该公司被亚马逊、脸书等多家知名网络公司看中。2014年1月,谷歌最终以约4亿英镑(约36.9亿元人民币)的价格收购了“深度思维”。其中,牵线搭桥的是“特斯拉”老板埃隆·马斯克。马斯克也是该公司最早的投资方之一。
“阿尔法围棋”之父有中国血统?
“深度思维”公司创始人、今年39岁的德米什·哈萨比斯,如今已是谷歌副总裁。他的父亲有着希腊和塞浦路斯血统,而母亲则出身自新加坡和中国人的家庭。
作为一位人工智能专家,哈萨比斯的兴趣爱好广泛。他本人是国际象棋高手,对围棋也非常感兴趣。1997年,超级电脑“深蓝”战胜国际象棋世界冠军卡斯帕罗夫。当时还在上大学的哈萨比斯就在想,有一天要为围棋写一个程序,并赢得冠军。
英国《卫报》说,哈萨比斯对于“阿尔法围棋”的骄傲之情,就像一个“好学生的家长”。他坦言,自己没有与“阿尔法围棋”对弈过,因为它的学习能力很强,自己完全不是它的对手。
它如何选择一招棋?
“阿尔法围棋”的核心是两种不同的深度神经网络——“策略网络”和“值网络”。这两种神经网络,也被称为“阿尔法围棋”的两个大脑。
“策略网络”负责挑选下一步棋该怎么走,“值网络”则通过现有棋局,预测谁可能会赢。它们“双剑合璧”,挑出明显比较好的走法。
谷歌公司说,“阿尔法围棋”落子,与人类高手符合度达57%。这里,相符合并不意味着正确,只是说人类可能会这么下棋。人类的走法,也可能是错的。
是不是每下一招
它都要回忆它知道的所有棋局?
人工智能下棋时,大多采用了一种名叫“蒙特卡洛树搜索”的算法。它是一种启发式的搜索策略,能够基于对搜索空间的随机抽样来扩大搜索树,从而分析围棋这类游戏中每一步棋应该怎么走才能够创造最好机会。“阿尔法围棋”也运用了这种算法。
假设拥有无限的计算能力,运用“蒙特卡洛树搜索”,“阿尔法围棋”理论上是可以回顾它记住的棋盘,然后计算怎么走才是最佳落子。但现实中,还没有一个人工智能能做到这一步。
“阿尔法围棋”聪明的地方就在于,它结合“深度学习”和“蒙特卡洛树搜索”,利用“深度学习”降低搜索树的复杂性。换句话说,通过反复训练,“阿尔法围棋”培出了如同人类棋手般的棋感。而这种“我觉得这样下会赢”的直觉,也是很多人类高手取胜的关键。
|