您现在的位置是:主页 > 设计小米 >下个版本的 AlphaGo,会不会已经能认路了 >

下个版本的 AlphaGo,会不会已经能认路了

时间:2020-06-14  阅读:170  点赞次数:613  
下个版本的 AlphaGo,会不会已经能认路了

2014 年上映的电影《云端情人》(Her)中,男主角西奥多带着搭载 AI 操作系统「莎曼珊」的手机,走在拥挤的游乐场里。他突然心血来潮,决定闭上眼睛,让莎曼珊指挥他的路线。西奥多伸直手举着手机,莎曼珊完美的指引他避开迎面而来的人群,绕过广场的柱子,抵达他的目的地──一家披萨店。

电影里这个场景很温馨,单独拿出来看,这画面很诡异。但无论如何,这样的功能离我们越来越近。

想做到 AI 即时指路,背后需有两个关键技术。首先,AI 要能用最高效的方式辨识周围空间;其次,它还要像人一样,基于视线所及的图像来「脑补」整个空间格局。

最近,AI 在这两个能力上取得重大进展,带头的又是 Google 旗下的 AI 明星公司 DeepMind。

週四出版的《科学》(Science)杂誌,DeepMind 发表了一篇论文,向世界介绍名叫 GQN 的新 AI 系统。

GQN 的全称为「Generative Query Network」,直译为「生成式查询网路」,改进了现有的机器视觉研究方式:目前的机器视觉在训练时,还是依赖「吃进」人为标记好标籤的图像数据来训练,大部分属于监督式学习,而 GQN 的方法则是让机器自我训练,属于无监督机器学习。

这是一种更接近人类行为模式的系统:当我们走进一个空间时,可根据双眼看到的简单画面,快速对所处空间有整体的认知。比如,眼睛看到的可能只是衣柜正面,但在我们的脑中,衣柜的全貌、在房间所处的位置、阳光下的阴影样子,其实都已同步生成并存于脑海。

下个版本的 AlphaGo,会不会已经能认路了

这对人类来说很简单,但没人能说清人类大脑如何处理这些资讯。当 AI 尝试复刻人类大脑流程时,若依然採取输入规则、监督式的学习方式,显然十分困难。GQN 选择神经网路的方法,决定让机器自己学习,就像它们在围棋、翻译等领域做的那样。

具体来看,GQN 由两个模型构成,一个叫做表徵网路(representation network),另一个叫做生成网路(generation network)。前者其实可视为模仿人类的眼睛,后者则尝试複製人类大脑处理空间资讯的方式。

表徵网路透过图像感测器观察世界,把空间中看到的二维图像,以数据形式输入系统,之后生成网路会基于这些数据学习,然后尝试预测某​陌生视角下这空间的样子,渲染后以三维形式呈现。

简单说就是,表徵网路看见一张桌子的正面,包括它的构造、颜色、高低等,然后生成网路要据此「猜出」桌子侧面、底面等其他角度的样子,就像人类无时无刻做的那样。

由于採用无监督学习模式,表徵网路在「看」东西时并不知道生成网路最后需要从哪个视角预测,为了更帮助后者完成任务,它需要在不断的训练中,提升观察和记录能力,最终保证提供的输入最高效。

过程中它慢慢积累经验,对整个空间各物体之间的透视规律、阳光阴影关係等都有认知(事先并没有任何人为干预告诉机器什幺是「颜色」、「位置」、「大小」等这些概念,全靠机器自己「开悟」),并最终用一种电脑能理解、最浓缩最高效的数据形式完成输入。

而生成网路在一次次训练中,将这些输入数据再次转换成图像。且这图像不再是二维,需要转成立体的空间画面,物体的尺寸、定位、光影关係、透视关係都要準确呈现。过程中生成网路逐渐学习成了有渲染能力的图像神经网路。

经过一段时间自主学习后,DeepMind 测试 GQN 在虚拟环境的成果,结果惊人。

下图是第一种测试,在一类似小广场的简单虚拟三维空间,GQN 的表徵网路从一个视角输入一组二维图像,而生成网路达成了清晰精确的三维「还原」──包括二维图片以外的空间。

下个版本的 AlphaGo,会不会已经能认路了

接下来,DeepMind 又做了第二种测试,有点类似念书时都做过的空间感觉测试。表徵网路对一多个立方体组成的「积木」观察输入,而生成网路需要回答这个物体由几个立方体组成。GQN 也完成了测试。

下个版本的 AlphaGo,会不会已经能认路了

第三种测试,DeepMind 把 GQN 从开放的小广场赶到一个更複杂的「迷宫」,在这里,视野受到限制,但 GQN 可以来回走动,找到它认为最好的视角观测,进而帮助生成网路还原整个空间。

下个版本的 AlphaGo,会不会已经能认路了

可以看到,GQN 就像玩拼图,随着表徵网路观察角度增多,逐渐完美「脑补」出整个空间的全貌。

这已经和人类非常接近,近到有点吓人。

DeepMind 联合创始人、CEO 杰米斯‧哈萨比斯(Demis Hassabis)说:「GQN 已可从任何角度想像和呈现场景。」

其实,如果拉长时间来看,这次 GQN 的突破,其实是最近 DeepMind 在 AI 辨识空间方面的一系列尝试中一环。

就在 5 月,DeepMind 曾在《自然》发文,表示他们在 AI 做到类似哺乳动物「抄近路」的导航行为。下个版本的 AlphaGo,会不会已经能认路了

下个版本的 AlphaGo,会不会已经能认路了

DeepMind 在 AI 以电脑科学的方式複刻了类似人类大脑认路功能的最神祕「网格细胞」。研究指出,网格细胞(grid cell)在大脑里提供人类一种感知向量空间的框架,让人们可为自己导航。这个可能是人类上千年进化出来的细胞,被 AI 轻鬆复刻。

今年 4 月,DeepMind 还在 ArXiv 发表论文,宣布他们使用深度学习和神经网路代替地图指引,让 AI 仅依靠街景图就了解整个城市的格局,然后找到通往目的地的路。

DeepMind 这些研究 AI 在空间和视觉方面的技能,最终很可能集合成类似 AlphaGo 的整合体,到时应用场景肯定不只是走迷宫这幺简单。

DeepMind 就像製造机器人的拼图师傅,一点点拼着理想中的「超级人工智慧」,然后等着人工智慧在智慧上超过人类的奇点时刻到来。

準备好向人工智慧投降吧,人类。

相关文章