Go to contents

只看前面,连背影都能知道的人工智能

Posted June. 15, 2018 09:29   

Updated June. 15, 2018 09:29

한국어

人从多种角度观察事物,综合之后以三维形态认识事物。等到积累起经验,无需前后左右观看,也可以想象得到事物的立体面貌。在感知空间结构和物体在空间的位置时也是如此。凭借人工智能“阿尔法狗”风靡世界的谷歌“深思”(DEEP MIND),这一次又开发出了具有人类观察能力的人工智能,成为人们热议的话题。

被称为“生成查询网络”(GENERATIVE QUERY NETWORK)的这一人工智能,能以从部分有限的角度观察物体的二维画面为基础,预测出空间和事物的整体立体构造,并将它转化为3D形象。因此,人们可由此看到从观察角度看不到的事物的背面等所有角度的画面。预计这将成为开发能自主识别周边环境的机器人和自动驾驶汽车等的基础。

由谷歌“深思”研究员阿里·伊斯拉米领导的研究小组在15日出版的国际学术杂志《科学》发表了上述内容的研究结果。谷歌“深思”首席执行官德米斯·赫沙比斯(音译)也作为共同作者参与了此次研究。伊斯拉米解释说:“这是为了让电脑能够以与人一样的方式认知立体空间。”

现有的人工智能视觉系统必须把从多种角度看到的事物画面和各个画面所含的多种信息输入电脑。它需要画面的方向(正面、侧面等)和画面中事物的位置、特定事物的像素范围等一一标注的数量庞大的学习数据。在制作学习数据的过程中,不仅花费了太多的时间,而且还存在无法正确认识由复杂的空间和曲面组成的事物的局限性。

相反,“生成查询网络”不依赖于人类输入的学习数据。只要从多角度观察空间和事物,就能自然而然地把握住立体的构造,塑造出多种多样的画面。在迷宫里面观察各个角落,它就能够绘制出迷宫的整体3D地图或通过视频观察。首尔大学电气信息学院教授李京茂(音译)表示:“可以说,它超越了需要人们一一传授的机器学习的根本局限性,已经最为接近人的知觉能力。”

“生成查询网络”大致分为“表达网络”和“生成网络”。研究小组利用电脑制造的虚拟3D空间,使之学习两个网络。在虚拟空间里,从正六面体等图形到结构复杂的机器人胳膊,随机摆放了各种各样的事物。

首先是在虚拟空间移动照像机,抓取从各个角度观察的画面。“表达网络”综合这些2D画面,从而掌握空间的3D结构和事物的颜色、形状、位置等核心信息。以此为基础,生成网络则预测出从此前没有观察的新角度观察的画面并生成形象。生成的形象与实际画面相比较的结果显示,它已经达到了用肉眼难以分辨的一致程度。不过,李京茂补充说:“如果想适用于实际环境,需要在假想空间以外、有着移动物体的实际空间内进行训练。”

去年10月,“深思”推出了在没有人类的围棋棋谱的情况下,通过自学到达天下无敌境界的“阿尔法狗 零”,向多个研究领域扩张。上个月,“深思”还与英国伦敦学院的研究小组一起,模仿在动物脑中负责位置感觉的神经细胞的功能,开发了具有包括人类在内哺乳动物找路功能的人工智能,相关论文发表在国际学术杂志《自然》上。


宋京银 东亚科学记者 kyungeun@donga.com