想要机器人能思考，首先得教会它们“看”？ _小知识

一场地震灾难发生后，专业救援人员组成的队伍会奔赴现场，在废墟中搜寻生命体征、实行医疗救护、呼叫救援。
但在斯坦福大学首席人工智能科学家李菲菲(Fei-Fei Li)的想象中，对事件率先做出响应的并不是红十字会的志愿者或医护人员，而是那些能洞悉周边环境并响应人们需求的智能机器人，它们将竭尽所能拯救尽可能多的人。对这一场景背后所涉及的技术，李已经做了大量思考和研究，她认为如果计算机能够掌握最复杂的人类视觉认知能力的时候，这项技术就离我们不远了。

文章插图

目前，由李及其带领的斯坦福大学人工智能实验室，在这项技术上取得了一些进展，这多亏了在2009年建立的拥有超过1500万数字图像的数据库。此后的每一年，研究人员利用该数据库组建了大型视觉识别比赛，目的是开发出可以教会计算机识别、理解图像内容的算法。 2014年，参与者设计的软件程序识别对象和动作的准确率几乎是往年的两倍，这得益于更快的计算能力和更精炼的代码。 2014年末，李和她的学生研发出首个能够用类似人类语句来描述其所见图像的计算机视觉模型。
她认为，计算机视觉是所有人工智能的关键。 “理解并建立视觉系统，才能真正理解智能，对于‘看’，我的意思是理解，而不是简单的像素记录。 ”
新型智能
人工智能领域的科学家们，还有在谷歌、Facebook、微软等企业任职的研究人员，他们在计算机视觉技术中投入大量资源的原因很简单：人类利用一半的大脑进行视觉处理，这一认知能力经历了5.4亿年的发展演变。在李看来， “这里(大脑)比海湾地区的住房更值钱” 。视觉在我们认识世界的过程中扮演了至关重要的角色，很难想象未来的智能计算机会没有视觉能力。任何像样的无人驾驶汽车最终都需要具备分辨的能力，假如路上有一个大石头和一个小的纸袋，它就应该用刹车、转向来避开石头，选择性地忽略纸袋。

文章插图

如今，计算机可以识别出照片中的猫或汽车的形状、年代等，但是要想让计算机像人一样通过观察和推理来理解内容，还需要进行大量的科研工作。比如，同样的球棒，在球场和犯罪现场就有完全不同的含义。李表示：“我们实验室下一步的任务是研发出满足基本视觉任务的认知能力，例如对场景、人类行为、关系、推理和讲故事等的理解。 ”
照亮人类的“暗物质”
教会计算机如何去“看”已经远远高于对出现在我们物理世界的物质的识别。更好的机器视觉应该可以洞悉和透露我们都不知道的细节。互联网每一天都在产生所谓的数字时代的暗物质——数以万亿计的图像和视频。网页中有超过85%的内容是多媒体，这是一大堆混乱的烂摊子。 “我们有理由去理解它们，对我们生活、日常活动、社会关系(不论是个人还是社会)的记录，都在那些内容中。 ”
【想要机器人能思考，首先得教会它们“看”？】这些对人类的视觉描述的增长速度超出我们的想象。过去30天内生成的图片和视频总量，比从人类文明初期所有的图像加起来都大。对人类来说，记录下所有的这些数据是不可能的，但是对可以进行模式识别，并用自然语言将视觉内容描述出来的智能机器而言是可行的，这些机器可能成为未来的历史学家。
新兴的应用
李表示计算机视觉最终会影响所有事情，从监测和应对气候变化所带来的影响，到构建智能家居，但最令她感到兴奋的是在医学领域的应用。 “当日常护理可以完全依赖人工智能的时候，也就是降低成本、提高护理水平的时候。 ”