这里说的神经网络系统可不是大脑的神经网络系统,是计算机模拟大脑神经网络发展的系统,是“人工智能”领域的技术之一,现在看来已经占据较为主导的地位。这些系统能够识人脸、看图片、接收声音指令、识别交通信号……还有更多正在开发的用途。到底什么是神经网络系统呢?这个行业的规模到底有多大?
科技艺术网(Ars Technica)近期刊登的一份连载详细地介绍了神经网络的原理和发展过程,并将其称为“机器中的幽灵”。
上世纪50年代的雏形
1958年,康奈尔大学(Cornell University)的罗森布拉特(Frank Rosenblatt)在美国海军支持下开发的一套名为“感知器”(perceptron)的系统,恐怕是神经网络最早的雏形。那套系统可以从20X20大小的图片上识别简单的几何形状。
其实罗森布拉特不是想造一个识别图像的系统,而是通过用电脑模拟大脑研究大脑的工作原理。结果他的成果引起了许多科学家的兴趣。
《纽约时报》1958年7月的报道称:“今天海军展示了一个电子系统雏形,有望能走、能说、能看,能自我复制,并有自我意识。”
从最基础层面来看,系统中的每个神经元就是一个数学函数,把输入的信息加权计算后给出一个结果,对输入信息施加的权重越大,输入信息对输出结果的影响越大。再把加权得到的结果送给非线性函数(即非简单的正反比的关系,自然界中大部分系统的本质都是非线性的),让神经网络模拟各种复杂的非线性问题。
接下来很关键的环节就是对这种系统的训练环节,也叫“深度学习”(deep learning)的过程,通过向系统喂送大量数据,不断练习系统的“判断”能力,实验发现,这种系统真的能够在一定程度不断提升“辨识”结果的准确性。
突破性算法的出现
1986年一种名为“反向传播”(backpropagation)算法的出现,让神经网络系统的效能出现了一次飞跃,不再受限一两层,可以建造五层、十层甚至五十层的网络,内部有着复杂的结构。
但是神经网络真正的突破还需要一些其它条件的出现。直到2008年,当时介绍人工智能的教科书上,神经网络还只是九种机器学习算法中的一种。
2012年,这些条件终于具足,包括强大的电脑处理器、先进的显卡技术,以及训练系统所需的大量数据资料的获取方式——利用软件从互联网抓取一百万张图片的技术。
这些条件促成了基于神经网络技术AlexNet系统的成功。该系统参加的自动识别图片类别的竞赛ImageNet,其出错率获得16%的好成绩,当时最接近的对手出错率为26%,而在2011年的冠军出错率为25%。
AlexNet系统具有八层可训练的网络,65万个神经元和6000万个参数。
深度学习的广泛应用
正如上面提到的,2012年的时候,多数参加ImageNet竞赛的系统用的都不是深度学习技术,AlexNet系统展示了深度学习技术强大的前景。
到了2013年,该竞赛赞助方称“多数参赛者”基于深度学习技术。竞赛成绩也在飞速提升,出错率从2012年AlexNet的16%,将至2017年的2.3%。
也是从2013年,深度学习的应用面迅速在业界扩大。
2013年,谷歌(Google)收购了一家由AlexNet设计人员建立的初创公司,开发了谷歌的图片搜索功能。2014年,脸书(Facebook)推出基于深度学习的脸部识别软件。苹果(Apple)公司的操作系统自2016年起使用的脸部识别技术也是基于深度学习。
深度学习技术还是这几年语言识别技术的内核,如苹果的Siri,亚马逊的Alexa,微软的Cortana,谷歌助手等。
很多公司还为深度学习应用软件开发了专用的芯片硬件支持。2016年,谷歌发布一款名为Tensor Processing Unit的神经网络芯片。同年,Nvidia宣布推出转为神经网络优化的硬件Tesla P100。英特尔(Intel)也不示弱,在2017年推出自己的人工智能专用芯片。2018年,亚马逊也推出通过其云服务使用的人工智能芯片。微软据称也在开发人工智能芯片。
现在很多手机都是把数据传到服务器,让强大的服务器执行人工智能运算。但是这有一定延迟,以及数据安全性的顾虑。手机厂商也在加紧开发让手机支持神经网络运算的芯片,让手机客户端也可以执行一定人工智能操作。
Tesla也加入了这场竞争。今年初,该公司推出了人工智能自动驾驶系统。