深度学习(Deep learning)主要是从仿生学的角度模拟脑神经系统的层次结构,通过逐层抽象,深度挖据数据的本质信息。从广义上讲,具有层级结构,低层级表示细节,高层级表示抽象的数据分析模型,都可以称之为深度学习。深度学习的概念从人工神经网络而来,因此通常指具有多层结构的神进网络。例如含多隐层的多层感知器就是一种深度学习结构。其通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
在以前多层神经网络的训练是很困的,一方面是数据集的限制,一方面是网络复杂性的影响。经典反向传播算法(BP)经常出现梯度弥散、陷入局部最优等问题。而使得神经网络的研究与应用多集中在浅层网络(shallow)。
2006年多伦多大学机器学习专家在《Science》上发表文章,提出贪心逐层训练算法,为解决深层结构相关的优化难题带来希望。该方法的主要思想是先为网络模型设置一个好的初值即pre-training,然后再对整个网络进行优化即finetuning。(据说Andrew Ng已经提出方法说不需要pre-training)。
关于pre-training现在主流有三种方法:RBM(约束玻尔兹曼机)、autoencoder variants(自动编码机)、sparse coding variants(稀疏表达)。这三种方法具有相似性,构建三层神经网络,通过BP算法训练网络,使得网络输出逼近输入,故而称作自监督或者说半监督(semi-supervised),这样,认为隐藏层是输入一个好的表达,输入层和隐藏层之间的连接保留,作为finetuning过程中连接权的初始值。finetuning是使用BP算法对整个多层网络优化的过程,由于pre-training为BP过程提供了好的初始值-在全局最优解的附近,故而最终可以得到较好的网络模型。BP是gradient-based方法。现今流行的梯度下降法有随机梯度下降法(SGD)和最有梯度下降法(LBFGS)。随着dropout、momentum等trick的出现,BP体现出更好的性能。
伴随着Hinton教授深度学习(Deeplearning)领域的杰出工作,深度学习无论在学术界还是科学界都引起巨大影响。
2012年,Hinton教授的学生使用采用GPU并行技术在图像识别领域取得惊人的效果,在ImageNet评测上将错误率从26%降到15%。此外,Hinton
随着Hinton、Andrew Ng、余凯、LeCun等相继加入微软、谷歌、百度、Facebook等公司。深度学习也引发智能计算在企业界的新浪潮。2011年以来,微软研究的语音识别专家Li和Dong从2009年开始和深度学习专家Hinton合作,2011年微软基于深度神经网络的语音识别研究取得重大成果,降低语音识别错误率20%-30%,是语音识别领域10多年来最大的突破性进展。同年,DNN还被用于制药公司的Druge Activity预测问题,并获得世界最好成绩,这一重要成果被《纽约时报》报道。斯坦福大学人工智能实验室主任Andrew Ng(华裔,中文名叫吴恩达)领导的Google Brain项目,在人工智能方面走得更加前沿。2012年6月,谷歌Google Brain运用深度学习的研究成果,使用 1000 台电脑创造出多达 10 亿个连接的“神经网络”,让机器系统学会自动识别猫,成为国际深度学习领域广为人知的案例之一。此外在余凯的带领下,百度也将DNN技术应用到语音识别和在线广告,图像搜索等业务,并取得较好的效果。近年来,深度学习与迁移学习、流行学习等的结合,以及基于云计算的计分布式处理方法研究,也将给大数据处理带来新的思路。
关于Hinton教授使用RBM(限制波尔兹曼机)训练邻接两层,基于DBN (深信度网络)。AutoEncoder及DenoiseAuctoEncoder等非监督逐层训练算法相继提出。此外,传统表达式学习概念也不断融入深度学习模型中形成SparseAutoencoder等稀疏分布式表达新方法。受著名的Hubel-Wiesel生物视觉模型的启发,尤其是对V1和V2层中simple cell和complex cell行为的模仿,LeCun(现纽约大学教授、FacebookAI研究室主任)提出了CNN(卷积神经网络)的工作。近年,融入稀疏表达工作,LeCunn教授和他的学生发展了CNN(卷积神经网络),提出PSD(),该模型在行人检测、场景分析中都取得较好的成果。2012年,Hinton的学生XXX使用CNN模型,采用GPU并行技术在图像识别领域取得惊人的效果,在ImagNet评测上将错误率从26%降到15%。此外,Hinton的学生Matthew D. Zeiler提出Deconvolution的概念。余凯和他的学生在传统2-D CNN的基础上提出时间的概念,形成3-D Convolution模型,基于该模型的Action Recognition也在PAMI上发表。研究这发现,再大数据背景下,基于线性映射的深度网络同样可以去的较好的效果,甚至依托于大数据已不再需要逐层的预训练过程。Bengio和他的学生Xavier Glorot使用Deep Sparse Rectifier网络再MNIST、CIFAR10、NORB等数据集都取得较好效果。Matthew D. Zeiler将需要添加Andrew Ng的工作。