深度学习研究概述

2015-05-30 21:19:22聂振海贾丹

科技创新导报 2015年30期

聂振海贾丹

摘要：基于“深度神经网络”（DNN，深层神经网络）的机器学习模型，已在语音识别、图像识别和自然语言处理领域取得突破进展。深度学习极大地拓展了机器学习研究领域，并推动人工智能技术取得迅猛发展。深度学习通过多层人工神经网络，从大量的训练数据集中无监督学习，不断地归纳总结并可对新的数据样本做出智能识别和准确预测。

关键词：深度学习人工神经网络机器学习

中图分类号：TP181 文献标识码：A 文章编号：1674-098X（2015）10（c）-0224-02

20世纪80年代末，人工神经网络反向传播算法（BP，反向传播）发明，极大地扩展了机器学习的研究基础，继而推进基于统计模型的机器学习范畴。BP算法允许使用的人工神经网络模型，从大量的统计规律，预测未知事件的训练样本的学习。根据对比的实验结果，基于人工规则的统计模型机器学习方法，结果表明具有相对优越性。基于人工神经网络BP算法，虽然被称为多层感知器，但仍然是一个浅层的模型，只具有一个隐藏层节点。90年代以来，众多基于浅层模型的机器学习算法应运而生，如，支持向量机（SVM），Boosting，最大熵法（LR）等。这些模型的结构通常只包含一个隐层节点（SVM，Boosting），或者不隱藏节点（LR）。在学术研究和工业应用中证明：这些机器学习模型是一个巨大的成功。自2000年以来，随着IT行业的蓬勃发展，智能分析和大数据预测的技术在互联网领域呈现出巨大的市场需求，基于浅层模型的机器学习算法获得不断应用推广。如，移动应用平台的搜索广告系统，谷歌的AdWords广告的点击率估算，网络搜索排序（如雅虎和Bing搜索引擎），垃圾邮件过滤系统，社交媒体上的推荐系统内容推广。

传统的机器学习模式是通过监督学习和半监督学习，人工控制采样数据集的特征，浅层机器学习模型主要负责特征分类或预测。当基于统计模型的特征提取时，特征提取的好坏将成为决定整个系统性能优劣的关键因素。深度学习对机器学习模型和大量的训练数据的本质不同在于，即通过有许多隐藏的多层神经网络中无监督学习出更多隐含的特征，从而提高对数据集的分类或预测的准确性。深度学习模式不同于传统的浅层学习模型：（1）机器模型结构往往多于1层，通常有5层并隐含多层节点;（2）强调无监督学习，通过逐层功能的重要性变换映射出样品从原来特征空间改造成一个新的特征空间表示，使得分类或预测变得容易实现。利用大数据的特点来机器学习，阐明了基于深度学习的方法对比基于人工特征提取规则的传统浅层机器学习方法，更能深刻揭示出数据背后所隐含的丰富信息。

支持深度学习的基础，是因为人类大脑系统确实含有丰富的层次。2006年，多伦多大学的杰弗里·辛顿教授发表了1篇文章，介绍了传统机器学习的突破，即深度学习。（1）基于人工神经网络隐层的学习能力优异的特性，无监督学习更能深刻获取大数据的隐含信息，从而方便地对数据进行可视化或分类处理;（2）深度学习的难度可以通过无监督学习“逐层初始化”有效地克服。谷歌、Facebook等大数据顶尖的IT企业现在广泛深入的进入深度学习研究领域，在大数据时代，更复杂，更强大的模型往往更深刻地揭示出丰富的数据信息内涵，并对未来或未知事件作出更准确的预测。

1 语音识别

在语音识别领域，深度学习面临的问题是海量数据信息处理问题。在其声学建模部分，它通常面对10亿级别以上的训练样本。谷歌语音识别的研究小组发现，比对训练DNN预测误差和测试大致相等的样本之后，预测误差对训练样本的通常模式将显著小于测试样品。由于大量的数据包含了丰富的信息层面，DNN大容量复杂的模型也是欠拟合状态。

传统的语音识别系统，基于统计概率模型对每个建模单元描述时，大多采用高斯混合模型（GMM）。这种模式适用于大量数据的训练，成熟的区分度技术支持。但是高斯混合模型本质上是一种浅层网络建模，不能完全描述出空间分布特性的状态。GMM建模特征尺寸通常为几十维，不能充分地描述特征之间的相关性。最后，GMM模型本质上是一种可能性的概率模型，虽然区分度训练可以模拟并将一般模式类区分开来，但效果一般。基于神经网络的语音识别系统深入彻底改变了原来的语音识别技术框架。基于神经网络的深度可以充分地描述特征之间的相关性，它将语音设有多个连续的帧，多帧并在一起，构成一个高维特征，神经网络的最终深度可用于模拟高维特征的训练。由于使用人脑的多层神经网络的仿真结果的深度，可以进行逐步信息特征提取，最终形成理想模式的分类特征。其具体使用方法如下：在实际解码处理中，使用传统的统计语言模型，解码器使用常规的动态WFST译码器，采用传统的HMM声学模型的模型语音模型。当声音输出分布模型计算，完全与神经网络的后验概率乘以先验概??率后输出，以取代传统的HMM模型输出GMM的可能性概率。2011年，使用DNN技术的微软语音识别研究组，相对于传统的GMM语音识别系统，执行一个语音模型的语音识别系统，其相对误差的识别率下降25%，是语音识别领域的重大突破。

2 图像识别

1989年，纽约大学教授扬·LeCun公布的卷积神经网络CNN的研究。CNN具有一个卷积神经网络结构与深度，通常至少两个非线性卷积层可训练，两个非线性固定卷积层（池层）和一个完整的连接层，总共至少5个隐藏层。 CNN的结构的灵感来自于著名的胡贝尔-威塞尔生物视觉模型，特别是模拟视皮层简单细胞V1和V2复杂的细胞行为层。一段时间以来，CNN虽然对规模小的问题有比较好的效果，但对大规模高像素的图像识别，如，高清晰度的自然图像内容的理解效果并不理想。2012年，杰弗里·辛顿在著名的ImageNet问题，利用更深层次的CNN获得出更好的结果，并将错误率的评测从26%降低到15%。辛顿的模型，该输入图像的像素是不介入任何人工特征提取干预。识别效率变得优异的部分原因是因为优化的算法，从而防止过度拟合技术，同时受益于硬件带来GPU计算能力的提升和更多的训练数据集。深入学习将取代“人工特点+机器学习”的传统模型，逐渐成为图像识别的主流方法。

3 自然语言处理

深度学习的另一个应用领域是自然语言处理（NLP）。加拿大蒙特利尔大学Yoshua Bengio教授，提议将词映射到一个矢量表示空间用Embedding方法，然后用非线性神经网络模型来表示。在2008年，工业界成功使用结构化和多维卷积解决嵌入词性标注，组块，命名实体识别，语义角色标注四种典型的NLP问题。相较于声音和图像，语言是人类独有的创造性成果，全部符号的生成通过人类的大脑处理系统，但人工神经网络模拟人脑的结构，在处理自然语言没有显示出明显的优势。深度学习在自然语言处理方面广泛的扩展空间。

在大数据时代，深度学习已经推进机器学习研究的快速发展，引起学术界和工业界的充分重视。在实际应用中，深度学习已经在语音识别，图像识别与自然语言处理方面取得了显著的进步，从而促进人工智能的不断发展。

参考文献

[1] LeCun，Y.，Bengio，Y.and Hinton，G.E.（2015）.Deep Learning.Nature，2015，521：436-444.

[2] Hinton，G.E.，Osindero，S.and Teh，Y.fast learning algorithm for deep belief nets[J].Neural Computation，2006（98）：1527-1554.

[3] Hinton，G.E.and Salakhutdinov，R.R.Reducing the dimensionality of data with neural networks[J].Science，2006，313（28）：504-507.