深度学习浅谈

2017-07-14 09:25沈荣张保文

电脑知识与技术 2017年16期

沈荣+张保文

摘要：文中对深度学习的发展现状及合作领域进行了阐述，对深度学习的基本模型进行了介绍。主要对卷积神经网络的基本模型进行了介绍，对卷积神经网络模型的基本工作原理进行初步分析，对深度置信网络和循环神经网络进行了基本描述，为后续深度学习及卷积神经网络的深入学习打下基础。

关键词：深度学习；机器学习；卷积神经网络

1概述

深度学习（Deep Learning）是人工智能、图像建模、模式识别、神经网络、最优化理论和信号处理等领域的交叉学科，主要构建和模拟人脑进行分析学习，它属于机器学习的新兴领域。

2大数据与深度学习

目前，光学检测、互联网、用户数据、互联网、金融公司等许多领域都出现了海量数据，采用BP算法对于训练神经网络出现了梯度越来越稀疏、收敛到局部最小值只能用有标签的数据来训练等缺点。Hinton于2006年提出了深度学习的概念，Lecun等人提出了卷积神经网络，卷积神经网络利用空间关系减少参数数目以提高训练性能。

CPU和GPU计算能力大幅提升，为深度学习提供了硬件平台和技术手段，在海量大数据处理技术上解决了早期神经网络训练不足出现的过拟合、泛化能力差等问题。

大数据和深度学习必将互相支撑，推动科技发展。

3深度学习模型

深度学习模型实际上是一个包含多个隐藏层的神经网络，目前主要有卷积神经网络，深深度置信神经网络，循环神经网络。

1）卷积神经网络

在机器学习领域，卷积神经网络属于前馈神经网络的一种，神经元不再是全连接的模式，而是应用了局部感受区域的策略。然而传统的神经网络使用神经元间全连接的网络结构来处理图像任务，因此，出现了很多缺陷，导致模型參数急剧增加，及其容易过拟合。

在卷积神经网络中，网络中的神经元只与前一层的部分神经元连接，利用图像数据的空间结构，邻近像素间具有更强的相关性，单个神经元仅对局部信息进行响应，相邻神经元感受区域存在重叠，因此，综合所有神经元可以得到全局信息的感知。

另外，一个卷积层中的所有神经元均由同一个卷积核对不同区域数据响应而得到，即共享同一个卷积核，使得卷积层训练参数的数量急剧减少，提高了网络的泛化能力。

一般在卷积层后面会进行降采样操作，对卷积层提取的特征进行聚合统计。降采样区域一般不存在重叠现象。降采样简化了卷积层的输出信息，进一步减少了训练参数的数量，增强了网络的泛化能力。

卷积神经网络实现了局部特征的自动提取，使得特征提取与模式分类同步进行，适用于处理高分辨率的图像数据。目前，卷积神经网络在图像分类、自然语言处理等领域得到广泛应用。

2）深度置信网络

深度置信网络是一种生成模型，网络中有若干隐藏层，同一隐藏层内的神经元没有连接，隐藏层间的神经元全连接。神经网络经过“反向运行”得到输入数据。

深度置信网络可以用做生成模型，通过前期的逐层无监督学习，神经网络可以较好的对输入数据进行描述，然后把训练好的神经网络看作深度神经网络，最后得到分类任务的深度神经网络。

深度置信网络可以用于图像识别、图像生成等领域，深度置信网络可以进行无监督或半监督的学习，利用无标记数据进行预训练，提高神经网络性能。但近几年由于卷积神经网络的飞速发展，深度置信网络已经很少被提及。

3）循环神经网络

循环神经网络是一种专门用于处理时序数据的神经网络，它与典型的前馈型神经网络最大区别在于网络中存在环形结构，隐藏层内部的神经元是互相连接的，可以存储网络的内部状态，其中包含序列输入的历史信息，实现了对时序动态行为的描述。这里的时序并非仅仅指代时间概念上的顺序，也可以理解为序列化数据间的相对位置。如语音中的发音顺序，某个英语单词的拼写顺序等。序列化输入的任务都可以用循环神经网络来处理。如语音、视频、文本等。对于序列化数据，每次处理时输入为序列中的一个元素，比如单个字符、单词、音节，期望输出为该输入在序列数据中的后续元素。循环神经网络可以处理任意长度的序列化数据。

循环神经网络可以用于机器翻译、连写手写字识别、语音识别等。循环神经网络和卷积网络结合，将卷积神经网络用于检测并识别图像中的物体，循环神经网络用于识别出物体的名称为输入，生成合理的语句，从而实现对图像内容的描述。

4深度学习应用

1）语音识别

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。其应用领域主要有语音输入系统、语音控制系统和智能对话查询系统，语音识别极大地推动了人工智能的快速发展。1952年Davis等人研究了世界上第一个能识别10个英文数字发音的实验系统。大规模的语音识别研究是在20世纪70年代以后，在小词汇量、孤立词的识别方面取得了实质性的进展。2012年，微软研究院使用深度神经网络应用在语音识别上将识别错误率降低了20%，取得了突破性的进展。2015年11月17日，浪潮集团联合全球可编程芯片巨头Altera，以及中国最大的智能语音技术提供商科大讯飞，共同发布了一套DNN语音识别方案。

2）图像分析

图像是深度学习最早尝试的应用领域。1989年，LeCun和他的同事们就发表了卷积神经网络的工作。2012年10月，Hinton和他的两个学生用更深的CNN在ImageNet挑战上获得了第一名，使图像识别向前跃进了一大步。

自2012年以来，深度学习应用于图像识别使得准确率大大上升，避免了消耗人工特征抽取的时间，极大地提升了效率，目前逐渐成为主流的图像识别与检测方法。

3）自然语言处理

自然语言处理（NLP）是深度学习的另一个重要的领域。它是计算机科学与语言学的交叉学科，自然语言用电脑处理人类的语言，如英语、汉语、法语等，其主要应用包括机器翻译、信息抽取等。