基于加权密集连接卷积的深度强化学习方法总结

2018-07-23 08:09大连理工大学刘朋硕

电子世界 2018年13期

大连理工大学刘朋硕

0.引言

强化学习到目前为止，已经有了几十年的发展历程了，这是一种集结理解能力、自动指向目标以及决策为一体的计算方式，近几年来对强化学习有了新一步的突破，传统的强化学习在解决简单问题的时候有出色的表现，但是在大规模问题中就存在较大的不确定性，因此，加权密集连接卷积的深度强化学习方法值得被提倡，也吸引了越来越多的人去研究这种深度强化学习方法，从而达到事半功倍的效果。

1.深度强化学习总体框架分析

在现实生产与生活活动中，如果遇到了大规模的问题，传统的强化学习在处理这些大规模问题的时候只能够解决表面，但是仍旧会出现维度灾难，尤其是实际生活中存在问题更是多种多样，需要更好的方法去解决，这也就是深度强化学习法，这种方法有多层单元组合，通过这种特征组合的方式，将原始的输入形式逐渐转化为浅层的特征、中层的特征以及高层的特征，这便是整个目标任务的过程，如果将深度学习和强化学习进行科学有效的结合，并且通过深度化的学习动进行数据的抽象表征，以此进行激励，从而有效的弥补传统的强化学习中发现的不足。

深度强化学习方法可以在不同的实际环境中使用，这种学习方法的适应性较强，但是如果卷积神经网络的层数太少，那么游戏的状态和信息是无法完全提取出来的。卷积神经网络可以让网络朝着更深或者更宽的方向发展，随着信息化技术的发展和网络科技的进步，网络层数不断在加深，节点不多增加，需要计算的量也有了成倍数的增加，这个时候使用加权密集连接卷积的深度强化学习方法就会起到更加理想的效果。

对于深度强化学习方法的整体框架，首先，提出的问题成为样本数据被输入，随后变为初始化深度网格参数，参数完成后再对训练样本进行科学的预测，根据预测得到的结果分析样本之间是否存在偏差，如果偏差过大，就要根据实际情况扩大训练样本的次数，如果偏差不大就可以继续分析样本之间存在的方差情况，如果方差过大，那么经过正规化的处理方式进行训练样本的预测工作，如果方差不大，接下来就可以直接设置深度学习的网格超参数，可以使用蒙特卡洛模拟数据抽样对网络中的数据流进行一次预测，随后设置好强化学习汇报的函数，根据函数的表现运用深度强化学习的策略对当前拥有的资源做好分析工作，最终得到结果[1]。

2.基于加权密集连接卷积的深度强化学习方法

2.1 密集连接卷积网络

与传统的卷积神经网络不同，加权密集连接卷积在传统的模式基础上是一种全新的网络连接模式，不同的层次之间需要进行跨层连接，网络中前后两层信号可以在输出层和输入层之间进行高速的流通，加权密集连接卷积网络能够将其中所有的层以两两的方式连接在一起，这样网络当中每一层都可以去接受之前所有层表现出来的特征，并且以此进行输入操作。在密集连接状态下的网络结构中，每一层特征图都需要经过批量归一化、Relu激活和卷积操作，如果在卷积操作的时候遇到了瓶颈，可以根据实际情况减少输入特征图的数量，从而有效的提高整个计算的效率。如果想要每一层的特征都能够得到反复的利用，在跨层连接的时候可以使用并联的方式，也就是在加权密集连接卷积网络中每一层的输入信息都能包含之前每一层的实际输出。

经过分析得知，密集连接卷积网络主要有着两个特性，第一个特性是密集连接卷积网络在反向误差传播的时候，每一层网络都可以接收到在这之后所有层中传递过来的梯度信号，这种情况下，即使密集连接卷积网络层数在不断增加，靠近输入层的梯度也会变得越来越小，这个时候在一定程度上就可以减少整个训练过程中出现梯度消失的问题。第二个特性是密集连接卷积网络结构中有大量的特征在重复使用的时候，可以使用少量的卷积核生成大量的特征，有效的降低模型中需要用到的计算量，这个时候整个模型的尺寸也能够得到有效的控制，达到比较小的状态[2]。

2.2 加权密集连接

密集连接卷积网络跨层连接的过程中，每一层之间都属于平等的关系，如果只是将当前的密集连接卷积网络层与之前所有的密集连接卷积网络层之间并联完成后再进行操作，这个时候每一层之间的密集连接卷积操作都有着不同的作用和效果，得到的特征信息也不会相同，所以在进行密集连接卷积网络跨层连接的时候要保持分明的主次关系，也就是说密集连接卷积网络跨层连接的时候当前的网络层会起到主要的作用，之前所有的密集连接卷积网络可以起到辅助的作用。如果加权密集连接卷积网络层在进行跨层连接的时候，需要进行权重的分配，如果当前密集连接卷积网络层权重的系数为1，那么每一层的权重设置就是w，w的大小范围在0和1之间，最小不低于0，最大不超过1，加入加权密集连接卷积网络连接块中当前的层之前一共有i层密集连接卷积网络，那么到了第i层的时候整个密集连接卷积网络的权重就是：

深度卷积神经网络是这一波 AI 浪潮背后的大功臣。虽然很多人可能都已经听说过这个名词，但是对于这个领域的相关从业者或者科研学者来说，浅显的了解并不足够。近日，约克大学电气工程与计算机科学系的 Isma Hadji 和 Richard P. Wildes 发表了一篇《我们该如何理解卷积神经网络？》的文章，帮助人们加深了对深度卷积神经网络的理解，阐述了几种多层神经网络，并介绍当前计算机视觉领域应用中最成功的卷积结构；具体介绍了标准卷积神经网络中的各构成组件，并从生物学和理论两个角度分析不同组件的设计方案；讨论了当前卷积神经网络设计的趋势及可视化理解卷积神经网络的相关研究工作，还重点阐述了当前结构仍存在的一些关键问题[3]。

2.3 网络模型的具体实现

加权密集连接卷积网络之间层数越深，关于特征的维度就会增长的越快，由于每隔一层的时候都需要根据实际情况采样，最终完成降维操作。如果将加权密集连接卷积网络分为三个部分，这样就可以降低特征维度的增加，加权密集连接卷积网络可以在环境当中将当时存在的状态进行截图处理，并且以其作为网络的输入模式，经过一层加权密集连接卷积网络的常规卷积过程，然后进入第一个需要加权密集处理的连接块，在整个加权密集连接卷积网络运行训练中会产生大量的样本数据，所以在开始的时候需要随机的方式选择动作，使这些动作在最短时间内熟悉好语言环境信息，并且将数据保留在经验池当中，人们需要的时候来到经验池根据训练的情况与内容随机抽取一部分进行网络学习。

2.4 经验池回放

加权密集连接卷积网络的深度强化学习方法中，关于经验池回放这一个概念早在上个世纪末就提出来了，训练的全过程中需要进行大量的样本数据深度学习，传统的样本学习方法已经无法满足加权密集连接卷积网络的深度强化学习的要求，因此，人们需要根据样本数据的情况进行多次的使用，保证经验池的技术可以解决这个问题。加权密集连接卷积网络的深度强化学习方法中经验池回放指的就是将之前拥有的样本数据全部存储起来，每一次训练的时候再找出一部分样本进行网络学习，经验池的存在可以克服了数据分布不平衡的问题，同时在一定程度上也有效的提高了数据的利用效率。使用者经过多次的反复样本学习以后，可以避免学习中再次接触到同样的样本，如果加权密集连接卷积网络的深度强化学习方法下经验池中样本数据已经达到了设定的上限，新的样本就会将原有的旧样本替换下去，从而保证加权密集连接卷积网络中样本被抽到的概率一直处于相似的情况。

3.总结

总而言之，随着学习方法的更新和信息化手段的创新，将加权密集连接卷积网络的深度强化学习方法中所有的元素紧密联系在一起，在训练的过程中不断的调整每一层网络的权重值，随后有效的提取到特征性信息，保证加权密集连接卷积网络的深度强化学习处理图像时更加省时高效，对于这种深度强化学习方法的研究不会止步不前，而是随着时代的进步和发展不断有新的发现。