高振洋 秦斌
摘要:在高端人工智能领域中,感知力和决策能力都是衡量智能水平的重要指标。将深度学习的感知能力与强化学习的决策能力相结合,使得智能体能够从高维的状态动作空间中感知信息,通过得到的信息对模型进行训练、做出决策,以能够通过端对端的学习方式来实现从原始输入到输出的直接控制。本文介绍了深度学习和强化学习基础知识;阐述了深度强化学习主流算法中的DQN及其变种和应用,分析了深度层次强化学习算法。最后对相关工作做了总结和展望。
关键词:深度学习;强化学习;深度强化学习;层次强化学习;人工智能
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2019)04-0157-03
Abstract:In the field of advanced artificial intelligence, perceptual ability and decision-making capacity are both important indicators to measure the level of intelligence.Combining the perceptual ability of deep learning with the decision-making capacity of reinforcement learning, which makes that the agent can perceive imformation from the high-dimensional state action space, train the model and make decisions through the information obtained. So that we can achieve the direct control from original input to output through end to end learning. In this paper, we introduce the basic knowledge of deep learning and reinforcement learning; Elaborating the DQN and its variants and applications, which is the mainstream algorithm of deep reinforcement learning, analysising the algorithm of deep hierarchies reinforcement learning. Finally, the related researches were summarized and prospected.
Key words:Deep learning; Reinforcement learning; Deep Reinforcement learning; Hierarchies reinforcement learning; Artificial Intelligence
2016年由Google拥有的人工智能(AI)研究团队DeepMind创新性地将具有感知能力的深度学习(Deep Learning:DL)和具有决策能力的强化学习(Reinforcement Learning:RL)相联合,提出了深度强化学习(Deep Reinforcement Learning:DRL)算法。通过DRL算法训练得到的围棋智能体——AlphaGo击败了人类顶尖职业棋手,引起了全世界的关注,开启了AI领域研究的新时代。
近几年,DRL算法被广泛应用于视频预测、文本生成、机器人、机器翻译、控制优化、目标定位、文本游戏、自动驾驶等多个领域中,展现了强大的适应和学习能力。因此,深入分析和研究DRL算法,对于促进人工智能领域的发展及拓展其应用具有极其重要的意义[1]。
1 深度强化学习理论基础
1.1 深度学习
2006年,Hinton及其学生等人[2]提出了深度网络的概念,开启了DL研究的热潮。DL的核心思想是对观察数据进行分层特征表示,实现由低级特征进一步抽象到高级特征[3]。
深度学习的模型主要有:深度信念网络(DBN)、卷积神经网络(CNN)、循环神经网络(RNN)等。
深度学习的发展阶段包括:萌芽期:BP算法的发明(1970s-1980s)到2006年;发展期:从2006年Hinton等人提出的‘深度学习概念以及训练方法到2012年。该阶段主要以深度无监督学习为研究重点;爆发期:从2012年Hinton团队的Alexnet模型[4]在Imagenet竞赛中取得惊人的成绩至今。
当今社会,深度学习广泛应用于人工智能相关多个领域,极大促进了机器学习的发展。受到世界各国高科技公司和研究人员的重视。
1.2 强化学习
强化学习(RL)是机器学习中的重要学习工具。主要解决的是序贯决策问题,智能体(Agent)通过动作与环境进行交互时,环境会返给Agent一个当前的奖励,Agent根據当前的奖励评估所采取的动作。经过数次迭代学习后,Agent可以最终学到达到相应目标的最优动作(最优策略[5])。
RL问题通常由马尔科夫决策过程(Markov Decision Process, MDP)来建模。MDP通常由元组(S,A,P,R,γ)描述,其中:
(1) S为所有环境状态的集合,s·S。
(2) A为有限的动作集合,a∈A。
(3) P为状态转移概率,P(s/s,a)表示在s状态下执行动作a时,转移到s的概率。