张慧
摘要:本文从研究深度学习出发,提出深度学习在增强学习领域能被高等教育借鉴的三种重要算法:时间差分学习、优先经验回放、创新指数,通过对这些算法的具体分析,总结这些算法如何优势互补,综合运用到高等教育教学实践上,提高高等教育教学效果。
关键词:深度学习;时间差分学习;优先经验回放;创新指数
中图分类号:G642.41 文献标志码:A 文章编号:1674-9324(2018)31-0239-03
一、引言
“深度学习”本质上是一个计算机科学领域的概念。谷歌的深度学习机器人Alpha-Go在围棋上轻松战胜人类顶尖高手的故事已经家喻户晓。如果把中国棋院、韩国棋院、日本棋院比作世界围棋界最顶尖的三所高校,顶尖的棋手是这三所高校最优秀的毕业生。而Alpha-Go开发团队里围棋水平最高的工程师也只有业余五段,相当于小学毕业学历,一天大学都没有上过,但是掌握了深度学习方法的学生,结果成绩远远超越了所有顶尖大学最优秀的毕业生。这是一个值得思考和研究的问题。深度学习和AI(Artificial Intelligence)“人工智能”紧密相关。
计算机是通过数理逻辑运算来进行学习的,如果计算机的深度学习算法反向被人类学习借鉴,那就表明这些学习方法在数理逻辑上也是可以被证明有效的。本文从这个角度出发,提出已经在深度学习上得到检验有效的“算法”,反过来也可以让人类的学习方法和效率得到提升,最后提出深度學习的研究成果对高等教育教学的启示。
二、深度学习概述
深度学习是近十年才被提出的一个概念(Hinton[1],2006)。简单地说深度学习就是让计算机通过模仿人类大脑的神经网络能够像人类一样学习。
深度学习分为“认知”学习和“增强”学习两大类。
(一)认知学习
深度学习根据其应用的领域不同,或者说模仿人脑的机能不同,分为“认知”学习和“增强”学习两大类。
所谓“认知学习”,就是每一项输入都有一个标准的输出答案。例如图像识别、语音识别、数学计算题、史实知识点,等等。因为监督者立刻就可以反馈对或错,所以也被称为“有监督的学习”。
(二)增强学习
而“增强学习”和“认知学习”最大的不同就在于没有标准答案。对于没有标准答案的问题,就不能轻易地去否定或肯定一个与原来流行的权威理论不同的思想,而是随着不断地探索,会得到一些时而清晰时而模糊的反馈,要经历一个较长的过程才能看出最终的结果是好是坏。当下的每一步是对整体结果的“增强”。下围棋就是这样的,一步棋的好坏在当时并不明确,而随着棋局的进一步展开才会显现,而最终的输赢要在很多步之后才明确。因为无法立刻反馈对或错,所以这种学习也被称为“无监督的学习”。
增强学习核心有三个部分:
1.状态(State):关于当前状态的变量。
2.行动(Action):计划采取的行动。
3.回报(Reward)采取行动后新的状态对原有状态的改变。
深度学习对高等教育教研的启发主要在“增强”学习领域。
高等教育和初等教育的一个重要区别是,初等教育的学习方法中“认知”占了很大的比重,而高等教育的学习方法中“增强”占了很大的比重。这并不意味着增强学习要比认知学习来得更难。只能说对计算机来说意味着不同的算法,而对人类来说则意味着不同的思维方式,不同的算法(不同的思维方式)对应解决不同的问题。例如,让一个建筑工程师设计一幢新的楼房要比让他学会一门新的外语容易很多,虽然前者属于增强学习,而后者属于认知学习。
下面就具体分析三个增强学习中的重要算法及其对高等教育教学的启发。
三、增强学习中的三个重要算法:TD Learning,PER和Epsilon
(一)时间差分学习(Temporal Difference Learning,简称TD Learning)
时间差分学习是在“动态规划”算法和“蒙特卡罗模拟”算法的基础上发展起来的。
动态规划类似于“穷举法”,把未来可能出现的状况全部罗列出来,逐个比较。它的缺陷也很明显:当问题的复杂程度提高时(表现为变量的增加),它需要的计算量呈指数级增加。例如,一个真实的19*19的围棋盘,变化有3361种,这个数字比全宇宙的原子数还要大,现有的任何计算机都无法计算。这也即是所谓的“维度的诅咒”(Curse of Dimensionality)。
“蒙特卡罗”模拟针对“维度的诅咒”进行优化,不要求“穷举”,而是用数据反复试验来得到结果。蒙特卡罗模拟算法比动态规划算法的运算量大大减少了,但是因为每做一次实验都要从头算到尾,针对复杂问题的运算量依然很大。
时间差分学习法把动态规划和蒙特卡罗模拟结合起来,也就是说不需要每次都从头算到尾了,只要根据当前的回报和下一个状态值来更新现在的状态就可以了。
(二)优先经验回放Prioritized Experience Replay(简称PER)
前面讲到的时间差分学习法有一个弱点,那就是容易“一叶障目,不见泰山”。造成这个弱点的一个重要原因是,深度学习所使用的实验数据是高度相关的连续数列。解决这个问题的方法是“经验回放”。
深度学习领域的经验回放概念最早由Lin Long Ji[2](1993)提出。在学习过程中,经验(x,a,y,r)不断被保存到一个数据集中区,并且还不断地被调用,而不是只根据最新获取的经验来更新。在实际生活中,能够记住的“经验”总是有限的,计算机虽然储存容量大,但依然是有限制的。因此,一个改进的算法“优先经验回放”(Prioritized Experience Replay,PER)就很重要。结合上面的时间差分学习法,那些和预期值偏离越大的“经验”被赋予特别高的“优先级”,它们未来被调用的可能性就越高,这样就避免了传统学习中常见的“好了伤疤忘了疼”的重复犯错。
(三)创新指数Epsilon
在深度学习中有一个重要的问题“勘探还是开发”(exploration or exploitation)。所谓“开发”,就是充分利用已知的“最优策略”(但不一定是真正的“最优策略”)来获取利益最大化。所谓“勘探”就是不断尝试新的策略,争取对现有的策略进一步优化,但在尝试的过程中,很有可能结果远差于已知的最优策略。可见勘探策略和开发策略是存在一定矛盾的。
解决这个问题的方法是“含创新指数的贪婪策略”(epsilon-greedy strategy)或称“有时不贪婪的策略”。因为利用已知的最优策略是一种“只顾眼前的贪婪行为”,长远来看或者总体来看未必是最优的。Deepmind公司,也就是后来被谷歌收购并开发了Alpha-Go的公司,在2013年时发表了一篇划时代的论文(Mnih,V.,etc.[5],2013),讲述了其利用深度学习技术让计算机学习打游戏的研究成果。其中就用到了“含创新指数贪婪策略”。
完全自主学习的计算机,没有人类指导,仅仅依靠游戏得分作为唯一的反馈信息。在经过100万个动作的深度学习后,在7个游戏中有6个游戏超越了人类最高得分,在某些游戏上甚至找到了人类从来没有发现的高效玩法。这个深度学习玩游戏计算机就是Alpha-Go的雏形。
四、深度学习概念对高等教育教学的启发
(一)时间差分学习法的启发:持续评估和调整的重要性
在高等教育中,完整的动态规划实际上是不可能实现的。教育远比围棋还要复杂,要穷举变量是不可能的。现有的教学方法,类似于“蒙特卡罗”模拟,在一个教学过程完成后进行一次评估(考试、论文等),有些学生得了高分,有些学生得了低分,然后根据学生的成绩综合评估一下教学质量,再进行调整。在这个过程中,有些得低分的学生可能从一开始就跟不上,从而失去了学习的兴趣,然后不可避免地影响到教学的质量。
从时间差分学习法中得到的启示是在教学过程中持续评估和调整的重要性。要实现最终的教学目标,重要的是在过程中间每一步都做到效益最大化。由于课堂上的时间有限,通过课后作业、课后讨论、答疑等方式获取学生的反馈,及时评估和调整教学方法是非常重要的。教学目标也应该随着教学过程进行动态调整。如果说最优的目标为10分,但是并不是所有的学生都可以达到10分,如果一味以10分为目的,部分学生有可能因为挫败感而失去兴趣和信心,最终只得到1分。相反,如果及时调整目标,把目标从10分降低到6分,绝大部分学生能够达到并且最终也达到了,这反而是最优的结果。
(二)PER的启示:学科交叉的有益性
一门学科的知识总是连续的、相关的。一门学科的重大突破有时来自其他领域思想的灵感。所以,在高等教育方面总是希望既博又深。然而人的精力是有限的,如同计算机能够储存的“经验”有限一样,所以就要特别重视学科的“优先经验”。高等教育传统上理解的“优先经验”就是每门学科的基础知识,所以在本科阶段非专业课程往往就以某某学科的基础知识做介绍性的讲解为主,这是远远不够的。
PER的“优先经验”表明,最优先的不是基础知识,而是这门学科不同于其他学科的独特的思想方法、研究方法,这些才是“和预期值偏离最大”的部分,这些方法往往会体现在最前沿的研究和探索中。例如广义相对论中的空间几何并非大家熟知的欧几里德几何,而是黎曼几何。爱因斯坦如果只知道欧几里德空间,他就很难找到广义相对论的数学表达式。
目前,线上教育领域给予了学生更多的选择权,学生可以根据自己的兴趣选择学科、选择课程、选择教師。作为高校,在非专业课程方面,应该注重“前沿化”,充分发挥多媒体教学的优势,深入浅出地介绍最新的发现、思想和理论。
(三)epsilon的启示:探索型教学
2017年5月Alpha-Go 2.0对战围棋世界冠军柯洁,众多围棋高手云集观摩评棋。在评棋的现场,棋手古力与他的老师聂卫平开玩笑说:“这步棋要不是Alpha-Go下的,聂老师一定会说‘你的围棋水平还差得远!”这句玩笑话指出了探索型教学的困境:偏离传统的探索往往一开始就被否定了。
对于探索型教学已经有大量的研究,并提出了一些范式。而真正的探索型教学,应该是没有范式的。“含创新指数的贪婪策略”(epsilon-greedy strategy)指出了探索型教学的关键点:
1.探索是和已知的最优策略(主流的理论、成功的经验)无关的。只要符合规则,就不应该再设定条条框框。
2.探索的结果有随机性,不一定比原来的最优策略好。
3.即便是已经被反复证明过的理论,让学生探索一下也是有益的。一条定理让学生自己设法证明要比让他背出来好,因为证明定理的“经验”在未来的“回放”中会起作用。
4.看似毫无进展的探索活动,对提高学习的效果,对最优策略的改进仍然很有益。这就是常说的“失败是成功之母”的证明。
5.探索和总结归纳要结合起来,如果总是漫无边际地探索,也不是正确的学习方式。
探索型教学注重探索,鼓励创新,着眼动态课程生成系统,在这个系统中,教学模式根据学生的反馈不断进行调整,不断进行优化,有选择和淘汰机制,不断淘汰验证低效的学习方法,尝试新的有效的学习因子,线上线下教育相结合,形成一个动态的生态闭环。
五、结语
本文通过研究深度学习在“增强学习”领域的三个重要算法:时间差分学习、优秀经验回放、创新指数,分析这些算法不同的特点,得出带给高等教育教学的启发性建议:需持续评估和调整教育的生态系统,注重学科的交叉性,避免闭门造车和经验主义,教学中既有深度又有广度,提倡在教学中包含一定比例的探索型教学,对整个教学系统进行动态调整,不断优化,以达到提高教学水平和学生学习效率的效果。
参考文献:
[1]Hinton,G.E.,Osindero,S.and Teh,Y.,A fast learning algorithm for deep belief nets [J].Neural Computation,2006(18):1527-1554.
[2]Long-Ji Lin,Reinforcement learning for robots using neural networks [D].Technical report,DTIC Document,Carnegie Mellon University,1993.
[3]Mnih,V.,Kavukcuoglu,K.,Silver,D.,Graves,A.,Antonoglou.,I.,et.al.Playing Atari with Deep Reinforcement Learning [J].Computer Science,2013,(1):1-9.
[4]张浩,吴秀娟.深度学习的内涵及认知理论基础探析[J].中国电化教育,2012,(10):7-21.
[5]段金菊,余胜泉.学习科学视域下的e-Learning深度学习研究[J].Journal of Distance Education,2013.(4):43-51.