刘 崇 宋雨彤 孟 坤 林绍博
(北方工业大学电气与控制工程学院,北京 100144)
强化学习来源于心理学中的行为主义,作为解决序贯决策的重要方法,它采取持续的“交互-试错”机制,通过与环境的不断交互学得有效策略。强化学习过程反映了人脑如何做出决策的反馈系统运行机理,符合人类面向实际问题时的经验性思维与直觉推理的一般决策过程。因而,近年来,强化学习在人工智能领域得到广泛而深入的应用,并成为当前突破类人智能的关键性机器学习方法。
强化学习在视频游戏、棋牌类游戏、物理系统的导航与控制、用户交互算法等领域的表现已经接近或超过了人类水平。特别是DeepMind团队将深度学习、深度强化学习与蒙特卡洛树搜索技术深度融合,研发出的智能围棋程序AlphaGo,在2016年3月Alpha GoLee战胜李世复,2017年5月AlphaGoMaster战胜世界围棋冠军柯洁,人工智能都展现出了强化学习的巨大潜力。强化学习也是复杂城市交通网络自适应交通信号控制(ATSC)中一种很有前途的数据驱动方法[1]。
强化学习技术已被应用于单个交叉口的实时交通信号控制问题[2-5],使用Q-Learning算法,用现实的交通数据在地图上进行数值模拟。仿真结果表明,使用Q-Learning算法的解决方案在行人排队的长度、十字路口的等待时间,以及许多其他关键指标上均优于现有的解决方案[6]。
在工程方面,有研究设计并实现了两个分别基于VISSIM和SUMO仿真软件的交通信号控制仿真平台。这两个平台面向强化学习算法进行设计和优化,并且在专业的仿真软件基础上二次开发,提高了仿真实验的可信度。
该教学平台的研究意义为以下四点:
(1)强化学习的教学推广:由于强化学习算法进行实验的难度大,对主流仿真软件的开发困难,传统的教学大多数不包括用强化学习算法来进行信号配时的优化,学生难以理解强化学习算法,该平台可以解决该类问题,促进强化学习的推广和教学。
(2)灵活性强:该平台可以令使用者更加自由地选择路网、更改学习模型和动作选择机制等。
(3)便于结果比较:以图像方式呈现仿真的数据,动态图展现实时变化,静态图进行总体统计,学生可以更加直观地观察路网的优化结果。
(4)提高师生间沟通效率:该平台简化了学生们的实验步骤,学生可以快速地进行大量实验,同时通过系统自主评分,加快评价速度并提高评价的准确性。
在学生端,通过核心控制模块控制5个主要模块。5个主要模块分别为仿真运行模块(包括路网绘制子模块)、算法控制模块(包括Sarsa算法子模块、Q-Learning子模块)、图像运行模块(包括统计对比子模块、实时对比子模块)、数据处理模块(包括数据保存子模块、数据运算子模块)和系统评分模块(包括评分评价子模块)。5个模块中的子模块通过数据传输,彼此之间相互协调,进而运行整个系统平台。
在教师端,分为三个模块,分别是学生签到模块、报告检查模块、成绩排名模块。
系统结构图如图1所示。
图1 系统结构
强化学习是机器学习领域的研究热点,是考察智能体与环境的相互作用,做出序列决策、优化策略并最大化累积回报的过程。强化学习具有巨大的研究价值和应用潜力,是实现通用人工智能的关键步骤。此平台让学生接触到交通信号控制领域中的AI技术,学生不再只是学习教科书上传统的配时方案,而是可以跟随社会发展的大趋势,尝试开拓新的领域。
强化学习具有较强的适应性和通用性,在交通信号在线控制策略优化方面具有很大潜力[7]。学生通过改变强化学习算法中的各项参数进行尝试,使信号配时达到最优效果。
该平台包括强化学习的两种经典算法Sarsa和QLearning,学生可通过改变参数进行实验。通过该平台展示的强化学习算法与传统固定配时在实验中的对比,让学生在逐渐探索的过程中,体会强化学习算法对信号控制的影响。
学生通过选择算法、路网、动作选择机制并且输入相关参数,即可开始进行实验,省去了需要学生自己进行配置等不是考察重点的冗长环节,避免了学生入门困难,难以找到方向的问题,同时在一定程度上缓解了学生们的畏难情绪;并且通过简单的操作流程即可进行大量的实验,使学生可以更深刻地理解算法。
该平台通过动态图的实时变化、静态图的统计结果进行展示,使学生可直观地观察到强化学习算法对交通控制信号的优化情况。
该平台通过评分系统对学生的实验情况进行评估打分,便于学生对不同参数进行学习理解后做优选以及老师对学生实验情况的整体把握。
该平台主要是为交通领域内AI算法的日常教学设计的实验仿真平台,可用于学生的日常实验和平时测试中。此平台可向对强化学习尚未接触过的学生进行普及和推广,一方面有助于学生进行先进的AI算法的学习及实验,另一方面还能够帮助教师掌握教学情况,提高教学质量。未来经过进一步的开发,该平台将成为主流的面向AI算法的路网仿真教学软件。
学生端主要包含学生的个人信息和教学过程中强化学习AI算法的常见参数设置等相关内容,可以根据学生所选择的评价指标对比出优化效果的百分比,为学生进行打分评价。
教师端包含学生的个人信息以及成绩排名,实验结束后,教师可以查看学生实验过程的报告,了解同学们对于相关知识的掌握程度。
学生端选择界面如图2、图3所示,教师端界面如图4所示。
图2 学生端选择界面1
图3 学生端选择界面2
图4 教师端成绩排名界面
经过对强化学习算法在交通领域相关文献的查阅和大量实验数据的分析,得出强化学习算法用于交通信号控制对路网的运行有着很大程度的优化。同时发现,当下强化学习在交通信号控制领域的应用与推广有着极大的限制。由于国内大部分高校的交通专业都偏向传统交通,学生对于计算机算法的了解会有所欠缺,并且AI算法难度较大,教师难以在课堂中进行教学,学生难以真正接触到此领域,使得相关知识的学习和实验实行困难。因此,本次课题开发的面向AI算法的交通信号控制优化仿真教学平台,有助于学生了解相关领域,简化了AI算法的学习和实验过程,使得学生们在上课过程中更加方便进行先进AI算法的学习及实验,从而让学生们更容易理解AI算法在交通优化领域的应用和影响;并帮助教师通过教师端的反馈情况掌握学生学习情况,得到教学情况的概览,从而进一步提升教学质量。
现阶段AI算法已经在各个传统领域有所应用,并已取得非常多的成果。近年,国内外对AI算法在交通信号控制方面进行了大量的研究和实验,均已表明AI算法在交通信号控制方面有着显著的作用,所以培养我国高校大学生对于AI算法认知和学习是必然的进程。该平台在教学中的应用是创新的一大步,也对AI算法在交通信号控制优化领域的应用推广以及人才培养有重大意义,同时对智能交通系统的发展有积极的作用。
目前,该平台的算法提供Sarsa和Qlearning两种AI算法,未来随着研究的进一步深入,将会提供更多的算法进行探索学习,同时也会进一步完善平台的结构,使其内容丰富、实验模式更新、平台界面美化,真正成为一款主流的、面向AI算法在交通信号控制领域的教学软件。