代理技术Agent在智能车辆与驾驶中的应用现状

2019-07-10 07:13沈宇王晓韩双双陈龙王飞跃
指挥与控制学报 2019年2期
关键词:网联车辆智能

沈宇 王晓 韩双双 陈龙 王飞跃

1.中国科学院自动化研究所复杂系统管理与控制国家重点实验室北京100190 2.中国科学院大学北京100049 3.青岛慧拓智能机器有限公司山东青岛266000 4.青岛智能产业技术研究院山东青岛266000 5.中山大学数据科学与计算机学院无人系统研究所广东广州510275

智能传感、大数据、云计算及物联网等人工智能关键技术近几年的飞速发展,极大推动了智能汽车这一集感知–规划–决策–执行功能于一体的复杂智能系统的进步.智能汽车的出现将极大地改善交通状况、降低环境污染、减少交通负荷、保证交通安全,从而更好地推动社会发展.

智能体(Agent),又称代理系统,是在20世纪80年代中期兴起的属于分布式人工智能的一个概念,从20世纪80年代起,智能体和多智能体系统经历了快速的发展.智能体成为一个成熟的、有前途的研究和应用领域,它汇集并借鉴了许多学科的成果、概念和思想,包括人工智能、计算机科学、社会学、经济学、组织和管理科学和哲学.智能体系统的成功使得分布式人工智能(Distributed Artificial Intelligent,DAI)有了更加现代化的定义:多智能体系统的研究、构建和应用;也就是说,多个追求一定目标或者完成一些任务的相互交互、智能的智能体构成的系统[1].

基于智能体的方法由于在地理分布上的特性和周期性的忙闲操作的特点,非常适合用于交通和运输管理系统.值得注意的是,空中交通控制和冲突管理系统是智能体技术最先应用的几个领域,并且相关研究依然很火热[2].分布式交通监控任务(DVMT)是智能体研究和分布式人工智能历史上另一个早期的里程碑.Lesser 和Corkill 针对地理上不同分布的智能体之间数据和目标的通信,提出了“黑板”的概念[3−4].每个智能体可以感知被监控区域的一部分.然而,随着现代控制尤其是分级控制的兴起,城市交通管理问题的解决方案、基于功能分解的传统控制方法在理论研究和实际应用中越来越盛行[5].目前大部分的研究工作集中在发展分级结构、分析建模、优化算法等在实时交通中有效地应用,比如CRONOS,OPAC,SCOOT,SCAT,PRODYN,RHODES[6−8]等交通控制系统.

未来的智能交通系统(Intelligent Traffic Systems,ITS)应当全部由智能化、自主化的智能体系统构成.这些智能体运行在交通控制中心、道路交叉口、高速、街道等之间,通过因特网、无线网和自组织网在合适的时间获取准确的信息并且作出最正确的决策,使交通系统最终实现智能.

近些年来,越来越多的研究将基于智能体的方法应用到智能车的问题中去.例如自动泊车、运输规划、分布式控制和交通仿真等[9].尽管这些都是交通系统中的重要问题,但是并没有系统地解决智能交通系统的核心问题[10].网联智能汽车利用(Vehicle to Everything)V2X 技术实现车辆和其他智能体之间的信息交互,将汽车从传统的孤立驾驶环境下解放出来,能够有效降低交通事故、缓解交通堵塞以及提高交通出行效率.使用BDI 模型[11]将智能汽车建模为具有信念(Belief)、愿望(Desire)和意图(Intention)的智能体,信念为Agent 对世界的认知,包含描述环境的数据和描述自身功能的数据,例如周围智能车的运动状态、道路状况、交通信号以及智能车本身的导航、速度等,是Agent 思维活动的基础; 愿望是Agent 对环境状态的一种期待和判断,车辆需要基于信念信息判断当前加减速、是否并线、保持安全等;意图是Agent 要达到的目标,对于当前动作具有指导作用.传统的控制系统被分解为多个任务取向的Agent,能够在处理效率以及能耗等方面得到极大的优化[12],这对于追求安全、高效的智能车技术具有非常重要的意义.

本文第1 部分从智能体的基本特性出发,首先介绍了智能汽车本身作为由感知层、管理层和决策层等多个智能体模块构成的整体,分析各智能体模块之间协同与合作,构成可进化、发展的自主驾驶学习系统.接下来,第2 部分介绍网联智能汽车中Agent 技术的应用,对网联智能汽车场景下,车辆作为Agent 在车辆换道、交叉路口以及车辆编队等典型场景下的控制策略进行了概述.第3 部分则总结了基于Agent 的智能汽车仿真系统框架.第4 部分介绍了基于Agent 的平行驾驶是智能汽车安全上路的安全高效智能途径以及RSS 模型如何从法律角度规范智能汽车Agent 的行为.最后进行了总结,并对未来智能体技术在智能汽车中的应用进行了展望.

1 基于多Agent 的智能车架构

对于智能体Agent 最为广泛接受的定义来自于Russell 和Norvig 的拥有感知周围环境并通过执行器进行操作能力的灵活且自主的实体[13],图1给出了智能体系统构成.

图1 智能体系统的典型构成

与一般简单控制器相比,智能体的特性如下:

1) 情境性: 智能体可以通过传感器和执行器与周围环境进行交互,智能体所有输入都是其与环境交互的直接结果.这一点使其与专家系统不同.

2) 自治性: 智能体能够独立自主地选择自己的行为,而不受人为干预以及网络中其他智能体的影响.该属性保证智能体内部状态不受外界干扰的影响,尤其是外部扰动而导致的不稳定性.

3) 推理性: 智能体可以基于观察而推理得到概括信息的抽象目标特性的能力,这可以通过利用可供使用的相关内容实现.

4)响应性: 智能体能够感知环境的状况,并且针对环境的变化作出及时响应的能力,这一点在一些实时性要求很高的应用中尤为重要.

5)积极性: 智能体具备一定的机会主义特性,能够根据目标需要主动对环境中的变化作出反应,尤其是动态变化的环境.

6) 社会性: 尽管智能体可以不受到外界环境变化的影响,但是它需要在实现目标的过程中与外界环境进行交互.同时应该通过分享经验的过程帮助其他智能体完成目标.

智能车从任务类型上可被看作为由感知、规划和决策多个智能体组成的异构智能体混合系统[14].智能系统的智能性体现在可以通过学习得到知识和技能,并将此应用于提高性能上.

智能驾驶汽车利用激光雷达、毫米波雷达、摄像头以及GPS 等传感器组成的感知系统,如图2所示,实时采集周围环境的数据完成识别红绿灯、检测车道线、障碍物,以及行人等一系列行为完成感知的任务,感知得到的信息经过车载中央处理器处理后,对智能车下一步换道、刹车等动作进行决策,在联网环境下可以与其他车辆、云端和路基设备进行通信,实现感知和运行信息共享任务[15].

整个过程涉及多个任务的并行处理、计算资源的分配和信息交互等,如何保证实时准确地得到理想的结果,保证智能车安全平稳的运行是目前研究的热点.基于智能体的智能车控制是解决这个问题的一个有效方案.

传感器系统是智能车感知环境的基础,多样性的传感器保证了信息获取的全面性,但是多传感器系统的数据融合和资源管理的复杂性问题也应运而生.将智能体技术引入多传感器系统[16]可以有效解决这个问题.在多传感器系统中智能体不仅仅起管理作用,智能体获取传感器的数据,并为传感器在传感范围、资源分配和执行时间上做规划.

图2 智能车系统架构

一种基于信息融合的多智能体智能车辆导航系统[17],将导航任务分为可协调式和反应式,智能体间完成信息交互、协调运作,结合图像处理、信息融合的方法实现多传感器信息融合,达到避障导航的效果.此外,当前智能车各功能模块的任务处理比较复杂,因此,可以将多个任务分配给多个相互协作的智能体执行(如图3).

基于多Agent 的智能车可以对可能导致冲突的环境参数进行建模减少交通事故,例如根据车辆模型、重量、状态和天气因素等参数计算安全的跟车距离.此外,多Agent 系统可以重复对多个处理器执行并行计算,使得智能车的各个模块实时通信,提高决策效果.多Agent 技术可应用于单个智能车系统中去.系统架构由决策层、管理层和传感层组成,每层又由若干可相互通信的智能体构成.不同智能体之间的并行通信保证了它们任务的同步性,从而达到减少执行时间的目的[18].系统架构如表1.

该系统采用一种中心化的控制架构,主体Agent拥有最高控制权限,使用强化学习提高决策能力,感知层的Agent 权限最低,负责向高层提供感知信息,高层可以向底层下达控制命令.

图3 基于智能体的信息融合框架

表1 单车智能体组成

2 网联智能车Agent 控制

当前的智能车研究主要集中于单车系统在感知、规划和决策等模块的研究,车辆各自执行自己的检测、避障、识别标志等任务,每台车采集到的数据相互之间也是不共享的,这就要求单车本身各功能模块非常可靠.而智能网联汽车的诞生将极大提高单车效率.智能网联汽车是指搭载先进的车载传感器、控制器、执行器等装置,并融合现代通信与网络技术,实现人–车–路–云端等信息交换、共享,具备复杂环境感知、智能决策、协同控制等功能的新一代汽车[5],典型架构如图4所示.

图4 智能网联汽车

智能汽车与通信技术的结合促进了协同感知和协同操作技术的发展,协同感知允许多个智能汽车相互之间共享感知信息,协同操作使得车辆执行器间的协调得以实现.这些特点保证了智能汽车之间协作性的可能,从而提高了整体的行驶品质和行驶安全.

下文将从换道场景、交叉路口以及车辆编队等典型场景介绍对智能车Agent 的控制策略.

2.1 换道场景

智能汽车在复杂环境下尤其是非结构化道路条件下的决策能力是衡量其智能化的标准.

在任何交通模型和仿真系统中,换道场景都是非常重要的研究点,在换道问题的研究中,必须要考虑车辆间信息的交互,智能汽车如何基于对周围车辆行驶意图的预测,以及环境的变化并结合自身动态信息及时、有效、安全地作出决策是换道场景问题研究的重点.换道场景可以分为自由换道、强制换道和协作式换道3 个场景,如图5所示.自由换道场景下,待换道车辆Agent 不需要与周围车辆Agent进行交互,可根据与周围车辆Agent 之间的安全距离选择换道时机;强制换道为待换道车辆Agent 以强制周围车辆Agent 减速形成安全距离的方式进行换道,而协作式换道则基于待换道车辆Agent 与周围车辆Agent 进行信息交互,周围车辆Agent 主动调整自身驾驶策略保证待换道车辆Agent 安全换道.模型对待换道车辆Agent 的换道条件作了限制.换道并线的点称为MP(Merge Point),到达并线点MP的加速度为AM(Merge Acceleration).

其中,dx为当前位置到达MP点的距离,vMP和aMP分别为车辆在MP点处的速度与加速度,vs为待换道车辆Agent 的速度.当车辆到达换道点,基于车辆间距离(gap)、车辆间相对速度以及限定AM决定是否适合换道[19].

图5 典型换道场景

两种常用的控制速度和决定何时换道的模型是建模汽车纵向动态特性的智能驾驶员模型(Intelligent Driving Model,IDM)[20]和基于换道最小化刹车次数MOBIL 决定何时换道的模型[21].

表2 智能体Agent 的动作空间

控制车速和换道可看成是强化学习问题[22],在IDM 和MOBIL 模型基础上提出一种深度学习与Q学习相结合的深度Q-网络[23]DQN 智能体来学习Q函数,根据已知的周围车辆的状态和可用的道路信息,智能体在其动作空间选择最佳的换道、加速和减速的动作,智能体的动作空间定义如表2.

如表2所示,Agent1 仅仅控制着换道决策,其速度则由IDM 模型自动地控制着:

Agent2 则在使用IDM 模型控制速度并估计周围车辆Agent 速度的基础上,使用MOBIL 模型进行换道决策,决策条件为:

其中,ae,an,ao分别代表当前车辆的加速度、目标车道后续车辆的加速度、当前车道后续车辆的加速度.

WANG[24]等利用长短时记忆(Long Short-Term Memory,LSTM) 网络建模交互环境,将包含历史驾驶信息的内部状态传到深度Q 网络DQN 中,在深度强化学习架构下,交互环境长期影响的累计收益可以用来决定最好的控制策略,这可用于智能车在复杂的交叉路口的驾驶和执行换道.

人类驾驶汽车经常可以依靠对周围交通状况的观察和感觉轻松地在高速公路完成换道超车,但很多时候突然出现的加塞和变道会增加行车过程中发生事故的几率,影响其他驾驶员的正常驾驶.而对于智能汽车来说,换道这些动作都需要决策系统完成,因此,智能车需要作出安全、和谐的决策.

当出现需要超车时,智能车首先在行驶过程中需要不断对周围车辆的行为进行预测,然后在与他车协作换道或者保持自己行车状态之间博弈,BMW公司将预测算法加入到决策过程中去,先使用多项式回归分类器进行实时预测,然后在动作空间选择对应的避让或不避让策略,最终实现基于他车不确定因素的协作行为的博弈.

2.2 交叉路口

城市中的交叉路口(如图6)一般是拥堵最为严重的区域,过去也尝试过很多方法来解决交叉路口的拥堵问题.例如对交叉路口的交通信号灯进行优化控制[25]、将路口的状况发送给司机让其提前改道[26]、车辆按照先进先出的顺序排序[27]等,这些都是静态的处理方法,效果不是非常理想.

交叉路口智能汽车Agent 之间的协调策略[28]一般分为中心化和去中心化两种方法(如表3所示):

表3 交叉路口智能汽车Agent 的协调方法

去中心化的多智能体系统因为其分布式、可交互特性可应用在交叉路口的无人驾驶车辆的协调上[29],将车辆与交叉路口智能体网联起来,车辆智能体之间进行信息交互、协调运行.ROOZEMOND[30]提出一种基于智能体的城市交叉路口控制系统,及时反应交通环境的变化,并基于内部状态调整自己的决策.该系统包含多个交叉路口交通信号智能体(ITSAs)、道路分割智能体(RSAs) 和一些管理智能体.ITSAs 在RSAs 帮助下管理交叉路口的控制信号,管理智能体控制和协调ITSAs 得到全局最优的结果.Choy[31]则给出了分层多智能体系统,最底层为交叉路口控制器智能体(ICAs),中间层为空间控制器智能体(ZCAs),最高层为区域控制器智能体(RCAs).智能体基于神经网络和模糊控制技术进行决策,来适应动态变化的环境.

交通信号控制系统在物理位置和控制逻辑上分散于动态变化的交通网络,将每个路口的交通信号控制器看作为异构的智能体,非常适合采用无模型、自学习、数据驱动的多智能体强化学习方法建模[32].强化学习智能体与被控对象在闭环系统中不断进行交互,通过观察交通环境的实时状态提取信号控制所需要的交通状态信息和反馈奖励信息,以累计回报收益最大为目标选取最优控制策略.作为一种无模型、自学习的迭代性数据驱动方法,多智能体强化学习(Multiagent reinforcement learning,MARL)为实现闭环反馈的自适应控制提供了一种内涵式的解决方法.在交通信号控制领域,从控制理论来看,MARL控制可根据控制效果的反馈信息自主学习并优化策略知识,是一种闭环反馈控制[32];根据智能体间交通状态和信号动作的协调水平,交通网络MARL 控制可以分为3 类[33]: 完全独立的多智能体强化学习控制、部分状态合作的多智能体强化学习控制和动作联动的多智能体强化学习控制.从系统可拓展性来看,分散式MARL 控制具有统一的结构模型,可针对特定路网结构和交通流特性进行相应的改造[34].从控制实时性来看,它没有复杂的模型优化模块,可实时响应时变交通流的变化.

图6 典型交叉路口

在不考虑所有交通参与者之间交互的情况下,传统的基于知识的方法假设周围车辆的状态和意图是已知的,而基于规划的方法则是假设Agent可以依据其反应性和快速重规划行为保持速度恒定,但这往往得到的都是次优结果.与此相反的一种考虑交互性的方法是部分可见的马尔科夫过程(POMDP)[35].该方法将智能车Agent 周围车辆的路径视为部分可见变量,使用一个运动交互模型模拟车辆之间的交互、一个随机观测模型得到周围车辆未来潜在的测量参数,从而优化智能车Agent 在未来场景中的规划.它们的框架具有以下几个特点:

1)适用于任何几何结构的交叉路口和可变数量的交通参与者;

2)考虑当前状态、可以预测其他交通参与者未来意图的不确定性并且不依赖于V2V 通信;

3)在连续状态空间操作、可在线调节.

2.3 车辆编队

智能网联汽车的一个重要应用场景就是编队车辆.队伍中的每台车可以建模为具有感知、自组织和决策能力的智能体,多个车辆使用(Vehicle-to-Vehicle,V2V) 设备进行通信.相同车道的车辆可以保持较小的车间距离,增加道路容量和行驶安全、减少交通拥堵发生、增加燃油经济性.

作为智能网联汽车中关键技术的无线传感器网络(Wireless Sensor Network,WSN)是网联的基础,安装在车上、道路的传感器网络是感知模块的核心.路基传感器网络可以对车流量、该区域的车辆运动信息等进行监控,还可以用于对特定车辆或者目标进行跟踪.基于WSN 的目标跟踪算法大致可分为两类: 非预测跟踪和预测跟踪[36].

WSN 作为一种分布式系统,节点拥有独立解决问题的能力,具有自治特性,与多智能体系统非常相似,当单个智能体由于缺乏信息、知识、能力、资源而无法独立完成任务时,多智能体的协作可以很好地解决问题.因此,可以将传感器节点看作智能体,将多智能体技术应用到传感器网络的协同目标跟踪应用中.感知智能体(SA)、管理智能体(MA)以及警告智能体(AA) 形成动态的联盟,在跟踪环节,当跟踪目标出现时,AA 智能体发出信号,SA 智能体进行动态跟踪、进行本地决策,将监测数据和状态信息发送给MA 智能体.整个跟踪过程中3 种智能体的状态不断变化,传感器网络中的被激活智能体也随着被跟踪物体位置变化而变化,即联盟及成员处在不断新生和解除的动态过程中.在联盟内SA 智能体与MA 智能体的数据,采用贝叶斯估计的方法进行协同信息处理,传感器网络中智能体间的信息交流保证了新的管理智能体MA 以最高效的方式产生.

车辆编队通常包含一个主导车辆和一队跟随车辆,然而一个显著问题就是编队中会时刻有车辆加入和离开,处理好这种动态变化的环境就变得非常重要[37].

图7 车辆联盟

文献[37]研究了去中心化的动态网联车联盟结构生成算法cvCSG,将车辆集合分解为相互不兼容的联盟,每个联盟有一个主导,主导利用与成员的通信确定联盟的组合方式是否有益,并且决定其成员何时离开和新成员的加入(如图7).算法使用场景特点如下:

1) 交通系统没有中心处理节点,主导者只对自己联盟有控制效应;

2) 没有具有全局知识的中心节点,所有主导及其成员通过V2V 通信获得他们所需要的周围信息;

3)通信以单段或多段路径规划方式实现;

交通环境是动态变化的,网络拓扑结构持续变化并且这些变化事先未知.

使用编队算法[38]仅仅需要临近车辆的动态信息,因此,也适用于大的编队场景且容易在有车辆加入和离开时收敛到理想的队形.一种集群环境下的信息–物理车辆编队控制算法[39],利用移动智能体自组织网络的协调整体特性,将智能车的集体行为建模为多目标的汇聚运动(Multi-Objective Flocking),不同于车辆固定队型编队运行,汇聚运动容许车辆随时加入或者离开编队,这就使得车队在遇到障碍物和前方变窄道路时变得更加灵活.其灵活性还体现在车队中的智能车Agent 不必拥有相同的目的地,队形也不必像固定编队Platoon 那样不可变通.当多个Agent 满足只与其所属环境邻域的智能体交流,并且在一定时间区间内具有凝聚、自组织和自调整能力时可以被视为具有汇聚行为.基于汇聚行为的理论基础,分别研究了:

1) 弯道、直线、纠缠态等道路行驶环境下智能车Agent 防碰撞;

2)多车道情况下的换道;

3)紧急情况下的刹车控制;

4)转弯和防止碰撞行人.

图8 基于优先级的交叉路口网联汽车

网联环境下的智能车由于具有V2V 通信和V2X 通信能力,可以在智能体系统的协调下根据当前交通动态来规划自己的路径,并且与别的车辆共享自己的部分导航信息,如图8所示.这种交互协作可以在没有红绿灯的情况下,保证交叉路口车辆顺利通行而不会发生拥堵,车辆根据交叉路口智能体分配的权限按照先进先出的原则通过[40].

在一般的网联智能汽车研究中,智能汽车Agent主要利用自身的感知模块对环境信息进行感知,V2X模块则用于与周围可通信设备交互,获取额外的信息.这种模式对于智能汽车Agent 的要求较高.DE[41]等提出一种基于Agent 的学习框架,以路边的基础设施为主体,对道路环境进行监控,基于交通环境为进入该区域的智能汽车Agent 做最合理的规划.网联智能车被建模成理性智能体,基于(Vehicle to Infrastructure,V2I) 的通信架构利用深度模仿学习实现道路基础设施主导的策略学习.可动态决策的Agent 的运动被仿真为在有恒定速度障碍物环境下的走迷宫,配合车间多传感器信息融合[42],如图9所示,利用强化学习为智能汽车Agent 的具体行为作决策.

2.4 基于Agent 的智能车仿真

车流量增多和车祸、并线引起的车速降低是导致高速公路拥堵的主要原因.为了研究车流量预测方法和交通拥堵缓解策略,交通仿真可以模拟出现实中难以重现的交通状况.多智能体系统非常适合用来建模和仿真交通系统,因为它提供了一种直观的方式来描述每个层级的智能实体.在多智能体交通仿真系统中,每个智能实体被建模为一个智能体,智能体可以以竞争和合作的方式与别的智能体共存.之前有一些利用遗传算法[43]和元胞自动机[44]的交通仿真研究,但是缺少预测最佳拥堵缓解策略的高效算法.

图9 车间多传感器融合

强化学习中的深度Q 学习可以在复杂环境下确定最佳策略[45].在自动驾驶环境下交通环境的仿真中[46],仿真环境将每辆车作为一个智能体与环境不断交互完成以下工作:1)观察当前环境状态;2)确定智能体的行为;3)智能体执行相应动作;4)将环境改变到另一个状态;5)得到对应于状态变化的收益;6)执行Q 学习.采取一种逐场景的优化方法,Q 值的计算应用卷积神经网络训练得到.

交通系统因其地理上分布性、处于动态环境中和子系统间需要,以一种灵活的方式交互而非常适合使用基于智能体的方法模拟仿真.GM[47]等基于多模型开源车辆–交通仿真器MovSim 套件进行扩展,提出协作式交通建模.利用多智能体系统中对环境的局部感知特性、信息交互、协作执行等特性(如图10),车辆完成协作式感知、决策和执行.

图10 MovSim 仿真系统中的智能体

为降低紧急情况下智能车辆在路口等待时间和其他车辆的行驶时间,KT[48]等设计一种可用于仿真智能车在交叉路口的控制系统,他们使用SUMO(Simulation of Urban Mobility) 作为微观交通仿真器,使用JADE(Java Agent Development Framework) 框架基于多智能体系统重现与真实交通系统相类似的仿真系统,引入Q 学习使得交通灯智能体更加智能.交通仿真对于智能车的发展来说是至关重要的,因为真实环境中不可能人为制造特殊的场景来测试紧急情况下车辆的反应.

BN[49]等基于多智能体技术为智能车设计了一种仿真调试系统(如图11).

它使用一种分布式架构,将智能车的二维、三维、信息融合、道路规划、车辆控制等建模成智能体,各智能体之间相互配合,有效提高了系统执行效率和执行时间.总结来说,基于智能体的交通仿真系统有如下优点[50]: 1)系统可以在不使用真实场景设备的情况下测试、验证;2)虚拟世界中可以安全地对一些危险、极端的状况进行复现;3)数据可以被重复使用,仿真环境也可以非常方便地重复进行直至想要的结果出现; 4) 仿真过程可以基于需求在时间维度进行扩展.

图11 调试系统模型

当前的智能车技术主要围绕着单车智能体的发展,集中于无人干预下的环境感知、路径规划和行为决策.网联汽车将通信技术与无人驾驶技术结合起来,从点到块到网络,使得从局部到全局的车辆协同感知、规划以及信息交互得以实现,智能交通系统的可靠性、多功能性得到了提升.然而,网联环境下系统元素的多样性、时变性、复杂性以及“人车共驾”所导致的社会信号(Social Signal)的引入,使得系统行为越来越难以被精确地刻画,实际行为与模型行为差异性带来的“模型鸿沟”[51]为复杂的交通管理带来了新的挑战.

3 平行驾驶

当前无人驾驶技术的发展还处于“人车共驾”的时代,人类行为的加入导致了智能交通系统复杂性的增加,社会信号的加入使得复杂系统从简单的物理系统、信息物理系统,向着信息物理社会系统(Cyber-Physics-Social Systems,CPSS) 过渡.“建模鸿沟”的出现迫使我们从利用可以控制系统行为的“牛顿定律”进行建模,向着能够影响系统行为的“默顿定律” 进行转化[52].默顿系统的典型特征就是即使给定其当前状态与控制条件,也无法通过求解精确地预测系统的下一步状态.网联汽车作为一种CPSS系统也是一种典型的莫顿系统,以“车端感知,云端管控”为特征的基于ACP 理论的平行驾驶理论为此寻找了一种好的解决方案[53].

ACP 理论包含人工系统[54](Artificial System)、计算实验(Computational experiment)和平行执行(Parallel Execution),它提供了一种高效的解决复杂系统的方法,如图12所示.基于CPSS 的平行驾驶技术是以ACP 理论为基础的.ACP 的结构如下:

传统的车辆被认为是软件定义车辆,未来的智能网联汽车则包含3 个主要部分: 1)车辆Agent(具有物理属性);2)人类驾驶员Agent(具有物理属性和认知属性);3)与驾驶有关联的控制Agent.

图12 ACP 系统理论

平行驾驶是新一代的云端化网联自动驾驶技术,通过充分利用数字化及信息化资源,将云端、道路及车辆上的信息无缝衔接(如图13),利用平行视觉[55]、平行感知[56]、平行学习[57]、平行规划[33]和平行控制[58]等最新开发的前沿关键技术,把智能车、管控平台及驾驶模拟器实时连接起来[59],提高了车辆对动态变化环境的响应速度,最终实现车路互动、多车协同、平行操控、安全行驶.

图13 平行驾驶系统框图

平行驾驶理论是基于信息物理社会系统(CPSS),通过将人工系统与真实系统虚实结合起来,它使用ACP 方法,实现:

1)利用自底向上的多Agent 方法对人工场景中的对象及其相互关系进行建模,模拟实际交通场景中的动静态特征;

2) 利用计算实验方法对于人工场景中的Agent进行计算实验,例如:使用机器学习方法对虚拟环境下的网联汽车Agent 进行并线、换道甚至是追尾等场景的控制策略进行评估,分析得到多Agent 系统之间以何种策略进行信息交互、协同合作等;

3)将计算实验得到的控制算法在实际场景和人工场景中平行执行,使模型训练和评估在线化、长期化.通过人工与实际之间的虚实互动,持续优化系统.

平行驾驶技术是传统的基于Agent 智能车控制技术的一次重要变革,它将智能汽车带入到一个与现实世界平行的虚拟世界.基于CPSS 理论基础的“车内简单、车外复杂”平行驾驶框架,以“车端感知、云端管控”为基本理念,利用智能车行驶状态信息和交通环境信息结合虚拟系统的相关数据,通过大数据分析学习系统进行分析决策,实现对智能车的预测、指挥和控制[60].

为理解车联网不同层次的结构和功能特性以及内在动力学特性,为混合交通形态下的系统管理提供科学的解决方案,WANG[61]等将ACP 方法推广到车联网领域,提出了一种新的智能车辆网联管理与控制系统:平行车联网.平行车联网由3 步构成.

第1 步: 人工车联网,“生长型” 系统模型构建与培育.其本质是利用人工社会的理论与方法构建可计算、可编程、可重构的软件定义对象.采用多Agent 方法对系统建模,通过定义Agent 之间的交互规则、组织规则和协同行为规则,构建适用于不同交通场景的人工车联网子系统.

第2 步:计算实验,智能车辆网联管理与控制策略的试验与评估.基于人工车联网设计各类Agent的数量组合策略及时序互动规则,生成各种复杂的交通场景,以计算的手段让车辆学习经验知识用于分析与评估.

第3 步:平行执行,车联网的智能引导管理与控制.平行车联网综合考虑车内网、车际网、车路网以及社会网的平行,实际车联网向平行车联网提供用于建立和优化人工车联网模型的状态参数,人工车联网中的计算实验结果以虚实互动的平行执行方式反馈给实际车联网,循环往复,协同优化.

平行车联网以可计算、可实现、可比较的方式对复杂车联网系统不同层次和功能特性进行解析,为未来智能交通控制与管理提供新思路.

作为CPSS 系统中社会信号一部分的法律法规对于规范智能汽车的行为决策具有重要的意义.目前,针对无人驾驶车辆上路的法律法规尚不健全,为此,Intel 联合Mobileye 提出了责任–敏感–安全(Responsibility-Sensitive-Safety) 的RSS 模型[62].概括起来说,RSS 模型规定了车辆行驶过程中的路权以被给予而非争夺的方式取得.RSS 模型中将无人驾驶车辆看成是多智能体系统,类似于人类驾驶,事故情况下的权责是不等的,这也适用于多智能体系统,RSS 模型以“定责”的方式给车辆行驶定下规则,从而保证无人车成为紧急情况下事故参与者而非制造者.对此以数学模型的方式给出了4 个常识为:

1) 与前方车辆保持安全距离,对于紧急刹车及时作出判断; 同向行驶的车辆必须保持一定的刹车安全距离避免追尾发生,安全距离依赖于反应时间t、最大加速加速度amax,accel,最大刹车加速度amax,brake,最小刹车加速度amin,brake几个参数.

对于无人驾驶车辆与有人驾驶车辆混合的场景,机器人与人的反应时间t是不一样的,不同天气状况下的参数也是不一样的.RSS 模型同时给出了碰撞发生阈值时间,并基于此决定碰撞责任该归咎于反应不够快的智能体系统.

2)基于车辆动力学原理[63],与侧面车辆保持安全距离,在进行侧向并线时给侧向车辆留出足够反应时间;

在多车道道路结构中,横向安全距离的计算由反应时间t,横向最小刹车加速度横向最大加速加速度横向速度µ等参数确定.事故责任确定规则与纵向类似.

3)路权是被给予的,而非争夺的;在多几何结构的道路中往往涉及到路权分配的问题.例如红绿灯路口不仅仅依照红灯停和绿灯行的规则,智能体还需要考虑避免事故的因素.

4)对于遮挡区域和行人保持足够警惕.

在驾驶策略的选择上依然采用强化学习的方法,不同于传统的几何描述的动作空间,RSS 模型使用一种语义描述动作空间的方法,来解决求解Q 函数时计算复杂的问题.在语义动作空间使用类似“跟随超车,从左侧超车” 等的语义指令代替向前开13 m后以0.8 m/s2的加速度前进的数值指令,语义指令在降低计算资源的基础上,可以获得未来较长时间内行驶品质的比较精确的估计.

RSS 将人们对安全驾驶的概念转化为可验证的模型,配备逻辑上可验证的规则,定义恰当的响应行为,以确保自动驾驶汽车做出安全决策,并避免陷入由其他车辆导致的危险情况.

4 总结与展望

本文对基于Agent 的智能汽车控制进行总结.单个智能汽车由于其具有感知、规划和决策能力,而其本身软硬件平台是由多个复杂的模块构成,非常适合使用Agent 技术对其进行建模,用于处理类似多传感器数据融合等任务,从而保证系统可靠工作,降低能耗.车与人、车与车、车与道路基础设施等构成的车联网系统,则进一步扩大了Agent 技术的应用.在通信的情况下,智能车Agent 不再完全依赖与自身的环境感知系统,而是可以在云端Agent 协同控制下与其他Agent 系统进行必要信息的共享.基于Agent 的智能交通系统使得智能汽车Agent 拥有更多的环境信息,能够更准确地对环境中的不确定性因素进行分析,从而更好地、更安全地运行.

基于CPSS 的平行驾驶系统采用虚实结合的理念,为未来的智能汽车研究指定了方向,网联汽车的发展需要平行驾驶的保驾护航.平行驾驶将真实环境下的测试搬到了平行于真实场景而完全按照真实场景建模的人工场景,通过计算实验的方法对网联场景下的智能汽车Agent 的控制算法进行验证、平行执行、持续优化.这种安全、高效的方式使得研究者不必在真实环境下进行所有测试.此外,未来的智能汽车还需要“理性的决策”,正如Intel 的RSS 模型规定的那样,智能车要能正确地使用路权,一切决策都要在法律、安全的规范下进行.

猜你喜欢
网联车辆智能
德国车辆来波兰加油
基于云控平台雾计算架构的网联汽车路径控制
智能前沿
智能前沿
智能前沿
智能前沿
车辆
新势力“网联”动了谁的奶酪?
网联大考
网联出世,“收编”第三方支付