梁耀中 吕泽正 种玉祥
摘要:无人驾驶系统的决策系统是决定无人驾驶汽车安全性、稳定性的关键技术,是无人驾驶汽车智能程度的体现。本文旨在研究一种基于因果推理的无人驾驶行为决策模型,即理性决策,而不是相关推理。建立了基于贝叶斯网络和强化学习的决策模型,结合深度学习,基于规则的专家系统的特性,深入研究决策模型在样本比较少或数据部分缺失的情况下,提高复杂场景下的适应性、提升泛化能力和迁移学习能力。
关键词:无人驾驶;行为决策;贝叶斯网络;数据缺失
【Abstract】Thedecision-makingsystemofanunmanneddrivingsystemisakeytechnologythatdeterminesthesafetyandstabilityofanunmannedvehicle,whichisamanifestationofthedegreeofintelligenceofanunmannedvehicle.Thisresearchaimstoexploreanddevelopaself-drivingcardecisionmodelbasedoncausalreasoning,thatis,rationaldecision-making,notrelatedreasoning.ThepaperestablishesadecisionmodelbasedonBayesiannetworkandreinforcementlearning,combinedwiththecharacteristicsofdeeplearningandrule-basedexpertsystems,anddeeplystudiesthedecisionmodeltoimprovetheadaptabilityofcomplexscenarioswhentherearefewersamplesorpartialmissingdata.Generalizationabilityandtransferlearningabilityareimproved.
【Keywords】unmanneddriving;behavioraldecision;Bayesiannetwork;dataloss
作者简介:梁耀中(1995-),男,硕士研究生,主要研究方向:智能网联汽车。
0引言
行为决策系统是智能网联汽车的关键技术,作为无人驾驶技术的核心,其智能水平直接决定了无人驾驶车辆行车的安全性和可靠性,以及对复杂多变的实时交通环境的适应性[1]。
基于神经网络、深度学习的方法透明性差,可追溯性也欠佳,对问题难以实现追溯和解释,且对训练数据依赖大,训练时间较长[2];基于决策树模型和状态机模型对不同的驾驶场景需要设定不同的规则,存在环境适应性低的问题。
贝叶斯网络是一个以概率为基础,进行因果推理的决策,并在数据挖掘、因果推理和决策上有着良好的应用效果。例如,蔡炳万等人[3]提出了基于本体的贝叶斯网络知识推理研究方法;史志富[4]提出了基于贝叶斯网络的UCAV编队对地攻击智能决策研究。贝叶斯网络的因果推理逻辑可以在恶劣天气条件下或者传感器损坏导致数据缺失时的极端情况,在无人驾驶车遇到新的场景时,新的环境机制会对贝叶斯网络进行激励,从而激励贝叶斯网络进行更新,做出理性决策。
1学术研究概论
1.1无人车决策研究现状
在当前复杂的驾驶环境中,状态机模型存在环境适应性低的问题,需要针对研究中未曾遇到的驾驶场景重新设计决策规则。马尔可夫的决策过程可以解决不确定环境下的决策问题,但其状态空间很大,难以做到实时决策;基于深度学习/神经网络的模型透明度差,难以实现目标追踪。
决策树模型在获得数据方面较为困难,数据可靠性不足,并且数据离散化后的精度也不高。机器学习算法则存在决策结果可解释性差,模型修正困难、学习样本需要大量实验数据的问题,而且当数据质量差、数据结构不合理时,决策结果也会较差[5]。
基于因果推理的决策模型可以对驾驶场景做出明确表达,且其行为决策结果是透明、可解释的。当场景改变时,根据奖励机制即可更新贝叶斯网络的结构和参数。
1.2贝叶斯网络用于决策的研究现状
貝叶斯网络用于决策,可以在小样本或者没有足量样本的条件下,进行因果推理决策。贝叶斯网络的因果推理逻辑在一定程度上能够处理未知的极端情况。目前已然成为数据缺失时因果推理的最有效的理论模型之一。
贝叶斯网络用于决策具有2个决定性的优势,即:模块化和透明性。
对于模块化的优势而言,当传感器在极端天气条件下输入的数据出现错误或者缺失条件下,贝叶斯网络能够删除这一错误子节点的信息,其余子节点信息依然是有效的。
对于透明性的优势而言,自动驾驶过程中的透明性决策则尤为关键,因为对整个决策过程都可以进行可视、分析和理解。
1.3论文研究内容
无人驾驶行为决策系统是一个复杂的大系统。考虑到决策时,不仅要考虑周围行人、车辆、障碍物等对象信息,还需考虑路面、天气、光照等环境信息、以及道路类型、车道、信号灯等路况信息等,基于此,本文拟围绕无人驾驶行为决策系统开展如下研究工作。
鉴于无人驾驶行为决策的综合性、相对性、时效性、层次性的特点,本文提出了基于贝叶斯网络的无人驾驶行为决策方法,建立了对应的数学模型,并对模型进行了仿真分析。
本文以提高无人驾驶车辆在复杂场景下决策的场景适应性、安全性、鲁棒性和智能化程度为目标,针对无人驾驶行为决策系统的核心问题进行研究,本论文的创新点可表述如下。
(1)本文提出基于因果推理的贝叶斯网络对无人驾驶行为进行决策。贝叶斯网络是一个基于概率的因果推理系统,并且在数据缺失、数据挖掘和理性决策上具有良好的效果。同时,还有着2个决定性的优势,也就是模块化和透明性。
(2)贝叶斯网络的因果推理逻辑在一定程度上能够处理未知的极端情况,将贝叶斯网络作为整个决策的顶层框架,利用贝叶斯网络的模块化,把深度学习系统作为一个子模块融入其中,而专家系统作为另一个模块,这样的多重冗体构成了贝叶斯网络的子节点;与此同时,贝叶斯网络的透明性还使得可以对整个决策的过程进行分析与问题定位。
2贝叶斯网络
贝叶斯网络,也可称作信度网络,是目前因果推理常用的方法之一[6]。贝叶斯网络又称为有向无环图,由父结点和子节点以及父节点和子节点之间的条件概率组成。贝叶斯网络由父节点指向子节点,这样就构成了相互关系,用条件概率来表达父节点和子节点之间的关系强度。
2.1构造贝叶斯网络
贝叶斯网络的构造可分为4个阶段[7]:
(1)定义域变量。确定需要用来描述一个区域内不同场的变量以及每个变量的确切值。
(2)确定网络结构。咨询专家经验,即可确定子节点和父节点之间的关系,从而获知该领域的网络结构。
(3)确定条件概率分布表。
(4)应用于实际系统,并根据新的场景传感器检测到的数据来更新贝叶斯网络,再通过计算分析,对网络结构和条件概率分布表做出调整。
贝叶斯网络参数学习就是确定贝叶斯网络模型各节点处的概率密度。基于贝叶斯网络的因果推理法是一种用精确算法进行概率推理的方法,本文采用基于知识的因果推理来处理当传感器数据缺失时的决策。
贝叶斯网络的推理适用于数据缺失时的因果推理和决策。是一种以概率分布为基础的推理方法。
2.2贝叶斯网络推理的过程
贝叶斯推理是通过联合概率分布公式计算某一事件发生的概率[8]。
给定一个建立在变量集合X={X1,X2,…,Xn},藉此来计算假设变量的条件概率。对任意的随机变量,其联合分布可由各自的条件概率分布相乘而得出:
3基于贝叶斯网络实现无人驾驶决策
Netica是一个强大的,易于使用的贝叶斯网络软件。采用Netica贝叶斯网络工具软件构建无人驾驶行为决策贝叶斯网络。建立并编译了相应的贝叶斯网络模型。
3.1构建无人车贝叶斯网络模型
无人驾驶汽车上路行驶时面临着错综复杂的环境,可以按照一定的分类方法将驾驶场景进行分类划归,具体如图2所示。研究中将根据驾驶场景设定对应本体类集,通常可设定行为类、对象类、环境类以及路况类。其中,行为类表示无人车自身的行为状况,例如无人驾驶车辆自身的位置、速度、加速度等状况以及转向、直行、转弯等变道行为;对象类表示无人驾驶车辆在行驶过程中遇到的其他交通参与者;环境类表示无人驾驶车辆在驾驶过程中所有可能变化的环境因素,例如太阳光照、天气以及路面等;路况类表示无人驾驶车辆行驶道路的状况,例如交叉口类型、道路类型、交通管制方式、区域、车道。
本体模型可以结构化表达驾驶场景中的类与实例信息之间的状态和语义关系[8],从而能够解决不同的驾驶环境中多源异构信息表达不充分和先验驾驶经验无法有效利用导致的实时性差、泛化能力低和准确性较低的问题。
3.2构建无人车行为决策的贝叶斯网络条件概率表
在确定了贝叶斯网络结构后,就是构造条件概率表。无父节点的变量,只要对节点赋予一个初始的概率即可。先验概率可以通过对原有数据进行学习计算或者咨询专家意见来获得[9]。
生成条件概率表可通过下列公式来表示父节点发生的条件下,子节点发生的可能性,即:
对于图1中的无人车周围环境贝叶斯网络,以周围车辆、障碍物、行人为例,其部分条件概率见表1。
贝叶斯网络的参数学习,定义先验概率,通过参数学习,计算后验概率。选取最大的概率所对应的车辆动作,作为最终决策行为决策的输出。
4基于无人驾驶行为决策结果分析
采用Netica作为贝叶斯网络模型的可视化推理工具进行可视化推理无人驾驶车辆的行为决策。
4.1初始的无人驾驶贝叶斯网络
在初始场景下,车辆传感器对周围环境的检测数据为0,此时贝叶斯网络各节点的先验概率按照状态变量均匀分布如图3所示。
4.2更新后的无人驾驶贝叶斯网络
在给定各节点的条件概率的情况下,可以对贝叶斯网络进行自顶向下的推理得到各节点的状态概率。从贝叶斯网络的顶点开始计算。当传感器检测到新的无人车周围路况发生变化时,就可以通过贝叶斯规则对网络节点的状态进行更新。得到的贝叶斯网络状态如图4所示。
由图4中可以看出车道上有障碍物时,前方车辆减速,右前方车辆减速,当右后方车加速时。当前车辆停车的概率为25.7%,减速的概率为20.7%。
当传感器检测到前方道路有行人在车道线上时的贝叶斯网络决策如图5所示。当道路上有行人时的无人车的停车概率为45.5%,而减速的概率为29.5%。
5结束语
采用Netica贝叶斯网络工具软件实现了对无人驾驶行为决策的仿真。仿真结果表明基于贝叶斯网络无人驾驶行为决策系统可以对无人车传感器收集到的各种数据进行判断,充分利用所有可能会用的信息,将定性判断与定量计算相结合描述无人车的行为决策,而且贝叶斯网络的推理功能、且辅以奖励机制来更新贝叶斯网络的结构和参数,由此推理得到的结果即能对复杂的交通环境做出更为实时、智能、安全的决策。因此应用贝叶斯网络对无人驾驶行为决策的研究必将有助于提高无人驾驶车辆在复杂场景下的决策智能性、安全性和鲁棒性,使得无人驾驶车辆在落地应用上取得了阶段性成果。
参考文献
[1]黄璐.基于本体论的无人驾驶车辆场景评估与行为决策方法研究[D].合肥:中国科学技术大学,2019.
[2]王忠民,曹洪江,范琳.一种基于卷积神经网络深度学习的人体行为识别方法[J].计算机科学,2016,43(z2):56-58,87.
[3]蔡炳万,石宇强,李明辉,等.基于本体的贝叶斯网络知识推理研究[J].机械设计与制造,2016(1):84-87.
[4]史志富.基于貝叶斯网络的UCAV编队对地攻击智能决策研究[D].西安:西北工业大学,2007.
[5]熊璐,康宇宸,张培志,等.无人驾驶车辆行为决策系统研究[J].汽车技术,2018(8):1-9.
[6]谢斌.贝叶斯网络在可靠性分析中的应用[D].成都:西南交通大学,2004.
[7]俞露.基于非同构动态贝叶斯网络的研究与应用[D].南京:南京大学,2017.
[8]张琳.基于Ontology和XML的非结构化信息语义表示机制研究[D].武汉:武汉科技大学,2004.
[9]陆静,王捷.基于超级贝叶斯方法的专家意见先验概率修正研究[J].统计与决策,2013(1):15-18.