王建强*, 黄荷叶, 李克强, 李骏
S tate Key Laboratory of Automotive S afety and Energy, S chool of Vehicle and Mobility, Tsinghua University, Beijing 100084, China
近年来,自动驾驶汽车的自动化程度正逐渐提高,并引发对更高程度自动化水平的追求。自主性可以定义为一个智能化的系统在系统自身及其环境的不确定性下实现特定任务的能力[1]。在实现特定任务过程中,通常也可认为,系统自身在无/少干扰情况下对于不确定性处理能力越强,其自动化程度越高[2]。目前对于自动驾驶汽车自动化程度的衡量标准多样,而汽车工业界通常采用汽车工程师协会(SAE International)定义的从0 级(完全手动)到5 级(完全自主)的6 级分级标准[3]。现有SAE 对于L1~L5 级自动驾驶的定义[3]可以理解为:对于L1 级别自动驾驶,可以完成在一个维度(横向或纵向)的驾驶任务;L2 级别自动驾驶可以同时自动进行多维度辅助(如加减速和转向);L3级别自动驾驶车辆在特定环境中可以实现自动加减速和转向,无需驾驶人干预;在L4 级别自动驾驶中,在限定条件下如果车辆当前处于自动驾驶状态,则全程无需驾驶者接管方向盘;L5 级别自动驾驶车辆可以在任何条件、任何场景下自动行驶,车辆的自动化系统完全替代了人类驾驶员,车辆达到完全自动化。
在L1~L5级自动驾驶发展过程中,动态性、随机性和多样化的交通参与者,耦合化、时变化、复杂化的交通环境,以及非结构化、模糊不明甚至不合理的道路基础设施都是实现自动驾驶的潜在挑战[4,6]。三大主要挑战可以概括为:①多场景叠加,如城市闹区等多交通场景叠加情况等;②非理想环境适应,如动态变化的天气与路况条件等;③交通状态不确定,如随机突发的紧急事件等潜在难题。因此,为实现更高等级的自动驾驶,需要提出一套有效的自动驾驶汽车研发思路,让高等级自动驾驶汽车具备在考虑其他道路使用者的意愿和决策机制的前提下,对交通环境中的风险程度进行估计、判断和预测,规划具体的驾驶策略和轨迹,实现智能车辆在复杂的不确定环境中的安全可靠的高等级自动驾驶。
驾驶过程中人为失误导致的交通事故比例已经超过90%,包括驾驶人在感知、认知、推理与决策各阶段自身的局限性[7,9]。应用自动驾驶技术,逐步提高车辆驾驶的智能化水平,是解决交通安全问题的根本途径。许多自动驾驶制造商都制定了各自研究路线,推动自动驾驶技术发展。目前主流自动驾驶技术路线[10-11]有:①“渐进演化”路线。从先进驾驶人辅助系统(ADAS)产品开始生产并逐步研发到无人驾驶阶段,大部分传统车企和零部件企业一般采用这种相对保守的路线[12]。②“革命性”路线。一开始就研发L4 或者L5 级自动驾驶,如谷歌、福特、通用(GM)、Momenta等公司。③“特斯拉”路线。在搭载自动驾驶系统硬件的汽车上,首先应用辅助自动驾驶功能,不断积累测试数据,通过软件升级完善自动驾驶统,最终实现无人驾驶。
但现有的技术路线在实施过程中都遇到了类似难题:①自动驾驶汽车会违反交通规则,频繁制动,牺牲乘客舒适性,对交通造成负面影响;②安全算法考虑因素不足,难以准确判别行车危险程度;③智能汽车在复杂环境陷入困境后,综合判断能力欠缺,易导致决策冲突等。这些难题带来了在现实行车过程中出现的一系列自动驾驶不合理现象[13]:“路遇行人不停车”“一次跨越多个车道”“路遇车辆频繁制动”“左转时犹豫、起停”等问题,同时也造成了多起自动驾驶事故[14]。例如,2016 年,特斯拉Model S电动汽车在途经十字路口的时候,撞上了一辆正在左转的卡车;2017年,自动驾驶汽车Waymo在测试时,发生了追尾事故;2018 年,Uber 自动驾驶测试车因系统无法准确识别人行横道以外的行人而造成事故。
虽然各研究机构的研究路线有所侧重,但针对高等级自动驾驶汽车的研发思路主要是基于场景和任务驱动来进行特定场景下的具体功能开发[5]。这一思路对于L1~L3级的驾驶辅助系统开发有一定指导作用,可以在特定场景下完成指定功能;而L3~L4级自动驾驶属于任务驱动,因此能够实现在限定条件下人机协同共驾。而对于L5 级自动驾驶,场景驱动可能会带来多类场景叠加难题,使得L5级自动驾驶汽车会为了能够适应这一功能而陷入困境;任务驱动则会导致自动驾驶时多任务冲突,难以让L5 级自动驾驶汽车无条件地自由行驶。例如,交通参与者(车辆、行人、骑行者)对交通规则的遵循意识观念不强;行驶环境的道路结构和交通设施都存在不合理、老旧不清晰等问题。这些特殊化的交通参与者行为和行车环境都大大增加了现有基于场景或任务驱动的研发思路的应用挑战。
由此可见,L5 级自动驾驶汽车需要实现超越驾驶人的性能,全方位提高汽车行驶性能,从学习驾驶人的驾驶方式到适应驾驶人驾驶模式再到超越驾驶人驾驶局限[2]。目前仍鲜有从一种全新的“系统、统一、均衡”的角度出发,探索高等级自动驾驶系统背后的物理机制,揭示驾驶本质的研发范式。因此针对现有方法的局限性,本文突破传统研发自动驾驶思想,采用推理演绎方式,提出“大脑-小脑-器官”协调平衡框架,探索“自主学习+先验知识”的研究范式。通过开展开拓性研究,旨在实现自动驾驶汽车“自学习、自适应、自超越”特性,为L5 级自动驾驶汽车的开发提供新的研究思路和途径。
现有的自动驾驶汽车的常用开发思路是将整个系统划分为独立的层和功能。例如,智能车辆首先通过感知层感知驾驶环境参数,识别目标类型。然后通过情景评估,提高对驾驶行为意图等驾驶环境的了解,并估计和预测未来的驾驶风险程度,评估其他道路使用者的风险水平,正确认识环境[15]。最后,自动驾驶汽车通过决策和执行控制系统完成行为和路径规划,从而实现驾驶操作任务。
具体来说,现有与基于场景和任务驱动的研发思路对应的自动驾驶汽车的开发途径主要分为“感知-决策-控制”这一分层自动驾驶框架和端到端的整体学习框架。
在目前的自动驾驶系统中,感知系统、决策系统、控制系统、执行系统多依赖功能叠加式的设计方案进行独立设计开发。当自动驾驶汽车在向更高等级发展的过程中,就需要提供更高等级的功能,而现有的研究框架通常在原有系统基础上,直接叠加新的系统,进行功能集成,产生新的功能。这种“结构分层设计,功能叠加产生”的集成架构相对简单,容易实现,在智能驾驶系统发展的初级阶段发挥了重要作用[5]。然而,随着智能汽车的等级逐渐提高,功能需求不断增多,子系统不断集成,系统结构愈发复杂,各系统功能与结构存在相互的耦合与重叠,易造成结构配置冗余、资源利用率不高和系统成本增加等问题。
特别地,目前在分层式框架中,在决策过程中常采用基于规则的方法。该方法能够有效实现L2~L4级的决策过程,是一种有效针对特定场景和具体任务驱动的自动驾驶模式的方法。该方法的代表性方法包括有限状态机等,其规则直观、可读性较好、易实现,在简单的场景中,适用性比较好。而这类方法的明显缺点是缺乏概括未知情况的能力,这使其很难被扩展到实际驾驶中,尤其是针对高等级自动驾驶。在分层框架中,具体各子系统的特点和存在的不足如表1所示[16,22]。
表1 “感知-决策-控制”分层框架特点
续表
目前很多创新公司或研究机构都在研究并推广,结合深度学习与增强学习的方法在自动驾驶领域进行端到端的训练[19,23]。端到端的学习方法可以直接将传感器输入端的信息导出,然后输入车辆底层控制器中(刹车、油门、转向等)进行输出。对于现有采用端到端的学习框架,其不断探索、学习的属性能够让自动驾驶汽车实现“自适应、自学习”这一过程[24]。然而由于端到端框架的中间环节的隐藏特性,最终导致在实际交通场景中,在面对未知不确定的情境时会出现“学习内容不明确、学习方向不可控、学习策略不相关”等问题。由于端到端中间过程的“黑箱问题”会带来透明性不高的问题,导致所对应的功能和策略与预期不相符的程度会增加。同时,由于学习类方法背后潜在的物理机制不明晰,导致开发高等级自动驾驶车辆存在许多潜在风险。此外,由于未能深刻揭示模型背后的物理机制所造成的可解释性问题,将成为阻碍学习类方法进一步发展应用的瓶颈。而具体的问题如“难以与规则结合”“计算成本过高、硬件要求高”“样本不够多、完整性不足,高训练成本”等也进一步让端到端学习在实际应用过程中受阻[25]。
因此,仅靠端到端的探索或现有的分层式框架,无法有效应对这些非正常情况。复杂的交通场景通常具备这些不确定、不可测、非常规的元素。如果高等级自动驾驶汽车按照目前的单一功能、特定场景、任务驱使的发展趋势,将无法有效处理交通不正常的情况。针对特定场景与单一交通环境的传统研发方法,不能全面反映驾驶人在真实交通环境中的决策操控能力,很难为开发高等级智能汽车的拟人化驾驶算法提供指导依据。
根据已有的定义,L5 级和L4 级之间存在本质区别,L4 级可以实现高度智能的无人驾驶,但其限定条件使得L4 级只能在尽量覆盖各种场景的前提下趋近于人类驾驶行为,无法实现100%的实用化和L5级下的无条件普适性要求。而根据SAE 分级标准,在目前的自动驾驶等级分级中,L4与L5级别的自动驾驶汽车的区别在于运行设计域(ODD),L4级的自动驾驶汽车只能在给定工况范围内运行,而L5 级则是可以在符合道德规范的任意工况下运行。但究其根本,如果从场景的覆盖范围及运行工况角度对L4 级和L5 级进行区分,则很容易造成L5 级自身的定义模糊化,且带来是否有必要发展L5级的系列讨论。
因此,本文在SAE 标准和其他自动驾驶分类标准的基础上,重新对L5级自动驾驶的本质进行阐明。L5级自动驾驶汽车将不再是传统意义上的一辆汽车,而是一个具有“自学习、自修复、软件自配置、自主社交、自主驾驶能力”的连接不同场景的移动生活载体。其“自学习、自适应、自超越”的特性可以应用于L2~L4级自动驾驶,但这一过程只是单向的。而L1~L4 级自动驾驶只是L5 级的一种特例。进一步分析,在L1~L5 级自动驾驶发展过程中,L1~L3 级自动驾驶聚焦于感知层面的任务代理;L4级实现给定复杂场景内的决策任务,存在一定的任务处理边界,该任务边界出现的主要原因是L4 级自动驾驶系统生成决策的方法是基于统计信息的决策搜索,而非基于逻辑的决策生成。我们也可以将L4 级自动驾驶理解为部分样本,在达到L4 级技术后即实现了部分样本的验证,但部分样本无法覆盖全部样本。L4 级自动驾驶汽车可理解为能在有限性工况下运行,但对于无限的不确定场景难以以单纯列举的方式实现,更多的是需要具有自主探索能力。
因此,L5 级要求自动驾驶系统在未知驾驶场景内具备决策生成的能力,相较于L4 级的主要差异在于其具备了基于逻辑的推理学习能力,亦可称为自修正能力。不同于简单的机器学习模式,这种能力不仅使自动驾驶系统可以采用统计学的方法对驾驶经历进行特征提取,而且有助于进一步提炼受控车辆与交通环境的交互机制,从而形成一种能够系统性调整自动驾驶系统(相较于对单一模块的调整)的修正逻辑。
真实的交通环境由于存在各种道路使用者,且各道路使用者的时变和行为不确定性造成了交通系统的复杂性。如文献[26]所述,自动驾驶汽车发展过程中存在一些共性问题,主要包括现有各项技术发展存在瓶颈和现有基础设施不够完善。如先前的研究[6,10]所述,针对目前的感知、决策、控制技术的发展现状,要真正实现L5 级自动驾驶离不开各项技术的推动。比如Chen等[27]引入了基于事件的自主驾驶神经形态视觉的新概念,可以帮助高等级自动驾驶汽车获取更准确的视觉感知信息。这对发展更高等级自动驾驶汽车,尤其是L5 级自动驾驶汽车至关重要。而高等级自动驾驶所需要的技术条件与目前的发展现状存在一些差距。同时,除了技术和基础设施原因,自动驾驶汽车目前仍然无法达到L5级的更深层次的原因主要有:
(1)交通要素作用机理不明。复杂环境下,各要素对行车风险影响的机制不清晰,难以探明各要素之间的耦合机理。如驾驶人对不同交通环境静态和动态信息的认知判断机制不清晰,驾驶人对车辆动力学特性的适应能力和操纵水平难量化,各交通要素对于驾驶人的动态干扰机制不确定等。因此高等级自动驾驶汽车需要充分认知人-车-环境耦合风险,将驾驶人对于行车环境各要素造成的潜在风险认知规律应用于智能车辆风险评估,实现交通环境多要素耦合作用下的准确风险辨识。
(2)交通运行的变化规律不清晰。在动态环境下,存在人-车-路系统多方面的不确定性。如人的参与带来的不确定性,人本身的随机性使得交通复杂系统更具不确定性;环境的变化不确定,导致对交通认知的难度提高;道路条件的不确定,带来车辆性能适应的不确定性;信息获取的不确定性(通讯手段、安全通信的不确定性),带来复杂交通系统信息范围的不确定性等。因此高等级自动驾驶汽车的发展需要充分探明交通环境的变化规律,考虑其他道路使用者的动态意图,估计、判断和预测交通环境中的风险程度,通过规划具体驾驶策略和轨迹,提高智能车辆在复杂环境中的决策水平和能力。
(3)决策执行机理不明。在复杂交通环境下,存在智能车辆决策固化,驾驶行为难符合优秀驾驶人的驾驶习惯,难适应不同驾驶/乘坐需求,从而降低人们对驾驶系统的接受度。而通过学习人类智慧来解决问题是自动驾驶发展的一种可行思路,原有的L1~L4级自动驾驶系统并未完全实现学习人类的思维方式,而通过真正解析人类的决策机制才能更好支撑L5 级的发展。但对人类驾驶人的决策机制的学习是有难度的,如何解析驾驶人的决策机制,如何进行决策层次的逻辑判断仍需要进一步探讨。尤其是在前端给出环境感知的各种要素的统一表达后,如何准确、细致地反映驾驶人的决策机制,实现拟人化决策策略对L5级自动驾驶汽车发展十分关键。
除了技术和机理方面的难题,现有研究思路仍需深入探讨。目前,自动驾驶的层化结构能够有效保证驾驶过程中的各项任务(感知-认知-评估-决策-控制)被独立完成,且单任务的完成情况可以被准确评估。在技术攻坚阶段,这种模块化分层化的任务结构是实现完备功能的必然要求。但是,模块化分层化的设计结构,导致自动驾驶系统的自我修正仅存在于单一模块中。例如,先进的决策模块虽已具备一定的自调整能力,但也仅能考虑如何在驾驶过程中进行自优化和自适应,却无法有效评估和影响系统中其他模块。目前的决策模块设计过程,通常将感知所提供的输入和控制所需要的输出,作为已有且固定不变的条件,模块之间是刚性桥接的。这意味着决策模块不能满足与其他模块协同修正的要求,难以将自身的修正过程和结果反馈给其他模块。
而模块间反馈机制的缺失导致自动驾驶系统缺乏模块间的协同成长能力,即系统性的自我修正能力。并且,单一模块的成长对于整体系统的影响是不可测的,甚至不一定是有益的。一个具有单模块成长能力的自动驾驶系统,在自学习过程中甚至有可能由于各个模块的独立学习而丧失系统的整体协调性。
自动驾驶系统是一个搭载了大量的硬件结构和软件算法的集成框架[28]。在传统功能分层叠加框架中,不同功能所对应的物理结构对应于不同的子系统。通过集成框架在实际应用中所需处理的问题来调用各部分结构及其对应功能,通过信息传输、能量运送来控制物理结构本体,实现不同智能化程度的系统功能。但现有分层设计的框架所带来的系列挑战,迫切期望能从系统论的角度为高等级自动驾驶系统的研发提供全新思路。要实现这一点,我们需要思考以下问题:怎样真正解析人类驾驶人的驾驶行为,探明驾驶人的决策操控机制,让自动驾驶系统具备自主学习、自主探索的能力?怎样让自动驾驶汽车获取学习人、模拟人、超越人的决策智慧?怎样将意识和功能融入自动驾驶系统,输出更智能更合理的驾驶行为?
这些问题将使研究人员难以离散化理解自动驾驶系统的各个功能,不再分解系统对应的功能以及功能对应的部件,而是从整车系统功能出发,分析各系统、部件以及部件子结构中的共性原理与共性结构,运用大脑/意识理论,如结合全局工作空间理论(GWT)[29]和综合信息理论(IIT)[30]来设计和优化统一的系统结构。如图1 所示,自动驾驶系统功能可以描述为系统对环境的一种整体属性,是系统在一定环境中所能发挥出的作用和能力,是系统的外部联系,构成了系统与环境的关系集;在系统动态运转中实现,表现为物质流、能量流、信息流的输入和输出;遵循系统化的思维模式,有可能为高等级自动驾驶汽车,尤其是L5 级别的汽车发展提供更好的解决途径。同时,高等级自动驾驶汽车研究应该有“学习人、模拟人、超越人、服务人”的思想,最终目的是以人为中心,服务于人。因此,以系统化思维并始终以人为中心,在车路协同、云端控制的外在环境下,更能促进高等级自动驾驶汽车的发展。
然而,目前针对高等级自动驾驶汽车的发展路径,主要是从自动驾驶车的应用场景及针对不同驾驶任务需求两方面进行研发,但场景驱动和任务驱动的方式最终因分层框架的功能不断叠加而带来决策冲突、功能冗余等问题;因此在这种思路下研发的自动驾驶汽车,将难以突破有操纵运行域限定的L4级自动驾驶汽车,以致在实现L5级自动驾驶车过程中面临挑战。鉴于此,本文将抛开已有框架的限制,将自动驾驶汽车视为一个整体,以“类人”的系统角度,建立一个基于混合智能的统一通用框架。首先构建开放的类脑系统,然后将可能影响交通安全的各要素以统一的态势感知进行输入,最终输出实时的决策控制,以期为实现L5级自动驾驶系统提供可行思路。
“大脑-小脑-器官”协调平衡框架从系统层次开发自动驾驶大脑作为系统层,将感知、评估、决策、控制等技术作为功能层。其中,决策对应小脑,感知对应眼睛,控制对应手脚。在人脑的调配下,通过自动驾驶汽车的感知技术筛选兴趣区域,有选择有目的地进行感知;通过自动驾驶汽车的评估技术实时量化风险,保障安全出行;通过自动驾驶汽车的决策技术综合优化决策,平衡各项功能;通过自动驾驶汽车的控制技术稳态操控执行,实现可靠驾驶。而现有的分层框架和端到端框架所对应的基于场景驱动的研发思路是一种“反馈传输”结构,而自动驾驶大脑对各部分结构不仅仅是单独的刺激-反应双向反馈,而是包含意向扩散的复杂结构网络。如图2所示,在自动驾驶“大脑-小脑-器官”协调平衡框架中,通过感知器官感知外界环境来刺激大脑,同时转录为历史大数据储存到大脑中进行记忆。而小脑基于最小作用量原理,通过调用内部状态来完成思考与协调的功能,最后大脑和小脑一起输出激活状态,通过手脚控制器官完成控制过程。
图1.系统整体流程图。现有的场景驱动和任务驱动的方法将很难突破运行设计域限制的L4级自动驾驶汽车,因此实现L5级自动驾驶汽车将具有挑战性。因此,我们将自动驾驶汽车视为一个整体系统,从“类人”角度建立了基于混合智能的统一通用框架。LKA:车道保持辅助;ACC:自适应巡航控制;AEB:自动紧急制动。
图2.“大脑-小脑-器官”协调平衡框架。在这个框架下,外部状态刺激大脑,存储交通信息,小脑调用内部状态完成思考,最后大脑和小脑输出激活状态,反馈完成控制。
如图3所示,我们可以假设自动驾驶的训练过程和一个拳击手的训练过程具有相似性。其中,自动驾驶对应的感知技术可以让拳击手输入外界信息,感知到潜在风险;控制技术可以训练拳击手进行运动控制,锻炼肌肉;决策技术对应拳击手的小脑,对各项技能的协调起到平衡作用。但是仅仅依靠小脑、五官及手脚并不能使得拳击手真正实现一个高水平拳击手所具有的技能和素养,各项技术只是训练了他的小脑和各项体能水平,而没有训练到大脑,使其具备自如灵活的攻击性能和保护性能等。因此,自动驾驶要实现“自学习、自适应、自超越”特性的核心是构建完备的自动驾驶大脑。
大脑的主要功能是调配各项技能,包括探索、学习、思考、主导机体内一切活动过程,以及调节机体与周围环境的平衡的功能。当自动驾驶系统具备了运动控制和感知系统后,其所缺乏的是自动驾驶系统的控制和信息处理中枢。如果把上层系统定义为自动驾驶的大脑,那么运动控制和感知系统则对应于自动驾驶的小脑和相应器官。只有大脑、小脑和各自器官系统得到发展,自动驾驶系统才能更好地服务人类。同时,为了实现符合现实社会期望的驾驶功能,自动驾驶系统必须尽可能表现得像人类,这需要对人类行为以及群体的社会期望有内在的理解。在现有框架下继续发展的终极目标很难突破“场景的泛化性、多风险的因素融合、求解目标的耦合”等瓶颈,因此无法完全了解人类做决策时的生理与心理机制。而自动驾驶大脑可以从内至外地模拟和学习人类,能够实现在特定环境下,通过组织系统充分运用人类的各种认知活动完成指定任务。同时,由于存在自我意识,大脑通常在不确定情况下,具有自我探索、主动解决问题的能力。例如,在驾驶过程中,自动驾驶系统大脑可以快速采取有效措施,应对周围其他障碍物的随意停放或其他不遵守交通规则的行为,如不遵循交通规则的切入、超车、换道等行为。
图3.驾驶人和自动驾驶汽车之间的对应关系。自动驾驶汽车需要具备驾驶人的一些基本技能,并对人类行为及其社会期望有内在理解。即一个驾驶人的意向性,对应一个自动驾驶汽车的智能数字化。
事实上,这些行为模式在世界许多地方都非常普遍。例如,车辆需要应对强交互场景,如高速公路多车汇入和无保护左转,这对驾驶人来说也是一个挑战。在很长一段时间里,自动驾驶汽车与驾驶人会在同一行车环境中行驶,因此自动驾驶汽车必须理解驾驶人的意图,并以可预测和可解释的方式做出反应。虽然在空旷的道路上左转对于自动驾驶汽车来说可能是简单可行的,但在复杂交通环境下仍然很困难。对于驾驶人来说,这些不受保护的左转经常发生在一个正在行驶的驾驶人减速让出的时候,这暗示了另一个驾驶人可以安全转弯。而这对于目前开发的自动驾驶系统来说是极大的挑战。因此,基于场景驱动的研究思路在针对以上挑战时应用受限,未能突破局限性达到真正的高等级智能化。而智能可以阐述为一种表现在个体与自然、社会群体之间的相互作用和行为过程中的一种现象。因此从系统科学的思路出发,用系统观点来认识驾驶的本质,从而达到通用智能化。
钱学森[31]说:“人体作为一个系统,首先,它是一个开放的系统,也就是说,这个系统与外界是有交往的。比如,通过呼吸、饮食、排泄等,进行物质交往;通过视觉、听觉、味觉、嗅觉、触觉等进行信息交往。此外,人体是由亿万个分子组成的,所以它不是一个小系统,也不是一个大系统,而是比大系统还大的巨系统。这个巨系统的组成部分又是各不相同的,它们之间的相互作用也是异常复杂的。所以是复杂的巨系统。”因此,在自动驾驶系统研发过程中,也需要提炼自动驾驶系统中存在的问题,用系统的方式进行研发。
事实上,随着一个系统开放程度的提高,其处理高复杂性的能力以及适应不断变化的环境的能力也在提高。加利福尼亚大学洛杉矶分校的朱松纯教授介绍了两种人工智能的模式[32]。一种称之为“鹦鹉范式”,认为鹦鹉可以和人类说话,但不理解他们说的话。例如,当你说“你好”时,它会回答“你好”,但它不知道这是什么意思。还有一种是“乌鸦范式”。比如乌鸦知道不断往水瓶里扔石头,以提高水位来喝水。鹦鹉式模仿学习范式和乌鸦式推理学习范式之间存在显著差异。对于鹦鹉来说,它是一种简单粗暴的模仿学习,这种方式可以机械地实现“类人”行为,而不理解学习背后的深层原因。而乌鸦能自主研究因果关系并推断解决方案,从而完成任务。乌鸦依靠自己的观察、感知、认知、学习、推理和执行,过着完全独立的生活。所以可以理解为乌鸦有独立学习和探索未知的能力。相应地,自动驾驶系统在迈向高等级发展过程中,智能可以被认为是一种现象,它反映在个人和社会群体的行为过程中。自动驾驶汽车的智能化水平的提高取决于客观现实和物理环境的因果链。比如,外部物理环境为乌鸦提供了生存边界条件。在不同的环境条件下,智能的形式有所不同。任何智能机器都需要理解物理世界及其因果链,并适应世界。同时,自动驾驶汽车的智能可以满足它们需要完成的特定任务。而任务代表价值和决策功能,是生物进化的刚性需求。智能不仅体现适应性(如只存在刺激和反应而没有预测和推断),还适合局限于运行设计域下的低等级自动驾驶汽车。对于高等级自动驾驶汽车,不适应性在某种程度上更为重要,例如,它可以推理、进化和超越人类自身的局限性。高等级自动驾驶汽车可以创造一种新的可能性来适应互动,实现超越。因此,在开发高等级自动驾驶系统时,尤其是L5 级自动驾驶过程,需要有效结合乌鸦和鹦鹉的两种不同的学习思维模式,提出第三种混合型范式,即“乌鸦推理+鹦鹉学舌”研究范式。根据前述对智能的理解,真正的智能体现的不仅仅是适应性,更重要的是不适应性,进而以一种新的可能性实现从自适应到他交互再到自超越的最终目标,并最终创造出一系列新的可能性——自由、改变、交互。图灵机的缺点是只有刺激-反应双向反馈而没有选择机制,只有顺应而没有同化机制,其与鹦鹉范式近似。而人类自身的演变机制对应“乌鸦推理”范式,能够自主推理、演化,但要真正实现超越人类本身的局限性,提高智能系统的算力,融入智能化的优势,还需要结合两种范式,如图4 所示。因此,这种“乌鸦+鹦鹉”混合范式才是高等级自动驾驶尤其是L5级自动驾驶汽车发展的未来趋势。
图4.“乌鸦推理+鹦鹉学舌”研究框架。“鹦鹉学舌”可以通过数据驱动的深度学习方法实现适应性,而“乌鸦推理”则体现对交通环境的不适应。通过两者结合,自动驾驶汽车可随环境的变化而实现交互和进化。
假设所考虑的大脑系统是开放演化的。“乌鸦+鹦鹉”混合范式具备开放性、发散性,能够进行自主演化,突破已有技术和思维的局限性。传统架构中,分层次来解决各项功能;而大脑系统的开发需要在已有的知识经验基础上借助人工智能这一工具进行自主学习,探索未知[2]。“自主学习+先验知识”的开发模式能够让大脑在基于大量共性决策机制和操控规律时,不断探索个性化驾驶/乘坐需求,真正实现“自学习、自适应、自超越”的目标。
现有针对自动驾驶汽车发展所采取的措施主要有两种思路:①自主学习法[24,33];②逻辑判断法(先验知识)[24]。前者包括深度神经网络(DNN),在自动驾驶方面已取得了显著成果。但是,当将DNN 应用于诸如预测和决策的行为生成之类的安全关键模块时,DNN 缺乏可解释性和因果关系,并且很难合并领域知识。另外,建立一个精确的DNN 需要大量的相关数据进行训练,而且对于不熟悉的场景,尤其在极端情况下也无法很好地推广。而生成概率和逻辑模型具有解释性,能够通过逻辑判断阐明因果关系,并具备不确定性建模能力。但是,这些固有逻辑模型的可迁移性低,且对复杂场景的表示能力相对较低。因此,本文提出一个结合学习类方法和生成概率模型及逻辑模型优势的混合框架,以生成可解释且数据高效的行为。在此框架中,我们提出了一种“自主学习+先验知识”的开发模式,如图5所示,通过使用从生成概率模型和观测值获得的动态世界的低维表示来生成用于高级判断的驾驶行为控制层。这样,大脑系统能够将人脑储存的先验知识迁移,并在自学习的框架下探索未知,从而构建更复杂更高层级的知识推理。
假设态势感知是状态-趋势-感觉-认知的统一输入。统一的安全场思路[34]能够有效解决复杂环境下的综合态势感知和风险评估,实现时间和空间之间多域融合的多维尺度下的统一视角评估功能。智能车辆行驶过程将受到人-车-路三方面中多种因素的综合影响。由于道路交通复杂,路况多变;驾驶人员性格各异,行为不定;车辆系统复杂,性能耦合,使得行驶过程存在潜在风险,其安全态势具有时变、复杂和耦合的特性。
在图6所示的方案中,将态势感知中的“态”定义为驾驶人-道路-环境系统中的各类表征个体状态的主客观数据;“势”定义为事件的发展趋势;“感”定义为对系统中“态”的觉察;“知”定义为对“势”的理解。深度态势感知理论模型在不同情境下处理信息的方式会有所区别,并且以往关于态势感知的研究都充分说明了态势感知具有实时性,即态势感知会随时间而不停地更新、迭代。通常行驶过程中的安全态势评估/感知技术主要可以从宏观交通管理视角和微观车辆行驶视角出发[35]。然而,前者属于依赖海量历史事故数据的事后评估,难以及时评价行车过程中的当前风险,难以刻画当前行车安全水平,无法体现实时性;后者考虑的风险因素不全面,适用场景单一,难以适用于复杂多变的交通环境,对环境中人-车-路三要素间相互影响的耦合机理研究得不够透彻,致使其在实际应用中常显示出局限性[36]。因此,现有针对态势感知的研究思路还存在一定局限性,本文从统一的角度出发,对人-车-路各要素之间的关系进行耦合分析。
针对安全态势的时变、复杂、耦合特性,借鉴场论探索行车过程的物理机制,构建了行车安全场的具体模型。通过分别量化考虑车辆本身、道路交通设施、驾驶人行为和道路环境中各因素的行车风险,确定了影响行车风险分布的内因在于风险源本身的变化和风险梯度的变化。因此,本文可以用统一场的模型来对人-车-路综合风险进行量化评估,进而有效解决现有方法难以实现综合多因素的实时行车风险建模的难题。
图5.结合基于规则和基于学习方法的统一自动驾驶汽车框架。高等级自动驾驶汽车应从分层框架转移到统一框架。
图6.状态-趋势-感觉-认知统一输入框架。在人-车-路系统中,综合考虑多种因素的统一输入,通过状态-趋势-感觉-认知4个步骤,可以实现综合态势感知和风险评估。ER指交通场景中静止或固有的交通参与者带来的潜在风险,如道路条件带来的风险约束;ED代表不同驾驶人感知/认知偏差的潜在风险;EV代表交通参与者随时间和空间动态变化的演化风险。
假设实时决策和控制模块的输出追求最优结果。在综合交通环境中,由于驾驶场景的复杂多变、交通参与者行为的难以预测以及人们对于行车安全性、高效性和舒适性要求的提高,对于整个动态复杂过程,自动驾驶汽车的智能决策系统相当于人类驾驶人的小脑。其能协同平衡各项操纵的控制终端,使得驾驶人将行驶路径分解为方向盘、油门、刹车踏板的操作,从而执行规划目标。本文基于驾驶人在综合交通场景下的行为决策过程,抽取行驶过程中驾驶人关注的相关属性,分析驾驶人在操纵过程中追求的主要目标。通过判断、评价并获取驾驶人的主要驾驶行为模式,使得自动驾驶汽车的行为决策过程符合人类驾驶人的思维过程[2]。通过建立一种基于模拟驾驶人驾驶行为的自动驾驶汽车路径规划模型,使得实时规划符合驾驶期望的轨迹,能够有效探索单车个体和多车系统的最优路径。
如图7所示,通过统计自然驾驶数据中驾驶过程的关键参数,分析发现车辆行驶过程中反映驾驶人决策行为的主要运动特征参数存在极值现象。产生极值现象的内在动因是驾驶人遵循“趋利避害”的基本决策机制,即驾驶过程中驾驶人力图实现机动性和安全性之间的最优效果。受自然界包括物理和生物行为上的众多极值现象遵循最小作用量原理的启发,有研究人员提出驾驶人决策机制遵循最小作用量原理的假设[37]。本文尝试将自然界中力学系统的物理特性与交通系统的固有属性联系,将自然界“寻优”目的与驾驶人“趋利避害”的特性结合,从而提出基于最小作用量的决策控制算法[38]。即在选择最优轨迹时,本文通过采用让自动驾驶汽车模拟驾驶人的决策规划方式,总结驾驶人操纵特性,提出基于最小作用量原理的目标函数[39]。该目标函数综合考虑安全和高效等驾驶期望,通过计算每条可行轨迹的作用量来对路径进行筛选,从而选择具有最小作用量的路径并对其进行速度优化。
现有关于驾驶人决策的研究难以满足智能汽车技术的发展需求。传统研究通常是针对特定场景与单一交通环境的驾驶人行为的建模方法,不能全面反映驾驶人在真实交通环境中的决策能力和准确量化驾驶人的决策行为[40],更难为开发高等级智能汽车的拟人化驾驶算法提供指导依据。针对现有方法的局限性,本文中的方法将驾驶人行车过程中“趋利避害”的驾驶特性融入自动驾驶汽车的决策层,运用驾驶人操纵思维来控制底端,完成驾驶任务。算法综合考虑客观环境和周边障碍物(动态、静态),并不局限于单一场景或静态障碍物,适用面更广。
高等级的自动驾驶汽车作为一个独立且需要与外界进行信息交互的智能体,需要在遵从人类预期的运行规律的同时,能够超越人类的局限性,并且具备“意识”和“智能”两方面的能力。其中,“意识”是指智能体感知并理解事物的能力,“智能”是指智能体推断并解决问题的能力。如图8所示,高等级的自动驾驶汽车通常被期望具有强大的环境感知能力,如人的眼睛一样,因此,感知-评估模块对人-车-路系统进行动态信息感知,为大脑中枢提供感官信息输入。同时,期望智能车辆能够准确地预测周围道路参与者的行为和适应周边环境的动态变化,而车辆决策系统作为车辆的核心控制单元,需要像人体的小脑一样具备协调平衡的能力。决策系统提供了一个离散交通参与者、约束、动态演化趋势和大脑控制中心输入的动态平衡。高等级自动驾驶汽车作为在外部交通环境中能够与信息进行交互的独立智能体,需要具备超越人类局限的能力,同时遵守预期的运行规则,具备意识和智能的能力。因此,自动驾驶汽车需要基于自主学习和先验知识的发展模式。此外,自动驾驶汽车可以运用意识理论,如GWT和IIT,从系统的角度实现闭环互动。这样就可以通过手脚和大脑终端动作的及时调整来实现车辆执行。基于“乌鸦推理+鹦鹉学舌”的混合范式,闭环反馈中存在一个开环自进化过程。
然而,现有的研究思路对于开发高等级自动驾驶系统无疑是具有挑战性的,在现有框架下,我们难以全面列出自动驾驶汽车所面对的所有驾驶情况和可能的潜在危险,而高等级自动驾驶汽车所要应对的更高等级的复杂性和部分隐含的机动驾驶任务,使得研究人员在研发高等级自动驾驶汽车的每个阶段都很难论证安全要求的完整性和正确性。因此要彻底测试系统以确保超级可靠的系统运行是不可行的,而从系统角度进行整体的开发对于高等级自动驾驶汽车,尤其是L5级自动驾驶汽车具有重要意义。
提高自动驾驶汽车的智能化水平引发人们极大的兴趣。然而,对于如何实现高等级自动驾驶汽车,基于任务或场景驱动框架的可行解决方案,以及统一原则如何发挥作用等都还存在一定程度的困惑。本文试图通过分析现有的高等级自动驾驶的发展技术,比较L4级和L5级之间的差异来解析现有挑战。最后,提出迈向L5 级自动驾驶汽车的统一原则和可行途径。
图7.拟人化的整体决策和控制框架。通过将交通环境中的离散信息输入到最优决策系统中,结合数据驱动的驾驶人行为模式的输入,可系统地输出多目标协同控制策略。Gi:虚拟吸引力;Ri:阻力;Fji:外力;θi:倾角;i:自动驾驶汽车;j:外部交通参与者。
图8.评估和获取驾驶人驾驶行为模式的系统概述图。高等级自动驾驶汽车通过感知-认知-评估模块获取复杂的交通环境信息,集成各种传感器进行信息融合,保证车辆环境感知系统的稳定性。决策小脑协同平衡各种操控的控制终端,通过判断、评估、获取驾驶人的驾驶行为模式,使行为决策过程符合驾驶人的思维过程。大脑系统基于自主学习和先验知识的发展模式,最终通过其他子系统的控制实现开放进化。
具体而言,本文将系统科学理论作为自动驾驶系统开发的核心思想,将自动驾驶汽车视为具有“自学习、自适应、自超越”能力的智能生命体。基于“大脑-小脑-器官”的协调平衡框架和基于“乌鸦推理+鹦鹉学舌”研究范式的混合模型,为发展高等级自动驾驶汽车提供了新的视角。此外,提出了一种可行的类脑系统模块开发方法,并将其视为结合自主学习和先验知识优势的混合框架,可以支持复杂环境下自动驾驶系统实现完全自主驾驶。同时,本文提出了一种可行的态势感知模块开发方法,即建立统一的安全场,支持自动驾驶汽车在多因素耦合条件下进行准确的风险评估。此外,基于最小动作原理的决策与控制模块可以为系统地开发L5 级自动驾驶汽车提供一个全新的思路。
综上所述,场景驱动和任务驱动的研究思路对于实现L5 级自动驾驶系统是具有挑战性的,但从系统的角度出发,结合所提出的基本原则,能够为开发高等级自主系统提供一种新的途径。希望在这个研究范式的指导下,能突破现有技术的局限,实现高等级自动驾驶。
致谢
感谢国家杰出青年科学基金(51625503)、国家自然科学基金重大项目(61790561),以及车联网教育部-中国移动联合实验室联合资助。
Compliance with ethics guidelines
Jianqiang Wang, Heye Huang, Keqiang Li, and Jun Li declare that they have no conflict of interest or financial conflicts to disclose.