李波 尚世亮 郭梦鸽 付越 童洪剑
(1.中国汽车技术研究中心有限公司,天津 300300;2.泛亚汽车技术中心有限公司,上海 201201;3.博世华域转向系统有限公司,上海 201821)
主题词:自动驾驶 预期功能安全 接受准则 安全度量 场景优先度子集 测试评价
多起因自动驾驶汽车引发的致命交通事故表明,依靠传统的以质量保障(关注失效的预防和消除)为中心的车辆安全体系已经不能满足自动驾驶车辆的安全保障需求,汽车工业领域亟需建立全新的自动驾驶安全评判准则体系。为此,国际标准化组织下设的功能安全工作组(ISO/TC22/SC32/WG8)于2018 年正式启动全球首个自动驾驶安全国际标准ISO/PAS 21448《道路车辆预期功能安全》(Road Vehicles-Safety of The Intended Functionality)的制定工作,旨在为全球自动驾驶车辆的安全开发和测试评价提供技术指导。不同于ISO 26262《道路车辆功能安全》(对应GB/T 34590)关注并解决的是电控系统故障导致的危害,ISO/PAS 21448《道路车辆预期功能安全》立足对自动驾驶安全影响更广泛的非故障安全领域,重点关注自动驾驶系统的行为安全,解决因自身设计不足或性能局限在遇到一定触发条件(如环境干扰或人员误用)时导致的危害[1-2]。因此,功能安全(Functional Safety)和预期功能安全(Safety of the Intended Functionality,SOTIF)技术为确保自动驾驶车辆在故障、非故障情况下的安全运行提供了根本保障。
本文从我国国情出发,通过自动驾驶预期功能安全分析和试验研究,提出了基于量化思想的自动驾驶安全接受准则,建立了自动驾驶量化安全接受准则体系以及基于SOTIF 场景用例库优先度子集的测试评价方法。中国提出的自动驾驶预期功能安全接受准则的定义方法和测试评价方法已成功写入ISO 21448并作为主线贯穿全文,为后续基于更广泛的中国目标市场研究和测试,不断完善接受准则中的相关量化指标,更好地指导以我国为目标市场主体的自动驾驶汽车功能安全和预期功能安全开发、测试和评价工作奠定基础。
与传统车辆重点关注系统失效预防与减轻不同,自动驾驶车辆因替代了人类驾驶员的部分或全部驾驶操作行为,更需要关注运行过程中自身功能和性能的行为安全(即SOTIF),由于使用场景的复杂性和随机性,自动驾驶系统安全相关的很多问题在设计阶段无法预见。对自动驾驶运行场景进行分类,如图1 所示,从安全性和已知性角度,将车辆运行场景分为已知安全场景、已知不安全场景、未知不安全场景和未知安全场景4个区域[3]。在开发之初,区域2和区域3的比例可能较高,SOTIF 技术通过对已知场景及用例的评估,发现系统设计不足,将区域2转化为区域1,并证明残留区域2的风险足够低;针对区域3,SOTIF技术基于真实使用场景测试、用例测试、随机输入测试等,发现系统设计不足,将区域3转化为区域2,同时基于统计数据和测试结果,间接证明区域3已经控制到合理可接受的水平。由此实现对已知和未知风险的合理控制,完成自动驾驶车辆系统的安全提升和发布。
然而,汽车工业历经百年发展形成的“V模型”产品开发体系的出发点仍是基于需求的定义和迭代开发,而自动驾驶系统安全风险的一个主要来源是未知不安全场景区域,对其无法定义需求,这也成为全球自动驾驶安全开发领域的痛点。
图1 自动驾驶运行场景分类[1]
自动驾驶安全性受环境和场景中的未知因素影响极大,难以准确定义和模拟。为此,当前对自动驾驶产品的安全评测主要依赖于真实道路的里程累积测试,并将其结果作为安全发布的重要评判依据。但目前行业对自动驾驶需开展的道路验证总里程缺少统一定义方法,测试道路和场景的选取也缺少理论支撑,随机性较大。
2020 年,通用汽车公司自动驾驶系统“超级巡航”(Super Cruise)在中国上市,同时公布其实现了880×104km真实道路测试无事故[4]。同年,Waymo 公司宣布其自动驾驶真实道路测试里程突破2 000 万英里(约合3 220×104km)[5]。近日,特斯拉公司公布其自动驾驶系统(Autopilot)累计行驶里程已超过30 亿英里(约合48.3×108km)[6]。自动驾驶汽车开发厂商竞相比较里程测试长度,不断推动着资源投入和行业门槛的提高。
自动驾驶系统取代人类驾驶员并真正走向大规模量产应用的前提是确保安全,这已成为全球汽车行业和监管机构的共识,但除了不断竞相推高的累积里程,行业更为亟需建立科学、合理的安全接受准则。
在ISO 21448 制定过程中,针对自动驾驶预期功能安全的最终发布,中国提出了基于量化思想的预期功能安全双层接受准则。自动驾驶系统运行过程由一系列驾驶行为组成,如果相关行为不当,将可能产生危害风险,最终导致事故发生。对于每个危害行为事件,可从其属性出发,定义出定性或定量的安全度量准则,这是判断自动驾驶系统行为是否可能引发危害事件的接受准则,即第一层安全接受准则。在全部累积行驶里程中,自动驾驶系统可能产生不止一次危害行为事件,特别是里程越高,危害行为事件的数量及影响可能越大,自动驾驶预期功能安全开发的目的是将总风险控制在合理可接受的水平,为此,需定义总的确认目标,即总体安全风险的接受准则,也就是第二层安全接受准则。
图2 给出了自动驾驶预期功能安全双层安全接受准则的示例,自动驾驶过程中存在多次主动制动行为,但可能存在因设计不足或性能局限导致的制动危害,如感知系统误识别等原因造成的过大制动行为事件。以制动行为为例,导致违背第一层安全接受准则(如可控性和SOTIF信心度的安全度量指标)的过大制动危害行为事件将被记录下来,在完成全部里程累积测试后(如20×104km),将违背第一层准则的危害行为事件数量与第二层安全接受准则进行比较,如果总数不超过一定数量(例如2次),则认为满足总体的预期功能安全接受标准,以此作为自动驾驶预期功能安全的最终发布准则。
四是创新人才匮乏,人才结构性矛盾突出。目前,东营市拥有各类科技人员18.6万人,但大多数分布在油田、石油大学以及教育、卫生系统,而企业自有一线研发人员不能充分满足技术创新需要,具有特殊专业技能的高层次人才匮乏,科技创新后劲需进一步加强。
图2 自动驾驶预期功能安全(SOTIF)的双层安全接受准则
第一层安全接受准则,也就是危害行为事件接受准则,即对自动驾驶过程中危害行为事件的评价,包含定量准则和定性准则。其中,可控性指标和SOTIF 信心度作为安全度量指标,是定量准则的重要组成部分。
按照国家标准GB/T 34590《道路车辆功能安全》中给出的可控性的定义,即为确定一个给定危害的可控性等级,需要预估具有代表性的驾驶员或其他涉及人员为避免伤害发生而能对场景施加影响的可能性。这种可能性预估包括:如果给定的危害将要发生,具有代表性的驾驶员能够保持或者重新控制车辆的可能性,或者在危害发生范围内的个体能够通过他们的行动避免危害的可能性。这种考量基于的假设为:危害场景中的个体为保持或者重新控制当前情况采取必要的控制行为,以及所涉及的驾驶员采取有代表性的驾驶行为。可控性预估可能受到很多因素的影响,包括该目标市场的驾驶员概况,如个体年龄、手眼配合、驾驶经验、文化背景等。因此,可控性表征驾驶员、乘客或其他涉险人员对车辆电控系统危害风险控制的难易程度,是衡量车辆行为是否构成危害的关键指标。
2015 年,中华人民共和国工业和信息化部下达了“整车及关键电控系统功能安全ASIL 等级及测试评价规范”研究任务,同年,中国首个道路车辆功能安全研究项目——车辆侧向运动可控性研究启动。
该研究任务针对可控性的衡量对象,即车辆侧向、纵向、垂向运动相关危害,开展安全分析,结合测试结果及行业经验,对整车危害进行分类。通过分析车辆侧向、纵向、垂向运动功能特点,定义危害发生的典型场景,并组织大量代表中国目标市场的普通驾驶员开展实车危害行为的评估测试,定义出表征中国典型驾驶员对车辆侧向、纵向、垂向运动行为控制能力的客观度量指标。通过调整测试条件及被测人员响应的及时性,兼顾传统汽车、新能源汽车和自动驾驶汽车相关控制系统,从整车侧向、纵向、垂向3 个维度建立相关危害的可控性度量指标,如图3 所示,为判断车辆行为是否构成危害提供了合理的量化准则,相关成果为自动驾驶系统的正向设计开发与测试评价,以及强制性国家标准和推荐性国家标准的落地实施提供了有效支撑,例如GB 17675《汽车转向系基本要求》、GB 21670《乘用车制动系统技术要求及试验方法》、GB/T《乘用车转向系统功能安全要求及试验方法》(制定中)等。
图3 可控性安全度量指标体系
可控性衡量的是车辆行为的安全边界,如车辆制动减速度达到0.5g时,可能发生追尾事故。但自动驾驶汽车如果发生了一次0.3g减速度的制动,就可能造成乘员的紧张甚至恐慌。如果乘员对自动驾驶汽车预期行为感到安全担忧,将导致功能开启率低和误干预等一系列问题,对自动驾驶的发展非常不利。为此,在现有安全和舒适评价维度基础上,需建立针对自动驾驶预期功能行为的“SOTIF信心度”评价指标体系,如图4所示,在已有可控性安全边界基础上,引入乘员对车辆行为的安全感受评价,以更加全面地评判自动驾驶安全性[7]。
图4 自动驾驶安全、舒适和“SOTIF信心度”指标体系
SOTIF信心度受人、车、环境等多因素影响,通过分析其影响因素,挑选典型场景,开展实车主、客观对标测试,针对不同车辆行为的安全主观评价结果开展数据学习,找出可代表乘员信心度的客观指标,如图5所示。
图5 SOTIF信心度指标建立方法
第二层安全接受准则,也就是总体安全风险接受准则,针对自动驾驶汽车在真实道路累积全部行驶里程过程中的总体安全风险评价。同人类驾驶员一样,面对各种场景,自动驾驶系统也无法做到杜绝危害行为事件的发生。如果对比没有自动驾驶功能的人类驾驶安全表现,引入自动驾驶功能后,安全风险没有提高,则认为自动驾驶汽车的安全表现是可以接受的。基于这种理念,建立第二层接受准则。
泊松分布适合描述单位时间(或空间)内随机事件发生的次数。根据ISO 21448,真实场景中自动驾驶功能导致的危害行为事件数量也可以用泊松分布规律来描述。泊松分布的概率函数为:
式中,λ为单位里程(或单位时间)内危害行为事件的平均发生次数;k为危害行为事件发生次数。
通过转化,可得危害行为事件发生的平均里程或时间间隔(即无事故里程或时长)为:
式中,α为置信度水平。
例如,当无危害行为事件里程数达到100×104km时,具有99%置信度水平认为该系统在同等驾驶场景中危害事故率能达到4.6×10-6次/km。
对自动驾驶系统总体安全水平的评估,应考虑其是否带来了不合理的安全风险,即与同等驾驶场景下人类驾驶员的安全驾驶能力指标(如平均无事故里程)相比,引入自动驾驶系统后,相关指标不应变差。因此,可以认为如果自动驾驶系统没有带来明显的不合理风险,则其总体安全风险是可以接受的。
总体安全风险接受准则的定义和确认需要基于目标市场情况,假设驾驶员安全水平较高的乘用车驾驶员平均每年行驶2×104km,每10年发生1次交通事故。以此作为目标,选择95%置信度,则τ≈60×104km。即为了证明在95%置信度下认为自动驾驶车辆事故率能达到上述驾驶员的驾驶安全水平,需要累积测试60×104km无危害事故。通过基于目标市场的统计研究,可以得到危害行为事件的平均行驶里程,再考虑合理的设计余量,作为自动驾驶总体安全风险的接受准则。
在自动驾驶里程累积测试过程中,通常会伴随危害行为事件的出现,特别是随着新功能、新设计的实施,发生危害行为事件的平均里程会出现先下降后逐步上升的情况,如图6 所示,从统计规律定性描述了引入新功能后,由于该新功能应对各种场景的能力较低,因此安全行驶里程相对较短,但通过预期功能安全的迭代开发、功能改进,危害事件发生率下降,从而无危害事件发生的安全平均行驶里程增加,也就是通过预期功能安全的迭代开发,车辆发生危害事件的次数降低,安全行驶里程增加,安全能力得到提升。
图6 自动驾驶危害行为事件出现的平均里程
如果在达到累积测试里程目标前出现了危害行为事件,修复后为了继续确认自动驾驶系统是否可以满足初始设定的安全目标(相同危害行为事件发生率和置信度水平),后续测试里程会比无危害行为事件发生时更长[8]。假设在里程达到τ1时发生危害行为事件,当迭代改进后,验证达到同等置信度水平的危害行为事件发生率目标λ所需要的里程s可由式(3)确定:
式中,λ0为危害事件发生率的目标值;p为概率函数。
例如,定义危害行为事件发生率为λ=0.001 次/km,置信度水平α=99%,则发生j次危害行为事件后,需要补充测试的无危害行为事件里程如表1所示。
表1 自动驾驶危害行为事件发生后的补充测试里程
自动驾驶的安全评价需要基于目标市场场景,对于无事故里程,如果场景差异较大,其展现的安全水平也不相同。目前,自动驾驶实际道路测试耗时久、成本高、针对性不强,为了提升自动驾驶测试的时效性,更好地为量产开发服务,对已知场景进行分析和管理:如图7所示,建立关键场景因素子集,将场景构成因素按照敏感性、严重度、暴露频次进行评级,并据此生成优先度顺序,在同等投入下,提升自动驾驶里程测试的时效性;同时,针对场景优先度子集建立仿真测试,也可大幅提升自动驾驶测试的效率,实现用更少的里程达到更好的验证效果;基于优先度子集衍生出的未知用例,也可更快发现相关未知风险场景。该方法已作为中国提案,写入国际标准ISO 21448草案中。
图7 SOTIF场景优先度子集的建立和应用
科学、合理的自动驾驶预期功能安全接受准则和测试评价方法对于从源头提升自动驾驶汽车安全水平,避免竞相推高无止境的累积测试里程、降低开发成本、提高开发效率具有重要的指导意义。本文从我国国情出发,通过自动驾驶预期功能安全分析和试验研究,提出了基于量化思想的自动驾驶预期功能安全(SOTIF)接受准则,建立了自动驾驶量化安全接受准则体系以及基于SOTIF 场景用例库优先度子集的测试评价方法。后续,将基于更广泛的中国目标市场研究和测试,不断完善安全接受准则中的相关量化指标,更好地指导以我国为目标市场主体的自动驾驶汽车功能安全和预期功能安全开发、测试和评价工作。