何 丽,张 恒,袁 亮,刘哲凝,张文智,钟润豪,张 帅
1.新疆大学 机械工程学院,乌鲁木齐 830017
2.北京化工大学 信息科学与技术学院,北京 100029
《中国制造2025》规划将机器人列为重点发展领域之一,提出了推进服务机器人应用的重大需求。且由于人口老龄化加剧和智能化生活的普及,机器人服务人们日常生活的需求日益增加,在医疗健康、家庭服务、餐饮服务、消杀防疫等不同服务领域发挥着重要的作用。特别是新冠肺炎疫情爆发以来,许多服务都要避免人与人的直接接触,更突显出研发新一代能够适应各种复杂多变环境且具备社会意识的服务机器人的迫切性。王天然院士指出,与人的共融改变了人与机器人的关系,是下一代机器人的本质特征[1]。因此,在实时多变、与人共融的社会工作环境中,服务机器人需要有像人一样的思考和交流能力,能够实现安全、可靠、舒适的自主导航,以独立完成各种复杂的任务。
伴随着传感器技术的快速发展以及人工智能与机器人技术的深度融合,机器人智能导航技术已经取得了较大的发展,目前已经实现了在复杂环境中的自主移动和动态避障功能[2]。但要想使服务机器人真正走进人们的日常生活,基于避障到达目的地的自主导航已无法满足人机共融的需求,人们逐渐关注对自主导航过程中人类舒适度、自然性和社会性[3]的研究,以及建立具备社会意识的智能导航规划系统。
社会意识导航是指机器人在人-机-物共享空间时,根据人类的社会交互行为规则进行智能导航规划的行为。传统机器人的社会意识导航技术只是简单地绕开人类舒适区,没有考虑人类的交互行为和社会规则,无法按照人类可接受的社会行为进行导航。针对该问题,Charalampous等人[4]提出在地图构建中引入社会映射,将获取的人类交互信息表征到地图中,以进一步提高服务机器人的社会意识导航能力。Moller等人[5]为让服务机器人更好地融入人们的日常生活,做出社会可接受的“正确”行为,结合主动视觉、机器人导航、人机互动和人类社会行为建模四个功能模块,让机器人具备社会意识导航的能力。可见,为提升服务机器人的社会可接受性,与人共融的社会意识导航一直是服务机器人研究领域的热点之一。
本文梳理了现阶段国内外有关服务机器人社会意识导航方法的研究工作和成果,对社会意识导航系统框架及主要研究方法进行了概述;并依据服务机器人对社会行为感知程度及方式的不同,对基于社会空间关系模型、社会行为学习及行人轨迹预测的社会意识导航方法进行归纳总结,并对未来的发展趋势进行了展望。
与人共融服务机器人需要具有社会可接受的行为,能够安全地、舒适地接近静动态的人类和人类群体,尊重人的社会习俗同时完成导航任务。服务机器人社会意识导航系统框架如图1所示。该导航系统是在感知、定位、运动规划和运动控制的传统导航框架上融入了社会意识导航模块,旨在通过人体检测追踪、行人状态提取、社会反应控制、社会交互检测等方法提取周围环境的社会特征,以区分人类与常规障碍并能够对接近机器人的行人做出合理避让和运动规划。
图1 社会意识导航系统框架Fig.1 System framework for socially-aware navigation
结合服务机器人社会意识导航的发展历程,依据社会行为感知程度及方式的不同,社会意识导航主要研究方法可分为以下三类:
(1)基于社会空间关系模型的导航方法。在早期研究中,由于导航过程行人数据繁杂难以利用,研究者们通过社会空间建模研究了基于模型的社会意识导航方法。主要通过一些社会规则假定,建立社会力模型或高斯模型,进行手工计算后由这些模型推导的结果指导机器人导航过程。
(2)基于社会行为学习的导航方法。虽基于模型的方法具有计算效率和可解释性的优势,但适用性有限,这些模型的参数在不同环境甚至不同行人之间差异很大,同时也无法考虑复杂时变的社会关系。因此研究者们提出了基于社会行为学习的导航方法,通过深度学习捕捉由大量传感器数据得到的环境和周围人类的特征,实现了社会意识导航过程由模型驱动向数据驱动的转变。
(3)基于行人轨迹预测的导航方法。基于空间数据的学习方法由于计算过程的时滞性,降低了服务机器人与人友好交互的能力。基于此,研究者们通过行人轨迹预测与社会意识导航算法进行时序匹配,更好地适应行人场景中的高动态性。
社会空间关系模型主要包含社会力模型和高斯模型。其中社会力模型考虑行人的速度和方向进行模型构建,高斯模型则通过行人的社会交互意图建立交互空间来表现出社会意识。
传统社会力模型方法的核心是引入目标点对机器人的“引力”和障碍物对机器人的“斥力”,通过力的合成实现让机器人既能向目标点移动,又能避开障碍物。在人的周围添加“斥力”可以实现机器人在导航时避让行人,但是这种避让仅把人当作“障碍物”来处理,并没有把人当成服务对象来对待。
部分研究人员通过改进或加入更多的社会力模型来实现多场景的社会意识导航。Ferrer等人[6]将社会力模型(social force model,SFM)引入导航中,提出了一种基于社会力模型的机器人社会意识导航方法,它将人类之间的社会互动用社会域或力量模型来表示,主要描述了人与机器人、人与人和人与障碍物之间的交互力。在导航中,机器人对社会力模型做出反应,可以大大提高行人的接受度,实验结果表明引入社会力模型的导航方法,具有社会感知意识且方差更小,能够更高效地处理不同的社会任务。此后,服务机器人的社会意识导航研究经常通过改进或扩展SFM以提高其在人类社会中舒适性导航的能力。Malviya等人[7]不仅考虑人与人、人与机器人之间的吸引与排斥,还考虑他们之间保持的距离是否均衡,以及这些距离在不同人类行为和社会习俗里的变化,通过加入几种不同的社会力扩展了社会力模型,有助于模拟不同的人类行为并且运动轨迹更符合社会习俗,使得机器人的导航行为更加令人满意。但该方法只适用于全体社会意识环境下的某一种,不适合复杂的社交场景,泛化性能较差,并且灵活性不高。Pérez-Hurtado等人[8]采用了一种基于膜计算的社会导航模型,提供了一种固有的并行计算框架,可以在并行硬件上模拟计算,能够满足机器人导航对实时性的要求,并结合动态窗口法和社会力模型规划出能够满足社会要求的路径。
除了改进社会力模型外,一些研究人员在社会意识导航中考虑空间关系学来实现合理的社交导航。Wang等人[9]在基于社会力模型和空间关系学的机器人导航框架上,提出了一种考虑速度约束的自适应运动控制方法进行模型匹配。基于空间关系理论构建了社会空间势场,以产生社会交互力,而后提出一种动态控制方法,在结合运动速度约束的同时处理动态模型的不确定性,使机器人的运动受到目标社会力模型的自适应控制,可以有效地解决感知人类的运动控制问题。与纯运动控制和基于动态模型的控制相比,该方法在结合运动速度约束的同时可以处理动态模型的不确定性,可以进一步调节机器人与人之间的空间关系。虽然所提出的方法没有违反空间约束,但是机器人的导航轨迹侵入了个人区域,社会规范不严格,没有区分不同年龄、关系的行人。Reddy等人[10]通过添加新的社会力量模型,根据社会行为选择几何间隙来保证机器人与人群的舒适距离,提出了一种结合社会力模型、几何方法和间隙选择策略的混合算法。该算法在真实环境下表现较好,机器人在人群密集的环境下与人类的最小间隙为0.56 m,比次最佳方法高出10 cm以上,且未违反最小距离约束,时间花费少。与基于社会力模型的方法相比,该方法保持了更大的间隙,提供最大可能的交互空间,产生了更安全的轨迹。但是在导航过程中,没有考虑人类的情绪状态和行为方式,人机交互的可能性较小。Kivrak等人[11]针对人工势场法普遍存在陷入局部最优的问题,扩展了基于社会力模型的局部规划器,将其与A*算法结合,同时纳入了社交区域,并且考虑社会力大小和某些点的不连续可能发生的高速转弯和振荡问题,对连续的时间戳力进行一种插值或平滑处理,使得机器人的运动不会引起人类的不适;且为了避免不必要的重新规划和提供平滑的运动控制,提出一种关键路径点选择算法,通过修剪全局路径的某些部分来提取全局路径的路径点用于机器人的路径规划,实现一个完整、社交、平滑并且计算负荷低的机器人社会意识导航。
也有部分研究人员将人类运动轨迹考虑进社会力模型的导航方法中,Repiso等人[12]提出了一种机器人以人类社会行为陪伴个人或人群的导航方法,该方法将并排和V形的行人模型与预期的动力学规划器相结合,机器人跟行人保持并排或V形队形,预先避免静态和动态障碍物,并可以动态改变其在群体中的位置。利用贝叶斯人类运动意向性预测器(Bayesian human motion intentionality predictor,BHMIP),机器人可以从目的地中选择人群最可能去的目的地。通过结合BHMIP和SFM,机器人能够预测行人运动,在5 s的时间窗口内来预测他们的行为。此外,该方法还考虑了行人的随机性和运动方向,机器人能够调整速度,以适应人的行为。但是遇到人群密集存在遮挡的情况下,机器人无法实时保持队形,导航性能较差。Kamezaki等人[13]针对传统路径规划方法会出现机器人在试图通过密集人群时无法与人类进行协调,从而导致冻结的问题,开发出一种避障性、主动性和可引导性的近端群体导航方法,该方法基于一种新开发的可引导社会力量模型,首先基于社会力模型融合路径规划方法主动生成避碰、近端和引导物理触摸路径等多条路径,基于可引导社会力量模型主动预测人体运动,根据机器人运动效率和人群入侵指数选择最优路径,最后根据施加的力在人群中反应移动,不仅可接近人类,还可通过物理触碰人类来引导人类避让,解决了机器人低效率的绕道问题和冻结问题。Kivrak等人[14]提出了基于碰撞预测的社会力模型,把该模型用作局部路径规划器,使得机器人在局部未知环境能够进行平滑、安全的导航,在走廊等室内环境场景中生成与人友好的无碰路径。这是首次有人将社会力模型应用于未知环境下,但其被应用于真实环境时对传感器和模型参数依赖高,在多层建图后才能快速检测障碍物,进行安全无碰撞的社会意识导航,准备工作较多。
为使机器人在人类社会中表现出更流畅及更符合社会习俗的轨迹,可以增加对人类行为信息的利用,一些研究人员将个体或者群体的状态信息和社会力模型相结合,实现深层次的社会意识导航。Patompak等人[15]对社会力模型进行改进,将其扩展到人与机器人之间的社会关系,提出了一种基于社会力模型的社会关系模型(social relation model,SRM)的导航方法,机器人通过获取人类的行为信息和社会交互程度来估计人类与机器人之间的关系,利用这些信息确定人类不可接受的区域,从而遵循一定的社会约束进行导航。在基于过渡的快速随机树算法上测试SRM的影响,结果表明通过集成SRM,可以降低不同环境下不可接受度和平均路径长度,该模型在考虑人类可接受的感觉同时,有助于提高导航效率。然而该实验假设人与机器人之间的关系因素很简单,并仅由测试者指定,没有考虑其他因素来定义人类和机器人之间的关系。除了考虑机器人与人之间的交互关系外,还要考虑机器人会面对人在与物体互动的状态,不去打破人-物之间的关系,Truong等人[16]考虑复杂社交环境下的机器人导航问题,创新性地将机器人与人-物之间的交互考虑到导航系统中,提出一种社会反应控制,通过将个体状态(位置、方向、运动和人类视野)和社会互动群体(群体类型、群体中心、群体半径和群体速度)纳入传统的社会力量模型,将其与传统的路径规划技术相结合,使移动服务机器人能够在人类交互环境中安全和社交地导航,并在真实场景验证了其方法的有效性,但对传感器要求高是限制其在大范围应用的主要原因。Yang等人[17]提出基于完整系统特征的扩展社会力模型方法,以激光测距仪和相机作为传感器,构建环境模型和检测人类行为信息。对人群进行社会学研究的基础上,构建了动态分组模型,将行人行为具体化到一个群体中,以实现社会导航,为了与周围环境互动,开发扩展社会力模型并且使用多策略决策模块,设计几种不同功能的机器人行为,从而作为一个整体完成了机器人导航框架,解决机器人在复杂和密集的环境很难进行社交友好的导航问题。但以上方法对检测的精准程度要求较高,若出现部分遮挡问题其效率则会受到很大影响。
表1对基于社会力模型的导航方法进行了对比,从表中可以看出通过加入社会力模型可以使机器人拥有良好的交互能力,在此基础上融合其他方法能够让机器人在导航过程中更加适应行人的行为和运动,实现社会意识导航。但目前基于社会力模型的方法仍然存在不足,算法的传感器依赖性高,而且算法对不同环境的适用性不高,与人类的运动轨迹还有一定的差距,想要实现能被行人完全接受的安全性高、适用范围广的社会感知导航还需对以上算法继续深入研究和改进。
表1 基于社会空间关系模型的导航方法对比Table 1 Comparison of navigation methods based on social spatial relationship model
上述社会力模型的建立主要是基于行人的行走速度和方向,用引力和斥力来表征行人的交互意图,没有考虑行人的行为方式和社交状态,存在一定的局限性。而利用高斯模型建立行人的交互空间,机器人可以根据行人的社会交互信息调整社交区域,修改自己的轨迹,保证社会群体的心理安全和舒适性,表现出社会意识和交互行为。因此,建立社会空间模型对实现服务机器人社会意识导航是十分必要的。
在社会力模型的基础上,Sheng等人[18]提出了一种基于社会力高斯行人社交模型的社会意识导航方法,利用高斯函数改进了行人社交模型,以适应不同的行人运动行为和密度,且不需要关于环境的先验信息和复杂的参数调整。该模型通过遵循人类社会规则,模拟行人社交空间,提高了机器人完成任务的成功率和效率。但是在行人密集的情况下,机器人的路径平滑性较差,需要执行更多的转弯、加速和减速。Gines等人[19]提出了一种人类可接受的机器人导航算法,将社会行为模块和社会导航模块集成到机器人认知架构中,并添加社会关系层修改本地代价地图,利用高斯函数建立了不同的社交区域。机器人不仅可以探测到人类的个人区域,还能够感知人类对其的态度,调整社交区域的大小。经过测试,参与者认为机器人和人之间的距离足够,舒适度好。虽然提高了社会意识导航的舒适度,但行驶路径和导航时间较长。
上述方法虽然一定程度上保证了人类的安全和舒适性,但是行驶路径和时间较长,且路径不平滑。针对此问题,Ngo等人[20]提出了一种利用动态窗口法和优化成本函数的移动机器人导航框架。将获取的人类状态进行个人空间建模,在参考路径的假设下,建立了机器人的运动模型,采用动态窗口法和优化成本函数搜索图中的最短路径。实验对三个框架(没有人类感知框架,有人类区域的基本模型和扩展的个人空间)进行测试。结果表明在保证行人的安全和舒适的情况下,机器人接近行人的路径更平滑,没有打破安全阈值。但是由于计算繁重和导航过程复杂,只能应用于低密度人群。Daza等人[21]提出了一种基于最优互惠避免碰撞的社会导航方法,使用对称高斯函数模型来表示个人距离和邻近区域,将交互模型与导航算法结合,机器人可适应不同场景下的导航。结果表明机器人在避免入侵社交区域时的运动路径平滑。但是在导航过程中,只考虑了行人的社交区域,没有考虑人机互动的其他特征,例如社会习俗、身份文化等方面的因素。
在服务机器人社会意识导航过程中,服务机器人不仅能够友好地避让行人,还应及时获取人类的交互信息,识别行为动作,依据不同的社会交互调整社会空间模型,进行社会意识导航。Truong等人[22]提出了一个具有社会意识的机器人导航框架,通过深度图像和激光数据融合进行人体检测及跟踪,获取行为信息,使用二维高斯函数对社会群体交互空间建模。机器人可以检测人或人群的接近姿态,进而能够安全地、舒适地接近社会环境中的人类群体。在模拟和真实场景的实验中,服务机器人使用该导航框架成功地处理了10种社会情境,能够保证个人和社会群体的心理安全和舒适性。然而,该导航框架不适用于高动态的社会环境,人类的时变运动会导致轻微的预测误差。Charalampous等人[23]提出一个允许在人类居住环境中综合导航的机器人框架。在机器人的巡视过程中,机器人可以检测到人类,同时利用深度学习策略来识别人类的行为,结合深度信息发现个人在地图上的位置,构建三维度量图,并根据所识别的动作,使用高斯函数构建交互空间模型改变社交区域。其中加入人体检测和动作识别模块,可以判断人类活动,机器人并不是简单地避免碰撞人类,而是能够遵循社会行为进行导航。但是在人体检测模块失效的情况下,人们会被视为简单的障碍,机器人只是避免碰撞,没有考虑社交规则。Truong等人[24]又提出了基于RGB-D和激光数据融合的人类检测和跟踪,并用于社会感知的机器人导航框架。与以往的工作不同,该方法考虑了人的相对位置和运动状态,以及人和机器人之间的相对运动,利用二维高斯函数建模人类扩展的个人空间。此外,该方法对站立、行走的个人和两三个人组成的人群场景进行测试,服务机器人能够保证人类在社会环境中的安全和舒适进行导航,但是对于人物交互的关注程度小。在此基础上,又提出了一个更有效的保证人类安全的导航框架[25]。该框架不仅考虑了人类状态和交互信息,利用高斯函数建模扩展的个人空间和社会互动空间,而且将两者结合形成一个动态的社会区域。该区域可以作为导航系统的人类感知决策模块,允许移动机器人可以在人类居住的环境中安全和社会性地接近人群,并对人与物交互做出合适的反应。但是需要强大、实时和鲁棒的人工检测和跟踪技术来提高导航系统的性能,在高动态环境中导航速度不够快。
利用二维对称高斯函数建立社会空间模型,没有考虑人类所有维度的信息,如距离、身份、位置、移动和方向,服务机器人做出的导航行为不是最合适的,而使用非对称高斯函数能够根据不同的社会特征和运动状态表征不同的社交距离,从而建立不同的社会空间模型,服务机器人对此做出相适应的行为,进行社会感知导航。Vega等人[26]提出了使用自适应空间密度函数在人类静态环境中的社会导航,根据人群的空间排列有效地聚类,并使用非对称高斯函数和全局密度函数构建数学模型定义场景中个人空间和每个物体对应的空间。测试结果表明,导航架构中使用聚类算法和社会规则可以实现社会可接受的导航,不会影响导航性能。但是该方法只考虑了静态的情景,没有考虑动态的行人交互及行人姿态的变化。Chen等人[27]提出了一种考虑社会习俗权重的导航框架。通过获取人类状态和社会互动的信息,利用二维非对称高斯函数计算了社会互动空间中点的代价进行建模。机器人运动路径受社会习俗权重的影响,社会习俗的权重越大,机器人离社会互动空间越远。Calderita等人[28]提出了一个引入依赖时间社会映射的导航框架,该框架主要应用于护理中心,根据深度状态表征和表层认知结构构建时间依赖的社会地图,使用非对称高斯函数对个人交互空间建模,该函数由两个不同方向的椭圆函数构成。与经典路径规划相比,机器人能够安全到达目标且不会打扰人类治疗等行为活动。但是该方法的导航路径和时间较长,对于护理中心不同的人物,机器人仍然无法准确区别对待。如机器人应更接近工作人员,而与普通人保持友好的社会距离。
表1对基于高斯模型的导航方法进行了对比,从表中可以看出,大部分研究都是使用高斯函数对人群进行社会空间建模,不同之处在于,部分研究通过深度图像和激光数据融合技术及时获取人类的行为状态和交互信息,识别人体动作并及时调整空间关系模型,可以在一定程度上提高服务机器人社会意识导航的安全性和舒适性。虽然上述研究在各种社会环境下显示了较好的实验效果,但目前服务机器人构建社会空间关系模型缺乏时序性和高动态性,它不仅需要及时准确地获取人体信息,还需对时序信息进行及时持续的跟踪和更新,并结合注意力机制,融合人群分组及行人轨迹预测方法,建立动态社会交互空间模型,以提高服务机器人与人交互的实时性和友好性,满足社会意识导航的需求。
基于模型的方法,如上述社会力模型、高斯模型等,都倾向于设计一个特定的规则来描述社会行为,将社会意识导航问题转化为一个优化问题,这些方法具有一定的计算效率和可解释性,但因这些模型的参数在不同环境甚至不同行人之间差异很大,适用性有限。基于学习的方法通过在大量的训练数据上优化网络获得导航策略,早期采用监督学习的范式,通过模仿学习让机器人模仿专家行为来学习导航策略。Tai等人[29]提出了一种能够让机器人直接利用原始深度信息来在行人动态环境中持续学习的导航方法,使用生成对抗模仿学习对行为克隆策略进行了改进,让机器人不再需要特定传感器来获取数据,同时大大降低了计算时间,提高了导航过程的实时性,但算法性能受到机器人速度和视角的影响,而且训练出的导航策略无法适应复杂拥挤环境。
近年来,为了解决机器人在拥挤环境下的社会意识导航问题,将深度强化学习(deep reinforcement learning,DRL)应用于机器人导航的研究中,DRL结合了深度学习的表示能力和强化学习的决策能力,基于DRL模型的导航方法可以使机器人具备自主学习和决策的能力,具有学习能力强、对传感器精度依赖低等优点[30]。深度强化学习的目标是通过与环境的交互最大化奖励函数来学习导航策略,一些研究者基于奖励函数的改进来实现符合社会规则和考虑人类舒适性的导航任务,Chen等人[31]提出SA-CADRL,通过添加复杂的社会规范奖励来实现类人的社交导航行为;Cui等人[32]提出了一个深度世界过渡模型来估计机器人未来的观测和相应的奖励,并设计了一个考虑社会习俗的奖励函数来指导导航策略的训练。上述导航策略能够遵循右行的社会规则,能够在人群中适应行人的速度,但是没有适应行人的舒适区域。Lu等人[33]进一步研究行人舒适距离随人群密度的变化规律,将该规律应用于DRL奖励函数的塑造,得到了弹性奖励函数,该奖励函数可以指导并训练出适应不同密度人群和考虑行人舒适性的导航策略,然而,仅仅通过奖励函数来鼓励机器人进行复杂的社交活动是一项具有挑战性的任务,即使奖励函数在某些情况下看起来很明显,它通常也必须被规则化。深度强化学习中的一个新兴领域关注的是内在动机[34],内在动机以不同的方式内在地激励机器人的导航行为,其中一种方式被称为“授权”,授权被应用于激励机器人独立完成导航行为,并在奖励较少的环境中进行训练,Heiden等人[35]使用授权为机器人提供内在动机,机器人在其环境中努力为人类赋权,这样人类就不会被机器人的存在和运动所干扰。
行人数量的增加和动态变化给机器人导航造成很大挑战,适应密集动态人群的DRL模型是发展社会意识导航技术的关键。Everett等人[36]提出在网络输入处加入长短时记忆网络(long short-term memory,LSTM),通过LSTM编码大量的行人状态到固定长度的向量里,使机器人拥有通过观察任意数量的行人来选择动作的能力。Liu等人[37]针对机器人在拥挤复杂的动态环境下无法导航的问题,融合了模仿学习和深度强化学习方法,通过将静态障碍物和行人的信息分开处理,提出可广泛应用于实体机器人的导航方法。Everett等人[38]随后针对机器人导航过程中行人数量增加的问题,开发一种新的算法来学习避碰策略,用LSTM编码空间表示取代时间表示,能够在邻近行人数量增多时,提高机器人的避碰能力和最优决策能力,但是简化了对其他行人动作模型的假设。
在动态密集人群中导航时,机器人不仅要避免与人碰撞、还要考虑人类的舒适性与社会规则,以往基于模型的方法只考虑了单个的人机交互。受到注意力机制的启发,Chen等人[39]超越单个的人机交互,联合建模人与机器人和人与人之间的交互,利用自我注意机制将交互特征聚合为群体表示,从而推断出邻近人类对其未来状态的相对重要性,产生了具有交互认知能力的导航效果,但是,当人群规模增大时,导航性能就会下降。Chen等人[40]提出了利用网络识别并关注人群中对导航有影响的人来解决这个问题,首先训练了一个基于人眼注视数据的图卷积神经网络,该网络可以准确估计人群中不同主体的注意力,然后将学习到的注意力整合到一个基于图的强化学习结构中,所提出的注意机制能够为机器人的邻居分配有意义的权重,并且具有额外的可解释性。孙立香等人[41]针对值函数模型难以拟合复杂行人环境的问题,基于行人交互信息对值函数网络进行改进,通过行人角度网格对行人之间的交互信息进行提取,并通过注意力机制提取行人行走轨迹的时序特征,学习得到行人当前状态与历史状态的相对重要性以及对机器人导航策略的联合影响。Xu等人[42]针对值函数模型只学习稀疏奖励下的离散动作导航策略,收敛速度慢、动作空间有限的问题,提出了一种基于增广关系图的深度强化学习方法,通过将交叉熵方法引入到关系图学习框架中,在连续动作-状态空间中获得足够的训练样本,并引入图形注意力网络提取高效、可扩展的群体交互特征。
社会环境下的服务机器人要处理的信息不应该仅仅是一系列人,而应是一个更复杂的数据结构,包括人与机器人、人群内部和人与物之间的交互关系,这种复杂的交互关系可以通过关系图来表示,图卷积神经网络(graph neural network,GNN)是一种特别适合用来处理这些关系图的方法,并且具有可扩展性的优点。Chen等人[43]提出了基于深度强化学习的关系图学习方法应用于机器人社交导航,首先利用智能体之间的潜在特征来推理它们之间的关系,并使用一个图卷积神经网络在每个智能体的状态表示中编码高阶交互,然后将其用于状态预测与值估计。所提出方法能够在考虑人类群体时间变化的情况下,执行多步前瞻性的规划,但是这种方法忽略了人类的方向、速度等其他信息。Rodriguez等人[44]利用GNN的关系归纳偏差产生场景表示,结合GNN和CNN生成用于社会意识导航的实时成本图,该模型的主要限制是它考虑的场景是静态的。Bachiller等人[45]进一步提出了由六个消息传递图神经网络组成的GNN架构,使得导航模型能够适应于动态场景,并且可扩展,可以考虑更多数量的交互和社会因素。Liu等人[46]将社交导航场景建模为一个分散的时空图,以捕捉机器人与多个人类在空间和时间上的交互,然后将分散的时空图转化为一种新的端到端的分散结构循环神经网络,能够推理时空关系,用于机器人社交导航决策,并使用无模型的深度强化学习算法来训练网络,由于机器人完全从自己的经验中学习,由此产生的导航策略更容易适应密集的人群和部分可观性。
表2对基于深度强化学习的导航方法进行对比,可以看出,基于深度强化学习算法进行社会行为学习为解决社会意识导航问题提供了有效的手段,特别是在高密度人群和高交互复杂度的场景。但是这些方法大多是在模拟环境中实现的,真实世界更加复杂和动态,将这些训练好的导航策略迁移到真实世界的机器人社会意识导航任务中是核心挑战。
表2 基于深度强化学习的导航方法对比Table 2 Comparison of navigation methods based on deep reinforcement learning
在人-机-物共享空间的服务场景中实现机器人的自主导航,对场景中的行人进行轨迹预测是一个关键点。行人轨迹预测的核心任务是利用过去观察到的行人运动轨迹,通过建立模型,让机器学习由行为推理、与他人的交互、周围环境的影响等产生的一些规则,理解复杂环境中的人类运动,从而在未来短时间内预测行人的运动轨迹。
大多数基于当前观测的反应性社会力模型通常适用于跟踪问题,对于预测问题来说,这类方法由于其贪婪性会在长期预测中失败,并会在局部代价最小的区域被阻塞。为了解决上述问题,Chung等人[47]在自我图的基础上进行了改进,提出了行人自我图(pedestrian egograph,PEG),通过统计多种行人路径,并将统计后的路径数据作为样本用来生成不同的轨迹,同时利用egograph的多假设特性,帮助建立轨迹预测的概率模型;为了让机器人能够理解行人行为与环境之间的空间关系,建立了一个空间认知模型,并通过实验对方法的效果进行了验证,证明了基于该算法的服务机器人能通过检测和学习环境中的空间效应来表现出社会可接受的运动。为了解决机器人在人口稠密环境中的导航任务,Kuderer等人[48]提出了一种基于最大熵原理的导航学习方法。该方法允许机器人从观察到的行人轨迹中捕捉并学习人类导航行为的潜在概率分布,使其能够预测其周围行人的行为,并做出适当的反应,但该方法只关注于导航轨迹。为了让服务机器人能够了解他们所接触到的人的意图以及同时识别他们的行为,Xiao等人[49]提出了一种学习预测行人未来动作的解决方案,将改良后的距离函数融合进聚类算法中,使其可以测量机器人附近的那些非重叠轨迹的相似性。然后使用了预训练的支持向量机,将当前观察到的行人轨迹的起始部分与样本的起始部分进行匹配,从而对未来路径提出多个选项,让机器人能够以不打扰行人的方式进行移动。Bera等人[50]提出了SocioSense,与以往的社会意识导航算法相比,该方法无需预计算,算法的实时性好,同时其具有通用性和良好的解释性。但是该系统的行人轨迹数据是通过透视矫正得到的,存在准确性和局限性问题;而行为分类是基于人格模型和Eysenck PEN建立的,这可能无法为所有观察到的行为进行建模。
许多方法都试图通过与人保持适当距离来提高人类的舒适性,但那些方法很多没有考虑到静态导航规划会导致机器人为了适应人的运动而持续改变其导航行为。机器人持续的导航规划会导致其行为缺乏一致性并且会让人感觉混乱和不自然,无法实现社会意识导航任务。Kollmitz等人[51]提出了一种新的人类意识导航方法,该方法使用社会代价地图和及时规划来改善人口稠密环境中的移动机器人导航行为,但该方法只适用于局部导航规划。服务机器人如果想用于真实环境,就需要在较长时间范围内进行导航规划,因此Bruckschen等人[52]提出了一种基于长期运动预测、人类舒适区域约束的路径规划系统和基于时间依赖性代价地图的人类感知导航系统。通过分析行人之间的交互,将学习到的知识转化为可用于预测未来导航目标的基础,然后应用代价网格来限制机器人与人类之间的距离,同时利用基于时间的路径规划方法以实现高效且让人感到舒适的导航行为。
代价地图存在实时性和适用性问题,无法适应复杂环境,而神经网络在发展过程中逐渐被用于行人轨迹预测。在此基础上,Chen等人[53]对社会意识模型进行了改进,在当前行人轨迹序列输入层和行人位置估计层之间增加一个集合池化层,从而更准确地模拟行人轨迹。由于使用了基于预测的行人轨迹和跟踪代价判断来优化局部避障功能,使机器人能够以更安全、更高效的方式在不断变换的中低密度人群环境中行进。Pfeiffer等人[54]的工作考虑了行人周围的静态环境,引入了一种基于极坐标的空间一维网格对周围行人进行编码,使其可以捕捉行人之间的复杂交互,还可以将环境中的静态障碍物纳入到导航规划中,同时降低了预测过程中的运算复杂性,让该方法具有扩展到密集人群的能力。而且该方法不需要已知行人的目的地,这一特性能够让机器人更好地适应现实世界。Sathyamoorthy等人[55]为了解决机器人在不同密度人群中的适应性问题,提出了Dense-CAvoid,改进了RobustTP算法并与导航算法相融合,提高了对传感器噪声数据的处理能力,能够在密集人群中生成平滑的轨迹。但是在导航过程中,机器人可能会产生冻结问题。为了解决上述问题,又提出了Frozone[56],利用行人检测和行人轨迹预测,提前确定机器人可能会发生冻结或者会对人类产生干扰的区域,构建潜在冻结区,让机器人在行进过程中避开该区域,以满足机器人在密集行人环境中的安全性和符合社会规则的要求。但该方法仍然存在一定的局限性:冻结区在没有人类愿意配合的情况下,仍是无法完全避免。该方法的表现很大程度上受到行人跟踪算法和对行人友好度建模算法的影响。
表3对基于行人轨迹预测的导航方法进行了对比,从表中可以看出,这些方法虽有不同,但都关注导航过程中的实时性、适用性、对人类社会关系的理解以及对人类复杂交互捕捉和互动的能力。尽管这些方法在上述方面做了许多改进,但在复杂的现实环境中,要想让机器人实现符合社会规则的顺滑的运动规划,还需要在算法实时性和不同环境的适应性上做出更多努力。
表3 基于行人轨迹预测的导航方法对比Table 3 Comparison of navigation methods based on pedestrian trajectory prediction
尽管学者们对服务机器人社会意识导航技术已经进行了大量的研究,并取得了一定的成果,但若想进一步提升机器人的社会意识导航性能,仍面临着许多难题和挑战。首先,对于复杂高动态密集人群的检测,行人之间存在遮挡等问题,机器人难以准确地识别行人。现有行人轨迹预测方法仍存在无法对周围场景充分理解、无法适应复杂多变的环境,社会意识导航的过程中机器人无法考虑自身对人类的影响等问题。其次,在社会生活中,人类的行为活动是一系列连贯的动作,有些动作只有细微的差别但是意义完全不同。但是机器人在导航过程中,识别相似的动作判别一致,对不同时刻行人的人体信息缺少跟踪和更新,检测识别行人是片段化、不连续的,构建社会交互空间的时序性不能保证,无法进行友好的社会性导航。最后,目前导航算法中对行人的反应因素考虑较少,大部分研究者将行人视为动态、无反应的障碍进行训练,导致现实环境中的机器人运动使行人感到不适,行人会因此产生机器人没有预测到的反应,行人和机器人短期相互作用产生振荡,导致机器人短期难以做出合适的路径规划。
在众多先进技术与应用创新的挑战下,目前对社会意识导航的理论研究和系统开发还需要进一步深入,具体有以下几个方面:
(1)通过多源信息融合构建低成本、鲁棒性强、检测效率高的社会意识导航系统,使其在多异构环境都能正常使用。深入研究多种信息源融合处理技术,产生对人类和所处环境较全面的检测,保证数据的完整性和数据传输的高效性,减小多源信息融合过程中产生的误差,降低损耗率和关联难度,从而获得全面和具体的数据信息,实现在密集人群中并存在部分遮挡环境下的精确检测的社会意识导航。
(2)在社会行为认知上可通过精确感知社交线索信息帮助服务机器人充分理解人类行为和意图。在现有的社会意识导航中增加多个社交线索的联合分析系统,增加多个检测窗口,检测行人的多个可见部位,并扩展人体信息特征识别类型,将人体姿态、头部朝向、面部表情、生理活动等指导着社交活动的信号融合识别,建立知识信息的相关联系,将多种类型的信息特征进行融合,同时增强机器人对人体外观模型的学习,从而提高机器人对行人意图的精确感知。
(3)有效的时空建模可极大地提高行为识别的精度,实现高效的长时序时空特征建模有助于提高社会意识导航的被接受程度和应用范围。通过从准确的时序信息中提炼更精确的时空特征和运动特性,设计多尺度时空特征融合模块,探索高效率的多尺度时空特征提取网络,实现实时和高效的社会意识导航。
本文首先总结了服务机器人社会意识导航系统框架;其次对其中社会行为认知层面涉及到的基于模型的社会空间关系建模方法、基于数据的社会行为学习方法、基于时空序列的行人轨迹预测方法的国内外研究进展进行了总结归纳。最后在列举分析了现有社会意识导航优势与不足之后,探讨了现有社会意识导航存在的问题,并对该领域未来的发展方向进行了展望。
目前,针对服务机器人社会意识导航相关理论、方法及技术还不够完善,距离服务机器人能“像人一样”的自主移动和工作的目标还有一定的差距。因此,在服务机器人社会意识导航研究及其实际应用的未来工作中,应该进一步加深对导航算法体系的理论研究,以现有的服务机器人系统为着手点,加强时空数据的分析匹配、数据特征的提取能力以及学习模型效率的研究,进一步提高服务机器人社会意识导航系统性能,提升服务机器人在动态社会环境下的与人共融性及友好交互,进而推进服务机器人在多场景下的应用与普及。