张少白张 政
(南京邮电大学计算机学院 南京 210033)
构建手臂运动平衡控制模型,是机器人学及控制科学所研究的一个重要的课题。 英国诺丁汉大学人工智能研究小组的教授Barbara Webb曾经说[1]:“传统的控制技术需要依赖精确的传感和驱动以及复杂的信息处理,这种技术已经不再适合具有类似感觉运动系统的机器人。”基于这种认识,模拟小脑神经系统的结构特征或功能特征,建立各种人工小脑或小脑模型,并将其应用于机器人的运动控制,正逐渐成为控制科学、机器人学以及人工智能等学科的重要研究领域。
正因为此,本文在文献[2]中曾经为手臂的定向运动构建了一个小脑控制模型,用以解释和控制手臂运动形式与手的预成型之间有关时间协调的问题。文献中假定,运动规划是在运动前区皮层(premotor cortex)中产生的;手臂运动轨迹以一种前馈的方式产生,除了初始阶段,不需要考虑手臂的实际位置;其延伸轨迹与典型钟形切向速度的分布一样,都是平滑的,并以某种反馈的形式在手和目标位置一直被监测的过程中产生。
但是,手臂控制本身不过是一种利用手臂在各种任务中抓取目标的手段,并不是一种目的。本文感兴趣的是,在延伸和抓取过程中,手臂运动形式与手的预成型(preshape)之间的时间协调问题。针对这样的问题,文献[3]曾经构建了一种基于最小加加速度最优标准的经典控制模型。该模型能很好地解释各种条件下手臂移动以及手部预成型过程的运动学原理,包括目标位置和角度大小的细微变化,其关键部分是状态预测,并能对系统传入与传出时产生的延时进行补偿。
鉴于小脑在运动系统中独特的结构和连通性以及小脑内模和逆模所起的作用,对于超前状态学习和剩余时间预测这样的问题来说,应用小脑控制模型进行类似的学习和控制是非常合适的。基于这样的考虑,文献[2]对文献[3]Hoff -Arbib控制模型进行了修改,并在1维空间范围内,对小脑如何学习被嵌入系统的前向模型的问题进行了深入探讨。此外结合时延问题,文献[2]还对小脑如何应用对运动命令的解释来预测手和手臂运动前区(premotor)的未来状态,因而获得精确平滑的运动轨迹的过程做出了说明。
本文是文献[2]的续篇,主要目的是探讨2维空间中时间协调的相关问题。为了实现这个目的,本文对适用于2维空间的控制机制及小脑模型做了适当调整和修改,并对轨迹规划延迟状态信息在最终目标位置附近的过冲以及震荡过程中的表现行为等问题进行了充分讨论。仿真结果表明,由文献[3]的Hoff-Arbib模型所获得的有关延伸与抓取运动的动力学的一些关键特征,小脑控制模型也能实现,有些性能甚至更好。通过训练和学习,改进后的模型在2维空间中能获得更为精确平滑的运动轨迹。
如图1(a)所示,在Hoff-Arbib 模型中,手和手臂单独被控制。延伸和抓取之间的协调是通过确定抓取角度(aperture)的形成以及手臂延伸到目标这两项所需的时间,然后将两者之间的最大值作为持续输入信号来完成的。控制器由比例微分(Proportional-Derivative, PD)控制器构成,如图1(b)所示。
手臂控制规则为
图1 Hoff-Arbib模型示意图
新的控制模型在 Hoff-Arbib模型的基础上构建,主要加入了用以学习被控体前向模型的小脑模块以及剩余时间(Time-To-Go, TTG)预测部分,如图2所示。将Hoff-Arbib模型复杂化的主要原因,是考虑到生物系统本身存在传入和传出延时问题。Hoff-Arbib模型中,这个问题是通过应用系统解析前向模型来解决的。本文的任务就是要证明,小脑模块通过训练也能获得同样的效果,甚至更好。依据文献[4]所讨论的结果,这个任务可以被很好地完成。
图2 延伸和抓取时间协调模型示意图
本文将系统对模型的训练分为了两种形式。第1种(简称模型1)是用距离和角度两个标量来表示手臂延伸和抓取角度的变化;而第2种(模型2)则是对第1种形式的扩展,方法是应用双关节平面手臂取代模型1中的位置标量,也就是将1维距离训练变换为笛卡尔空间中的多维运动(方向和距离)训练,从而增加了对系统复杂性和实用性的评价标准。
根据对各种小脑模型的抽象,本文在文献[5]中构建了一种通用小脑模型。本文尝试将此通用小脑模型应用于上述系统模型的两种形式之中。具体来说,对模型1而言,子系统包括抓取和移动距离(位置)两个部分;对模型2,移动距离子系统又被分解为单独的肩和肘两个部分。并且,这些子系统都有两个输出,每一个输出都用来预测系统当前状态的位置和速度。
对本文模型来说,当轨迹在笛卡尔空间中孕育时,其输出就是对关节间手臂状态(与到达下橄榄细胞(Inferior Olivary, IO)的输入信号一致)的评估值,这与文献[6]的叙述是一致的。依据现代生物学的观点,顶骨皮质(parietal cortex)与视觉有关,手部动作是靠顶骨皮质有关视觉的组织来引导的,尤其在与目标空间特性相匹配的动作过程中更是如此[7]。大脑皮质区域的信息通过脑桥核(pontine nucleus)映射到小脑皮质。小脑皮质则通过楔小脑束(cuneocerebellar tract)接收肢体当前状态的相关信息。
依据此观点,本文借鉴文献[8]论述的方法,在具体连接时,模型利用小脑模块接收作为苔藓纤维(Mossy Fiber, MF)传入信号的5组群码(population coding)输入,这些信号分别来自不同的子系统。其中,3个与代表脊髓传入信号的延时状态(位置,速度,加速度)相对应,一个表示目标值与当前位置之间的位置差,还有一个则表示当前运动命令的传出副本。模块结构参见图3,具体构建方法参见文献[9]。
图3 具有输入输出连接的小脑神经系统
除此之外,模块还接收先前产生的 TTG预测信息,抓取和手臂移动子系统各有一个,并且将MF作为一个 17×5的阵列来模拟。其中,每一行向量对特定的输入变量进行编码。向量中的每个元素针对该变量都被调整到某个不同的值,以便形成群编码。
行向量中元素i的活度(activation)iY可以定义为
表1 用于群编码方案的苔藓纤维输入参数表
另外如文献[5]所述,随机选择的苔藓纤维(MF)以及高尔基细胞(GolgI cell, GI)与颗粒细胞(Granule Cells, GC)的突触一起,伴随实时输出,作为漏积分被建模。并且,这些实时输出是作为膜电位的 sigmoidal 函数来计算的,用以表示细胞的瞬时激发率。
小脑模块的构建是本文的核心,但鉴于本文已经在文献[2,5,9]中对小脑模块的构建方法有过详细叙述,在此只是对适用于本控制模型2维空间的特殊问题和方法进行介绍,其它不再赘述。
仿真过程中,下橄榄(IO)负责驱动手部调节信号,每个IO细胞接收来自核细胞NUC抑制信息的输入信号。因为核细胞的兴奋抑制与浦肯雅细胞(Purkinje Cell, PC)有关,所以映射的效果可以通过修正pfw 即平行纤维-浦肯雅细胞(PF-PC)突触的权值来实现。模型应用文献[5]中所述的学习规则更新PF-PC突触的权值。
式中,GC(Granular Cell)为颗粒细胞活度,。微分方程的动态特性使得颗粒细胞(GC)的输入变得平滑,且不必与延迟信号精确匹配,其收敛性文献[6]中已有证明。
为了适用于2维空间的应用,模型的控制系统较文献[2]做了一些调整,设计为静态逆与动态逆相结合的方式(图4),概念上类似于Kawato的并行分层控制方案[10]。其控制原则是,静态逆模块ISM(Inverse Static Module)的学习取决于手臂姿势的动态逆(如引力项),而动态逆模块 IDM(Inverse Dynamic Module)的学习则取决于关节的角速度。
图4 控制系统简化示意图
仿真过程中,ISM(其输出为简单函数)以脱机查找表的形式被执行。IDM则作为神经系统的小脑模块被实现,具有生物学意义上的实时学习功能。
Hoff-Arbib 模型中,将与物体S尺寸有关的最大角度(maximum aperture)定义为+0.4,其形成时间与移动相位的大小相一致,并使物体最终被握住的时间大约是200 ms的常数值。基于这样的数据,模型抓取过程处理模块是作为单独的判定框来执行的。此判定框将输入作为位移控制的TTG评估值,如果输入大于200 ms,手部控制器的目标值将被设置为maxa 。以此协调手臂运动与手预成型(preshape)之间的时间,以便临近终点时,形成与目标形状相匹配的封闭状态。
训练过程大致如下:首先,基于2 维视觉信息确定目标对象的形状、方向位置、距离和大小;其次,将相关信息提供给模型中的分布式执行机构,分别确定手臂移动的大致时间以及手部预成形时间;最后,在移动及抓握过程中,需要对手臂延伸和手部抓取运动予以协调。这项工作可以通过比较抓握角度的形成时间以及手臂延伸到目标所需的时间,从而将两项时间中的最大值作为持续输入信号来完成。
本文应用文献[9]所描述的双关节平面手臂作为本文新控制模型仿真中的位置标量。在手臂延伸至抓取过程中,抓取对象的距离、大小和方向非预期性变化,在扰动实验中,将实验输出数据与Hoff-Arbib模型的人手实验数据加以对比,从而可以获得期望结果。
模型训练期间,总共要做2000次正常的手臂移动延伸和抓取动作,目标直径大小、对象距离以及持续时间分别在2~8 cm, 15~30 cm以及200~400 ms之间随机选择。特别需要加以关注的是TTG信号,如果没有这个信号,手臂延伸和手部预成型的控制就没有统一的终止信息,也就无法保证二者的统一状态,从而无法获得预期效果。
图5是关于速度的训练仿真。图中的每个分图表示了3种不同速度下手腕速度(图5 (a))、抓握角度(图5 (b))、手腕加速度(图5 (c))和抓握角速度(图5 (d))的变化情况。
图中的GO标志(术语“GO Signal”中GO表示启动的意思。这里的GO是一种习惯性定义,没有特殊意义)是一个关于运动速度的比例因子,涉及3种不同运动速度下有关精确抓握任务中统计得来的相关数据。仿真中,本文将速度初步分为3个等级,即GO=15表示低速运动所对应的轨迹,GO=25对应于高速运动,而GO=20则是对应上述两者之间的轨迹。随着仿真复杂度的增加,GO标志可以划分的更为细致一些。
图5 3种速度下移动和抓握运动的动力学轨迹示意
由结果可见,随着手臂移动速度的增加,最大抓握角度也会随之增加。因此,由延伸和抓握运动所共享的GO标志信号(即人手动力学特征),模型不需要在两种运动之间传递任何明确信息就可以获得,这是本文构建的小脑控制模型所具有的一个重要特征。
第5.1节讨论了不同移动速度会对最大抓握角度产生影响,那么影响手的张合度的因素又有哪些呢?文献[11]应用Hoff-Arbib 控制模型曾做过一个实验,在实验中使用了两种不同的抓握方法,即正常抓握(normal grasp)和变异抓握(altered grasp)。正常抓握开始时手指是放松的,抓握角度近似为零,而变异抓握开始时手指最大限度地张开。实验结果表明,对于变异抓握,初始角度还原之后,手指会有一个相对较小的重新张开的过程,有时甚至还会暂时停顿(速度轨迹为零),但最终都会处于封闭状态。这表明在延伸-抓握过程中,手的形状会有一个自然趋向封闭的过程,都会对手的张合度产生影响。仿此,本文应用小脑控制模型也做了一个类似的实验,结果如图6所示。
图6中,(a), (c), (e), (g)为Saling 实验数据,(b), (d),(f), (h)为实验仿真。实线代表正常抓握(初始时拇指与食指基本闭合),虚线表示变异抓握(初始时手指最大限度张开)。抓握目标分别为直径2.2 cm(小物体)和6.7 cm(大物体)的物体。
图7是方向变化时切向腕速度与抓握角度动力学轨迹示意图。图7中,(a), (c), (e), (g)是Hoff-Arbib报告资料,(b), (d), (f), (h)是实验仿真。用作实验的物体被假定是一个直径为1.5 cm的圆柱体。当该物体被移动偏离中线20°~ 30°时,切向腕速度和抓握角度的运动学轨迹会有不同。第1行图分别表示未受干扰的切向腕速度和抓握角度;第2行则分别表示受扰动影响后的切向腕速度和抓握角度。
图 6 正常抓握和变异抓握角度动力学示意图
从图7中可以看到,目标方向的变化使得手臂移动和抓握角度两者都受到影响,并且引起轨迹校正过程的暂时停止。扰动时间越长,轨迹校正过程的暂停时间也越长。Hoff-Arbib 报告资料表明,在腕关节轨迹完成校正之前,大约会产生250~290 ms的延时,并且整个运动时间平均要多出100 ms,这些图中都有明确表示。为了适应新的目标位置,方向扰动会引起运动校正过程的暂时停止这个结论也与Hoff-Arbib 报告完全一致。
图8为目标大小变化时抓握速度及角度动力学轨迹示意图。图中,(a), (c), (e), (g)是Hoff -Arbib 报告资料,(b), (d), (f), (h)是实验仿真。图中显示了运动开始时目标大小变化对抓握速度和角度的影响。用作实验的物体被假定是两个直径分别为 1.5 cm和 6 cm 的圆柱体。扰动实验中,物体先是从小到大(S-L)变化,然后反过来从大到小(L-S)。第1行表示没有扰动时小物体的抓握运动,第2行则表示有扰动时物体从小到大变化的抓握运动,第3行表示没有扰动时大物体的抓握运动,第4行表示物体从大到小变化时的抓握运动。
图7 方向变化时切向位移和抓握角度动力学轨迹示意图
图8 大小变化时抓握速度及角度动力学轨迹示意图
从图8中可以看到,在小到大(S-L)扰动实验中,抓握角度先是增加到与小目标一致的峰值,然后又增加到与大目标一致的最大角度,最后逼近大目标。为了适应新目标变化尺寸,在抓握-延伸运动过程中,目标大小的扰动会引起校正过程的暂停,图 8中清晰地表明了这一点。
针对手臂延伸与抓取的时间协调问题,本文提出一种具有小脑控制结构且适用于2维空间的控制模型。该模型能够实现Hoff-Arbib模型所能实现的有关延伸与抓取运动动力学的所有关键特征,有些性能甚至更好。在仿真方面,本文主要对模型进行了 2维空间(方向和距离)的训练和学习,相对于 1维空间训练,主要添加了抓取目标所在方向的扰动训练,明显增强了模型控制系统的实用性和可拓展性。然而,对于该模型也有需要进一步研究的问题。例如,在仿真训练过程中,本文分别介绍了目标的大小变化以及目标所在方向变化的抓握情况,下一步可关注更为综合性的问题,即:如果在训练中同时改变目标大小和方向位置会产生怎样的效果;小脑控制模型能否适用于3维空间,等等。
[1] Webb B. Can robots make good models of biological behavior?[J]. Behavioral and Brain Sciences, 2001, 24(6):1033-1050.
[2] Zhang Shao-bai, Cheng Wei-qing, and Cheng Xie-feng. An application of cerebellar control model for prehension movements[J]. Neural Computing & Application, 2014, 24(5):1059-1066.
[3] Hoff B and Arbib M A. Models of trajectory formation and temporal interaction of reach and grasp[J]. Journal of Motor Behavior, 1993, 25(3): 175-192.
[4] Kawato M, Kuroda S, and Schweighofer N. Cerebellar internal models:implications for dexterous use of tools[J]. The Cerebellum, 2012, 11(2): 325-335.
[5] 张少白, 周宁宁. 用于机器人运动控制的通用小脑认知模块的构建[J]. 南京邮电大学学报(自然科学版), 2012, 32(3):69-74.Zhang Shao-bai and Zhou Ning-ning . Development of general cerebellar cognitive module used for robot motor control[J].Journal of Nanjing University of Posts and Telecommunications (Natural Science), 2012, 32(3): 69-74.
[6] Jaeger D. Cerebellar Nuclei and Cerebellar Learning[M]. New York: USA, Handbook of the Cerebellum and Cerebellar Disorders, 2013, 4: 1111-1130.
[7] Townsend B R and Subasi E. Grasp movement decoding from premotor and parietal cortex[J]. The Journal of Neuroscience,2011, 31(40): 14386-14398.
[8] Bruno B and Peter E. Neural correlations, population coding and computation[J]. Nature Reviews Neuroscience , 2006, 7:358-366.
[9] 张少白, 阮晓钢. 仿生机械臂的小脑控制模型和仿真[J]. 电子学报, 2007, 35(5): 991-995.Zhang Shao-bai and Ruan Xiao-gang. A cerebellar control model and simulation of biomimetic manipulator[J]. Acta Electronica Sinica, 2007, 35(5): 991-995.
[10] Kawato M, Masa-aki Sato, Taku Yoshioka. Hierarchical Bayesian estimation for MEG inverse problem[J].NeuroImage, 2004, 23(3): 806-826.
[11] Saling M, Mescheriakov S, Molokanova E, et al.. Grip reorganization during wrist transport: the influence of analtered aperture[J]. Experimental Brain Research, 1996,108(3): 493-500.