余丽娟 傅汇乔 胡勇 谢晓轩
摘 要
本文将非结构环境抽象为梅花桩,开展六足机器人行走梅花桩的步态研究。以三足步态为基础,选择六足机器人行走梅花桩的最佳策略。本文利用深度学习对梅花桩进行识别,再利用强化训练获取机器人机体质心从起点到终点的运动轨迹。采用马尔科夫决策过程进行步态设计,最终完成机器人在梅花桩上行走的运动规划。
关键词
六足机器人;深度学习;梅花桩;步态设计
中图分类号: TP242 文献标识码: A
DOI:10.19694/j.cnki.issn2095-2457 . 2020 . 08 . 18
0 引言
具有冗余自由度等众多优势使六足机器人成为当下研究的热点。早在上个世纪,国外就已经产生了一批技术成熟的六足机器人。而我国相对于国外对六足机器人的研究起步较晚,但是其技术也逐渐变得成熟,越来越完善[1]。
近几年,智能机器人掀起了一股热潮。机器人技术迅速发展,机器人被大量用于抢险救灾、勘察军情、农田灌溉、高危环境作业等,机器人能够在非结构环境中更高效地作业是如今各界研究的重点以及难点[2-3]。因此,本文进行了六足机器人在梅花桩上行走的步态设计研究。
1 基于深度学习的识别
自从深度学习作为机器人研究的新方向之后,其在智能机器人领域显出了重要性[4]。近几年来,在目标检测和识别等任务中用深度学习相关算法显著提升了精确度,所以以深度学习为主流的算法得到外界的广泛应用[5]。
在对象识别任务来看,深度学习的方法颇受欢迎,而在现实应用中也收获了重大的突破。刚开始卷积神经网络CNN会对对象的突出部分进行收集,再对既定目标进行定位和识别。卷积神经网络在用于手写体识别之后,迅速被业界所接受[6]。第一个卷积神经网络是1987年由Alexander Waibel等提出的时间延迟网络(Time Delay Neural Network, TDNN)[7]。再之后深层次的AlexNet网络[8]取得更加优秀的成绩,成为了卷积神经网络猛速发展的奠基石。
2 梅花桩行走步态规划
对于二维和三维梅花桩这两种对象地形,通过研究当中已知的梅花桩地形环境信息,根据六足机器人足端作业范围对梅花桩进行判定,挑选出其足端可安全稳定行走的区域。然后对六足机器人行走梅花桩进行强化训练,得出从起点到终点的全部可行路线和区域。
六足机器人在进行抢险救灾、勘察军情、农田灌溉、高危环境作业等任务时,其所在的作业环境大多数是沟壑、丘陵、山地、丛林等一些非结构地形。因此,为了让六足机器人能够顺利适应在各种非结构环境中的作业,则需要适当分析其在行走过程中遇到的各种非结构环境的特点信息,从而设计出六足机器人适应不一样的非结构环境的最佳步态。
本文针对具有错综复杂的地貌地形特点的自然环境,将六足机器人在非结构环境中有效落点形成的非连续区域近似抽象为分布不均匀的梅花桩地形,六足机器人足端的一个可落区域就是各个梅花桩的顶端表面。
根据六足机器人在梅花桩上前行时的平稳度标准,提出三角形的最优内切圆半径方法来选取足端落点。支撑三角形变小,六足机器人在行进过程中的平稳度就会相对变小,支撑三角形变大,六足机器人在行进过程中的平稳度就会相对变大[9]。
马尔科夫决策过程意指当对着一些可以随时,一些能够由负责人决定的事情中,如何采取方法抉择的过程[10]。负责人通过间接性地或连续地查探动态网络,依据所察看到的动态网络实时状态,最后选择一个可使用的动作进行实现。
因为三足步态是六足机器人行进最经常使用,而且速度最快、效率最好的步态,所以以三足步态为基础对六足机器人开展算法流程分析。按照六足机器人以三足步态行进时的步态交换情况,定义开始的状态下六条腿的位置状态为S0,接下来的状态下六足机器人六条腿的位置状态为S1,最后的状态下六条腿的位置状态为St,因此对六足机器人做如下定义:
控制开始时,六足机器人复原到最初状态,然后输出一个动态,然后增加命令,依据坐标计算六足机器人质量中心的行动区域,得到其质量中心对着一个方向平行移动到最大距离。如果大于目标边缘,则命令当时质量中心与前一个坐标一样,授予合适的负值,重新定义。如果与终点的间距小于适应值,授予正值。接着开始下一个环节。在500个训练回合后,六足机器人从起点到终点的总步数收敛到30步左右。
3 结论
本文将非结构环境抽象为梅花桩,再经过对梅花桩地形的实验分析,建立了深度学习、强化训练的外框,针对六足机器人在梅花桩上前行提出了足端落点三角形的方法,依据其方法来选取六足机器人前行时的适当足端落点。然后根据已经了解到的非结构地形,创建合适六足机器人前行约束的梅花桩环境,然后采取深度学习和强化训练的方式取得了六足機器人在梅花桩上前行时的质量中心的最佳路线,最后利用马尔科夫决策过程选取六足机器人足端落点,完善六足机器人在梅花桩上前行时的步态设计。
参考文献
[1]王伟,储泽楠.六足机器人的步态规划研究[J].计算机时代,2019(12):8-11.
[2]李满宏,张明路,张建华,田颖,马艳悦.基于增强学习的六足机器人自由步态规划[J].机械工程学报,2019.55(5):36-44.
[3]雪锋,郭振武,王斌锐,王凌,金英连.基于带反馈Hopf振荡器的六足机器人斜坡步态发生器设计[J].机械工程学报,2018.54(21):41-48.
[4]罗海波,许凌云,惠斌,常铮.基于深度学习的目标跟踪方法研究现状与展望[J].红外与激光工程,2017,46(05):14-20.
[5]李旭冬,叶茂,李涛.基于卷积神经网络的目标检测研究综述[J].计算机应用研究, 2017, 34(10):2881-2886.
[6]李满宏,张明路,张建华,et al.基于增强学习的六足机器人自由步态规划[J].机械工程学报, 2019,55(5):36-44.
[7]Waibel, A., 1987. Phoneme recognition using time-delay neural networks. Meeting of the Institute of Electrical, Information and Communication Engineers (IEICE). Tokyo, Japan.
[8] Kume A, Matsumoto E , Takahashi K , et al. Map-based Multi-Policy Reinforcement Learning: Enhancing Adaptability of Robots by Deep Reinforcement Learning[J]. 2017.
[9]赵龙海.六足步行机器人自然地形下全方位运动规划策略研究[D],2013.
[10](加),霍华德,M.等.多智能体机器学习:强化学习方法[M].机械工业出版社,2017.