广东工业大学
陈俊洪,郑泽贤,李军达,曾润佳,何志铜
国内外机器人制造企业均在加速推进智能机器人产品的研发与推广,但纵观现有智能机器人的应用场景,虽然编程手段更为高效(操作者手动拖拽示例或者软件绘制轨迹),但关键难点问题仍未解决:智能机器人只能执行预编程的指令,以相对“精确”的方式完成特定重复动作。而当环境发生变化时,会导致大量残次品产生,即现有机器人尚未具备“有意识感知”操作物体和环境并做出调整的能力。要解决该问题,机器人的“智能化”是必经之路。本项目以提高机器人的“智能化”程度为目标,让机器人能够根据人体的动作变化进行安全、实时的跟踪协作,且当环境发生变化时,机器人能够通过视觉编程快速适应新的工作环境,无需重新返厂编程,极大提高了生产效率,对我国智能制造具有重大推动作用。
利用任务-目标导向方法对人的操作动作和操作物体进行分开识别,过滤操作过程中不相关或冗余内容,只学习关键动作及如何操作物体,最终实现操作目的。
利用深度学习技术将视频进行元语义分解,识别出视频中的基本元素,并通过算法将元语义按照语义语法规则进行重组,最终形成机器人指令操作。该做法相比于其他机器人系统更高级之处在于其可使用工具进行动作模仿,而非简单的动作模仿。该技能不仅适用于家庭服务,更加能够跨场景进行部署。机器人炒菜视频图像如图1所示。
图1 炒菜视频图像
利用深度学习方法对人体关键点进行实时监测,通过动作关键帧和基于时间的动态模型对人的操作完成度进行判定,进而达到人机协作目的。
提供关键指令给机器人进行识别,机器人识别语音后与对应的操作技能进行匹配执行,最终实现人机交互的目的。
本系统以视觉编程为核心,将视频、语音和文本等多模态数据进行融合,具有学习能力强、部署效率高等技术优势。与此同时,本产品具备以下创新点:
(1)机器人自学能力强。不同于绝大多数机器人的预编程指令,本产品创新性地通过计算机视觉技术进行学习,是机器人与深度学习两大交叉领域的新尝试,避免了用途或场景更改时再次对机器人进行指令编程,具备很高的灵活性与可重用性。
(2)适用性广。本产品对物体进行操作时,将物体的着力点作为抓取物体的依据,该方法能广泛应用于多种不同形状及类别的物体,使得机器人能够对多场景中的多种物体进行操作。
(3)对操作行为具备理解能力。机器人需要对执行的动作进行理解后才能准确执行该动作,本产品通过定义语法语义规则构建语法树,对复杂的操作行为进行分解,将分解后的元语义按照指定的语法规则进行重构,形成新的语义树,最后将语义树转换为机器人指令用于执行。