姚 睿,周 勇,赵佳琦,许新征
(中国矿业大学 计算机科学与技术学院,江苏 徐州 221116)
近年来,计算机、多媒体和数据通信技术的快速发展使图像处理与计算机视觉获得了极大的关注和巨大发展,并已广泛应用在工业生产、医疗卫生等领域[1]。因此,在本科教育阶段,图像理解与视觉感知也是计算机科学与技术、人工智能等专业的必修课程。图像理解与视觉感知课程在如矿业工程、遥感测量等跨专业领域的人才培养过程中发挥了重要作用,培养学生在跨专业领域从事科学研究、教学、科技开发系统设计工作的能力。中国矿业大学智能采矿工程专业是2021 年教育部增设的新工科专业。学校于2016 年设置智能开采专业方向,2018 年设立智能采矿特色班,并设置智能采矿工程专业。依托学校矿业工程“双一流”学科平台基础,坚持学科交叉融合和开放办学,建设优质教学资源,培养具备矿业工程、人工智能、机电工程、信息工程和软件工程等多学科交叉知识背景和国际竞争能力的复合型创新人才。图像理解与视觉感知是智能采矿专业的主修课程,以摄像头代替人眼,进行数字图像处理、计算机视觉、模式识别和机器学习等技术,最终实现少人或无人的智能采矿。为进一步优化图像理解与视觉感知课程的知识体系,避免课堂教学效率低,同时进一步着重培养学生的创新能力,课程教师对智能采矿专业的图像理解与视觉感知课程展开建设与实践。
图像理解与视觉感知课程(以下简称“本课程”)的主要内容为处理中的灰度变换和空间滤波的各种方法的图像变换,空间域和频域滤波的各种方法,彩色图像的基础概念、模型和处理方法,形态学图像处理技术,图像分割的基本概念和方法,图像压缩方法等。另外,研究图像形成、相机成像几何、特征检测和匹配、多视图几何(包括立体)、运动估计和跟踪以及分类的基础知识。我们对智能采矿专业的图像理解与视觉感知的教学内容进行了调查和分析[2-3],发现智能采矿工程专业在本课程的教学中存在亟需解决的问题,主要表现在以下方面。
虽然,大部分高校都开设了图像处理、计算机视觉等类似课程;但是,这些课程主要针对信息、电气和计算机等相关专业的本科生开设[4],目前设计的教学内容也是关注于这些专业的学生服务,与智能采矿工程专业课程结合的相关度不够。这一现状,影响了智能采矿工程专业学生对图像理解与视觉感知课程学习目标的理解与掌握。因此,需要对智能采矿工程专业的课程内容和课程考核进行调整。
智能采矿工程专业的学生对计算机相关课程了解较少,图像处理与视觉感知算法非常复杂,而一般学生第一次接触这个领域,对课程内容的理解有很大的挑战;另外,进入大学后,学生学习积极性不如中学阶段,部分学生学习兴趣低,如果对图像和视频处理学习的吸引力较弱,学生对本课程的学习难度会很大。因此,如何尽可能多地整合多媒体技术的使用交互式教学提升教学效果,也显得非常重要。
图像理解与视觉感知课程理论与实践都很重要,而对于智能采矿专业的学生而言,一些计算机、人工智能等方面的前导课程没有学习(如:信号与系统、数据结构等),学生的编程能力较弱;因此,教师在教学内容设计时,通常会偏重于理论教学内容,而实践学时较少,学生的实践能力不足,离实际应用较远。因此,应针对煤矿智能采矿的场景,设计图像理解与视觉感知的实践课程内容,解决实际应用性和创新性。
鉴于上一节讨论的问题,本文对智能采矿工程专业本科学生图像理解与视觉感知课程教学内容、交互性和课程实践内容等几个方面的建议进行探讨。
智能采矿专业的培养目标是具有宽厚的基础理论知识和较强的工程实践能力,系统掌握矿山资源开采与开发利用的基本理论和方法,具备采矿工程与软件工程、信息工程、人工智能等“采矿+智能”融合的知识技能,能在矿井自动化、信息化、智能化等智能采矿领域从事设计与施工、生产技术管理、安全监察及科学研究等相关工作的复合型专业技术人才。针对智能采矿工程专业对象的图像理解与视觉感知课程,以研究对象为主线,加深广度、深度、高度,课程内容见表1。从四个方面对图像处理与计算机视觉的应用作了总结,解决当前的煤矿企业在图像处理应用中的问题,期待学生引发交叉学科与新技术。
表1 智能采矿工程专业的图像理解与视觉感知课程内容
如上所述,图像处理与视觉感知算法复杂,课程内容理解较难,需要让学生有感性的认识。因而,实现学生感性认识的关键是尽可能多地整合技术,让其在实际生活中使用这些算法。这不仅有助于让学生参与教学过程,还允许学生在课堂内外都可使用这些图像处理与视觉感知算法。因此,可以使用交互式技术来教授图像处理与视觉感知课程。
学生可以通过手机获取一个物体的图像或其自由移动的视频,然后执行图像处理与视觉感知算法,独立地实时调整算法的参数,而不必在台式机或笔记本电脑上执行,提高了交互性和便携性,促进智能采矿工程专业学生进入图像处理与视觉感知的门槛。因此,可以在手机上设计与实现图像处理与视觉感知应用程序运行算法,并显示图像与视频的分析结果。而在移动应用程序方面,微信小程序的运行速度显然可以很好地满足用户对于实时性的需求,且其无需下载安装[5];打开即用的特性方便了人们随时随地进行图像处理,再加上小程序易于更新添加新的图像处理功能,可以满足各种图像处理功能组合,更扩大了其使用对象范围。因此,本文对微信小程序的图像处理与视觉感知算法进行设计与实现,希望其可在教学中发挥高效、便捷作用,为智能采矿工程专业学生在对图像处理与视觉感知领域提供尽可能多的认识与便利。
系统包括图像处理与视觉感知教学版微信小程序的前端与后端。小程序前端部分使用微信开发者工具,注册ID 新建小程序项目,为用户提供了图像处理与视觉感知界面。
本课程的第一部分为在不同层次的处理图像。在像素级,通过应用不同类型的滤波器来增强图像的质量,并通过均衡化来提高图像的对比度。一旦增强,就会提取出低级特征,如颜色或边缘。这些低级特征是分割算法的基础,如阈值化、霍夫变换、分水岭等,以生成更多语义显著的区域,作为目标识别等高级任务的基础。鉴于此,这部分的主要功能如下:空间域图像增强(点处理、模板滤波处理及直方图均衡),频率域图像增强(平滑低通滤波器和锐化高通滤波器),图像复原(空间域复原、频率域复原、逆滤波及维纳滤波),以及图像分割(阈值、霍夫变换、分水岭、基于图算法及Superpixels 算法)。
本课程的第二部分关注高层次视觉感知内容。主要是对图像中感兴趣的物体进行检测,在图像分析的基础上,进一步研究图像中各目标的性质和它们之间的相互联系,并通过对图像内容含义的理解得出对原来客观场景的解释[6]。鉴于此,这部分的主要功能如下:物体识别与检测(词袋特征的物体识别、部分模型的图像物体检测、ResNet 模型的图像物体检测,以及YOLO 模型的图像物体检测)、视频物体跟踪(相关滤波的视频物体跟踪、孪生模型的视频物体跟踪)。
因为这些算法有相当多的参数,从图像处理与视觉感知入门课程的教学角度来看,这可能会适得其反。为了简化用户的交互,决定限制可修改的交互参数对每个算法的执行有更直接的影响。如在相应的功能界面设置滤波器核(Kernel)大小、阈值区间和类型等,若参数的更改导致库抛出异常,则使用所有内容正常工作的最后一个有效值。
流程图如图1 所示,显示从用户选择待处理图像的来源(移动设备的摄像头,样本的、外部存储设备或网络的图像)到执行所选择的算法为止的小程序的一般操作。
图1 图像处理与视觉感知(教学版)小程序设计流程图
上述系统设计可支持图像处理与视觉感知的教学,允许具有即时性和多功能性,为学生提供了完全不同且丰富的体验。尽管在课堂上使用移动微信小程序一开始会吸引学生,但学习课程内容是非常重要的,以免分散注意力,在讲授理论内容后,10 分钟左右的时间让学生与其手机互动。
本课程原有40 个学时,其中32 个理论学时,8 个实践学时。在讲授时,安排了适量的讨论与作业,但是讨论与实践的学时安排明显不足。仅安排了通用图像分割、人脸识别、车牌识别和物体检测的上机编程实践内容,与智能采矿工程专业的内容相关度不高。鉴于此,将课程的学时修改为讲授40 个学时,实践24 个学时,完善相关实践案例[7],解决智能采矿工程领域应用的实际问题。表2 显示了智能采矿专业图像理解与视觉感知课程的实践内容。
表2 智能采矿工程专业图像理解与视觉感知课程的实践安排
通过上述实践安排,图像理解与视觉感知课程教学内容在保证理论内容的同时,补充智能采矿行业紧密相关的内容,以下通过矿井采煤工作面图像匹配与拼接为实践案例进行说明。
采煤工作面是煤矿生产最前沿的工作环节,也是最复杂的工作环节。通过安装矿用视频调度系统,可以将采煤工作面的情景传输到地面调度中心,便于调度员对煤壁、滚筒、支架、顶板、采煤机及运载机等设备的运行和工作环境了如指掌,并发出准确的生产调度指令。可以通过图像拼接技术获取宽视角信息,提高监控能力。图像拼接就是将多幅来自同一场景的有重叠区域的小尺寸图像合成为一幅大尺寸的高质量图像[8]。采煤面视频全景成像过程中具体步骤分为如下几点。一是预处理要拼接的图像。主要操作是挑选同一时刻视频图像帧作为拼接图像,并通过降噪、处理直方图和提取边缘等方式进行图像数字处理的过程、重新创建进行图像匹配的模板或者通过小波变换算法或者傅里叶变换算法来对图像进行操作。二是配准图像,并进行统一坐标。第一步,两幅以上的图像根据指定的图像匹配准则,首先选择需要进行图像拼接的模板,然后确定参考图像内对应的特征点位置,得到两幅图像的转变关系和配准;第二步,对变换模型的建立,计算数学模型里参数值时,需要通过图像特征或模板内的对应情况,得到关于两幅图像进行数学变换的模型;第三步,变换统一坐标,上步中已经建立好两幅图像的数学转换模型,此步中需要把要拼接的图像变换至参考图像的坐标系内,实现坐标的统一转换。三是视频序列生成。最后一步是完成待拼接图像的重构融合操作,需要把重合的区域放入拼接重构图像中,完成全景图像的最终无痕融合,并生成工作面全景视频。图像理解与视觉感知实践内容的矿井采煤工作面图像匹配与拼接案例如图2 所示。
图2 矿井采煤工作面图像匹配与拼接案例
通过对当前新工科和高等教育发展要求的分析,结合智能采矿工程专业与图像理解与视觉感知课程的理论和实践内容,在中国矿业大学课程教学中进行了应用。在中国矿业大学的教学实际表明专业特点、学生来源、交互性等方面可充分调动学生的学习积极性和主动性,促进了专业知识与实际应用的融合,实现了整个教学与实践过程的具体化、形象化和可视化,指导学生实现专业案例,使得学生能够独立完成项目,独立解决并完成任务,综合运用智能采矿工程、图像处理和计算机视觉的理论知识解决煤矿实际问题。