丁一
摘 要:随着新型冠状病毒的蔓延,各大高校都普遍尝试和采用了线上教学的方式进行授课和评价。目前各高校普遍实行的过程化考核作为课程分数的评价标准之一。传统的查重工具着重于文字的重复率,忽视了图片这一关键的信息载体,因此急需以图像识别匹配技术作为基础的图像查重算法。文章将SURF算法应用于学生作业及实验报告等文本评价载体中的图片相似度匹配上,结合平时的实践经验,用RANSAC算法去掉错误的匹配结果,匹配算法对于SURF特征点进行优化,从而实现了对SIFT算法匹配速度以及精确度的改善,最终实现了完善的实验报告图像匹配算法,并且对实验中出现的问题进行讨论和总结,对系统实施的改进和未来的拓展性也进行了充分的论述。
关键词:SURF算法;图像查重;图片匹配度
中图分类号:TP391.4 文献标志码:A 文章编号:2095-2945(2020)32-0025-04
Abstract: With the popularity of novel coronavirus, colleges and universities have generally tried and adopted online teaching and evaluation. At present, the process assessment, which is widely implemented in colleges and universities, is one of the evaluation criteria of curriculum scores. The traditional duplicate checking tools focus on the repetition rate of the text, ignoring the picture as a key information carrier, so there is an urgent need for an image repetition checking algorithm based on image recognition and matching technology. In this paper, the SURF algorithm is applied to the image similarity matching in the text evaluation carriers such as students' homework and experimental reports, combined with the usual practical experience, the wrong matching results are removed by the RANSAC algorithm, and the matching algorithm is optimized for the SURF feature points, thus the matching speed and accuracy of the SIFT algorithm are improved, and finally a perfect experimental report image matching algorithm is realized. And the problems in the experiment are discussed and summarized, and the improvement of the implementation of the system and the expansion in the future are also fully discussed.
Keywords: SURF algorithm; image duplicate checking; picture matching degree
前言
隨着线上教学的发展和各大远程教学平台的建立,在线教育的模式和形式已经非常完善,目前可以达到根据人们的需要选择直播、录播、不同时间、不同地点、不同设备进行教学的可能。随着2020年初新型冠状肺炎病毒疫情的蔓延,各大高校也将传统的线下课程逐步过渡到线上课程的教育上。利用互联网为载体进行线上教学,不仅将方便快捷带到了校园和课堂,同时也出现了剽窃、伪造、篡改等学术不端的这类不和谐现象。这种现象不仅造成了教学考核方面的不公平,同时也给学生未来学习和个人发展轨迹方面造成了一定的影响。传统的查重方式往往更加专注于文字的查重。无论是人工方式核对还是线上的查重平台,对于图片查重和匹配这方面涉猎较少且不是十分完善。如果仍然进行人工核对,这不仅考验的是教师的学术水平,这种重复性的劳动对于教师的精神压力也是成倍增加的。随着人工智能技术的成熟普及和完善,人们往往将大量传统重复而又无意义的劳动以人工智能的方式替代,特别是将人工智能思想和技术应用于图像处理之后,很多算法和应用也得到了充分的发展和完善,如神经网络、强化学习等。在这些领域中图像匹配算法往往是人们比较常关注的基础算法,他对于人工智能算法学习数据的筛选和提取也有着非常重要的意义。基于以上的观点,本文提出了一个以人工智能技术替代传统核对,基于SURF的学生实验报告图像匹配度算法。希望通过此算法能够因此改善甚至最终会替代传统对实验报告手工校验的方式。
SIFT算法是一种关键点检测和描述算法,但这种算法在批量的执行速度方面会落后很多,在大批量的图像匹配应用中,速度往往是十分重要的因素。Bay,H.,Tuytelaars,T. 和 Van Gool,L 在2006年发表了 SURF(加速稳健特征)算法[1]。这个算法从某种意义上说可以被看作是一个加速版的SIFT算法。SIFT将构建尺度空间时使用Difference of Gaussian对Laplacian of Gaussian进行近似。SURF使用box filter对Laplacian of Gaussian进行近似,使用积分图像进行卷积计算,积分图像可以在不同的尺度空间计算图像中像素和的计算量的大小与其本身大小无关。SIFT算法通过图片的特征提取来实现图片的匹配度实现,稳定可扩展性强,该算法首先计算出128维度特征的向量欧几里得的距离,这个计算需要算算术平方根相对SURF来说有些耗费时间。SURF 算法计算关键点通过Determinant of Hessian 也就是使用每个像素Hessian矩阵的行列式的近似值构成,即其尺度和位置通过Hessian矩阵行列式获取。
1 SURF算法应用案例及优势分析
SURF在图像匹配的过程中仍然着重关注在图像的特征点而对于图像的大小角度等几何方面的信息并不关注。往往在学生实验报告图片这种大量图像数据集当中,获取数据的速度不仅依赖于硬件设定的条件,同时也依赖于算法的稳定性和速度上。而SURF对于特征值的计算都是简单的加减法单单相对于算数平方根的计算来说就更显得有优势。夏磊等[2]在基于改进SURF算法的红外图像拼接一文中,提出基于双向匹配策略的自适应阈值配准算法,将特征点通过相似性度量准则匹配图像对应的像素点,并将过程中匹配的最小和次小欧几里得距离最小比值作为参数,从而在特定红外图像拼接的条件下保证精确性的基础上提高了算法的速度。王阳萍等[3]在结合加速鲁棒特征的遥感影像半全局立体匹配一文中,提出了利用改进加权联合双边滤波算法进行视差的优化以便去除图像的噪点等不需要的信息,将弱纹理以及视差不连续区域产生噪点的问题有效解决。黄春凤等[4]在改进的SURF算法在图像匹配的应用中,通过临近搜索算法结合双向唯一性匹配方法在视差约束下对初始特征值预处理,并通过二次优化和降噪之后将匹配成功度提高。
在本文中提出了SURF算法为基础,实现了学生实验报告及作业等图像的匹配查重,利用大量学生平时的实验报告和作业的图像作为数据整理成实验数据集。利用SURF和RANSAC算法各自的优势,将两者优势相结合进行实验报告图像匹配的算法。利用SURF算法提取特征点,并利用SURF算法进行预匹配。然后用RANSAC算法去掉错误的匹配结果。从而实现了针对SURF算法上的优化。在实验中,充分考虑了现实中可能出现的特征作为实验基准数据,根据阈值以及参数的设定和选择优化并实现实验报告和作业图像的匹配查重算法。
2 SURF算法及匹配算法比较
SURF算法[1]在本文的实践当中可以分解为如下几个步骤:
(1)构造高斯金字塔尺度空间
同一个Hessian矩阵和同一个像素点存在一一对应关系。
(2)利用非极大值抑制初步确定特征点
将经过上一步矩阵处理过的像素点与它的三维中26个点大小进行比较。
(3)精确定位极值点
采用三维线性插值取得像素级的点,对于设定的阈值,也去除小于它的点。
(4)选取特征点的主方向
统计特征点领域内的harr小波特征。
(5)构造surf特征点描述算子
每个特征点就是16*4=64维的向量。
SIFT算法对于提取图像的局部特征点,对于几何特性诸如平移、旋转、尺度缩放以及光学特性诸如亮度变化、甚至遮挡和噪声等具有不变性的特点,对视点改变也具有稳定性。SURF从SIFT基础上发展而来是针对SIFT的改进,在算法速度和鲁棒性方面普遍占优。而FAST算法提取了大量的特征點算法速度却十分快速,但在几何方面不变性的适应方面不及SIFT和SURF算法。ORB算法是基于FAST算法并减少了特征点数目并提高了质量在几何特征方面具有一定的稳定性。特别是对于SIFT算法,SURF算法在针对一些繁琐的工作进行了精简,对于SIFT的描述特征子SURF算法特别做了降维处理,SIFT计算描述特征子采样16*16并分为4*4的区域,从而计算各区域的幅值和向量方向,也就是SIFT的描述特征子是4*4*8=128维。而SURF算法在生成特征描述子时将20s*20s(s=1.2*L/9为特征点的尺度)的正方形分割成4*4的区域,在小区域中提取25个特征点计算小波HAAR响应,即SURF的描述特征子是4*4*4=64维。将计算特征点作为整个算法的核心。总之,在计算速度、旋转鲁棒性、模糊鲁棒性、尺度变换鲁棒性等方面相对以上算法,SURF算法十分占优势。
3 SURF算法在本文中的应用及优化方法
对于SURF算法特征点匹配结果的筛选方面,在大概率发生匹配错误的前提下就需要分析错误的可能性。一种是选取的特征点发生错误,另一种是匹配的特征点对之间不符合。实际匹配结果的分析和筛选过程中往往以反向查找特征点算法以便于能够正确的找到对应的特征点,一般分为Brute Force匹配和FLANN匹配,前者总是尝试所有的可能性以便于查找到最佳的匹配方法,而后者是一种近似法,采用最临近近似匹配。本文的例子中是需要找到一个较好的,但是不需要找到最佳的匹配,当然,也可以调整参数来提高匹配的精度或者提高算法的速度。但相对来说,提高速度的结果往往就意味着精度的降低。本文采用RANSAC算法消除匹配图像过程中的误匹配结果,因为错误的匹配可能性有噪声极值、错误的量度以及错误的假设。该算法采用拟合直线的方法观测数据中的局内局外点,往往简单的最小二乘法不能找到适应的局内点直线,但该算法能从包含大量局外点数据集中估算出高精度的参数。学生作品特征点示例如图1,图1左图为目标同学1的某项实验报告的答案图片之一,图1右图为目标同学2的某项实验报告的答案图片。采用算法匹配的结果如图2,如图可见,将错误的特征点筛选过滤之后不同同学针对同一题目的结果图片尽管有相似的地方,但仍然有大量的特征点没有匹配到。而对于图3在目标同学3借鉴了目标同学1的图片结果之后,发现匹配了大量的特征点。SURF算法具有几何特性方面的不变性在论文图片匹配度对比查重中即便将同一副图放大缩小或者更改纵横比,也可以得到极佳的匹配效果,如图4在图片修改了纵横比之后仍然可以匹配到大量特征点。由此可见实验的结果验证了经过改进后的SURF的实验报告图像匹配算法的可行性。
4 结论
本文将SURF算法优化改进后应用于学生实验报告及作业等作品中图片的查重匹配,补充了传统查重系统只关注文字的单一性,将功能扩展为可以通过人工智能的方法进行图片查重和匹配。图片的查重可以针对学生学习中的抄袭现象有所遏制,同时针对课程实验报告及作业的人工智能方法审核可以减轻教师的大量精力。本文在SURF算法的基础上通过FLANN匹配和采用RANSAC算法消除匹配图像过程中的误匹配结果,采用平时中真实学生实验作品图像作为实验数据集,实验结果显示优化方法是高效率而且具有较高的精度。在今后的研究中会进一步探讨多种算法结合的情况下优化图像匹配结果的可能。
参考文献:
[1]SURF: Speeded up robust features. Bay H, Tuytelaars T,van Gool L. Lecture Notes in Computer Science,2006.
[2]夏磊,胡欣宇,岳亚伟,等.基于改进SURF算法的红外图像拼接[J].物联网技术,2020,10(06):48-51.
[3]王阳萍,秦安娜,郝旗,等.结合加速鲁棒特征的遥感影像半全局立体匹配[J/OL].光学学报,2020(16):163-171.
[4]黄春凤,刘守山,别治峰,等.改进的SURF算法在图像匹配中的应用[J].现代电子技术,2020,43(10):111-115.