丁一
(无锡城市职业技术学院 江苏省无锡市 214000)
随着线上教学资源的日益丰富。各大高校都普遍采用通过线上与线下教学结合授课,并以过程化的分数考核替代传统的卷面考核。相对于传统的着重于文字的重复率的查重,关键的信息载体图像以图像识别匹配技术作为基础的图像查重算法的建立就尤为重要。本相对传统的考核方式,过程化考核能够充分发挥学生的主观能动性,更充分的把学生在课程学习中的知识发挥到实践应用当中,并能更好地反映学生实践实际操作水平。但在学生的分数评价方面更主观、更需要人工评判。因此,希望更客观地反映分数的同时,势必带来更多的更复杂的工作量。而且,由此带来的抄袭等问题的分析与判断也是需要注意的要点之一。在图像处理技术日益发展的今天,将这种大量重复性很强的工作交给人来做是不合适的,文将ORB 算法应用于图片相似度匹配中,并且结合了RANSAC 算法提高了匹配的精确度。图像匹配算法可以针对学生实验报告中的特征点加以提取,识别并分析重复率。给人工判断目标作品是否抄袭提供了参考判断依据,这种算法在时效性方面大大减少了人工匹配消耗的时间,并能够依靠计算机图像匹配技术有效地提高了准确率。这不仅能够提高教师在教学过程中批改的客观性和效率,更能够使得学生更加尊重考核的严肃性。同时,该算法属于图像处理方面的基础算法,同时在人工智能学习方面的基础数据标记处理上也有很重要的意义。
ORB 算法[1]作者Ethan Rublee 在2011年发表于ICCV,该算法提取并根据该特征点的方向,采用改进之后的BRIEF 算法的Rotated BRIEF 算法对该特征点进行数学分析。该算法可以进行特征提取和特征描述,有效性和效率很高,而且也具有旋转不变性。该算法所解决的问题是SIFT 算法方面的大量算法复杂度方面的代价以及BRIEF 特征算法本身缺乏旋转、尺度等几何方面的不变性,以及受噪点影响非常大。首先该算法使用FAST 对图图片的进行特征点提取之后生成ORB 算法的描述子,在进行BRIEF 点特征匹配从而实现快速精确匹配。FAST 的特征检测算法中没有特征描述与匹配从而达到快速而有效。而BRIEF 特征不具备旋转、尺度等几何方面的不变性,对噪点方面有效性也不高,以上的缺陷在steer BRIEF 和rBRIEF 改进之后的描述特征子方面基于统计规律利用贪心选择对算法进行了优化。因此,ORB 算法在FAST 算法的基础上在特征点的检测和描述方面具有几何特征比如尺度与旋转方面的不变性,对于噪点的处理也十分有效。从而使得ORB 算法实现有效匹配的基础上,在时间方面远比SIFT 算法和SURF 算法有效,比SIFT 有效100 倍,比SURF 有效10 倍。
邢艺馨等在基于ORB 与K-means 聚类的图像匹配算法[1]一文中在双目视觉领域图像匹配的高精准、高时效性匹配技术方面进一步探索。为了提高匹配特征点的检测准确要求,该文采用K-means即K 均值聚类的图像匹配算法。在减少时间复杂度方面的基础上,提高了双目图像特征匹配的精确度,从而实现了更优秀的性能。李小红等在基于ORB 特征的快速目标检测算法[2]描述了一种新的动态运动场景下目标检测匹配特征算法,采用八参数旋转模型并且与最小二乘法相结合,从而实现对全局性的运动参数进行求解以达到动态补偿,该文利用PROSAC 算法去除不必要的特征点,性能上与SURF 的相比不相上下,检测速度提高很多。从而实现精准实时的检测目标。白雪冰等结合快速鲁棒性特征改进ORB 的特征点匹配算法[3]通过SURF 算法和ORB 算法改进结合。利用Hessian 矩阵检测特征点从而实现几何方面的尺度不变性,利用ORB 算法快速生成特征点,该算法提高了ORB 的匹配精度和SURF 算法速度。虽然时间效率方面低于ORB 算法,但保持了SURF 算法在几何尺度和旋转方面的不变性,而且提高了匹配精度。
在本文中提出了ORB 和RANSAC 算法的图像匹配查重算法为基础,实现了学生论文、作业和实验报告等图片的匹配,通过匹配实现对作品进行查重分析。通过对学生毕业论文、实验、实训报告以及作业中的图片数据整理筛选之后作为数据集。通过ORB 算法进行特征点快速提取,以及利用RANSAC 算法的优势去除并筛选出正确的匹配特征点,利用优化之后ORB 算法充分考虑参数的设定和现实可能出现的多样性之后,优化并实现匹配查重算法。
ORB 算法在本文的实践当中可以分解为如下几个步骤:
ORB 首先需要进行的是特征检测,这个步骤采用的FAST 快速选择关键点算法,选定特征点阈值参数,对于某一个像素点该点周围16 个像素来说,该点灰度值在该参数差值范围内则该点就是需要寻找的关键特征点。
其次要进行创建二进制特征向量,在对于给定图像平滑处理之后以关键特征点为中心根据高斯分布抽取一个像素。再以这个像素点为中心再根据高斯分布抽取一个像素,比较以上两个像素点的灰度值,亮度高的赋值1,亮度低的赋值0。重复循环以上步骤产生一定长度的特征描述符。
根据上一步骤产生的特征描述符并不具有缩放和旋转等几何方面的不变性,构建图像金字塔以解决缩放不变性,通过为关键特征点分配方向以解决旋转不变性。
图1:特征点示例
图2:特征点匹配结果(类似但无抄袭)
图3:特征点匹配结果(类似且抄袭明显)
以上步骤中找到的特征点通过FLANN 特征匹配,根据上面的特征描述产生的特征点的特征量进行比较、筛选,最终得到匹配点集合。随机一致性采样方法RANSAC 剔除无效数据点剔除错误匹配。
在广泛的学生毕业论文、作业、实验实训报告中选取有代表性的图像作为实验案例,如图1 所示,根据原始试验资料取得特征点。根据具体实际情况不同分为若干可能性的实验组,例如图2 结果中实验结果类似但两幅图之间并无抄袭现象。但一旦有图像类似且已出现抄袭等行为,可以根据算法筛选出,例如图3 所示结果。通过以上结果可以看出,相似图像之间匹配特征点结果符合预期,且实验中获取结果算法效率较高,匹配速度快速有效。
本文将ORB以及RANSAC算法融合以实现图像匹配查重算法,以实现对学生的论文、实验实训报告、作业等出现的图像进行查重处理。该实验改进了传统查重中针对文字查重的不足,通过人工智能这一新技术应用ORB 算法解放了教师在大量图片审核批改的精力。尝试ORB 技术在特征点寻找中的应用,采用教学中学生实验实训报告作为数据,实验结果表明,经过优化后的图像匹配查重算法是高速而且有效的。在今后的研究中会进一步探讨ORB 算法在其他层面应用中优化和改进的可能。