刘 磊 周天愿 俞传涛 文 豪 葛锁良 唐 昊
(合肥工业大学电气与自动化工程学院,安徽 合肥230009)
网上阅卷方式起自二十世纪九十年代着手推进的标准化考试改革,是以计算机领域的网络技术和扫描技术为依托,结合人工阅卷经验和新兴技术的一种高效阅卷模式[1]。这次改革标志着传统阅卷从纸质介质方式向电子化文档的网络化方式转变,在高考等大型国家性统一考试中得到广大考生和社会的认可。但此类阅卷方式仅是试卷形式的改变且劳烦人力,对答题卡制作及专用识别设备有较高的硬性要求,不适用于高校阅卷的中小型、多科目阅卷。
随着图像识别技术迅速发展,一些教育和计算机领域学者开始关注基于图像识别的自动阅卷系统[2]。文献[3]提出了一种自适应的维纳滤波算法,其适应面较广,但不适合处理噪声方差较大的信号,也不能实现非平稳随机过程滤波。文献[4]提出了自动选取阈值的二值化算法,消除了图像对比度的影响,但不适用于背景灰度反差过大的情况。文献[5]采用模式识别技术解决了光标阅读方式运行速度慢的缺点,但在特征匹配时会放大误差。文献[6]提出了一种高效的深度特征融合分类系统,使识别错误率降低50%左右,但可能造成综合评价函数意义不明确。文献[7]采用了最近邻分类算法有效的完成了对手写数字的识别,但当特征属性较多而且样本容量较大时,其分类效率将大大降低。文献[8]采用了基于PCA 的神经网络进行识别手写数字识别,虽然简化了特征向量,但易受干扰影响。
本文设计并实现了一种基于图像识别的阅卷平台,面向广大教育机构及师生用户群体、应用于智能移动终端,既减轻了教师阅卷的负担,又消除了人为误差,极大地提升了教师的阅卷效率。
基于图像识别的阅卷平台主要由四层结构组成,即用户层、应用层、数据层及基础设施层,系统结构如图1 所示。用户层通过智能移动终端向云端发送数据、服务请求;应用层为用户提供阅卷识别、数据存取服务;管理层用于阅卷平台及用户软件的资源管理、维护更新;应用层、管理层、数据层、基础设施层为阅卷平台提供运行环境和数据支持。
图1 基于图像识别的阅卷平台的系统结构
基于图像识别的阅卷平台,是一个以卷积神经网络为框架、以服务器为核心的阅卷平台,其工作流程如图2 所示。阅卷平台基于云计算和计算机视觉技术,为教师提供辅助阅卷服务,为学生提供查询和反馈服务。教师固定移动设备后,使用教师端APP实现扫描功能,学生试卷传送至云服务器后自动进行计分区域的捕捉及手写数字识别以统计得分,处理后反馈数据给教师及云端备份,教师拥有修改数据的权限。学生端APP 可向平台请求成绩读取,获得试卷总分及计分区域图像,可提交查分申请,拥有问题反馈接口。
图2 基于图像识别的阅卷平台的工作流程
图像预处理是对手机拍照后的图像数据进行处理,获得用于图像识别的高信噪比数据。图像预处理主要分为二值化处理、图像去噪两个阶段。
二值化处理基本过程如下:全局阈值算法[9]确定合适阈值,对像素灰度值大于阈值的设为255,低于阈值则设为0。为克服光照对算法阈值的影响,阈值选取应考虑到环境光照条件。具体过程是:遍历图像空间,计算得出平均灰度水平,在此基础上加一个合适偏差得到动态阈值。
图像去噪过程主要针对二值化后的孤立黑点。算法的思想是,以像素点为中心,构造矩形,检测矩形中黑点个数。若黑点过少,则认为是噪声,反之是有效数据点。对比图3 和图4 可知,经预处理后,可获得期望的灰度图。
图4 经预处理后的图像
在拍摄计分区域前,虽然已通过人为调整使试卷与扫描设备保持同一水平,但仍存在小角度倾斜,因此需进行倾斜校正。倾斜校正主要包括两个环节,一是利用霍夫变换检测直线[10],二是图像旋转校正。
图5 霍夫变换
图6 直线检测及倾斜角计算
图7 旋转校正
如图6 所示,经倾斜角计算后,利用图像旋转函数,将计分区域调正,并把因旋转造成的空缺区域填充成白色,可获得如图7 所示的图像。
由于计分区域中含有多个题目的得分,因此需要将每个题目的得分分割成多张图像,其中每张图像仅含一个题目的得分。由于计分栏的上下边框几乎处于水平状态,因此只需依次按行(列)遍历像素点,当某行(列)突然出现白点所占比例远大于该行中黑点所占比例时,分割图像。将分割后的计分栏按照题号顺序依次命名保存,如图8 所示。
图8 分割后按题号顺序保存的图像
卷积神经网络的图像分类过程可分为三个过程:卷积、池化、全连接,如图9 所示。
图9 卷积神经网络原理
经预处理后的图片是一个非0 即255 的矩阵,但它保留了自然图形的特征,由于自然图像具有统计特性相似性[11],可利用卷积操作,把图片提取到的特征作为滤波器,减少参数的计算难度,同时保证稀疏性,防止过拟合。
理论上可以将卷积层提取到的所有特征送入全连接层进行分类预测,不过对于计算机有限的计算能力而言,卷积操作提供的数据量还是太多,这将会带来巨大的计算负荷。通过池化操作可大量减少参数矩阵的维度,以减少输入全连接层参数。池化还能使模型更加关注特征的存在而不是位置,它能将不同位置的特征映射到特征矩阵的相同位置,比如拍摄的图片可能有所倾斜,或者不在图片中心等,池化步骤可以有效的抵消这些干扰,将图形修正到正常位置。
经过池化后,最初的图像变成了一些高度抽象化的数字特征,将这些特征输入全连接层,完成数字分类。全连接层的核心就是向量和矩阵乘积运算,相当于对卷积提取的抽象化特征进行整合。全连接网络会根据输入图片的特征与样本空间进行比对,最后对各种分类标签输出一个概率,分类器可以根据概率进行结果预测。
基于上述关键技术,依托智能移动终端,实现了基于图像识别的阅卷平台。其中教师端APP 支持辅助阅卷、成绩上传等功能,如图10 所示;学生端APP 支持成绩查询、成绩校核、查分申请等功能,如图11 所示。
图10 基于图像识别的阅卷平台——教师端APP
图11 基于图像识别的阅卷平台——学生端APP
在实际测试中采用了500 份计分栏成绩,分别在不同光照、倾斜程度下进行识别实验。由表1 可知,随着卷积神经网络训练轮数的增加,训练准确率逐渐提高,但由于模型本身限制,最终稳定在0.998 左右,且实际准确率由于受环境影响略低于训练准确率。
表1 卷积神经网络训练轮数对准确率的影响
由表2 可知,在正常、曝光、昏暗及有明显阴影的环境条件下实验,实际准确率受曝光影响小,但受昏暗影响较大,且当计分区域存在明显阴影时,实际准确度很低,其原因是图像预处理部分对不同光照条件的适应能力不同。
表2 不同光照条件对实际准确率的影响
表3 计算倾斜角的准确率
由表3 可知,在不同计分栏倾斜角下,经倾斜校正算法计算出的倾斜角与计分栏倾斜角误差很小。
本文实现了基于图像识别的阅卷平台设计,采用卷积神经网络,测试中实际准确率可达99.2%,并针对计分区域图像采集时存在的光照、噪点、倾斜等问题进行了算法改进。采用自适应算法选取合适阈值,经二值化处理后能适应多数光照环境。在对噪点的处理上,通过遍历抓取孤立噪点,以消除噪声干扰。针对图像倾斜问题,通过霍夫变换检测图像中的计分区域的上下边框,取多点计算平均倾斜角加以校正,在计分区域倾斜时仍具备较强的适应性。最后,通过云服务器搭建起了端对端的信息传递平台,实现了阅卷平台的设计。