基于深度学习的英文手写词汇数据集构建方法

2025-03-05 00:00:00张晏濒

电脑知识与技术 2025年3期

关键词：深度学习；自动阅卷；高考英语；手写字符；数据集构建

中图分类号：TP18 文献标识码：A

文章编号：1009-3044（2025）03-0034-05 开放科学（资源服务）标识码（OSID）：

0 引言

当今社会对教育的重视程度提升了教育质量和受教育的广泛性。然而，这也加重了教师的工作负担，尤其是在大规模考试中，教师需要评阅大量重复题目。在我国，全国性的大型考试普遍采用标准化答题卡的形式。机读卡的评阅模式能够实现高效且精准的选择题阅卷，但填空题等主观题的评阅和核对仍需要大量的人力支持。在确保阅卷准确性的同时，提高阅卷效率同样至关重要。针对初高中生英语填空题的阅卷，构建自动化阅卷系统以识别手写英文单词并进行评阅，能够为教师从繁重的阅卷工作中解放出来提供有效手段。然而，如果没有合适的数据集，就无法展开相应的系统构建工作。

自动化阅卷系统的基础和核心是目标检测，这是计算机视觉研究的一个重要领域，其检测效果直接影响评阅的准确性。机器辅助检测可以极大地提高阅卷效率，减少因人工疏忽和注意力分散而导致的误判和漏判等情况，从而提升阅卷的准确性。因此，利用深度学习和图像处理技术开发针对大型英语考试的自动化阅卷系统具有重要意义[1]。

数据集的质量对字符识别结果起着至关重要的作用。目前公开的英文手写基准数据集由于涉及的应用领域广泛、覆盖面多元，导致其在特定情景下并不完全适用。例如，经典的英文手写数据集 IAM（现代英语）包含1539张由657个不同的人手写的扫描文本，这些文本对应于从 LOB语料库中提取的英语文本，每条数据经过细致标注和处理。然而，该数据集的大多数样本采集自国外书写图片，其书写风格和习惯与国内中学生的书写风格存在较大差异。其他被广泛使用的基准数据集也存在类似问题，如MNIST手写字母数据集、ETL1-ETL9数据集和CEDAR数据集等。因此，需要结合目前流行的数据集标注方法，制定适合当地中学生英语书写习惯的专用数据集。

1 数据集设计与构建

英语手写数据集的构建方案和流程如图1所示，包含从需求分析、数据集设计到数据集整理的完整构建流程。

首先，在需求分析阶段，需要深入研究中学生英语书写的特点和习惯，包括字迹的多样性、书写速度以及常见的拼写错误等，这为后续设计数据集提供了明确的方向和依据。数据采集与筛选需确保样本的多样性和真实性。在数据标注阶段，需区分无涂改和有涂改的图片，并对拼写错误的词汇进行单独标注。校准验证环节确保了数据的准确性和一致性，数据增强则进一步提高了样本的多样性。最后，通过格式整理将数据划分为训练集、验证集和测试集，以满足模型训练和评估的需求。

1.1 需求分析

为实现自动评阅，数据集的构建需要尽可能模拟真实的“识别”环境，覆盖学生英文答卷中可能出现的所有情况。在实际阅卷过程中，教师通过视觉识别学生答卷信息并判断其正确性，可能会遇到学生字迹风格各异、答案不一致、涂改等情况，甚至有些学生会出现拼写单词错误的现象。综合以上可能出现的答题情形，实际答卷情况可大致归为以下4类（见图 2）。

在实际阅卷情形中，“有无涂改”情况或许可以进一步区分为整体涂改和部分涂改。其中，部分涂改指的是未连贯且完整地呈现出单词，在单词内部存在部分涂改。通过YOLO可以精准识别字符的局部涂改。为了方便实际操作，将整体涂改和部分涂改均归为“有无涂改”这一类情形，并单独筛选出来，进一步交由人工进行直接核查。

根据上述英文手写数据集构建的需求分析，本文构建的数据集应满足以下条件。

1）样本类别丰富，词汇数量充足，能够覆盖中学生英语考试中常见的书写词汇；

2）字迹形式多样，能够匹配绝大部分中学生的书写风格和字迹特征；

3）保留有涂改的样本，在构建数据集时区分有涂改图片和无涂改图片；

4）保留拼写错误词汇样本，并对这类单词进行单独标注。

根据以上需求，再设计相应的数据采集方案，以涵盖各种情况，同时适配后期阅卷模型和系统的使用需求。

1.2 数据集方案设计

在字符识别领域，首先需要确定数据的组织结构。将收集到的离线书写的英语答卷进行黑白扫描，并规整出单独的词汇图像。为了便于算法读取，将数据集中所有图像的大小规格统一化，统一设置为128 ×64像素。

由于部分图像上存在涂改区域，且涂改形状不一，会对字符识别造成干扰，因此这类图像需要单独标注。基于有无涂改的标准，先将数据集划分为两大数据子库：

1）无涂改图片库：每张图像上所呈现的显式信息即为书写者手写的英语词汇。将相同词汇的不同书写者的手写图像归为一类，标注信息即为该英语词汇。例如，书写了that的非涂改图片，其标注信息即为that。

2）有涂改图片库：人眼查看这类图片时，能够区分涂改区域和正常词汇区域。仿照人工批阅此类图片的流程，可以采用目标检测算法识别涂改区域，并将涂改区域变为背景色，再由机器对手写字符进行批阅。相应地，为了兼容一些框架和源码，该数据库将仿照 Pascal-VOC 数据集的格式建立，具体格式和内容要求将在后文详细介绍。

整体设计如图3所示。

1.3数据采集与筛选方法

数据集应满足基本需求，所有图像均应来自真实的学生英语考卷。由于学生考卷信息为非公开内容，获取相关资料需获得权限。我们通过与某省市教育考试院开展的相关合作，获得了部分学生考卷的访问权限。

在获取答卷后，需要对原图像（如图4所示）进行预处理。首先进行图像切割，从一张答卷中提取出10个答案，仅保留手写字符部分，不保留题号或其他印刷信息。为了提高数据产出效率，尽量避免手工切割。扫描过程中，答卷位置可能会发生偏移，加之学生书写的极大差异性，容易导致手写字符的位置不固定。然而，手写字符的位置相对于标准答卷上的外框线是固定的。因此，只需利用 OpenCV的 Hough⁃LinesP函数检测出外框线的位置，即可确定切割线的位置，从而切割出 10 个词汇图片。

由上述方法可以大批量、快速地获取所有手写图像。但在切割过程中难免会出现一些不完整的图像。为了保持数据的有效性，需要对所得图像进行进一步筛选，剔除以下3类图片：

1）空白图片；2）因切割导致图像信息不完整的图片；3）图片信息过于模糊，以至于人眼也难以辨认的图片。

由于答卷数量众多，切割后会生成极大量的手写词汇图像。对于情况 1），可以采用聚类算法，将空白图片筛选出来。而对于后两种情况，由于图片中均存在字迹，难以通过简单的聚类方法进行筛选，且筛选时需要逐张查看图片，这势必会耗费大量人力和时间。考虑到数据标注过程中也需要逐张浏览图片，因此在实际操作中，可以在数据标注过程中同时完成这两类图片的筛选工作。

1.4 数据标注方法

1.4.1 无涂改图片的标注

无涂改图片的标注规则是将每张图像的显式信息（字符信息）作为其标签值。为避免有涂改图片的标签与英文字符混淆，需先将有涂改图片剔除，并将其标签设定为“9”。在数据集规模庞大且标签值数量有限的情况下，为尽可能减少工作量、提高标注效率，可以将标签值相同的图像放置在同一个文件夹内，操作过程简化为拖拽图片，从而减少一定的工作量。

即便如此，拖拽上万张图片仍需耗费大量人力。为了快速有效地完成标注工作，可以利用 K-means 聚类算法将所有图像分为若干类，再从每一类中进行细分。同时，也可以选择运用卷积神经网络预测标签，协助完成标注。

更有效的方法是构建卷积神经网络（CRNN）以识别字符。在此搭建的卷积神经网络由 7 层卷积层、4层池化层以及2层批标准化层组成，并结合双向LSTM与RNN，采用 CTC 作为损失函数，使用 Adam 参数优化算法[2]。具体网络结构如表1所示。

1.4.2有涂改图片的标注

面向涂改数据的识别问题，采用 YOLO 算法识别涂改部分，并将涂改区域替换为背景色。YOLO 算法是一种基于端到端的检测框架，具有人类视觉系统快速识别且精准定位的特点。YOLO 算法经过一次CNN 运算后，基本上可以完成实时的目标检测。该算法包括目标区域预测和类别预测等多个流程，能够识别输入数字图像样本中的目标边界框和目标类别概率。因此，可以利用 YOLO 算法实现手写字符涂改区域的目标检测，并将该区域替换为图像背景色，从而得到无涂改图像，再由字符识别模型进行识别。筛选出存在涂改的图像样本并单独作为训练样本，留下精准的无涂改答案图像数据集用于训练模型[3]。

1.5 数据校准与验证

数据集格式整理，包括数据标注和数据校准等过程，需耗费大量时间和人力。而且人在长时间工作后注意力容易下降，难免出现差错。目前尚无足够准确的字符识别算法能够完全替代人工标注。为了尽可能减少工作量并提高模型预测的准确性，可以选择利用深度学习模型 CRNN 来协助标注，并对这些数据进行如下简单处理。

1）利用前文提到的CRNN字符识别模型进行批量检测。该模型会返回每张图片的类别及其属于该类别的概率值。根据概率值，将图片数据分为 0～lt;25%、25%～lt;50%、50%～lt;75%、75%～100% 四个区间，并将这些数据分别打包交由人工处理。对于机器判断错误的图片，重新进行标注。

2）将一个数据集分配给两人进行标签标注工作，并利用 Python 程序对两人标注结果进行比对，识别出不一致的标签内容。通过这种方式，可以更精准地为数据集打好标签，并快速定位人为主观判断的争议点。最终，这种方法能够有效丰富模型的复杂度，从而更好地训练识别和预测模型。

1.6数据增强技术

基于深度学习的目标检测效果依赖于训练样本的质量和特征。如果训练样本的质量较差或种类数量相差较大，会导致样本数据不平衡，从而影响目标检测算法的精准预测[3]。以阅卷项目的英语答案图像数据为例，训练样本质量较差的情况包括：未区分图像数据是否存在涂改痕迹，未挑选出多种答案情况作为正确答案（多答图片混为一谈）。

此外，训练样本种类数量相差较大的情况主要指英语某一填空题存在多种正确答案，但收集到的每种正确答案的图像数据数量差别较大。例如，某一题大部分学生填写的是错误答案，仅少部分学生填写的是正确答案，这会导致收集到的两种正答图像数据量相差悬殊，不利于训练出良好的识别模型，从而可能导致模型过拟合问题，最终影响阅卷的精准度。

神经网络防止过拟合的方法包括数据增强、使用正则化、提前终止、丢弃等。基于数据量有限的答案图像，可以通过数据增强（Data Augmentation）方法生成更多具有等价效应的数据，以增加训练样本的数量和多样性，从而提升模型的泛化能力和鲁棒性[4]。深度学习中常用的英文手写图像数据增强方法包括：平移、缩放、旋转、波纹扭曲和噪声扰动等，也可以通过生成式对抗网络（Generative Adversarial Network，GAN）生成伪数据[5]。实际中常用的数据扩增处理方法具体如下。

1）平移变换：通过平移操作改变图像内容的位置，即采用随机或人为定义的某种方式指定平移距离和范围，在某一平面上对图像进行平移变换。

比如，“move（-50，-30）”意为将单词“that”移动到一个特定的坐标位置。其中，负号表示方向，“-50”和“-30”分别表示将对象向上移动 50 个单位和向左移动 30 个单位。

2）放缩变换：图像经过放缩变换的关键是保留原图像中的主要特征不受损失。图像放缩的常用方法有最近邻元赋值法和双线性插值赋值法。最近邻元赋值法是在图像放缩过程中，将所求像素点的值赋予其最近邻的像素点的像素值。这种方法可以快速实现图像放缩，但可能会出现图像锯齿、失真等情况。而双线性插值赋值法则依赖于周围四邻域的像素值进行计算，能够更好地保留图像细节。

以英文字符图像“that”为例，分别对原始图像缩小 0.5 倍和放大 1.5 倍，图像经放缩处理后的效果如图7所示。

经过图像放缩处理后，双线性插值赋值法有效避免了图像数据出现锯齿、结构不清晰等问题，较好地保留了原始字符图像的结构特征。

3）旋转变换：图像旋转是通过设置原图像的中心坐标为新的原点坐标，然后将原图像的各个相应坐标点按照相同的角度进行旋转，从而生成新的旋转图像的方法。对于英文字符的旋转操作，需要保证旋转角度的适当性，以避免图像数据关键特征的损失。经旋转变换处理后的字符图像示意图如图8所示。

英文词汇手写数据集的构建过程中，每种词汇至少需包含10～15 张图片。由于词频差异较大，对于图片数量较少的词汇，可选择利用平移的方法增强数据。

1.7 数据格式整理与划分

前述答题卡分割已将手写数据集按题号置于不同文件夹下，每个题目下设学生作答的不同文本识别结果，具体分为无涂改图像和有涂改图像。其中，有涂改图像进一步通过YOLO算法将涂改部分覆盖为背景色，同时对图像中无涂改部分的字符重新进行识别。对于存在部分涂改的图像答案，需进一步移交人工辅助判断。

为避免模型过拟合，通常需将数据集划分为训练集和测试集，以确保模型能够有效学习并泛化到新的数据。在实际应用中，数据集的划分比例和方法会根据具体任务和数据特性有所不同。训练集和测试集的常见划分比例为90% 和 10%，以确保模型在训练过程中有足够的数据进行学习，同时在测试阶段有独立的数据集来评估模型的泛化能力。此外，数据集划分还可以采用其他方法，如 k 折交叉验证、留一法等。这些方法通过动态调整训练集和测试集的比例，以减少数据划分带来的影响，并提高模型评估的准确性。

2 数据集构建中的挑战与解决方案

由于采集过程的性质，各类样本数量与其在考试中的出现频率相关，导致每个类别的样本数量不均匀。手写笔迹风格复杂多样以及相应数据资料稀缺等问题，容易导致图像数据集的不均衡。深度学习模型的训练需要大量样本作为支撑，但由于人力、资金和时间成本有限，无法在短时间内收集到足够多的有效样本数据。因此，可以借助虚拟仿真技术生成数据，合成不便采集的样本数据，并通过修改图像中的纹理、颜色等特征，丰富用于模型训练的样本数据，从而进一步提升模型的识别精度[6]。

针对数据集不均衡问题，可以采用生成对抗网络（Generative Adversarial Network， GAN）算法生成手写数据以扩充数据集，专门解决这些问题。该技术通过一个预增强阶段为神经网络提供了更丰富和多样化的训练样本，有效降低了因过拟合或训练不充分导致的问题，如样本重复性高和学习效果不佳等[7]。这种方法巧妙结合了传统数据增强技术与生成式方法的优势，生成的样本数据在数据平衡性方面显著优于原数据集，在分类测试中的平均识别准确率也有所提升。这为小规模数据集的扩充和增强问题提供了一种更为有效的解决方案。

3总结与展望

构建英文手写词汇数据集可为自动阅卷模型的评阅准确性提供保障，并能减轻大型考试人工阅卷的压力，从一定程度上避免人工评阅失误等特殊情况。将深度学习识别模型应用于大型阅卷工作，不仅能够提高海量图像数据的处理效率，还能通过高效化与智能化的模型处理提升阅卷效率与评审公平性。