任昭 孙海冰 彭淑芹
摘 要: 本文针对光学符号识别问题,对数据进性分类统计处理,建立欧几里得相似度模型,ROC模型评判法对模型进行检验,同一坐标对应若干个字符,所以考虑坐标所对应的数字是坐标域,分析不同位置统一字母的数据存在可能性差异,同一字符在同一位置区域的数据具有较高的相似性,筛选同一区域的若干字符,再通过其余特征属性建立模型可以识别相关字符。接着观察待测字符的数字信息中的位置信息,找到与待测字符相同的位置区域,建立欧几里得相似度模型,将筛选出的属性与待测字符的相应属性的数据通过欧几里得相似度计算公式进行计算,得到多组欧几里得距离(距离越小,相似度越高),选择不同的阈值,计算低于阈值的字符频数,最终选择频数最大的字符作为识别结果。
关键词:欧几里得距离 ;相似度;ROC模型误差检验
[abstract]Problem based on optical character recognition, the data into classification statistical processing, Euclidean similarity model is set up, the ROC model test evaluation method on the model, the same coordinates corresponding to several characters, so consider the coordinates of the figures are coordinates domain, analysis unified data possible differences, different position data of the same characters in the same location area has high similarity, screening of several of the characters of the same area again through the rest of the attributes set up model can identify the related characters. Then watch for the character of digital information, location information in finding and characters of the same location area under test, Euclidean similarity model is set up, will select attributes and characters of the corresponding property of the under test data by Euclidean similarity calculation formula to calculate, get more groups of Euclidean distance (the smaller the distance, the higher the similarity), choose a different threshold, the calculation of characters is lower than the threshold frequency, frequency of maximum character is chosen as the final recognition result.
[Key words]: euclidean distance similarity ROC model error test
一、问题分析及模型建立
1.1 问题分析
通过分析字符的特征属性知,字符所在矩形区域的水平竖直位置和高宽度是描述字符所在位置和大小的,其余则是表述字符本身具体形状的特征属性,用于识别字符。将属性分为两类,位置属性和特征属性。
观察每一个字母的若干数据,再按照水平位置和竖直位置分类,发现同一类字符在不同位置区域的伪属性值存在可能性差异,同一类字符在同一未知区域的伪属性值具有高度相似性;在检测字符时,可以考虑先从位置坐标出发,先寻找坐标相同或者相近的区域,再进行识别。
1.2对属性进行分类
字符所在矩形区域的水平位置和竖直位置与其矩形区域的高度和宽度是确定字符所在位置和大小的属性。矩形区域的黑色像素数等属性表示字符本身的具体形状,用于识别字符。
表示字符所在矩形位置大小的特征属性有四个,表示字符矩形区域的特征属性的有12个。相关数据表面发现这些数据都具有几乎相同的属性域________________。
字符的特征属性:
i.从识别字符本身形状出发,考虑后面12个属性区域,求出每个字符的不同属性在每个属性值区域(0-15之间)的频数,通过计算每一幅图伪属性值的极差,判断波动差别比较大的属性。本文还选择提取每一个字母的平均伪属性值,绘制平均伪属性值图像,观察不同字符平均伪属性值的走势也具有一定辨识度,两种方法结合选择出最具有辨识度的属性。
ii.计算出12幅图的极差(12个极差),在第一种方式中选择极差大的前10个属性,作为暂时确定的恰当的特征。再計算第二种方法的12幅图的极差(12个极差),选择前10个极差大的属性,作为第二种方法暂时的恰当特征属性。
1.3 模型建立
1.3.1 基本思路
对于识别字符而言,首先进行数据预处理,然后对图片进行分割。对图像数据进行训练和识别,本文选取每个区域内任意70%的数据进行识别字符,剩余30%数据进行检验。
1.3.2欧几里得相似度距离公式
其中一个区域为例子做解释说明,假设选择剩下百分之三十的数据的其中一个数据,先观察该数据的位置信息,提取同区域字符,在进行相似度计算,在同区域中寻找最好的相似度对应的字符作为最终识别字符。
二、结果及结果分析
ii. 将计算出来的所有数值进行比较,在小于该阈值的范围中频数最多的字母,得到的字母即为识别结果。计算得到的预测正确率为92.3%。
三、模型的改进与推广
3.1 模型评价
3.1.1 模型的优点
1、先将图像进行分区,计算不同特征属性的不同字母的最大频数下的为属性值和平均伪属性值,使得模型的可视化界面形象逼真。
2、欧几里得算法计算方便,分区后结合实际分析,使得模型更贴近实际,通用性好,推广性强。
3、筛选出的70%的训练数据和30%检验数具有随机性,可以较好反映数据信息。
3.1.2 模型的缺点
1、影响精确度的因素较多,不能全面考虑,结果与实际有一定偏差。
2、光学数据集在收集过程中由于其他未考虑因素导致识别准确,例如,仪器误差,环境因素等,结果又偏差。
3.2 模型优化
对每个属性根据其重要性赋予权重,加权之后的欧几里得距离可以表示为:
对于识别字符,各个属性对精确度的影响程度可用层次分析法和熵权法进行量化,算出的欧几里得距离更具有实际意义,能够反映各个变量在数据中的不同作用,从而使模型到达优化的目的。
参考文献:
[1] 卢畅畅,宁少文,唐德昌.光学字符识别技术(OCR)的研究于应用[J].中国战略新兴产业,2018(28):1-3.
[2] 肖坚.基于学习的OCR字符识别[J].计算机时代,2018(07):48-51.
[3] 田学东. 光学公式识别技术研究[D].河北大学,2007.