光学符号识别

2019-02-12 08:47刘立满杨胜卫王若男

神州·中旬刊 2019年1期

刘立满杨胜卫王若男

摘要：光学符号识别在电子设备上已经有广大的应用。本文对图像数据的分析，选取图像特征，图像字符识别进行了讨论，最后对模型进行评价和优化。

针对问题二，首先利用去掉变化小的特征法，对字符在矩形区域的水平位置与竖直位置的数据做取值预处理，得到字符在矩形区域的水平位置与竖直位置的选取区间，从而确定判断识别字符的位相特征;然后再利用线性回归与正则化，以字符所在矩形区域的宽度与高度的数据，通过矩阵X和Y进行线性回归，得到压缩因子的有效自由度。

关键词：去掉变化小的特征;线性回归与正则化;K-L变化特征提取识别模型;模糊综合评价模型

一、问题的重述

分析所给图像数据集，为例能够准确判断识别每个字符，需要选取哪些恰当的特征。

二、模型假设

1.假设样本的所有数据记录无误，无特殊因素对样本数据记录产生影响

2.假设光学机器操作对字符识别不产生影响

3.假设灯光、定位和对象的位置对图像数据没有影响

4.假设在特定时间类，字符的暗、亮模式与形状不发生改变

三、模型的建立与求解

3.1图像识别特征的选取

特征选择需要处理两个问题[6]，一是确定选择识别算法，在一定的时间内，以最小的时间代价找出最能描述类别的特征组合;二是确立评价标准，权衡特征组合的效率，获取特征操作的停止条件。所以，分为两个步骤获取字符特征，首先得到特征子集，然后对特征子集进行评估，如果特征达到停止条件，则操作完成，否则重复前面两步到停止条件满足为止。

3.1.1去掉取值变化小的特征

图像数据集中，字符在矩形区域的水平位置的

这里对水平位置的横向坐标做去掉取值变化小的处理：

即对集合（x1， x2， x3…x20000）做出去掉取值变化小的操作，以区间，即区间（2.11，5.93）作为字符在矩形区域的水平位置的选取区间。把在选取区间外的字符去掉。

同样在图像数据集中，字符在矩形区域的竖直位置的

这里对竖直位置的纵向坐标做去掉取值变化小的处理：

集合（x1， x2， x3…x20000），以区间即区间（3.73，10.33）作为字符在矩形区域的竖直位置的选取区间。将在竖直选取区间外的字符去掉。

综上，依据去掉取值变化最小特征的数据处理，确定字符在矩形区域的水平位置与竖直位置，从而确定字符在矩形区域的位相特征。

3.1.2线性回归和正则化

正则化是构造风险最小化方法，在经验风险的基础上加上正则化。正则化是一种类似模型复杂度的单调递增函数[7]。

几何意义：正交投影

故：

字符所在矩形区域的宽度X=（x1， x2， x3…x20000）T

字符所在矩形區域的高度Y=（y1， y2， y3…y20000）T

参考文献：

[1]张世辉.汉字图像预处理算法的研究及实现[J].微机发展，2003 （04）：53-55+58.

[2]关石菡.数理统计在数据分析中的应用研究[J].林区教学，2011 （06）：87-88.

[3]吴瀚.对于使用Adaptive Lp正则化的线性回归问题在高维情况下渐近性质的讨论[D].复旦大学，2014.

神州·中旬刊2019年1期

神州·中旬刊的其它文章: 试论《骆驼祥子》中人物命名的象征手法; 读《以色列史》有感; 都云作者痴，谁解其中味; 我行走在三坊七巷; 那风一样的日子哟; 活着，就是一种幸福