光学符号识别

2019-02-12 08:47刘立满杨胜卫王若男
神州·中旬刊 2019年1期

刘立满 杨胜卫 王若男

摘要:光学符号识别在电子设备上已经有广大的应用。本文对图像数据的分析,选取图像特征,图像字符识别进行了讨论,最后对模型进行评价和优化。

针对问题二,首先利用去掉变化小的特征法,对字符在矩形区域的水平位置与竖直位置的数据做取值预处理,得到字符在矩形区域的水平位置与竖直位置的选取区间,从而确定判断识别字符的位相特征;然后再利用线性回归与正则化,以字符所在矩形区域的宽度与高度的数据,通过矩阵X和Y进行线性回归,得到压缩因子的有效自由度。

关键词:去掉变化小的特征;线性回归与正则化;K-L变化特征提取识别模型;模糊综合评价模型

一、问题的重述

分析所给图像数据集,为例能够准确判断识别每个字符,需要选取哪些恰当的特征。

二、模型假设

1.假设样本的所有数据记录无误,无特殊因素对样本数据记录产生影响

2.假设光学机器操作对字符识别不产生影响

3.假设灯光、定位和对象的位置对图像数据没有影响

4.假设在特定时间类,字符的暗、亮模式与形状不发生改变

三、模型的建立与求解

3.1图像识别特征的选取

特征选择需要处理两个问题[6],一是确定选择识别算法,在一定的时间内,以最小的时间代价找出最能描述类别的特征组合;二是确立评价标准,权衡特征组合的效率,获取特征操作的停止条件。所以,分为两个步骤获取字符特征,首先得到特征子集,然后对特征子集进行评估,如果特征达到停止条件,则操作完成,否则重复前面两步到停止条件满足为止。

3.1.1去掉取值变化小的特征

图像数据集中,字符在矩形区域的水平位置的

这里对水平位置的横向坐标做去掉取值变化小的处理:

即对集合(x1, x2, x3…x20000)做出去掉取值变化小的操作,以区间,即区间(2.11,5.93)作为字符在矩形区域的水平位置的选取区间。把在选取区间外的字符去掉。

同样在图像数据集中,字符在矩形区域的竖直位置的

这里对竖直位置的纵向坐标做去掉取值变化小的处理:

集合(x1, x2, x3…x20000),以区间即区间(3.73,10.33)作为字符在矩形区域的竖直位置的选取区间。将在竖直选取区间外的字符去掉。

综上,依据去掉取值变化最小特征的数据处理,确定字符在矩形区域的水平位置与竖直位置,从而确定字符在矩形区域的位相特征。

3.1.2线性回归和正则化

正则化是构造风险最小化方法,在经验风险的基础上加上正则化。正则化是一种类似模型复杂度的单调递增函数[7]。

几何意义:正交投影

故:

字符所在矩形区域的宽度X=(x1, x2, x3…x20000)T

字符所在矩形區域的高度Y=(y1, y2, y3…y20000)T

参考文献:

[1]张世辉.汉字图像预处理算法的研究及实现[J].微机发展,2003 (04):53-55+58.

[2]关石菡.数理统计在数据分析中的应用研究[J].林区教学,2011 (06):87-88.

[3]吴瀚.对于使用Adaptive Lp正则化的线性回归问题在高维情况下渐近性质的讨论[D].复旦大学,2014.