刘立满 杨胜卫 王若男
摘要:光学符号识别在电子设备上已经有广大的应用。本文对图像数据的分析,选取图像特征,图像字符识别进行了讨论,最后对模型进行评价和优化。
针对问题二,首先利用去掉变化小的特征法,对字符在矩形区域的水平位置与竖直位置的数据做取值预处理,得到字符在矩形区域的水平位置与竖直位置的选取区间,从而确定判断识别字符的位相特征;然后再利用线性回归与正则化,以字符所在矩形区域的宽度与高度的数据,通过矩阵X和Y进行线性回归,得到压缩因子的有效自由度。
关键词:去掉变化小的特征;线性回归与正则化;K-L变化特征提取识别模型;模糊综合评价模型
一、问题的重述
分析所给图像数据集,为例能够准确判断识别每个字符,需要选取哪些恰当的特征。
二、模型假设
1.假设样本的所有数据记录无误,无特殊因素对样本数据记录产生影响
2.假设光学机器操作对字符识别不产生影响
3.假设灯光、定位和对象的位置对图像数据没有影响
4.假设在特定时间类,字符的暗、亮模式与形状不发生改变
三、模型的建立与求解
3.1图像识别特征的选取
特征选择需要处理两个问题[6],一是确定选择识别算法,在一定的时间内,以最小的时间代价找出最能描述类别的特征组合;二是确立评价标准,权衡特征组合的效率,获取特征操作的停止条件。所以,分为两个步骤获取字符特征,首先得到特征子集,然后对特征子集进行评估,如果特征达到停止条件,则操作完成,否则重复前面两步到停止条件满足为止。
3.1.1去掉取值变化小的特征
图像数据集中,字符在矩形区域的水平位置的
这里对水平位置的横向坐标做去掉取值变化小的处理:
即对集合(x1, x2, x3…x20000)做出去掉取值变化小的操作,以区间,即区间(2.11,5.93)作为字符在矩形区域的水平位置的选取区间。把在选取区间外的字符去掉。
同样在图像数据集中,字符在矩形区域的竖直位置的
这里对竖直位置的纵向坐标做去掉取值变化小的处理:
集合(x1, x2, x3…x20000),以区间即区间(3.73,10.33)作为字符在矩形区域的竖直位置的选取区间。将在竖直选取区间外的字符去掉。
综上,依据去掉取值变化最小特征的数据处理,确定字符在矩形区域的水平位置与竖直位置,从而确定字符在矩形区域的位相特征。
3.1.2线性回归和正则化
正则化是构造风险最小化方法,在经验风险的基础上加上正则化。正则化是一种类似模型复杂度的单调递增函数[7]。
几何意义:正交投影
故:
字符所在矩形区域的宽度X=(x1, x2, x3…x20000)T
字符所在矩形區域的高度Y=(y1, y2, y3…y20000)T
参考文献:
[1]张世辉.汉字图像预处理算法的研究及实现[J].微机发展,2003 (04):53-55+58.
[2]关石菡.数理统计在数据分析中的应用研究[J].林区教学,2011 (06):87-88.
[3]吴瀚.对于使用Adaptive Lp正则化的线性回归问题在高维情况下渐近性质的讨论[D].复旦大学,2014.