吴紫秋
摘 要:作者与同学一起参加了大学生创新创业大赛,项目名称为“儿童随手拍”——基于图像识别的儿童早教识图系统,英文名为Image Oriented for Kids——Early Childhood Education Based on Image Identification。此项目获得2017年北京市市级奖。作者基于项目心得,写下此篇论文。
关键词:图像识别;儿童早教;思考
中图分类号:TP391.41 文献标识码:A 文章编号:1671-2064(2017)24-0033-01
目前,随着图像识别技术的不断进步,越来越多的科技公司开始涉及图形识别领域,这标志着读图时代正式到来。为了使图像识别技术应用更为实用,我们决定使其工具化。当前儿童早教是一个热点话题,家长们对于孩子培养的需求越来越高,儿童早期智力开发和效率成为技术的一个应用点和突破口。而现有的儿童早教机和软件都是以非智能的静态匹配为主,图像识别在此方面应用前景极大。我们希望建立一个具备图像识别、OCR识字、记忆卡片等功能的软件系统,面向家长和孩子为用户群体,家长引导孩子使用和操作。通过用户所拍摄的特定图片或上传图片,帮助儿童看图识字识人,更加生动有效地实施儿童早期智力引导。以丰富多彩的图片,帮助孩子自主学习,提高孩子学习兴趣。
1 关键技术
(1)图像识别部分采用感知哈希均值算法和差异哈希算法结合的方法,对上传的图片生成64位二进制“指纹”,与做好分类标签的图像库进行对比,返回最相似的作为识别结果。
目前网民普遍使用搜索引擎搜索自己所需要的资料,这些搜索引擎,诸如google或baidu都具有非常好的识图功能,可以搜索到图片,相似的图片也可以被收搜索出来。这种技术就是“感知哈希算法”(Perceptual hash algorithm)。其所发挥的作用就是每一张图片都可以生成一个“指纹”字符串,对不同图片的指纹进行比较,所获得的结果越是接近,就意味着图片具有很高的相似度。用这种算法可以比较图片,并获得比较结果。
(2)OCR字符识别部分,通过sobel滤波器去边缘、优化后的大律法阈值算法进行二值化、去噪、校正、字符切割识别等处理过程,提取出图片上的有效字符(英文、中文均可提取)。
在OCR字符识别的过程中,就是用数码相机或者扫描仪等电子设备将字符打印出来,在对字符进行识别的过程中,可以使用字符识别的方法将其翻译为计算机文字。使用扫描仪扫描文本资料,分析图像文件就可以获得文字信息或者版面信息。OCR字符识别是最具友好型的,不仅运行稳定,而且操作方便可行,识别的正确率是非常高的。
OCR软件主要包括图像输入和预处理、图像输入、二值化、噪声去除、倾斜较正、版面分析、字符切割、字符识别、版面恢复、后处理。其中,对彩色图像进行处理的过程中,可以将图片的内容分为前景与背景。对彩色图技术处理之后,将前景信息定义为黑色,将背景信息定义为白色,形成二值化图。去除噪声就是将画面上的斑点等等去除。之后,根据需要对版面进行切割处理,使用文字识别软件进行文字识别。将处理好的图片输入到指定的文档,做好校对工作。OCR识别系统实现了影像转换,将资料文字转变为计算机文字,对于错误的文字及时更正,输出结果。
(3)利用python编写的网络爬虫脚本在目标网站自动、高效地下载图片、成库。
利用python编写的网络爬虫脚本,在Python的交互式命令行编写程序,就可以直接获得结果,但是不能够有效保存,在运行python的时候,可以使用文本编辑器写代码,保存一个文件之后,这些程序就可以多次重复运行了。
(4)Android开发,app界面、图像识别、OCR识别界面、记忆卡片功能。
2 几种算法
2.1 感知哈希算法(pHash)
均值哈希虽然简单,但受均值的影响非常大。例如对图像进行伽马校正或直方图均衡就会影响均值,从而影响最终的hash值。存在一个更健壮的算法叫pHash。它将均值的方法发挥到极致。使用离散余弦变换(DCT)来获取图片的低频成分。
离散余弦变换(DCT)是种图像压缩算法,它将图像从像素域变换到频率域。然后一般图像都存在很多冗余和相关性的,所以转换到频率域之后,只有很少的一部分频率分量的系数才不为0,大部分系数都为0(或者说接近于0)。下图的右图是对lena图进行离散余弦变换(DCT)得到的系数矩阵图。从左上角依次到右下角,频率越来越高,由图可以看到,左上角的值比较大,到右下角的值就很小很小了。换句话说,图像的能量几乎都集中在左上角这个地方的低频系数上面了。
2.2 差异哈希算法(dHash)
相比pHash,dHash的速度要快的多,相比aHash,dHash在效率几乎相同的情况下的效果要更好,它是基于渐变实现的。
需要说明的是这种指纹算法不仅可以应用于图片搜索,同样适用于其他多媒体形式。除此之外,图片搜索特征提取方法有很多,很多算法还有许多可以改进的地方,比如对于人物可以先进行人脸识别,再在面部区域进行局部的哈希,或者背景是纯色的可以先过滤剪裁等等,最后在搜索的结果中还可以根据颜色、风景、产品等进行过滤。
3 创新点
(1)通过相机拍摄或者照片上传,能够远远扩充物品的数量,认知的广度。
(2)能够实时让用户了解物品名称(中英文)、类别、相似物品等多项信息,增加归类记忆。
(3)能够给用户提供记忆测试、信息与图片匹配等相关试题,增强识图的记忆效果。
(4)能够经过数据分析,抓住用户的兴趣点,着重进行后期的培养。
(5)操作简单,可以使用户摆脱对家长的依赖,培养兴趣开发和自主学习的能力。
4 在早教领域中具有广阔的应用前景
以用户提供的特定物体图片,给出所匹配图片信息和相关内容,进而通过识图识字系统帮助用户动态的记忆此类物体和信息,促进儿童早教、智力开发、自主学习等能力的形成,帮助儿童从小具备超出同龄人的记忆、学习能力。
参考文献
[1]刘芳.计算机智能化图像识别技术的理论性探究[J].信息系统工程,2017,(4):16-16.
[2]杨琛.试析人工智能中的图像识别技术[J].信息通信,2017,(1):16-17.
[3]缑亚斌,李宏博.计算机智能化圖像识别技术及应用[J].建筑与装饰,2016,(7):168-169.
[4]翁和王.关于人工智能中的图像识别技术的研究[J].信息通信,2016,(10):191-192.endprint