梁林森
复杂背景下电力客户证件识别关键技术的研究与实现
梁林森
(广州供电局信息中心,广东 广州 510200)
当今社会是信息化时代,很多企业都在运用证件识别技术,自动化录入证件信息,这样不仅可以降低人力成本,还可以提高客户办理业务的效率。证件识别关键技术的实现主要是基于光学字符识别技术,识别过程比较烦琐,包括多种技术,在此背景下电力公司研究并实现了电力客户证件识别的关键技术,优化电力客户的档案管理渠道,为电力客户提供更好的服务,并提高对于营销业务,特别是人工录入客户信息的风险控制能力。主要介绍了在光学字符识别技术下如何研究电力客户证件识别的关键技术,简述了实现电力客户证件识别关键技术后的现实作用。
电力客户;证件识别;光学字符识别;OCR
证件是一种具有法律效力的、可以证明身份的证书和资格证明文件,证件对我们的生活所起的作用很大,比如企业的营业执照可证明企业具有从事某种活动的资格,身份证可以证明个人身份,驾驶证可以证明持有人具有驾驶车辆的资格等。随着信息化时代的到来和计算机与互联网技术不断发展,证件识别技术逐渐被研究与实现,自动化识别客户证件不仅可以节约人力,还可以缩短客户办理业务的时间,提高运营效率。提供优质服务是电力公司生存、发展的必要条件,为电力客户提供服务的优劣可以直接影响到客户对公司的满意度和社会赞誉度,电力公司必须紧随时代潮流,运用先进技术为电力客户提供最好的服务,满足客户的多种样需求。因此,电力公司在此复杂背景下研究与实现证件识别技术,对电力客户证件上的文字信息进行识别,自动化录入、校验、归档电力客户的信息,实现客户电子化档案管理的精益化与高效化。证件识别关键技术是光学字符识别技术(OCR),OCR技术在很多行业已经被应用,比如银行、海关、车管所等。证件识别技术与传统的人工录入方式有很大差别,可以提高证件信息录入的速度和准确率。
光学识别技术是20世纪60年代出现的,经过不断发展,已经有了印刷体OCR识别技术,可以识别多种字体,比如宋体、楷体、黑体等,并且还可以对不同字号的字体进行排版,目前已经被广泛应用在图书馆、新闻、出版社等行业。除此之外,还有专业型的OCR技术,在银行、海关、邮政等每天需要处理很多证件信息的行业被广泛应用。光学字符技术是一项很强的专业技术,包括证件图像的预处理、文字区域检测、字符切割、字符识别四个过程,这项技术需要大量资金支持。
证件包括身份证、银行卡、产权证明、户口本、驾驶证、行驶证等,是记录个人信息的重要凭证,可以证明持有人信息,也可以为群众生活提供便利,保护群众的合法权益。电力公司研究电力客户证件识别关键技术基于光学字符识别技术,读取二代身份证上的个人信息资料,再通过计算机技术将信息传输至计算机,这样可以大大提高电力客户证件信息录入的准确度、及时性和安全性,为快速登记电力客户信息提供便利。研究电力客户证件识别关键技术过程包括客户证件信息的预处理、证件上的文字区域检测、字符切割及字符识别,流程如图1所示。
图1 流程图
电力客户证件识别关键技术的首要步骤是客户证件信息的预处理,预处理技术主要有灰度化、二值化、膨胀与腐蚀等技术,主要是利用图像处理技术获取所需要的客户的特征信息,提升图像的质量,抑制不需要的干扰性的噪声。预处理的首要工作就是根据噪声的特征对待识别的图像进行去噪处理,由于人工拍摄证件会出现倾斜,因此还需要进行倾斜矫正处理。这个步骤会直接影响到是否能够顺利提取目标证件所在的区域,进而影响到后续步骤的进行。
客户证件信息预处理完成后需要进行的是检测证件上的文字区域,常见文字区域检测方法有纹理特征检测方法,基于连通区域的检测方法,或者两者结合起来进行文字区域检测的方法。证件上的文字具有自身特有的属性,不同证件文字的笔画、大小、结构都不一样,采用基于膨胀算法的版面分析方法实现对每行信息进行准确切割:在进行版面分析的时候,采用自底向上的方法比较准确,适合一些比较复杂的版面,而由于字符、文本行之间有间隙,从而使各个连通区域比较琐碎,这样就大大地增加了运算量。
以前的版面分析技术采用“自底向上”的方法,是直接对版面图像上的黑点进行搜索,获得连通区域,这种方式容易受噪声的干扰,运算速度比较慢,并且给后面的连通区域合并带来很大的困难。
字符切割是进行字符识别的前提,字符切割方法主要有三种:①经典方法,即把图像进行切割,把可能的字符切割出来;②基于识别的分割方法,即搜索待识别的图像以找出可能的字符;③将整个单词(word)作为整体来识别。
电力客户证件识别关键技术的最后一步是字符识别,也是最重要的一步,电力客户证件信息的字符识别正确率直接影响着整个证件识别技术系统,字符识别方法是基于数学理论设计的,主要方法有特征提取和降维。
特征是用来识别文字的关键信息,每个不同的文字都能通过特征来和其他文字进行区分。对于数字和英文字母来说,这个特征提取是比较容易的,因为数字只有10个,英文字母只有52个,都是小字符集。对于汉字来说,特征提取比较困难,因为首先汉字是大字符集,国标中光是最常用的,第一级汉字就有3 755个;第二个汉字结构复杂,形近字多。在确定了使用何种特征后,视情况而定,还有可能要进行特征降维,如果特征的维数过高(特征一般用一个向量表示,维数即该向量的分量数),分类器的效率会受到很大的影响,为了提高识别速率,往往就要进行降维,这个过程也很重要,既要降低维数,又得使减少维数后的特征向量还保留足够的信息量(以区分不同的文字)。
电力客户证件识别关键技术的实现方法是选择合适的证件图像预处理方法、证件文字区域检测方法、字符切割方法、字符识别方法、字符匹配方法,自动化录入电力客户证件信息。目前,用户可通过网上营业厅、微信在线办理用电业务,办理时直接上传用户证件照片,系统即可自动提取识别关键信息,解决用电客户手工录入体验不佳的问题,提高业务办理效率。
实现电力客户证件识别关键技术可以提升供电营业服务水平,完善电力客户的档案信息电子化渠道的建设,提高业务办理效率,解决业务人员手工录入客户信息速度慢、准确率低的情况,具有方便快捷、准确率高的优势,提高客户的满意程度,减少电力客户的投诉,提升电力公司的形象。
综上所述,电力客户证件识别关键技术的研究与实现具有快速准确的优势,让用户在线办理用电业务时感受到技术进步带来的便利,这种技术可以缩短电力客户办理业务时间,也可以提高供电局的业务办理效率,减少营业厅柜台的压力,节约人力成本,创造一个良好的电力经营环境。
[1]李文芳,郑抗震.基于二代身份证识别技术的营业厅深化服务系统:中国,CN103632315A[P].2013-11-29.
[2]杨钧.面向电力营销服务的客户身份自动识别系统设计[D].南宁:广西大学,2011.
2095-6835(2019)07-0070-02
TP391.4
A
10.15913/j.cnki.kjycx.2019.07.070
〔编辑:严丽琴〕