基于大数据技术的冠字号码查询系统构建研究

2018-07-27 09:15程德巧
金融与经济 2018年7期
关键词:号码数据挖掘人民币

■邹 玲,程德巧

2011年全球著名智库Mckinsey Company首次提出“大数据”的概念。随着经济技术的发展,信息流与数据流都对传统的数据处理技术提出了挑战,大数据技术作为一项新兴的现代技术应运而生,并广泛应用于航天、制造、医学、商业、金融等领域。由另一家全球知名的智库IDC公司发布的《数字宇宙研究报告》指出,全球信息总量每增长一倍仅需两年时间,以此推算,2011~2020年,全球信息数据总量将从1.8泽字节增长至35泽字节。通常认为,大数据主要特征包括体量大(Volume)、速度快(Velocity)、类型杂(Variety)、价值大(Value)和复杂性高(Veracity)等(俞立平,2013)。在此背景下,从2012年开始,中国人民银行提出在全国开展人民币冠字号码查询系统推广工作,目前流通中现金总量已达万亿级别。因此,科学记录每一张流通中人民币的冠字号码,实现数据与图像在中央银行发行库、商业银行业务库、网点柜台、现金清分中心之间有效传输,为存储与分析创造有利条件,这些都对数据处理技术提出了更高要求,大数据技术有望在这一领域取得新应用。

一、人民币冠字号码查询信息系统的现状及问题

目前冠字号码查询系统建设的基本技术尚处于摸索阶段。国内著名金融技术支持提供商纷纷涉足上述技术,但业内尚未形成统一观点。总体而言,现有冠字号码查询系统技术包括三种:一是物理方式,即借助物理存储设备实现冠字号码信息在点钞机、清分机等金融设备之间实现传输;二是直连方式,即借助金融机构内部网络实现冠字号码信息在设备之间的传输;三是中转方式,即将各台设备的冠字号码信息先汇总至网点汇聚机,并同时上传至总服务器。现有三种冠字号码查询系统技术方式存在的主要问题表现在以下几个方面。

(一)识别精度不高

传统的冠字号码识别技术主要有模板匹配法与特征识别法。本质上看,两者原理的基本一致,只是在实际运行过程中稍有不同。但是前者对原始数据质量要求较高,特别是需要对冠字号码进行归一化处理,需要耗费一定时间,误辨率不高。而特征识别法虽然能更好地适应查询系统的需要,且对于不同票面质量的钞票的冠字号码识别性较好,运用范围较前者更广,但是在大量识别样本的情况下,部分特征无法严格遵循特定的数学描述,容易导致误判率偏高。此外,冠字号码识别的准确程度既依赖图像识别技术,也受原始材料的质量和其它资料的可用性等因素影响,由于查询系统的封闭或存储信息的缺乏,使有助于冠字号码正确识别的其它参考信息而不可得,图像识别技术无法结合其它统计推断的综合识别技术来降低误识率。

(二)存储技术不强

传统的冠字号码存储技术将冠字号码的图像信息与数据信息存储在一起并进行统一处理,这一做法虽然有利于满足冠字号码的持续性查询及人工辅助识别需求,但当数据过于庞大时对于存储硬件设备的要求较高。不断增加的冠字号码原始图像与号码文字信息基础数据,以及人民币市面流通产生的新数据使存储空间的耗费变大,这要求配备的服务器数量急剧增加,使企业成本成倍上升。此外,由于冠字号码信息数据的保存采用的是回滚写入方式,这种频繁写入的方式导致磁盘碎片大量产生,从而影响了读写性能。

(三)数据挖掘手段缺失

数据挖掘与分析理应成为查询系统的关键,而现有的冠字号码查询系统是各银行业金融机构为达到人民银行要求而创建,推广使用是为本机构涉及的假币纠纷举证,以及获取责任划分的支撑资料来保障自身利益,所以查询系统一般只提供基本的存储、传输与查询功能,在数据挖掘方面却不具备较好功能,故而数据挖掘手段的缺失是限制冠字号码查询系统长远发展的瓶颈。

二、构建基于大数据技术的人民币冠字号码查询系统的原因

构建基于大数据技术的人民币冠字号码查询系统主要出于以下几个方面考虑。

(一)采用大数据采集技术可以提高冠字号码识别准确率

数据采集(DAQ)是指从传感器和其他待测设备等模拟和数字被测单元中自动采集信息的过程。鉴于钞票冠字号码兼具图像采集与数据提取两方面的特征,故而科学开展对冠字号码的准确记录关键在于对冠字号码识别的准确度。目前,作为一项大数据技术,通过优化粒子群优化算法的BP网络识别算法在图像识别领域得到了广泛运用,且实验证明,通过粒子群算法来优化BP神经网络的权值和阈值,能使识别准确率提升10%以上(许兴培等,2016)。因此,将通过粒子群算法优化的BP网络识别技术用于冠字号码数据收集,可获得更加可靠的冠字号码数据。

(二)采用大数据存储技术可以实现对冠字号码综合存储

冠字号码存储需要满足数据随时录入、生成、读取的需要,并能够尽可能压缩存储空间,以适应多网点采集和大容量运行的需要。因此,应该采用MPP架构的新型数据库集群,运用Shared Nothing架构,通过列存储、粗粒度索引等多项大数据处理技术,以及结合MPP架构高效的分布式计算模式来完成对分析类应用的支撑。由于冠字号码信息包括图像、数据、色彩等诸多元素,故而本文认为采取Hadoop的技术扩展技术如基于HBase的OpenTSDB进行实现大数据存储是比较合适的。OpenTSDB的主要特点包括读写性能好,能实时、连续和多指标地存储大数据,以及横向扩展存储能力简单等(陈吉荣和乐嘉锦,2013)。因此,采用该技术能够最大限度地实现对冠字号码的综合存储,并能实现数据及时应用,具有存储量大、应用性强、用途广等优点。

(三)采用大数据挖掘技术可以提高冠字号码分析能力

冠字号码查询系统除了需要满足基本的记录、存储与查询功能,更重要地是需要满足对钞票流通与使用的分析,通过有关系统实现的数据挖掘技术主要有遗传算法、决策树法、粗集方法、统计分析法、模糊集法等。但传统的数据发掘技术具有“黑箱”特性,难以理解其分析和决策过程,从而不能从根本上保证分析结论的客观性,并且当面对符号与数值并行的冠字号码时,传统的数据挖掘技术经常无能为力。而采用大数据技术则可很好地克服上述不足,例如用于大数据挖掘的多模态数据的KMeans算法,适用于混合数字特征和分类特征(如数值型和符号型并存)的数据(Ahmad&Dey,2007),能最大限度地发挥数据挖掘算法的数据分析优势,实现对冠字号码大数据的分析与应用。

(四)采用大数据展现技术可以实现冠字号码语义特征的展示

传统的数据展示技术一般基于浏览器操作,用户通过浏览器访问系统时,在发出数据请求后,WEB服务器根据用户请求来访问数据库,得到相应数据后发送给浏览器,最后浏览器处理并将数据结果展示出来。上述过程对于浏览器依赖程度较高,灵活性不足,并且短期内难以处理大规模数据。因此,若能采用基于Hadoop和Mahout框架的大数据文本化图像处理方法,显然具有优势。文本可视化的意义在于,能够将图像中蕴含的语义特征(如重要度、逻辑结构、主题聚类、动态演化规律等)直观地展示出来,非常适用于冠字号码这一类包含大小、色彩、磁性的图像展现。

三、如何构建基于大数据技术的人民币冠字号码查询信息系统

(一)基于大数据技术的人民币冠字号码查询信息系统设计思想

基于大数据技术的人民币冠字号码查询信息系统应该遵循如下设计思想。(1)确保总体架构的合理规划,全面实现过程、人员和信息的实质集成、高度协调,实现更高的互操作性与协同、更敏捷的业务流程、更全面的信息可见性。(2)降低集成成本和风险,降低维护成本。(3)支持业务流程管理,用户可以实现对企业业务流程的可视化动态建模、定义、扩展,以及透明的跟踪与控制,支持企业流程的改进和业务的创新。(4)丰富、强大的报表支持技术和相关工具,可以利用任意数据源,创建简洁、直观、实时的用户报表。(5)支持企业搜索,为用户提供企业级业务信息搜索能力,实现类似互联网搜索的操作体验。

(二)基于大数据技术的人民币冠字号码查询系统框架模块

人民币冠字号码查询系统正常运转包括数据采集、数据管理和数据应用。其中:数据采集是基础,大数据采集技术体现在数据采集前置模块;数据管理包括数据的添加、修改、删除等一般操作,数据维护以及网络数据的收发,数据存储等,存储技术的运用体现在数据中心模块;数据应用包括数据的检索、统计分析及数据的展示,数据挖掘技术和数据展示技术分别体现在数据高级应用模块和Web服务器模块。查询系统的主要模块见图1。

如图1所示,冠字号码采集前置机模块安装部署在冠字号码采集前置机上,服务程序包括:参数管理、指令请求、冠字号码文件获取、冠字号码文件合并、冠字号码上传文件、冠字号码提供的正确性审查、ATM加钞文件获取、ATM加钞文件上传等。冠字号码网点采集模块部署在网点数据采集PC上,直接连接A类点钞机、清分机等设备实时采集冠字号码信息,且冠字号码数据采集、数据上传的整个过程自动完成,不需人工干预。冠字号码黑名单管理模块实现了可疑批次冠字号码信息录入黑名单,客户交易时向设备发送拒绝交易信息,对追踪币进行预警,该功能有助于协助公安机关进行案件侦破。冠字号码采集监控模块实时监控冠字号码数据采集PC终端的运行状态与网络状态,提供网络异常报警和机器故障报警等功能。现金管理模块包括中央银行出库功能、支行下解上缴功能,通过自动打印带有二维码或RFID电子标签实现捆封签。接口模块系统可以兼容市面上主流金融机具,实现方式为数据接口和网口两种。数据中心模块采用Oracle数据库进行数据存储、处理,对于冠字号码大数据量,可通过对表进行分区及合理创建索引来解决,且通过采用全分布式大数据处理架构,平台能够随着冠字号码数据的增长和业务的扩张而不断增长,同时能够保持极高的线性度,从而解决了传统架构在扩展范围和扩展效率方面的难题,有助于实现海量冠字号码的快速查询、分析。系统综合管理模块包括银行信息管理、网点信息管理、机具管理、用户管理、权限管理、报表管理、日志管理、参数设置等功能。冠字号码Web服务器模块提供Web服务,即提供冠字号码Web查询,接受客户端通过浏览器访问,处理冠字号码查询,生成并返回文字图像查询结果。高级应用模块提供数据的统计分析、信息元素间的相关性分析、冠字号码异常查询检测以及数据的导出等功能。

图1 基于大数据技术的人民币冠字号码查询系统主要模块

四、促进人民币冠字号码查询系统建设与推广的对策建议

(一)全面深化对人民币冠字号码查询系统的价值认识

中国人民银行推广冠字号码查询系统工作的初衷是建立涉假纠纷举证机制,协助处理存在于金融机构之间以及金融机构与客户之间的涉假纠纷问题,杜绝金融机构对外误付假币等问题。然而,当各银行业金融机构的冠字号码查询系统实现全国联网时,冠字号码信息采集同步记录了现钞实物流转和客户业务信息,整个系统得到广泛使用后将产生庞大数据,若能持“大数据”的思维来开发并加以应用,冠字号码查询系统价值远不止能有效防治假币流通等方面。首先,功能完善的冠字号码系统能够提高金融机构柜台工作人员以及其它与人民币清分相关人员的工作效率,并有助于实现对相关工作的监督与测评。而最能体现冠字号码查询系统价值的是留存在系统内部的庞大数据,对这些数据进行科学整合、梳理和数据挖掘,不仅能够为打击洗钱、惩治腐败提供线索,还可以为未来货币需求提供预测,为货币投回计划编制提供支撑,推动货币流通管理向科学化的更高水平迈进(刘伟林和殷俊,2016)。只有当相关部门充分认识冠字查询系统的价值时,才能积极主动地加入到系统建设工作。

(二)尽快建立推进人民币冠字号码查询系统构建的多部门协作机制

目前,冠字号码查询工作已基本实现了金融机构在涉假纠纷中提供举证的阶段性目标,而要拓展建设功能完善的人民币冠字号码查询系统,则需要多个部门共同努力,进行更多的沟通、交流与协作。目前,冠字号码查询系统数据采集内容单一,信息含量少;各银行业机构的查询系统自成一家,都仅限于给机构本身的查询提供服务且功能简单。因此,要在此基础上组建功能强大、互联统一的查询系统,需要完成系统功能需求分析、重新构建数据结构、重组和升级软件硬件等工作,这将涉及包括人民银行、商业银行、地方政府、设备生产厂家以及软件服务企业在内的多家机构。因此,有效建设与推广冠字号码查询系统,需要积极促进各部门的业务协调,并建立有效的协调机制,进而促进业务的整体推进。

(三)稳步推进人民币冠字号码查询系统优化升级

首先,要强调基础的硬件建设,优化通信网络,积极推进金融机具的优化升级。人民银行应及时跟进,了解金融机构在冠字号码查询建设工作方面的实际进展情况,并依据掌握的信息制定相关政策,引导和督促金融机构与生产厂家合作,促使机具生产厂家在生产环节利用大数据原理改造原有机具,加装冠字号码查询模块,逐步实现金融机构对机具设备的改造升级。在实现淘汰一批陈旧落后的发行设备基础上,逐步过度到各类现钞终端贴上蓝色标签和黄色标签,最终实现全部升格到蓝标标识标准的冠字标识设备。

其次,在查询系统软件的更新升级上,坚持统一要求与客观实际相结合的原则,给予银行金融机构升级到统一接口查询系统一定的过渡期,在过渡期间允许金融机构根据自身实际情况继续使用原有系统或直接升级到新系统。在金融机构系统升级改造中,要出台统一标准的信息采集要求和数据传递的接口规范。在信息记录方面,逐步实现跨行调款时同步记录冠字号码信息与实物流转信息,逐步实现银行业金融机构提供的现钞收付业务服务时同步记录冠字号码信息和客户业务信息。

(四)完善人民币冠字号码查询系统相关的法律法规

现有的关于人民币流通管理的有关制度条例已经推行多年,在人民币冠字号码系统全面推广之际,建议通过修订《人民币管理条例》《现金管理条例》等法律法规,为全面推进人民币冠字号码查询系统建设提供必要的法律支撑。

猜你喜欢
号码数据挖掘人民币
改进支持向量机在特征数据挖掘中的智能应用
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
说号码 知颜色
怎样认识人民币
一个号码,一个故事
猜出新号码
认识人民币
你不了解的人民币
100元人民币知识多