铁路保价运输管理系统扩展非结构化数据的研究

2021-11-09 06:17马利

铁道货运 2021年10期

马利

(中国铁路北京局集团有限公司货运部，北京 100860)

铁路保价和货物损失处理工作是货运服务的窗口，事关运输合同覆行、企业权益，以及铁路货运服务形象。铁路保价运输信息化是适应铁路现代化企业转型发展、强化保价专业化管理、加强决策分析支持的重要手段。在铁路运输逐步向市场化管理转型中，提升铁路保价运输管理水平，为客户提供包括互联网在内的多种服务方式的货运全流程服务，是铁路货运信息化的一项重要任务。铁路保价运输管理系统(以下简称“铁路保价系统”)作为铁路保价运输工作的重要组成部分，在保价运输精细化管理，提高铁路货损办赔效率，为客户提供高效便捷的快速理赔服务等方面，发挥着日益重要的作用。

1 铁路保价系统现状分析

1.1 基本概况

铁路保价系统是集成管理保价运输各业务功能的信息系统，实现了自承运保价时起至支付赔款时止的全业务过程的管控。作为铁路保价运输工作的重要组成部分，铁路保价系统历经多年建设及升级改造，目前已在全路所有开展货运业务的车站、营业网点实现全覆盖应用。

自2018年以来，根据铁路向现代物流转型发展的新要求，中国国家铁路集团有限公司(以下简称“国铁集团”)重新修订了《铁路保价运输管理办法》《铁路货物损失处理规则》《铁路货物损失处理作业标准》等规章制度[1-3]，推广电子施封锁等新设备研发应用，持续提升铁路保价运输管理水平。由于铁路保价系统开发时间较早，数据采集功能局限于当时的技术水平，基本是基于纸质文字电子化、结构化保存的思路设计开发，对于需要多人签字的合同、协议等资料，尚不支持以图像、文件等非结构化形式保存。因此，从强化内部货运管理和适应外部市场需求的角度，推进铁路保价系统对非结构化数据存储的建设升级，完善保价综合服务平台，加快形成优质、高效的铁路保价运输服务体系，具有重要的现实意义。

1.2 存在问题

近年来，随着信息技术的飞速发展，在实际使用中，铁路保价系统在对非结构化数据采集及存储等功能设计方面存在与现场作业需求不匹配，与铁路保价高质量发展的要求不适应[4]等问题，具体表现如下。

（1）对多样化的非结构化数据采集功能设计不足。铁路保价系统建设初期，受制于业务需求及信息资源条件，系统主要以实现纸质业务数据结构化存储为目的，因而对于非结构化数据采集存储的功能设计有限。如铁路保价系统在货物损失案卷处理功能[5-6]仅提供上传照片功能，在合资地方铁路收入分成、委托代办、代理保险等协议登记功能中，只提供了结构化的摘要数据录入功能，没有提供上传实际文件存储的功能，造成系统不能完全保存查看协议文件内容的情况。铁路保价系统在现场实际使用中，对于这些协议的登记功能使用率不高，也从另一方面反映了这部分功能上的设计不足。

（2）现有货损案卷图像采集功能繁琐欠规范。铁路保价系统目前只在货物损失案卷处理功能中提供上传照片功能，但在实际使用过程中，图片从拍摄到上传保存要经过下面一系列操作才能完成：数码相机(手机)拍照—从相机中取出存储卡—将存储卡插入读卡器—将读卡器接入计算机—进入系统调取相关案卷—在此案卷上选择并加载存储卡中照片—照片归入案卷并存入计算机中。其操作过程十分繁琐，并且在使用数码相机(手机)拍照的过程中，由于受拍摄设备硬件参数、拍摄光线、拍摄角度及拍摄质量等方面影响，拍摄的照片在分辨率、清晰度方面不规范，也影响货物损失调查的准确性与实效性。

（3）现有货损案卷图像采集后缺少智能化处理。铁路保价系统在货物损失案卷处理功能中，仅能查看上传照片，不能提取关键信息辅助结构化文字信息录入，智能化不足。例如，在受理理赔时，系统需要对提赔人的身份证号、银行卡号等信息进行录入，同时需对身份证、银行卡拍照上传保存。在现有铁路保价系统使用中，就要对结构化文字信息数据和非结构化图像信息数据进行二次录入操作，步骤繁琐、容易出错，影响作业效率。

2 铁路保价系统扩展非结构化数据的需求

结合业务需求及铁路保价系统现场使用情况，针对实际应用中存在的问题，铁路保价系统在非结构化数据处理中，亟需完善设计以下需求。

2.1 扩展数据类型

现有铁路保价系统存储的是结构化数据，是传统的“程序+结构化”数据库应用模式，很难适应大规模的非结构化数据存储需要。从目前保价业务的需求来看，需要处理的非结构化数据应包括图片、影像、文件三大类，图片、影像类数据主要包括货损处理现场勘察内容、提赔单位(人)的身份及企业资质材料、货物价值证明等，文件类数据主要包括各种协议合同模板、正式签署协议电子文件等。因此，铁路保价系统应在现有结构化数据库基础上，引入非结构化数据存储系统用于保存非结构化数据，同时将结构化数据和非结构化数据建立关联，从而使铁路保价系统支持的数据更完整，功能更完善。扩充非结构化数据后的数据架构图如图1所示。

2.2 规范图片采集

目前对货损采集是通过现场使用各种规格的数码相机、手机进行拍摄，再将已拍摄好的照片上传至铁路保价系统，并不能直接通过系统进行拍照，导致拍摄的照片在分辨率、尺寸大小、清晰度等质量方面难以保证，亟需规范铁路保价系统中的图片采集，提高图片采集的规范程度和质量。目前针对铁路保价系统图片采集，可在对应用设备进行二次开发的基础上，无缝接入移动终端、高拍仪2种设备。

（1）高拍仪。随着计算机图像处理、图像传感器(CMOS)等技术的发展，高拍仪作为稳定、高效的办公设备应运而生。高拍仪集传统办公设备功能于一身，能代替普通扫描仪、相机、摄像头等诸多设备，可以实现拍照、录像、复印、网络无纸传真等操作。在现有铁路保价系统的基础上扩展功能，集成参数型号一致的高拍仪，开发铁路保价系统对高拍仪设备的接口，将高拍仪作为标准办公设备接入铁路保价系统，实现在铁路保价系统中能够自动获取高拍仪所拍图像信息，通过高拍仪将被拍物证拍摄成照片直接存入系统并实现自动与结构化数据信息关联，从而直接完成拍照、存储、归档全部操作过程，减少操作步骤，也保证了图像的规范及高质量。

（2）移动终端。保价运输工作是一项综合性管理工作，包括货损处理与理赔、保价业务管理、投资管理、资金管理等多项内容。由于货损处理与理赔工作需要经常到货损现场进行货损勘验，理赔时也会上门为客户办理服务手续，这些现场数据采集工作对于基于固定PC设备设计的铁路保价系统来说十分不便，达不到及时处理数据的要求。近年来移动终端在快递业、零售业等已得到广泛应用，有效提高了企业的工作效率及数据的准确性。铁路保价运输工作中现场数据的采集一直以来都是通过手工方式完成，再回到办公场所录入系统，工作效率不高。因此，针对铁路保价运输工作专门研制移动终端应用，可以极大提高数据采集的工作效率及准确性。

铁路保价系统现场数据的采集，主要内容就是货物损失现场的情况及货主的身份、资质材料，需要拍摄成照片和影像，通过开发基于移动终端的铁路保价系统APP，用以实现铁路保价系统的移动办公。利用APP调取移动终端的拍照功能，可实现这些非结构化数据的采集与关联，也可充分利用移动终端的后台数据信息，加强作为保价业务处理过程中图像资料的证据严谨性。

2.3 引入光学字符识别技术

目前铁路保价系统在没有引入高拍仪的情况下，对于身份证信息和银行卡账号信息仍需要手工输入到计算机系统中，因此需要录入人员在录入后反复核对信息，保证信息正确。引入高拍仪后，由于高拍仪规范了统一分辨率、拍摄角度拍照，使照片的质量得到了保证，为图像智能识别提供了可靠的信息来源，可以自动识别身份证号码信息和银行卡账号数据，最终达到简便操作，减少人为误差的目的，便于进一步做好理赔工作。

需要识别的身份证和银行卡两类证件都具有防伪背景复杂、汉字数字混排的特点，而银行卡账号信息也分为印刷体和凸印字两种，识别难度较大。因此，利用光学字符识别技术(OCR)实现的工作主要包括3个方面，即：图像预处理、识别文字区域提取、文字识别。其中文字识别可以采用AI深度学习的方法，对相关文字进行标记训练，使识别效率及精度大大提高，满足现场的实际需要。同时将识别出的文字自动填入到结构化的数据输入项中，简化录入过程。

3 扩展非结构化数据的技术实现方案

技术实现方案本着易用性、统一性、先进性原则，在全路统一的铁路保价系统上扩充、完善软件功能模块，无缝接入经过二次开发的专用移动终端、高拍仪设备，用以采集图像、影像数据，保证功能的实现既体现货运理赔对信息系统的统一操作要求，又体现货运信息化对采用新技术新设备实现自动化、智能化的要求。

3.1 数据安全交换

铁路保价系统部署在铁路内部服务网上，移动终端APP部署在运营商外网上，因而，在符合网络安全规定的前提下，与信息部门共同研究，确定使用国铁集团信息交换平台进行内外网数据交换的方案。实现数据交换，首先需要铁路保价系统在内网应用服务上开放一个WebService接口，用于接收APP的调用消息，接口参数为1个，多参数使用Map集合后JSON化处理，并根据类型标识区分功能。其次，在信息平台上将铁路保价系统在内网开放的WebService接口url地址及参数进行注册，注册后会生成1个新WebService接口url地址和1个安全认证Key。最后，铁路保价系统在外网上开发、部署APP接入服务，接入服务调用安全平台生成的新WebService接口url地址，同时将Key传入，实现内外网数据交换[7]。内外网数据交换应用结构图如图2所示。

图2 内外网数据交换应用结构图Fig.2 Application structure of data exchange between internal and external networks

3.2 设备采集数据接入

实现方案需要在全路统一的铁路保价系统上做功能模块的扩充。对于移动终端，一方面要在基于安卓的专用移动终端上开发保价移动端APP，实现保价数据录入功能；另一方面在现有铁路保价系统的后台业务应用服务上，针对保价移动端APP数据交互内外网数据交换接口及APP接口，完成铁路保价系统与保价移动端APP数据的同步。对于高拍仪，则需要在铁路保价系统的保价浏览器端应用中，对定制的高拍仪装备开发高拍仪接口，以便将高拍仪作为标准办公设备接入铁路保价系统，实现在铁路保价系统中能够自动获取高拍仪所拍图像数据[8]。接入移动终端、高拍仪应用结构图如图3所示。

图3 接入移动终端、高拍仪应用结构图Fig.3 Application structure with mobile terminal and high-speed camera involved

3.3 OCR文字识别

结合办理业务的实际，目前需要识别的信息主要是身份证和银行卡两类证件。由于前台浏览器、安卓等多端应用都要使用识别功能，因而需要放在后台业务应用中实现，具体实现的工作包括图像预处理、图像文字区域提取和文字OCR识别3个方面。OCR文字识别流程如图4所示。

图4 OCR文字识别流程Fig.4 OCR process

图像预处理是信息识别过程中非常重要的环节，预处理的效果极大地影响到字符信息的识别率。在通常情况下，由于拍照设备、证件磨损、成像环境等因素而产生的噪声、偏色等问题，都需要通过预处理最大限度地消除与有效信息无关的干扰，从而获得所需要的标准二值化字符图像，以提高将要识别的信息的可检测性。

图片中要识别的文字信息虽是图片中所包含信息的一小部分，但对图像中需识别的文字区域进行提取是十分必要的。通过采用连通域特征的文字区域提取算法，根据候选区域二值图中连通域特征去除非文字区域，确定最终文字区域。通过对一定数量的复杂背景图像进行实验，证明该算法效果较好。

文字OCR识别是整个过程的关键环节，识别率的高低直接影响用户的体验。通过采用基于Tesseracr-OCR的识别技术，对特定字符(如银行卡上凸字账号)的训练，使识别效率及精度大大提高，满足现场使用需要。

4 结束语

保价系统引入非结构化数据方案时，应以保价业务发展的质量效益出发，在现有保价系统框架体系下的方案，充分研究新技术、新设备接入的可行性及适配性，合理安排功能，方便操作及作业。目前，基于铁路保价系统的总体框架，正在中国铁路北京局集团有限公司进行研发、完善及试点工作。通过试点使用，及时总结经验，形成示范效应，使新技术、新设备在全路保价业务中得到更广泛应用。未来随着新技术、新设备的发展，铁路保价系统还将不断融合新技术，推进铁路保价运输服务持续创新发展。

铁路保价运输管理系统扩展非结构化 数据的研究