刘天鹏,徐延军
(中远海运科技股份有限公司, 上海 200135)
近年来,随着公众参与城市管理的积极性不断提升,各类投诉的数量急剧增加[1]。目前,全国各省市基本上都已建成统一的市民投诉热线和平台,可通过电话、APP和网站等多种方式接报市民投诉,形成投诉案卷之后派发至归口单位处置[2]。城市道路管理单位每年都会接收大量城市网格化投诉平台派发的投诉案卷,并在单位内部各层级部门间对其进行流转、处置和反馈。为提升投诉案卷处置效率,减少误派工单导致的人力资源浪费,建立高效的自动派单系统满足流程自动化管理的需求越来越迫切。
上海市浦东新区公路管理署(以下简称“浦东公路署”)主要承担上海市浦东新区辖区内约1 077 km公路及其附属设施的养护、大中修工程管理和公路路政管理等任务。道路养护业务采用服务购买的方式,路段根据所属区域分别由4个养护管理所管理,分为25个养护标段,由14家专业养护公司承担养护任务。浦东公路署投诉案卷处理层级示意见图1。
图1 浦东公路署投诉案卷处理层级示意
在对投诉案卷处置业务进行管理过程中遇到以下问题:
1) 投诉案卷与各养护管理所、养护标段的归属关系需人工识别,现场处置情况需人工导入系统,不仅流程繁琐、出错率高,而且投诉响应时间长、处理效率低;
2) 误派至公路署的投诉案卷需人工现场核查之后才能进行退单操作,人力资源浪费严重;
3) 由于道路养护投诉种类较多,且公众投诉产生的案卷文本不规范,导致投诉案卷人工分类较易出错,造成案卷处置工作重复多次;
4) 投诉案卷分类错误导致统计分析的数据与实际数据有偏差,无法及时有效地指导管理和养护单位合理分配、调节资源。
为解决上述问题,设计并开发一种流程自动化的城市道路养护投诉系统,基于文本挖掘分类模型自动、准确地识别投诉案卷所属类别,基于地理信息系统(Geographic Information System,GIS)坐标定位转换技术自动获取投诉案卷所属路段和养护单位,从而实现对投诉案卷的自动派单和高效流转处置。
系统设计采用5台服务器,组成局域以太环网(采用TCP/IP通信协议),通过政务网和城市网格化投诉平台实现案卷对接交互,养护单位工作站和手机终端通过Internet,经防火墙访问系统。服务器、系统软件和开发环境清单见表1。系统物理架构见图2。
图2 系统物理架构
表1 服务器、系统软件和开发环境清单
系统采用分层架构设计,由数据交互层、应用支撑层、应用层、展示层和公共技术等5部分组成,各层形成一个统一的整体,为用户提供信息服务(见图3)。
图3 系统逻辑架构
1) 数据交互层通过前置交换服务器,根据城市网格化投诉平台开放的接口与其实现数据交互,获取新的投诉案卷,反馈案卷处置结果。同时,可接入浦东公路署自身以热线电话、网站等方式接报的投诉案卷。
2) 应用支撑层由GIS服务、数据库、文本挖掘分类模型和短信及消息平台组成,其中:GIS服务覆盖浦东公路署管辖的道路及相关设施资源,集成对应养护单位和标段信息,并提供坐标定位转换服务;数据库主要存储道路管理信息、人员信息、投诉案卷和处置过程数据等;文本挖掘分类模型根据历史投诉数据训练生成之后,提供Restful调用接口,可将输入的投诉文本信息处理之后返回案卷分类信息,并定期根据人工调整分类数据对模型进行迭代优化;短信及消息平台提供发送短信和APP消息服务。
3) 应用层提供各类应用和分析功能,为展示层提供应用支撑。
4) 展示层是系统与用户直接交互的软件功能界面,提供网页和移动终端2种交互方式。
5) 公共技术包括安全管理、数据加密、权限认证和日志记录等跨越各层的通用功能。
系统功能组成见图4。
图4 系统功能组成
1) 投诉案卷接报及数据交互。根据城市网格化投诉平台开放的WebService接口与其实现数据交互,获取道路养护方面的投诉案卷并反馈案卷处置结果,交互内容包括案卷信息、文件、图片和音频。同时,将浦东公路署自身以热线电话、网站等方式接报的投诉案卷录入系统。
2) 案卷归属关系识别。案卷归属关系识别分为2步:
(1) 识别案卷归属的养护管理所和养护标段信息。系统将投诉案卷位置统一转换为上海城建GIS坐标,在GIS地图上定位展示,并经算法转换获取案卷所在道路的编号和对应桩号,根据道路管理关系找到案卷归属的养护管理所和养护标段。
(2) 识别案卷对应养护标段内养护分组人员的信息。系统调用文本挖掘分类模型接口,输入投诉案卷文本信息,返回投诉案卷对应分类,根据案卷分类找到养护标段内对应养护分组人员的信息。
3) 案卷自动派单。系统获取案卷归属关系之后,调用短信及消息平台,自动以短信的方式将案卷信息发送至养护人员手机上,实现自动派单功能。在投诉案卷处置流转过程中的所有节点,系统都会向对应人员推送APP消息,便于及时提醒有关人员处理相应业务。短信及消息平台提供标准Restful接口,供各业务模块调用。
4) 投诉案卷流转处置。该功能包括案卷处置过程记录、案卷结案申请及审核、案卷退单申请及审核和案卷延期申请及审核,所有过程都附有相关图片和审批文件,操作过程自动记录在系统中。可查看案卷当前所处阶段,检索回溯历史案卷处置过程。
5) 电子签名审批。退单等特殊操作需要公路署对应业务科室和公路署领导签字审批,为提高审批流转效率,系统提供电子签名审批功能,可将电子签名嵌入在通过审批的审核单上,通过接口将审核单推送至城市网格化投诉平台上。
6) 特殊案卷处理。系统通过模糊匹配查询功能自动判别新接报案卷是否属于重复投诉案卷,并标识投诉次数、显示历史处置记录;对于返工处理案卷,系统作特殊标注,提供历史处置记录;对于上级督办、媒体关注的重点投诉案卷,系统作特殊标注并定期主动提醒,同时提供领导督办功能。
7) 投诉处理知识库。系统对投诉案卷处置过程及记录的信息进行识别和提取,生成投诉处理知识库,提供知识检索功能,并定期更新知识库。
8) 投诉处理考核。系统根据管理需要建立考核模型,融合投诉数量、结案数量、超期数量、处置及时率、返工数量和市民满意度等多个参数,对各养护标段投诉处理工作自动生成考核分数。
9) 多维度统计分析。系统从案卷状态、种类、单位来源、上报来源、处理部门和所属道路等多个维度对投诉案卷进行统计分析,并通过可视化手段展示统计分析结果。
传统的文本分类工作是由人工完成的,较为费时费力。自动分类方法能有效降低分类工作的繁杂性,大幅度提高信息处理的效率。文本自动分类是指在预定义的分类体系下,根据文本特征(词条或短语),将给定文本分配到1个或多个特定类别中[3]。
3.1.1 数据集和试验环境
采用浦东公路署经人工标记分类的投诉案卷数据作为样本数据集,共2 493条。将数据集分为训练、测试和验证等3组,占比分别为60%、20%和20%。
数据集中的特征变量为投诉问题描述信息,目标变量为案卷分类。案卷有咨询建议、标志标线、绿化保洁养护施工、城市管理、隔离设施、环境污染、路面设施、给排水、新增新建设施和其他设施等10类。
试验采用Python编程语言,基于sklearn机器学习算法库进行模型研发和结果验证。
3.1.2 模型训练流程
文本挖掘分类模型训练流程见图5。
图5 文本挖掘分类模型训练流程
1) 数据预处理。读取训练集数据,并对文本内容和类别进行划分。
2) 分词。采用分词工具将文本句子划分为词汇并用空格区分开。
3) 划分数据集。将数据集划分为训练集、测试集和验证集。
4) 词频转化。将文本中的词语转换为词频矩阵,矩阵元素aij表示j词在i类文本下的词频。
5) 统计权重。统计每个词语的词频-逆文本频率指数(Term Frequency-Inverse Document Frequency,TF-IDF)权值。
6) 构造分类器。构造朴素贝叶斯、K近邻(K-Nearest Neighbor,KNN)算法、随机森林、Kmeans和多层神经网络等分类器。
7) 管道组合。利用Pipeline对词频、权重和分类器进行线性组合,形成综合模型。
8) 训练与预测。将各分类器经过fit和predict操作。
9) 绘图选择最优模型。通过绘制预测值与真实值的双曲线图选择最优分类器并固化模型,使得再次使用时能快速加载模型。
10) 迭代优化。在系统使用过程中,定期根据人工调整的分类数据对模型进行迭代优化。
3.1.3 分类器选择
预先选择的分类器包括朴素贝叶斯、KNN、随机森林、Kmeans和多层神经网络,各分类器比较如下:
1) 朴素贝叶斯假设特征间相互独立,利用条件概率乘法法则得到各分类的概率,选择概率最大的分类作为机器的判定。朴素贝叶斯算法比较直观,计算量不大。
2) KNN算法的思想是,若一个特征空间中大多数的样本都属于某个类别,则在整个特征空间中,K个最相似的样本也属于该类别[4]。KNN算法在类别决策中只与极少量的相邻样本有关,对于类域的交叉或重叠较多的待分样本集来说,该算法比其他算法更适合。
3) 随机森林是利用多棵树对样本进行训练并预测的一种分类器,对多维特征的数据集分类有较高的效率,可进行特征重要性的选择。该分类器的运行效率和准确率较高,比较容易实现,但在数据噪声比较大的情况下易过拟合。
4) Kmeans是基于划分的聚类算法,以空间中的K个点为中心进行聚类,对最靠近这些点的对象进行归类。通过迭代的方法逐次更新各聚类中心的值,直至得到最好的聚类结果。
5) 多层神经网络是一种模式匹配算法,若包含足够多的神经元,则能以任意精度逼近任意复杂的连续函数。然而,多层神经网络隐含节点个数和学习率、迭代次数等参数的选取仍无较好的办法,且存在易陷入局部极值和学习不够充分等问题。
通过模型训练流程对上述各分类器生成算法模型,并通过验证数据集选取准确率最高的分类器,经比较,KNN算法在预选择的分类器算法中准确率最高,达到93.4%。基于固化模型提供Restful文本分类调用接口,单次接口调用返回时间可控制在0.1 s以内,能满足业务的时效性要求。
3.1.4 模型迭代优化
在实际业务处理过程中,当根据现场情况发现自动分类与实际不相符时,可人工修改案卷分类信息,系统会将人工修改情况记录下来。每周日23:00,系统会将本周所有人工修改的分类信息反向输入到分类模型中,用于对模型进行训练优化,以持续提高文本分类的准确度。
系统记录并统计每周自动分类与实际不相符的案卷数量比例,系统上线之后前8周需人工修改的案卷比例分别为7.8%、6.4%、5.2%、4.3%、3.7%、3.5%、3.5%和3.4%,8周之后案卷分类的准确率基本上稳定在96.6%左右。
为实现投诉案卷归属关系自动匹配和自动派单,系统需根据投诉案卷位置获取对应的养护单位。投诉案卷接报的位置坐标种类包括全球定位系统(Global Positioning System,GPS)经纬度坐标、百度地图坐标(BD-09坐标系)和高德地图坐标(GCJ-02坐标系),系统中使用的GIS地图采用上海城建坐标。系统基于GIS坐标定位转换技术将投诉案卷位置坐标转换为上海城建坐标,进而获取投诉案卷所在道路的编号和桩号,并找到对应的养护单位。GIS坐标定位转换处理流程见图6。
图6 GIS坐标定位转换处理流程
3.2.1 案卷位置坐标转换为上海城建坐标
百度地图BD-09坐标系和高德地图GCJ-02坐标系分别通过不同的加密算法对真实经纬度坐标进行加密之后得到相应的坐标数据,其坐标加密算法是随机、非线性的,无法直接从算法上推导转换出上海城建坐标。系统先基于百度地图或高德地图开放的应用程序接口(Application Programming Interface,API)对地图坐标进行脱密,得到真实的经纬度坐标,再将经纬度坐标转换为上海城建坐标。
将经纬度坐标转换为上海城建坐标的方法有格网法、多参数法和多元回归法等,其中格网法的精度最高,这种方法受已知条件限制,需要测区内有足够多的重合点并均匀分布。本文所述系统采用格网法进行坐标转换:
1) 建立格网坐标转换参数文件;
2) 生成格网坐标转换模型;
3) 基于ArcGIS软件集成模型和参数文件;
4) 提供经纬度坐标向上海城建坐标转换的服务。
3.2.2 道路定位
在获取投诉案卷的上海城建坐标并基于GIS地图定位展示之后,还需将坐标位置转换为具体道路编号和位置桩号,用于查找案卷对应的养护单位。本文所述系统的道路定位采用线性参考技术,对浦东公路署管辖的各类道路的电子地图数据进行线性化处理,并根据道路沿线工程测绘点的坐标桩号数据进行校准纠偏,经过校准的浦东公路线性化数据的精度较高,可作为道路定位分析的基准数据。
浦东新区面积较大,有些投诉案卷所在位置因地方偏僻或周边有遮挡而导致4G网络信号较弱,APP会出现与中心系统连接中断的情况;同时,现场处置过程中记录的照片和视频文件有时较大,现场利用4G方式上传文件会消耗较多的流量。对此,采用离线缓存技术解决这些问题,将现场填报的内容、图片和视频等缓存在APP内,在需要上传时再加载缓存数据上传至中心系统。
APP离线缓存有归档存储、Core Data存储和数据库存储等3种技术,各技术的优缺点比较见表2。
表2 APP离线缓存技术优缺点比较
系统APP中需缓存操作记录、业务处置信息、图片、音频文件和视频文件等,数据种类多、数量大,数据格式有规律,且APP对缓存数据读写频率的要求较高,SQLite3数据库存储技术比较适合这种应用场景。系统APP将用户操作数据缓存在SQLite3数据库中,当APP隐藏或关闭时保证数据不会丢失,在需要时可重新从数据库中获取数据并加载入APP。同时,APP只需将SQLite3数据库中缓存的数据删除即可实现清除缓存功能。
系统在浦东公路署上线应用以来,运行稳定可靠,提供网页、APP等多种应用方式,可满足公路署、养护管理所、养护标段和一线工作人员对投诉处理业务的不同需求,通过多种技术手段有效提升了处置投诉案件的效率和质量。以2019年为例,共处理投诉案卷72 604件,其中超期处理案卷1 994件,在规定期限内结案率达到97.3%。系统实现了以下应用目标:
1) 自动识别案卷归属关系,自动派单,第一时间通知养护人员响应处置;
2) 通过道路管养边界自动识别投诉案件的归属单位,减少现场人工核查的工作量;
3) 投诉案卷各阶段处置情况系统记录在案,工作过程和质量可查、可控;
4) 所有工作线上流转,待办工作主动提醒,减少线下工作反复,避免因关键人员不在导致的工作停滞情况;
5) 通过数据挖掘分析指导养护单位合理调配资源。
投诉处理系统GIS定位展示界面见图7。
本文所述流程自动化的城市道路养护投诉系统能解决因投诉案卷分类错误、归属关系复杂和信息流转工作繁琐等导致的业务处理响应速度慢和人力资源浪费等问题,有效提升道路养护投诉处理工作的效率和质量。该系统可应用到高速公路投诉处理业务中,对交通行业涉及地理位置和分类的投诉业务处理也有一定的借鉴意义。后续将结合机器学习和大数据分析技术对投诉历史数据进行挖掘和预测研究,为业务监管和资源分配等决策提供依据。