大数据技术实现区县城市信用监测的路径探析

2019-04-24 18:27刘春蔡红波郑琼

中国信息化 2019年3期

刘春蔡红波郑琼

一、大数据背景下城市信用监测工作概述

（一）工作背景

为贯彻落实《国务院关于印发社会信用体系建设规划纲要（2014-2020年）》（国发〔2014〕21号），按照《国务院办公厅关于运用大数据加强对市场主体服务和监督的若干意见》（国办发〔2015〕51号）和《国家发展改革委办公厅关于运用大数据技术开展城市信用监测工作的通知》（发改办财金〔2016〕1469号）有关要求，充分应用大数据技术，有效评价区县城市信用建设水平和成效，培育文明诚信的城市环境，加强推进城市信用体系建设工作，提升城市软实力，重庆市于2018年建立了全市信用状况监测预警系统，对全市40个区县城市开展在线监测评价。

（二）总体思路

区县城市监测工作通过大数据智能化技术，围绕全市各区县在政务诚信、商务诚信、社会诚信、司法公信和信用工作情况等5个方面，开展区县城市信用状况监测预警，科学客观地评价各区县信用建设水平和成效，定期披露区县城市信用监测排名。主要包括4个步骤：一是开展监测指标设计，包括信用監测指标设计、监测计算模型设计、信用监测指标模型设计等；二是开展信用大数据监测，包括信用平台、互联网信息和区县上报等3类数据源信息的监测；三是指标模型演算，包括模型算分、分值分析和统计汇总，形成信用状况最终得分和排名；四是监测结果展示，包括区县城市信用监测报告和信用平台大屏系统展示。

二、构建基于大数据的监测指标体系

（一）监测指标设计目标

针对重庆市信用体系建设的现状和存在的问题，为推动信用体系建设上台阶，监测指标体系围绕八个方面的目标进行设计。

一是鼓励区县政府及时披露失信事件，对失信事件及时做出处置，防止同类失信事件重复发生，预防重大失信事件发生；二是督促区县政府加大联合奖惩力度，促使全社会不断增强信用意识，形成“不愿失信、主动守信”的社会风气；三是督促区县政府完善相关信用制度和机构建设，做好信用信息公开，增强执政透明度，提升政府公信力；四是促进区县政府做好信用信息归集、共享等工作，做好社会信用体系基础建设；五是鼓励区县政府积极培育信用市场，发展各类信用服务机构，推动信用服务产品的广泛运用和创新应用；六是倡导积极的诚信文化，弘扬正义，树立信用典型和模范，营造诚实守信的社会氛围；七是督促各区县关注社会主体信用缺失造成的失信风险，作好信用风险预警与防控；八是促进区县政府改革行政管理体制，优化营商环境。

（二）设计监测评价指标

城市信用体系建设是一项长期的系统性工程，需要将长期和短期指标科学地搭配在一起。监测指标的设计既需要政策层面的宏观指标，也要有城市层面的中观指标，还应有具体信用工作层面的微观指标，是宏观、中观和微观的综合。为此，我们在指标项的设计中充分借鉴了国际上通行的信用评级指标体系设计方法，最终选择“层次分析法”应用在我市区县城市信用监测指标体系设计中。

按照层次分析法，重庆市区县城市信用监测指标被分成4级，即由5个一级指标、40个二级指标、235个三级指标，270个四级指标。其中， 5 个一级指标分别为：政务诚信、商务诚信、社会诚信、司法公信、社会信用体系建设完备度。40个二级指标包括：依法行政、政务公开、政务诚信示范等。针对具体的指标，又分别应用“布尔型决策法”、“阈值型决策”等8种方法计算分值。

（三）构建监测评价模型

城市信用监测指标评价过程分为五个步骤：一是指标无量纲化处理；二是指标权重的设计；三是模型算法的确定；四是指标汇总计算；五是模型测算和调试。

1.指标无量纲化处理

指标数据的无量纲化处理是借助功效系数，在确定单项指标上下限值的基础上，把各个单项指标转化成可度量的评判分值，形成单项评价值。

2.指标权重设计

权重的确定主要是从定性的角度，以工作为导向，根据指标在区县信用评价中的重要程度和作用大小，从上层到下层逐级确定各个指标权重。

3.指标模型算法

模型算法通过模型将各个无量纲化指标进行合成，形成综合指数和各种分类指数。具体算法根据指标类型的不同，共设计了“布尔型决策法”、“阈值型决策”、“有限累加型决策”、“模型计算法”、“德尔菲法”、“比值法”、“梯度法”、“Min-Max标准化法”等8种计分方法计算分值。

4.模型测算和调试

模型测算和调试是一个去粗取精、去伪存真、由此及彼、由表及里的过程。城市信用监测评价以12个月为周期进行滚动测算，从时间维度测算各个区县城市信用状况的变动情况，研究其变化规律，不断调整模型变量，力求科学、公正和实用。同时，模型将根据滚动测算的结果，不断进行调优。

三、大数据监测技术的实现

（一）监测数据源及技术分析

1.监测数据源分析

为满足对区县信用状况全面监测评价，根据对监测指标体系进行梳理分析，城市信用监测数据包括：信用平台信用数据、区县上报数据和互联网数据等3大来源。特别是随着互联网的快速发展，按照国家政务信息公开的要求，所有的县级以上政府部门均需要设立政府网站，政府部门的信息公开程度有了巨大的提升。同时，我国网民通过手机接入互联网的比例高达98.3%，在线政务服务用户规模达到4.70亿，占总体网民的58.6% 。因此，通过互联网大数据，相关网站数据能够支撑这样的评价。监测的3大来源，让监测数据具备了大数据“5V” 特征，即：Volume（数据量大）、Variety（种类和来源多样化）、Value（数据价值密度相对较低）、Velocity：（处理速度快）、Veracity（真实性）。监测数据的丰富多样化，在一定程度上改善数据来源以偏概全的问题，也为监测指标的全面性和监测结果的客观性提供了充分的依据。

2.监测技术分析

针对丰富多样的监测大数据，需要监测技术的智能化。为实现对海量结构化、半结构化和非结构化数据的实时采集、分析和评价，城市信用监测将运用云技术、大数据存取、异构数据结构化、数据挖掘、机器学习、分布式管理、指标量化处理、指标模型计算等智能化技术手段。监测工作也将传统对结构化数据的普通统计，上升到基于海量非结构化与结构化数据混合的智能化分析，最终形成对区县信用状况综合、客观的精准评价。

（二）互联网监测

目前，互联网监测网站有以下五类：国家党政机关、国内主流媒体网站、市政府和市级部门、各级区县政府、信用门户网站等500多个网站的新闻进行监测。为实现大规模自动化监测，我们开发了监测采集系统。系统采用J2EE技术体系和B/S结构设计，零客户端维护，前端采用Ajax开发技术。系统保持全天不间断采集信息，满足信息采集、处理、转化、分类、存取全流程自动化功能。互联网监测过程经过“互联网监测数据采集”、“数据结构化处理”、“大数据智能化清洗”、“人工校核”等4个阶段。

1.互联网监测数据采集

主要基于网络爬虫子系统，网络爬虫是一个自动提取网页的程序，为搜索引擎从网上下载网页。爬虫根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。本系统的网络爬虫数据采集功能，能够根据所设置的规则自动地从互联网中抓取符合条件的网页。

2.互联网监测数据结构化处理

针对多形态的监测数据源，系统采用“非结构化—半结构化—结构化”数据的逐步转换方法，根据HTML标记判断文章的标题、发布时间、来源、主体内容等信息，实现非结构化数据向半结构化XML 的数据转换，然后利用XML与关系数据库之间的映射方式，实现XML 到关系数据库的转换，最终将数据存入到监测数据库中。

3.大数据智能化清洗

通过互联网采集入库的信息，数据量十分巨大，且每天保持高速增长，有必要通过智能化清洗辅助我们清洗。我们在系统中使用了机器学习技术辅助我们进行数据清洗。第一，积累样本数据开展机器训练。机器根据积累的大量样本数据进行分詞、聚类分析，提取文本特征，开展训练。第二，开展正式分类工作。通过自然语言解析，对入库文章内容再进行分词，根据关键字的相关性、词频等特征，归并到相应分类中，再把满足条件的数据抽出到监测库中。目前我们已经采集了超过800万条网站信息，通过机器智能分类，提取出与我市区县城市信用相关的信息仅为30余万条，再交给人工判断确定。

4.人工校核

对于机器智能化筛选后的结果数据，主要通过人工对数据分类进行稽核，采用全文研读、分组讨论等方式，对互联网采集的信息种类（正面、负面）、区域（所在区县城市）、行业（所在细分行业）、失信事件严重程度（特别重大、重大、较大和一般）等4类属性进行筛查和界定，对指标分类错误的部分进行纠正。最后，我们还要将人工校核结果数据变成样本数据，提供给机器学习，循环往复，不断提高机器分类的准确性。

（三）平台统计监测

目前，与监测指标有关的平台信用数据包括双公示、各类红黑名单总量、红黑名单触发和反馈、重点关注企业名单、区县共享数据、失信被执行人涉政府机构等，原始数据总量超过数亿条。需要将以上原始数据，通过数据库语言，按照监测指标的要求，分析获得每个区县在细分行业领域中的数量。即是将数亿条数据转化为监测工作所需的十几张报表，数据统计工作量较大，耗时较长。为避免统计工作造成核心服务器负荷过重，干扰信用平台正常服务，我们对信用平台按照大数据架构进行了升级，在大幅提升核心服务器数据处理能力和效率基础上，在外围服务器建立了“城市信用监测专题库”。通过ETL工具，每晚定时将相关数据抽取到专题库中，再对专题库进行统计运算。统计结果被抽取到监测系统中进一步加工处理。示意图如图1。

（四）区县上报监测

区县上报数据主要是区县开展信用体系建设的相关基础数据和工作材料。根据不同格式分为结构化、半结构化和非结构化数据。具有数据格式各不尽相同，数据项编码不一致性、数据质量参差不齐等特征。针对信用数据采集分为2种情况：一是有信息系统的接入单位，通过部署前置机的方式进行数据采集；二是对无信息系统的接入单位，通过专门的区县上报系统完成采集。采集后的数据，能够转化、编录入库的结构化数据，归类到区县信用目录中，并与市级信用目录建立关联关系。对非结构化的材料数据，经上报系统初步筛查分类，交由人工甄别核对，分析判断是否符合指标要求，将结果记入监测系统中。目前，我市40个区县上传的各类文件数量超过9000件，各区县上传文件大小超10GB，经过甄别分析后，全部归入对应指标项中。

（五）指标模型演算

所有指标数据统计完成后，就进入“算分”这道程序了。整个过程有3步，一是模型算分，各项指标计分规则确定后，将统计数据、指标计算规则写入定制开发的算法模型，自动得出各项指标分值；二是分值分析，为尽量避免某些指标分值过于突兀，将各项指标分值按照平均值、最大值、最小值、总量、基准值、中间值等多个维度综合对比验证，对分值存在异常的指标调整算法；三是统计汇总，形成区县信用状况的综合得分与排名。

（六）监测结果展示

目前，重庆市对监测结果提供了2种形式的展示，一是生成《城市信用状况月报》，包括“综合信用指数排名”、“‘政商社司信用状况”、“社会信用体系建设完备度情况”、“排名前三区县优秀做法”和“排名后三区县主要问题”等5个部分；二是信用平台大屏可视化系统展示，即以各类统计图形和区县色块地图等形式展示每期月报结果。未来，我们还将逐步在市公共信用平台和“信用重庆”网站开设专题栏目，扩大对外宣传的力度。

四、结语

重庆市区县城市信用监测工作于2018年初启动，经过近1年的指标设计验证、监测系统开发，监测和评价工作实践，城市监测工作取得显著成效。监测工作已成为市发展改革委实时掌握全市各区县城市信用状况，推动区县信用体系建设的重要抓手，监测结果已作为重庆市区县营商环境考评的重要参考。下一步，信用监测工作将横向推广到市级各行业领域，纵向深入到各区县街道和乡镇，让信用监测工作成为全面推动我市信用体系建设，优化信用环境，提升城市综合软实力的重要手段。