刘燕 闫利华 张继来 等
摘要:针对赤峰市居民在生活困难或遇到恶性事件、灾情等突发性事件时,办理低保申请、临时救助和“救急难”等业务时的频繁、重复的材料递交现状和民政部门在核查、审批中遇到的问题,运用大数据、在线签批、面部与指纹识别等技术,为百姓提供多渠道、快捷的申请服务,打造精准、阳光、高效、法制化的审批环境,探索大数据技术在公共服务平台开发过程中的应用.
关键词:民生服务;大数据;数据挖掘
中图分类号:TP391.9 文献标识码:A 文章编号:1673-260X(2019)02-0001-04
2015年,在国务院印发的《国务院关于积极推进“互联网+”行动的指导意见》和《国务院关于印发促进大数据发展行动纲要的通知》中分别提道:“充分发挥互联网的高效、便捷优势,提高资源利用效率,降低服务消费成本.创新政府服务模式,提升政府科学决策能力和管理水平.”[1]“深入发掘公共服务数据,在社会救助、养老服务等领域开展大数据应用示范,推动传统公共服务数据与互联网、移动互联网、可穿戴设备等数据的汇聚整合.”[2]
2017年12月8日,习近平总书记在中共中央政治局第二次集体学习时强调:“要运用大数据促进保障和改善民生.要坚持以人民为中心的发展思想,推进“互联网+教育”“互联网+医疗”“互联网+文化”等,让百姓少跑腿、数据多跑路,不断提升公共服务均等化、普惠化、便捷化水平”[3].同年,内蒙古自治区人民政府在《内蒙古自治区大数据发展总体规划(2017-2020年)》中也提出,“加快政务数据资源整合、开放共享、创新应用,推动政府决策科学化、社会治理精准化、公共服务高效化,运用大数据促进政府管理和社会治理模式创新、促进保障和改善民生”[4].本课题正是在这一历史背景下,深入分析传统的民生信息管理系统在使用过程中存在的不足,积极探索基于大数据开发技术的实时数据采集、数据传输、数据存储、数据标识、数据处理技术,开发动态的大数据应用服务平台.项目的实施可为居民提供多渠道、快捷的民政救助申请渠道,使特殊群体能够及时享受到政府的惠民政策,体会到社会主义的优越性.
1 目前赤峰市民生服务平台存在的问题
1.1 重业務,轻服务
大部分民政信息平台的功能是对服务对象信息的录入和存储,现场数据采集方式陈旧,信息传输渠道单一,对于一些特殊的群体(比如长期抱病卧床的病人)非常不方便,没有与服务对象真正建立安全、有效、实时的信息交流渠道.
1.2 民生政策信息逻辑性不强,关联度不高
民政信息化平台在实际运作的过程中,发布的部分信息缺乏严格的逻辑性和严谨性,信息的内容、质量、数据呈现出离散无序的状态,信息内容与服务对象的关联度不高.
1.3 存在信息孤岛
系统的数据来源于多个部门,存在多个信息孤岛,来自不同部门的数据由于各种原因会出现数据结构或数据值不一致的现象,需要利用互联网+大数据信息化技术及时整合与维护,确保数据的一致性、正确性、有效性和安全性.
2 民生服务平台系统简介
2.1 民生服务平台的设计目标
基于“互联网+”大数据的民生服务平台按照统一入口、集中办理、数据跑路的总体思路,实现无纸化“一号受理、一窗申请、一网通办”的办公目标,利用“不见面审批”模式,通过对民政局、医保局、税务局、财政局、卫计局、慈善总会等多家单位的数据共享和审批流程的标准化,打造可复制推广的“互联网+”大数据民生服务平台,切实为百姓提供方便、快捷、有效的社会救助申请途径.
2.2 民生服务平台的系统设计
民生服务平台整体由用户申报APP端、临时救助审批系统、生存状态核查系统,低保无纸化审批系统、低保测算系统、移动审批APP、统计系统等组成.将运用大数据分析、在线签批、数据比对、面部与声纹识别、工作流等技术实现民政对于社会救助相关业务的无纸化办公需求.
2.2.1 用户申报APP:社会救助申报入口,申请人除在APP端进行政策等资讯阅读外,同时可以进行临时救助申请、低保申请、人员签到,并将申请提交至后台审批系统,实现一站式的申办服务.
2.2.2 临时救助审批系统:包括临时救助业务全流程的审批和流程流转,主要分为申请、材料审核、信息核查、签批流转、资金发放和提醒预警几个部分,各部分根据具体要求进行流程细化并开发相应的功能.
2.2.3 低保无纸化审批系统:以规范化、法制化、无纸化为核心,实现低保申请审批业务的线上全流程审批工作.包括申请、材料审核、自动测算、信息核查、公示、二次核查、两级签批等几部分.
2.2.4 移动审批APP:为民政系统的无纸化办公提供移动端的服务支撑,包括用户管理、权限管理、电子签批相关设备对接、数据接口通信、流程管理、统计系统及展示等主要功能.
2.2.5 生存状态核查系统:为需要固定签到人群提供核心支撑,同时在申请人申报APP、PC端提供签到入口,并配置相关功能,如签到业务管理、签到人员管理、签到配置管理、签到数据统计等相关功能.
2.2.6 统计系统:根据具体需要对民政业务总体开展情况、平台相关信息等进行多维度的统计展示.
2.2.7 民政大数据库:为所有民政业务提供基础数据支撑,主要包括基础数据管理(导入、更新、修改)、信息比对核查、接口管理平台等.
民生服务平台总体架构如图2-1所示.
3 基于大数据的民生服务平台主要实现技术的研究
大数据服务平台在数据获取、集成和存储管理以及数据处理方式上都区别于传统的信息管理系统,主要表现在以下三个方面:第一、大数据让人们脱离了对算法和模型的依赖,数据本身可以让用户了解事实的真相,所以数据的准确性和有效性非常重要.第二、与传统的数据库相关技术相比,大数据可以处理不同数据结构和不同数据类型的数据,这使计算机能够分析的数据范围迅速扩大.第三、大数据弱化了因果关系,大数据分析可以轻松的挖掘出不同要素之间的相关关系,这将大大提高数据应用的效率,使用户快速获得有价值信息.大数据应用的主要任务包括准备数据源;进行数据采集;数据预处理与集成;数据分析;数据解释;用户支持等[5].
3.1 数据源
基于“互联网+”大数据的民生服务平台将从多个社会救助相关部门的多个系统获得数据,如民政救助多项相关数据、财务供养人员数据、税务缴纳数据、死亡数据、医保报销数据等,多系统数据获取不可避免会存在多源异构的问题,如何进行多源异构数据有效存储和利用,是本系统要解决的主要技术问题.同时,不同来源的数据,其组织形式可分为结构化数据,半结构化数据和非结构化数据三种[6],结构化数据使用关系数据库方式存储,非结构化数据多使用文件方式存储.而随着计算机处理数据类型的丰富,非结构化数据的占比越来越大,已经成为数据科学研究的主要内容.数据本身不仅存在巨大的使用价值,经过处理之后还会生成信息、知识与智慧,可以使其反应的事实更为直观.在大数据的驱动下,数据处理的流程如图3-1所示.
3.2 大数据特征的4V[7]
3.2.1 Volume(数据量大):当数据量达到PB级以上一般称为大数据.
3.2.2 Variety(类型多):大数据系统存在多种数据类型,同时存在结构化、非结构化、半结构化数据.
3.2.3 Value(价值密度低):非结构化、半结构化数据的价值密度低,有价值的数据往往被淹没在海量无用数据之中.
3.2.4 Velocity(速度快):速度包括数据增长速度和处理速度,一是源于数据获取方式的进步,二是由于计算机处理能力的提高,数据实时分析成为研究热点.
3.3 数据的获取
3.3.1 传统的数据获取方法:该方法是通过手工的方式,从各种文档、模版、业务流程,模型等获取数据,并将数据输入到计算机中.
3.3.2 利用工具获取数据:一是从各种监测的设备上直接获取数据;二是使用软件工具在网上获取数据.
3.3.3 利用数据获取数据:在大数据时代,可以通过对已有数据的处理获得新的数据,这种方式比较简单方便.
3.4 数据预处理
3.4.1 数据清洗[8]
数据清洗是在对数据审计活动的基础上发现的问题数据如错误数据、虚假数据、无效数据、数据缺失和重复数据等进行删除、更正、插值处理.有下面几种方式.
①识别缺失值:分析缺失数据的特征,估计后续对数据分析的影响.
②缺失数据的处理:根据缺失数据对分析结果的影响及导致数据缺失的影响因素,选择具体的缺失数据处理策略,如忽略、删除或插值.比如在低保和临时救助的资金发放中,发现未提供某申请人的“银行账号.”
③异常数据校验:异常数据校验,例如在低保和临时救助申请人信息中,某申请人的“出生年份”为“0000”;申请人手机号码数据位数不够,需要合法性校验等.填寫数据时输入了特殊字符“~!@#$a%*&()”或其他特殊字符组合,需要给出输入错误提示等.
3.4.2 数据变换
数据变换主要用于处理数据中存在类型、计量单位不一致等问题,例如数据需要从字符串型转换为数值型.数据变换主要用于合并处理多个原始数据的内容,例如将多个关系表的内容合并入同一个关系表.
3.5 数据集成
数据集成是指常常需要对于来自不同数据源的数据进行整合,并在合成后得到的数据集之上进行数据处理.数据集成的基本方法有两种:
3.5.1 同构数据的内容集成
内容集成是指当目标数据集的结构与来源数据集的结构相同时,集成过程是对来源数据集中的内容进行合并,数据的结构不变.
3.5.2 异构数据的结构集成
结构集成是指当目标数据集的结构与来源数据集的结构不同时,集成过程是目标数据集的结构为对所有来源数据集的结构进行合并处理后的结果.目标表的结构是对来源表的结构进行了自然连接操作后得到的结果.
数据集成涉及的主要问题有:如何使来自多个数据源的现实世界的实体相互匹配.例如如何确定两个名字均为“张三”的记录是否代表同一个实体.其次是数据冗余,是指属性值可以从其他属性中推演出来,那么这个属性就是冗余属性,比如“平均月收入”属性.第三就是冲突检测与消除,对于一个客观世界的实体来讲,可能存在来自不同数据源的属性值不同.比如“职业”属性,一个数据源为“其它”,另外一个数据源可能为“自由职业人”.如何解决这些问题是大数据应用首要研究任务.
3.6 大数据分析[9]
大数据统计分析是大数据应用的重要组成部分,也是数据简单加工的重要手段,其方法分为描述统计和推断统计.其中描述统计主要是采用图表或者数学方法描述数据的特征;推断统计主要是通过分析样本数据推断总体.主要的大数据统计分析方法有:
3.6.1 概率分布:概率分布用于描述性统计,可以帮助我们理解数据的分布特征及选择恰当数据处理方法.实现概率分布的主要方法有正态分布、卡方分布、t分布,F分布.
3.6.2 参数估计:该方法可以实现推断统计.常用的推断方法有两种,即参数估计和假设验证.其中参数估计是根据样本的统计量来估计总体的参数.例如利用样本均值估计总体的均值;假设验证是指先对总体的某个参数进行假设,然后利用样本统计量去检验这个假设是否成立.
3.6.3 大数据挖掘:随着数据科学的发展,传统的数据统计方法已经逐渐与现代的数据挖掘[10]技术相互融合,主要的应用有回归分析、方差分析、分类分析、聚类分析、序列模式分析等.数据经过上述方法的处理后,其生成的结果将由简单的信息变为相互关联的应用模式,能够解释数据之间的隐藏规律,帮助用户洞见数据的发展走向,做出智慧合理的决策.在本项目中,将重点探索民生大数据系统中离散数据的关联分析,为相关的使用部门提供数据支持.
4 结束语
在本项目建设过程中,一方面将摒弃传统的信息平台开发技术,针对民生政策信息属于非结构化信息,逻辑性不强,数据内容离散、无序的特点,探索各类信息整合、共享的实现技术与方法,包括查找相关信息、提取和标识结构化信息、组合和重用信息等,基于新一代人工智能关键技术问题,优化知识计算引擎与知识服务技术,重点突破数据加工的深度搜索和可视交互核心技术,实现对知识持续增量的自动获取,最终能够得到直接的和可操作的知识性信息,供决策者使用,实现从信息服务到知识服务的跃迁.同时运用大数据应用技术有效提升政府管理与服务水平,促进保障和改善民生服务.另一方面,将依托赤峰学院和蒙东云计算中心共建的产学研示范基地,通过校企联合研发大数据应用技术,推动蒙东地区大数据产业发展,最终带动蒙东地区大数据产业快速发展.
参考文献:
〔1〕国务院.国务院关于积极推进“互联网+”行动的指导意见.2015-07-04.
〔2〕国务院.国务院关于印发促进大数据发展行动纲要的通知.2015-08-31.
〔3〕张显龙.运用大数据保障和改善民生.光明网,2017-12-15.
〔4〕内蒙古自治区人民政府办公厅.内蒙古自治区大数据发展总体规划(2017-2020年).2017-12-28.
〔5〕〔7〕朝乐蒙.数据科学[M].北京:清华大学出版社,2016.16-25.
〔6〕王晓波.非结构化数据采集和检索技术的研究与实现[J].中国内部审计,2014(7):73-75.
〔8〕谭晖,廖振松,周小翠,贺凡.大数据的数据清洗方法研究[J].信息通信,2017(1):238-239.
〔9〕高志鹏,牛琨,刘杰.面向大数据的分析技术[J].北京邮电大学学报,2015,38(3):1-12.
〔10〕范明,孟晓峰.数据挖掘概念与技术[M].北京:机械工业出版社,2001.