浅析大数据技术在精准扶贫工作上的应用研究

2018-02-24 13:55余长江邹帅邱斌孙浩
电脑知识与技术 2018年34期
关键词:精准扶贫大数据

余长江 邹帅 邱斌 孙浩

摘要:大数据技术因其数据化、网格化与动态化等特点与精准扶贫的机制要求相契合,数据扶贫成为了实现精准脱贫目标的可行路径。该文通过采用大数据算法如聚类分析、ARIMA回归等算法,从系统功能设计、系统架构及技术实现内容等方面分别进行了综述,该研究成果在新疆“访惠聚”驻村活动的精准扶贫实践中,进行了试点建设并取得了成效。

关键词:大数据;精准扶贫;数据扶贫

中图分类号:TP311      文献标识码:A      文章编号:1009-3044(2018)34-0006-03

1 立项选题的意义

我国扶贫工作开始于上世纪80年代中期,通过不懈努力取得了举世公认的辉煌成就,但是长期以来贫困居民底数不清、情况不明、针对性不强、扶贫资金和项目指向不准的问题较为突出,2014年1月,我国政府详细制定了精准扶贫工作模式的顶层设计,推动“精准扶贫”思想落地,全国各地先后全力开展内容广泛的精准扶贫工作。随着对精准扶贫的进一步阐释与发展,精准机制的要求更为具体细致,大数据技术因其数据化、网格化与动态化等特点与精准扶贫的机制要求相契合,数据扶贫成为了实现精准脱贫目标的可行路径,大数据技术开始在精准扶贫的全国各地、各个领域开展试点。

在扶贫工作中,存在信息化程度低、数据不完善、监管机制不明确、信息孤立缺乏共享等问题,缺少对贫困人口的致贫原因、帮扶项目、实施流程以及扶贫成效反馈之间的动态归纳,静态滞后的工作方式开展扶贫很难达到贫困人口的准确识别。在精准扶贫实践中,尝试通过构建农村精准扶贫大数据支撑云平台,打通扶贫相关多部门数据,运用大数据和人工智能等技术建立贫困人口特征模型,实现贫困人口精准识别、精准分析、扶贫效果趋势预测等功能,助力精准扶贫工作具有很强的现实意义。

2 主要研究内容

通过“互联网+”和大数据分析的技术实现思路,基于国务院贫困人口建档立卡数据与其他政府已有扶贫相关内部数据(包括公安人口基本数据、教育贫困生数据、民政数据、卫生部门贫困人口医疗数据、社保社保数据等),再结合从互联网上爬取的相关外部数据(包括人口关联信息、贫困地区历年受灾情况、教育资源分布地图等),研究对扶贫紧密相关的内外部数据进行有机融合,清洗、整理,并交叉验证、比对识别出重要数据,挖掘其中深层次信息,实现信息共享和业务协作功能,对扶贫帮扶过程中三个重要阶段(识贫、扶贫、脱贫)的现状和需求进行监控、数据挖掘、统计分析以及可视化的展现,研究为扶贫工作人员提供切实有效的工具,为扶贫领导层提供直观的决策数据支撑。

3 系统架构设计及主要技术实现

3.1 系统架构设计

系统整體架构通过分层设计、模块化组合的整体设计思路,包含用户及权限服务、界面服务、算法服务、数据存取服务、离线计算服务、数据同步服务等微服务,含安全路由网关、分布式高速共享缓存、分布式消息队列、注册中心、配置中心、监控中心、日志中心、关系数据库、KV数据库、全文搜索引擎、图数据库。系统架构设计如图1所示。

微服务通过虚拟容器集群管理平台进行服务器部署,相同功能微服务可以部署多个副本进行负载均衡,可以根据业务量规模大小进行横向扩展,支持滚动式服务升级。

路由网关提供对网WEB服务,结合用户及权限服务提供鉴权、授权功能保证内网接口访问安全性,通过高速共享缓存共享用户会话信息,可通过VRRP协议部署多台达到高可用的目的。

注册中心用来注册与发现微服务。

分布式消息队列用于微服务间的通信,配置中心、监控中心、日志中心也通过消息总线与所有微服务进行通信。

配置中心用于所有微服务的在线配置,可通过版本服务器对微服务进行在线配置与环境的进行无缝切换。

监控中心用于所有微服务的断路器状态监控、分布式链路跟踪,可通过WEB监控界面及时发现微服务的功能及性能问题。

日志中心用于收集所有微服务的日志,可通过WEB界面进行任意筛选与报表,可用于故障定位或用户操作日志分析。

关系数据库存放系统所需的关系型数据,通过主备份或主从备份达到高可用目的。

KV数据库存放系统所需的Key Value类型的非结构化数据,采用集群的方式可提高存储与检索的速度,同时达到可伸缩、高可用的目的。

全文搜索引擎用于对结构化或非结构化数据进行索引并存储,采用集群的方式可提高索引与检索的速度,同时达到可伸缩、高可用目的。

图数据库用于存储贫困户、贫困家庭、社会关系,采用集群的方式可提高存储与查找速度,同时达到可伸缩、高可用目的。

3.2 系统技术实现

通过对大数据分析模型所需的数据源的实地情况调研,通过架构分层,明确大数据平台从数据采集、整合、共享以及管理全流程所需技术,完成农村精准扶贫大数据支撑云平台的架构设计,系统提供数据存储,高效实时的数据关联分析、计算、数据挖掘的能力,并提供查询、检索和可视化功能,如图2所示。

数据采集技术,根据数据类型不同,采集技术上可以采用Sqoop、Flume、Data X、Emcd等成熟工具和技术,将传统关系型数据库、文件、消息等类型的数据采集到大数据平台接口层。满足跨平台的数据交互,如Hadoop、Oracle、MySql等平台间的交互,在数据采集过程中会对数据进行稽核校验。

数据计算技术,数据到达接口层后,按照实时与离线批处理场景,进行分类计算整合,形成扶贫数据整合层。

数据存储技术,采用分布式文件系统HDFS、Hbase、Mysql等混合存储技术,满足不同数据存储需要。

资源管理技术,在集群管理方面引用Yarn开源平台对多用户以及多队列实现虚拟CPU、内存按照FIFO、Fair的方式进行任务调度和资源管理。在权限方面则通过Ranger对用户访问权限进行细粒度控制。

3.3 系统关键技术

3.3.1 聚类分析算法

聚类分析一种建立分类的多元统计分析方法,根据在数据中发现的信息,将数据对象分组。

K均值聚类是一种比较流行的聚类算法,这种算法的基本思想是将每一个样品分配给最近中心的类别中,算法包括以下步骤:

1)将所有样品分为K个初始类;

2)通过欧几里得距离将某个样品划分到离中心最近的类别中,并对获得样品与失去样品的类重新计算中心坐标;

3)一直重复第二步,指导所有样品不能再被分为止。

4 系统功能实现

农村精准扶贫大数据支撑云平台实现的功能众多,由于篇幅有限,以下就主要的核心功能进行简要描述。

4.1 前端APP数据采集与交互

精准扶贫APP功能依托于精准扶贫中间件和应用后台管理系统的支撑,在手机上为扶贫人员提供贫困户数据实时动态采集更新、实时统计分析、实时比对预警等功能。具体包括核心功能展示、扫一扫、对象查询、数据统计、动态异常预警、教育指数、个人中心等。客户端可通过条件筛选、锁定范围,对贫困人姓名进行搜索或直接键入身份证号,一键查询贫困人员资料、帮扶干部、帮扶计划等,可通过所选区域范围查询出该区域内所有贫困户列表,包括其贫困户性别、年龄结构、致贫原因、扶贫指标等信息,并对统计结果简单分析,扶贫工作人员通过该功能可快速了解每户扶贫整体状况。其中通过“扫一扫”,扫描贫困户身份证,通过OCR技术自动识别身份证信息,通过贫困人口身份代码的唯一性,关联出身份信息对应贫困户建档立卡资料和其他部门关联数据,展示数据比对信息。通过贫困人口身份代码的唯一性,可以把扶贫措施、扶贫效果、政策性补助等归集到同一贫困对象,提高扶贫干部的工作效率。

4.2 贫困人口画像

贫困指数是一种常用的衡量社会公平程度的指标,基于阿玛蒂亚·森的贫困指数理论,利用精准扶贫主题数据库中的家庭成员数据、医疗健康数据、住房数据、教育数据,基于大数据技术,对家庭人口特征、人口规模、收入状况、健康状况、住房及产权条件、生活条件、资产状况、受教育水平和职业等方面的信息进行汇总分析,凭借模型算法为每一个维度的数据设置不同的权重,生成贫困指数形成评估贫困目标的贫困等级。脱贫指数依托获取目标区域数据(包括区域舆情信息、区域教育资源分布情况、区域历年受灾情况),再围绕贫困对象扶贫维度,分别以帮扶力度、健康状况、消费层次、收入来源、交通条件、受教育程度、以及地域发展程度的多重数据,结合算法模型输出相应指数,反映出某一地理空间中贫困目标脱贫潜力的概率。

基于扶贫数据主题库,通过直观化的指数形式,研究建立全维度的贫困人口画像,采用偏度-峰度法,对偏度和峰度两个指标来检查样本是否符合正态分布。研究建立关联关系图谱,提取民政人口数据、医疗健康数据、社保数据,通过对以上数据交叉验证、对比识别,对目标贫困户所有直系或非直系亲属的人口数量、人口特征、收入水平等数据进行维度关联,确立贫困人口关联关系,建立目标贫困人群与潜在帮扶资源的关联性分析,提供个性化扶贫资源整合建议。扶贫人员可利用扶贫对象画像,快速精准评判贫困户的贫困程度和脱贫成效,同时挖掘贫困户的家庭关系和社会关系图谱,有效识别贫困对象和预防假脱贫。

4.3 扶贫资金流向监测预警

通过接入政府内部数据、融合外部数据,对“政府”“扶贫地区”及“扶贫项目”三个维度进行关联,通过统计图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述。针对数据特征,结合区域动态走势甄别与量化工具,找出数据的基本规律。扶贫工作人员可清晰直观地了解了政府扶贫资金从发放到落实再到区域经济改善的整个过程流势,以及项目是否存在问题。同时对该图谱信息的分析来达到对整个扶贫资金发放流程的监管及预警,实现监管预警全覆盖。

4.4 扶贫区域评价

扶贫区域评价是对精准扶贫、小范围扶贫的宏观的整体性扶贫评价。基于贫困指数、脱贫指数以及政府扶贫措施、政府招标采购数据等一系列的扶贫手段和力度,利用平台中已有数据,并对区域GDP、人均收入、产业结构、区域地理条件、交通、资源结构等数据进行整合分析和挖掘,通过发展指数和贫困指数的变换情况可以反映出扶贫措施的实施效果,每一项扶贫措施的所有数据都会与指数相关联,扶贫措施影响指数的变化情况让决策者清晰直观地看到措施的实施效果,最终客观准确的评估扶贫区域的扶贫评价。主要的扶贫质量指标包括如贫困人口变化率(%)、贫困地区农民人均纯收入增长率(%)、贫困地区农民人均生活消费支出增长率(%)、无房户或住危房农户的下降率(%)、义务教育辍学率降低幅度(百分点)、有合格卫生室村的增长率(%)、贫困地区贷款余额的增长率(%)等。

4.5 扶贫趋势预测

贫困对象预测,根据主题数据库中户口、就医、土地、生产资料、生活设施等信息,结合外部数据收入来源、人均消费、区域资源等信息,对扶贫区域贫困对象识别。通过线性回归、LR、ARIMA等算法,依据历史数据预测未来贫困状态的值,识别因灾致贫、因病致贫等贫困人口,動态地预测其贫困情况。扶贫人员根据该预测制定专项帮扶措施,提前进行医疗救助、助学救助、残疾救助、就业帮扶、产业发展等;同时就贫困区域预测,为扶贫领导提前制定区域政策提供数据支撑。

脱贫对象预测,对主题数据库中贫困户的户口,土地,生产资料,生活设施等信息,结合外部数据收入来源、人均消费、区域资源、技术反馈、健康状况等数据,通过大数据挖掘分析,对其是否脱离贫困的可能性进行科学的算法预测。扶贫人员依据脱贫预测结果,优化帮扶措施,进行扶贫资源配置侧重和优化。

返贫对象预测,对脱贫户建立脱贫档案,并对脱贫户的贫困指数进行定期监控,通过回归分析算法实现返贫对象识别,若监测到脱贫户的运作异常则立即发送返贫预警。扶贫人员通过返贫预测,及时知晓返贫预警并制定相应解决措施。

4.6 扶贫人员工作评价

系统实现对扶贫干部工作的评价,对扶贫办工作人员建档立卡,实时定位干部,回溯干部扶贫走访轨迹,通过机器深度学习,筛选出扶贫工作人员的工作评价,形成工作成效积分量化考评依据。

5 结束语

基于大数据技术特点与精准扶贫工作的契合特点,开展数据扶贫的应用研究并将该成果应用在新疆“访惠聚”驻村活动的精准扶贫实践中,通过构建农村精准扶贫大数据支撑云平台,打通教育、民政、卫计、人社、公安、水利、农业等13个部门数据,对扶贫工作进行全过程的信息化支撑,取得了很好的应用效果。

参考文献:

[1] 刘洋. 层次混合存储系统中缓存和预取技术研究[D]. 武汉: 华中科技大学, 2013.

[2] 傅颖勋, 罗圣美, 舒继武. 安全云存储系统与关键技术综述[J]. 计算机研究与发展, 2013, 50(1): 136-145.

[3] 邓维杰. 精准扶贫的难点、对策与路径选择[J]. 农村经济, 2014(6): 78-82.

[4] Liping Xiang, Yinlong Xu, John C S, et al. A Hybrid Approach to Failed Disk Recovery Using RAID-6 Codes[J]. ACM Transactions on Storage(TOS), 2011(3): 1-34.

[5] 刁莹. 用数学建模方法评价存储系统性能[D]. 哈尔滨: 哈尔滨工程大学, 2013.

[6] 汪三贵, 郭子豪. 论中国的精准扶贫[J]. 贵州社会科学, 2015(5): 147-150.

[7] 李勇. 异构存储系统中的缓存技术研究[D]. 武汉: 华中科技大学, 2014.

[8] 孟小峰, 慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展, 2013, 50(1): 146-169.

[9] 田敬. 对等存储系统中的数据可用性与安全性研究[D]. 北京: 北京大学, 2007.

【通联编辑:谢媛媛】

猜你喜欢
精准扶贫大数据
大数据环境下基于移动客户端的传统媒体转型思路