基于大数据挖掘的精准扶贫工作第三方评估
——以武汉市为例

2019-10-17 02:55李红艳
武汉工程职业技术学院学报 2019年3期
关键词:特征词精准评估

李红艳 汪 涛

(1.武汉软件工程职业学院 湖北 武汉:430205;2.武汉市社会科学院 湖北 武汉:430019)

1 研究背景

党的十八大以来,在以习近平同志为核心的党中央坚强领导下,一场前所未有的精准扶贫攻坚战在全国范围全面打响。对精准扶贫开展评估,尤其是借助第三方开展评估,是精准扶贫工作的重要环节,既可以及时把握精准扶贫的进展,还可以有效发现问题,为各级政府今后的扶贫工作提供科学依据和建设性意见。2016年2月,中共中央办公厅、国务院办公厅印发《省级党委和政府扶贫开发工作成效考核办法》[1],要求有关的科研机构在国务院扶贫开发领导小组指导下,从2016年到2020年,针对精准扶贫工作成效,每年对其进行一次独立的第三方评估。2016年6月,中国科学院地理科学与资源研究所围绕精准识别与精准帮扶“两个方面,三项内容”(贫困人口识别准确率、贫困人口退出准确率和到村到户帮扶工作群众满意度评估三项总体指标),进行了首次全国精准扶贫绩效的第三方评估。从2016年以来,精准扶贫第三方评估引起了国内学术界的关注,评估内容涉及精准扶贫的绩效、工作、项目、政策等方面,主要研究可以分为三个方面:一是关于评估的理论依据,代表性的如惠梦倩(2017)[2]、孟志华和李晓冬(2017)[3]。二是关于评估的作用和评估制度构建,代表性的如祁中山(2017)[4]、闫妍(2018)[5]。三是关于具体评估方式和方法,代表性的如姜涛(2016)[6],对当前研究中常使用的四种较为典型的精准扶贫绩效评价方法,即因子分析法、回归分析、数据包络分析法(DEA)、评估指标体系法进行了比较分析;胡善平、杭琍(2017)[7]构建了包括资源投入、过程管理和绩效考核在内的精准扶贫绩效考核指标体系;朱晨源、李淼(2017)[8]基于河北省精准扶贫的实践,构建了基于扶贫项目投入、管理、产出和效果四个方面的过程评价绩效评估体系;田晋、熊哲欣、向华(2017)[9]确立了涵盖精准帮扶情况、精准脱贫情况、经济子系统、社会子系统、生态子系统和政治子系统等六个方面26个指标的评价体系;杨希(2017)[10]使用AHP的方法构建了递阶层次结构绩效评价模型,从经济发展、社会发展、生产生活、可持续性和效率五方面进行评价;陈爱雪、刘艳(2017)[11]构建了以精准识别、精准帮扶、经济社会发展、基础设施建设和减贫成效5个维度15个指标在内的精准扶贫绩效评价指标;王建兵和胡苗(2017)[12]以甘肃省东乡县毛沟村为例,从政策设计、实施和效果等三方面构建36个指标对精准扶贫政策实施绩效进行评估;黄海棠和李永坤(2018)[13]以三明国家扶贫改革试验区为例,结合贫困人口识别准确率、贫困人口退出准确率和到村到户帮扶工作群众满意度评估三项总体指标,多视角地评价扶贫开发工作成效。石晶(2018)[14]从政策落实精准性、教育扶贫完成度、基础设施建设完成度、大扶贫格局建构度、脱贫攻坚责任制建立等5个方面构建精准扶贫成效评价指标体系。总的来看,现有的评价方法主要基于传统统计思维和方法,已经有学者,代表性的如杜永红(2018)[15]认识到利用互联网、大数据等开展精准扶贫评估的作用和价值,但目前尚没有从理论和评价方法上对利用互联网和大数据开展精准扶贫进行研究,更无实际应用范例。

本研究的主要贡献在于构建基于互联网文本信息挖掘的精准扶贫工作第三方评估方法,以武汉市精准扶贫为例,根据文本挖掘原理,从相关网站抓取武汉精准扶贫有关文本,利用建立的基于文本评估指标体系①,开展评估指标所对应特征词的频度统计分析,得到评价结果。并利用社会网络分析方法,揭示评估指标所对应特征词之间及其与精准扶贫之间的关系,对精准扶贫工作进行深入分析,查找问题,提出对策建议。

本文以下分为四个部分:第二部分介绍研究使用的理论、分析架构和评价指标体系;第三部分,是利用文本挖掘和文本评价指标体系对武汉精准扶贫工作进行评估;第四部分利用社会网络分析方法对武汉精准扶贫工作进行分析,第五部分是结论。

2 使用理论和方法

2.1 精准扶贫第三方评估理论

目前,理论界比较一致的看法是,委托—代理理论、综合评价理论和公共治理理论分别从契约制度建立、专业评估操作和治理体系构建三个角度为精准扶贫第三方评估提供了理论支撑[2-3]。这些理论都是工业化或者后工业化的发展产物,应该说它们从理论上对于精准扶贫第三方评估具有一定的指导意义,但不能回答如何实现精准评估。结合精准扶贫的当今时代背景——互联网、大数据、云计算、人工智能等新技术的广泛应用,本研究提出基于大数据的精准扶贫第三方评估理论——大数据发现理论。

图灵奖得主吉姆·格雷(Jim Dray)将历史上的“科学研究范式”总结为三类,即“实验归纳”、“模型推演”和“仿真模拟”,并认为大数据时代科学研究应是“第四范式:数据密集型科学发现”。所谓大数据发现理论,就是将“第四范式”思想应用到精准扶贫第三方评估上,运用依托互联网的大数据,结合各种信息技术和评价方法,综合定性与定量分析,及时有效地发现精准扶贫工作中存在的问题和不足,强化评估的灵活性、针对性、时效性、准确性,实现精准评估。

2.2 分析架构

利用上述大数据发现理论,构建9个步骤的分析架构:

(1)寻找文本源。利用确定的搜索关键词,从网上搜索包含关键词的网站(网址),从中筛选出一些主要网站,并利用爬虫技术对这些网站上有关关键词的页面(文本)进行抓取,形成评估使用的文本源。

(2)建立分词集。利用文本分析,结合分词技术,对文本进行分词,并对同类词进行归并(也称指代消解)。

(3)将评价指标体系文本化。利用建立的评价指标体系,结合文本出现的词汇,对每个评价指标构建对应的特征词(集)。

(4)利用分词集,计算每个特征词的tf-idf权重值。

(5)计算评价得分。将每个指标所包括的特征词的权重值进行累积,分别得到每个指标的评价值(评价得分),然后逐级汇总,得到总的评价得分。

(6)分析各类指标中特征词之间的关系。利用社会网络分析方法,通过分析每个特征词与其它特征词之间在文中的位置关系,寻找特征词之间的关联性,并用社会关系网络图揭示这种关系。

(7)分析各类指标中特征词与精准、扶贫、脱贫等特征词的关系。同样是利用社会网络分析,分析一些主要特征词与精准、扶贫、脱贫等特征词之间的关系。

(8)将上述(5)—(7)进行结合,对精准扶贫工作进行深入分析,查找问题和短板。

(9)围绕精准扶贫的目标,针对突出问题和短板,提出对策建议。

2.3 评价体系

考虑到利用文本挖掘作为评价体系的主要来源和依据,本研究采用三级指标结合“特征词”方式建立评价指标体系,见表1。将精准扶贫工作从设计、实施和效果三个方面进行评价,在每个方面建立相应的子方面:在设计方面,包括深入调研、方案制定、精准识别、上级要求等4个子方面②;在实施方面,包括工作力度、项目投入、产业发展等7个子方面;在效果方面,包括经济效果、社会效果、能力提升、主观效果等4个子方面。三级指标共计15个。每个三级指标是通过一些体现其指标含义的文本形式的特征词来表达。

3 武汉精准扶贫工作评估

3.1 武汉精准扶贫工作简要回顾

2015年10月以召开精准扶贫现场推进会、出台“1+N”文件(即《市委市政府关于全力打赢精准扶贫攻坚战的决定》和帮扶、投入保障、区级资金整合、激励、考核、问责、约束、精神支撑等8个配套机制文件)等为标志,武汉精准扶贫攻坚战正式拉开,提出了打好(产业、技能、智力、卫生扶贫、救助、安居)“六大攻坚战”,到2018年实现全市所有贫困人口全部脱贫销号、271个贫困村全部脱贫出列。

两年多来,武汉聚焦扶贫重点,精准发力脱贫攻坚,积极推动“五个一批”、“六大工程”等扶贫政策和项目的落地生根,开展“三乡工程”,实施精神扶贫“六子”行动,构建大扶贫格局,着力解决贫困村、贫困户存在的根本问题,增强贫困群众的获得感和幸福感。2016年投入各类扶贫资金40多亿元,市、区两级3万多名党员干部参与贫困户对口帮扶,投入8.3亿元专项资金,实施144个扶贫项目,减少贫困人口45739人,77个贫困村实现脱贫。2017年全市投入农村的社会资金160.1亿元,全市共安排财政扶贫专项资金17.08亿元,脱贫的107个贫困村实施扶贫项目305个,47528名贫困人口脱贫。初步探索出具有武汉特色的精准扶贫“双十”模式,即市民下乡、能人回乡、企业兴乡、生态旅游、新型主体、订单农业、资产租赁、岗位薪金、特色电商、金融信贷带动等产业扶贫“十带动”模式;健康扶贫、教育扶智、低保兜底、慈善救助、危房改造、交通设施、安全饮水、电网改造、公共文化、财政化债保障等政策支持“十保障”模式[17]。

3.2 武汉精准扶贫的文本分析和评估结果

按照9步骤分析架构,以“武汉”、“精准扶贫”或者“精准脱贫”等为关键词,通过在网上搜索,并进行比较分析,确定武汉扶贫办、荆楚网、新华网、人民网等网站作为文本的来源网址。借助Scrapy编制爬虫程序,下载有关文本,并剔除掉重复的文本,共收集从2015年10月到2018年3月的有关文本467篇。

借助jieba分词模块,将这些文本进行分词,并对同类词,如贫困户、贫困人口、贫困家庭等进行归并,借助scikit-learn机器学习工具包计算这些分词的tf-idf权重值,选择tf-idf权重值大于0.01的285个分词作为特征词备选。再结合精准扶贫三级评价指标体系,从这些分词中甄选出每个指标所对应的特征词,计算每个特征词的权重值,将每个指标所包含的特征词的权重值和个数分别进行汇总,得到具体得分和特征词数量,将这些指标得分和特征值数量再逐级汇总,得到评价总得分和特征词总数量,见表1。

表1 武汉精准扶贫工作评价指标体系得分表

总的来看,武汉精准扶贫所涉及到的特征词有253个,总的权重值达到了6.0495。

(1)从二级指标层面来看,实施方面的特征词数量最多,有171个,其得分也最大,为4.5180;其次是设计方面,其特征词的个数和得分分别为42、0.7926;效果方面特征词的个数和得分均为最小,分别为40、0.7388。

(2)从三级指标层面来看,

在设计方面,调研的特征词数量和得分均最高,这从一定意义上说明调研在设计中得到了重视,相比而言,方案制定、精准识别和上级要求的有关特征词出现的次数(重视程度)不够。这表明设计方面的质量有待进一步提升。

在实施方面,落实机制的特征词数量最多,工作力度的得分最高,组织体系的特征值数量和得分均比较高,而项目投入、产业发展、扶贫政策和领导行为的特征词数量和得分相对较弱,这表明精准扶贫工作无论是组织架构、还是工作力度和落实表现都很突出,项目、产业、政策、领导等有待进一步加强。

在效果方面,主观、经济、社会等三个方面的特征词数量和得分表现较好,差距不大,主要是能力效果方面,与其它三个方面相比,在特征词数量和得分方面还有一定的差距。这表明对于贫困人口的能力提升需要给予更多关注。

4 武汉精准扶贫的社会网络分析

社会网络分析方法作为一种刻画社会网络中行动者位置及其关系的方法被广泛应用[18]。本研究将利用社会网络分析方法,通过分析精准扶贫评价指标体系中所涉及到的主要特征词在文本中的位置关系,也称共现,把握精准扶贫的特征行为之间以及与精准扶贫工作之间的关系,进而找出精准扶贫工作中存在的问题。

4.1 基本原理

在一篇文章中同一段出现的两个特征词之间,表现为一定具有某种关联,因此可以以段落为单位,借助jieba工具软件,统计467篇文本中这两个特征词同时出现的出现次数(也称共现频率权重)以及每个特征词出现的词频权重。依照同样原理,将所有考察特征词之间的这种关系找出来,就形成了特征词关系矩阵。

4.2 不同方面特征行为之间的关系分析

利用Gephi工具软件将设计、实施、效果等三个不同方面各自内部特征词之间关系矩阵进行可视化处理,得到关系图。

4.2.1 设计方面

基于共现频率权重和词频权重,利用深入调研、方案制定、精准识别、上级要求中的特征词,建立它们之间的关系矩阵和关系图,见图1。

图1 精准扶贫设计方面特征词关系图

整个关系图将这些特征词分成四类,分别用不同颜色表示。其中三类聚集特征明显,一类以“情况”为中心,一类以“标准”为中心,一类以“目标”为中心,尤其是“目标”作为整个关系图的主中心。这说明精准扶贫在设计方面围绕目标比较重视情况调研和有关标准,但从整个关系图中的一些边缘特征词,包括“识别、需求、困难、实地、研究、优势、原因”等来看,从一个侧面也证实上述在评估分析中的观点——设计质量有待进一步提升,需要开展深度调研,对贫困村的优势、困难和需求做到更为精准把握。

4.2.2 实施方面

图2 精准扶贫实施方面特征词关系图

同样基于共现频率权重和词频权重,利用工作力度、项目投入、产业发展、组织体系、扶贫政策、领导行为、落实机制的特征词,建立它们之间的关系矩阵和关系图,见图2。整个关系图将这些特征词分成七类,分别用不同颜色表示。其中5类聚集特征明显,一类以“项目、建设”为中心,一类以“帮扶”为中心,一类以“攻坚”为中心,一类以“资金”为中心,一类是“发展”为中心,尤其是“发展”作为整个关系图的主中心。这表明精准扶贫在实施过程中,确实做到以发展为中心,以项目建设、资金政策、落实攻坚、帮扶为抓手。但从整个关系图中一些边缘特征词来看,还存在以下三个有待加强,一是利用科技和投资力度还有待加强,二是市场在精准扶贫中作用还有待加强,三是监督和问责等还有待加强。

4.2.3 效果方面

仍然基于共现频率权重和词频权重,利用经济效果、社会效果、能力提升、主观效果中的特征词,建立它们之间的关系矩阵和关系图,见图3。

图3 精准扶贫效果方面特征词关系图

整个关系图将这些特征词分成四类,分别用不同颜色表示。其中三类聚集特征明显,一类以“教育”为中心,一类以“生活”为中心,一类以“培训”为中心,尤其是“培训”作为整个关系图的主中心。这表明在精准扶贫中高度重视培训、就业、创业、生活、教育、保障等,但是从整个关系图中一些边缘特征词来看,提升扶贫实际效果还有空间,比如在基础设施、医疗、生态和贫困群众主观获得感等。

4.3 不同方面特征行为与精准扶贫工作的关系分析

仍利用社会网络分析方法,结合共现频率权重和Gephi可视化,反映不同方面特征行为与精准扶贫、精准脱贫的关系:即刻画设计、实施、效果等方面主要特征词①与“精准扶贫脱贫”①、“贫困”②等关键词之间的关系。

4.3.1 设计方面主要特征词与精准扶贫工作的关系分析

图4显示,“精准扶贫脱贫”和“贫困”两者作为主、次中心,所选择主要特征词的表现主要分三类,一类包括目标、标准,与“精准扶贫脱贫”和“贫困”均密切联系,一类包括调研、情况、制定、制度、规划、优先、全省等,仅与“精准扶贫脱贫”联系,还有一类包括走访、学习、条件、特色、信息、动态、计划,与两者均没有联系。

图4 设计方面主要特征词与精准扶贫关键词关系图

4.3.2 实施方面主要特征词与精准扶贫工作的关系分析

图5显示,“精准扶贫脱贫”和“贫困”两者作为主、次中心,所选择主要特征词的表现主要分四类,一类包括帮扶、攻坚、建设、发展,项目、资金,产业、开发,组织、部门,政策,落实、确保与“精准扶贫脱贫”和“贫困”均密切联系;一类包括资源、救助,企业,工作队、驻村,群众,管理,领导、市委,责任等,仅与“精准扶贫脱贫”联系;一类仅包括重点与“贫困”联系;还有一类包括服务、活动,投入,农业、旅游,村民,农民,带动,措施等,与两者均没有联系。

图5 实施方面主要特征词与精准扶贫关键词关系图

4.3.3 效果方面主要特征词与精准扶贫工作的关系分析

图6显示,“精准扶贫脱贫”和“贫困”两者作为主、次中心,所选择主要特征词的表现主要分三类,一类包括生活、收入,教育,创业、就业、培训,与“精准扶贫脱贫”和“贫困”均密切联系;一类包括致富,保障、文化、低保,能力,精神、覆盖等,仅与“精准扶贫脱贫”联系;还有一类包括技能,劳动力等,与两者均没有联系。

图6 效果方面主要特征词与精准扶贫关键词关系图

4.3.4 三个方面主要特征词与精准扶贫工作的关系分析

图7显示,“精准扶贫脱贫”和“贫困”两者作为主、次中心。通过与两者的距离以及与两者的联系,可以将特征词分为“四类”,特征词的四类分布状况进一步验证了前面有关这些特征词在精准扶贫中作用的分析判断。

图7 三个方面主要特征词与精准扶贫关键词关系图

第一类是关系密切的,包括建设、发展、产业、确保、项目、帮扶、攻坚、政策、落实、开发、推进、部门、资金、机制、实施、标准、组织等;

第二类是关系比较密切的,包括社会、目标、企业、收入、农业、驻村、工作队、情况、领导、群众、生活、责任、规划、创业、教育、统筹、重点、培训、救助、资源、就业等;

第三类是关系不够密切的,包括服务、致富、旅游、农民、村民、解决、文化、调研、对口、优先、医疗、制度、投入、纳入、覆盖、低保、能力等;

第四类是基本没有关系,包括特色、信息、计划、原因、识别、基础设施、集体经济、学习、实地、走访、座谈会、现场、详细、增加、困难、探索、研究、优势、统一、动态、危房改造、小康社会、助学、改善、扶智、提升、给予、生态、需求、中心、生态、方案、劳动力等。

5 结论

本文根据大数据“第四范式”发现理论,构建了一个全新的基于互联网文本信息挖掘的精准扶贫第三方评估方法——9步骤分析架构。在这个架构中,与目前主流以数量资料作为主要来源的(第三方)评估体系不同,建立了基于文本的三级评估指标体系,利用爬虫技术从网上收集有关文本资料,结合分词技术和tf-idf统计方法,通过对评估指标所对应特征词的频度统计分析,得到评价得分,实现对精准扶贫工作的评估,并结合社会网络分析原理,利用共现频率权重统计方法和可视化技术,对评估结果进行深入分析。文中以武汉市为例,进行实证分析。分析发现①:武汉市的精准扶贫工作,无论是设计方面、实施方面,还是效果方面,都被高度重视,并取得了良好成效。下一步应围绕激发贫困人口内生动力、打赢打好脱贫攻坚战,突出问题导向,在提升精准扶贫工作质量上下功夫:一是设计方面在调研深度上下功夫,二是实施方面在利用科技、市场和社会力量等上下功夫,三是效果方面在贫困群众能力提升、基础设施建设、生态建设、增强贫困群众主观获得感等上下功夫,实现高质量的设计、高质量的实施、高质量的效果协同推进。

猜你喜欢
特征词精准评估
基于Simhash改进的文本去重算法
不同评估方法在T2DM心血管病风险评估中的应用
基于类信息的TF-IDF权重分析与改进①
第四代评估理论对我国学科评估的启示
精准防返贫,才能稳脱贫
一种面向财务文本分类的TF-IDF改进算法
精准的打铁
精准扶贫 齐奔小康
精准扶贫二首
立法后评估:且行且尽善