姜娜 顾庆传 杨海燕
摘要:昭通作为云南省贫困人口最多的地区,扶贫工作一直是不可忽视的重大问题。扶贫工作要稳定有效的持续进行,利用计算机平台,将过去的人工管理贫困数据、主观进行扶贫决策,逐步向基于大数据和机器学习的智能化的管理、决策方式过渡。该文基于机器学习,对精准扶贫系统中机器学习方法的研究和系统的现实意义进行了理论探讨,在后期的系统分析与设计中,具有重要意义。
关键词:扶贫;机器学习;预测;学习模型
中图分类号:TP181 文献标识码:A 文章编号:1009-3044(2018)35-0200-02
Abstract: Zhaotong is the area with the most poverty population in Yunnan province. The poverty relief work has been an important problem that cannot be ignored and should be carried out steadily and effectively and continuously. By using the technology of the computer, the past traditional manual management means should be transitioned to intelligent management and decision-making Based on big data and machine learning. Based on machine learning, this paper conducts a theoretical discussion on the research of machine learning methods in the precision poverty alleviation system and the practical significance of the system, which is of great significance in the later systematic analysis and design.
Key words: poverty alleviation; Machine Learning; prediction; learning model
云南位于中国西南边陲,仅国家級贫困县就达到70多个。特别是昭通地区的贫困人口就已接近云南省总贫困人口的四分之一,贫困人口居全省第一。近年来,在“互联网+”和大数据的战略发展背景下,昭通市精准扶贫系统逐步上线,通过对百万贫困人员的相关基本信息的录入,完成整个系统早期的数据库建设[1]。
在此发展背景下,该文主要研究机器学习方法基于昭通精准扶贫数据可进行的一系列工作的现实意义,包括研究贫困人员的数量、贫困类型、根据贫困人员的基本信息预测贫困类型、进行扶贫工作之后的脱贫趋势的统计,给出供参考的脱贫建议,亦可以为各行业的企业管理者提供助贫对象,真正实现全社会帮扶脱贫、长期坚持脱贫攻坚战。
1 机器学习综述
机器学习是通过计算机的计算手段,从已有数据中习得经验,得到学习器(模型),再将学习器应用于新的数据中并得到预测结论的过程。在机器学习过程中涉及的数据有:用于训练学习能力的训练集,用于选择学习器的验证集,和用于测试学习器学习能力的测试集三类。[2]
在进行预测时,根据预测结果的不同可以将学习任务分为分类和回归两类,其中预测的是离散值的称为分类,预测的是连续值得称为回归;根据训练集是否拥有标记信息,可以将学习任务分为监督学习和无监督学习,其中,数据中含有标记信息的称为监督学习,如分类和回归,数据中不含标记信息的称为无监督学习,如聚类。
在进行学习时,根据不同的学习任务,可以进行不同的模型的选择。进行机器学习的最终目的是,在已有数据上得到的学习器用在新数据当中,并得到逼近真相的预测结论,即获得强泛化能力的模型。机器学习开发流程如图1所示[3]。
2 精准扶贫在机器学习中研究方法
在昭通市精准扶贫系统中,前期数据录入包括每一位贫困人员的基本信息,贫困相关详细信息等。通过昭通市精准扶贫系统,在系统中记录人员相关信息并得到贫困类型,统计昭通市贫困人口数量及贫困趋势,从贫困详细信息亦可反映出昭通地区主要贫困分布、贫困程度等,进而分析各区域贫困主要原因,得出扶贫依据,给出相应的扶贫决策从而支撑精准扶贫。
1) 数据录入以及贫困类型
数据的录入,包括贫困人员基本信息(姓名、身份证号、年龄、籍贯、所在村镇、文化程度、家庭人口、联系电话、是否残疾等)、贫困相关详细信息(子女个数、子女文化程度、人均年收入等)的录入工作。对贫困数据进行分析,令D={x1, x2, …,xn}表示n个贫困人员的数据集,第m个贫困人员的数据xm是由基本信息中A个数据构成的一个向量;若最终要预测的结论是根据某个贫困人员的基本信息预测贫困类型,则令第m个贫困人员的贫困类型是ym,则(xm, ym)就是数据集中的第m个样例(拥有标记信息的示例)。通过对训练集的学习,习得的模型f,在进行预测时,对于测试例x,可得到其预测标记y=f(x),即通过贫困人员的基本信息预测其贫困类型,如图2所示:
依据昭通市贫困户认定标准,根据人均纯收入、住房、医疗、教育保障四方面进行认定。年人均纯收入低于贫困标准(2010年2300元不变价)。年人均纯收入=工资性收入+生产经营性收入+财产性净收入+转移性收入-生产经营性支出。住房方面:实际居住C级、D级危房且自身无力改造。医疗方面:家庭因病致贫,且成员未参加城乡居民基本医疗保险。教育方面:家庭适龄成员因贫辍学,或家庭因学致贫[4]。根据此认定标准,得到贫困类型认定问题的假设空间如图3所示:
在该系统中,贫困类型有3种,分别是一般贫困户、低保贫困户、五保贫困户,属于离散值,因此应用机器学习方法时其学习任务为分类问题,且是多分类学习任务;多分类学习任务是二分类问题的扩展,可将其拆分为多个二分类问题进行处理,从而得到个人的贫困类型[5]。通过对贫困户特征信息的提取,结合該问题的假设空间树形结构,将贫困户关键特征作为二叉树内部结点,特征的取值为“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支且每个叶子节点对应一个分数值,采用决策树算法模型中的XGBoost算法进行贫困类别判断,支持并行处理,对百万贫困户数据进行分析,更加高效。
将已确定贫困类型的贫困户信息作为样本,通过训练获得训练样本,并对XGBoost模型调参得到学习能力更强的判定贫困类别的最优模型,以此模型来获得样本外的贫苦户的贫困类别。
2) 对基于机器学习得到贫困人数极其相应贫困类型进行整合分析,能够以区域、年龄等方面分析贫困原因,从而给出有针对性的脱贫决策。
3) 在精准扶贫系统中,从早期的贫困人口基础数据录入、获得各贫困户的贫苦类型、到给出对应的贫困原因及脱贫决策,都离不开数据的支持。通过机器学习,找出隐藏在数据背后的贫困原因,以支持精准扶贫工作。通过对个人信息的多字段查询,鼓励企业管理人员聘用符合岗位需求的贫困户;通过对贫困数据的及时更新以及对数据的可视化操作,统计各村镇贫困人口、各年龄段贫困人口比重以及各阶段脱贫人数、脱贫成效、脱贫趋势,辅助政府进行区域性精准扶贫政策的制定。
3 现实意义
通过基于机器学习在精准扶贫中的理论研究,具有如下现实意义:
针对贫困户:精准扶贫系统支持贫困户对个人信息及贫困类型的认定结果查询;更重要的是,基于机器学习方法得到的贫困分析和依据,可以给出供参考的扶贫决策,贫困户可以根据各区域气候情况、村镇情况和个人实际情况选择自助脱贫或者帮扶脱贫下的合理脱贫方式。
针对政府管理人员:精准扶贫系统支持各地区、各乡镇的贫困数据汇总和统计,给出各贫困户的扶贫决策,政府管理人员以此为依据,同时根据各地区的气候环境以及各贫苦户的具体情况制定合理的扶贫脱贫政策;合理的脱贫扶贫政策录入系统后为系统的更为精确的辅助决策提供了依据;每隔一段时期对扶贫成效进行统计反馈,如存在不合理的扶贫方式以便及时调整,行之有效的扶贫手段可以针对性的通过数据的统计,得到各地区各乡镇的脱贫趋势,为之后脱贫方案的制定提供决策依据。
针对其他人员:社会企业单位或中小型公司管理人员,可以使用该系统,结合贫困户个人情况和招聘岗位的实际需求,通过定向招聘的方式帮扶贫困人员脱贫。如,体力强度要求不高的岗位可以针对残疾、体弱多病的贫困户进行招聘。
4 未来研究方向
昭通作为扶贫攻坚的主战场,扶贫工作须长期有效地持续下去。要保证扶贫工作的持续有效进行,除了贫困信息的准确录入外,可以借助于现有的计算机知识和技术,给出针对各贫困户实际情况的扶贫决策,早期结合人工方式,获得符合环境和个人实际的决策信息,不断强化机器学习模型,后期则可通过学习模型给出更为科学的扶贫决策。
该文对精准扶贫系统中贫困类型的评定给出了理论的机器学习方法,但要进行更贴合实际的研究,未来还需对机器学习模型算法的选择和测试进行分析和实现。在实践中不断优化模型性能,为昭通地区的脱贫工作攻坚助力。
参考文献:
[1] 沈迅,蔡侯友. 云南省首家精准扶贫管理系统正式开通[EB/OL]. http://www.lifeyn.net/article-1550316-1.html, 2016-04-29.
[2] 周志华.机器学习[M] .清华大学出版社, 2016.
[3] (美)哈林顿(Harrington, P.) .机器学习实战[M] .人民邮电出版社, 2013.
[4] 范淼,李超.Python机器学习及实现[M].清华大学出版社, 2016.
[5] 市扶贫办.贫困村、贫困户认定标准和申报程序[EB/OL].http://www.zt.gov.cn/lanmu/zwgk/contents/460/36550.html,2018-05-31.
[通联编辑:梁书]