论大数据精准扶贫

2018-09-07 05:40陈荣虎

安徽工业大学学报（社会科学版） 2018年1期

陈荣虎

(安徽工业大学管理科学与工程学院，安徽马鞍山 243002)

一、扶贫中“精准”的必要性

2017年5月下旬，一条“人大校友伍继红成为精准扶贫对象”的新闻迅速在网上引起关注。伍继红1998年毕业于中国人民大学，但她未能正常就业，后辗转打工，在农村结婚后长期处于无业状态，最终成为扶贫对象。作为名校的毕业生，伍继红如果能得到适当的关注，她的人生可能又是另一番景象。然而，在伍继红毕业的那个时代，国内的互联网才刚刚起步，信息交流极为不畅，她的悲剧似乎带有时代的烙印。

伍继红的悲剧不仅在于她毕业于名校，更悲剧的是她的命运与中国的经济社会发展趋势相左。改革开放以来，中国的社会经济发展迅速，贫困人口不断减少。1978年，按照当时的贫困线标准100元/人，中国有2.5 亿贫困人口[1]，而按照2010年不变价标准，中国有7.7亿贫困人口[2]。截止到2016年底，按最新的每人每年2 300元(2010年不变价)的贫困线标准，中国农村有贫困人口4 335万人[3]。

伍继红现象带来了一个新的问题，即减少贫困不仅在于直接减少贫困人口，还需要有一定的前瞻性，即提前准确地甄别潜在的贫困人口，并采取一定的预防措施。伍继红在毕业后或婚后处于无业状态之时，如果有人能及时施以援手，她就不会陷入贫困状态。

在消灭贫困的过程中，总有这样那样一些人由于种种原因会陷入贫困状态，如灾害、疾病、意外等。虽然我们无法完全预测到各种事件，但大数据技术的发展，确实给我们从宏观和微观上预测提供了各种可能。若能充分利用这项技术，将有助于减少贫困。大规模的流行性疾病往往有一定的征兆，人们可以借助这些征兆来进行预测。例如，谷歌公司借助于人们在网络上搜索流感的次数来预测流感的爆发[4]，Shaman等用传染病模型(SIRS)、比湿度(specific humidity)数据和流感观测数据来预测流感[5]。对个人的疾病预测较困难，但随着医学和大数据的发展，某些病症也有可能进行预测。例如，医学界广泛认为，不健康的饮食习惯、长期食用不健康的食物、缺少运动等不健康的生活习惯、年龄和性别等因素都与病症有着某种联系，这些联系可被大数据技术用来预测个人是否会得病。在大数据的支持下，即使出现了未预测到的事件，系统仍可以根据需要做出提示，如提醒“伍继红在毕业后长期处于失业状态”。

目前，精准扶贫是我国扶贫工作的主要方式之一。然而，和前面提到的预测不同，精准扶贫是有针对性的事后弥补。精准扶贫的主要含义是：在精准地识别贫困人口或地区的基础上，制订有针对性的规划，有针对性地进行帮扶。精准扶贫的第一步是“精准识别”，这是关系到后续工作成败的关键一步。

识别贫困人口存在一定的困难。根据审计署《158个贫困县扶贫审计结果》，2016年，全国共剔除识别不精准人口900多万，补录新识别贫困人口800多万[6]。审计署的报告说明：主观上，由于工作程序、工作方法和工作人员的信息不够，可能造成误识；客观上，有部分非贫困人员会冒充贫困人员，干扰正常的工作。

现有的工作程序和工作方法鉴定贫困人口，存在这些困难：(1)现有的贫困人口规模是根据指标层层分配而来的，不一定真实反映实际情况；(2)现有的贫困区域划分也排斥了部分区域外的贫困户；(3)工作人员有意无意地将非贫困人员标识为贫困人员，而真正的贫困人员得不到帮扶[7]。在帮扶过程中也同样存在着扶贫的供给与贫困户的需求之间的矛盾。农户根据自身的状况可能会有不同的需求，而扶贫的方法可能很有限。在贫困人口数量多的时候，有针对性的扶贫可能不现实。当贫困人口逐渐减少时，最后的贫困户可能都是脱贫困难户，有必要采用有针对性的扶贫措施。

因此，寻找新的精准识别和扶贫方式具有积极的现实意义。大数据是解决这样一个问题的工具。大数据可提供预测工具，预测个人是否可能致贫或返贫；可用于甄别贫困户；可用于提供解决方案，即有针对性的扶贫措施的提出。

二、大数据精准扶贫的可行性

目前，学者们对大数据仍没有统一的定义。一般认为，大数据具有三个特征，简称3Vs：大数据量(Volume)、大速度(Velocity)、大的多样性(Variety)[8]。处理大数据需要计算机技术的支撑，最终创造价值。

大数据的核心是预测[9]16。Marr提供了大数据的45个成功应用实例。在商业方面的应用有：精确广告、为供需方牵线搭桥、制造业、体育、电视节目推送、能源、智能家居、医疗、新闻和故事写作等。在社会管理的应用有：伦敦运输公司(Transport for London)用大数据解决伦敦这样的大城市的公共交通问题，米尔顿·凯恩斯市用大数据建设智慧城市，美国的移民和海关部门用大数据识别恐怖分子，Palantir公司协助美国中央情报局在阿富汗检测炸弹，美国用大数据管理国家等。此外，在社会管理方面还有不少例子[10]。《科学》杂志报导美国的匹兹堡、芝加哥等城市采用了一种“预测式出警”[11]的方式来预防犯罪，墨西哥用大数据的方法来寻找受害者遗体所在地[12]，芝加哥市政部门采用大数据来预测鼠灾[13]。这些例子一般都是借助于机器学习算法，寻找各种变量和可能的事件之间的关系。例如，犯罪率可能与地点、时间有特定的联系；垃圾量、某种疾病的发病人数与鼠灾可能有联系。数据分析人员在分析问题的基础上，可能加入很多变量，让计算机模型来确定输入输出之间的关系。

国际上已有不少利用大数据来确定贫困地区的案例。Kristjanson等运用地理信息系统来构建贫困地图，寻找贫困因素[14]；Grolle用卫星遥感技术来构高清的贫困地图[15]。Matinfar、Lobell运用遥感技术来预测农作物产量，这项技术可借鉴运用于预测贫困地区的收成[16-17]。Eagle等通过分析社交网络的数据发现，个人社交网络的多样性与经济发展水平有紧密的关联[18]。Chen and Nordhaus发现国家或区域晚间的亮度与传统的生产率、增长之间具有很强的关联性。朝鲜和韩国是两个典型的例子，经济发达的韩国从晚间的卫星图上看灯火通明，而落后的朝鲜只有首都平壤有灯光，其余地区漆黑[19]。Morikawa利用遥测到的归一化植被指数作为地区的繁荣指标，植被越多，该地的经济越向好[20]。Mao等通过分析地区的呼出和呼入通话比例来分析该地区的经济状况[21]。Jean等结合卫星图像和机器学习来识别贫困地区[22]。Glaeser 等利用谷歌街景来甄别城市的贫困地区[23]。

大数据还可用来探测个人是否贫困。Abelson 等[24]通过卫星图像分析屋顶的结构来甄别极端贫困户。Marr所提到的案例中，有许多公司通过对可获得的客户数据进行分析，间接地获得客户的偏好等信息[10]。Blumenstock等利用人们的手机使用历史来预测个人财富并甄别出最贫困的人口[25]。McBride和Nichols利用机器学习来精准识别[26]。目前在许多高校，学生的消费通过校内“一卡通”进行，如果某学生的日均消费低于一定的数值，学校会认定该生为贫困生，将对该生进行补助。

宏观和微观的实例说明，利用大数据的方法来甄别贫困人口是可行的。

人工智能的发展也为量身定制扶贫方案提供了可能。例如，谷歌公司的AlphaGo利用人工智能打败了人类的顶尖围棋高手，IBM公司的Waston担任大学的助教、帮助医生诊断疾病。扶贫和上述应用虽然有不同，但本质上都可以抽象为类似的计算机模型。

三、甄别贫困人口

甄别贫困人口是精准扶贫的最重要部分。现行的精准扶贫是通过制度化的过程来识别贫困人口，如设定贫困指标体系、扶贫信息公开(接受群众的监督)和建档立卡等步骤[27]。在现有的体制下，潜在的贫困人员可能无法准确地被预测到。前面提到的伍继红在毕业后处于失业状态下，很难被认定为贫困对象。若采用大数据的方法来精准识别，可以提高科学性，大大减少扶贫过程中的主观性。

在大数据扶贫的条件下，甄别贫困人口可分为两个部分：甄别潜在贫困人口和甄别现有贫困人口。两者又可分为宏观和微观两个部分，其组合如表1所示。

表1 贫困人口的分类

显然，对这四类人应该采用不同的识别算法，其扶贫策略也应有所区别，而且预防比治理效果更好。

宏观上，政府可以借鉴卫星图识别的方法来判断某个地区是否需要扶贫，但不仅限于该方法，也可以考虑人均电力使用量、物流量等指标，甚至综合多个因素考虑。微观上，政府可以组织专业技术人员，借用技术手段收集申报贫困人口的信息，如年龄、性别、健康状况、收入、消费、手机使用、家庭情况等，具体收集哪些信息、如何收集则由技术人员确定。在收集信息的基础上，政府可以借用或组织研发相关的机器学习软件判断申报者是否为贫困人员，最大程度地减少贫困认定过程中的主观性和谎报。

在目前的扶贫政策下，一旦帮扶对象脱贫，扶贫工作也宣告结束。但是，在大数据条件下，帮扶对象仍会被信息系统关注，他们的各种有关信息成了珍宝。技术人员可借助于计算机模型来寻找扶贫成功的规律，为个人定制扶贫方案打下良好的基础。例如，计算机模型能帮助人们找出某种方案对哪些人有效，对哪些人无效。信息系统还可能自动分析出脱贫群众是否有返贫的可能。

在大数据条件下，各类潜在的贫困人员也是需要关注的对象。这类人员有可能变为贫困人员，而一旦他们成为贫困人员，他们的各种信息即可用于训练信息系统，为下一阶段准确地寻找潜在人员打下良好的基础。

大数据方法不能保证识别的完全正确，但却可以大大减少人为的干扰和错误的数据。必要时可以结合机器判断和人工判断来甄别贫困人口。

四、实施精准扶贫

在大数据精准扶贫方式下，国家、省级政府应关注贫困区域及潜在贫困区域，并建立相应的信息管理平台。商业的应用通常由企业发起，他们往往受利益驱动。企业会用一切手段获取用户的个人信息，并利用这些信息来获取商业利益，如推送广告等。扶贫这样的社会行为往往没有直接的经济利益，需要由政府主导。因此，政府需要在大数据扶贫上加大投入，必要时可以和各种企业联合，建立统一的社会信息网。当然，需要做好相关的立法工作，保护个人的隐私。

大数据精准扶贫应采用人机合作的工作模式。这里面有两层含义，第一指信息收集过程，第二指决策过程。对城市居民的信息收集相对容易，他们总在有意无意地透露个人的信息，如个人的存款、手机支付、在电商的购物、在超市的浏览足迹等。在贫困区域，互联网基础设施贫乏，有的贫困户甚至没有手机，收集个人信息可能较难。对贫困人口的信息收集将不得不采用人机结合的方式，在无法获得个人信息时，由人工输入信息。大数据决策依赖于机器学习，但目前机器学习不可能达到完全准确，因此，最终的决策还可能需要由人作出。例如，信息系统可能提醒某个贫困户申请者有子女在城市工作，这时需要人的判断。

帮扶阶段可采用个性化的扶贫方案设计。信息系统通过分析扶贫的基础数据，寻找成功的规律，在此基础上根据扶贫对象的基础数据提出相应的措施供决策者选择。国内外成功的经验很多。《山西推进精准扶贫政策研究》课题组[28]总结出了搬迁、产业扶贫、培训、教育等十个经验。Banerjee 等研究发现，赠送生产工具、支持消费、培训、鼓励储蓄、健康教育和服务等方法的组合能有效地起到扶贫的效果[29]。宫留记则提出政府主导的市场化机制，如政府与社会资本合作、政府购买服务、资产收益扶贫和电商扶贫等[30]。但这些扶贫方法并不一定对所有人都有效，需要根据实际情况提出有针对性的措施。此外，大数据能帮助扶贫人员发现商机，帮助决策人员寻找适合贫困地区的产业或避免风险。有时市场的需求发生了变化，带来机遇或风险，但人获取信息的能力有限，信息系统能及时提醒。

五、最后的思考

伍继红现象会不会重现？社会的发展不可能是完全均衡的，总会有一小部分人由于不同的原因变得贫困。伍继红的贫困是可以预防的，防止新的伍继红出现需要我们对“高危”人群进行关注，及时施以援手。这需要大数据系统的支持。

联合国提出到2030年消除极端贫困，我国的目标则是到2020年在现行的贫困标准下消除贫困。从目前的进展来看，这个目标一定能实现。但是，绝对贫困可以消除，相对贫困则只能减少而不能消除。

2016年，我国的基尼系数为0.465，比2015年有所上升，仍然处在高位。更为严重的是，谢宇等研究发现，我国2014年的财富基尼系数达到0.7，比2012年有所下降，但底部25%的家庭财产比例在缩小[31]。根据谢宇等人的研究，房产占总财产的比重从2012年的74.8%上升到80%。在2016年全国大中城市的房价有较大上涨[32]，将会带动财富基尼系数的上涨，社会不平等进一步扩大。

较高的社会不平等程度决定了仍需要对相对贫困人群进行扶持。若实施大数据精准扶贫，在消灭绝对贫困之后，已有的成果将会长期发挥作用。

维克托·迈尔-舍恩伯格、肯尼思·库克耶认为大数据带来的思维转变之一是“不再热衷于寻找因果关系”[9]18。这是由大数据本身所采用的定量工具所决定的，大数据所使用的各种定量工具本身并不说明因果关系。大数据的这种思维转变能使人们发现以往不能发现的问题，但过于依赖这种技术会使我们丧失解决问题的能力。为实施大数据扶贫，仍有许多问题需要社会科学和信息科学的学者进行研究。这些问题包括但不限于：(1)何种情况会导致人们或个人贫困？(2)脱贫成功和失败的根本原因是什么？(3)返贫的原因是什么？社会科学学者的研究重点关注因果关系，而信息科学则注重数据间的相关关系，二者需要结合起来，取长补短。

为实施大数据精准扶贫，国家可借助于已有的信息网络，并将之扩充为一个统一的新的网络，把扶贫作为一个子系统。长期以来，国家的多个信息系统并不统一，给国家管理和居民生活带来了诸多不便。例如，部分地区个人的医保信息仍未能纳入到统一的信息平台下，公民无法异地用医保卡支付医疗费用，也给政府和医疗部门带来了不便。除了政府的信息网络外，还有许多企业构造了自己的平台。许多企业利用客户手机积极地收集数据，个别的甚至开发“流氓软件”，强行驻留在手机中暗中收集用户数据。在保护用户隐私的前提下，很多企业的数据也可以为政府所用。建立统一的政府信息平台的任务非常紧迫。

总之，大数据扶贫要获得成功，要有相应的资金投入和政策引导，需要社会各方的共同努力。