基于CART决策树回归的乡村信息化水平测度模型研究

2020-08-13 07:05申媛媛邬锦雯刘鑫东
科技管理研究 2020年14期
关键词:测度省份样本

申媛媛,邬锦雯,刘鑫东

(1.中山大学附属第三医院,广东广州 510630;2.华南师范大学经济与管理学院,广东广州 510006)

2014—2019年,我国连续16年发布中央一号文件聚焦“三农”,强调“三农”问题是“重中之重”。信息技术的突飞猛进在一定程度上推动了农村发展变革,特别是信息化建设方面,加强农村信息化建设是促进农村经济社会发展、新农村建设的重要内容。我国关于信息化建设的工作从未懈怠,《国家信息化发展战略纲要》指出我国信息化发展已经取得了长足的进展,特别是在电子商务、网民上网比重、电子信息产品等发展规模上均处于世界领先。信息革命为我国乡村振兴战略的实施提供了重要的历史发展机遇[1]。因此,本文在深刻认识农村信息化地位和作用的基础上,构建适应社会发展的乡村信息化测度模型,以期客观、全面评价我国乡村信息化程度,更好、更快地推进农村信息化建设的步伐。

1 我国农村信息化发展研究现状

关于我国信息化水平测度理论和方法的研究开始于20世纪80年代,国内学者主要集中于信息化测度方法和指标体系构建的研究中,具有代表性的测度方法有用于信息化水平测度的信息化综合指数法(CIIC)、基于RITE模型改进的信息化指数模型、综合信息产业力度法等[2-4]。2001年,我国颁布了《国家信息化指标构成方案》,提出了衡量国家信息化发展水平的综合评价指标体系——中国信息化水平综合评价指标体系,包括六大类20项指标[5]。南京大学教授郑建明[6]在《中国社会信息化进程测度报告》中对日本RITE模型进一步继承挖掘和发展,基于国情,对指标进行适时化和本土化的修正完善使得计算方法更具科学性和适用性,然而随着时间的推移,部分指标已不能满足现代信息化社会的需求,国内研究者们根据我国农村发展现状、经济发展差异性和现实条件的局限性采取不同的测试方法,如,刘世洪等[7-8]研究提出农村信息化的六大要素,运用德尔菲法确定权重,通过建立综合指数比较分析各区域农村信息化发展的差异,但也不可避免地存在部分数据采集困难的问题;马秀霞[9]从农村信息资源、信息装备及基本设施建设、主体水平、经济与社会环境等方面进行考虑构建了指数测评模型,对宁夏农村地区的信息化水平进行研究与评价;卢丽娜等[10-11]以国家信息化六要素为基础,采用德尔菲法和层次分析法确定各项指标的权重,其中部分指标有交叉,数据收集也较为复杂;马守军[12]根据当前研究情况,运用德尔菲法确定了4个一级指标和18个二级指标,用综合指数法研究农村信息化发展水平,其中部分指标统计标准不同,利用起来较难。

在关于农村信息化水平测度实证研究中,黄志文[13]以北京2006年的数据为参考,通过对我国东、中、西和东北4个区域各项分类指数的加权平均,分析各地区间的发展差异及影响因素;杨玉建等[14]为说明区位对于农村农业信息化发展是重要因素,通过建立空间自相关模型分析黄河三角洲19个县域的农村农业信息化水平;成巍等[15]则运用波特拉法和模糊层次分析法,以2011年的数据为参考,对华东6省1市的农村信息化水平进行了测度和评价,得出提高农村信息化水平的主要影响因素;崔利国等[16]利用问卷调查的方式采集数据,通过对我国26个省份进行聚类分析,将农村信息化水平分为6类,并对结果进行进一步分析。

综上所述,现阶段我国对农村信息化测度的评价研究集中在农村信息化建设水平的测评,即对农村信息化建设现状的分析和评价,若以中国知网数据库检索,以“农村信息化水平测度”“农村信息化测度”为关键词,相关文章只有11篇,最新的文献停在2015年;其次,社会信息化发展迅速,新指标应适应新的社会发展,传统的指标筛选方法也急需改进。本文选取我国31个省级行政区2017年的数据,首次运用CART决策树算法,对初始评价指标进行筛选,采用因子分析、聚类分析方法构建农村信息化水平测度指标体系,对我国农村信息化水平进行讨论与分析。

2 模型构建

2.1 初始指标

农村信息化是指在农村生产、生活、管理等各个方面普及和利用通信、网络、计算机等技术的过程。对于农村信息化水平评价指标的选取,本文在国家信息化指标体系的基础上,参考国家信息化指标构成方案、国家统计局关于县域社会经济统计指标体系、《中国社会信息化进程测度报告》中的评价指标体系[17-19],借鉴杨诚等[20]、卢丽娜等[10-11]构建的指标体系,选取更适合的、与当前社会紧密相关的指标,编制农村信息化测度模型的宏观指标,由4个维度18个指标组成,如表1所示。

表1 农村信息化水平测度模型初始指标

表1(续)

2.2 模型设计

CART决策树算法是在决策树中比较典型的算法,一般将其称为分类回归树,是一种高效准确的分类方法[28-29]。主要构造流程为:生成决策树和决策树剪枝。生成CART决策树就是递归构建二叉决策树的过程,它既可以用于分类也可以用于回归。对于分类树,CART用Gini系数最小化准则;对于回归树,采用平方误差最小化原则来选取特征,生成二叉树。对决策树剪枝,特征值属性可以实现多次使用,同时也能够实现对连续值、缺失值进行有效处理[30]。因此,本文根据CART决策树算法的特点和优势,将其应用在指标变量重要性判断和分类上。

CART回归树生成算法如下:

式(1)中:f代表模型输出的回归树值;M代表输入空间划分的M个区域;R代表单元数据集;m为将输入空间划分的单元个数,即R1,R2,...,Rm;I代表常数;cm为每个单元固定的输出值,这样就可以得到输出值和实际值的误差。

用平方误差最小的准则求解每个单元上的最优输出值:

式(2)中:y代表输出变量;x代表输入变量。

对于空间的划分,采用启发式的方法,选择第j个变量(农村信息化初始指标)作为切分变量,和它取的值s(初始指标对应的具体数值)作为切分点,并定义两个区域:

式(3)(4)中:j代表切分变量;s代表切分变量对应的取值,即切分点。

首先,确定最优切分变量(最优初始指标)和最优切分点(最优初始指标数值)。即要找到两个区域的代表值c1和c2(根据最优初始指标和最优初始指标数值)使各自区间上的平方差最小。求解过程如下:

其次,遍历所有输入变量(初始指标),找到最优切分变量(最优初始指标),构成一个对,依次将输入空间划分为两个区域(两个节点):

最后,对每个区域重复上述划分过程,直到满足停止条件为止。这样即生成回归树,这样的回归树通常被称为最小二乘树。

基于以上算法梳理,为研究乡村生产力水平与农村信息化发展关系,探讨与生产力密切相关的信息化指标变量,本文通过SPSS Modeler软件构建测度指标模型,选取2014—2017年数据进行研究。另外,以国家统计局官网、《中国统计年鉴》、《中国农村统计年鉴》、政府网站及工作报告、农业普查报告等作为数据来源,采集2017年我国31个省份(未含港澳台地区,以下简称“样本省份”)的数据,对我国农村信息化水平进行比较研究。

3 数据分析

3.1 CART法指标筛选

(1)提取数据。将2015—2017年样本省份的农村信息化指标数据导入,分别使用源节点和表格节点读取文件中的数据和输出数据。

(2)构建数据流。首先,接入类型节点,读取变量值,将初始指标生产总值字段设置为目标,以体现当前生产力发展下信息化的指标水平和重要性,其他初始指标设为输入,分析指标的分类情况和模型构建;其次,接入分区节点,设置训练集和测试集,分别给予70%和30% 的样本;最后,设置农村信息化指标模型参数,目标变量为生产总值,预测变量为17项信息化指标。

(3)输出预测结果。在模型块节点后添加分析节点后,可以看到农村信息化指标模型在训练集及测试集中的预测准确率。其中,训练集的线性相关高达98%,而测试集的线性相关达到95.2%。预测准确度优良,模型拟合度较好,如表2所示。

表2 2017年样本省份农村生产总值准确性输出结果

(4)决策结果的树形图。决策树结果图展现了农村信息化初始指标重要性的排序和分类,根据图1可知,以生产总值为目标变量,初始指标农村宽带接入用户、电信业务总量、乡村人口等7个指标在支点分类上出现,这些指标大部分为信息基础设施建设指标,说明7个初始指标与生产总值密切相关,并在社会信息化的发展中起着重要的作用。

图1 2017年样本省份农村信息化决策结果

(5)预测指标重要性。预测变量农村信息化指标的重要性涉及到自变量和因变量相关的检验概率值,即地区生产总值与农村信息化指标相关性较的强弱,如图2所示共有10个初始指标,包括:电信业务总量、农业机械总动力、乡村人口等,这些指标同样在社会信息化发展的过程中发挥着重要的作用。

图2 2017年样本省份农村信息化水平评价指标重要性测评结果

根据以上指标的分类情况和重要性排序(见图1、图2),剔除3个指标(村卫生室数、已通邮的行政村比重、农村固定电话用户数),最终建立农村信息化水平测度指标模型,其中划分4个一级指标,如表3所示。

表3 农村信息化水平评价指标体系

3.2 因子分析

(1)指标相关性及适用性检验。因子分析法的主要思想是用较少数的因子去描述多个变量之间的关系,运用降维的思想原理研究众多变量中的相互依赖关系,探求分析数据中的基本结构[31]。根据因子分析法的相关标准,本文各指标数据的KOM值和P值均满足条件(见表4),表明各类指标之间的相关性较强,适合做因子分析。

表4 样本省份农村信息化水平评价指标数据的KMO和Bartlett检验结果

(2)提取公因子。采用因子分析法降低评价指标数据的维度后,得到公因子载荷矩阵,基于特征值大于1、方差累计贡献率大于70%的原则提取公因子,根据总方差解释,前4个公因子的累计方差贡献率已达到79.774%,说明这些公因子可以反映原来15个指标数据的大部分信息,因此,选择前4个公因子用以研究样本省份农村信息化水平现状,从而更好地对各省份进行准确、全面地评价。

运用Kaiser标准化的正交旋转法,建立起公因子载荷矩阵(见表5),并且在第6次旋转迭代后进行收敛,使各个变量在某一公因子上具有较高载荷,有利于对主成分进行命名与解释。

表5 样本省份农村信息化水平评价指标的公因子旋转成分矩阵

基于表5,将降维后的公因子根据指标的归类和特征进行重新划分和命名(见表6)。

表6 样本省份农村信息化水平评价指标的主成分分类与命名

(3)因子得分与结果排名。根据各变量因子得分系数和标准化的值,使用回归分析法计算各公因子得分排名情况;4个公因子的方差贡献率分别为38.695%、25.874%、9.123%、7.032%,将其作为公因子得分权数。因此,样本省份农村信息化综合得分为:F=0.386 95×F1+0.258 74×F2+0.091 23×F3+0.070 32×F4。根据各个因子和综合因子得分,可得出样本省份农村信息化水平综合排名,如表7所示。

表7 2017年样本省份农村信息化水平评价得分及排名

3.3 聚类分析

为进一步挖掘我国各区域农村信息化发展水平的差异,本文将因子分析得到的4个公共因子作为自变量,对样本省份农村信息化样本数据进行聚类分析,如图3所示。

图3 2017年样本省份农村信息化水平聚类结果

为保证各个分类之间的差异性,从我国信息化水平建设情况的实际出发,将样本省份的信息化水平分为5类进行分析讨论(见表8)。

表8 2017年样本省份农村信息化水平分类结果

3.4 因子和聚类分析结果讨论

根据因子和聚类分析结果可以看出,样本省份农村信息化建设水平分为五大类:

(1)属于第一类是江苏、广东,为农村信息化建设水平因子分析综合排名前两位。江苏省位于我国东南沿海地区,是我国经济最活跃省份之一,其因子分析综合排名第一,在其他公因子排名上均处于前五,在农村信息化建设中总体水平较高。广东省位于我国华南沿海地区,具有人口基数庞大、电子商务发达等优势,其因子分析综合排名第二,在信息化应用建设方面排名第一,随着粤港澳大湾区建设的推动,未来广东省在农村信息化建设方面将会承载更多的资源和机遇,迎来更广阔的发展空间。

(2)属于第二类是北京、天津、浙江、上海。这一类地区属于我国经济发达地区,信息化发展水平总体较高。浙江省的农村信息化发展水平在全国领先,其因子分析综合排名第三,在信息化资源建设方面排名第一;北京、天津、上海3市的因子分析综合排名均处于前八的位置。由此可见,地区经济发达能够为农村信息化建设提供优良的发展环境及技术支持。

(3)属于第三类的包括山东、河南、山西、辽宁等大部分省份。作为农业大省的山东和河南两省近年来也在不断地加强农村信息化建设,山东省积极推进国家农村农业信息化示范建设,河南也强调以农业信息化为“三农”破题[32];另外,贵州、海南、云南、青海、宁夏、广西、湖南等省份主要位于内陆和西部地区,信息化水平建设处于一般的位置,政府应结合实际着重提高农村信息化水平。

(4)属于第四类的是内蒙古自治区,其在信息化资源建设方面排在全国第六,农村基础设施和信息化资讯环境方面排名居中,但在信息化应用建设方面排名最末,侧面反映其农村现代信息化发展水平较低,这不仅与当地经济发展水平有关,也与其地理位置有密切联系。

(5)属于第五类的是新疆、西藏自治区。作为西部内陆地区,新疆和西藏一直是国家重点扶持经济发展对象,这两个地区的自然条件也较为恶劣,农村信息化建设相对落后的局面也在预料之中。这些地区的农村信息化发展只能稳中求进,尽快缩小与其他省份的差距。

4 结论与展望

4.1 结论

本文在对我国农村信息化宏观测度研究中,首先运用CART回归树算法,将原来的18个农村信息化水平初始评价指标筛选为15个,确定农村信息化水平测度模型,分为4个维度,将第一维度命名为信息基础设施建设、第二维度命名为信息资源、第三维度命名为信息化环境建设、第四维度命名为信息资讯环境。其中:第一维度包括乡村人口、广播节目综合人口覆盖率、电视节目综合人口覆盖率、电信业务总量;第二维度包括移动电话用户数、计算机用户数、彩色电视机用户数、固定电话用户数、农村投递线路、已通邮的行政村比重;第三维度包括开通互联网宽带业务的行政村比重、农业机械总动力、农村宽带接入用户;第四维度包括村卫生室、交通通信支出、教育文化娱乐支出、医疗保健支出、生产总值。

4.2 评价模型解释与启示

(1)模型预测准确率高,可以导向乡村振兴发展目标。本研究应用CART回归算法建立的农村信息化水平评价决策树模型对我国31个样本省份农村信息化水平测度的准确率达到95.2%,其中,电信业务总量指标最重要,乡村人口、开通宽带业务的行政村比重等指标比较重要,农村宽带接入用户数、农村投递线路等指标较为重要。说明我国农村信息技术水平不断提高,基础设施建设也在不断地完善,电子商务、互联网等发展使人们获得信息越来越高效和便捷,以地区生产总值为目标变量可以导向乡村振兴战略。

(2)我国农村信息化区域发展差异明显。根据模型构成和因子分析情况,我国农村信息化建设水平存在明显的区域性特征:江苏、广东、浙江的综合排名为前三,均位于华东、华南沿海地区;其次排名较为靠前的是山东、北京、天津、上海,这些地区经济发展迅速,信息化水平建设程度高;但是纵观四川、江西等地区,经济发展位于全国较前、居中的位置,虽然在信息化基础设施建设、信息化应用建设方面的公因子排名靠前,但是农村信息化总体发展水平较为落后,与地区经济发展有较大差异。因此,应该以长三角、珠三角等城市群为引领,发挥城市群、大湾区的辐射带动作用,加大对偏远地区农村信息资源的投入,在信息基础设施建设和信息资源环境方面,因地制宜。

猜你喜欢
测度省份样本
Rn上的测度双K-框架
平面上两个数字集生成的一类Moran测度的谱性
用样本估计总体复习点拨
我国要素价格扭曲程度的测度
谁说小龙虾不赚钱?跨越四省份,暴走万里路,只为寻找最会养虾的您
规划·样本
16省份上半年GDP超万亿元
几何概型中的测度
随机微分方程的样本Lyapunov二次型估计
“官员写作”的四个样本