基于聚类分析的我国各地区农业信息化发展水平评价

2014-11-15 07:31崔利国
江苏农业科学 2014年9期
关键词:评价研究发展水平农业信息化

摘要:基于问卷调研数据,从农业信息化基础设施建设、人才队伍建设、发展环境建设和信息资源建设等4个方面筛选整理了18个具体评价指标,在此基础上采用聚类分析法将我国26个省份依照农业信息化发展水平分为6类,对分类结果进行了分析,并提出了缩小区域农业信息化发展水平差距、提高农业信息化发展水平的相关政策建议。

关键词:聚类分析;农业信息化;发展水平;评价研究;省际差异;政策建议

中图分类号: S126文献标志码: A文章编号:1002-1302(2014)09-0462-04

收稿日期:2013-11-04

基金项目:北京市农林科学院科技创新能力建设专项;“三电合一”农业信息服务项目。

作者简介:崔利国(1987—),男,河北邢台人,硕士,助理工程师,研究方向为农业农村信息化发展战略。Tel:(010)51503643;E-mail:cuilg@nercita.org.cn。

通信作者:李瑾,博士,副研究员,研究方向为农业与农村信息化。E-mail:lij@nercita.org.cn。农业信息化正在成为我国实现农业现代化的重要途径,在提高农业生产效率、增加农民收入、保障国家粮食安全、推进城镇化建设等方面均发挥了积极影响。2005年以来,中央一号文件均从不同角度对农业信息化建设作出指示,各地政府、科研院所和涉农企业也在推进农业信息化工作方面热情高涨,农业信息化评价研究也成为近年来学术研究的热点。近年来,不少学者对我国农业信息化发展水平进行了研究,研究方向主要分为2个方面:一是农业信息化发展水平评价体系的理论研究,并基于构建的评价体系对全国或某一地区的农业信息化发展水平进行定量研究[1-5]。有学者从农业信息化基础设施、技术装备、应用水平、主体水平、农业信息化对农业发展的贡献以及农业信息化政策环境等方面筛选了24个指标,初步建立了农业信息化发展水平评价体系[6]。二是对地区间农业信息化发展水平的评价研究。如有学者基于信息资源、信息应用、信息产业和信息人才等指标对山区县域农村信息化发展水平进行了研究[7],也有学者采取线性加权函数法和层次分析法对地市级农业信息化发展水平展开评价和分析[8]。此外,还有学者利用神经网络模型对省际间信息化发展水平进行综合评价与分析[9],这对比较我国省际间农业信息化发展水平具有借鉴意义。目前,我国在农业信息水平评价研究方面处于探索期,官方和学术界还没有形成权威的评价指标和完善的评价体系。学者们在研究农业信息化发展水平上主要是从地区经济发展水平、农业信息化基础设施建设、农业信息资源开发利用、农业信息技术和装备应用水平以及农业信息化人才队伍建设等方面着手,但由于指标选择上存在不一致,分析结果也往往存在差异。本研究参考已有学者的研究结论和指标体系建立方法,并结合已有的调研数据对我国主要省份的农业信息化发展水平进行比较研究,目的在于分析各个省份的农业信息化发展水平及其在全国所处的地位,为国家农业信息化主管部门和地方政府制定针对性的农业信息化发展战略提供支撑。

1研究方法与数据说明

1.1研究方法

1.1.1聚类分析方法概述农业信息化水平评价方法有神经网络模型[9]、因子分析法[10]和主成分分析法[11]等,尽管这些方法能够对多个对象的农业信息化水平进行较为客观的评价,但这些方法仅限于通过排序比较省际间农业信息化水平而不能有效地归类并寻找同类水平之间的共性和不同类水平之间的差异性,但聚类分析方法却可以解决这一问题,因此本研究选择聚类分析法来对我国各地区农业信息化发展水平进行评价研究。

自古以来,人们所讲的“物以类聚,人以群分”说的就是聚类,而在现代社会聚类分析是数据挖掘的一种方法,是指把整个数据分成不同的组,并使组与组之间的差距尽可能大,组内数据的差异尽可能小。聚类分析根据研究对象的不同分为Q型聚类分析和R型聚类分析,Q型聚类是指对样品进行聚类,R型聚类是指对变量进行聚类[12]。聚类不同于日常所说的分类,因为在分析之前并没有具体的划分标准,属于一种无监督学习[13]。聚类分析用于研究地区某一指标发展水平的文献也有很多[10-11,14-15],而随着我国农业信息化水平的不断提高和研究的不断深入,采用聚类分析等定量分析工具对我国各省份农业信息化发展水平进行评价和比较成为推动我国农业信息化水平持续发展的重要环节和手段,当前已经成为非常迫切的一个问题。

1.1.2聚类分析方法的数学步骤在聚类分析中,通常用G表示类,其中包含m个变量,一般用xi=(i=1,2,…,m)来表示,dij表示变量xi与xj之间的距离,DKL表示类GK与类GL之间的距离。类与类之间定义距离的方法有很多,常用的系统聚类方法有最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法等,本研究采用类平均法来定义类与类间的距离,因为类平均法很好地利用了所有样品之间的信息,在很多情况下它被认为是一种比较好的系统聚类法。类平均法定义的类GK与类GL之间的平方距离为:

1.2数据说明

1.2.1数据来源本研究所用数据来自农业部农业农村信息化发展战略研究课题组问卷调研,问卷内容主要涵盖农业信息化基础设施建设、农业信息化人才建设、农业信息化发展环境、农业信息资源建设等4个方面,数据为2012年的省级面板数据。调研范围涵盖大陆全部30个省(市、区),但由于部分省份的重要变量缺失,研究过程中剔除了河北、云南、新疆和广西4个省份,具体研究中只包括26个省份的样本数据。

1.2.2变量设定从已有的研究成果中不难发现,农业信息化技术应用水平是衡量一个地区农业信息化发展水平的重要指标之一,本研究在样本数据选择上并没有选择农业信息化技术应用情况的主要原因在于从调查问卷整理的数据结果中,关于农业信息化技术应用水平的调查选项不多,调查数据也不理想,导致在实际操作的时候数据确实无法使用,其他相关统计指标如表1所示。表1农业信息化发展水平评价指标

目标层准则层指标层农业信息化发展水平农业信息化基础设施建设固定电话普及率移动电话普及率电脑普及率已接入有线电视行政村比重接通宽带的乡镇比重光纤传输网是否到村农业信息化人才建设农业信息中心工作人员数量农业信息化发展环境农业农村信息化资金投入是否成立县级农业农村信息化工作领导小组是否制定全省相关农业农村信息化工程规划是否建立了农业农村信息化建设资金统筹管理制度农业行政主管部门是否有农业农村信息化投入专项是否设有农业农村信息化行政管理机构是否有兼职管理员农业信息资源建设有无独立农口政府网站农业数据库数量数据年增长率是否建有内部网络办公平台

由于上述指标是由多个要素构成的,各个要素数据具有不同的单位和量纲,其数值的变异很大,这会对分类结果产生一定的影响。因此,在进行聚类分析之前,首先要对聚类要素进行一定的预处理,消除各个要素之间的量纲差异。聚类分析中常用的数据预处理方法有中心化变换、规格化变换和标准化变换,本研究采用标准化变换对数据进行预处理,变换公式为:

2实证分析

采用MATLAB R2012b软件首先对样本数据进行标准化变换,之后运用类平均法将26个省份间的欧式距离进行测算,并在此基础上创建系统聚类树(图1)。

根据图1的聚类结果并结合我国各省(市、区)农业农村信息化发展实际经验,本研究将26个省(市、区)的农业信息化发展水平从高到低归纳为6类(表2),具体分类结果如下:

摘要:基于问卷调研数据,从农业信息化基础设施建设、人才队伍建设、发展环境建设和信息资源建设等4个方面筛选整理了18个具体评价指标,在此基础上采用聚类分析法将我国26个省份依照农业信息化发展水平分为6类,对分类结果进行了分析,并提出了缩小区域农业信息化发展水平差距、提高农业信息化发展水平的相关政策建议。

关键词:聚类分析;农业信息化;发展水平;评价研究;省际差异;政策建议

中图分类号: S126文献标志码: A文章编号:1002-1302(2014)09-0462-04

收稿日期:2013-11-04

基金项目:北京市农林科学院科技创新能力建设专项;“三电合一”农业信息服务项目。

作者简介:崔利国(1987—),男,河北邢台人,硕士,助理工程师,研究方向为农业农村信息化发展战略。Tel:(010)51503643;E-mail:cuilg@nercita.org.cn。

通信作者:李瑾,博士,副研究员,研究方向为农业与农村信息化。E-mail:lij@nercita.org.cn。农业信息化正在成为我国实现农业现代化的重要途径,在提高农业生产效率、增加农民收入、保障国家粮食安全、推进城镇化建设等方面均发挥了积极影响。2005年以来,中央一号文件均从不同角度对农业信息化建设作出指示,各地政府、科研院所和涉农企业也在推进农业信息化工作方面热情高涨,农业信息化评价研究也成为近年来学术研究的热点。近年来,不少学者对我国农业信息化发展水平进行了研究,研究方向主要分为2个方面:一是农业信息化发展水平评价体系的理论研究,并基于构建的评价体系对全国或某一地区的农业信息化发展水平进行定量研究[1-5]。有学者从农业信息化基础设施、技术装备、应用水平、主体水平、农业信息化对农业发展的贡献以及农业信息化政策环境等方面筛选了24个指标,初步建立了农业信息化发展水平评价体系[6]。二是对地区间农业信息化发展水平的评价研究。如有学者基于信息资源、信息应用、信息产业和信息人才等指标对山区县域农村信息化发展水平进行了研究[7],也有学者采取线性加权函数法和层次分析法对地市级农业信息化发展水平展开评价和分析[8]。此外,还有学者利用神经网络模型对省际间信息化发展水平进行综合评价与分析[9],这对比较我国省际间农业信息化发展水平具有借鉴意义。目前,我国在农业信息水平评价研究方面处于探索期,官方和学术界还没有形成权威的评价指标和完善的评价体系。学者们在研究农业信息化发展水平上主要是从地区经济发展水平、农业信息化基础设施建设、农业信息资源开发利用、农业信息技术和装备应用水平以及农业信息化人才队伍建设等方面着手,但由于指标选择上存在不一致,分析结果也往往存在差异。本研究参考已有学者的研究结论和指标体系建立方法,并结合已有的调研数据对我国主要省份的农业信息化发展水平进行比较研究,目的在于分析各个省份的农业信息化发展水平及其在全国所处的地位,为国家农业信息化主管部门和地方政府制定针对性的农业信息化发展战略提供支撑。

1研究方法与数据说明

1.1研究方法

1.1.1聚类分析方法概述农业信息化水平评价方法有神经网络模型[9]、因子分析法[10]和主成分分析法[11]等,尽管这些方法能够对多个对象的农业信息化水平进行较为客观的评价,但这些方法仅限于通过排序比较省际间农业信息化水平而不能有效地归类并寻找同类水平之间的共性和不同类水平之间的差异性,但聚类分析方法却可以解决这一问题,因此本研究选择聚类分析法来对我国各地区农业信息化发展水平进行评价研究。

自古以来,人们所讲的“物以类聚,人以群分”说的就是聚类,而在现代社会聚类分析是数据挖掘的一种方法,是指把整个数据分成不同的组,并使组与组之间的差距尽可能大,组内数据的差异尽可能小。聚类分析根据研究对象的不同分为Q型聚类分析和R型聚类分析,Q型聚类是指对样品进行聚类,R型聚类是指对变量进行聚类[12]。聚类不同于日常所说的分类,因为在分析之前并没有具体的划分标准,属于一种无监督学习[13]。聚类分析用于研究地区某一指标发展水平的文献也有很多[10-11,14-15],而随着我国农业信息化水平的不断提高和研究的不断深入,采用聚类分析等定量分析工具对我国各省份农业信息化发展水平进行评价和比较成为推动我国农业信息化水平持续发展的重要环节和手段,当前已经成为非常迫切的一个问题。

1.1.2聚类分析方法的数学步骤在聚类分析中,通常用G表示类,其中包含m个变量,一般用xi=(i=1,2,…,m)来表示,dij表示变量xi与xj之间的距离,DKL表示类GK与类GL之间的距离。类与类之间定义距离的方法有很多,常用的系统聚类方法有最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法等,本研究采用类平均法来定义类与类间的距离,因为类平均法很好地利用了所有样品之间的信息,在很多情况下它被认为是一种比较好的系统聚类法。类平均法定义的类GK与类GL之间的平方距离为:

1.2数据说明

1.2.1数据来源本研究所用数据来自农业部农业农村信息化发展战略研究课题组问卷调研,问卷内容主要涵盖农业信息化基础设施建设、农业信息化人才建设、农业信息化发展环境、农业信息资源建设等4个方面,数据为2012年的省级面板数据。调研范围涵盖大陆全部30个省(市、区),但由于部分省份的重要变量缺失,研究过程中剔除了河北、云南、新疆和广西4个省份,具体研究中只包括26个省份的样本数据。

1.2.2变量设定从已有的研究成果中不难发现,农业信息化技术应用水平是衡量一个地区农业信息化发展水平的重要指标之一,本研究在样本数据选择上并没有选择农业信息化技术应用情况的主要原因在于从调查问卷整理的数据结果中,关于农业信息化技术应用水平的调查选项不多,调查数据也不理想,导致在实际操作的时候数据确实无法使用,其他相关统计指标如表1所示。表1农业信息化发展水平评价指标

目标层准则层指标层农业信息化发展水平农业信息化基础设施建设固定电话普及率移动电话普及率电脑普及率已接入有线电视行政村比重接通宽带的乡镇比重光纤传输网是否到村农业信息化人才建设农业信息中心工作人员数量农业信息化发展环境农业农村信息化资金投入是否成立县级农业农村信息化工作领导小组是否制定全省相关农业农村信息化工程规划是否建立了农业农村信息化建设资金统筹管理制度农业行政主管部门是否有农业农村信息化投入专项是否设有农业农村信息化行政管理机构是否有兼职管理员农业信息资源建设有无独立农口政府网站农业数据库数量数据年增长率是否建有内部网络办公平台

由于上述指标是由多个要素构成的,各个要素数据具有不同的单位和量纲,其数值的变异很大,这会对分类结果产生一定的影响。因此,在进行聚类分析之前,首先要对聚类要素进行一定的预处理,消除各个要素之间的量纲差异。聚类分析中常用的数据预处理方法有中心化变换、规格化变换和标准化变换,本研究采用标准化变换对数据进行预处理,变换公式为:

2实证分析

采用MATLAB R2012b软件首先对样本数据进行标准化变换,之后运用类平均法将26个省份间的欧式距离进行测算,并在此基础上创建系统聚类树(图1)。

根据图1的聚类结果并结合我国各省(市、区)农业农村信息化发展实际经验,本研究将26个省(市、区)的农业信息化发展水平从高到低归纳为6类(表2),具体分类结果如下:

摘要:基于问卷调研数据,从农业信息化基础设施建设、人才队伍建设、发展环境建设和信息资源建设等4个方面筛选整理了18个具体评价指标,在此基础上采用聚类分析法将我国26个省份依照农业信息化发展水平分为6类,对分类结果进行了分析,并提出了缩小区域农业信息化发展水平差距、提高农业信息化发展水平的相关政策建议。

关键词:聚类分析;农业信息化;发展水平;评价研究;省际差异;政策建议

中图分类号: S126文献标志码: A文章编号:1002-1302(2014)09-0462-04

收稿日期:2013-11-04

基金项目:北京市农林科学院科技创新能力建设专项;“三电合一”农业信息服务项目。

作者简介:崔利国(1987—),男,河北邢台人,硕士,助理工程师,研究方向为农业农村信息化发展战略。Tel:(010)51503643;E-mail:cuilg@nercita.org.cn。

通信作者:李瑾,博士,副研究员,研究方向为农业与农村信息化。E-mail:lij@nercita.org.cn。农业信息化正在成为我国实现农业现代化的重要途径,在提高农业生产效率、增加农民收入、保障国家粮食安全、推进城镇化建设等方面均发挥了积极影响。2005年以来,中央一号文件均从不同角度对农业信息化建设作出指示,各地政府、科研院所和涉农企业也在推进农业信息化工作方面热情高涨,农业信息化评价研究也成为近年来学术研究的热点。近年来,不少学者对我国农业信息化发展水平进行了研究,研究方向主要分为2个方面:一是农业信息化发展水平评价体系的理论研究,并基于构建的评价体系对全国或某一地区的农业信息化发展水平进行定量研究[1-5]。有学者从农业信息化基础设施、技术装备、应用水平、主体水平、农业信息化对农业发展的贡献以及农业信息化政策环境等方面筛选了24个指标,初步建立了农业信息化发展水平评价体系[6]。二是对地区间农业信息化发展水平的评价研究。如有学者基于信息资源、信息应用、信息产业和信息人才等指标对山区县域农村信息化发展水平进行了研究[7],也有学者采取线性加权函数法和层次分析法对地市级农业信息化发展水平展开评价和分析[8]。此外,还有学者利用神经网络模型对省际间信息化发展水平进行综合评价与分析[9],这对比较我国省际间农业信息化发展水平具有借鉴意义。目前,我国在农业信息水平评价研究方面处于探索期,官方和学术界还没有形成权威的评价指标和完善的评价体系。学者们在研究农业信息化发展水平上主要是从地区经济发展水平、农业信息化基础设施建设、农业信息资源开发利用、农业信息技术和装备应用水平以及农业信息化人才队伍建设等方面着手,但由于指标选择上存在不一致,分析结果也往往存在差异。本研究参考已有学者的研究结论和指标体系建立方法,并结合已有的调研数据对我国主要省份的农业信息化发展水平进行比较研究,目的在于分析各个省份的农业信息化发展水平及其在全国所处的地位,为国家农业信息化主管部门和地方政府制定针对性的农业信息化发展战略提供支撑。

1研究方法与数据说明

1.1研究方法

1.1.1聚类分析方法概述农业信息化水平评价方法有神经网络模型[9]、因子分析法[10]和主成分分析法[11]等,尽管这些方法能够对多个对象的农业信息化水平进行较为客观的评价,但这些方法仅限于通过排序比较省际间农业信息化水平而不能有效地归类并寻找同类水平之间的共性和不同类水平之间的差异性,但聚类分析方法却可以解决这一问题,因此本研究选择聚类分析法来对我国各地区农业信息化发展水平进行评价研究。

自古以来,人们所讲的“物以类聚,人以群分”说的就是聚类,而在现代社会聚类分析是数据挖掘的一种方法,是指把整个数据分成不同的组,并使组与组之间的差距尽可能大,组内数据的差异尽可能小。聚类分析根据研究对象的不同分为Q型聚类分析和R型聚类分析,Q型聚类是指对样品进行聚类,R型聚类是指对变量进行聚类[12]。聚类不同于日常所说的分类,因为在分析之前并没有具体的划分标准,属于一种无监督学习[13]。聚类分析用于研究地区某一指标发展水平的文献也有很多[10-11,14-15],而随着我国农业信息化水平的不断提高和研究的不断深入,采用聚类分析等定量分析工具对我国各省份农业信息化发展水平进行评价和比较成为推动我国农业信息化水平持续发展的重要环节和手段,当前已经成为非常迫切的一个问题。

1.1.2聚类分析方法的数学步骤在聚类分析中,通常用G表示类,其中包含m个变量,一般用xi=(i=1,2,…,m)来表示,dij表示变量xi与xj之间的距离,DKL表示类GK与类GL之间的距离。类与类之间定义距离的方法有很多,常用的系统聚类方法有最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法等,本研究采用类平均法来定义类与类间的距离,因为类平均法很好地利用了所有样品之间的信息,在很多情况下它被认为是一种比较好的系统聚类法。类平均法定义的类GK与类GL之间的平方距离为:

1.2数据说明

1.2.1数据来源本研究所用数据来自农业部农业农村信息化发展战略研究课题组问卷调研,问卷内容主要涵盖农业信息化基础设施建设、农业信息化人才建设、农业信息化发展环境、农业信息资源建设等4个方面,数据为2012年的省级面板数据。调研范围涵盖大陆全部30个省(市、区),但由于部分省份的重要变量缺失,研究过程中剔除了河北、云南、新疆和广西4个省份,具体研究中只包括26个省份的样本数据。

1.2.2变量设定从已有的研究成果中不难发现,农业信息化技术应用水平是衡量一个地区农业信息化发展水平的重要指标之一,本研究在样本数据选择上并没有选择农业信息化技术应用情况的主要原因在于从调查问卷整理的数据结果中,关于农业信息化技术应用水平的调查选项不多,调查数据也不理想,导致在实际操作的时候数据确实无法使用,其他相关统计指标如表1所示。表1农业信息化发展水平评价指标

目标层准则层指标层农业信息化发展水平农业信息化基础设施建设固定电话普及率移动电话普及率电脑普及率已接入有线电视行政村比重接通宽带的乡镇比重光纤传输网是否到村农业信息化人才建设农业信息中心工作人员数量农业信息化发展环境农业农村信息化资金投入是否成立县级农业农村信息化工作领导小组是否制定全省相关农业农村信息化工程规划是否建立了农业农村信息化建设资金统筹管理制度农业行政主管部门是否有农业农村信息化投入专项是否设有农业农村信息化行政管理机构是否有兼职管理员农业信息资源建设有无独立农口政府网站农业数据库数量数据年增长率是否建有内部网络办公平台

由于上述指标是由多个要素构成的,各个要素数据具有不同的单位和量纲,其数值的变异很大,这会对分类结果产生一定的影响。因此,在进行聚类分析之前,首先要对聚类要素进行一定的预处理,消除各个要素之间的量纲差异。聚类分析中常用的数据预处理方法有中心化变换、规格化变换和标准化变换,本研究采用标准化变换对数据进行预处理,变换公式为:

2实证分析

采用MATLAB R2012b软件首先对样本数据进行标准化变换,之后运用类平均法将26个省份间的欧式距离进行测算,并在此基础上创建系统聚类树(图1)。

根据图1的聚类结果并结合我国各省(市、区)农业农村信息化发展实际经验,本研究将26个省(市、区)的农业信息化发展水平从高到低归纳为6类(表2),具体分类结果如下:

猜你喜欢
评价研究发展水平农业信息化
建筑业综合竞争力评价研究