李 婧,卢 玮,邢玉虎,杨子慧,陈俊英
基于多元统计分析的枸杞测评
李 婧1,卢 玮1,邢玉虎2,杨子慧1,陈俊英1
(1. 河北农业大学理学院,河北 保定 071000;2. 河北农业大学信息科学与技术学院,河北 保定 071000)
基于多元统计分析方法,针对专家所研究的大量供试农作物品种,利用主成分分析法提取影响试验品种品质的主要因素,通过回归分析得出供试品种的评价函数,并用聚类分析法对品种进行归类,为培育出的供试农作物品种的后续工作构建了一套流程。根据该流程并结合枸杞试验品种数据进行实例分析,证明了该方法的合理性。
农作物品质;主成分分析;回归方程;聚类分析
随着农作物领域科学技术的发展,我国农业科技水平取得了历史性进步,尤其是基础研究和高新技术研究迅速发展,在基因工程、单倍体育种等方面都有重大突破[1]。我国在23次航天生物学试验中,试验品种有4 500种,包括粮食作物、油料作物和经济作物等,已有200多个品种培育成功[2]。在专家们培育出的许多试验品种中,需要的是不同功效中品质最优的,而如何从海量数据中获得品质最优的试验品种尤为重要。
当对多个指标进行分析统计时,通常要用到多元统计分析。在农业作物培育中应用多元统计分析[3],能够充分掌握影响各试验品种品质的主要因素,以及不同品种之间的相似程度,从而更好地了解它们的本质。多元统计分析的方法有多种,本文涉及到的方法有主成分分析、回归分析以及聚类分析。
主成分分析是将原始变量按照一定的方式重新组合成一组新的互不无关的几个综合变量,同时根据实际需要从这几个综合变量中取出几个较少的综合变量,使提取出来的变量尽可能较多地反映原始变量信息[4];回归分析是通过数据处理建立变量之间的量化数学模型,可对问题的分析、判断、预测提供很好的帮助[5];聚类分析是指将对象的集合分组为由类似的对象组成多个类的分析过程,使每类内部元素之间的同性质最大化和类与类之间的异性质最大化[6]。
本文基于多元统计分析方法,针对专家所研究的大量供试农作物品种进行分析,进一步了解各试验品种的品质和不同品种之间的相似性和互异性,并对它们进行归类,提高农作物产品的管理效率,便利人们的生活。
本文所得数据来自宁夏农林科学院国家枸杞工程技术研究中心[7],其中包括对不同试验品种枸杞果实的VC、氨基酸、棕桐酸含量等10个主要品质性状的测定结果,如表1所示。
表1 15 份枸杞种质10 个品质性状测定结果
IBM SPSS Statistics 24。
2.3.1 数据标准化处理[8]
(2)对每个数据进行标准化处理
2.3.2 主成分分析[9]提取主要影响因素
标准化后的数据矩阵为:
用数据矩阵的每个观测向量,进行线性组合得到:
且满足:
2.3.3 回归分析构造评价函数
利用多元线性回归模型来构造评价函数,所构建的回归模型应为:
由主成分载荷矩阵通过回归算法可得到因子得分系数矩阵,进而可以直接确定出主成分得分的回归模型[10]:
2.3.4 聚类分析对试验品种归类
图1 系统聚类原理
根据所得不同品种的实验数据,以欧式距离为衡量各品质之间差异的大小指标,采用组间连接法对试验品种进行系统聚类分析[11],原理如图1所示。借助SPSS软件,可对导入的样本数据进行系统聚类,得出系统聚类图,进而对供试品种进行归类。
特征值表示对应主成分能够描述原有信息量的多少,通过主成分分析得到表2。
表2 解释的总方差
以表2中各个主成分的贡献率为权重,进行线性加权求和,得到综合评价函数为:
表3 成分得分系数矩阵
由上述评价函数我们可以得出所给15个不同品种枸杞品质的综合得分并进行排序,具体结果如表4所示。从表中可见,排在前3的品种分别为新疆枸杞、宁杞5号和宁杞3号。
表4 综合得分
通过系统聚类法,借助SPSS,得出分类树状图,具体如图2所示。将15种枸杞划分为4类:黑枸杞可单独聚为一类,黄果枸杞单独为一类,新疆枸杞和截萼枸杞聚为一类,其余11个品种聚为一类。
图2 聚类分析图
利用多元统计分析的方法对试验枸杞试验品种的品质进行分析,将主成分分析与回归分析相结合得出品种品质的评价函数,用聚类分析法对其进行分类,得出以下结论:
(1)品质排在前3位的试验品种分别依次为新疆枸杞、宁杞5号和宁杞3号这三个品种的VC、棕榈酸、亚油酸和甜菜碱的含量较高。
(2)把15个枸杞试验品种分成4类,各类都有各自的特性。黑果枸杞的特性是甜菜碱的含量高于其它品种,但其类胡萝卜素和棕榈酸含量较低;黄果枸杞的特点是黄酮含量高于其它品种,但棕榈酸含量偏低;新疆枸杞和截萼枸杞一类的特点是VC和甜菜碱含量优于其它品种;其余11个品种为一个新类,主要特点是类胡萝卜素含量较高。
通过本文所构建的一套流程,结合枸杞实验数据的实例,得出的上述结论,与原始的实验数据结论一致,说明了方法的有效性。
[1] 卢良恕.中国农业发展现状与展望[J].北方果树,2002, 25(5):1-4.
[2] 张慧婷.我国有200多种“航天育种”农作物培育成功[J].农家参谋(种业大观),2013,6(1):31.
[3] 章良容.农业生产条件对农业经济发展影响的多元统计分析[J].中国集体经济,2019,37(26):78-79.
[4] 蔡振禹,刘阳洋.基于主成分分析的建筑工程成本影响因素分析[J].数学的实践与认识,2016,46(13):15-22.
[5] 林宇驰,荣先钊.基于多元线性回归的供需平衡算法预测海南市住房[J].计算机产品与流通,2019,36(9):150.
[6] 吕卫平,张晓梅.基于SPSS的聚类分析应用[J].福建电脑,2013,29(9):20-23.
[7] 李越鲲,尹跃,周旋,等.枸杞主要品质性状的主成分分析与综合评价[J].湖北农业科学,2016,55(16):4220- 4223.
[8] 黄秋婷,冯振宇,马晓伟,等.卷烟批量数据标准化及评价方法的设计[J].云南化工,2018,45(10):38-43.
[9] 左继林,孙颖,吴妹杰,等.美国薄壳山核桃实生种源果实品质主成分分析与综合评价[J].江苏农业科学,2019, 49(18):235-239.
[10] 王利.基于回归分析的颜色与硫酸铝钾浓度辨识[J].辽宁高职学报,2018,20(12):73-75.
[11] 盛庭岩,索郎大吉,范月君.青稞品种(系)主要性状的聚类分析[J].青海草业,2019,28(3):7-11.
Evaluation of Wolfberry Based on Multivariate Statistical Analysis
LI Jing1, LU Wei1, XING Yu-hu2,YANG Zi-hui1,CHEN Jun-ying1
(1. College of Science, Hebei Agricultural University, Baoding 071000, China; 2. College of Information Science and Technology,Hebei Agricultural University, Baoding 071000, China)
Based on the method of multivariate statistical analysis, aiming at a large number of tested crop varieties studied by experts, the main factors affecting the quality of the tested varieties were extracted by principal component analysis. The evaluation function of the tested varieties was obtained by regression analysis, and the varieties are classified by cluster analysis, to build a set of process for the subsequent work of the cultivated tested crop varieties. According to the process and the data of Lycium barbarum, the rationality of the method is proved.
crop quality; principal component analysis; regression equation; cluster analysis
O29;S5-33
A
1009-9115(2020)03-0019-04
10.3969/j.issn.1009-9115.2020.03.006
河北农业大学理工基金(LG201614)
2019-10-08
2020-04-09
李婧(1999-),女,河北邯郸人,本科生,研究方向为数学与应用数学。
陈俊英(1981-),女,河南鹿邑人,硕士,副教授,研究方向为不确定性信息处理。
(责任编辑、校对:赵光峰)