范梓淼, 周菊玲
(新疆师范大学 数学科学学院,新疆 乌鲁木齐 830017)
育种杂交棉的品质分析
范梓淼,周菊玲
(新疆师范大学 数学科学学院,新疆 乌鲁木齐 830017)
摘 要:文章用主成分分析法分析了新疆南疆22种育种杂交棉的马克隆、上半均长、整齐度、短纤维、反射率、黄度等9项指标,目的是找出代表绝大部分信息的综合变量。结果显示:四个主成分可以代表原始信息85%以上的信息,降低了数据维度,极大简化了育种杂交棉品质评价程序,为客观准确的评价棉花品质提供了理论依据。
关键词:育种杂交棉;主成分分析;品质评价
棉花产业是新疆经济发展支柱产业,为新疆提供了大量的就业机会。在新疆棉花产业快速发展的同时,棉花自身出现了很多问题:如棉花品种“多、乱、杂”现象,且品种退化严重;原棉“类型单一、纤维一致性差、强力不足”等问题,这些都影响和制约新疆棉花产业持续发展。因此,培育出优质、丰产的广适棉为新疆育种目标[1]。而对育种杂交棉品质评价问题为首要问题。文章便是针对如何客观、正确地评价育种棉花品质,简化品质评价程序展开的研究。以新疆南疆某单位培育的22个育种杂交棉品种为例,对其马克隆、上半均长、整齐度、短纤维、反射率、黄度等9项指标进行分析。由于该数据指标多、数量级差异且各指标间可能有很大关联,因此文章选择主成分分析法解决。主成分分析是常用的多元统计方法,由于其降维的思想与多指标评价指标序化的要求非常接近,近年来更多地被应用于社会学、经济学、农学的评价中,逐渐成为极具特色的多指标评价技术[2]。
1主成分分析
1.1主成分分析原理
主成分分析(Principal Components Analysis)也叫主分量分析,在1933年由霍特林首先提出。主成分分析是利用降维的思想,在损失最少信息的条件下,把多个指标转化为几个综合变量的多元统计方法,这几个综合指标就成为主成分[3]。这些主成分的特点是,它们是原始指标的线性组合,且各主成分间彼此不相关。这样在研究指标多的问题上通过主成分分析就可以只考虑少数几个变量,滤去重叠信息的同时也不至于损失太多信息,便更容易抓住研究对象的主要矛盾,揭示其内部规律,使问题简化。
主成分分析的数学步骤如下:
设有n个样品,每个样品有p个指标,这样共得到np个数据,原始资料矩阵如下:
1.2建立模型
表1 公因子方差
*提取方法:主成分分析。
首先需要知道信息损失量,也就是 9个指标转化成新的综合变量提取原始指标信息的能力。可以从表1“提取”一列看出,除上半均长提取信息较少(0.699),即损失较大外,新的综合变量几乎包含了其他指标85%以上的信息,这就保证了接下来分析的客观性。
表2 解释的总方差
*提取方法:主成分分析。
在育种杂交棉品质评价的问题中,保留累积方差贡献率85%以上为宜。观察表2,前四个成分的方差累积率已达85.709%,因此文章提取四个综合变量,即主成分,就可保留绝大部分原始的信息,且起到了降维作用。再由表3成分矩阵分析知,第一主成分方差贡献率为36.774%,是分析的主要方面,它与强度(0.855)、整齐度(0.76)、成熟度(0.662)正相关,与伸长率(-0.866)、短纤维(-0.518)、黄度(-0.461)负相关。该主成分几乎涉及所有变量且各特征值绝对值大即显著相关,因此可称为品质综合因子,第一主成分得分高的品种,纤维整齐度好,纺出的纱强力高,外观色泽好。第二主成分方差贡献率为25.887%,与马克隆值(0.838)、成熟度(0.659)、短纤维(0.618)正相关,与上半均长(-0.583)、黄度(-0.49)负相关。第二主成分得分适中的品种棉纤维细度好,且可保证纤维平均长度,称为细度因子。第三主成分与反射率(0.883)正相关,称为反射率因子。得分高的品种,成熟度高。第四主成分与黄度(0.683)正相关,成为外观色泽因子[4]。
表3 成份矩阵(a)
*提取方法 :主成分分析法。a已提取了 4 个成分。
1.3计算得分并排序
表4 各主成分系数
由表4得到四个主成分y1,y2,y3,y4的线性组合为:
表5 各品种对应各主成分的得分
表6 各育种杂交棉品种得分
2结语
主成分分析法能够在面对变量较多,信息重叠的问题时,通过线性变换将多个变量减少为几个综合因子,简化算法,提高分析效率,其特点是提取出的主成分能够极大可能的反映原始数据的信息且主成分尽量互不相关。所以,主成分分析方法是解决此类问题行之有效的方法。文章中提取了累积贡献率达85%以上的四个主成分,分别是品质综合因子、细度因子、反射率因子、外观色泽因子,通过主成分得分可计算出各杂交棉品种得分,从而对培育杂交棉提供了指导意见。因此,此方法应用于农业等相关产业的指导中,将大有益处[5]。
参考文献:
[1] 崔建平.新疆棉花生产现状及持续发展建议[J].新疆农业科学,2008,(45):46-48.
[2] 李靖华.主成分分析用于多指标评价的方法研究[J].管理工程学报,2002,(1):39-44.
[3] 何晓群.多元统计方法[M].北京:中国人民大学出版社,2011,12.
[4] 朱明哲,等.杂交春棉纤维品质性状的多元统计分析[J].河南科技学院学报,2007,35(3):4-6.
[5] 王芳.主成分分析与因子分析的异同比较与应用[J].统计教育,2003,(5):1-17.
The Quality Characters Analysis of Breeding Hybrid Cotton
FAN Zi-miao,ZHOU Ju-ling
(DepartmentofMathematicalSciences,XinjiangNormalUniversity,Urumqi,Xinjiang, 830017,China)
Abstract:The breeding hybrid in the southern Xinjiang was assessed by using the principal component analysis. Nine indexes have analyzed including micromere, uniformity ration, reflectivity etc, so that calculated the new comprehensive variables which consists of most of the information. The results showed that 85% of the raw information could be described by the four comprehensive variables. By this way, the goal was achieved that the data dimension reduced, and then greatly simplifies the breeding hybrid cotton quality evaluation program. There’s theory for evaluating the quality objectively and accurately.
Key words:Breeding hybrid cotton; Principal component analysis; Quality evaluation
中图分类号:S114
文献标识码:A
文章编号:1008-9659(2016)01-058-05
[作者简介]范梓淼(1991-),女,新疆阿克苏人,硕士研究生,主要从事概率论与数理统计方向的研究。
[基金项目]新疆师范大学研究生科技创新基金资助(XYS201502011)。
[收稿日期]2015-10-25