朱明哲,任荣军,张建莉,张文军,何录娟
(1.河南科技学院,河南 新乡 453003;2.新乡县洪门镇政府,河南 新乡 453003;3.辉县市南寨镇政府,河南 辉县 453600;4.辉县市北云门镇政府,河南 辉县 453600;5.辉县市南村镇政府,河南 辉县 453600)
棉花区试品种的数量性状因子分析与聚类分析及综合评价
朱明哲1,任荣军2,张建莉3,张文军4,何录娟5
(1.河南科技学院,河南 新乡 453003;2.新乡县洪门镇政府,河南 新乡 453003;3.辉县市南寨镇政府,河南 辉县 453600;4.辉县市北云门镇政府,河南 辉县 453600;5.辉县市南村镇政府,河南 辉县 453600)
为对棉花区试品种进行聚类分析与综合评价,对参加新疆自治区2008年棉花品种区试(早中熟2组)的11个品种的早熟性、产量因素和纤维品质共17个数量性状进行因子分析.结果表明:前6个公因子对所考察性状总变异的累计方差贡献率达93.42%,反映了所考察性状绝大部分变异信息.根据各品种在各公因子上的得分值,以各因子对总变异的贡献率为权重,计算各品种的综合得分并排序,列前3名的依次为40428,THK-331,锦科255,它们高产优质,综合表现突出.据各品种在各公因子上的得分将11个供试品种从早熟、产量和品质的差异聚为4大类.第Ⅰ类有THK-331、40428、K-263、锦科255共4个品种,属较高产、中上质类品种;第Ⅱ类含99-6、M2、中49(CK)3个品种,为中高产量、中质类品种;第Ⅲ类有康地3052和99-9两个品种,为中产量、中下质类品种;第Ⅳ含X11006和9816两个品种,属高产、较优质类品种,并指出各类品种的主要产量与品质性状改良目标.综合评价结果与各品种的实际表现基本吻合.
棉花区试品种;早熟性状;产量性状;品质性状;因子分析;聚类分析
因子分析法是用较少个数公因子的线性函数与特殊因子之和来表达原观察样品的每个分量,是将多个具有相关关系的指标综合为少数几个主因子,通过对指标之间的相关矩阵内部结构的研究,找出数目较少且能控制所有指标绝大多数变异信息的主因子,以便合理解释原变量的相关性.因子分析在水稻、小麦、玉米、棉花等主要农作物育种研究中应用较多[1-5],研究结果使育种工作者在各世代进行选择和性状改良,提高了选择的效率和预见性.目前在研究多个数量性状之间的关系和对受多个性状影响的群体进行分类时,大多学者直接利用性状的原始观测值进行聚类分析.单独运用因子分析和聚类分析,前人已有不少的研究报道,如范濂等对T型杂种小麦的农艺性状进行了因子分析[6],胡立成等对黑龙江大豆品种进行了聚类分析[7].而将因子分析与聚类分析结合起来的研究也渐渐进入人们的视野,萧红等对冬小麦数量性状进行了因子分析和聚类分析[8],陈荣江等对大豆农艺性状进行了因子分析与聚类分析[9].本文旨在对棉花区试品种的早熟性、产量因素及纤维品质多项指标进行因子分析,以期找出支配多个性状的公因子,在各品种相应的公因子得分值的基础上进行聚类分析,为对棉花新品种进行综合客观评价及确定改良目标提供参考依据.
1.1 供试材料
分析材料采用参加新疆自治区2008年棉花品种区试(早中熟2组)的资料,参试品种有99-6、THK-331、M2、40428、康地3052、X11006、9816、99-9、K-263、锦科255、中49(CK),共11个品种,考察的早熟性状主要有生育期(x1/d),果枝始节(x2/节),霜前花率(x3/%);植株及产量因素性状包括:株高(x4/cm),单株铃数(x5/个),单铃重(x6/g),衣分(x7/%),籽指(x8/(g/100粒)),皮棉产量(x9/(kg/hm2));品质因素性状有:上半部长度(x10/mm),整齐度指数(x11/%),马克隆值(x12),比强度(x13/(cN/tex)),伸长率(x14/%),反射率(x15/%),黄度(x16),纺纱均匀指数(x17),共17个性状.
1.2 分析方法
采用因子分析、聚类分析方法,旨在找出具有生物学和专业意义的统计参数,为品种综合评价和确定性状改良决策提供有益的信息.数据的统计处理在SAS 9.0[10-12]和Matlab7.0[13]环境下完成.
2.1 考察性状简单统计
不同生态环境的产量性状平均值及变异系数是测定作物各性状受一定环境条件影响发生变异程度的一个指标,它能反映出作物性状遗传的基本动态.对本试验资料各品种的早熟性状、产量因素性状和品质因素性状进行统计,结果见表1.
表1 所考察性状的简单统计Tab.1 Simple statistical of all the characters
由表1可知,各试点平均皮棉2 421.14 kg/hm2,变异系数最大为11.74%,株铃数变异系数7.9%次之,表明这2个性状具有较大伸缩性,单铃重和衣分两性状的变异系数较低,分别为5.76%和3.76%,这2个性状较稳定,表明它们主要受遗传特性所控制,受环境因素及栽培条件的影响较小;果枝始节的变异系数为7.24%,显示出不同品种的早熟性存在一定差异,有较大的改良空间.各纤维品质性状的变异系数大小,依次为黄度>马克隆值>纺纱均匀指数>比强度>上半部长度>反射率>伸长率>整齐度,品质性状中马克隆值的变异系数为4.87%较高,不同品种纺纱均匀指数也有较明显的差异,具有较大的改良空间,而整齐度、伸长率与反射率较一致.
2.2 品质性状间的相关系数矩阵
对17个数量性状的相关系数进行计算(表略),结果表明:生长期与果枝始节(0.681*)呈显著正相关,与霜前花率(-0.842**)呈极显著负相关,与整齐度指数(-0.611*)呈显著负相关,与皮棉产量(-0.586△)达0.1水平的负相关;果枝始节与伸长率(0637*).呈显著正相关,与霜前花率(-0.559△)在0.1水平呈显著负相关;霜前花率与皮棉产量(0.768**)和整齐度指数(0.745**)均呈极显著正相关,与籽指(-0.530△)呈显著正相关;单株铃数与皮棉产量(0.606*)呈显著正相关,与整齐度指数(0.585△)达0.1水平的正相关;单铃重与衣分(0.626*)、伸长率(0.712*)均呈显著正相关;衣分与皮棉产量(0.770**)呈极显著正相关;籽指与上半部长度(0.729*)呈显著正相关,与比强度(0.869**)、纺纱均匀指数(0.785**)呈极显著正相关;上半部长度与比强度(0.603*)呈显著正相关,与马克隆值(-0.539△)和纺纱均匀指数(0.584△)在0.1水平上分别呈负、正相关;马克隆值与纺纱均匀指数(-0.611*)呈显著负相关;比强度与纺纱均匀指数(0.876**)呈极显著正相关;伸长率与黄度(0.597△)达0.1水平的正相关.鉴于以上性状间存在着错综复杂的关系,有的性状出现重叠,不便于专业解析,需要作综合性的因子分析,以找出影响各个性状的主要因子.
2.3 初始因子载荷矩阵
利用已得到的相关系数矩阵,通过SAS统计分析软件编程进行因子分析,结果提取6个公因子,其累积方差贡献率达93.42%,已代表所考察的全部性状的绝大部分相关信息.根据这6个特征值及相应的特征向量计算得到初始因子载荷矩阵,结果见表2.
表2 前6个初始因子的载荷矩阵Tab.2 Load matrix of the top 6 initial factors
2.4 载荷阵的方差极大旋转
因子分析的目的不仅是要找出公因子,更重要的是要明确每个因子的生物学意义.从表2可知,有的性状在几个公因子上都有较高的载荷值,同时具有中等载荷值的性状也不少,使得公因子的作用和意义含糊不清,不便于解释.为了合理地对公因子进行解释,需要进一步采用方差最大法对公因子轴进行正交旋转,求得方差最大正交旋转后的因子载荷阵,结果见表3.
由表3可知,经旋转后,各公因子中的载荷值已趋于两极分化,各公因子与有关性状的相关程度较高,其生物学意义更加鲜明.共同度表示所选公因子对变量总方差的贡献度,其值越大,说明所选公因子代表该变量的效果越好.从表4各性状的共同度可以看出:除上半部长度的共同度为83.0%外,其余各性状的共同度均接近或超过90%,表明所选的6个公因子能够较好地反映这些性状所包含的变异信息.在第一公因子中,以整齐度(x11=0.913)、单株铃数(x5=0.820)、霜前花率(x3=0.819)的载荷值较高,因此称为早熟因子.整齐度与霜前花率呈极显著正相关,说明选择霜前花率高的性状有助于提高整齐度;整齐度与生长期呈显著负相关,表明早熟性好可以提高棉纤维整齐度.在第二公因子中,比强度(x13=0.964)、纺纱均匀指数(x17=0.951)、籽指(x8=0.884)及上半部长度(x10=0.717)的载荷值较高,故称为纤维品质因子.因籽指与上半部长度呈显著正相关,与比强度、纺纱均匀指数均呈极显著正相关,说明优质铃发育好、籽指高对提高上半部长度、比强度和纺纱均匀指数均产生积极作用.第三公因子中,以果枝始节(x2=0.932)、生育期(x1=0.678)、伸长率(x14=0.573)较高,称为早熟性因子.选择生育期较短、果枝始节中等的性状会间接提高霜前花率.第四公因子中,单铃重(x6=0.974)最高,伸长率(x14=0.749)和衣分(x7=0.691)称为棉铃质量因子.单铃重与衣分、伸长率呈显著正相关,因此,选择单铃重高的性状会提高衣分和伸长率.在第五公因子中,以反射率(x15=0.963)的载荷值最高,因此称为反射率因子.它与马克隆值呈负相关,与纺纱均匀指数呈正相关,选择反射率高的性状,可同步降低马克隆值、提高纺纱均匀指数.在第六公因子中,株高(x4=0.953)最高,应称为株高因子.它与马克隆值呈负相关,与黄度呈正相关,说明植株高的性状可同步增加纤维细度,但会促使纤维黄度的提高,值得引起注意.
表3 旋转后因子载荷矩阵Tab.3 Rotated factor loading matrix
2.5 参试品种的综合评价
根据Thomson估计法,利用各参试品种所考察性状的标准化值,代入上述6个主因子中,求得每个品种相应6个因子的得分.将每个主因子得分进行规一化处理,以所选诸主因子对应的特征值占6个入选特征值总和的比例作为该主因子在品种综合评价中的权重,得权重向量W=(0.336,0.223,0.185,0.099, 0.090,0.067),将它与每个品种的得分向量作内积,求得各品种的产量和品质综合得分,并据此进行综合排名.结果见表4.
表4 各参试品种的主因子得分及综合得分Tab.4 The main factor score and comprehensive score of the test varieties
由表4可知,列前3位的是40428,THK-331,锦科255,排在中间的有9816、X11006、99-6、K263和中49(CK),倒数3位的品种依次为康地3052,99-9,M2.评价结果与这些品种在区试中的实际表现基本吻合,客观地反映了该组参试品种的产量和品质特征.
2.6 聚类分析
为了揭示性状间深层次的关系,明确品种间在早熟性、产量因素和品质因素性状方面的相似性和差异,对参试品种进行分析比较,给棉花新品种的优选和性状改良提供信息.基于以上求得的各品种在各主因子上的得分值,在此基础上取品种间相似度量为Cosine,采用average聚类方法,将参试的11个品种聚为4大类(见图1),各类品种的主要产量及品质指标见表5.
图1 参试品种聚类图Fig.1 Cluster figure of the tested varieties
表5 各类品种的主要产量及品质指标的平均值和标准差Tab.5 Average and standard deviation of the main production and quality index for each class variety
由图1和表5可知,第Ⅰ类含THK-331、40428、K-263、锦科255,共4个品种,该类品种的平均皮棉产量较高,为2 547.79 kg/hm2,其中尤以锦科255的皮棉产量最高,达2 916.30 kg/hm2,霜前花率最高,马克隆值最低,其他各品质指标均居中上水平,属较高产、中上质类品种.对此类品种的改良,除继续提高皮棉产量外,应着重提高棉纤维的上半部长度、整齐度和比强度;第Ⅱ类有99-6、M2和中49(CK)共3个品种,此类品种的平均产量为2440.85 kg/hm2,居中高产水平,而上半部长度(30.34 mm)、比强度(30.84 cN/tex)及纺纱均匀性指数(156.42)、马克隆值(4.06)均居中等水平,表明该类为中高产、中质类品种.其改良目标除注意提高产量外,应适当提高纤维的长、细度、强度.第Ⅲ类有康地3052、99-9两品种,该类品种的产量1 986.53 kg/hm2与霜前花率90.82%均处4类最低,品质指标中上半部长度较长,整齐度指数最低,其余各品质指标均处中等水平,为中产量、中下质类品种.对这类品种,除需要大力提高棉花产量外,还应着重全面提高纤维的综合品质.第Ⅳ含X11006、9816两品种,其平均皮棉产量2 572.88 kg/hm2居4类之首,其整齐度(85.22%)最高,马克隆值(4.02)稍高,比强度(33.39 cN/tex)及纺纱均匀性指数(167.50)最高,其余品质指标处中上等水平,为高产、较优质类品种.其改良目标除保持产量稳中有升外,应适当降低马克隆值,同时还应注重对其早熟性的改良.
对11个参试品种从早熟性、产量因素和纤维品质性状提取的6个公因子上的得分值进行聚类分析,将11个品种聚为4大类.第Ⅰ类有THK-331、40428、K-263、锦科255,属较高产、中上质类品种,对此类品种的改良,除继续提高皮棉产量外,应着重提高棉纤维的上半部长度、整齐度和比强度;第Ⅱ类有99-6、M2和中49(CK),为中高产、中质类品种,其改良目标为大力提高其产量,适当提高纤维的长、细度和强度.第Ⅲ类有康地3052、99-9,为中产量、中下质类品种,对这类品种,除需要大力提高棉花产量外,还要全面提高纤维的综合品质.第Ⅳ含X11006、9816两品种,属高产、较优质类品种,对此类品种改良,应保持产量稳中有升外,应适当降低马克隆值,还要注重对其早熟性的改良.根据各品种的产量和品质的综合得分得出排前3名的有4408,THK331,锦科255,倒数3位的品种依次为康地3052,99-9,M2,其余各品种排列居中,评价结果与实际情况相吻合.
本试验各品种的皮棉产量平均为2 421.14 kg/hm2,表明目前棉花育种在高产选育上有较大的进展.在纤维品质方面,从4类品种主要纤维品质性状的表现可以看出:平均上半部长度为31.32 mm,属中长绒纤维,符合纺中支纱的要求;平均比强度为31.80 cN/tex,属较高比强度等级,适纺低支纱(30 cN/tex),离纺高支纱(35 cN/tex)的要求还有较大的差距;马克隆值为3.92,为细绒棉A级范围;纺纱均匀性指数为162.11,属于适纺60支高强力优质棉(纺纱指数155).这一信息启示我们,今后应当改善育种方法,革新育种手段,在关注选育高产品种的同时,应加强纤维品质的选育力度.在实际育种工作中,除利用杂交育种基因外渗效应外,还可采用现代生物技术,通过外缘基因的导入,为棉花品质的改良提供新的机遇,以期在纤维的长、细、强度上有所突破,提高棉纤维的综合品质,为提升棉纺品质量提供物质基础.
[1] 陈荣江,张万琴,王文峰,等.棉花数量性状的因子分析与品种的聚类分析[J].福建农林大学学报:自然科学版,2009,38(3):225-230.
[2] 张桂英,张国权,罗勤贵,等.陕西关中小麦品质性状的因子及聚类分析[J].麦类作物学报,2010,30(3):548-554.
[3] 汤飞宇,程锦,黄文新,等.陆地棉高品质系数量性状的遗传变异与选择指数[J].棉花学报,2009,21(5):361-365.
[4] 殷延勃,马洪文,荣韫琛,等.宁夏水稻主要农艺和品质性状的因子分析[J].西北农业大学学报,1998,27(2):37-41.
[5] 康立宁,魏益民,欧阳韶辉,等.小麦品质性状的基因型因子分析[J].西北植物学报,2004,24(1):120-124.
[6] 范濂,徐国平.T型杂种小麦几个农艺性状的因子分析[J].河南农业大学学报,1987,21(1):1-7.
[7] 胡立成,姚远,李秀兰,等.黑龙江省大豆品种[J].大豆科学,1991,10(1):10-16.
[8] 萧红,裴新德.利用因子分析方法研究冬小麦数量性状及品种分类[J].北京农业大学学报,1991,17(4):17-24.
[9] 陈荣江,王莹.大豆农艺性状的因子分析及品种的聚类分析[J].河南职技师院学报,1998,26(2):20-24.
[10] Richard A J,Dean WW.实用多元统计分析[M].陆璇,葛余博,赵蘅秀,等译.北京:清华大学出版社,2001:388-418.
[11] Dallas J.Applied Multivariate Methods for Data Analysis[M].北京:高等教育出版社,2005:147-187.
[12] 高惠璇.SAS系统:SAS/STAT软件使用手册[M].北京:中国统计出版社,1997:508-530.
[13] Duane H,Bruce L.精通Matlab 7[M].朱仁峰,译.北京:清华大学出版社,2006:227-242.
(责任编辑:邓天福)
Quantitative traits factor analysis and cluster analysis and comprehensive evaluation of cotton regional test varieties
Zhu Mingzhe1,Ren Rongjun2,Zhang Jianli3,Zhang Wenjun4,He Lujuan5
(1.Henan Institute of Science and Technology,Xinxiang 453003,China;2.Hongmen Town Government, Xinxiang 453003,China;3.Nanzhai Town Government,Huixian 453600,China;4.Beiyunmen Town Government,Huixian 453600,China;5.Nancun Town Government,Huixian 453600,China)
In order to analysis and comprehensive evaluate of cotton regional test varieties,factor analysis was conducted to study 17 quantitative traits of 11 varieties including earliness,yield factors and fiber quality in 2008 cotton variety regional test(early to mediummaturity 2 groups)in the Xinjiang autonomous region.The results showthat:cumulative total variance contribution rate of the former 6 common factors to studied characters reaches to 93.42%,reflecting the most variation information.According to all varieties scores in all common factors,with the total variance contribution rate of all factors being weight,calculating the synthesis score of each variety and ranking,the top 3 varieties are 40428,THK-331,Jinke 255.They are high quality and outstanding overall performance.According to all varieties scores in all common factors,11 cultivars were clustered into 4 categories fromearly maturity,yield and quality difference.The first kind has THK-331,40428,K-263,Jinke 255 four species,belonging to high yield and medium-high quality varieties;The second kind contains 99-6,M2,mid 49(CK)three varieties,belonging to mediumhigh yield and mediumquality varieties;The third kind contains 3052,99-9 varieties,belonging to mediumyield and medium-lowquality varieties;The four kind contains X11006 and 9816 two varieties,belonging to high yield andhigher quality varieties.And research results point out the all varieties main yield and quality improvement target. Comprehensive evaluation results and the actual performance are identical basically.
cotton regional test varieties;earliness;yield traits;quality traits;factor analysis;cluster analysis
S562
A
1008-7516(2014)03-0001-07
10.3969/j.issn.1008-7516.2014.03.001
2014-03-31
河南省重点科技攻关项目(112102110089)
朱明哲(1926-),男,湖南永州人,教授,享受政府特殊津贴.主要从事生物统计教学与棉花科研工作.