孙彩玲,曲辉英,吕建华,田纪春*,张永祥,王守义,宋雪皎
基于主成分和聚类分析的山东省区试小麦品种(系)品质的综合评价
孙彩玲1,2,曲辉英3,吕建华3,田纪春1,2*,张永祥1,2,王守义1,2,宋雪皎1,2
1.山东农业大学农学院,山东泰安271018
2.作物生物学国家重点实验室,山东泰安271018
3.山东省种子管理总站,山东济南250000
利用主成分和聚类分析方法,对2008~2009年度和2009~2010年度参加山东省区试的297个品种(系)的小麦品质进行了分析和综合评价。结果表明,评价小麦整体的品质指标,可以提取三个主成分,第1主成分为蛋白质量因子(含面筋指数、沉淀值、形成时间、稳定时间),第2主成分为磨粉因子(含硬度指数、出粉率、吸水量、白度),第3主成分为蛋白数量因子(含湿面筋含量和籽粒蛋白质含量)。三个主成分的累计方差贡献率两年分别为77%和82 %,其中第1主成分的贡献率两年分别高达34.453%和36.291%,说明面筋指数、沉淀值、形成时间和稳定时间是影响小麦品质的主要因素。利用主成分分析评价小麦的综合品质,2009~2010年度96个样品中的泰农7058、05428、泰山4173、山农71等品种(系)得分较高,说明品质表现突出。同时综合各主成分的贡献率、不同指标的特征值大小和可操作性,提出在育种早期面筋指数、沉淀值和硬度指数可间接评价小麦品质。用R型聚类将10个品质性状聚为四类,其中三类性状(面粉白度另成一类)所包含的指标和主成分分析的三个主成分所包含的指标基本吻合。在主成分分析的基础上,对2009-2010年度96个样品进行了Q型聚类,其中第Ⅲ类群包括的6个品种(系)各类指标较高,结果和主成分综合评分中得出的品质较好的品种(系)结果一致,进一步验证了主成分分析可以用于小麦品种(系)品质的综合评价。
小麦品质;主成分分析;聚类分析;综合评价
小麦是世界上最重要的粮食作物之一,其种植面积、产量和贸易额均居世界第一位。山东省小麦总产处于全国第二位,其中优良小麦品种起着至关重要的作用[1]。省级区域试验是政府统一安排的对育成品系产量、品质和抗逆性的多点多年鉴定,是评选和审定品种的必要程序。参加省区试的品系品质状况既代表了近几年全省的育种水平,也代表了今后几年生产上推广品种的趋势。山东省在小麦品系的区试审定过程中,除十分重视产量提高外,也十分重视品质指标的考量,特别重视对强筋小麦品种的审定工作。近10年审定并推广的烟农19、淄麦12、济南17、济麦20、山农12和洲元9369等强筋小麦新品种,是山东小麦品质遗传改良上的重要进展,这些优质小麦品种在山东及我国优质小麦产业发展中发挥了重要的作用,获得了巨大的社会和经济效益[2]。
小麦品质是一个综合概念,主要指营养品质和加工品质两个方面,加工品质又分一次加工品质和二次加工品质[3]。实验室评价某个品种(系)优劣的指标可达36项。农业部行业标准(NY/T967-2006农作物品种(系)审定规范小麦)对区试品种(系)选择了容重、蛋白质含量、湿面筋含量、吸水率、稳定时间、最大抗延阻力、拉伸面积等几个指标对参试品系进行评价,其中对强筋小麦的基本要求为:容重≥770g/L,蛋白质含量≥14.0%,湿面筋含量≥30.0%,面团稳定时间≥7 min,最大抗延阻力≥350 E.U,拉伸面积≥180 cm2等[4]。山东省也选择了容重、蛋白质含量、沉淀值、湿面筋含量、稳定时间作为主要评价指标(2008年-2009年山东省小麦新品种区域试验年报)。由此可知,不论是国家还是省级区试,尽管选择了数项主要品质,但对某一品种品质评价还是逐项相互比较。前人很少采用统计学方法对多指标进行综合分析评价[5-8]。
主成分分析是一种多元统计分析技术,是将原来众多有一定相关性的单个指标组合成一组新的互相独立的主成分单元,在很少损失原有信息的前提下,通过降维将原来多指标转换为个数较少的彼此独立的新指标,揭示变量间的关系,有利于提高多目标育种的亲本选配效果和育种水平,在品质鉴定中也有利于提高多指标的评价效果,更好地评价某一品种(系)的品质水平,更好地进行品种(系)分类。当原始变量被换算成新变量后,其结果还可以进一步用于回归与聚类分析[9-10],从20世纪80、90年代开始主成分分析就已被应用到土壤、水质、食品、作物等各类性状的综合评价和分析[11-14],但主成分和聚类分析方法在国家和省区试品质鉴评中应用不多。
本研究以山东省种子管理总站提供的297份小麦区试品种(系)为材料,利用主成分分析和聚类分析研究硬度指数、出粉率、湿面筋含量、面筋指数、籽粒蛋白质含量、Zeleny沉淀值、吸水量、面团形成时间、面团稳定时间、面粉白度等10个品质指标,综合评价区试品种(系)的品质状况,为评价小麦品质和优质小麦品种的审定提供参考。
1.1实验材料
供试小麦品种(系)及抽样资料、样品信息均由山东省种子管理总站提供,2008~2009年度201个样品,2009-2010年度96个样品,其中2008~2009年材料为种植于山东省农科院作物所和大汶口农科所两个试验基地的混合样品,2009~2010年度材料为种植于长青国家区域实验站、山东省农科院作物所和泰安市农科院三个试验基地的混合样品,试验地均随机区组排列,每品种(系)设3个重复,小区面积13.34 m2,不少于6行区,试验区四周设不少于两个小区的保护行,大田管理按照当地常规高产小麦管理技术进行,机械收获晾晒后储藏作为品质测试材料。
1.2品质指标的测试仪器和方法
籽粒硬度指数:利用硬度指数测定仪按照GB/T21304-2007测定;籽粒蛋白质:Perton7200近红外分析仪按照AACC39-25方法测定;实验制粉:用BUHLER试验磨按照NY/T1094.1-2006方法,磨粉一周后进行品质测试;湿面筋含量和面筋指数:用Perton1500面筋仪按GB/T14608-1993方法测定;Zeleny沉降值:按NY/T1095-2006方法测定;吸水量、面团形成时间和稳定时间:用德国Brebender公司810104型粉质仪按GB/T14614-2006方法测定;面粉白度:用杭州大成仪器公司WSR-Ⅳ白度仪按照GB12097-1989方法测定。
1.3统计分析
主成分分析和聚类分析均采用SPSS13.0统计软件,主成分分析采用其中的Factor分析过程,因为量纲不同不能比较,所以须将原始变量进行标准化Z值转化,消除量纲使其具有可比性,Z值的计算公式:Z值大小相同、符号不同其代表的检测能力一致,因此在进行主成分分析数据标准化之前,用绝对值的方法将Z值处理为正数。聚类分析先进行标准化转化,以欧氏距离(Euclidean distance)作为关联矩阵,采用最长距离法(Furthest neighbor)进行R型(不同指标)聚类和Q型(不同样品)系统聚类,系统聚类后不同类群间的显著性测验采用t检验(P<0.01)通过Excel表格完成。
2.1两年区试小麦品质的主成分分析
利用主成分分析方法,将硬度指数(X1)、出粉率(X2)、湿面筋含量(X3)、面筋指数(X4)、籽粒蛋白质含量(X5)、Zeleny沉淀值(X6)、吸水量(X7)、面团形成时间(X8)、面团稳定时间(X9)、面粉白度(X10)等10个指标进行分析,将各指标的特征值、3个主成分的贡献率与累计贡献率列于表1,表中各特征根的大小代表各综合指标(主成分)遗传方差的大小,各特征根的累计贡献率表示各有关综合指标(主成分)对总遗传方差贡献的百分率。两年的分析均提取前3个主成分,各指标对不同主成分的贡献不同,根据各指标最大负荷量所在的主成分看出(表1),第1主成分包含了面筋指数、沉淀值和形成时间、稳定时间;第2主成分包含了硬度指数、出粉率、吸水量、白度;第3主成分包含了湿面筋含量和籽粒蛋白质含量。2008~2009年度(表中2009年数据)和2009~2010年度(表中2010年数据)的第1主成分的贡献率分别达到34.453%和36.291%,因其特征向量所凝聚的生物学信息量主要是面筋指数、沉淀值和形成时间、稳定时间之间的综合关系,故称第1主成分为蛋白质质量因子,认为是决定小麦品质的首要因子,4个参数同为正值,表明它们之间在遗传上是正相关关系,另外在4个参数中,稳定时间的特征值最大为0.925,说明在主成分1中其单个指标的贡献率最大,其次为形成时间;两年的第2主成分的贡献率分别为26.887%和30.421%,其特征向量所揭示的生物学信息是硬度指数和出粉率、吸水量、白度的关系,可以称为磨粉品质因子,其中硬度指数的负荷量最大,说明在主成分2中其单个指标的贡献率最大,白度的特征向量值为负值,表明与其他参数成负相关关系;两年的第3主成分的贡献率分别是15.760%和15.563%,包含湿面筋含量和籽粒蛋白质,可以称为蛋白质数量因子,两者之间为正向关系;两年的累计贡献率分别为77%和82%,虽然2009的累计方差贡献率略低,但该分析结果能够表达该数据的变化趋势。
比较两年影响每个主成分指标的特征值,相关方向一致,特征值的大小也比较接近,进一步说明以上分析结果的可靠性。综合考虑3个主成分的贡献率、每个主成分中单个指标的负荷量和检测方法的可操作性,筛选出面筋指数、沉淀值、硬度指数3个指标,在优质小麦育种早期加强选择,有利于提高稳定时间以及优质小麦的选择效率和综合评价的准确性。
根据特征向量可以构建各主成分与小麦品质各指标之间的线性关系,例如2008-2009年度第1主成分与各指标的线性关系为:Y1=0.105X1+0.089 X2-0.211 X3+0.871 X4+0.166 X5+0.817 X6+0.059 X7+0.887 X8+0.925 X9+0.054 X10;2009-2010年度第1主成分与各指标的线性关系:Y1=0.087X1+0.248 X2-0.146 X3+0.853 X4+0.068 X5+0.874 X6+0.116 X7+0.897 X8+0.900 X9+0.190 X10,以此类推,可以分别得出两年3个主成分的线性方程式。根据主成分的线性方程求得所有参试品种(系)的主成分得分和综合得分列入表3(仅列出2009-2010年96个样品的得分,2008-2009年度略,)。计算各个品种(系)的主成分值(因子得分),可充分了解品种(系)的品质特性,权衡每个性状在某个品种(系)中所处的位置和分量,较为系统直观地判断某一品种(系)性状的优劣,对育种工作和品种(系)评价提供更加科学的依据。综合得分越高,表明该品种(系)的综合品质性状越好(表2),样品品质的综合得分和实际表现基本吻合。
表1 小麦品质的3个主成分及特征向量Table 1 Principal component analysis of wheat quality
表2 96个样品标准化后主成分得分Table 2 Principal component scores of 96 samples after standardization
品种编号No.品种(系)名称Strain name第1主成分1stprincipal component第2主成分2ndprincipal component第3主成分3rdprincipal component综合得分Colligate scores综合排名Rank 27054288.96502.14101.17857.02882 28BD1004.89782.74103.00723.808413 290568521.77640.22620.16441.492485 30山农D0819 Shannong D08194.24063.20780.83323.497720 31济宁05鉴24 Jining05jian 246.38611.47563.14644.80197 32齐丰3号Qifeng 32.42840.92564.22213.244424 33泰农7018 Tainong 70181.81471.38091.45031.572083 34H70682.51172.23701.44512.163764 35汶农17 Wennong 172.59530.1004-0.28092.826140 36聊9817 Liao 98172.50621.37920.95751.879076 37SN560354.44651.77372.19963.296523 38汶农18 Wennong 182.92484.50441.95303.480921 39泰山4173 Taishan 41738.57722.09552.26806.42193 40山农71 Shannong 718.31501.99773.13536.16894 41SN055387 SN0553872.31402.69661.91502.352656 420464021.48210.70320.55121.094593 43山农044Shannong 0442.60790.54340.96511.950273 44中作155 Zhongzuo 1551.39211.03350.34201.128491 459839-602.77951.16271.31152.055267 460353734.42900.2424-0.09794.304010 47BPT060373.94391.56620.33753.098930 48烟0761 Yan 07612.89443.23941.65292.774443 49烟0717 Yan 07172.47492.38163.01472.653448 50泰山6219 Taishan 62192.72431.4122-0.18592.392255 51衡4399 Heng 43992.93530.84550.49752.238861 52烟农578 Yannong 5782.09363.20851.07452.482951 53济麦6097 Jimai 60972.63521.45791.56832.036568 5495-11.30121.04680.75451.082494 550553191.95540.99722.47932.018669 56烟99102 Yan 991023.61322.90690.80323.024633 579905122.21731.72762.61682.247760 58SN0558432.29001.90660.82951.903675 59By181.74952.21682.94062.406654 60BPT05362.53412.59570.82802.323957 61山农05-0149Shannong 05-01493.63951.03980.43022.840239 62天泰优麦2号Tiantai youmai 21.55080.31403.49702.747744 63泰农175 Tainong 1751.59031.38162.14751.767777 64鲁麦21 Lumai 212.40633.36953.36393.113929 65枣9926 Zao 99264.64651.75882.96703.572919 66淄麦0906Zimai 09063.32522.06903.42323.068531 67淄麦0907Zimai 09073.69171.39681.11402.711945 68泰山6395 Taishan 63951.58511.87592.52112.070765 69垦星一号Kenxing 11.77421.85231.03981.641579 70SN09-302.62810.62680.05772.204763 710553191.46541.06620.96651.205990 72济旱4085 Jihan 40854.92221.13500.93343.774715 73山农D919 Shannong D9193.45440.88220.46172.693547 74早白987 Zaobai 9873.49263.02341.90122.964634 75山农543096Shannong5430962.97693.22223.15623.121927 76SN7382.59562.06430.24582.254359 77TM2132.35843.30043.29413.049932 78山农0801 Shannong 08012.58363.20100.18362.840938 79德旱1号Dehan 10.52671.36172.00671.581182 80临072 Lin 0723.45152.67560.92942.825141 81兴农9号Xingnong 94.30771.14541.03303.227725
品种编号No.综合Ra 82菏麦97-28 Hemai 97-281.46450.91810.51301.122792 83德旱06-3Dehan 06-32.10371.00360.38921.597180 84鲁麦21 Llumai 212.51193.48192.34142.869237 85烟0836 Yan 08362.38711.74362.87032.425052 86济麦22 Jimai 222.79332.22232.54692.542550 87聊1709 Nliao 17092.47821.90971.01252.002471 88良星619Liangxing 6190.78851.75550.66341.291988 89H46865.24860.57421.12334.195012 90By201.96330.09850.54831.595681 91汶农15Wennong 151.31830.58580.05261.064995 92青丰2号Qingfeng 21.11450.89392.80442.058266 93山农紫麦Shannong zimai1.84720.54611.03941.395686 94汶农14 Wennong 142.34061.4435-0.03642.018270 95PH9540-551.62511.72300.70121.506784 96泰农2987Tainong 29876.56690.70461.57565.21116品种(系)名称Strain name第1主成分1stprincipal component第2主成分2ndprincipal component第3主成分3rdprincipal component综合得分Colligate scores排名nk
2.2区试小麦品质指标的聚类分析
系统聚类分析所得结果很大程度上取决于聚类所采用的遗传距离聚类方法。本研究以欧氏距离(Euclidean distance)作为关联矩阵,采用最长距离法分别进行了性状(R型聚类,图1)和样品的聚类(Q型聚类,2009~2010年度样品,图2),系统聚类结果可较客观地根据基因型遗传差异性与相似性特点。
从图1可见,在欧氏距离9.66处,籽粒硬度指数(1)、吸水量(2)、出粉率(3)等与磨粉有关的3个性状距离较近,聚为一类(Ⅰ),湿面筋含量(3)和籽粒蛋白质含量(5)等蛋白质数量性状聚为一类(Ⅱ),面筋指数(4)、稳定时间(9)、沉淀值(6)、形成时间(8)等蛋白质质量性状聚为一类(Ⅲ),白度(10)单成一类(Ⅳ),第Ⅲ类性状恰和主成分分析结果中的第一主成分吻合,第Ⅰ类恰和第3主成分吻合,聚类分析结果与主成分分析结果大体一致,进一步证明了主成分结果中蛋白质质量性状、磨粉性状和蛋白质数量性状对小麦品质的影响顺序。
在主成分综合评分的基础上,对2009-2010年度96个样品的综合得分采用欧氏最长距离法进行了聚类分析,在欧氏距离6.53处,96个样品被聚为5个类群(表3图2).其中的第Ⅲ类群的样品(编号6、27、23、31、39、40)在主成分综合评价中得分最高为6.38,且和其他四类达极显著差异(表3),其中的23号样品泰农7058综合得分7.87排名第一(表2),该样品的稳定时间达12.1 min,形成时间达5.2,面筋指数达90,硬度指数达72,在所有样品中均具有较高的数值,27号样品05428综合得分7.02排名第二,认为品质表现突出,综合品质性状优良。
表3 96个小麦样品5个类群的特征Table 3 The characters offive group for 96 wheat sample
图1 10个指标的R型聚类结果Fig.1 R clustering results of 10 traits
图2 96个样品的系统聚类结果Fig.2 Q clustering results of 96 samples
小麦品质是一个综合性状,主要由籽粒蛋白质、淀粉和脂类等组分及其特性所决定。传统的小麦品质评价只是单个性状的逐一比较,在国家小麦品种(系)审定规范中,虽然小麦品质以蛋白质含量,湿面筋含量,面团稳定时间等作为强、中、弱筋的分类标准,但仍然是单个指标的比较。通过主成分分析,可以了解供试品种(系)品质性状主成分构成因子及其特征和生物学意义,为品种(系)的客观评价和选育亲本的选择提供参考依据,进而筛选出不同用途专用优良品种(系)供生产应用[12]。本研究从2009~2010年度96个小麦样品中筛选出泰农7058、05428、泰山4173、山农71、056487、泰农2987等6个综合品质性状优良的优质新品种(系)。
通过对山东省区试小麦两年的样品进行主成分分析,提取的三个主成分对应了三类小麦品质因子(蛋白质量因子、磨粉因子、蛋白数量因子),从三个主成分的贡献率来看,应强调蛋白质量因子是小麦品质评价中的首要因子,磨粉因子也有较高的贡献率,应引起重视。前人的研究也证明对烘烤品质来说蛋白质或面筋的质比量更重要,当前品质育种应在一定蛋白质含量的基础上着重改良蛋白质和面筋的质量,沉降值与营养品质和烘烤品质的多数性状相关显著或极显著,是面筋质和量的综合指标且遗传力高,可用于早代大量品种(系)的筛选,且此法操作简单,在缺少粉质仪的研究单位,不失为一种有效的品质检验方法[7]。另从本研究的结果看出,磨粉因子相对于蛋白数量因子有较高的作用,蛋白质含量和湿面筋含量一直是业内小麦评价的依据,从本研究来说,磨粉因子里的硬度指数较之于蛋白含量也许有着更为重要的作用。
系统聚类分析既可以揭示品种(系)类群间的遗传差异与相互关系,又可以了解类群内品种(系)的遗传相似性[14],采用聚类分析对数据进行处理,可以表征和区分不同品种(系),具有揭示供试品种(系)品质的综合表现和同一性状差异分类的特点。两种方法结合起来能较好的对品种(系)进行评价,更好的了解品质性状的遗传相似性与差异性,为品种(系)改良提供客观依据。
[1]刘爱峰,程敦公,李豪圣,等.近年来山东省主要父本小麦育种材料的品质特性[J].山东农业科学,2010,5:15-20
[2]黄承彦,迟斌,曲辉英,等.山东省小麦品种品质状况分析[J].山东农业科学,2004,2:12-15
[3]田纪春.优质小麦[M].山东:山东科技出版,1995:2-3
[4]中华人民共和国农业部.农作物品种审定规范(小麦)NY/T967-2006[S].北京:中国农业出版社,2006
[5]马艳明,范玉顶,李斯深,等.黄淮麦区小麦品种(系)品质性状多样性分析[J].植物遗传资源学报,2004,5(2):133-138
[6]刘艳玲,田纪春.小麦主要品质性状影响面包烘烤的回归分析[J].山东农业科学,2004,2:16-19
[7]吕惠珠,韩建林,位国臣,等.小麦品质性状间的相关分析[J].莱阳农学院学报,2002,4:267-269
[8]杨金,张艳,何中虎,等.小麦品质性状与面包和面条品质关系分析[J].作物学报,2004,30(8):739-744
[9]陈四龙,李玉荣,程增书,等.花生品种(系)生物学性状的主成分分析和聚类分析[J].花生学报,2007,36(2):28-34
[10]宋江峰,李大婧,刘春泉,等.甜糯玉米软罐头主要挥发性物质主成分分析和聚类分析[J].中国农业科学,2010,43(10):2122-2131
[11]张瑞莲,袁海波,尹军峰,等.主成分分析与聚类分析在茶饮料汤色稳定性评价中的应用[J]茶叶科学,2010,30(4):287-294
[12]李德一,张树文.黑龙江省水资源与社会经济发展协调度评价[J].农业系统科学与综合研究,2010,1:75-79
[13]孟庆立,关周博,冯佰利,等.谷子抗旱相关性状的主成分与模糊聚类分析[J].中国农业科学,2009,42(8):2667-2675
[14]陶爱芬,祁建民,林培青,等.红麻优异种质产量和品质性状主成分聚类分析与综合评价[J].中国农业科学,2008,41(9):2859-2867
ComprehensiveAssessment on Wheat Quality in Regional Test of Shandong Based on Principal Component and Cluster Analysis
SUN Cai-ling1,2,QU Hui-ying3,LV Jian-hua3,TIAN Ji-chun1,2*,ZHANG Yong-xiang1,2,WANG Shou-yi1,2,SONG Xue-jiao1,2
1.College of Agronomy Shandong Agricultural University,Taian271018,China
2.State Key Laboratory of Crop Biology,Taian271018,China
3.Shandong Seed Administration Station,Jinan250000,China
Based on the principal component analysis and cluster analysis,we analyzed and comprehensively evaluated the wheat quality of 297 varieties participated in the regional test of Shandong province in 2008-2009 and 2009-2010.Three principal components were extracted for evaluating the overall wheat quality.The first principal component was protein quality factor(gluten index,sedimentation value and formation time,setting time).The second principal component was milling factor(hardness index,flour yield,water absorption,whiteness).The third principal component was protein quantitative factor(moisture content and grain protein content).The cumulative variance contribution rates of the three principal components were 77%and 82%,respectively.The contribution rate of the first principal component factors were 34.453%and 36.291%in the two years,which indicated gluten index,sedimentation value and formation time,setting time were the main factors affecting the wheat quality.From the evaluation results of 96 varieties in 2009-2010 based on principal component analysis,we found Tainong7058,Tainong05428,Taishan4173,Shannong71 and so on had high quality score, outstanding comprehensive quality traits.While integrated with contribution rates of principal components,the eigenvalues size of different indicators and maneuverability,we proposed that gluten index,sedimentation value and hardness index could evaluate the wheat quality indirectlyin the early breeding program.R-type analysis clustered 10 traits into four categories(flour whiteness into a separate category),in which indicators of three traits coincided with indicators of three components in principal components.Q-type analysis clustered 96 varieties in 2009-2010 based on principal component analysis,the indicators of 6 varieties in the group-Ⅲwere high,which agreed with the results of principal componentanalysis.That further validated the principal component analysis could be used for comprehensive evaluation of wheat varieties(lines)quality.
Wheat quality;principal component analysis;cluster analysis;comprehensive assessment
S324
A
1000-2324(2014)04-0545-07
2013-06-08
2013-08-06
国家转基因生物新品种培育科技重大专项(2008ZX08002-003、2009ZX08002-017B-03)
孙彩玲(1966-),女,本科,实验师,研究方向:小麦品质检测和研究.E-mail:suncailing66@sina.com
*通讯作者:Author for correspondence.E-mail:jctian@sdau.edu.cn