基于最优动态聚类新算法对水稻耐旱性的研究

2021-07-01 09:12陈庭木徐波陈子岩邢运高王宝祥
江苏农业科学 2021年10期

陈庭木 徐波 陈子岩 邢运高 王宝祥

摘要:为了建立水稻耐旱性判定适用且简化的标准,通过对175份水稻资源在水旱2种环境下的种植试验,系统测定地上部与根鲜质量及其他重要农艺性状,以旱、非旱环境性状比值作各性状胁迫系数,采用多种统计方法分析旱胁迫敏感指标,采用3种分类方法试图对所研究资源作耐旱性最优分类。结果发现,以旱处理地上部与根鲜质量为分类变量分为5类,利用轮回选择算法与多元方差分析方法结合,能对耐旱性作最优分类。最终筛选出5份耐旱性强的资源,其中三二矮与鸭血糯为优秀耐旱资源,可供耐旱选择使用;建立一个简易耐旱性标准,旱处理环境下地上部鲜质量达45 g以上,根鲜质量达1.5 g以上。

关键词:水稻耐旱性;胁迫效应;动态聚类;最优分类;轮回选择算法

中图分类号:S511.01   文献标志码: A  文章编号:1002-1302(2021)10-0052-05

发掘水稻抗旱资源、提高水稻抗旱能力、研究水稻抗旱机制已成为目前稻作研究的热点之一[1]。旱稻获得最高产量时,比水稻约可节约30%的灌溉水量,节水潜力巨大[2]。旱稻育种离不开水稻的耐旱性鉴定,而耐旱性鉴定离不开适当的指标选择及准确分类。汤圣祥等研究指出,旱稻育种要求稻根系发达,根粗而长,吸水能力强,另外还要叶片角质层厚,气孔应变能力强[3]。胡运高等研究指出,播抽历期、株高、单穗质量3项指数的变化与品种耐旱能力关系密切[4]。马廷臣认为,耐旱性与根系关系密切,与汤圣祥等结论相一致[3,5]。张燕之认为无论采用何种指标,育成高产品种才至关重要[6]。唐清杰等筛选鉴定出一批1级耐旱的野生稻资源[7],陆岗等用人工干旱和极限干旱后复水2种处理相结合的方法,筛选出(5)6013、红早糯、双桂1号、南京11/(5)6145、黄谷等31份耐旱性强的种质材料[8]。对耐旱性鉴定数据的有效分类,是准确判定水稻耐旱性的前提。

目前,統计分类研究中有系统聚类及动态聚类2类方法,前者经过近百年的发展,已经完善,其中主要包括8种系统聚类方法,聚类效果最好的是最小离差平方和法(WARD法)。孔宪旺等采用系统聚类法将20份种质聚为3个组群,其中第Ⅱ组群属理想的苗期耐旱种质[9]。系统聚类法计算结果稳定,但有不可克服的缺点,达不到最优分类的目的;动态聚类法相对而言更有优势,动态聚类主要代表为K-MEANS聚类法,在多个学科被广泛采用,其计算速度快,但不稳定,不同的初始分类方案会有不同的分类结果,达不到全局最优[10-11]。黄丽娟等研究了最小组内平方和法对单指标变量作最优动态聚类及缩张算法,实现多元指标最优动态聚类[10-11]。多元指标最优聚类采用协方差阵迹作为分类优化指标,不利于克服变量间的相关性及量纲不同的干扰,陆林花等研究了遗传算法对动态聚类算法的改进,但遗传算法因早熟收敛的特性,不能稳定地达到全局最优,可能陷入局部最优[12-14]。陈庭木等研究了一种新的进化算法——轮回选择算法,计算结果更稳定,能稳定达到全局最优解[15]。基于陈庭木等的算法,将目标函数改写成基于多元方差分析的类间差异指标VA,将分类中心作为待求参数,以VA最大化为标准,不断施行进化计算,直到分类方案VA收敛到极大值结束。笔者对175份水稻资源进行耐旱性鉴定,并应用新的最优动态聚类方法研究耐旱性的最优鉴定,以期为水稻耐旱性鉴定及育种提供理论支持及育种材料。

1 材料与方法

1.1 材料与试验考察指标

以连云港市农业科学院引进的175份水稻资源进行耐旱性鉴定,并以正常栽培作对照。试验于2019年于江苏省连云港市农业科学院东辛农场试验基地进行。干旱胁迫试验在旱池中进行,每个品种种1行,行长 133 cm,行距 30 cm。返青后停止灌水,当土壤体积含水量达30%时开始灌水,灌到土壤含水量饱和为止,不留水层,直到土壤体积含水量再次达到 30%;以此循环,直到蜡熟期停止。其他管理措施同一般水田[16]。

系统测定了地上部鲜质量、根鲜质量、株高、穗长、有效穗、总粒数、结实率及千粒质量在正常栽培及干旱栽培条件下的表现,计算各指标的胁迫指数,以各指标胁迫指数平均计算综合胁迫指数。

1.2 分析方法

采用3类分类方案。

1.2.1 以水稻干旱胁迫条件下地上部鲜质量及根鲜质量2个指标作二元系统聚类,采用马氏距离作样本间初始距离,并以WARD法作系统聚类,以分为5类的分类方案对每个指标作方差分析。

1.2.2 以水稻地上部鲜质量及根鲜质量胁迫指数2个指标作二元动态聚类,设定分为5类,对分类中心共10个参数作优化计算,以寻找使所有样本在分为5类时,类间差异最大化的分类方案作为最优方案。计算各样本与各分类中心的马哈拉诺比斯距离,以最小距离为归类标准,形成分类方案,以单因素多元方差分析计算各类间的多元指标差异,以差异最大化为分类方案选择标准,在每代进化计算中对考察样本集合仅保留较佳的指定个数(如100个),下代进化计算以上代较优分类方案为基础,再次通过杂交、突变2种变异手段形成新的分类方案,并完成较优分类方案的筛选。如此重复每代变异计算,直至分类方案收敛到指定标准形成最优分类方案。以上在陈庭木等研究成功的一种进化算法——轮回选择算法[15,17-18]基础上,改进目标函数计算规则与数据输入输出模块而成,目标函数使用分类方案的类间协方差矩阵与总协方差阵的行列式值的对数比作返回值。本方法采用计算数学与多元统计分析结合的精确分类方法,减少了人为分类造成的分类偏差,做到更精准地分类,类间差异极大化,做到分类回判率100%,远高于传统多元分类方法。

1.2.3 以水稻在干旱生长环境中的地上部与根部鲜质量2个指标作二元分类,设定分为5类,对分类中心共10个参数作优化计算,方法同“1.2.2”节。

1.3 分析软件

采用Excel 2010作基本统计与分析平台,用于概括统计、主成分因子分析(待申请软件著作权)与作图。采用单因素重复观察模型作方差分析,最优动态聚类方法采用陈庭木等编写C+ +类库(软件著作权《连农统计类库软件V1.0》编号:2016SR266205),相关分析等采用文献[17]的方法。数据交换接口采用C+ +类库(软件著作权《连农DSML文件读写程序软件V1.0》编号:2017SR562716)处理。最优多元动态聚类分析采用陈庭木等研究成功的轮回选择算法基础类RSBase继承,采用C+ +编程扩展成新的进化算法类RSMclassify计算(待申请软件著作权)。

2 结果与分析

2.1 水稻各指标表现

由图1可知,各指标在胁迫条件下生长均受到抑制,其中地上部鲜质量及根鲜质量受影响较大,其次为株高、总粒数与有效穗,结实率、穗长与千粒质量影响相对小。由图2胁迫指数可知,根鲜质量受胁迫程度最大,其次是地上部鲜质量。鉴于根与地上部生长是其他指标形成的基础,故耐旱性鉴定应当将根与地上部的生长作为首要考察因素。

2.2 主成分分析与因子旋转分析

对8种胁迫指数进行主成分分析,前6个主成分的变异才占到变异的85%以上,显示胁迫指数中的多重共线性不严重,各胁迫指数间相关性不强(仅地上部鲜质量胁迫指数与根鲜质量胁迫指数间,穗长胁迫指数与穗总粒数胁迫指数间有极显著偏相关)。因子分析表明,经过5次因子最大化方差正交旋转,获得旋转后因子载荷阵(表1),因子1主要由地上部鲜质量胁迫指数与根鲜质量胁迫指数构成,反映了胁迫指数28%以上的变异。结合图2,选定地上部鲜质量及根鲜质量相关指标作为分类依据作进一步研究。

2.3 系统聚类分析结果

采用旱胁迫地上部鲜质量及根鲜质量2个指标,以马氏距离作聚类距离,采用最小离差平方和法作系统聚类,表2显示在5类向4类并类时,并类距离急剧增加,所有分类方案的多元方差分析均极显著。由表3可知,以旱胁迫状态下的根鲜质量评判耐旱性更为关键,此结论与前人研究结果[3,5]相同。将类342判为耐旱类,共18个样本,类339判为不耐旱类,5类总趋势为根弱则地上部相对弱,且胁迫指数也低; 根強则胁迫指数也相对高。相对于一般分类要求,系统聚类结果较为理想,且计算结果也稳定,方法确定,结果唯一。

2.4 地上部鲜质量与根鲜质量胁迫指数最优二元动态聚类分类结果

由表3可知,采用动态二元聚类有极明显效果,胁迫指数在类间差异达到了极大化,地上部鲜质量胁迫指数、根鲜质量胁迫指数类间方差分析F值分别为90.295 5、252.574 8, 胁迫指数分化极大,但地上部及根鲜质量分化不理想,均不是最高,分化程度不如采用旱胁迫下地上部及根鲜质量的系统聚类所得分类结果。过分强调胁迫指数选择对耐旱性选择有利,但不利于选择旱胁迫下丰产品种,此与前人研究结果[6]相似。与系统聚类共同趋势是无胁迫生长量越大,耐旱性越差。

2.5 胁迫条件下地上部鲜质量与根鲜质量最优二元动态聚类分类结果

对胁迫条件下地上部鲜质量与根鲜质量作最优二元动态聚类,由表5可知,分类指标在类间差异达到了最大化,类间方差分析F值分别达到223.088 4、107.461 7,明显高于上文2种聚类方法,归属于耐旱类别的品种在旱胁迫条件下地上部与根鲜质量要高于其他分类方法。本法筛选耐旱条件下的丰产品种,比胁迫指数选择要直接且简洁。本法筛选出2类耐旱品种类别,一种为强根中强地上部,一种为中强根强地上部。2类在地上部鲜质量上有显著差异,但未达极显著水平,且均极显著高于其他类别。从耐旱根作用看,强根中强地上部材料更有价值,且材料份数少,这与前人研究结论[5]相似。从类4特性分析可知,强耐旱品种在无胁迫条件下,根生长量也较高且株高偏矮,有效穗与其他类差异未达极显著水平。本研究可得出,耐旱品种选育应重视根生长量,没有强根就没有耐旱品种;株高宜偏矮,有利于节水,减少水分无效蒸发,可以间接提高品种耐旱性;有效穗应选择较强的分蘖类型,穗粒数与千粒质量在各类间差异不大。这与前文2种分类方法有所不同,从稳产性角度说,过分强调大穗大粒不利,与普通育种相同。

本研究筛选出5个耐旱品种(表6),分别为三二矮、XX白稻、越粳618、横县畚禾、鸭血糯。三二矮品种非胁迫生长量不大,但胁迫条件下生长量最大,属于典型的耐旱品种,株高适中,穗型偏大,适合与丰产型品种杂交而选择丰产耐旱品种。鸭血糯属于特种稻品种,株高适中,丰产性较好,适合选育耐旱特种稻品种。其他3个品种相对来说不如这2个资源。

2.6 3种聚类分析结果对比

3种聚类方法各有特点,其中系统聚类方法系成熟方法,聚类稳定,可以作图分析各类间并类距离并判断样本间相似程度。人工直观选择适当的分类,但是否真的类间方差最大化,值得商榷。本研究中未达类间方差最大化且评出的耐旱样本数过多。对胁迫指数作最优动态聚类,能使胁迫指数在类间差异达到最大化,但由于胁迫指数选择不利于选择旱胁迫下的高产品种,仅是选择胁迫指数高的品种,而实质上很多是低产品种,在生产上难以利用。依据旱胁迫下地上部与根的鲜质量作为分类指标,采用最优动态聚类算法分类,能获得更精确结果,更易筛选得到耐旱且丰产的品种资源,如三二矮、鸭血糯。

最优动态聚类分析,采用了一种计算智能算法,对设定分类数后的分类中心进行规划求解,且以多元方差分析与计算智能相结合,筛选给定分类数下的最优分类方案,经多次试算,分类稳定,分类结果明显优于系统聚类,是值得推广的新聚类方法。

3 讨论与结论

3.1 最优动态聚类法在样本精确分类上的重要价值

动态聚类在生物学、经济学、医学及计算机图像识别等多个领域有重要应用,但经典动态聚类如K-MEANS聚类结果不稳定,很难达到最优分类的目的。系统聚类分类稳定性较好,但类间方差分析显著性达不到最优的目的。陈庭木等研究成功一种新的进化算法——轮回选择算法,相较于传统的遗传算法,能更稳定地达到全局最优解[15,17]。受其启发,将其开发的RSBase类改造成适合多元最优分类的计算机程序,向其中加入多元方差分析功能,找到全局最大类间差异的分类方案,经多次试算,本方法可稳定达到全局最优解,是一种可靠的分类方法,且能做到回判准确率100%,显著优于一般多元统计分析中的系统聚类、K-MEANS动态聚类、逐步判别分析等统计方法,有广泛的应用价值。由于采用多元统计方法计算分类方案及其统计参数,涉及大量矩阵求逆及乘法计算,计算用时较传统动态聚类K-MEANS多,本次分类计算近2 h,但结果更精确且稳定,可用于对待研究事物精确分类,且对回判准确性有高要求的分类任务。不过以后还要加强算法改进研究,在保证算法稳定性与准确性前提下,提高计算效率。

3.2 水稻耐旱性鉴定与分类标准问题

水稻耐旱性鉴定是旱稻育种的核心,学术研究中多以胁迫指数判断,胁迫指数研究要同时设定非胁迫与胁迫种植环境,工作量大,不利于水稻育种工作的进行。本研究中依据旱胁迫环境下根与地上部鲜质量作为选择依据,不仅减少了一半种植工作量,还能简化测定工作,贯彻“根”是根本才是旱稻选择与育种的根本方略。本研究选择出的2种代表型耐旱品种,可作为旱稻选择的对照标准与杂交利用材料,可将在旱胁迫条件下,地上部鲜质量45 g以上、根鲜质量1.5 g以上,作为耐旱品种判定标准。

参考文献:

[1]王一平. 旱稻种质资源遗传多样性研究[D]. 北京:中国农业科学院,2006.

[2]邹桂花. 水、旱稻需水差异及后期抗旱性遗传研究[D]. 武汉:华中农业大学,2007.

[3]汤圣祥,闵绍楷. 水稻品种改良技术讲座(9)耐逆境育种[J]. 中国稻米,1998(3):38-39.

[4]胡运高,王 志,黄廷友,等. 水稻品种耐旱性鉴定的形态学评价指标研究[J]. 西南科技大学学报(自然科学版),2006,21(1):102-108.

[5]马廷臣. 全基因组表达分析不同耐旱性水稻根系对不同强度干旱胁迫反应研究[D]. 武汉:华中农业大学,2009.

[6]张燕之. 水稻抗旱性鉴定方法与指标探讨[J]. 辽宁农业科学,1994(5):46-50.

[7]唐清杰,严小微,徐 靖,等. 海南普通野生稻资源不同生长期耐旱性鉴定与筛选[J]. 福建农业学报,2017,32(2):130-133.

[8]陸 岗,蔡庆生,梁耀懋,等. 水稻种质资源苗期耐旱性鉴定初报[J]. 广西农业科学,1998(4):7-8.

[9]孔宪旺,孙明茂. 水稻不同种质苗期耐旱性综合评价[J]. 江西农业学报,2019,31(4):1-7.

[10]黄丽娟. 动态聚类新方法及最优聚类算法研究[D]. 扬州:扬州大学,2006.

[11]顾世梁. 实现动态聚类全局最优的一种算法[J]. 江苏农学院学报,1996(1):57-65.

[12]陆林花. 一种新的基于遗传算法的动态聚类算法[J]. 计算机仿真,2009,26(7):122-125,158.

[13]姜灵敏. 基于改进遗传算法的动态聚类方法及其应用[J]. 科技管理研究,2005,25(11):217-219.

[14]谢全敏,夏元友. 基于遗传算法的边坡稳定性评价的动态聚类法[J]. 岩土力学,2002,23(2):170-172,178.

[15]陈庭木,方兆伟,王宝祥,等. 非线性回归模型参数估计的轮回选择算法[J]. 江苏农业科学,2019,47(18):253-260.

[16]王宝祥,余剑锋,徐 波,等. 水稻种质资源耐旱性鉴定与评价[J]. 北方农业学报,2018,46(5):1-8.

[17]陈庭木,徐大勇,秦德荣,等. 偏相关与通径分析的EXCELVBA程序设计[J]. 农业网络信息,2007(3):101-103.

[18]朱旭东. 水稻与陆稻的耐旱性及产量潜力的研究[D]. 杭州:浙江大学,2006.