采用期望最大化算法的半滑舌鳎性逆转性状高效遗传解析

2024-09-19 00:00:00宋禹昕常中宇高进赵云峰杨润清蒋丽

摘 要: 为了解析半滑舌鳎(Cynoglossus semilaevis)性逆转性状的分子遗传作用机制,定位筛选可用于性控育种的分子标记或侯选基因,本研究提出了一种期望最大化算法( Expectation-Maximization algorithm, EM),并基于该算法开展了半滑舌鳎性逆转性状的全基因组关联分析。EM算法直接使用阈模型中隐含连续正态分布表型的期望作为因变量,用迭代最小二乘代替logit 回归法的迭代重加权最小二乘,它具有比logit 回归法更直观、更易于编程的优点。本研究采用显著主成分控制群体分层后,使用EM 算法与logit 回归对对半滑舌鳎数据进行GWAS(Genome-wideAssociation Study, GWAS)分析。结果显示,EM算法结果无明显的假阳性或假阴性,比logit 回归法的检测效力更高。基于EM算法的全基因组关联分析共定位到13 个与性逆转性状显著关联的QTN (quantitative trait nucleotide,QTN),其中3 个QTN位于W染色体上,10 个QTN位于Z 染色体上。经过基因注释发现,上述定位获得的QTN位于LOC103396896、MALT1、ADGRD2、FBXl17、DMXl1、SMARCA2、DMRT1、LOC103397760、NEUR13 和PDLIM5a 基因区段内。当进行检索时发现,这些基因参与了其他物种中涉及性别决定或性腺发育等相关过程。本研究提供了一种基于EM算法的具有高检测效力的全基因组关联分析方法,同时也为半滑舌鳎的性逆转遗传机制解析和性控育种提供有效的理论指导。

关键词: 全基因组关联分析;半滑舌鳎;性逆转;主成分;期望最大化算法;广义线性模型

中图法分类号: S917.4 文献标识码: A 文章编号: 1000-2324(2024)04-0531-09

半滑舌鳎作为重要的海水养殖鱼类,其生长发育表现出巨大的性别差异,雄性比雌性成熟早、生长慢,雌性成熟个体的体重可达雄性的2-4 倍[1, 2]。由于这一特性,性别差异是半滑舌鳎的一种极其重要的经济性状[3, 4]。半滑舌鳎的遗传性别决定是由ZW染色体控制的,即“遗传雄鱼”为ZZ 型染色体,“遗传雌鱼”为ZW型染色体[5]。虽然半滑舌鳎的伪雄鱼现象的机制尚未有实质进展,但当前的研究主要集中在于确定遗传因素和后天环境因素对此现象的影响程度[5-6]。由于这种性别转变是不可逆的,造成了生理雄鱼比例过高,严重影响了其养殖经济效益。所以了解半滑舌鳎的性别决定机制进从而挖掘性别关联标记将为单雌性品种选育或高雌性比例养殖提供理论基础,有助于降低养殖成本,获得更大的经济效益[6-8]。

性逆转现象在昆虫、爬行动物、两栖动物和鱼类中均有发现[9-13],性逆转这类仅由0/1 数据所表示的间断性状被称为二元性状,这类性状一般不符合简单的孟德尔遗传定律,需要借助关联分析方法进行基因定位[14]。为定位半滑舌鳎的性别决定位点,早期相关研究多采用扩增片段长度多态性( AFLPs) 分子标记、微卫星标记等大分子标记进行基因分型[15-17]。随着简化基因组测序技术限制性位点关联DNA技术( Restrictionsite associated DNA, RAD)的应用和高密度连锁图谱的绘制[18, 19],高通量高密度的单核苷酸多态分子标记(Single Nucleotide Polymorphisms,SNP)被获得,在此基础上进行全基因组关联分析(Genome-wide association studies, GWAS)要比大分子标记更能准确的定位半滑舌鳎的性别相关的性状[20, 21]。此前的GWAS 研究发现半滑舌鳎在Z 染色体上可能存在参与性逆转发育过程的基因,例如:FBXl17 基因、si:deky-193c22.1基因、DAPK1( death-associated protein kinase 1)基因、ADGRD2 (adhesion G protein-coupledreceptor D2)基因、DMXL1 (Dmx like 1)基因和LOC103396896 基因[22-26]。这些针对舌鳎性逆转性状的GWAS研究多采用线性模型,然而由于群体分层会导致违背线性模型(linear model, LM)的正态分布假设中的残差方差,这可能导致关联分析结果呈现假阳性,所以LM 通常不适合分析二元性状[27]。对于二元性状,有研究建议使用基于logit 回归的广义线性模型(Generalize LinearModel,GLM)[27]。广义线性模型作为一种非线性回归模型,所分析的数据可以具有非线性或者非恒定的方差结构[14]。

虽然当分子遗传标记的效应很小且没有群体分层时,LM计算的p 值和基于GLM的logit 回归法结果可以近似等价[28],但实施线性模型的前提是表型数据要满足正态分布假设,否则会有假阳性的风险[27],所以应采用基于logit 回归的广义线性模型去分析二元性状。然而,每次求解广义线性模型需要进行迭代重加权最小二乘运算,这将比线性模型消耗更多时间和计算机内存,特别是当协变量比较多或所分析的群体较小时,logit回归还会产生严重的估计偏差[ 29, 30]。

本研究提出了一种基于期望最大化的广义线性模型算法用于分析半滑舌鳎性逆转性状。EM法不需要去求解二元性状阈模型[14]中隐含的表型,而是将阈模型函数产生的隐含连续正态分布的期望作为表型,此时用于求解计算的迭代方程与多元线性回归中的正规方程组是相同的,直接采用简单回归求解遗传标记的效应代替logit 回归的加权最小二乘进行运算。该期望最大化算法具有比单纯Logit 算法更直观、更易于编程的优点[31],同时也降低了广义线性模型的求解难度,避免了由权重引起的异常解。本研究在矫正群体分层后,再使用EM算法对半滑舌鳎性逆转性状进行GWAS 分析,并与logit 回归分析结果作比较,最后检验新方法的统计性质是否正常和对QTN的检测效力是否有所提高,同时对新检测到的位点进行分析。这些研究结果不但为半滑舌鳎性逆转性状的研究提供理论依据,同时也为鱼类二元性状分析提供了新的模型方法。