何翠华,蒋 琴,余羽桔,余水祥,张 力,王 科
(成都工业学院 大数据与人工智能学院,成都 611730)
中药材天麻为兰科植物天麻(Gastrodia elata)的干燥块茎,具有息风止痉、平抑肝阳、祛风通络等功效。天麻生长于海拔1 200~1 800 m的林下阴湿、腐殖质较厚的地方,喜欢凉爽和湿润环境。天麻素是天麻的主要有效成分,可抑制或缩短癫痫的发作时间,还有降低外周血管、脑血管和冠状血管阻力,并有降压、减慢心率及镇痛抗炎作用。找出影响天麻有效成分天麻素合成的主要环境因素,对更好地实现天麻人工种植和开发,提高天麻素含量,具有十分重要的意义。
现有相关文献在天麻生长与生态因子的关系及天麻种植现状中,研究了温度、水分、光照等因素对天麻生长的影响[1];在影响山区林间天麻商品性状的重要因素中,研究了气候、土壤等因素对天麻生长的影响[2]。随着统计分析方法在现实应用中日益成熟,越来越多的关于医药植物的研究取得成果[3-11]。目前大多对天麻生长影响因素的研究是属于定性研究[12-14],由于不同地方环境的影响,不同产地野生及栽培天麻的品质有很大差异,刘玉亭等[13]针对影响天麻产量因素,如栽种土壤、环境条件、栽种期、种麻、栽种密度、营养物质、栽种方法、菌材培养等进行了一系列实验研究。
另外,对于影响因素较多,变量类型包括数值变量和分类变量等多种情况的分析提供了有力工具。主成分分析、聚类分析、Lasso回归、随机森林等统计方法对于变量的降维和重要性分析相比原来的回归分析,可以克服变量或变量类型较多、变量之间存在共线性等问题。[9]
本文以天麻种植数据为例,选取天麻素为因变量,年均温、最冷月均温、最热月均温、年降水量、年日照时数、无霜期、气候类型、土壤类型等因素为自变量进行分析。由于影响天麻素有效形成的因素太多,先对数值类型的变量采用相关可视化,直观观察各个因素之间的相关性,然后利用主成分对其进行降维,并将主成分的因子得分作为重要性排名的标准,再结合聚类分析,找出影响天麻素合成的主要因素。
数据的清洗是为了得到更好的实验结果。考虑数据中的特征是包含非数值型的离散化数据,需要将其整合为数值型数据,因此采用独热编码,其方法是使用位状态寄存器来对N个状态进行编码,每个状态都有独立的寄存器位,以产地气候类型和产地土壤类型为例,若属于这类天气,编码1;不属于,则编码0。将离散特征的取值扩展到欧式空间。此外为了保证数据的质量,使用标准化方法和盖帽法相结合,从而统一量纲、去掉异常值,对数据进行清洗。
设因变量天麻素为y,自变量年均温、最冷月均温、最热月均温、年降水量、年日照时数、无霜期、气候类型、土壤类型分别为x1,x2,…,x8,先通过z-score标准法将数值类型的变量x1,x2,…,x6转化为同一个量级,以保证数据之间的可比性,公式为:
(1)
式中:zij为第i种影响因素第j个样本的标准分数;xij为第i种影响因素第j个样本的数据;μi为第i种影响因素的均值;σi为第i种影响因素的标准差,i=1,2,…,6。
从标准化中z的得分大于3或者小于-3的结果被称为异常值,为了让异常值不影响后续的数据分析,使用盖帽法去处理数据中的异常值。盖帽法将某连续变量均值上下3倍标准差范围外的记录替换为均值上下3倍标准差值。
相关分析主要是分析变量间的相关性大小,其具体公式为:
主成分分析主要是结合降维的思想,将多个影响天麻素的因素进行降维,在原始影响因素变量的基础上,通过一定的线性组合得到多个综合变量,通过累积贡献率是否达到80%来确定主要的成分,再结合主成分的得分,对影响因素进行分析,得出主要的影响因素。
本文采用聚类分析,主要根据“物以类聚”的原理,将不同的影响因素进行归类,得到影响天麻素形成有效成分的主要类别。为了能够更加清晰地认识天麻素的影响因素之间的关系,引入欧氏距离聚类分析。欧式距离的计算公式为:
(3)
式中:dik表示第i种影响因素与第k种影响因素的距离(i,k=1,2,…,6且i≠k)。
把天麻素看作因变量,其他特征看作自变量进行分析。根据查看气候类型和土壤类型2个特征且设置为‘object’。对特征因子数据查看缺失值和唯一值,可以观测出数据信息没有缺失值以及数据的类型。部分读取结果见表1。
表1 部分地区元素影响
对文本数据进行独热编码,以气候类型为例,采用0-1进行处理,变量‘气候类型’共有52个离散特征,分别是亚热带湿润季风气候、亚热带大陆性湿润季风、亚热带季风气候、高原山地气候、亚热带季风性湿润气候等,使用独热编码之后部分结果见表2。
表2 气候类型数据的编码
此外对土壤类型也进行了同样的数据操作,将文本型数据转化了数值型数据。
2.3.1 标准化处理
为消除其他特征量纲、数据级等的影响,更客观地反映其他影响天麻因素的特征,将天麻素、年均温、最冷月均温、最热月均温、年降水量、年日照时数、无霜期等数据进行标准化处理。
标准化的目的是将不同数量级数据经过标准化处理后再进行比较,从标准化的结果中也可以看出数据存在异常值。
2.3.2 异常值处理
从标准化的结果中看出数据存在异常值,使用盖帽法处理后,最终部分数据见表3。
表3 异常值处理后的部分数据
由表3结果可知,z分数的值得分正常,消除了异常值。
根据影响天麻生长的数值类型的变量作相关性分析,得到相关图,其中颜色的深浅代表相关性的强弱,结果如图1所示。
从图1可以看出天麻素和年均温、最冷月均温、最热月均温、无霜期呈正相关,和降水量、日照时期呈负相关,并且其中无霜期、最冷月均温和年均温的相关性较高,呈中度相关偏上,产地年均温和无霜期呈中度相关,这也说明了各个因素之间的相关性较大。
图1 相关性可视化图
首先,对原始数据进行标准化处理,消除量纲影响。标准化处理后的变量记作zi(i=1,2,…,6)。
使用SPSS软件对所提取的特征因子进行相应的主成分分析,所得到的碎石图见图2。
图2 碎石图
由图2可以看出,随着特征值的逐渐减少,只需前面的较少的成分因子即可代替所有的信息量,结合前3个主成分的累计贡献率已经达到80%,故选取前3个主成分,所得的主成分方差解释以及相应的方差贡献率见表4。
表4 总方差解释表 %
采用SPSS计算得到相对应的3个主成分的成分矩阵见表5。
表5 成分矩阵
从表4可以看出,只需3个主成分即可代表所有的影响因素,并且从表2可以看出,方差最大的几个成分为年均温、最冷月均温、最热月均温,这也说明对天麻素影响最大的因素即为前3个。在所提取的主成分中,主成分1主要包含了年均温、最冷月均温、最热月均温、降水量,而其中主要凸显也是这4个因素,在主成分2中主要突出显示天麻所在的地理位置,主成分3主要突出显示产地年日照时数。
通过聚类分析,按影响天麻有效成分形成的主要因素进行聚类,得到变量的不同类别。对各个变量的聚类结果,绘制谱系图,结果见图3。
图3 影响因素谱系图
从图3中可以看出在聚类分析的结果中可以分为2类,一类为产地年日照时数,产地气候类型为亚热带、暖温带共存,产地土壤类型为黄棕壤;一类为年均温、最热月均温、年降水量、无霜期,气候类型为亚热带季风气候或亚热带湿润季风气候,土壤类型为黄壤。第2类对比主成分分析的结果可以发现,第2类的因子影响较大。
本文结合了统计分析方法,探索影响天麻素含量的重要因素,在探索过程中对数据的预处理方式结合独热编码、标准化等方法。本研究表明影响天麻素形成的重要因素有年均温、最冷月均温、最热月均温、降水量、无霜期、土壤类型,其中土壤类型影响较大的为黄壤、黄棕壤,气候类型影响较大的为亚热带季风气候。
从主成分的结果可以看到前3个主成分累计贡献率达80%,包含影响天麻素的大部分特征信息,此外从聚类分析的谱系图结果中可以看出,影响因素大致分为2类,一类为产地年日照时数,产地气候类型为亚热带、暖温带共存,产地土壤类型为黄棕壤,偏向于气候的影响;一类为年均温,最热月均温,年降水量,无霜期,气候类型为亚热带季风气候或亚热带湿润季风气候,土壤类型为黄壤,偏向于温度和土壤的影响。结合2个分析结果,在实际运用中建议在四川种植天麻时能够为天麻提供黄壤、均温、亚热带季风气候的适宜环境。