基于主成分分析与BP神经网络的桑椹黄酮提取含量建模研究

2016-07-15 03:51:44陈桂芬王英豪
关键词:桑椹BP神经网络主成分分析

陈桂芬,王英豪,王 兴

(1.福建中医药大学 a.管理学院; b.药学院, 福州 350122; 2.福建师范大学 软件学院,福州 350108)



基于主成分分析与BP神经网络的桑椹黄酮提取含量建模研究

陈桂芬1a,王英豪1b,王兴2

(1.福建中医药大学a.管理学院; b.药学院, 福州350122; 2.福建师范大学 软件学院,福州350108)

摘要:目前桑椹提取黄酮含量研究主要采用人工测量的方法,对其进行有效的预测较为困难。将主成分分析与BP神经网络结合建立科学、快速的桑椹黄酮提取含量预测模型。实测影响桑椹黄酮提取含量的4个因素组成数据样本,对该样本进行主成分分析,提取出影响桑椹黄酮提取含量的3个主成分,以这3个主成分数据作为BP神经网络模型的输入数据进行训练,用训练好的神经网络对桑椹黄酮提取含量进行预测。结果表明:该模型具有较高的预测精度,利用主成分分析和BP神经网络对桑椹黄酮提取含量进行预测以及检测是行之有效的。

关键词:桑椹; 黄酮;提取含量;主成分分析; BP神经网络

人工神经网络是一种模仿生物大脑的信息处理方法,具有强大的非线性函数映射功能[1],因其广泛的适应能力、映射能力和学习能力, 在非线性多变量系统的建模方面有着广泛的应用。误差反向传播(back propagation,BP)神经网络是人工神经网络中应用最广、最经典的一种神经网络[2]。目前已有学者将人工神经网络应用于中医药的研究,文献[3]将人工神经网络应用于基于舌诊的八纲辨证诊断;文献[4] 将概率神经网络应用于中医脉象识别;文献[5]建立抗衰老中药药效与其性味归经之间关系的BP神经网络模型。虽然人工神经网络在中医药的应用研究不少,但是其应用于中药成分提取含量的研究相对较少。主成分分析法( principle component analysis, PCA )是一种将数据进行降维的方法,与BP神经网络结合,能够简化网络结构,使网络得到较高的精度,提高建模质量[6]。

桑堪为桑科植物桑MorusalbaL.的干燥果穗,性味甘寒,具有生津润肠、补肝益肾、乌发明目等功效。桑堪资源丰富,可药食两用,含有丰富的黄酮类物质。黄酮类物质有很高的药用价值,具有抗氧化、抗癌、抗血管增生、消炎、抗变应性和抗病毒等功效[7-8]。对于从桑椹提取黄酮这一研究工作,人们通常采用人工测量的方法,由于提取工艺受到很多因素的影响,比如提取的浓度、超声波的时间、温度等,并且提取工艺操作过程复杂,研究工作量大,在提取工艺操作有误时,很难进行有效的快速检测。同时在研究过程中,由于对提取工艺的结果无法预测,导致大量的工艺操作提取率低。因此,需要通过一种快速、科学的方法对提取工艺和提取结果进行有效的检测。本文的研究基于主成分分析与BP神经网络桑椹黄酮提取含量预测模型,这是由于模型的预测精度较高,能实现有效的检测和预测。

1桑椹黄酮提取实验材料与方法

1.1试药与仪器

芦丁对照品(批号10080-200707,中国食品药品检定研究院); Al(NO3)3、NaOH、NaNO2、NaH2PO4、NaHCO3、C2H4OH等为分析纯;所用药材桑堪(批号为20120915的,产地福建省尤溪县)购置于福建中医药大学国医堂。

DV215CD型十万分之一电子天平(美国奥豪斯公司);KQ-500E型超声微波清洗器(昆山超声仪器有限公司);LC-20A型高效液相色谱仪(日本岛津公司);UV 9100型紫外-可见分光光度计(北京瑞利分析仪器公司);RE-52型旋转蒸发仪(上海亚荣生化仪器厂);HH-4型数显恒温水浴锅(国华电器有限公司);DHG-9240型电热恒温鼓风干燥箱(上海精宏实验设备有限公司);TDL80-2B型低速离心机(上海安亭科学仪器厂)。

1.2溶液配制

磷酸盐缓冲液(PBS, pH值6.8)配置:1 L双蒸水中溶入15.6 g的 NaH2PO4、1.9 g 的NaOH。对照品溶液配置:称取芦丁对照品5.2 mg置于25 mL量瓶中,加70%C2H4OH溶解稀释至刻度后摇匀,得到0.208 mg/mL芦丁对照品溶液。

1.3黄酮含量测定

参考文献[9]方法。在25 mL容量瓶中分别精密吸取0.5,1.0,2.0,4.0,8.0 mL芦丁对照品液,加入70%的C2H4OH至10 mL,再加入0.7 mL的 5% NaNO2并摇匀,放置6 min,再加入0.7 mL 的10% Al(NO3)3并摇匀,放置6 min,再加入5.5 mL的 4%NaOH,用70%C2H5O定容至刻度,摇匀,放置15 min后,以70%C2H4OH作为参比溶液,吸光度测定值为510 nm波长处。在本实验中选取料液比、乙醇浓度、超声时间、超声温度关键因素作为提取条件,通过吸光度值求得黄酮含量。实验总共采集了52组有效数据,部分实验结果如下表1所示。

2主成分分析法

主成分分析的基本思想是通过降维,将多个相互关联的数值指标转化为少数几个互不相关的综合指标的统计方法,这些综合后的指标就是原理多指标的主要成分。主成分分析基本原理如下:

表1 桑椹黄酮提取部分实验结果

假设对某问题研究涉及p项指标x1,x2,…,xp,则原始数据构成的p维向量为x=(x1,x2,…,xp)′。通常,问题研究涉及的指标具有不同的数量级和量纲,要消除这些指标造成的不合理影响,在主成分分析之前先标准化原始数据,即:

(1)

数据经过式(1)标准化后的矩阵用x表示,即将x=(x1,x2,…,xp)′的p个指标综合成p个新指标,新的综合指标可由原来的指标x1,x2,…,xp线性表示,即:

(2)

1)yj与yij(i≠j;i,j=1,2,…,p)相互无关;

2)y1为x1,x2,…,xp一切线性组合中方差最大者;y2为与y1不相关的x1,x2,…,xp所有线性组合中最大方差者;yp为y1,y2,…,yp-1都不相关的x1,x2,…,xp所有线性组合中最大方差者。新指标y1,y2,…,yp分别为原指标的第1,第2,…第p个主成分。主成分个数的选择取决于主成分的累积方差贡献率,通常方差贡献率的取值以 80%为宜[6]。

3BP神经网络

3.1BP神经网络基本原理

BP神经网络是一种多层的前馈神经网络,该算法由正向传播和反向传播两个过程构成。正向传播时,传播方向为输入层→隐层→输出层,每层神经元的状态只影响下一层神经元。若在输出层得不到期望的输出,则转向误差信号的反向传播流程。通过这两个过程的交替进行,在权向量空间执行误差函数梯度下降策略,动态迭代搜索一组权向量,使网络误差函数达到最小值,从而完成信息提取和记忆过程。图1给出了典型的3层BP神经网络结构。

图1 3层BP神经网络结构

3.2BP神经网络模型[10]

BP神经网络模型包括输出模型、作用函数模型、误差计算模型和学习模型。

1) 节点输出模型

隐节点输出模型为:

(3)

输出节点输出模型:

(4)

其中:f为非线性作用函数;q为神经单元阈值。

2) 作用函数模型

作用函数是反映下层对上层节点刺激脉冲强度的函数,又称刺激函数,一般常用的如tansig函数:

(5)

3) 误差计算模型

误差计算模型是反映神经网络期望输出与计算输出之间误差大小的函数:

(6)

其中:tpi为节点的期望输出值;Opi为节点计算输出值。

4) 自学习模型

神经网络的学习过程,即连接下层节点和上层节点之间的权重矩阵Wij的设定和误差修正过程。BP网络有师学习方式的自学模型为:

(7)

其中:h为学习因子;φi为输出节点i的计算误差;Oj为输出节点j的计算输出;α为动量因子。

4桑椹黄酮提取含量的主成分分析与BP神经网络组合预测模型

主成分分析具有降低数据相关性和降低数据维数的功能,神经网络具有较好的预测功能,将二者组合用于桑椹黄酮提取含量预测可以充分发挥各自优势,提高预测效率和精度,结合模型见图2。

图2 主成分分析与BP神经网络组合模型

4.1相关性分析

采用SPSS18.0软件进行黄酮含量提取因素相关性分析。输入因素为:料液比、乙醇浓度、超声时间、超声温度。输出因素为:黄酮含量。对输入因素数据进行Pearson相关系数检验,检验矩阵见表2。从表2可以看出,存在相关程度较强的输入因素,BP神经网络预测模型的精度必定会受此影响。 因此,对输入数据进行主成分分析是有必要的。

表2 含量提取各因素的Pearson相关系数矩阵

4.2主成分分析

由于料液比、乙醇浓度、超声时间、超声温度量纲不同,数据差异大,在进行主成分分析之前,对输入因素数据利用式(1)进行标准化处理。数据标准化后,利用SPSS中的主成分分析功能对这些数据进行分析,特征值及累计方差贡献率见表3,主成分因子荷载矩阵见表4。

表3 特征值及累计方差贡献率

表4 主成分因子荷载矩阵

从表3可知:前3个成分累计方差贡献率为85%,符合主成分的累计方差贡献率达到80%的要求。因此,前3个成分可以代表原始变量的绝大部分信息。表4给出了原始变量与各因子Y1、Y2和Y3之间的关系,根据表4写出因子表达式:

Y1=0.428X1-0.389X2+0.286X3+0.370X4

Y2=-0.199X1+0.406X2+0.970X3-0.092X4

Y3=-0.169X1+0.590X2-0.191X3+0.964X4

根据以上因子表达式对标准化后的数据进行主成分分析计算,部分主成分分析结果数据见表5。

表5 部分主成分分析结果数据

4.3BP神经网络模型的设计、预测与分析

本文利用Matlab2010b软件提供的函数工具及神经网络工具箱建立BP神经网络模型。BP神经网络模型的建立包括以下3个步骤:

1) 确定网络结构。网络结构主要包括网络的层数和每层的神经元个数即节点数。BP神经网络结构由输入层、若干个隐含层和输出层构成。理论上已经证明,具有一个隐含层的3层BP神经网络可以逼近在闭区间内的任何连续函数,因而可完成任意m维到n维的映射,因此本文采用含一个隐含层的3层BP神经网络对桑椹黄酮提取含量建模。输入、输出节点个数的确定与样本的实际应用相关。将主成分分析后得到的数据Y1、Y2和Y3作为输入变量,黄酮含量作为输出变量,即该模型输入层节点数为3,输出层节点数为1。隐含层节点数个数可以通过以下公式进行确定[11]:

(8)

其中:K为隐含层节点数个数;m为输入节点数;n为输出节点数;l为1~10之间的常数。为达到最优预测性能,经过多次测试后,最佳隐含层节点数K=10, 收敛速度最快。

2) 确定训练样本和测试样本。将经过主成分分析所得的52组样本数据集分成1~47组作为训练样本子集,48~52组作为测试样本子集。

3) 将训练样本进行网络训练,利用训练后的网络进行测试。进行神经网络训练之前,将样本数据进行归一化到[0, 1]范围内。用1~47组样本子集作为训练样本,对神经网络进行训练,用训练好的神经网络模型对48~52组样本子集进行黄酮提取含量预测。隐含层传递函数为tansig,网络训练函数为trainrp(弹性梯度下降法),输出层传递函数为purelin。训练过程中的参数选取为:最大训练迭代次数为10 000,训练目标为0.001,训练性能曲线如图3所示。预测结果见表6,PCA-BP网络预测最大相对误差为3.98%,BP网络预测相对误差最大为10.98%,最小为8.03%。由此可见,使用PCA-BP网络模型具有较高的预测精度,且明显优于未经主成分分析的BP网络。

图3 神经网络训练性能曲线

编号真实值预测值BP网络相对误差%PCA-BP网络相对误差/%4813.57715.06810.9814.1173.984912.02512.9918.0312.2101.545015.40513.9829.2414.8723.465116.39517.6287.5216.8802.965217.10915.6448.5616.6762.53

5结论

中药提取工艺过程十分复杂,受到很多因素影响,对其进行有效的预测和检测较为困难。本研究选取4种影响桑椹黄酮提取的关键因素,利用BP神经网络模型对提取含量进行预测,为了提高其预测的精度,利用主成分分析进行降维,减少影响桑椹黄酮提取含量的冗余因素,用所得的3个主成分因素建立BP模型。由仿真实验得到,5组检验样本的中相对误差最大值为3.98%,该模型预测精度较高,对桑椹黄酮提取含量的预测是行之有效的。通过该模型所预测的结果一方面可快速检测在提取工艺操作中所产生的失误,另一方面对预测提取含量较低的结果可控制其提取工艺操作。本模型的研究将为检测和控制中药有效成分的提取工艺提供一种新的思路,具有广泛的应用前景。

[1]GOVINDARAJU R S.Artificial Neural Networks in Hydrology.I:Preliminary oncepts[J].Journal of Hydrologic Engineering,2015,5(2):115-123.

[2]YU F,XU X.A short-term load forecasting model of natural gas based on optimized genetic algorithm and improved BP neural network[J].Applied Energy,2014,134(134):102-113.

[3]施明辉,周昌乐.人工神经网络在中医诊断中的应用现状与趋势[J].中国中医药信息杂志,2007,14 (1):2.

[4]郭红霞,王炳和,郑思仪,等.基于概率神经网络的中医脉象识别方法研究[J].计算机工程与应用,2007,43(20):194-203.

[5]麦其鹏,李续娥,吴艳华,等.复方抗衰老中药的性味归经与药效的BP神经网络研究[J].中国中药杂志,2010,35(24):3372-3376.

[6]陈建宏, 刘浪, 周智勇, 等.基于主成分分析与神经网络的采矿方法优选[J].中南大学学报(自然科学版),2010,41(5):1967-1972.

[7]CHEN P N,CHU S C,CHIOU H L.Mulberry anthocyanins,cyanidin 3-rutinoside and cyanidin 3-glucoside,exhibited an inhibitory effect on the migration and invasion of a human lung cancer cell line[J].Cancer Letters,2006,235 (2):248-259.

[8]LIN J Y,TANG C Y.Strawberry,loquat,mulberry,and bitter melon juices exhibit prophylactic effects on LPS-induced inflammation using murine peritoneal macrophages[J].Food Chemistry,2008,107:1587-1596.

[9]王英豪,陈志春,张理平.响应面法优化桑堪黄酮超声辅助提取工艺及对酪氨酸酶活性抑制研究[J].中国中医药信息杂志,2016,23(2):93-96.

[10]周品.MATLAB神经网络设计与应用[M].北京:清华大学出版社,2013:165.

[11]FENG C X J,GOWROSANKAR A C,SMITH A E.Practical guidelines for developing BP neural network models of measurement uncertainty data[J].Journal of Manufacturing Systems,2006,25(4):239-250.

(责任编辑何杰玲)

Research on Modeling of Flavonoids Extraction Content of Mulberry Based on Principal Component Analysis and BP Artificial Neural Networks

CHEN Gui-fen1a,WANG Ying-hao1b,WANG Xing2

(1.a.Management College; b.Medicine College,Fujian University of Traditional Chinese Medicine, Fuzhou 350122, China;2.Faculty of Software, Fujian Normal University, Fuzhou 350108, China)

Abstract:At present, determination of flavonoids extraction content of mulberry is mostly done manually, which is difficult to be predicted. A scientific and rapid prediction model was created through combining principal component analysis with BP artificial neural network. Data of 4 factors influencing the flavonoids extraction content of mulberry was obtained through experiments, and 3 principal components were extracted after principal component analysis of above data. BP artificial neural network was trained with above 3 principal components as input data, and then flavonoids extraction content of mulberry can be predicted through the trained BP artificial neural network. Experiment result shows that the prediction model has high prediction accuracy, so using principal component analysis and BP artificial neural network to predict flavonoids extraction content of mulberry is effective.

Key words:mulberry; flavonoid; extraction content; principal component analysis; BP artificial neural network

收稿日期:2016-02-23

基金项目:福建省自然科学基金资助项目(2013J01377);福建省教育厅A类项目(JA14087)

作者简介:陈桂芬(1978—),女,湖北黄冈人,硕士,讲师,主要从事医学信息管理研究。

doi:10.3969/j.issn.1674-8425(z).2016.06.016

中图分类号:R284.2

文献标识码:A

文章编号:1674-8425(2016)06-0096-06

引用格式:陈桂芬,王英豪,王兴.基于主成分分析与BP神经网络的桑椹黄酮提取含量建模研究[J].重庆理工大学学报(自然科学),2016(6):96-101.

Citation format:CHEN Gui-fen,WANG Ying-hao,WANG Xing.Research on Modeling of Flavonoids Extraction Content of Mulberry Based on Principal Component Analysis and BP Artificial Neural Networks[J].Journal of Chongqing University of Technology(Natural Science),2016(6):96-101.

猜你喜欢
桑椹BP神经网络主成分分析
桑椹
桑椹(外一首)
鸭绿江(2021年17期)2021-10-13 07:06:14
桑椹
桑椹提取物对胰蛋白酶的抑制作用及对小鼠胰腺组织的损伤
中成药(2017年5期)2017-06-13 13:01:12
基于BP神经网络的旅行社发展方向研究
商情(2016年39期)2016-11-21 09:30:36
主成分分析法在大学英语写作评价中的应用
大学教育(2016年11期)2016-11-16 20:33:18
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用
考试周刊(2016年84期)2016-11-11 23:57:34
复杂背景下的手势识别方法
BP神经网络在软件质量评价中的应用研究 
软件导刊(2016年9期)2016-11-07 18:25:50