基于主成分分析的颜色与物质浓度辨识关系

2018-02-25 02:39李建军
电子技术与软件工程 2018年7期
关键词:多元线性回归比色法主成分分析

李建军

摘要 本文研究试纸上的颜色读数与溶液浓度的关系,以五种物质在不同浓度下的颜色读数为基础进行数据处理,确定颜色读数和物质浓度之间的关系,然后利用SPSS软件进行多元线性拟合,选取剩余标准差S进行分析,评价建立模型的优劣。文中采用主成分分析法来验证三原色维度对模型的影响,进而选取最佳拟合模型。

【关键词】比色法 主成分分析 多元线性回归

比色法是目前常用的一种检测物质浓度的方法,即把待测物质制备成溶液后滴在特定的白色试纸表面,等其充分反应后获得一张有颜色的试纸,再把该颜色试纸与一个标准比色卡对比,来确定待测物质的浓度档位了。不同人对颜色的观测误差,使得这一方法在精度上受到很大影响,随着照相技术和颜色分辨率的提高,更希望建立颜色读数和物质浓度的准确关系,本文以五种物质在不同浓度下的颜色读数为基础进行数据处理,确定颜色读数和物质浓度之间的关系,选取最佳模型进行准确应用。

1 基本理论介绍

1.1 拟合度分析和多元线性回归

数据拟合是建立模型逼近实际数据序列的过程,模型要尽可能符合实际体系,这是拟合的原则。一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测更符合实际,这就是多元回归,各元素与因变量之间呈线性关系时为多元线性回归。

1.2 主成分分析

主成分分析是利用降维的思想,将多个变量转化为少数几个主要变量(即主成分),各主成分之间互不相关,P为特征值总个数,对于特征值为λi的主成分,λi的贡献率ηi可用ηii/(λ1+λ2…λp)表示。λi较小的主成分被认为包含的是噪声,在分析时不将这些变量引入模型,达到降维的目的。

2 问题分析及模型建立

本文测得五种溶液(组胺、溴酸钾、工业碱、硫酸铝钾和奶中尿素)在不同浓度下五种颜色读数(红R、绿G、蓝B、色调H、饱和度S)与物质浓度的数据,利用Excel做散点图如图l。

同样处理其他四种溶液的数据散点,观察得出Y,与x.存在一定的近线性关系。

2.1 溶液的颜色读数与物质浓度之间的相关性分析

相关性分析是分析两个或多个具备相关性的变量元素,进而衡量两个变量因素的相关密切程度。两个变量间线性关系的程度,可用相关系数r来描述:

x,y变化的方向一致,如身高与体重的关系,r>0为正相关;|r|≥0.95显著相关;|r|≥0.8高度相关;0.5≤|r|<0.8中度相关;0.3 ≤|r|<0.5低度相关; |r|<0.3关系极弱;反相关,r<0;无线性相关:r=0。

本文采用Pearson相关系数,运用SPSS软件对5种物质在不同浓度下的颜色读数与物质浓度的相关性分析,可得溶液浓度与颜色读书之间的相关系数,具有显著相关性。

2.2 颜色读数与物质浓度的函数模型建立

通过对这五组数据多元线性回归中方差膨胀因子(ViF)可知此函數共线性极强,各个自变量出现交互作用,影响拟合准确度,所以采用主成分分析法排除共线性对模型进行优化。

利用SPSS对五组数据进行拟合,对组胺的主成分的提取及拟合(图2),组胺的浓度与蓝色读数的有关函数:Yi=-2.775x1+191.187;溴酸钾浓度与蓝、绿色读数的拟合方程为y2=-0.818xl-0.539x2+168.215;工业碱浓度与蓝色读数的拟合方程y3=-0.053x1+16.684;硫酸铝钾的浓度与蓝色读数的拟合方程:y4=0.344xl-50.431;奶中尿素的浓度与蓝色、绿色读数的拟合方程:Ys=-132.618xi+16.014x,+13606.314。利用剩余标准差S来对五个模型的优劣进行评定。五种物质的优劣顺序:工业碱>硫酸铝钾>组胺>溴酸钾>奶中尿素。

3 模型降维分析

维度,又称维数,是数学中独立参数的数目。本文把维度理解成可以决定色彩的因素个数,维度从5组颜色读数降到4维再降到3维研究拟合特征。由主成分分析可知,不同物质中,三原色R、G、B都起着重要影响,色调与饱和度相对较弱。

建立成分矩阵可以得到R红色颜色值占的主要成分最多且R=0.977,接下来将R红色颜色值的数据去掉,用剩下的四维数据再次进行主成分分析得到G绿色颜色值所占比重是最大的,且R=0.976;然后同以上步骤将G绿色颜色值去掉,可以看出B蓝色颜色值所在比重是最大的,且R=0.869,采用降维的方法来判断降维前后的显著性。降维的顺序是:五维、四维(去掉了色调H)、三维(去掉饱和度S)。

4 分析结果与模型评价

随着将每组的主要成分分别提出后,所得到的R复相关系数的大小也是随着提取由大变小的。由此得出R、G、B对模型都是有一定的影响。从表中的Sig值可看出去掉色调时有显著变化,去掉饱和度时没有显著变化,由此得出色调是影响模型的主要因素。

三原色与色调和饱和度具有相关性,采用主成分分析法利用spss来验证三原色维度对模型的影响,观察颜色读数维度从5逐步减小后spss做的回归分析,通过对R复相关系数的研究看出随着R、G、B的被提取,复相关系数的值也是越来越小,这说明颜色维度从5到4再到3,拟合模型最佳。

本文所建立模型的主要优点是:简单快捷、可以直接利用颜色读数来测定物质的浓度不足之处是:实验数据较少,模型存在一定的误差。

参考文献

[1]骆方,刘红云,黄昆编著,数据统计与分析[M].高等教育出版社,2015 (07):12-15.

[2]王凯,对色彩教学中色彩冷暖和色彩三要素之间关系的思考[J].文艺生活,2014 (04).

[3]冯国生,刘荣,吕振通,统计分析与应用(第2版)[M].机械工业出版社,2014 (02):26-30.

猜你喜欢
多元线性回归比色法主成分分析
光电比色法测定沥青黏附性的计算原理与误差分析
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用
比色法测定矿物中锑含量的方法创新与研究
微波消解-抗坏血酸-钥蓝比色法测定油脂中磷含量
比色法测定肉豆蔻八味胶囊中总黄酮含量