李建军
摘要 本文研究试纸上的颜色读数与溶液浓度的关系,以五种物质在不同浓度下的颜色读数为基础进行数据处理,确定颜色读数和物质浓度之间的关系,然后利用SPSS软件进行多元线性拟合,选取剩余标准差S进行分析,评价建立模型的优劣。文中采用主成分分析法来验证三原色维度对模型的影响,进而选取最佳拟合模型。
【关键词】比色法 主成分分析 多元线性回归
比色法是目前常用的一种检测物质浓度的方法,即把待测物质制备成溶液后滴在特定的白色试纸表面,等其充分反应后获得一张有颜色的试纸,再把该颜色试纸与一个标准比色卡对比,来确定待测物质的浓度档位了。不同人对颜色的观测误差,使得这一方法在精度上受到很大影响,随着照相技术和颜色分辨率的提高,更希望建立颜色读数和物质浓度的准确关系,本文以五种物质在不同浓度下的颜色读数为基础进行数据处理,确定颜色读数和物质浓度之间的关系,选取最佳模型进行准确应用。
1 基本理论介绍
1.1 拟合度分析和多元线性回归
数据拟合是建立模型逼近实际数据序列的过程,模型要尽可能符合实际体系,这是拟合的原则。一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测更符合实际,这就是多元回归,各元素与因变量之间呈线性关系时为多元线性回归。
1.2 主成分分析
主成分分析是利用降维的思想,将多个变量转化为少数几个主要变量(即主成分),各主成分之间互不相关,P为特征值总个数,对于特征值为λi的主成分,λi的贡献率ηi可用ηi=λi/(λ1+λ2…λp)表示。λi较小的主成分被认为包含的是噪声,在分析时不将这些变量引入模型,达到降维的目的。
2 问题分析及模型建立
本文测得五种溶液(组胺、溴酸钾、工业碱、硫酸铝钾和奶中尿素)在不同浓度下五种颜色读数(红R、绿G、蓝B、色调H、饱和度S)与物质浓度的数据,利用Excel做散点图如图l。
同样处理其他四种溶液的数据散点,观察得出Y,与x.存在一定的近线性关系。
2.1 溶液的颜色读数与物质浓度之间的相关性分析
相关性分析是分析两个或多个具备相关性的变量元素,进而衡量两个变量因素的相关密切程度。两个变量间线性关系的程度,可用相关系数r来描述:
x,y变化的方向一致,如身高与体重的关系,r>0为正相关;|r|≥0.95显著相关;|r|≥0.8高度相关;0.5≤|r|<0.8中度相关;0.3 ≤|r|<0.5低度相关; |r|<0.3关系极弱;反相关,r<0;无线性相关:r=0。
本文采用Pearson相关系数,运用SPSS软件对5种物质在不同浓度下的颜色读数与物质浓度的相关性分析,可得溶液浓度与颜色读书之间的相关系数,具有显著相关性。
2.2 颜色读数与物质浓度的函数模型建立
通过对这五组数据多元线性回归中方差膨胀因子(ViF)可知此函數共线性极强,各个自变量出现交互作用,影响拟合准确度,所以采用主成分分析法排除共线性对模型进行优化。
利用SPSS对五组数据进行拟合,对组胺的主成分的提取及拟合(图2),组胺的浓度与蓝色读数的有关函数:Yi=-2.775x1+191.187;溴酸钾浓度与蓝、绿色读数的拟合方程为y2=-0.818xl-0.539x2+168.215;工业碱浓度与蓝色读数的拟合方程y3=-0.053x1+16.684;硫酸铝钾的浓度与蓝色读数的拟合方程:y4=0.344xl-50.431;奶中尿素的浓度与蓝色、绿色读数的拟合方程:Ys=-132.618xi+16.014x,+13606.314。利用剩余标准差S来对五个模型的优劣进行评定。五种物质的优劣顺序:工业碱>硫酸铝钾>组胺>溴酸钾>奶中尿素。
3 模型降维分析
维度,又称维数,是数学中独立参数的数目。本文把维度理解成可以决定色彩的因素个数,维度从5组颜色读数降到4维再降到3维研究拟合特征。由主成分分析可知,不同物质中,三原色R、G、B都起着重要影响,色调与饱和度相对较弱。
建立成分矩阵可以得到R红色颜色值占的主要成分最多且R=0.977,接下来将R红色颜色值的数据去掉,用剩下的四维数据再次进行主成分分析得到G绿色颜色值所占比重是最大的,且R=0.976;然后同以上步骤将G绿色颜色值去掉,可以看出B蓝色颜色值所在比重是最大的,且R=0.869,采用降维的方法来判断降维前后的显著性。降维的顺序是:五维、四维(去掉了色调H)、三维(去掉饱和度S)。
4 分析结果与模型评价
随着将每组的主要成分分别提出后,所得到的R复相关系数的大小也是随着提取由大变小的。由此得出R、G、B对模型都是有一定的影响。从表中的Sig值可看出去掉色调时有显著变化,去掉饱和度时没有显著变化,由此得出色调是影响模型的主要因素。
三原色与色调和饱和度具有相关性,采用主成分分析法利用spss来验证三原色维度对模型的影响,观察颜色读数维度从5逐步减小后spss做的回归分析,通过对R复相关系数的研究看出随着R、G、B的被提取,复相关系数的值也是越来越小,这说明颜色维度从5到4再到3,拟合模型最佳。
本文所建立模型的主要优点是:简单快捷、可以直接利用颜色读数来测定物质的浓度不足之处是:实验数据较少,模型存在一定的误差。
参考文献
[1]骆方,刘红云,黄昆编著,数据统计与分析[M].高等教育出版社,2015 (07):12-15.
[2]王凯,对色彩教学中色彩冷暖和色彩三要素之间关系的思考[J].文艺生活,2014 (04).
[3]冯国生,刘荣,吕振通,统计分析与应用(第2版)[M].机械工业出版社,2014 (02):26-30.