数据量和颜色维度变化回归分析模型及其影响*

2022-03-13 12:35王文莉
关键词:数据量读数二氧化硫

王文莉, 刘 兮

(1.安徽城市管理职业学院;2.合肥师范学院)

0 引言

比色法指的是可以通过将比色卡与处理过的物质溶液的颜色进行对比,从而得出溶液浓度,但是肉眼观察存在一定的误差.在文献[1-2]中已经建立了相应的因子分析模型和回归分析模型,探究了颜色读数和物质浓度的数量关系.为达到“只要输入颜色读数就能够精准获得待测物质的浓度”这一目标提供了理论依据.该文在实验数据的基础上,建立了数据量和颜色维度发生变化时的模型,并对模型的有效性进行了分析,探讨此变化给模型所带来的影响.

1 问题的提出与分析

以二氧化硫为例,给出其在不同浓度下做出的3~5次观测实验数据(见表1).依据文献[2]中建立的颜色读数和物质浓度的完全二次回归数学模型,分别以B、G、R、S、H的读数作为5个自变量.此时的自变量都是25×1的列向量.随着实验次数的增加,此列向量的行数也相应增加,最后必然对模型的求解结果产生影响.另外,现有数据的颜色读数有5个维度分别是B、G、R、S、H.若其中某一个或者某两个指标能够由其他指标确定,则该指标就可以去掉,使得建立的完全二次回归模型的自变量个数由5个变得更少.

表1 观测的数据

2 数据量变化、颜色维度不变情况下的模型

在假定颜色维度不变的情况下,考虑了如下数据量的变化:将每个浓度下的观测数据由3~5个统一减少到2个.数据量发生变化,需要知道颜色维度B、G、R、H、S是否只受浓度的影响,因此按照文献[1]的方法进行了因子分析,见表2.

表2 二氧化硫同一浓度2次实验数据的因子分析

从表2可以看出,因子1的方差贡献率只有83.998%,比原来的方差贡献率84.637%减少了,这说明,减少实验次数会影响模型的准确性.简单起见,假设颜色读数只受浓度的影响,采用完全二次回归模型,调用MATLAB统计工具箱,利用不同的模式进行回归分析,分析结果见表3.

表3 二氧化硫同一浓度2次实验数据回归分析

从表3可以看出,此时纯二次回归模型的剩余标准差最小,是相对最优的模型,由此建立颜色读数与物质浓度的纯二次回归模型:

(1)

其中,Y为因变量,即物质的浓度.xi,i=1,…,5为自变量,依次代表颜色的5个读数R、G、B、S 、H.b0,b1,…,b5,bii(1≤i≤5)为回归系数,利用现有数据,计算b0,b1,…,b5,bii(1≤i≤5)的结果见表4.

表4 二氧化硫同一浓度2次实验的数据回归模型参数

为了检验模型的有效性,利用模型(1)和处理过的二氧化硫观测数据计算出拟合的浓度值.为了更直观的看出拟合值与实际值的差别,利用SPSS软件,画出相应的折线图如图1所示.

图1 二氧化硫同一浓度2次实验数据拟合的浓度与实际浓度的折线图

从图1可以看出,相比文献[2]的模型,现在模型对浓度的拟合值与实际值在有的地方差别较大.由此可以得出以下结论:数据越少,对模型的有效性影响越大,会造成误差越来越大.同一浓度下的实验数据应该越多越好.

3 数据量不变、颜色维度变化的情况下的模型

文献[1]已提到A R Smith在1978年从RGB色彩模式演化出HSV模型,HSV与RGB是可以相互转化的.因此在数据量不变的情况下,考虑颜色维度由RGBSH减少到RGB.去除S、H 2个读数后,得到在不同浓度下,RGB三维颜色读数的数据表.为了考察R、G、B与浓度的影响关系是否发生变化,利用SPSS软件做了数据的因子分析见表5.

表5 二氧化硫R、G、B数据的因子分析

从表5可以看出,成分1即浓度的方差贡献率为96.094%,可以说颜色的读数只受二氧化硫浓度变化的影响.利用MATLAB软件的统计工具箱,对只有R、G、B读数的数据做回归分析,分析结果见表6.

从表6可以看出,此时完全二次多项式模型的剩余标准差最小,是相对最优的模型,由此建立的颜色读数与物质浓度的数学模型:

表6 二氧化硫R、G、B数据的回归分析

(2)

其中,Y仍为因变量,即物质的浓度.xi,i=1,…5为自变量,仍然依次代表颜色的5个读数R、G、B、S 、H.其中b0,b1,b2,b3,bij(1≤i≤j≤3)的结果见表7.

表7 二氧化硫R、G、B数据的回归模型参数表

为了检验颜色的维度能否减少,采取与前面同样的处理,利用模型(2)和只有三维颜色读数的二氧化硫的数据计算出拟合的浓度值.为了更直观的看出拟合值与实际值的差别,利用SPSS软件,画出相应的折线图如图2所示.

图2 二氧化硫R、G、B数据拟合的浓度与实际浓度的折线图

从图2可以看出,以三维颜色读数建立的模型(2)对浓度的拟合值与实际值在有的地方差别较大.由此可以得出以下结论:颜色维度减少,虽然会提高浓度对颜色的决定影响,但会造成模型的拟合度的下降.所以,在用颜色读数检测物质浓度时,应获取尽可能多维度的颜色读数.

为进一步说明不能减少颜色读数的维度,考虑表8删去S、H读数,将剩下的R、G、B数据代入模型进行计算,结果见表8.

表8的最后一列给出了二氧化硫实际浓度与模型计算值之间的绝对误差.从表8的最后一列可以看出,模型求解出来的浓度值与实际值的差别非常大,最大误差达到了47.9274,最小误差也有3.8559,平均绝对误差达到了21.3163.这进一步说明,减少颜色读数的维度是不可取的.

表8 删去S、H读数后的模型计算结果

4 结论

综合以上的讨论,在数据量变化、颜色维度不变情况下可以建立纯二次回归模型、在数据量不变、颜色维度变化的情况下可以建立完全二次多项式模型.并得到以下结论:如果希望建立相对准确的颜色读数和物质浓度的数量关系模型,应在每一种物质浓度下做更多实验,并获取尽可能多维度的颜色读数.

猜你喜欢
数据量读数二氧化硫
基于大数据量的初至层析成像算法优化
高刷新率不容易显示器需求与接口标准带宽
宽带信号采集与大数据量传输系统设计与研究
党参中二氧化硫残留量的测定
读数
显色法快速检测10种中药材中二氧化硫残留
读数
读数
读数
“二氧化硫与二氧化碳”知识归纳