摘 要: 本文建立以二氧化硫浓度为因变量,以蓝色颜色值、绿色颜色值、红色颜色值、色调、饱和度为自变量的多元线性回归模型,通过MATLAB软件编程求解得二氧化硫的浓度与颜色读数之间的多元线性回归方程,将数据回代到回归方程中求出理论的二氧化硫浓度,并与实际浓度进行对比,运用绝对误差进行误差分析。通过减少不同二氧化硫浓度的数据量,再利用所求模型求解,并将不同数据量下模型的标准误差进行比较,同时在不同颜色维度(四维,三维,二维,一维)下分析对应模型的决定系数,通过决定系数大小的比较来比较颜色维度对模型的影响。
关键词: 物质浓度;颜色读数;多元回归线性模型;决定系数
一、引言
比色法是通过比较或测量有色溶液物质颜色来确定待测组含量的方法,如果是由人来观测,这一方法在精度上受到很大影响。但随着照相技术和颜色分辨率的提高,建立颜色读数和物质浓度的数量关系这一想法就被提出,即只要输入照片中的颜色读数就能够确定待测物质的浓度。本文根据提供的不同二氧化硫浓度与颜色读数的数据,对颜色读数与物质浓度之间的关系进行了分析与探讨,建立了颜色读数与物质浓度之间的数学模型,对模型进行评价和误差分析,并探讨了数据量与颜色维度对模型的影响。
二、 模型建立
对提供的数据,建立以二氧化硫的浓度为被因变量y,以蓝色颜色值x1、绿色颜色值x2、红色颜色值x3、色调x4、饱和度x5颜色读数为自变量的多元线性回归模型
其中,a0,a1,a2,a3,a4,a5为待定系数,ε为由其他因素引起的随机误差。
三、模型的求解
通过运行MATLAB脚本,得到因变量二氧化硫的浓度y与5个自变量的多元线性回归方程为
通过运行结果还可以得到决定系数R2=0.8996、F=34.0366以及该模型的残差分析图1 。可以得到:F=34.0366,设定显著性水平α=0.05,查询F检验临界值表,得到临界F0.05(3,31)=4.51值(变量数目为5,样本容量为25),因为F>F0.05(3,31)=4.51,表明模型的线性关系在的置信水平下显著成立。
从图1中可以看出,残差的置信区间基本包含零点,除第15个数据外,其余数据的残差离零点均较近,这说明“二氧化硫”回归模型能较好的拟合原始数据,而第15个数据可视为异常点。
四、模型的误差分析
将数据代入模型进行误差分析。通过EXCEL软件依次将蓝色颜色值x1、绿色颜色值x2、红色颜色值x3、色调x4、饱和度x5等实际颜色读数代入计算分析得到不同物质浓度的模拟值,再与数据中的实际值进行相减操作,△y=y-yi,得到绝对误差,计算结果如图所示
通过表1,图2研究分析得到,计算误差值的绝对值 |△y|,以估计绝对误差作为上限△ymax,得到最大的绝对误差△ymax=38.5513,此△ymax称为实际物质浓度y的“绝对误差限”。表明实际物质浓度值和理论物质浓度值的绝对值△y=|y-yi|越小,△y表示模拟数据值yi的精度越高。
五、数据量与颜色维度对模型的影响
1、数据量对模型的影响
根据建立的模型,利用EXCEL软件和运用公式 (E为误差=测定值—真实值),计算二氧化硫的实际浓度和理论浓度之间的标准误差w=16.1672,随机将数据中的二氧化硫不同浓度下的组数都改为3组,算出标准误差为w1=16.3727。同理将组数改为2、1组时,依次得到的标准误差依次为w2=16.38450793,w3=20.9514。通过上述分析可得:w>w1>w2>w3,即当二氧化硫不同浓度下的数据量减少时,误差也变得越来越大。所以当数据量越多时,模型的误差越小。
2、颜色维度对模型的影响
通过对的数据的分析,探讨颜色维度对模型的影响,发现缺少某些维度对物质浓度影响不大,将数据中的R列数据表示为1,G列数据表示为2,B列数据表示为3,H列数据表示为4,S列数据表示为5,设R(i)为颜色维度。
运用MATLAB軟件编程求得不同颜色维度下对应的决定系数,再对同个维度的决定系数的平均值进行求解,如下表:
由表2可知: R2(5)>R2(4)>R2(3)>R2(2)>R2(1)。所以当维度越多时,模型对数据的拟合度越好;而维度越少时,模型对数据的拟合度越差。
六、结论
当数据量减少时,模型误差也变得越来越大;当数据量越多时,模型的误差相对越小。通过决定系数大小的比较来比较颜色维度对模型的影响,发现维度越多时,模型对数据的拟合度越好;而维度越少时,模型对数据的拟合度越差。
参考文献
[1] 李艳娇,多元线性回归的MATLAB实现,常熟理工学院学报,28卷2期:49页,2014年.
[2] 瞿国栋,误差理论与数据处理,北京,科学出版社,2016年.
作者简介:陈薇(1989.11.25),女,汉族,籍贯是湖北省咸宁市;2016年6月毕业于武汉理工大学,理学硕士,主要研究方向为应用数学;现供职于广东岭南职业技术学院,助教。