姚春燕 欧阳 付佳 刘念
摘 要: 文章对玉米光谱响应数据和蛋白含量的生化检测值进行横向、纵向整理分析与比较,分析蛋白含量引起光谱响应数据的变化,最终通过多元线性回归得到单一成分光谱分析模型.并且采用残差分析方法,从残差图中将异常点剔除,从而达到模型的优化.
关键词: 控制变量法 多元线性回归 最大似然理论 偏最小二乘法 残差分析
近红外光谱定量分析就是利用化学分析数据和近红外光谱数据建立模型,确定模型参数,然后以这个模型定量预测某些信息.
首先从广西某届研究生数学建模竞赛题中获取玉米样品的光谱响应数据和蛋白含量的生化检测值,建立单一成分光谱分析模型.
在研究该模型中,最关键的是要找出蛋白含量的生化检测值与光谱相应数据之间的关系模型.对此,可根据前100个样品的光谱响应数据和蛋白含量的生化检测值,从而检测我们所建立的模型是否合理.因其中的营养成分和影响因素不唯一,我们采用控制变量法,即当纤维含量与脂肪含量相同的情况下,为建立模型提供了明确的方向.
1.数据的分析
首先筛选出9组纤维含量与脂肪含量相同的样品,具体反应如下表所示:
2.数据的处理
2.1光谱波长的选取
对9组样品的光谱响应数据与光谱波长的变化作多元线性回归(如图1所示),设波长为自变量X、每一组样品的光谱响应数据为因变量Y.通过对9组样品所显示的图像进行分析,我们可得出蛋白含量在光谱波长为这些范围内时波动是最大的,详细可见下图:
对9组样品图像的峰值进行分析,得出7个波长值,即光谱响应数据在该七个波长处光谱响应数据波动最活跃,七个光谱波长对应的光谱响应数据如表2所示:
2.2回归分析
根据上表的七个波长分别得出前100样品光谱响应数据的对应值建立线性回归方程来预测因变量.设七个波长为自变量,波长对应的前100样品光谱响应数据的对应值为因变量.得出蛋白含量与前100样品光谱响应数据单一成分的光谱分析模型:
3.结论分析
3.1残差分析
对上述公式进行残差分析,并对异常数据进行剔除,用剩余数据重新建立回归方程,提高回归方程质量.对残差在置信带以外的数据都要进行检查,辨别是否是异常数据,如果是异常数据就要剔除.(如图2所示)
从残差图可看出数据的残差离零点的远近,当残差的置信区间均包含零点,這说明回归模型符合原始数据,否则可视为异常点,从而剔除7个异常点,即干扰数据.
3.2显著性检验
对多元线性回归进行回归方程及各自变量的偏回归系数于常数项的显著性检验.
从表3看出多元线性回归相关系数为0.000<0.05,具有显著性水平.
另外下图表明该模型的残差服从正态分布.
其对应的线性回归方程为:
剩余标准差为1.1232,说明此回归模型的显著性较好.
4.结论
通过模型的建立与分析,得到了比较良好的蛋白含量与前100样品光谱响应数据单一成分的光谱分析模型: