线性回归在海关棉花实验室数据分析中的初步应用

2022-08-02 00:49乔龙王宏郝红娟
质量安全与检验检测 2022年3期
关键词:海关克隆线性

乔龙 王宏 郝红娟

(1.中华人民共和国滨州海关 山东 滨州 256603;2.济南海关技术中心滨州实验室)

1 前言

海关“十四五”大数据应用规划明确指出“建设智慧海关,打造数据驱动的业务科技一体化新模式,进一步提升海关工作智能化水平”[1]。滨州海关棉花实验室依托机器学习中的线性回归算法,对检测数据进行分析,通过反馈结果及操作员抽检相符率进行分析,有针对性地查漏补缺,及时改进和完善实验室管理体系,确保检测数据的公正性、准确性和科学性[2]。本文通过不同技术路径,对试验数据进行线性回归分析,以期为相关人员提供参考。

线性回归是利用数理统计中的回归分析,确定2种或2种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数,对一个或多个自变量和因变量之间关系进行建模的一种回归分析。各个数据点都沿着一条主轴来回波动的问题属于回归问题,其是一类预测连续值的问题,能够满足该要求的数学模型为回归模型,线性模型是其中的一种。

线性模型是通过线性回归分析技术,为给定的数据集中建立运算模型,构建代价函数(Loss Function),以优化代价函数为目标,确定模型参数,即用一个最接近真实结果的数据模型,尽可能准确地以线性方式预测未来实际发生的数值或结果。

2 调湿平衡前后棉花马克隆值测试结果分析(一元线性回归)

2.1 试验方法

按照GB/T 20392—2006《HVI棉纤维物理性能试验方法》和《HVI 1 000大容量纤维测试仪应用说明》,使用HVI 1 000大容量纤维测试仪,分别对样品棉花进行马克隆值检测。

2.2 样品选择

选取进口量相对较大的印度皮辊棉、美国锯齿棉这2种轧工方式不同的棉花作为样品。取10份印度棉花样品(皮辊棉)和10份美国棉花样品(锯齿棉),待样品开松至正常状态后进行检测;将样品放置于温度为(20±2)℃、相对湿度为(65±4)%的恒温恒湿条件下,预调湿平衡24 h,再次进行检测。

2.3 实验数据

2种样品的马克隆值检测结果详见表1[3]。

表1 马克隆值检测结果

2.4 分析方法选择

采用一元线性分析,利用已知预调湿前的马克隆值,预测预调湿后的马克隆值的平均变化。先分析皮辊棉样品的检测数据,因变量Y=预调湿后的马克隆值;自变量X=预调湿前的马克隆值,则Y=aX+b,式中,a为斜率,b为截距,需要2组数据求解。现在共有10组测量值,可通过最小二乘法求出其方程,计算出1组(a,b)使得Y'与对应的测量值Y的误差最小,公式如下:

3 线性分析的解决途径

3.1 用Excel进行线性分析

使用Excel软件分析试验数据,画出X和Y的散点图,插入趋势图,并从趋势线选项中选择线性建模,勾选显示方程及R2值,结果见图1。

图1 皮辊棉马克隆值检测

拟合优度指回归直线对观测值的拟合程度,度量统计量为可决系数R2。R2的最大值为1,越接近1,说明回归直线对观测值的拟合程度越好;反之,则越差。图中R2=0.746 5,接近于1,说明拟合程度较好。

以相同方法对锯齿棉预调湿前后的试验数据进行一元线性分析,结果见图2。图中R2=0.010 9,与1相差较大,说明对该组试验数据进行线性分析的意义不大,但可以从其平均值差异进行数据分析,可以得到预调湿对锯齿棉的马克隆值检测大概率无显著影响的结论。

图2 锯齿棉马克隆值检测

3.2 用Python进行线性分析

Python诞生于20世纪90年代初,是一种解释型、面向对象、动态数据类型的高级程序设计语言,具有较强的可移植性、可扩展性,在图像处理、数据统计和可视化表达等领域应用广泛,在图像处理方面常用的数据包有CV2、PIL、Pillow、Pillow-SIMD。最初其被设计用于编写自动化脚本(shell),随着版本的不断更新和语言功能的添加,被用于许多独立大型项目的开发。

在Python程序中,通过pandas库将棉花试验数据导入,详见图3;通过numpy库将已导入pandas中的数据转换为线性分析需要的数据格式;通过sklearn库建立线性回归模型;通过matplotlib库实现数据可视化效果,详见图4。需要注意的是,需要将pandas库升级至0.24.0以上,才能正常运行程序中的to_numpy函数。由于锯齿棉预调湿前后的试验数据不适合进行线性分析,故用Python进行线性分析的示例中,只采用皮辊棉样品的检测数据。部分程序示例如下:

图3

图4

import pandas as pd

#读取excel或者csv表格到pandas dataframe里面

file_name='D:\SampleData.xlsx'

data=pd.read_excel(file_name)

data.head()

import numpy as np

#把pandas dataframe变成正确格式的numpy数列

X=data.iloc[:,0].to_numpy().reshape(-1,1)

Y=data.iloc[:,1].to_numpy().reshape(-1,1)

from sklearn.linear_model import LinearRegression

#生成linear regression的模型

linear_regressor=LinearRegression()

linear_regressor.fit(X,Y)

Y_pred=linear_regressor.predict(X)

import matplotlib.pyplot as plt

#实现数据可视化

plt.scatter(X,Y)

plt.plot(X,Y_pred,color=’red’)

plt.show()

生成线性回归模型后,可以利用该模型对已知预调湿前马克隆值的皮辊棉样品进行预测,预测其预调湿后的马克隆值。假设预调湿前皮辊棉样品的马克隆值为4.35,利用predict函数,可以预测出预调湿后的马克隆值为4.243 774 52,将其与实验室检测结果进行比对,程序运行结果见图5。

图5

4 不同技术路线的比较

4.1 Excel实现方法

使用Excel进行线性分析的入门门槛较低,除Excel外无需安装其他软件,适合进行简单地数据分析,但是存在3个缺点:可处理数据的上限较低,Excel 2003的上限仅有65 536行,Excel 2007的上限也仅有1 048 576行;基础数据规范性较差,Excel单元格的格式设置灵活,不利于数据汇总加工;在Excel中运用线性分析对结果进行预测,需要使用LINEST函数,该函数是数组函数,使用方式与普通Excel函数不同,需要专业知识才能正确操作。

4.2 Python实现方法

Python适用于大量数据的分析,数据处理上限和计算速度都高于Excel,通过编程可以一次性完成统计分析的前期工作,但是海关内部使用Python存在2个缺点:性能受限,大数据处理需要win 7以上操作系统,内存8G以上,现阶段海关内部大部分的电脑性能无法满足此要求;Python具有大量的第三方库,可以实现功能多样化,但是海关电脑系统是内外网物理隔离的,安装第三方库非常困难;Python及第三方库存在兼容问题,Python 2于2000年发布,Python 3于2008年发布,不完全兼容Python 2,截至目前,Python最新版本已升级至3.9,用旧版编写的程序可能无法运行,第三方库也存在函数在某些版本下不兼容或运行报错的问题。

5 结论

本文根据线性回归的数学模型,通过Excel和Python这2种技术手段,分别对2种轧工方式的棉花试样,在调湿平衡前后的马克隆值测试结果,进行线性回归分析。通过实践与实验室联合验证,取得了良好的应用效果,未来将继续开发棉花实验室检测数据的分析潜力,不断优化数据分析模型,提高数据分析在改善实验室管理方面的重要作用。

猜你喜欢
海关克隆线性
克隆狼
渐近线性Klein-Gordon-Maxwell系统正解的存在性
线性回归方程的求解与应用
浙江:诞生首批体细胞克隆猪
清代海关银锭漫谈
关于未纳入海关统计的货物贸易收支统计研究
外贸企业海关合规重点提示
二阶线性微分方程的解法
抗BP5-KLH多克隆抗体的制备及鉴定
清代广东十三行与粤海关