基于K均值算法的X射线荧光光谱法检验药用铝塑包装片的研究

2021-03-15 03:10刘金坤李春宇吕航李飞姜红满吉
应用化工 2021年2期
关键词:铝塑药用轮廓

刘金坤,李春宇,吕航,李飞,姜红,满吉

(1.中国人民公安大学 侦查学院,北京 100038;2.北京华仪宏盛技术有限公司,北京 100123)

药用铝塑包装片是由铝箔和聚氯乙烯(PVC)塑料泡罩组成的药品包装物,广泛应用于胶囊药品和片剂药品的包装[1]。在犯罪现场勘查过程中,药用铝塑包装片是一种常见物证,通过检验其PVC塑料的类别,可缩小侦查范围,为侦查和审判提供线索和依据。

法庭科学中,X射线荧光光谱法是塑料检验的常用方法[2-3]。本文收集到30种不同品牌、不同厂家的药用铝塑包装片,用X射线荧光光谱仪测定每个样品的元素含量。首先按照元素是否存在对样品分组,对不确定组别的样品用K均值算法聚类,运用误差平方和法(SSE)确定最佳聚类簇数K,再用轮廓系数评估K值的有效性,得到了比较准确的分类结果。

1 实验部分

1.1 材料与仪器

不同品牌不同厂家的药用铝塑包装片聚氯乙烯(PVC)30个(部分样品见表1);乙醇,分析纯。

表1 药用铝塑包装片样品表Table 1 Medicinal aluminum-plastic packaging samples chart

X-MET8000 X射线荧光光谱仪(XRF);大面积SDD高分辨率半导体探测器。

1.2 实验方法

药用铝塑包装片表面沾有灰尘、油渍等杂质,需要对样品进行简单清洗,以保证测量数据的准确。在实验测定之前,使用酒精棉对样品进行擦拭,并将处理过的样品晾干。用X射线荧光光谱仪分别测定样品的元素含量,每种样品实验3次,取平均值。

2 结果与讨论

2.1 XRF分析

X射线荧光光谱仪检测结果见表2。

由表2可知,X射线荧光光谱测定的元素大多来源于PVC制作过程中的填料。其中,Cl元素含量最高,这是因为药用铝塑包装片的主要成分是聚氯乙烯;Sn元素来自有机锡类稳定剂,如PVC制备过程中,为防止其热分解,通常会加入二甲基氧化锡稳定剂;V元素来自钒的氧化物,有催化剂的作用;Cu元素主要来自塑料加工过程中的填料硫酸铜,具有良好的凝聚性,可以去除杂质;Zn、Ti元素主要来自常用金属氧化物,有着色剂、增白剂的作用;Ba元素主要来自硫酸钡,可以提高塑料热稳定性,具有一定的润滑性[4-7]。通过分析元素指标的来源,根据样品中元素是否存在进行分组,结果见图1。

表2 药用铝塑包装片样品X射线荧光分析结果(μg/g)Table 2 Analysis of medicinal aluminum-plastic packaging samples by XRF

由图1可知,按照是否还有Ba元素进行分组时,19#样品单独分为一组,其他样品分为另外一组。同理,将剩下的样品按照是否含有Mn、Ti、Zn、V、Cu元素依次分组,最后将分组结果附上识别标签,初步将30个样品分为13组。其中,No.1,2,3,6,8仅含有一个样品,得到了准确区分;No.12,13含有两个样品,用Pearson相关系数判断其相关性,可以将两个样品区分;No.4,5,7,9,10,11含有3个及以上样品,可根据K均值聚类法进行分类。

图1 药用铝塑包装片样品分组图Fig.1 Medicinal aluminum-plastic packaging samples sub-group chart

2.2 Pearson相关系数及假设检验

Pearson相关性分析是指对两个或多个具备相关性特征元素进行分析,通过相关系数反映出特征元素间的相关关系[8],其表达式如下:

(1)

式中lXX——X的离均差平方和;

lYY——Y的离均差平方和;

lXY——X、Y间的离均差积和。

根据式(1)r值可判断元素间的相关性,当|r|为0.00~0.19时,元素相关性极低;r=0.20~0.39时元素低度相关;0.40~0.69时中度相关;0.70~0.89时高度相关;0.90~1.00时相关性极高。

确定样品的Pearson相关系数后,通过假设检验来判断相关系数的有效性。假设检验首先提出假设,无关假设为H0,相关假设为H1。在统计学中,显著性水平α通常设为0.05,当取得r值的概率0

由表3可知,No.12,13组的Pearson相关系数都接近于1,且P值远小于0.05,相关性很强。通过比对铝塑包装片样品表1可知,No.12组的10#和15#样品、No.13组的9#和28#样品分别属于相同品牌、不同厂家的铝塑包装片,表明同一品牌的不用厂家生产铝塑包装片的材质差异较小。

表3 Pearson相关系数与假设检验Table 3 Pearson correlation coefficients and hypothesis tests

2.3 K均值算法

K均值算法的思想是首先选定一个K值和K个初始类簇中心点,将样品分别归到离自己最近的簇中,然后重新计算每个簇的中心点,通过不断迭代,当达到规定的迭代次数或者类簇中心点最小时,聚类完成[9]。通常情况下,K值的选择有一定的不确定性,本文尝试用误差平方和法SSE来寻找K值[10],SSE的表达式如下:

(2)

式中K——聚类数量;

p——聚类样品;

mk——k个聚类的中心点。

由式(2)可知,随着K值增大,每个聚类簇的聚合程度随着增加,SSE的值慢慢减小;当K值接近真实聚类数时,再增加K所得到的聚合程度效果会迅速变小,SSE的下降幅度会骤减;当K值继续增大时,SSE的下降幅度趋于平缓,那么最先趋于平缓的点就是合适的K值。

K均值聚类时选定No.11类药用铝塑包装片样品集(见表4),从Python语言的sklearn工具包中调用K-Means模块,用Pycharm Community Edition实现代码运行及数据分析[11]。

表4 No.11组药用铝塑包装片样品数据(μg/g)Table 4 No.11 medicinal aluminum-plastic packaging samples data

将 No.11组样品数据传入K-Means函数模块,设定初始K值范围1~6,调用SSE函数inertia,并调用matplotlib画图模块展示SSE折线图,见图2。

图2 SSE折线分布图Fig.2 SSE line distribution

由图2可知,当K值为1,2,3时,SSE的下降幅度骤减;K值为3,4时,折线走势趋于平缓,故确定最佳K值为3。随后,用K均值聚类算法进一步得到样品分类结果,见表5。其中,1表示样品属于一类,0表示样品不属于一类,分类结果附上识别标签。5个样品中,22#、23#、24#被分成一类,11#和17# 单独分为一类。

表5 No.11组样品K均值算法分类表
Table 5 No.11 samplesK-meansalgorithm classification table

标签样品编号1117222324100111210000301000

2.4 轮廓系数

聚类效果的评估方法通常有轮廓系数、兰德系数、互信息、Homogeneity、Fowlkes-Mallows scores、Calinski-Harabaz Index等[12],其中轮廓系数较为常用,当我们不能确定实际聚类类别时,可以通过轮廓系数来进一步评估[13]。单个样品点Xi的轮廓系数表达式如下:

(3)

式中,a为Xi与它同类别中其他样品的平均距离;b为Xi与最近簇中所有样品的平均距离。

通常情况下,用轮廓系数的平均值作为整个样品集的轮廓系数值,取值范围为[-1,1]。当同类样品距离相近且不同类别样品距离越远,轮廓系数值就会增大,分类越合理。

在Python中,将K值传入K-Means模块,从sklearn工具包中调用元素指标验证模块metrics,再从metrics中引用silhouette-score函数。通过运算发现,当K为2时,S值为0.400,K为3时,S值为0.443,K为4时,S值为0.130。因此,当K值为3时分类效果最好,评价结果与聚类结果相一致,说明将SSE方法用于确定K值很有效。

根据此种方法将剩下的No.4,5,7,9,10组样品继续分类,得到了有效的聚类结果,见表6。其中,No.4,9组样品分为两类时轮廓系数S值较大,分类合理;No.5,7,10组样品分2类时S值偏小,分3类时S值更小,故将组内样品分为2类较为合理。

表6 样品K均值聚类及轮廓系数评估Table 6 Sample K mean clustering and silhouette coefficient evaluation

3 结论

采用X射线荧光光谱法结合统计学方法,实现了对药用铝塑包装片的准确分类。实验用X射线荧光光谱仪测定样品元素含量,对样品初步分组;对于只有一个样品的组,不再继续分类;有两个样品的组可根据Pearson相关系数分类;有3个以上样品的组根据K均值算法分类,通过SSE方法确定K值并用轮廓系数评估分类结果,最终将药用铝塑包装片样品成功分类,达到预期的实验结果。但本方法仍有需要改进的地方,比如样品量应足够多、模型更加简化等。基于此,下一步将探索其他机器学习的分类算法,建立更加简便的模型对样品进行分类检验。

猜你喜欢
铝塑药用轮廓
OPENCV轮廓识别研究与实践
酒酿搭配药用最养生
基于实时轮廓误差估算的数控系统轮廓控制
铝塑膜:进口替代可期
试论药用观赏植物在园林绿化配置中的应用
高速公路主动发光轮廓标应用方案设计探讨
蕨类植物在利尿通淋中的药用研究(二)
蒙药药用资源
2002-2012中国铝塑复合材料行业十佳杰出人物
2002-2012中国铝塑复合材料行业十佳供应商名单