李海燕 蔡洁云 李 郸 马慧宇 肖 燕
(云南省烟草质量监督检测站,云南 昆明 650104)
真品卷烟商标印刷都由授权印刷企业承印,非授权企业不得印刷[1],所用的油墨组分稳定,技术保密[2],科技含量高[3]。制假分子为了追求利润最大化[4]仅通过简单的扫描仿制等手段和简陋设备来印制商标,因此根据印刷品的印刷方式和图像分布可以发展出不同的鉴别手段。张冀鹏等[5]基于近红外光谱对浓度的敏感性,建立了基于近红外光谱法的卷烟包装材料色差分析模型,应用于包装材料外观质量检验及成品卷烟的工艺控制。潘昵琥等[6]利用紫外灯、放大镜和显微镜等可见光学仪器,对印刷图文、防伪处理和后加工技术处理等方面进行真假比对。聂磊等[7]基于红外光谱中衰减全反射(ATR)方法通过对多个鉴别点的光谱测试和比较,使用相关系数法和QC比较法进行相似度分析,建立了多个品牌卷烟的鉴别模型,实现了对假冒卷烟样品的定性鉴别。然而,随着经济的发展,大量的假冒卷烟[8]以指数的倍率增长并涌向质检,使用传统的依靠测试人员经验的可见光观察分析法,工作量巨大,效率不高且主观性强。
卷烟材料红外光谱虽容易获得,但品牌不同,就要重新确定鉴别点,需要在10个鉴别点中找到至少一个分辨力较强的鉴别点[7]。即使同一品牌不同批次的样品,因承印厂不同,其油墨红外光谱也会有所差异。因此,如何合理地利用数据库模型对真品光谱进行聚类,快速区分真假样品,减少误判率是现在质检工作迫切需要解决的问题。
红色油墨在大部分卷烟包装纸印刷中均有使用。鉴于红外光谱衰减全反射(ATR)是一种无损、快速的采集方式,受启发于近红外光谱对一些农产品产地溯源的研究[9]及产品的鉴别[10],结合马氏距离法[11],研究拟基于3个品牌香烟包装纸上的同一颜色油墨的红外光谱图建立辨假模型,以期建立快捷、准确的卷烟包装纸真假鉴别方法,为追踪制假卷烟包装纸来源渠道及鉴别卷烟真伪提供新的检验方法。
1.1.1 样品采集 研究中使用的卷烟包装纸选择承印企业较多的3个产品:云烟(软珍品)、玉溪(软)和红塔山(软经典)。真品样品由不同承印企业提供,假烟样品由云南省烟草质量监督检测站提供。编号J代表假烟样品,编号Z代表真品样品。样品区域分别选择3种卷烟包装纸中的红色油墨部分。
1.1.2 主要仪器设备 傅里叶变换红外光谱仪:Thermo Fisher Nicolet iS50型,配备内置的金刚石晶体衰减全反射(ATR)采集附件、氘化处理后的硫酸三甘肽晶体DTGS检测器、溴化钾分束器,光谱采集范围为400~4 000 cm-1,赛默飞世尔科技(中国)有限公司。
1.2.1 测试方法 云烟(软珍品)包装纸检测条形码下方红色区域,玉溪(软)包装纸检测底版红点,红塔山(软经典)包装纸检测“红”字正中,如图1所示。
红外光谱的采集使用傅里叶变换红外光谱仪,在图1中所确定的鉴别点上采集红外光谱,光谱分辨率为4 cm-1,每个样品扫描16次取平均值。
将测试区域的红色油墨面向ATR晶体表面,使用压头使测试样品紧紧贴在晶体表面,采集测试直径2 mm区域(与晶体紧紧接触)的傅里叶变换红外光谱图。将获得的红外光谱图按照品牌真假进行赋值,利用马氏距离公式计算出每一类别的协方差矩阵,进行聚类计算形成该类型的数学投影,即形成辨假模型。再将需要判别的包装纸上同样位置采集的红外光谱使用相同的算法处理后,计算其马氏距离,该距离值用来判别一个未知样品到已知材料类别的匹配程度。
1.2.2 马氏距离计算[12]马氏距离是一种有效计算两种未知样本集相似性的算法,是一种独立于测量尺度表征各种特性之间联系的计算方法。马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为M的随机变量之间的差异程度。
(1) 真品平均谱计算:
(1)
式中:
Aij——光谱矩阵元素;
n——光谱数量。
(2) 去中心化:
(2)
式中:
Au——去中心化后的光谱矩阵;
A——样品光谱;
(3) 协方差计算:
(3)
式中:
M——标准光谱集的协方差矩阵;
Au——去中心化后的光谱矩阵;
n——光谱数量。
(4) 马氏距离计算:
(4)
式中:
D——马氏距离;
M——标准光谱集的协方差矩阵;
Ai——校正集光谱;
A——样品光谱。
将分别收集的云烟、玉溪、红塔山3个品牌中的真品,其中云烟真品样本14个、玉溪真品样本18个以及红塔山真品样品24个。按照图1的鉴别点分别采集红外光谱图,依据文献[7]中所提及的QC比较法进行相似度比对,结果如表1所示。
由表1可知,同一品牌的真品因为印刷厂不同、印刷批次不同,光谱相似度都有比较明显的差别。其中,云烟的平均相似度为84.27%,玉溪的平均相似度为77.51%,红塔山的平均相似度为64.96%。由此可见,即使同一品牌的样品,因为承印的印刷厂不同,批次之间的差异也很大,印刷厂的数量越多,批次间的相似性越离散。说明QC比较法更适合于承印厂不多、油墨配方固定的品牌,对于生产量巨大,承印厂分布多的品牌而言,QC比较法批次间差异较大,无法有效和快速地进行辨假。因此,引入马氏距离算法,将真品光谱进行聚类模型的建立,使用光谱数据的数学投影,达到区分真假光谱的目的。
表1 云烟、玉溪、红塔山3个品牌真品包装之间的相似度Table 1 The similarity results of real packaging the 3 brands including Yunyan, Yuxi and Hongtashan%
2.2.1 三品牌红色油墨一致性考察 如图2所示,云烟、玉溪和红塔山3个品牌的红外光谱图呈现出不同的出峰位置和分子振动吸收。其中,3 700~3 500 cm-1的吸收峰为环境中水蒸气的羟基的吸收峰和少量的磷酸盐中羟基的振动;3 500~2 800 cm-1的吸收峰为C—H键的吸收振动峰,峰位和峰型的不同,表明油墨的有机碳链的长短和支化类型不同;1 800~1 640 cm-1的吸收峰大多为酯基、羧基峰,此位置往往出现整个红外光谱中最强和最尖锐的吸收峰,根据该位置的峰位可以推断出所连基团的类型;1 500~800 cm-1的吸收峰为整个油墨和纸张混合谱的指纹峰,其中1 510~1 390 cm-1的吸收峰为碳酸根的吸收峰,碳酸根来自于纸张的添加剂。
因为不同品牌所使用的红色油墨的化学结构不同,所以在设计模型的过程中,采用先分步对单一品牌建模,分别验证单一品牌模型的鉴别效果。为了提高鉴别效率,将3个品牌真品光谱的集合设计为粗糙集,建立混合模型。在验证步骤中,使用60个从市场上收集来的3个品牌的赝品,每个品牌各20张以及3个品牌中随机的2张真品分别对云烟、玉溪、红塔山3个单独模型和混合模型进行验证。
图3为3个品牌赝品的红外光谱图,与图2相比,赝品的光谱图的峰位和峰型更加杂乱,说明赝品的油墨结构差异性相当大。
图2 不同品牌红色油墨红外光谱Figure 2 Red ink FTIR spectrum of different brand
图3 赝品红色油墨红外光谱Figure 3 Red ink FTIR spectrum of fake
2.2.2 建模及模型验证 为了除去CO2[13]和纸张中CaCO3[14]的干扰,光谱范围选取3段:3 200~2 700,1 800~1 580,801~720 cm-1,光谱经二阶导降维处理后进行聚类建模,以降维真品光谱数据的数学投影作为真集,再将验证降维光谱与真集的马氏距离代入聚类模型(见图4)。以马氏距离判定真假,当与真集的距离为0时,判定为真;当距离不为0时,判定为假。
图4 3个品牌香烟包装纸红色油墨的单独辨假模型Figure 4 The 3 brands’ separate anti-counterfeit models of cigarette packaging paper
模型的验证集由收集到的赝品组成,其中云烟、玉溪、红塔山赝品各20个,随机抽取3个品牌的真品各两个加入到验证集中。如表2所示,3个品牌单独建模的准确率均为100%。
表2 云烟、玉溪、红塔山3个品牌单独辨假模型验证结果 Table 2 Verification results of the 3 brands’ separate anti-counterfeit model including Yunyan, Yuxi and Hongtashan
为提高工作效率,将14个云烟真品、18个玉溪真品和24个红塔山真品的二阶导降维光谱载入专业的TQ analyst模型计算软件中,加入种类的维度,使用距离判别对样品进行聚类模型(见图5)的建立,光谱范围选择:3 200~2 700,1 800~1 580,801~720 cm-1。准确性的判定基于同类型的马氏距离和种类的归属,只有当两项均满足符合条件时才可判定样品是否为真品。将云烟、玉溪、红塔山赝品各20个包装纸油墨的红外光谱图代入模型计算,结果如表3所示,其判定结果准确率达到100%。说明使用该模型可以对云烟、玉溪和红塔山3个品牌的样品进行快速的筛分,迅速确定未知样品的真伪。
图5 3个品牌香烟包装纸红色油墨的混合辨假模型Figure 5 The 3 brands’ mix anti-counterfeit model
表3 混合辨假模型验证结果Table 3 Verification results of the 3 brands’ mix Anti-counterfeit model
研究从承印厂较多的3个品牌的卷烟包装纸上的红色油墨入手,采用衰减全反射(ATR)方式对红色油墨部分进行红外光谱采集,使用马氏距离法分别建立了3个品牌的聚类模型和混合模型,通过每品牌各20个赝品验证其准确性后,准确率均达到100%。与传统的QC比较法相比,该组模型具有更高的准确性。
研究建立了一组具有普适性,可自动学习的辨假模型,实现了未知样品粗筛,为提高质检的工作效率提供了一种便捷的途径。在将来的工作中,可以用新品牌红色油墨的红外光谱图不断校正和扩大模型,通过模型转移和修正扩大到更广阔的品牌覆盖和质检第一线,进一步地大量采集不同厂家真品样品及不同批次假烟包装纸红外光谱,通过机器监督学习对给定的已知类别标号样本建立多分类模型,为在制售假烟新型网络案件中查获的卷烟及辅料的关联性鉴定、追踪假烟包装纸印刷窝点提供新方法。