基于支持向量机的食品安全抽检数据分析方法

2019-11-28 16:15陈晓
商品与质量 2019年8期
关键词:决策树向量分类

陈晓

广东省汕头市质量计量监督检测所 广东汕头 515000

食品安全是世界各国长期关注的问题。近几年来,世界上一些国家和地区食品安全恶性事件不断发生,且随着食品加工过程中化学品和新技术的广泛使用,新的食品安全问题不断涌现。食品中若含有“危害”因子,人体摄入后会患病甚至丧命,严重影响社会安定和发展。“抽检”顾名思义,即抽样及检验,也就是我们如何做好抽样及检验的工作。食品安全抽检工作的出发点是为了能够实现食品监管部门对食品生产的动态监督,因而在抽检中对食品企业的抽检覆盖率和问题检出率做出了要求。

1 数据预处理(Datapreprocessing)

1.1 数据预处理的步骤

数据预处理的步骤大致可以分为四步,即数据清理、数据集成、数据规约、数据变换。数据清理技术是对于空缺值等异常进行处理、清除重复的数据,以及对异常数据进行错误纠正和清除等操作。现实中造成数据缺失的原因很多,例如数据采集设备故障导致采集缺失,用户填写时不理解或者不耐心未填入导致数据缺失,数据传输过程中错误造成的缺失,数据录入过程中因为疏忽造成数据缺失,以及存储设备损坏导致的缺失等。处理空缺值的方法通常有手动录入、平均值填充、用最可能的值填充、忽略元组、全局常量填充等方法。数据集成是将来自不同数据源的数据合并为统一一致的数据存储中,这种数据存储可以是数据库或数据仓库。数据集成主要包括:包含相同字段属性的纵向追加和具有相关属性叠加的横向合并。在进行数据横向合并时,会出现同一对象的一些属性字段在不同数据库中的名称不同或属性值不同,这样就容易造成合成后的数据出现不一致性或者数据的冗余性。数据变换就是将原始数据进行规格化处理,转换成方便后续数据挖掘处理的形式。数据变换常用的方法有:平滑处理、聚集操作、数据概化与规范化和属性构造等。数据集约是指在保持数据完整性的前提下,将大容量的数据转换成可高效利用的数据集,即在获得相同或相似挖掘结果的前提下,对数据的容量进行有效的缩减的过程。数据归约常用的方法有数据立方体聚集、维规约、数据压缩等[1]。

1.2 电商平台选择

近年来平台经营者增长迅猛,数量众多,有成熟度高的淘宝、天猫、京东、苏宁易购、1号店、亚马逊、国美等,也有发展势头强劲的我买网、美团、顺丰优选、每日优鲜、拼多多等。抽检前应充分收集各电商平台信息,掌握平台销售食品种类分布情况,事先登记好网络信息平台的注册信息备用,包括:公司名称、营业执照或经营许可证号、网址、增值电信业务经营许可证号等。

1.3 样品应能满足微生物指标的检验要求

大家知道,散装食品易受环境污染,因此只要检验项目中涉及微生物指标的样品,必须是预包装食品,只有预包装食品才能进行微生物检验。因此,当检验项目中有微生物指标时,在流通领域抽样必须抽包装食品,在生产领域抽样时,如果是大包装产品,应由企业提供洁净的包装容器,在洁净室分装好,再进行封样,并且在抽样单上注明“样品由企业在洁净室分装”等字样。之所以强调由企业分装,是减少如果出现微生物指标不合格时可能出现的不必要的纠纷。

2 算法选择(Algorithmselection)

2.1 相关算法介绍

Logistic回归分析是一种广义的线性回归分析模型,Logistic回归的因变量既可以是二分类的,也可以是多分类的。决策树(DecisionTree)主要是用于分类和预测的技术,它是一种在实例的基础上进行归纳学习的学习型算法,实际上则是一种采用自上而下递归方式的“贪心”算法。它主要是从一组无序、无规则的实例中通过特定的算法来构造决策树,以达到其表现形式的一种分类规则。基于决策树的预测算法的主要思想都是通过对决策树的构建,确定样本数据中的属性标签在分类中是否起作用或起作用的先后顺序。决策树算法有多种版本,最常见的是ID3算法和C4.5算法。但ID3算法有多值倾向性,也就是如果某个变量包含的值越多,则这个变量就越容易被选为分类标准,而C4.5算法克服了这一缺陷,因此我们选择了C4.5算法进行实验。人工神经网络的研究在一定程度上受到了生物学的启发,因为生物的学习系统是由相互连接的神经元(neuron)组成的异常复杂的网络。而人工神经网络与此大体相似,它是由一系列简单单元相互密集连接构成,其中每一个单元有一定数量的实值输入(可能是其他单元的输出),并产生单一的实数值输出。支持向量机(SupportVectorMachine),也可被简称为SVM,它可以在有限样本下进行统计学习,并且可以研究和解决大数据中的分类问题,支持向量机因其优良的特性而作为一种通用的学习机器。因此也是本文研究和应用的主要方法。支持向量机算法也有多种版本,主要由不同的核函数决定。常见的核函数包括线性核函数、多项式核函数、Sigmoid核函数和径向基核函数,根据它们在数据集上的不同表现,本文选择径向基核函数作为支持向量机的函数[2]。

2.2 系统实现与测试

在研究和比较各预测算法的基础上,我们采用基于径向基核函数的支持向量机作为训练和预测算法,并基于该算法,实现了一个Web系统。该系统可以对历史数据进行管理,包括增删改查等操作。

3 结语

本文就食品安全监督抽检工作中存在的问题进行了相关阐述,并且在如何对食品安全监督抽检工作的开展及实践要点进行了论述,旨在提高食品安全抽检监测的有效性[3]。

猜你喜欢
决策树向量分类
向量的分解
聚焦“向量与三角”创新题
简述一种基于C4.5的随机决策树集成分类算法设计
按需分类
教你一招:数的分类
说说分类那些事
决策树学习的剪枝方法
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
给塑料分分类吧