食品安全风险预警领域大数据挖掘的应用

2021-11-21 19:20陈恺周小蕙王明慧
电子技术与软件工程 2021年18期
关键词:决策树贝叶斯数据挖掘

陈恺 周小蕙 王明慧

(1.贵州省分析测试研究院 贵州省贵阳市 550000 2.贵州贵科大数据有限责任公司 贵州省贵阳市 550000)

在当前形势下,我国社会主义市场经济获得了全面提高和发展,互联网的应用也更加普遍,并在人们的日常工作和生活中,发挥着重要作用。计算机和互联网在不同领域的使用,有助于为其储存大量的有用数据,为了将这些数据的使用价值充分发挥出来,需不断整合和处理各个行业的数据,然后将其运用于各个行业中,促进其进一步发展,在这种形势下,大数据被提出。近年来,食品安全问题频发,极大的损害了消费者的权益,也对民生安全造成了严重威胁,因此,当前社会逐渐意识到食品安全风险预警的重要性。借助大数据技术,建立健全的食品安全风险预警机制,也成为一项迫在眉睫的重任,本文对此作一探讨和研究,内容如下。

1 大数据概述

大数据的概念较为抽象,结合字面含义进行分析,表示数据更具多元化、规模更具庞大化。当前,大数据的定义尚未统一。就当前的百科来讲,其认为大数据作为一种重要的信息资产,具有较高的增长率、多样化的类型及海量的容量,而为了进一步提升其洞察力、决策力及优化流程的能力,还需创新处理模式。简单来讲,即通过采取相关的措施,来达到较高的洞察力、决策能力以及对工作流程优化的相关数据,其共包含5 方面特征,即大量性、真实性、多样性、高速性及低价值密度。最初,大数据经常在开源项目Nutch 中被使用,其大数据具有相对简单的定义,即为了进一步更新网络的搜索功能,而发挥分析和批量处理作用的庞大数据。截止到当前,大数据的应用愈加广泛,且在多个行业领域中都发挥出了重要作用,市场竞争也逐渐演变为信息数据之间的竞争。经过不断的创新和发展,大数据更加完善,且作为一种重要资产,隐藏着较大的潜在价值和深远意义。

科学技术的不断进步和发展,促使计算机硬件设备也更加完善,能够储存大量的数据信息,并形成数据库,当前需加强对这些数据的研究和运用,充分发挥其价值和作用。在此形势下,大数据挖掘技术应运而生,可灵活发挥沉积数据的价值,使其作为一种有效的知识资源。大数据挖掘技术表示在计算机技术的作用下,将数据库中的一些潜在信息和价值挖掘出来,并对其发展趋势进行分析和预测。

2 常用的几种大数据挖掘技术及其在食品安全行业的具体应用

伴随当今计算机硬件领域的持续、稳定化发展,许多功能强大且实用性突出的数据收集设备、储存介质等,在多个领域中得到不错应用,强力推动了数据库领域的发展与繁荣,致使大量数据、信息在数据库当中得以储存。需要指出的是,在大数据库当中,许多数据由于未能充分利用,因而最终转变成了“数据坟墓”,在此状况下,怎样让此些数据重新“苏醒”,把数据坟墓向那些更具价值属性的知识“金块”进行转变,人们需要采取各种可行措施,有效解决此类问题,而大数据挖掘技术的出现,便能够较好的将数据与知识间的鸿沟给消除掉,乃是把数据相知识进行转变的重要手段。需指出的是,大数据挖掘实际就是把那些处于隐藏状态的信息,从数据库当中进行提取,然后借助开发计算机程序,从数据库当中进行自动、有目的性挖掘,以此找出或明确规律的一种手段。需强调的是,若能够在海量的数据挖掘当中,找出明显的模式,那么此些模式便能够被总结、理解与设计,并且还能够用于预测未来大规模的数据。大数据挖掘方式以常规数据挖掘为基础,而对于数据挖掘技术而言,则由多学科、多领域先进技术集成而得到,较常用的有高性能计算、模式识别、统计学等。而比较常用的机器学习数据挖掘技术有人工神经网络、决策树等。

2.1 贝叶斯网络

贝叶斯网络最早是在1988年被提出的,其表示模式象征着一种不确定性,其本质代表着一种因果关系,且是赋值的,具体表现为有向无环图(DGA),全称为directed acyclic graph。一个变量对应一个网络中的结点,表示一个事件。在贝叶斯网络中,各个变量之间弧的变化规则,可将一些不确定的内在概率较好的表达出来,从而更好的阐述导致事件发生的因果因素。贝叶斯网络可将数据域中不同数据的概率情况及关联,更好的展现出来,从而更加充分的揭示其中的概率情况。贝叶斯网络模型简洁易懂,通过分析行为、结果,并对其因果关系进行探讨,以此来预测和分析其中的可能性结果。贝叶斯网络的使用,可对有缺陷的数据进行完善,并在其它技术的协助下,进一步分析因果情况。此外,贝叶斯网络还可有效连接先验知识和数据,并防治其拟合过度。

在食品行业中,贝叶斯网络大都被运用在食品产品的设计过程中。例如,在创建与食品相关的贝叶斯网络模型时,若了解人们对甜食的偏爱,则在样本中列举食品时,除了需要列举甜食外,还需举例受欢迎的食品,而使用贝叶斯网络推断其受欢迎情况时,则需考虑到食品颜色的影响作用。传统的专家推荐系统是出于规则考虑而制定的,划分方式按模块划分,其中不包含与数据源或其他规则相关的内容,则无法对相似问题进行处理,可借助贝叶斯网络中的条件概率。此外,在风险评价概率统计模型方面,贝叶斯网络也更具代表性,可用于预估食品供应链的风险概率。在评价事件的风险概率时,可通过对食品供应链中的一些风险因素进行分析,如资金流、信息流或物流信息等,并据此创建贝叶斯网络模型。初始事件不同时,食品供应链的回应也有所不同,从而导致不同的发展过程和结果。为了得出食品的风险值,可通过分析贝叶斯网络不同节点的条件概率情况,来将联合概率计算出来。

2.2 决策树

决策树作为一种常见的归纳推理算法,常被应用于机器研究和学习过程中,采用的方式为逐渐朝离散值函数进行逼近,首先将较小的“树”选择出来,决策树采用学习中提到的某种函数表示。决策树可充分结合噪声的数据特点和规律,从而总结出相应的表达式。且在决策树的根节点和叶子节点上,都分别排列着一个相应的实例。决策树经判定后,对各个实例进行分类,并将分类特点借助叶子节点来表示。在分类实例时,首先需划分决策树的根节点,然后将与实例相应的属性值选择出来,并结合其对应的树枝继续。更换决策树实例,并对以上步骤进行根循环,从而得到分类后的实例情况。结合根部至叶子节点的顺序,来得到不同规则的集合,从而对样本数据规则进行概括和归纳,并对每个样本的属性进行了解,此外,还可对新样本的属性进行预测。

决策树分析法在解决决策问题时,主要遵循的逻辑思维方式为树状法,决策方法主要依据对风险的分析展开。具体应用到食品行业时,决策树可用于评估农产品食品的安全情况,针对一些数据,会对农产品质量安全造成影响,采用降维方法预处理该数据,并总结出对质量安全影响较大的特征值,在组合优化决策树的前提下,建立判定农产品质量安全的模型,决策树的属性可选择影响农产品质量的因素,如土壤PH、地下水重金属含量及种植规模情况等。划分数据样本为两类,即训练集和测试集,经训练后,得到集合后的规则。在决策树模型中输入测试过程中的各个数据样本,并将其准确率计算出来,判断农产品质量安全风险能否使用决策树进行评估和判定。此外,在某个具体的检测指标中,也可使用决策树,如对油炸性方便面的质量进行评定等。

2.3 人工神经网络

人工神经网络的出处为生物学,该数据挖掘方式具有相对较高的学习精度,具体建模方式来源于生物学中相互连接神经元之间的网络组成情况。神经网络可对数据中存在的错误进行不断学习和优化,并通过不断提升精准度,来加强对数据的了解,从而将其中隐藏的规律总结出来,因此,截止到现在,人工神经网络在多个领域中都发挥出了重要作用。目前,预计有10 多种人工神经网络模型被创建出来,其中最为常见的一种为反向传播(BP)神经网络,在不同的层级中都分布有神经元,且每个层级中至少含有一个神经元,有的还具有多个神经元。每个神经元中分布着数量一定的输入值和输出值,其中输入值也可与上一层神经元的输出相对应,而输出值也可作为输入值,传输到下一层神经元。每个层级的神经元,都会交互相邻层级的各个神经元,并通过不同的操作,对所提供的的数据集进行深入学习,如正向传播、调整权值和反向传播等,从而实现对模型进行优化的目的。神经网络的学习能力具有非常强的健壮性,该方式可更好的实现向量值、实数值及离散值的逼近。

BP 神经网络对非线性函数具有高度的映射功能,其在信息的储存方面具有相对较广的分布,且可以更好的并行处理大规模的数据,具有较好的抗干扰能力和适应能力,而以上优势在很大程度上提升了其学习能力。针对不确定问题的处理,BP 神经网络作为一种人工智能处理方式,具有相对较高的解决能力,在结合主成分分析的基础上,该方法还可用于研究鉴别近红外光谱苹果品种的方式,具体使用时,首先结合主成分分析方式,对苹果聚类并将其近红外指纹图谱得出,从而获得对苹果品种具有敏感反应的波段,采用特征波段图谱将其输入到神经网络中,输出品种,创建相应的模型,并经大量训练后,进一步预测未知样品情况。采用以上方式进行判定时,可极大的提升对品种识别的准确概率。此外,BP 神经网络还经常被用于以下数据分析和挖掘中,如预测分析大米直链淀粉含量情况、预测冬小麦的耗水特性等。因此,其在食品安全当中,有着良好的应用效能与价值。

BP 神经网络具有训练速度快、准确率高及健壮性强等优点,因而与其它数据挖掘方式相比较,要更具优势;另外,BP 神经网络的灵活性较强,新的训练数据集能够比较方便的用于模型训练中,因而有助于模型准确性的提升,适用于食品安全风险预警领域。

3 结语

综上,食品安全问题作为一项关乎民生的大事,与人们的身体健康和生命安全密切相关。由于食品的种类和加工工序相对繁多和复杂,在展开数据挖掘和分析研究的过程中,需加强对多种食品的探讨。大数据时代的到来,为食品行业的健康有序发展提供了有利条件,将大数据应用在食品安全风险预警中,可有效缓解和改善食品安全问题,从而充分确保人们的生命安全。本文主要结合三种常用的大数据挖掘技术进行了探讨,以期能够更好的促进食品安全问题的研究工作。

猜你喜欢
决策树贝叶斯数据挖掘
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于并行计算的大数据挖掘在电网中的应用
贝叶斯公式及其应用
基于决策树的出租车乘客出行目的识别
基于贝叶斯估计的轨道占用识别方法
一种基于贝叶斯压缩感知的说话人识别方法
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用
IIRCT下负二项分布参数多变点的贝叶斯估计