基于人工智能技术的重大活动食品安全与风险评估综述

2021-05-25 13:38李晓理翟玉鹏
北京工业大学学报 2021年5期
关键词:数据挖掘指标体系评估

李晓理, 卜 坤, 翟玉鹏, 王 康,2

(1.北京工业大学信息学部, 北京 100124; 2.计算智能与智能系统北京市重点实验室, 北京 100124;3.数字社区教育部工程研究中心, 北京 100124)

党中央、国务院高度重视食品安全工作. 党的十九大报告明确提出实施食品安全战略,让人民吃得放心. 习近平总书记多次做出重要指示:用最严谨的标准、最严格的监管、最严厉的处罚、最严肃的问责,确保广大人民群众“舌尖上的安全”. 2019年初,按照中央关于深化党和国家机构改革的总体部署和中央批准的机构改革方案,公安部整合多个业务局相关职责,专门组建了食品药品犯罪侦查局,统一承担打击食品、药品和知识产权、生态环境、森林草原、生物安全等领域犯罪职责.

我国改革开放工作不断深入,随着对外开放程度的不断提高与经济的飞速发展,我国承接的高规格重大活动日益增多,如何保障大型活动中的食品安全成为急需解决的问题. 与传统食品安全保障领域不同,重大活动的食品安全保障不仅需要考虑食品本身的质量问题,其更加侧重于对投毒等人为事故的预防与处置.

本文首先对常见的食品质量检测技术进行回顾与总结,结合重大活动实际应用场景,分析现有的犯罪预防技术与风险评估的前沿技术,最后讨论重大活动食品安全风险评估技术的发展前景与困难.

1 食品质量检测技术

1.1 基于计算机视觉技术的食品质量检测技术

传统食品质量检验技术大部分通过随机抽取食品样本,以化学检验方法为主. 在部分场景中,试剂法虽然准确率高,但其存在着检验成本较高,检验周期长,属于破坏型检验方法,普适性不强,随机取样存在着一定的检验盲区等缺点.

随着人工智能技术的成熟,通过计算机视觉技术对特定食品品类进行检验逐渐兴起,计算机视觉技术具有检验范围广、检验效率高、无须破坏食品、普适性高等优点.

国内外利用计算机视觉技术开展食品质量控制的研究已经较为成熟. 20世纪90年代,研究人员已经开始相关工作,孙大文等[1]总结了现代光学成像技术在食品快检中的应用. Pauly等[2]利用计算机视觉技术,对芒果不同成熟时期颜色存在的明显差异,计算不同个体间的体积差异等因素对芒果品质进行分析与评级,其误差率为16.7%. Dorj等[3]利用柑橘类农作物的颜色特征提出基于计算机视觉技术的产品分类技术,有效提升产品检测准确率,准确率达到93%. Sahu等[4]提出一种基于质量因数的芒果果实缺陷识别与成熟度分类算法,相较于传统的图像识别技术,质量因数概念的提出,有效提升了算法效果. 支持向量机是常见的数据处理算法. Chung等[5]基于稻谷种子的扫描图像,利用改进的支持向量机算法对稻谷常见的病虫害种类进行分类. Shrivastava等[6]运用支持向量机对常见的经济作物大豆的品质进行评估. 对于经济作物小麦,Liu等[7]、Pires等[8]应用支持向量机技术实现食品质量控制. Mehra等[9]提出基于颜色和真菌疾病的番茄成熟度,可以评估番茄的真菌属性和茎深,并通过分割来鉴定真菌,利用阈值和k-means聚类算法用于图像分割和真菌识别. Jhawar等[10]提出使用KNN与线性回归技术对橘子进行自动分级的方法,准确性分别达到89.90%和97.98%. Arakeria等[11]提出一种基于计算机视觉技术的番茄果实分级系统,包括分2个阶段:硬件和软件开发. 开发的硬件无须手动干预即可捕获图像. 该软件是通过图像处理技术开发的,可以检查水果的成熟度和缺陷,从而可以在评估番茄质量方面获得96.47%的准确率. Si等[12]提出一种基于图像分析的马铃薯块茎长宽比率算法. 该算法达到了96.00%的准确性. Ali等[13]提出一套水果分级自动分拣系统,可以有效提高生产效率. 常见的食品检验指标如表1所示.

表1 计算机视觉技术常见食品检验指标

计算机视觉技术对于特定品类的食品质量快速检测有着里程碑式的意义,是一种高效的食品质量控制方法.

1.2 基于射频识别技术与物联网技术的食品质量检测技术

射频识别技术(radio frequency identification,RFID)起源于第二次世界大战时期,随着技术的发展,RFID技术的成本不断降低,现在已经广泛应用在大型饲养场和蔬菜种植等领域.

RFID系统结构如图1所示. RFID技术可以构建食品全流程追溯系统,可以有效监控各类农产品从农场到餐桌的全过程. 欧盟国家在食用农产品全链条质量控制方面的工作开展较早. 早在20世纪90年代便开始推广,对大型养殖场所备案,对养殖场所内存栏的牲畜利用电子化信息标签进行标准化统一管理,销售终端对其所销售的产品均有详细备案,做到从生产到市场全链条可追溯,信息公开透明. 我国进入21世纪以来,党和政府高度关注食品安全问题,努力建设食品全链条质量监测体系,在2008年我国承办奥林匹克运动会期间就建设了食品安全全程跟踪监测系统,有效保障了奥林匹克运动会期间的食品安全.

图1 RFID系统结构示意图Fig.1 Schematic diagram of RFID system structure

物联网技术的概念于1999年被提出,构建了基于互联网计算、RFID等技术的万物互联的美好愿景,自此物联网技术的概念被学术界与工业界广为接受并在随后的一段时间内飞速发展.

基于RFID与物联网技术的食品质量控制已经有了较为成熟的理论基础与应用落地示范. 农产品生产基地安装了温度传感器、湿度传感器、土壤监控传感器、家禽家畜健康监控电子标签等多种类型的生产过程控制传感器,从初始阶段完整记录农产品生长历程. 农产品由生产基地移交给物流后,运输过程中货箱温度、湿度、震动情况等会实时传递到信息终端. 仓储环节会详细记录入库时间与入库状态,记录仓储环境情况,及时发出仓储预警信息,避免货品损坏. 销售环节消费者可以通过信息终端查询到产品的完整生产过程,当同批次产品出现食品质量问题时,系统会自动向消费者的终端设备发出预警信息,将食品安全事故损失降至最小. 至此,基于RFID与物联网技术的食品全链条质量控制系统初步建成.

Gupta等[14]提出一个食品安全物联网系统,实现了食品安全的全链条控制. 该系统包含用于温度等各种传感器. Rajakumar等[15]开发了另一个食品安全物联网系统,重点是使用多种传感器检测牛奶中的添加物. Nirenjena等[16]开发了一个物联网系统来防止食品污染,该系统可用于食品质量的总体监控,也适用于特定食品的质量监控. 他们使用了多个温度、湿度等传感器来检测食物的降解情况.

Jin等[17]提出一种移动灵敏度吸收仪,用于监测现场的农药残留. 该系统使用了图像检测前端传感器和板载微控制器,该微控制器可以在智能手机、云计算和食品安全专家之间使用4G技术进行通信. 蓝牙技术用于现场检测器和接口之间的通信. 可视化和结果报告将推送到智能终端中. Beker等[18]提出一种物联网解决方案,可以将其应用于食品供应链中以改善食品安全性和质量. 在此解决方案中,消费者可以使用智能手机从包装中收集信息,这些信息已在包装上标明(例如成分、过敏和营养价值)以及其他信息(例如产品质量、新鲜度、产品来源等信息). 除消费者外,零售商还可以通过该系统实时监控货品,制定更为合理的销售策略.

1.3 基于数据挖掘的食品质量检测技术

在2019年公安部打击食品安全犯罪新闻发布会上,公安部新闻发言人提出当前互联网食品犯罪隐蔽性强、欺骗性强、扩散性快、社会危害大,如何更有效发现、遏制此类犯罪是摆在公安机关面前的一个重要课题. 总结近年来的办案经验,需要坚持严打不放松. 将传统侦查手段与现代科技手段相结合,创新一体化合成作战破案攻坚机制,精准打击、规模打击、高效打击,以“零容忍”的态度,保持对互联网食品犯罪的高压震慑. 主动拥抱大数据,通过互联网巡查、高危人员研判、互联网企业合作以及人工智能技术等高科技手段,熟练运用凸显食品药品侦查专业化特色的大数据技术,让数据从“云上”落地.

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程,它是近几年兴起的一项技术,获得业界的极大关注,其前身是数据库知识发现(knowledge discovery from databases,KDD),最早出现在1989年,当时并未引起学者的关注; 但随着人工智能技术的飞速发展以及海量数据的急剧增大,KDD的作用越来越凸显出来. 数据挖掘作为KDD的一个重要环节,在大数据的背景下研究成果不断增多,并逐渐成为科学研究的焦点.

针对食品安全大数据分析与风险控制,国内已经有许多研究人员开展了细致深入的工作. 晁凤英等[19-20]提出一种基于Apriori算法得出关联规则的食品安全数据挖掘方法. 从食品安全检测数据的特点出发,研究了关联规则在食品安全检测数据分析中的应用. 从研究食品安全问题入手,描述了关联规则挖掘、分类与预测、聚类、复杂数据挖掘几个研究方向,对数据挖掘应用进行了探讨.

近年来,有机食品受到消费者的喜爱. Camila等[21]开发了一种使用电感耦合等离子体质谱区分传统葡萄汁中有机物的分析方法. 他们在不同的数据挖掘方法(支持向量机、分类回归树和多层感知器)之间进行比较,实验结果进一步证明算法效果优于传统的数据挖掘算法. 针对传统数据挖掘算法复杂度过高的问题,Stanislaw等[22]与Maria等[23]提出与分类回归树结合使用的不同分析方法,提升算法表现. Jarquin等[24]基于质谱分析法与主成分分析(principal component analysis,PCA)和随机森林(random forest,RF)的应用,对龙舌兰酒加工模式进行数据分析. Ragaventhiran等[25-26]针对现有数据挖掘算法进行改进并取得较好的效果,对已有的数据挖掘算法进行创新. Ni等[27]建立数据分析模型以分析中国不同地区的绿茶品质,分别使用线性判别分析(linear discriminant analysis,LDA)、偏最小二乘判别分析(partial least squares discriminant analysis,PLS- DA)和决策树(decision tree,DT)并比较了实验结果,发现DT算法相较于其他2种算法取得了更佳的实验效果.

2 大型活动犯罪预防

犯罪预防是指为了消除犯罪因素,对可能的犯罪人员提前进行防范预警,从而减少犯罪现象发生的工作. 随着经济社会的发展,高科技犯罪、“AI犯罪”等新型犯罪手段层出不穷. 伴随着人工智能的兴起,大数据分析与计算机科学等定量研究方法被应用于犯罪预防领域,并且取得了一些进展.

学术界对于大型活动现场的犯罪预防研究主要聚焦于基于视频数据的危险行为识别与预测. 危险行为识别与预测分为平面建模与立体建模2种方法. 传统的平面建模方法以视频数据中的每一帧作为数据源,运用循环神经网络(recurrent neural network,RNN)和长短期记忆(long short-term-memory,LSTM)网络等深度学习方法,对数据建立模型,实现对危险行为的识别与预测. Wang等[28]对循环神经网络进行了网络改进,将网络层数与学习率加深,将运动分为多阶段,分别进行建模,利用多模型的思想有效提升了模型的最终效果. Aggarwal等[29-30]从相机不同的视角角度提出一种人体行为分类方法,该方法为树状结构,可以有效融合视频信息从而准确识别人体行为. 王西颖等[31]基于隐马尔可夫- 模糊神经网络(hidden markov model-fuzzy neural network,HMM- FNN)模型实现了复杂动态手势识别. 陈一民等[32]设计了基于手势识别的机器人人机交互技术.

黄娜等[33]基于改进LSTM网络实现犯罪态势预测,以2016年洛杉矶犯罪记录作为实验数据,得到拟合度较高的实验结果,验证了改进LSTM网络在犯罪预测方面的准确性和有效性. 深度学习算法在计算机视觉(视频识别、图像识别)尤其是大规模数据集下的应用已经取得突破进展[34]. 而现有研究多聚焦于事中预警,对重大活动中事前犯罪的预警工作相对不足.

随着时代的进步,传统的犯罪预防工作频频出现一些问题,如技术落后、系统质量不佳、信息孤岛导致系统对接难度较大等,借助人工智能技术,推进犯罪预防智能化是解决以上问题的有效途径[35]. 以人工智能为基础构建的重大活动犯罪预防体系具有以下几个优势:

1) 准确度高

传统的犯罪预防模式主要以人的经验为主,科学性和前瞻性不足,难以应对各种隐蔽的犯罪行为. 而神经网络等技术通常能够实现自主学习、自主矫正等功能,不依赖于人的主观经验与判断,避免了经验主义影响下对犯罪特征的遗漏,能够全方面考虑重点人员的犯罪可能,实现精确预警和防控.

2) 效率更高

传统的犯罪预防工作,主要以视频监控等方式实现对情报的提取,依赖于大量人力、物力和财力的投入,一个案例可能需要多名警务人员长时间的排查分析,资源利用率较低. 将人工智能技术应用于犯罪预防领域时,能够快速地实现声音、图像、文本等非结构化数据的结构化以及多元异构信息的融合,从而方便地从中提取出情报信息,大大提高了警务人员的办案效率.

3) 信息更全

大数据时代,每个人都在网上留下了餐饮、娱乐等海量的个人信息,这些信息对于犯罪预防工作来说具有极高的挖掘意义. 传统的视频监控、进出口人员安检等犯罪预防工作仅仅只能观察到人员的当前状态,具有较大的局限性. 以人工智能技术为基础,运用神经网络、数据挖掘等算法,能够对个体信息进行全面的分析评价,从而实现对重点人员的动态监控,对减少犯罪行为的发生具有重要意义.

虽然以人工智能为基础的犯罪预防体系具有准确度高等诸多优点,但在应用过程中仍有许多问题需要注意. 首先,人工智能技术本身尚存在一些缺陷,比如目前的人工智能只能在特定场景内理解行为,一旦目标场景产生大范围变化,人工智能可能就会无法进行“思考”. 其次,以人工智能技术进行建模,必须以海量的数据为前提. 在数据的采集过程中,不可避免地涉及到民众的隐私问题. 因此,如何平衡机器学习等技术的数据需求与公众的隐私保护,找到一种科学合理的数据收集方式,成为人工智能实践应用的头等大事. 目前的人工智能技术只能由程序对目标进行控制,无法像人类一样自主思考和行动,用户无法预测出人工智能会给出什么决策. 一旦算法不够精确或者数据存在问题,就可能会产生误判,造成损失.

3 风险评估

风险评估理论最早起源于欧美核电厂的安全性评估[36],主要是指对某一风险事件或者事物给人们的生活、财产等方面造成的影响或损失程度进行量化的工作,如今已经被广泛应用于金融、化工、交通等领域.

1995年世界卫生组织(World Health Organization, WHO)和联合国粮食及农业组织(Food and Agriculture Organization of the United Nations, FAO)首次提出在食品安全领域进行风险分析的概念[37]. 风险评估是制定和修订食品安全标准和实施食品安全监管措施的科学依据,是风险交流工作的重要信息来源. 目前国内外主要的风险评估机构如表2所示.

关于食品安全风险评估工作,主要包括指标体系的构建和评估方法的选择两部分.

3.1 评估方法

关于食品安全风险评估方法,常用的主要有模糊综合评价法、指标打分评价法、反向传播(back propogation,BP)神经网络、数据挖掘以及层次分析法.

3.1.1 模糊综合评价法

模糊综合评价法是一种基于模糊数学理论的风险评价方法,该方法采用模糊数学理论中的隶属度理论将评价指标转化为定量评价,并对评价结果进行排序评优[38].

模糊综合评价法系统性强、结构清晰,对具有较强不确定性问题具有较好的处理能力,适合于各种非确定性风险的评价.

表2 国内外风险评估机构举例

3.1.2 指标打分评价法

指标打分评价法是在模糊综合评价法的基础上,结合专家经验得到的一种简单、便于计算的食品安全风险评价方法. 它的主要思想是通过建立食品安全风险评价指标体系,然后依托于专家的认知对各个指标进行打分并结合模糊综合评价矩阵计算得到风险等级[39].

指标打分评价法依赖于指标体系的科学性和专家经验,因此适合于精度要求不高的食品安全评价场景之中.

3.1.3 BP神经网络

BP神经网络是标准人工神经网络完善后的一种形式,具有很强的非线性能力,是一种最常用的前向型神经网络.

BP神经网络通常由1个输入层、1个或多个隐含层和1个输出层组成,每一层均由一定数量的神经元构成,就像人体神经系统一样.

在分类过程中数据首先由输入层节点向前传输到隐含层节点,然后经过激活函数处理,最终传输至输出层,每层节点的输出只受上一层节点输入的影响.

在训练过程中,BP神经网络通过反向传播学习算法,不断调整网络各个参数,从而使网络输出更加接近期望输出,寻找出输入数据中的内在规律和本质属性.

BP神经网络框架如图2所示.

图2 BP神经网络Fig.2 BP neural network

图2中:x1,x2…,xn为输入层神经元的输入;y1,y2,…,yn为隐含层神经元的输出;z1,z2,…,zn为输出层神经元的输出.

应用BP神经网络对食品安全风险进行评价,需要将量化后的评价指标作为网络输入,经过多次训练迭代之后,再将实测数据送入模型之中,得到食品安全风险等级[40]. BP神经网络具有很强的自学习和自适应能力,它可以自动寻找样本之间的内在联系,可以实现大量参数的自我调节,具有较高的容错能力,因此基于BP神经网络的食品安全风险评价方法具有一定的优越性.

3.1.4 数据挖掘

随着信息时代的来临,人们日常生活产生的数据总量呈指数式增长,在这样的背景下,数据挖掘技术应运而生[41]. 数据挖掘是指基于统计学、机器学习、数据库等知识,挖掘样本数据之间的联系,自动高效地分析数据的一种技术. 其中,关联规则挖掘算法Apriori是较适用于食品安全领域风险评估工作的一种数据挖掘算法. 在Apriori算法中,所有项的集合称为项集. 假设有2个项集A和B,引入支持度和置信度的概念,项集A的支持度定义为数据集中包含项集A的记录所占的比例,即

support(A)=P(A)

(1)

把大于最小支持度的项集称为频繁项集.

A→B的置信度定义为数据集中包含A的记录中同时也包含B的百分比,即

(2)

Apriori算法的基本思想分为2个部分:频繁项集的挖掘和关联规则的生成. Apriori算法首先找出数据集中所有的频繁项集,然后挖掘其中的强关联规则,从而得到具有密切联系的频繁项集对. 应用数据挖掘算法进行食品安全风险评估的流程如图3所示.

图3 基于数据挖掘的风险评估流程Fig.3 Flow chart of risk assessment based on data mining

3.1.5 集对分析法

集对分析法(set pair analysis, SPA)是我国学者赵克勤[42]于1989年提出的一种不确定性分析的系统分析方法. 集对分析法是在某个确定的问题背景下,将客观事物和客观因素之间的联系视为一个不确定性系统,通过2个相关的集合构建集对,对集对所具有的特性进行同一性、差异性、对立性分析,得到集对在特定背景下的同异反联系度表达式,并基于此进行系统的预测、控制等后续问题的研究. 运用集对分析法对食品安全风险进行评价,能够使定性指标与定量指标获得合适的分析处理,得到科学合理的风险信息.

3.1.6 层次分析法

在风险评估工作中,不同指标对于评估结果的贡献是不一样的. 因此,还需要考虑各个评价指标的权重问题. 层次分析法(analytic hierarchy process, AHP)是美国运筹学家萨蒂于20世纪70年代提出的一种定性与定量结合的权重综合决策方法[43]. 层次分析法首先将一个复杂决策问题分解为目标层、准则层和方案层,然后采用1~9标度法[44]将定性专家经验法转化为定量计算,使决策思维数学化,从而为多层次决策问题提供一种简便的决策方法. 层次分析法计算流程见图4.

图4 层次分析法计算步骤流程Fig.4 Flow chart of calculation steps of hierarchical analysis method

3.2 评价指标体系

建立一套科学合理的评价指标体系,是食品安全风险评价工作的基础. 在建立指标体系时,一般遵循以下几个原则:

1) 合法性原则. 即评价指标要符合相关法律法规.

2) 实用性原则. 即指标体系要符合具体的应用场景.

3) 适量性原则. 即指标体系中设置的指标数量要适量. 数量过少则指标无法反映真实情况,造成评价结果具有片面性,过多则不便于处理,且指标间容易具有重复性,导致结果失真.

关于食品安全评价指标体系的建立,相关学者已经做了大量工作.

在食品安全风险预警指标体系的基础上,陈秋玲等[45]结合指标设计的实用性、动态性等原则,设计了一套包括食品生产、流通、消费3个环节具体11个指标的指标体系. 李哲敏[46]以食品卫生指标、平衡膳食结构指标、营养及病理性指标作为一级指标,食品卫生监测合格率、热能适宜摄入值、工业源污染物抽检合格率、儿童营养不良发生率等17个二级指标构建了评价指标体系. 张东玲等[47]研究人员从“蔬菜种植基地”“蔬菜加工生产企业”“各级经销商”三类结构出发,构建蔬菜供应链风险评价指标体系. 杜树新等[48]设计了包含农药残留、兽药残留、微生物、生物毒素等8个一级指标的评价体系,每个一级指标又包含污染物的污染指数和毒性等二级指标. 郭迎春等[49]从食品企业的经营状况、信誉状况等多个维度,构造出包含3个一级指标、10个二级指标、28个三级指标的食品信用评价体系,对部分乳业食品进行评估研究,最后针对企业、公民和政府分别提出了风险防控的建议和措施.

在现有的指标体系中,大多只考虑到食品本身的风险特性,没有将人为食品安全风险纳入指标体系,因此需要相关学者深入研究并完善指标体系.

4 结论与展望

综上所述,国内外关于食品安全风险识别、评估等方面已经取得大量研究成果,但是仍有一些不足之处:

1) 针对大型活动食品安全保障工作,大部分研究人员只注重食品本身的质量问题,忽视了恐怖袭击等人为犯罪因素. 随着国际局势的更迭与犯罪手段的多元化趋势,传统警务模式采用人海战术,注重于被动预防,一线民警劳动强度大,防范效果一般. 如何开展警务模式改革,将传统警务模式更新为以信息化技术为主的情报主导警务模式仍值得广大研究人员深入探索.

2) 风险评估模型泛化能力较差. 由于食品安全风险评估方法与模型较多,不同模型应用在同一地区时,评价结果可能出现差异. 因此,针对现有模型进行分析,研究一种泛化能力强的评价方法,满足不同地区的需要,是未来食品安全风险评估工作的一个重点问题. 基于数据挖掘的风险评估有待完善. 人工收集的食品安全数据存在着样本数量有限、数据来源不客观等不利因素,得到的分析结果可能存在一些偏差. 因此,网络食品安全数据的挖掘与分析方法需要进一步研究优化.

3) 风险评估指标体系还需进一步完善. 已有的食品安全风险评估指标体系大多只考虑了食品本身在生产、运输和销售等方面的风险,没有考虑到投毒等人为的食品安全风险因素. 如何将人为食品安全风险纳入指标体系,还需要学者进行深入研究.

猜你喜欢
数据挖掘指标体系评估
两款输液泵的输血安全性评估
改进支持向量机在特征数据挖掘中的智能应用
2022城市商业魅力指标体系
健康管理中心护理质量评价指标体系的构建
不同评估方法在T2DM心血管病风险评估中的应用
交通强国建设评价指标体系
核电工程建设管理同行评估实践与思考
第四代评估理论对我国学科评估的启示
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景