郭承湘 韦宇巍 张国飞 黄星儒 莫欢倩
摘 要:食品药品监管中存在着海量信息。关联规则挖掘技术是分析信息系统数据关联性的有力工具,将关联规则挖掘技术应用到食品药品的投诉举报系统中,可以充分挖掘出与投诉举报相关的关联信息,并得到其中有用的关联规则。以广西壮族自治区食品药品监管系统为例,通过提取投诉举报相关的数据信息,组成食品药品投诉举报信息数据库,为食品药品监管提供决策支持,提高食品药品监管效率。
关键词:食品药品监管;信息系统;关联规则;数据挖掘
DOI:10.11907/rjdk.171472
中图分类号:TP319 文献标识码:A 文章编号:1672-7800(2017)009-0148-03
Abstract:There are a lot of useful information in the food and drug regulation. By taking example of food and drug regulation system of Guangxi province and extracting data information about complaint reporting, the complaint reporting information system was composed. Association rules mining technology is a useful tool for analyzing the data correlation of information system. We can fully mine the correlation information about complaint reporting and obtain useful association rules when applying association rules mining technology to food and drug regulation system, which can provide decision making for food and drug regulation, but also mprove the efficiency of the food and drug supervision.
Key Words:food and drug supervision; information system; association rules; data mining
0 引言
随着互联网等信息技术的快速发展,食品药品监管系统中的数据呈现爆炸式增长,如何挖掘出潜藏的大量有用信息对提高食品药品的监管效率具有重要意义。
数据挖掘(Data Mining)[1-3]作为数据分析的一个分支,可从大量不完全的、有噪声的、模糊的、随机的数据中提取出隐含在其中事先不知道但又是潜在有用的信息和知识。关联规则可反映出数据中各个项集之间的联系,数据挖掘中的关联规则挖掘可以挖掘出大量数据项集之间的相关联系。将关联规则挖掘技术应用于食品药品监管研究已取得了一些成果[4-10]。
晁凤英等[4]提出了一种基于关联规则的食品安全数据挖掘方法。从食品安全检测数据的特点出发,研究了关联规则在食品安全检测数据分析中的应用。文献[5]从研究食品安全问题入手,描述了关联规则挖掘、分类与预测、聚类、复杂数据挖掘几个研究方向,对数据挖掘应用进行了探讨。文献[6]在关联规则挖掘的背景下着重研究了增量式关联规则更新技术在食品安全检测数据集上的应用。文献[7]设计了一个以食品安全数据分析为基础的决策系统,实现了数据的即时更新,以及对多个数据库并行操作,可对不同数据之间相互影响关系进行高效挖掘。
本文研究关联规则挖掘在食品药品安全监管中的应用,以某食品药品投诉举报数据系统为例,通过对数据进行预处理、统计分析,应用关联规则挖掘技术对投诉举报系统进行关联性分析,从而对食品药品监管提供决策支持,提高食品药品监管效率。
1 数据挖掘算法
1.1 数据挖掘算法分类
数据挖掘通常分为两大类,一类是统计型,常用的技术有概率分析、相关性、聚类分析和判别分析等;另一类是人工智能中的机器学习型,通过训练和学习大量的样品集得出需要的模式或参数。数据挖掘的最终目标是发现有价值的知识和信息,各种方法有共同的思路和步骤,但也存在很大区别,表1给出了各种方法详细的对比结果。
1.2 Apriori算法
1.2.1 Apriori介绍
Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1项集,該集合记作L1,然后利用L1找频繁2项集的集合L2,利用L2找L3,如此下去,直到不能找到任何频繁k项集。最后在所有的频繁集中找出强规则,即产生用户感兴趣的关联规则。
Apriori算法具有任一频繁项集的所有非空子集也必须是频繁的性质。假如P(I)(最小支持度阈值),当有元素A添加到I中时,结果项集(A∩I)不可能比I出现的次数更多,因此A∩I也不是频繁的。
1.2.2 连接步和剪枝步
在上述关联规则挖掘的两个步骤中,第一步往往是总体性能的瓶颈。Apriori算法采用连接步和剪枝步两种方式找出所有频繁项集。
(1)连接步。为找出Lk(所有频繁k项集的集合),通过将Lk-1(所有频繁k-1项集的集合)与自身连接产生候选k项集的集合,候选集合记作Ck。设l1和l2是Lk-1中的成员,记li[j]表示li中的第j项。假设Apriori算法对事务或项集中的项按字典次序排序,即对于(k-1)项集li,li[1]
(2)剪枝步。CK是LK的超集,也就是说,CK的成员可能是也可能不是频繁的。通过扫描所有的事务(交易),确定CK中每个候选的计数,判断是否小于最小支持度计数。如果不是,则认为该候选是频繁的。为了压缩Ck,可以利用Apriori性质:任一频繁项集的所有非空子集也必须是频繁的。反之,如果某个候选的非空子集不是频繁的,那么该候选肯定不是频繁的,从而可以将其从CK中删除。
2 数据挖掘应用
2.1 数据来源
收集到广西省食品药品投诉举报平台从2013年1月份到2015年12月共3年的数据。
2.2 研究工具
通过调用Orale数据库的关键数据进行提取,采用Matlab对数据进行关联性分析。数据处理流程如图1所示。
2.3 数据预处理
表2为数据库中按投诉时间顺序排列的投诉表,对这些数据进行挖掘。
为了使该数据适用关联规则Apriori算法处理,需对其进行一些预处理,由数据清理、数据集成、数据变换和数据归约等构成。传统关系数据库中总存在冗余空缺数据、不完整和含噪声等信息的“脏数据”,数据预处理就是在不丢失重要信息的情况下达到提高数据挖掘质量的目的。
原始数据通过变化规则表3进行变化得到预处理后的数据表4,这些数据可以达到数据格式一致、数据类型相同、数据存储集中以及数据信息精练的要求,为后续高效进行数据挖掘提供了良好基础。
2.4 不同投诉情况统计分析
本文对3年间不同地区进行投诉量统计,统计表明:3年间总投诉量为11 460件,涉及到81个地区,图2为投诉量排名最大的前15个地区。
研究发现:前4个地区投诉量之和占总投诉量的68.60%;其中,南食药4420,柳食药1 948,桂林食药791,钦食药703。说明前4个地区的数据在数据挖掘中起主导作用。为了简化挖掘数据分析,本文选择4个关键因素:地区、年份、投诉举报产品分类和投诉举报来源作为有价值的相关联因素,将南食药、柳食药、桂林食药和钦食药作为选择的地区。
图3为不同地区随年份投诉量变化情况 ,发现area_48,area_37,area_56三个投诉量是逐年增加,投诉量增加最大的地区为area_48,area_21地区的投诉量2013年到2014年增加, 2014年到2015年减少。图4为不同地区投诉量举报产品分类情况 ,发现4个地区全部是type_6的投诉量最大,且area_48地区的type_6最大,其它类型的投诉量都不大。图5为不同地区投诉举报来源情况,发现4个地区全部是way_5的投诉量最大,且area_48地区的way_5最大,其它类型的投诉量都不大。
2.5 Apriori算法关联分析
通過对原始数据进行清理、集成、转换等预处理,达到数据格式一致、数据类型相同、数据存储集中以及数据信息精练的目的,为以后的高效数据挖掘提供良好基础。
从表5中的挖掘结果分析可知:type_6和way_5的支持度最大,area_48→way_5的置信度最大,说明政府要加大对药品食品投诉的整改力度,重点关注南食药地区的投诉情况,增加投诉举报来源地工作人员数量,对食品类投诉记录加快办理,弄清食品的分布业态,增加同类事件违反法律法规的处理频次。
3 结语
数据挖掘技术是近年热门的研究方向之一,关联规则挖掘技术是解决很多日常数据挖掘的一种可靠方法。本文利用投诉信息数据库进行初步统计分析,在此基础上借助关联规则算法Apriori对投诉举报信息进行深入挖掘。从地区、年份、投诉举报产品、投诉举报来源分类4个关键因素中挖掘出有用信息,得出政府有关部门必须重点关注南食药地区,及时解决热点投诉问题,采取切实有效措施的结论。
参考文献:
[1] AGRAWAL R, IMIELINSKI T, SWAMI A N. Mining association rules between sets of items in large databases[C]. In Proceedings of the 1993 ACM SIGMOD International Conference on Managemennt of Data (SIGMOD'93), Washington, D.C. ,1993:207-216.
[2] AGRAWAL R, SRIKANT R. Mining sequential patterns[C]. In Proceedings of the 11th International Conference on Data Engineering (ICDE'96), Taipei,1995:3-14.
[3] HAN J, KAMBER M.数据挖掘-概念与技术[M].北京:高等教育出版社,2001:1-449.
[4] 晁凤英,杜树新.基于关联规则的食品安全数据挖掘方法[J].食品与发酵工业,2007,33(4):107-109.
[5] 晁凤英.食品安全监管中的关联规则挖掘[D].杭州:浙江大学,2007.
[6] 徐燕伟.增量关联规则挖掘算法及其在食品安全监管中的应用[D].杭州:浙江大学,2007.
[7] 彭佳琪,肖毅,聂笑一.食品安全数据分析决策系统的设计与实现[J].现代计算机,2013(9):80-83.
[8] 王雅洁,杨冰,罗艳.大数据挖掘在食品安全风险预警领域的应用[J].安徽农业科学,2015,43(8):332-334.
[9] 丁亦岑,杜子平,李杨.基于数据挖掘技术的我国食品安全领域前沿探究[J].食品工业,2013,34(11):184-186.
[10] 边春娜,赵春青,邓云岚.数据挖掘方法在食品安全数据中的应用[J].科学大众,2014(7):84-85.
(责任编辑:杜能钢)endprint