郭曙超,龚方,*,昃向君,周保华,于仕超
(1.山东出入境检验检疫局,山东青岛 266000;2.烟台出入境检验检疫局,山东烟台 264000)
食品安全问题作为全世界范围内普遍关注的问题,得到了各国政府及相关机构的高度重视,各国相继开展食品安全监测和预警系统的研究[1],提高食品安全监管效率。同时,食品安全问题是一个多学科交叉的既广泛又深入的科学技术问题,提升食品安全水平必须依靠科学技术的发展和应用。我国正处于食品安全风险高发期和矛盾凸显期,研究如何发挥相关技术支撑在保障食品安全方面的作用,对有效提升我国食品安全监管水平具有十分重要的意义。
本文主要以山东地区进出口食品检测实验室的数据为分析对象,研究食品安全检测数据仓库技术,并对构建食品安全进出口食品农产品安全风险预警与检测数据挖掘分析平台打好了基础,从而为实现进出口食品安全问题的早发现、早预警、早控制和早处理提供准确的数据信息参考。
食品质量安全检测数据是食品安全风险研判和实施食品安全科学监管的重要技术依据,如何对各级食品安全检验实验室产生的各类检验数据进行系统的信息化管理,为食品安全风险预警和科学监管提供有效的数据和信息支持,已成为逐渐引起我国食品安全监管部门和食品安全检测机构关注的技术难题。
全国各级食品检测实验室每天要开展大量的食品检测工作,也就是说每天都在产生大量的食品检测数据,近几年以来已经形成了一个巨大的食品安全数据仓库,单个数据都只说明被检测的样品中某个项目(危害物)的残留情况,但大量数据的集合包含了丰富的食品安全信息。如何利用这些数据进行分析,为食品安全监管提供决策依据,是食品安全监管部门迫切需要解决的问题,如何在这些数据海洋中找到隐藏的有价值信息,用于辅助政府对食品安全的管理与决策,是非常具有实际意义的。
在构建用于数据分析的数据仓库时,从源系统中采集到的数据往往存在着来源众多、种类繁杂以及数据不规范等现象,这些源数据可能存在两种情况:第一种是有些列的数据对数据分析毫无意义,第二种是对那些有意义的数据,存在数据值定义不完整、数据冗余等情况、这种不规范、不完整的数据会影响后续数据分析的结果[2]。
食农产品检测结果是数据分析中最关键的部分,食品检测项目种类较多,参考标准也有出入,使得检测结果和项目信息存在很多的不规范,如限量类项目本应为数值型结果,而录入的检测结果经常包含字符;对结果的描述不统一,例如对阴性结果的描述包括了“未检出”、“阴性”和“ND”等;检测项目的名称不统一,如“DDT”和“滴滴涕”为同一个项目。
由于食品检测数据本身的复杂性和原始录入的不规范,导致数据源较为杂乱,必须建立一整套针对性的规则和标签对检测数据进行清洗。数据的清洗处理工作是建立数据仓库的基础,数据的分析在属性上具备不同的层次。对于实验室检测数据来说,需要考虑的有样品种类、项目类别、国别地区、检测结果等。比如时间上从年到季度到月到日,要实现这些不同层次的挖掘分析都需要对属性进行概念分层。科学的概念分层的意义:一是可以为构建数据仓库提供支持;二是要考虑与限量标准专家知识库有效关联;三是要反过来对生产数据库(实验室业务系统)的基础分类设置提供建议参考。
信息是有用的数据,数据是信息的表现形式,信息是通过数据符号来传播的,数据如果不具有知识性和有用性则不能称其为信息,也就没有价值。数据处理和分析就是讨论如何对这些纷繁复杂的数据进行分析,揭示其中隐含的内在规律、发掘有用的信息,为决策者的正确决策提供理论依据,它最大的特点就是“让数据说话”。而数据规范是数据分析的依据和工具,只有建立切实可行的数据规则,对实验室检测的数据进行统一和规范,才有可能使得“数据能够说话”,从中发掘有价值的食品安全信息。
数据仓库技术[3]是近年来出现的、发展迅速的一种技术,它通过把大量的历史数据整理集中到一个中央仓库中,将数据加以分析并呈现给用户来支持管理者的决策。数据仓库是一个整合式的、面向主题的、历史性的以及只读性的数据集合,其主要目的是提供给管理者作为管理决策的参考依据。
对于数据仓库的概念我们可以从3 个层次予以理解[4]:
1)数据仓库用于支持决策,面向分析型数据处理,它不同于实验室现有的操作型数据库。
2)数据仓库是对多个异构数据源的有效集成,集成后按照主题进行了重组,并包含历史数据。
3)数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们作出监管和改进的决策,信息才能发挥作用,信息才有意义。而把信息加以整理、归纳和重组,并及时提供给相应的管理决策人员是数据仓库的根本任务。
数据仓库与传统的数据库不同,数据库是未经整理后的一大堆数据集;而数据仓库是从数据库中萃取出来经过整理、规划、建构而成的有系统的数据库的集合。数据仓库所含数据是干净无误的,完整的而且是经过整合的,数据仓库的顺利建立并有效率的运行是进行数据分析挖掘有价值信息的基础。传统数据库在日常的管理事务处理中获得了巨大的成功,但是对管理人员的决策分析要求却无法满足。因为,管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的发展趋势。而传统数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量的历史信息。
为满足管理人员的决策分析需要,就需要在数据库的基础上产生适应决策分析的数据环境——数据仓库(Data Warehouse)。
本文主要在山东省各级进出口食品检测机构的日常食品安全检测数据的基础上,建立食品安全数据仓库,实现对食品安全整体状态的实时监测与预警。通过统计分析与数据挖掘,评价食品安全状态,分析和预测食品安全发展趋势,为食品安全管理与控制提供科学的决策依据。主要技术框架和流程如下。
存放这些检测数据的数据库中通常包含的信息有:食品的名称、种类、产地、抽检样品号、检测时间、检测项目、检测结果及单位、进出口国家、生产企业等等。数据分析主要关注的是食品的种类、产地、检测时间、检测项目及结果,在数据库中分布较分散,在数据分析之前需将这些单独提取出来。
食品检测数据有其自身的特点[5],处理过程中主要发现的问题有:
1)同类样品所检测项目分布不均,每个样品通常检测多个项目。
2)检测的项目中限量类危害物是主要的关注对象,主要是指有着最大残留规定的危害物,其类别涉及到农药残留、兽药残留、食品添加剂、有害元素、毒素等,在所有的危害物中其数量占据了相当大的比例,对这类项目要进行概念分层。
3)录入的检测结果不规范,这主要表现在限量类项目本应为数值型的项目检测结果经常包含字符,如“>3 000”、“<10”、“ND”、“未检出”等,或结果值空缺,还包括进出口国和产地录入的不规范等等。本文以山东地区进出口食品检测数据为研究对象,分类整理检测数据中的信息,科学的进行样品类别、项目类别、国别地域的概念分层,即建立规范的样品类别多级分类、项目类别多级分类、地域、国别字典表和阈值判定对照表等规则,逐步进行数据集中、处理、清洗、离散和概念分层,为统计数据设计数据标签。设计方向见下图。
搜集整理2006 年~2012 年连续6 年的食品农产品检测数据,通过以上数据清洗处理的方法和步骤,进行数据转换,建立数据标签和清洗规则,形成了山东口岸进出口食品农产品检测数据的数据字典系列,包括了项目字典表、产品字典表和国别地域字典表等一整套用于实验室食品农产品检测数据关键属性的概念分层与编码规则体系。
1)产品字典表
产品字典表共分为动物、动物产品、植物、植物产品和食品5 个大类,每类有三层分级,共细分为130 余项小类。以植物产品大类为例,下分蔬菜、豆类、花生及制品等12 种中类,每个中类下分小类,以蔬菜为例,下分保鲜蔬菜、脱水蔬菜、速冻蔬菜、盐渍蔬菜4 个小类,各小类下一级即为具体检测商品的名称。
2)项目字典表
梳理食品农产品检测风险物质的主要种类,结合国际标准上通用的规则,对上千项检测项目(除动植物疫病以外)进行分类,建立规则。共建立涉及微生物、农药残留、兽药残留、理化检测、转基因、元素、毒素、添加剂8 个大类的检测项目字典库,每个大类下设两级分类。以兽药残留大类为例,下分磺胺类、类固醇类、四环素族等近30 个中类,每个中类下分小类,以四环素族为例,下分金霉素、强力霉素、四环素及土霉素4种常见的检测项目。
3)地域国别字典表
结合山东口岸进出口食品农产品的区域分布情况,设计地域国别字典表,结合地理经纬度建立地图模式,分别对不同国家和地区,山东地区17 个地级市进行展现,直观简洁。
食品安全检测数据仓库建立的根本目的在于对决策的支持,即为提高检验监管的效率和决策提供数据信息方面的支持。高层的风险分析者、中层的业务处理和监管人员和基层的实验室检测人员等不同层次的管理人员均可以利用数据仓库进行决策分析,提高管理决策的质量。数据仓库体系结构[6]如图1 所示。
图1 数据仓库体系结构Fig.1 Data warehouse architecture
在图1 表现层中,我们研究了多种形式对建立的数据仓库进行分析利用,主要体现在以下三个方面:
1)研究数据分析结果的可视化展示
实验室的大量检测数据被利用起来,实现检测情况和检出情况的直观化分析,为支持领导决策提供第一手资料,完善决策依据,优化决策方法,使决策更加科学化;实现信息处理、报表展现、预警、和辅助决策的功能,具有动态性、综合性和人—机系统的特点;利用管理信息系统,将进出口食品检验中的实验室检测数据整合成一个有机整体,实现数据分析的可靠性和准确性,提高了工作效率。
2)利用数据挖掘工具实现价值信息的提取
采用科学数据挖掘算法[7],如关联规则、聚类分析,自动预测等。在建立食品农产品检测数据仓库的基础上发掘有价值的信息,帮助决策者掌握和分析进出口食品安全当前的和历史的、多层次的数据情况,并以较直观的、易于理解的形式给出分析结论,以便于掌握食品安全变化规律,预测发展趋势,更好的提高决策的科学性和预见性。
3)数理统计趋势分析方法对检测数据进行动态分析
食品安全趋势分析是指通过对食品检测的历史数据和有关信息的统计分析,对食品安全未来发展前景作出预测。食品安全趋势分析是食品安全控制决策科学化的工具,是食品安全管理部门编制计划、预见计划执行情况、加强计划指导的依据。在食品实验室检测数据库的基础上,选择移动平均线趋势分析、回归分析、时间序列分析法等工具,在大量历史数据的基础上获得接近危害物未来分布的趋势,从而将预警控制前移到阳性风险出现之前,由“被动”预警转为“主动”,并对预警的有效触发和解除进行了验证。
目前,随着食品安全问题越来越得到大众的关注,食品安全风险预警和监测体系也亟待加强与完善,而数据仓库作为风险信息中最为基础和关键的一环,也得到了更多的研究与重视[8],其中本文所建立的进出口食品安全检测数据仓库就是对这一技术的具体研究与应用,其建立的山东地区进出口食品检测数据仓库为进一步的食品安全预警分析提供了保障。
[1]王海明,郑培,潘海虹.食品安全风险监测预警系统研究[J].中国卫生监督杂志,2010,17(6):106-110
[2]李聪,黄逸民.食品安全监测与预警系统[M].北京:化学工业出版社,2006:200-246
[3]何玉洁,张俊超.数据仓库与OLAP 实践教程[M].北京:清华大学出版社,2008:10-56
[4]Tom Hammergren.数据仓库技术[M].曹增强,王备战,岳晓奎,等译.武汉:中国水利水电出版社,1998:88-256
[5]唐晓纯.食品安全预警体系框架构建研究[J].食品科学,2005,26(12):246-249
[6]C J Date.数据库系统导论[M].孟晓峰,王珊,姜芳艽,等译.北京:机械工业出版社,2000:103-355
[7]王曙燕,耿国华,周明全.数据仓库与数据挖掘技术的研究与应用[J].计算机应用研究,2005,11(9):194-196
[8]宋国杰,杨冬青,林子雨,等.实时主动数据仓库的概念、问题及应用[J].计算机研究与发展,2007,44(Suppl.):441-446