杨亚琦,杨东霞,刘 燕
(1.云南省市场监督管理局信息中心,云南昆明 650100;2.云南省信息技术发展中心,云南昆明 650228)
随着大数据、区块链等新一代信息技术在食品安全追溯领域的广泛应用,食品安全追溯领域进入了大数据时代[1]。从企业生产、流通到政府监管,涉及食品链的各个环节拥有着庞大的数据资源。通过信息技术对这些数据进行有效采集、汇集、共享和分析应用,既可实现食品安全信息追溯,又可提高监管效率,为探索新的食品安全智能化监管机制、破解食品安全问题提供重要依据。然而,受制于数据标准和数据质量等问题,目前大多数食品安全追溯平台并未能实现数据的有效汇集、共享和应用。大数据时代,数据治理被认为是能提升数据质量、促进数据共享应用的有效手段而受到业界的广泛关注。众多国内外专家学者就食品安全追溯平台的建设及大数据技术应用和数据治理等方面进行了大量的研究。艾亮东等[2]在我国食品安全检测监管人员有限的条件下,面对食品领域存在的点多、线长、面广的实际情况,提出将物联网和大数据技术应用于食品安全智能监管中,以实现对食品领域全方位、全过程及全天候的监管;刘奉岩等[3]对大数据时代背景下食品安全监管过程中所使用的各类大数据技术进行分析,通过研究大数据技术,为我国食品安全提供保障。殷梦姿[4]从背景分析、设计原则、架构设计等6个方面介绍基于大数据的食品安全信息追溯平台实现方式及实际用途。李引等[5]设计了基于分布式架构的食品追溯平台,实现了婴幼儿配方食品、食用油和酒类等重点监管品种的追溯,公众可通过扫描二维码查询到食品生产许可证信息、抽检信息、流通环节等信息。
综上,目前对食品安全追溯平台的研究和探讨主要侧重于大数据技术应用方面,对数据治理的探讨还不多。因此,本文基于食品安全追溯平台发展现状,在借鉴其他学者研究成果的基础上,对基于食品安全追溯平台的数据治理体系进行了研究。
近年来,在市场、政策以及技术的驱动下,各种由政府主导或企业自建的食品安全追溯平台加快建设。食品安全追溯平台通过信息化技术提取生产、加工、流通、消费等供应链环节消费者关心的公共追溯要素,建立食品安全信息数据库,一旦发现问题,能根据溯源进行有效的控制和召回,从源头上保障消费者的合法权益,提高食品安全的监管能力[6]。同时,将各类海量数据聚合在一起,将离散的数据需求聚合成数据长尾,可以产生很多有价值的应用。
通过网上文献调研了解到,目前食品安全追溯平台的数据应用更多局限于单一系统或单一部门内数据的分析应用,还未真正实现食品安全追溯数据的汇集融合应用,主要存在以下问题。①食品安全追溯数据因分散在架构不统一、开发语言不一致、数据库多样化的系统中,而存在零散、异构、低质等特征。②数据共享存在壁垒、渠道不畅,表现为各部门业务系统存在信息孤岛,各自独立、无有效数据交换。其原因从技术层面来讲主要涉及各部门各系统的数据标准不统一、数据质量有待完善等因素。急需基于食品安全追溯平台加快构建数据治理体系,以有效解决上述问题,促进食品安全追溯数据汇集、共享交换和应用。
数据治理是大数据时代组织中涉及数据使用的一整套管理行为。数据治理基于元数据管理、数据标准、主数据管理等技术和工具,通过标准化的数据定义,营造规范和一致性的数据环境,能够促进组织改善数据质量、提升业务处理效率和赋能管理决策,近年来在金融、互联网等行业有了一些示范应用[7]。为实现对食品安全追溯数据的有效汇集、共享交换与应用,基于数据治理相关知识,在借鉴其他行业领域数据治理经验的基础上,构建基于食品安全追溯平台的数据治理体系。
食品安全追溯平台包括数据源、数据治理、数据资源管理、数据共享交换和大数据应用,如图1所示,实现数据采集、治理、共享交换和分析应用等功能。通过建立包括数据治理、数据资源管理等功能的食品安全追溯数据汇集与共享平台,实现重点食品安全精准溯源,以及跨层级、跨地域、跨系统、跨部门、跨业务的数据融合。通过深入挖掘数据价值,实现灵活数据开发、高效的数据查询、数据共享和交换等功能,为食品追溯、政务服务、宏观调控等大数据应用提供数据支撑。
图1 系统总体架构
数据的接入范围包括与食品安全相关的企业数据、政府部门监管数据及互联网相关数据,包括企业的生产和流通数据、营业执照数据,食品生产经营许可数据、海关数据、农业数据、商务数据及互联网舆情数据等。具体涉及从已建的系统或共享接口服务中获取食品生产企业数据、追溯数据、日常监管数据、检测数据和稽查办案等数据;同时与其他食品安全领域信息系统对接,进行数据共享共建、互联互通和数据交换。信息来源包括结构化和非结构化(包括文本、图形、图像、视频和音频等)信息资源,信息采集需要支持数据库、系统接口、文件等多种采集方式。
数据治理部分通过数据标准管理、元数据管理、主数据管理、数据模型管理、数据质量管理和数据安全管理,实现数据生命周期管理,不断提升食品安全追溯数据质量,通过将数据治理的成果应用于实践,满足所有利益相关者的信息需求,提高数据使用价值[8]。
2.3.1 数据标准管理
围绕业务工作需求和业务系统建设目标,确立数据标准建设目标,即食品安全追溯数据标准体系是一个可参考的、面向未来数字化管理的标准体系框架,用于指导食品安全追溯数据规划、数据治理和数据共享应用;运用一定的数据管理应用程序完成业务规则的梳理和数据定义的统一,包括数据编码标准、数据元和数据接口标准等,为系统互联互通提供标准支撑,为数据存储、统一管理、共享交换和应用奠定基础。
2.3.2 元数据管理
食品安全追溯元数据管理是使用元数据管理工具,对平台接入的各个系统的数据信息、服务信息与业务信息进行采集,自动化抽取所有的业务元数据、技术元数据、管理元数据,实现平台所有食品安全追溯信息资产梳理、展示及管理,并对业务系统和数据分析平台的开发、维护过程提供支持,以满足用户的业务需求。其中,技术元数据包括库表结构、字段约束、数据模型、ETL程序和SQL程序等;业务元数据包括业务指标、业务代码、业务术语等;管理元数据包括数据所有者、数据质量定责、数据安全等级等。
通过元数据管理,构建完善的食品安全追溯数据说明书,提高数据的查找效率和可理解性,并通过可视化的方式展现数据上下游关系图,降低数据问题定位的难度。
2.3.3 主数据管理
食品安全追溯主数据管理是通过主数据管理系统,运用相关的流程、技术和解决方案,创建并维护核心数据一致性、完整性、关联性和正确性的有效管理过程,主要包括主数据标准管理、主数据生命周期管理和主数据应用管理。在识别食品安全追溯主数据时,先初步拟定主数据的范围,再反向进行数据的梳理与调研,根据数据实体的归属业务,识别其在各业务系统的分布情况、数据结构组成以及理清其来源去向、质量情况等并进行评分,最后依据评分情况识别、验证、确认出主数据[9]。
通过主数据管理,基于主数据管理标准和流程,识别食品安全追溯主数据,建立统一的主数据代码库,对主数据共享应用进行有效管理,确保主数据被准确、便捷地使用,采用源头集中共享方式,为主数据在应用环节的一致性提供保障。
2.3.4 数据模型管理
数据模型管理主要完成对食品安全追溯数据的逻辑组织方式(数据的基本结构和结构的语义)管理。基于食品安全追溯数据的来源、类型、使用等方面的特点,在数据架构设计上,食品安全追溯数据中采用关系型数据库与非关系分布式数据库相结合的混合存储模式。结构化数据(关系型数据)存储针对各类结构化关系型数据采用传统关系型数据库和MPP架构的新型数据库集群进行存储。采用Shared Nothing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑。非结构化数据存储针对半结构化数据和非结构化数据,主要采用分布式文件系统进行存储和计算。
2.3.5 数据质量管理
食品安全追溯数据质量管理是指按照数据质量要求监测和提高数据质量的过程,主要涉及数据质量规则制定及核查;建立及落实数据质量考核评价机制和数据质量问责的闭环机制。其中数据质量规则制定及核查包括建立数据标准和主要源系统的数据映射规则,设计编写数据标准项的质量检验规则及核查等相关内容。建立及落实数据质量考核评价机制和数据质量问责的闭环机制包括数据质量考核评价指标设立、评估、反馈、整改及问责等内容。
2.3.6 数据安全管理
构建以数据与应用为中心,围绕数据采集、传输、共享,到最终销毁的全生命周期,由管理规范、安全技术等支撑的食品安全追溯数据安全防护体系,形成完备的数据安全技术策略和落地措施,对实际业务场景中数据泄漏以及敏感信息非授权访问等风险形成有效的安全防护,保护数据安全。
围绕提升食品安全追溯的业务质量和业务效率,开展食品安全追溯数据资源体系建设,主要涉及食品安全追溯数据资源库建设和管理。食品安全追溯数据资源库分为基础库、业务库、主题库和分析库。
2.4.1 基础库
基础库一般指的是核心实体数据库,基础库按来源可分为食品安全追溯内部数据和外部数据两大类。内部数据(追溯基本信息)包括食品名称、条码、类型、规格、单位、保质期和生产企业等食品基本信息,以及生产日期、生产批次、生产数量和质检报告等食品生产信息。外部数据包括营业执照信息、企业信用信息等行政审批信息,以及企业备案信息、食品备案信息、进货信息、销货信息、食品追溯链条、从业人员信息等食品安全监管信息。
2.4.2 业务库
业务库主要是在业务开展过程中形成的生产库数据,记录和存储业务处理的原始信息,是对重点食品追溯环节和监管环节处理过程所涉及信息的全面反映,是整个食品追溯的核心数据,主要包括支持食品追溯及其他相关平台涉及的各类业务表和数据项。
2.4.3 主题库
主题库一般指的是某个业务主题数据,基于业务需求,构建用于决策支持的食品安全追溯主题数据,包括食品的生产、销售、流通、质量监督检查及企业综合监管等相关的追溯和监管信息主题,为通过大数据、云计算等方式实现查询分析、报表统计、数据展示、决策支持等提供数据支撑。
2.4.4 分析库
分析库指的是基于业务主题数据进行各类数据分析建模后形成的分析数据库,按照用户选择的时间,对各类市场监管情况进行还原和切片,进行统计和分析,展现数据总体情况、分布情况以及规模分布情况,并采用多样化的形式进行展现,如企业综合评价、产业区域分布、高危企业分布等。
汇集各相关单位各类业务系统所产生的各类数据,如食品生产许可、食品经营许可、食品基本信息、食品生产信息、企业进货信息、企业销货信息、生产企业信息、供货企业信息和分销企业信息等,通过数据治理和数据资源库建设,为大数据应用提供数据支撑。
将各类业务数据与市场主体信息进行关联,经科学分类、深度挖掘分析,支撑食品追溯、政务服务等大数据应用。同时,为保证大数据应用的信息资源具有良好的鲜活性,需要建立数据双向同步更新机制[10]。为确保共享利用的信息资源准确有效,各部门需要及时将更新的业务信息同步到大数据应用系统,同时大数据应用系统还要将得到更新的业务应用信息及时同步到共享平台,从而实现数据双向同步互动。
本文将数据治理技术应用于食品安全追溯平台建设,通过数据标准管理、元数据管理、主数据管理、数据模型管理、数据质量管理和数据安全管理为中心的数据治理体系建设,旨在提升数据质量、促进数据汇集共享和交换应用。但数据治理是一个复杂的系统工程,以数据治理为手段促进食品安全追溯数据的价值创造,还需要今后持续深入研究探索。