基于大数据的农产品溯源管理系统构建

2023-03-22 09:28:58樊广
物联网技术 2023年3期
关键词:农产品产品信息

黄 燕,樊广

(河北经贸大学 管理科学与工程学院,河北 石家庄 050051)

0 引 言

2017年2月,商务部、国家工业和信息化部、公安部、农业部、国家质检总局、国家安全与监督管理总局、国家食品药品监督管理总局联合发布《关于推进重要产品信息化追溯体系建设的指导意见》,明确指出了关于产品溯源体系建设的重要性[1]。随着物联网和大数据技术的发展,利用大数据技术实现农产品溯源体系的构建已经成为一种趋势。大数据具有5V特征[2],具体表现为数据产生速度快、体量庞大、数据类型多样、价值密度低,但商业价值高以及数据准确可信赖。农产品的整个生命周期,包括种植生产、加工、销售、物流、售后等都可以进行数据化,然后利用统计、在线分析、机器学习等数据挖掘技术从海量复杂异构的数据中找到有用的模式和趋势,提取隐藏于其中的价值信息,再利用训练数据优化模型并通过测试数据进行检验,最终实现产品溯源的可视化。

农产品溯源平台是一个由多方主体共同参与的数据共治共享平台,它包含了供应商、生产者、消费者、监督者等多元利益相关者,记录了产品全生命周期的数据信息,并通过追溯相应数据信息的演变过程来实现产品的溯源,包括数据的产生、传播、变更和消亡等。

农产品溯源平台的结构如图1所示。通过向上追踪可以查询到产品的源头信息,包括种植信息、供应商的资质、制造商的生产加工信息以及质量检测信息等;通过向下追踪可以查询到产品的流通信息,包括产品的销售信息、物流信息以及售后情况等。同时,可将数据库中产品的产地信息、生产信息、运输信息等集成到二维码中,消费者可通过相应的识别设备进行查询。当有异常的数据出现时,消费者可通过产品溯源平台向监管部门进行投诉,监管部门也同样可以通过二维码技术对产品数据进行核实,并进行相应的处理和反馈。

图1 农产品溯源平台结构

2 农产品的可追溯性

2.1 农产品溯源的必要性

农产品具有一定的行业特殊性,全产业链的时间周期长、涉及主体众多,全生命周期的各个关键控制节点会产生大量数据,包括种植信息、环境信息、检验信息、控制信息、资质管理信息、人员信息等,且信息化水平参差不齐,各部门间也多是以管理好自己为主,容易形成“信息孤岛”。其次,农产品的质量具有一定的时效性,容易在流通环节中腐坏,产品在运输过程中也容易被外力损坏,通过溯源系统可以了解每一个环节的产品质量状况,准确定位责任人,扭转之前产品损坏通常由供应商承担的局面,也能由此提高各个部门对产品质量的重视程度。

2.2 农产品数据的可追溯性

产品数据既包括在种植、生产、销售、物流等市场活动中形成的原始数据,也包括经过数据预处理后形成的派生数据。应用于产品溯源系统中的数据一般指派生数据,它是按照一定的规则和标准进行加工、计算、聚合而形成的,既具有产品市场交易记录的信息,也能通过数据溯源重构产品的交易路径,实现产品数据的可追溯性。

为完善产品溯源系统,实现数据的可追踪性,在溯源的过程中需要对数据进行标记,实现数据的追踪定位;对原始数据应进行一定的保留,保证溯源的可靠性;而经过一系列加工操作所得的派生数据也应保证其使用的可靠性和安全性。同时,溯源系统应具备数据兼容性和实时反馈的高效性,依靠数据之间存在的关联,并发进行数据的追踪和处理,可以减少资源的消耗并提高溯源效率。

3 农产品溯源管理模型

3.1 数据溯源模型综述

数据溯源是一个发展的过程,期间也形成了多种溯源模型,可以划分为数据溯源描述模型、数据溯源应用模型以及数据溯源安全模型。数据溯源描述模型的发展过程为早期的W2模型[3]、W3模型[4]、W7模型[5],到W7+R3模型[6],这个阶段是对溯源范围的扩展和溯源内容的完善,详细记录了不同事件的重要信息;再到OPM开放溯源模型[7],支持在不同系统间实现可用数据的追溯,允许描述信息同时存在于不同的层级;最终扩展到如今较为成熟的ProVOC数据溯源描述模型[8],采用PROV溯源标准,解决了数据在不同溯源模型之间交易困难的问题,实现了模型的灵活扩展。

随着溯源技术的更新,数据溯源模型不断扩展并细化于某些特定的领域,由此诞生了多种数据溯源应用模型。Provenir数据溯源模型是一个完整的数据溯源管理系统,提供修改元数据的功能,同时使用物化视图的方法解决了数据存储困难的问题;空间数据溯源模型[9]利用SPFPM空间信息处理流程溯源中间件实现溯源模型的形式化表达;还有适合复杂高密度处理的分层二部图溯源数据模型HBPM[10],在不同模型层次结构上收集信息的关键值溯源模型KVPM[11],关联数据环境的PV模型[12],描述关联数据集的VOID模型[13],以及发布时添加元数据信息的VOIDP模型[14]。

数据溯源安全模型是为了从内部和外部共同保障溯源数据的可靠性和安全性,防止数据被转换或是人为篡改。Hansan等[15]创建的数据溯源威胁模型,基于密钥审计和广播加密来保障信息的完整性;Zhang等[16]对其进行改进后,实现了检查添加记录和以有限非循环图的方式管理数据处理的序列;李秀美等人[17]做了进一步补充,引入时间戳参数和逻辑密钥分层,保护不同时间链生成的数据的安全性;Nguyen等人[18]提出的访问控制模型PBAC,授权用户操作权限,从而起到安全保护的作用;王凤英等人[19]构建的安全数据溯源模型PROV-S在已有模型的基础上增加了安全起源节点S和其他节点间的关联关系;邓仲华等人[20]组合数据溯源描述模型,提炼出包括语义层、逻辑层和安全层的数据溯源安全模型,通过在安全层设置访问控制实现数据防篡改、操作记录存储和数据信息可恢复等功能。

3.2 农产品溯源模型构建

农产品溯源模型最重要的功能就是实现数据溯源,结合文献[20]中的思维模式,将现有数据溯源模型的优势进行整合,最终构建一个全面可靠的溯源管理系统。

通过W7+R3模型记录数据的溯源信息,了解农产品的哪类数据(which)在什么时间(when)和地点(where)因何原因(why)被谁(who)或者什么因素(what)所影响,数据是怎么动作的(how),以及产生了怎样的效果;通过参考(reference)产品的资料信息,分析溯源的成因及结果(result)并做出评论(remark),最后记录重要的备注信息。由于数据描述过程会带来很大的存储开销且不易于扩展,ProVOC溯源模型规范了数据采集、分析、处理的标准,很好地弥补了W7+R3模型的缺陷,提高了模型的可扩展性。

数据安全管理模型在产品溯源系统中具有必要性。产品在生产、运输等活动中会给数据带来被篡改、被转换的失真风险。为保障数据的安全性,可引入时间戳和逻辑密钥等手段提高数据安全性,合理组合各种溯源模型,简化一些规约和复杂的管理制度,对溯源标准进行扩展,满足系统的安全需求。

4 农产品溯源方法

面向不同利益相关主体时,以细粒度的形式对溯源信息进行标注时会产生大容量的存储,使溯源效率极大降低。可通过关联关系转换溯源过程、计算溯源数据、查询结果等;也可通过源表字段与目标字段的映射关系构建基于结构化查询语言的数据转换图形。

面向产品不同阶段的活动过程时,设计分层溯源框架以支持不同数据类型的存储,构建双向指针溯源方法对产品数据进行高效追踪,利用分布式账本技术在产品交易环节进行算法加密和数据共享。

面向大数据平台时,Hadoop生态系统可用于满足现代业务分析应用所面临的大容量、复杂性、多格式和高效率的处理需求,同时大幅降低了硬件和存储等开销;结合云服务环境,可实现数据存储虚拟化,并快速安全地对溯源信息进行访问。

5 农产品溯源系统框架

针对农产品的种植过程和生产过程等建立分布式数据库,这些数据库与产品溯源系统连接,定期传送数据,由此实现数据的采集。数据采集后会按照不同的分类存储在相应的数据库中,将数据进行清洗分析、数据变换和冗余降噪处理后,再应用于数据挖掘模型中,这样可以最小化无用的数据输入和输出,使模型的效果达到最佳。

溯源系统框架需要满足的设计目标包括:支持不同溯源数据模型,通过构建分层体系结构,将采集、存储和分析模型分离,以此实现对异构数据的存储和复杂溯源过程的分析;支持用户标注,允许用户在溯源过程中增加、更改或删除相关的记录,执行此操作时应注意对变更数据进行保留,保障数据的可靠性;在高效性方面,通过构建双向指针溯源方法降低溯源的空间复杂程度,同时优化路径,快速在复杂的数据中找到关联数据,提高运算效率;在可扩展性方面,扩展收集和存储机制以适应急剧增长的数据量。产品溯源系统模型框架如图2所示。

图2 产品溯源系统模型框架

数据采集层包含产品、资源、环境等混合信息,这会产生多样的数据类型,同样用户通过不同的系统进行各种操作也会产生大量的数据,这些结构化、半结构化和非结构化的数据构成了溯源系统的数据。面对复杂异构的数据类型,可采用Flume方式在Hadoop生态环境中高效地收集聚合数据,同时应用数据加工处理程序,以统一的格式将数据接入产品溯源系统的大数据处理平台中。

数据存储层将采集到的数据准确、完整、及时地进行存储,并为不同类型的数据提供合适的存储模式。整合异构数据可以使数据高效流动,并实现数据的共享;采用继承方法交换系统数据,以减少数据存储数量,提升产品数据溯源的效率。MongoDB数据库具有高性能、易使用、可扩展的特点,适用于复杂的聚合分析,可通过MapReduce框架在Hadoop生态环境中处理多样化的数据存储。

数据处理层会对不完整且含有噪声的原始数据进行清洗和数据变换,从而最小化从数据挖掘模型中出来的垃圾信息。数据处理的过程包括中文分词、数据清洗、数据变换、停用词过滤、识别缺失数据、处理错误分类、识别离群值等,数据被处理后才能用于分类、聚类和数据分析操作,并最终应用到模型当中。

数据挖掘是从大型的数据集中发现有用的模式和趋势的过程[21]。通过研究产品溯源业务,理解溯源数据,发现隐藏在大量数据集中的价值信息,从而建立模型,评估不同模型的效果,选出表现最佳的模型进行部署。数据挖掘主要有六大任务,分别是描述、评估、预测、分类、聚类和关联,其核心就是对数据进行操作,并通过回归方法、决策树、神经网络、贝叶斯网络、模型评估技术等分类方法以及K-means、BIRCH、Kohonen等聚类方法将具有相关属性的数据聚集到一起,使模型能够正确地处理数据,并达到最佳性能。

6 农产品溯源系统的数据安全保障

由于农产品的全产业链时间周期长,包含的相关主体众多,每个环节都会产生大量的数据,这些数据是生产要素,具有极高的商业价值,但同时也带来了一系列的数据安全问题,包括溯源系统数据共享存在的安全性问题、信息公开带来的隐私泄漏风险以及数据保密监管面临的挑战等。

区块链技术通过链式区块结构进行加密来储存数据,且存储于其中的信息不可伪造、不可随意更改,并且含有过程记录。将区块链技术融入农产品溯源模型中,能够提高数据的安全性。其中,联盟链[22]介于公有链和私有链之间,通过共识机制进行数据信息管理,通过密钥授权可以开放部分区块链服务供大众查看信息,但只允许联盟内部对节点进行修改,以此保障溯源系统的共享性和安全性。

区块链技术赋能保障溯源系统的数据安全如图3所示。将区块链技术与RFID技术有机结合,构建产品从生产、加工、销售、流通、售后等全生命周期的溯源链条;分布式账本技术通过链上存储赋能保障数据流通的透明化,结合哈希算法的单向二进制运算保证溯源数据无法被篡改,通过智能合约协议,在各方达成共识的前提下实现溯源数据的共建共享;最后通过非对称加密技术进行数据加密,该技术分为公钥和私钥,私钥掌握在被传输者手中,只有同时掌握两者才能解读数据,以此防止信息泄露。

图3 区块链赋能数据安全

7 结 语

结合大数据技术,通过整合现有数据溯源模型的优势构建了农产品溯源系统,能够通过追溯数据帮助消费者了解产品的来源,帮助企业提高管理质量,帮助政府增强监管力度,帮助各个利益相关主体快速了解不同阶段的产品信息。同时,海量数据的共享与使用容易给数据安全带来威胁,结合联盟链赋能和区块链技术赋能可以有效防止数据泄露和篡改,保障了溯源系统的数据可靠性。

目前,关于产品溯源的研究已有一定的进展,但仍需积极推进数据使用的规范化,提高数据服务的优质化,保障数据溯源平台的健康化。优化创新现有的数据处理技术,包括利用封装结构屏蔽多模资源差异;通过语义关联模型提高数据处理效率;加强访问接口规范,快速处理分布异构数据;充分利用区块链技术构建数据安全体系,保障数据安全等。由于大数据技术的新颖性以及数据和网络的复杂多变性,想要将系统完全应用于社会生产还存在一定的问题,在数据的连续性、准确性、可塑性、安全性方面面临严峻挑战,模型间的数据交互及融合也亟待加强。

猜你喜欢
农产品产品信息
农产品网店遭“打假”敲诈 价值19.9元农产品竟被敲诈千元
今日农业(2022年16期)2022-11-09 23:18:44
打通农产品出村“最先一公里”
今日农业(2021年7期)2021-07-28 07:07:10
各地农产品滞销卖难信息(二)
订阅信息
中华手工(2017年2期)2017-06-06 23:00:31
2015产品LOOKBOOK直击
Coco薇(2015年1期)2015-08-13 02:23:50
农产品争奇斗艳
展会信息
中外会展(2014年4期)2014-11-27 07:46:46
新产品
玩具(2009年10期)2009-11-04 02:33:14
产品
个人电脑(2009年9期)2009-09-14 03:18:46
下一个酷产品是什么
舒适广告(2008年9期)2008-09-22 10:02:48