张玉学
(苏州市职业大学 电子信息工程学院,江苏 苏州 215104)
物联网基础的食品安全数据挖掘支撑平台的设计
张玉学
(苏州市职业大学 电子信息工程学院,江苏 苏州 215104)
物联网基础的食品安全信息网络存在数据量巨大、数据源异构的突出特点.通过建立和运行模拟系统,在数据源的基础上,提出建立具有共享概念统一规范的本体库、结合云计算技术作为数据挖掘的支撑平台,对提高食品信息的数据挖掘效率,解决食品安全信息的泛在查询和在预警、突发事件处理等方面提供决策支持.
物联网;食品安全;本体;云计算;支撑平台
食品安全问题不只是民生问题,也关系到社会稳定和和谐.目前,研究相对成熟并投入运用的是物联网技术之一的RFID猪肉溯源技术,该技术从活猪养殖到猪肉出厂,给猪带上唯一的“电子身份证”以供消费者溯源和查询.但由于各地使用的数据库系统、协议、参数等的不同,使信息不能交互和共享,如本地消费者购买外地猪肉时不能判断其安全性,也不能使用户通过信息的收集做二次服务,如下次养殖量、猪肉定价等.对于异构数据,有研究者开发了一种RFID数据管理中间件,该中间件可以屏蔽异构读写器平台差异、以统一数据格式向上层提供通用接口[1],也有研究者开发了对象代理模型,通过建立代理对象和源对象,将对于代理对象的查询处理翻译成对于局部数据源对象的查询处理[2].这些解决方案在特定环境下能够有效解决问题,但对于物联网环境下的海量异构数据,这些方法的数据处理效率存在瓶颈.本文通过本体库建立和云计算技术的结合,作为先进的数据挖掘支撑平台,提高海量异构数据的处理效率.
食品安全信息网中的海量数据分布在不同的数据库中,来自遍布众多的各类传感器、手持式电脑、PC机和其他智能终端.异构数据库存在着计算机体系不同、操作系统不同或DBMS不同等问题[3].对于相同类型的数据库,也缺乏统一的语义集,如不同信息源使用多种术语表示同一概念.同一概念在不同信息源中的结构和表达方式不同.由此可见,解决分布式异构数据源模式和语义异构问题,实现数据源的互操作是该平台建立的基础.
本体是对客观存在物的系统描述,关心客观现实的抽象本质,可以有效解决分布式异构数据源模式和语义异构的问题.因为它能够描述目标世界所涉及的人员都共同认可的词汇,具有统一的规范,并且对人类活动的假设或设想等隐含知识进行清晰化表示.
1.1 解决问题的方法
从不同数据源向本体转化有多种方法,本研究采用从数据库抽取本体的方法实现.将源数据模式和语义用更具有明确语义的本体来表示,在数据源与本体之间构建映射关系,这样就可以将对本体的查询转换为对数据库的查询,使数据库在更高的抽象层进行语义交互,有助于不同系统之间的数据交换和融合[4].海量异构数据映射为本体,如图1所示.
图1 海量异构数据映射为本体
1.2 转换规则和本体库的设计
Protégé 2000是广为接受的本体开发工具,它支持多种知识库和数据库系统.具备标准的输入、输出格式,采用矩阵方式统计类、属性和实例的总数,支持OWL文件的生成和管理等.
在数据库到本体的转化规则和算法方面,国内相关研究人员和机构已经形成较为全面的方法,张晓明等[4]研究了从数据库的逻辑模型、概念模型、或建立专门的模式描述本体来抽取本体;许卓明等[5]给出了一种从ER模式到OWL DL本体的翻译方法.
本体库中存储了利用本体描述语言(OWL)描述的全局模式(即全局本体)和局部模式(即局部本体)以及它们之间的映射关系.全局本体提供了领域内所有共享词汇的概念及它们之间的关系,屏蔽局部数据源语义的不一致,是整个系统集成数据信息的全局视图.局部本体描述的是具体数据源中的概念和关系,并将概念对应到全局本体的相关概念上.当用户对全局概念集合产生查询请求时,系统根据全局本体与局部本体之间的映射规则将查询重构为对具体数据源的子查询.
例如,在数据源DB01中猪肉的信息表示为猪肉01(编号、出产地、饲养人、饲料情况、消毒记录),而在另一数据源DB02中表示为猪肉02(猪编号、农场号、负责人、疫苗记录、联系电话).根据对数据源和局部本体的分析,它们都表示了一个关于猪肉的共同信息,因此全局本体中可以抽象出一个代表公有的领域概念,表示为猪肉(编号、产地、负责人、健康记录、联系电话),并在全局视图和局部视图建立相应的映射关系.当用户提交的查询是:“Select编号,健康记录from猪肉”时,根据该全局本体和局部本体之间的映射规则,将这个全局查询可以分为对应的数据源DB01和数据源DB02的子查询:
Select编号,饲料情况、消毒记录from猪肉01;
Select猪编号,疫苗情况from猪肉02
数据挖掘又称数据库中的知识发现,它是从大量数据中揭示出隐含的、先前未知的并具有潜在价值信息的复杂过程.不仅能对过去的数据进行查询和遍历,还能提取隐含在其中的事先不知道,但又具备潜在价值的信息和知识[6],被挖掘出来的信息,能够用于信息管理,决策支持、过程控制以及许多其他应用.数据挖掘概念图如图2所示.
2.1 食品安全物联网支撑平台
云计算是一种通过Internet以服务的方式,提供动态可伸缩的、虚拟化的、资源的计算模式,具有扩展性高、通用性强、可靠性高、经济性好等特点.为提高食品安全物联网中数据挖掘的效率,结合本体和云计算的优点,设计如图3所示的云计算数据挖掘支撑平台.
图2 数据挖掘概念图
图3 数据挖掘支撑平台
云计算包括分布式文件存储和并行计算能力,分布式文件存储系统目前主要有GFS(Google文件系统)、HDFS(Hadoop分布式文件系统)和KFS(Kosmos文件系统)系统,这些系统在商业和学术领域已得到广泛应用.在分布式并行计算方面,Google提出的MapReduce和Pregel并行计算机框架,可以在大量PC机上并行执行海量数据的收集和分析任务,同时又隐藏分布式的相关细节[7].微软也开发了相应的系统用于基于Widows操作系统的分布式计算,这些技术都为数据挖掘支撑平台提供完备的云计算和数据处理能力.
本体库因其元素是客观世界现象的抽象模型,概念及它们之间联系都被精确定义,数学描述精确,反映的知识是共同认可的,能够屏蔽海量数据的异构性,增加底层数据库的交互和融合,为上层云计算提供更规范和统一的数据仓库.
2.2 平台模拟运行
1)本设计中,设计了几个不同数据结构的数据库,使用Protégé 2000设计本体,部分本体推理示意运行情况见图4.
2)在全局模式下设计一个信息查询应用,模拟云计算进行简单的数据挖掘.
3)登录系统后,按照提示信息输入商品条形码信息,见图5.
图4 部分本体推理示意
图5 输入条形码信息
4)按“查询”按钮,选择消费者感兴趣的信息进行浏览,如选择健康记录,显示见图6.
5)本应用从健康记录中进行简单的决策支持,如图7所示.
图6 健康记录浏览
图7 简单决策支持
数据挖掘与一般的信息检索有根本的区别.一般的信息检索主要依赖传统的计算机科学技术和数据的明显特征创建索引结构,从而组织和检索信息;数据挖掘能够从已知的信息中进行推理,用于信息管理、决策支持等.
RFID技术运用于猪肉信息溯源,为物联网技术应用于食品安全开了好头.如何解决物联网基础的大量数据源的异构,提高交互性和融合性是其深入运用到食品安全信息网络所要解决的首要问题之一.本体库的设计和云计算技术为解决这个问题提供了思路,更重要的是设计了一种可行的支撑平台用于提高数据挖掘的效率.在实际模拟中,本体库的形成还不够完善,需要后续的深入研究,数据挖掘模拟应用系统可以更细致.
[1] Liu Min,Xie Fangquan,Kang Zhuang zhuang,et al. RFeel:A RFID of Data Management Middleware[M]//. The twenty-seventh session of the NDBC2010 China database Conference Proceedings:series B,2010:254-256.
[2] 何 涛,刘君强,张学斌. 异构数据源数据集成的研究[J]. 计算机工程与科学,2008(28):132-135.
[3] 傅欣. 基于异构数据仓库开发模式的“高校物联网区域”研究[J]. 电化教育研究,2010(16):197-199.
[4] 张晓明,胡长军,李华昱,等. 从关系数据库到本体映射研究综述[J]. 小型微型计算机系统,2009,7(7):1367-1369.
[5] Cullot N,Ghawi R,Yuo Ngnon K. DB2OWL: a tool for automatic database-to-ontology mapp ing[C]//Proceedings of Fifteenth Italian Symposium on Advanced Database Systems,SEBD 2009,Torre Canne,Fasano,BR,Italy:2007:491-494.
[6] 柴文广,周宁. 网络信息安全防范与Web数据挖掘技术的整合研究[J]. 情报理论与实践,2009(3):97-99.
[7] 丁岩,杨庆平,钱煜明. 基于云计算的数据挖掘平台架构及其关键技术研究[J]. 中兴通信技术,2013,19(1):53-55.
(责任编辑:李 华)
Supporting Platform Design of Food Safety Data Mining Based on the Internet of Things
ZHANG Yu-xue
(School of Electronic Information Engineering,Suzhou Vocational University,Suzhou 215104,China)
The food safety information network based on the Internet of things features lage amount of data and heterogeneity of the data source.By means of setting up and running a stimulant system this article proposes to set up an ontology database with shared concepts and standards,combining cloud computing technology and the supporting platform of data mining in order to improve the effciency of data mining and solve the pan query and decision support in early warning and emergency handling of the food safety information.
internet of things;food safty;ontology;cloud computing;supporting platform
TP393
A
1008-5475(2014)04-0018-04
2014-09-18;
2014-10-08
张玉学(1977-),女,江苏江阴人,讲师,主要从事计算机网络方向研究.