数据挖掘在物联网中的应用研究

2016-06-04 08:20许艳丹张前进王志宏
周口师范学院学报 2016年2期
关键词:智慧图书馆云计算物联网

许艳丹,张前进,2,王志宏

(1. 安徽国防科技职业学院,安徽 六安 237011;2. 六安大江信息技术有限公司,安徽 六安 237000)



数据挖掘在物联网中的应用研究

许艳丹1,张前进1,2,王志宏1

(1. 安徽国防科技职业学院,安徽 六安 237011;2. 六安大江信息技术有限公司,安徽 六安 237000)

摘要:数据挖掘、云计算、物联网是目前信息技术领域的研究热点,探讨了数据挖掘在物联网中的应用背景,以及物联网的应用现状.分析了物联网数据的特点与基于云计算的数据挖掘服务架构,最后以智慧图书馆为例说明了数据挖掘在物联网中的应用.

关键词:数据挖掘;物联网;云计算;智慧图书馆

物联网是通过射频识别、红外感应器、全球定位系统、激光扫描器等信息传感设备,按照约定的协议把任何物品与互联网连接起来进行信息交换和通讯,以实现智能化识别、定位、跟踪、监控和管理的一种网络[1].物联网技术已被广泛应用在与人类衣食住行相关的各个行业中.各类物联网应用系统通过海量的传感器节点进行信息交换和通讯[2].人类在与传感器交互的过程中产生的数据越来越多.在这些海量的数据中包含着很多有价值的信息,通过深度挖掘与分析可以开发出更加智能化的应用.

自物联网概念提出以来,物联网产业受到各行业广泛高度重视.世界上已经有很多政府将物联网产业列为振兴本国经济的核心产业.目前物联网已作为国家战略性重点发展领域写入到中国“十二五”规划纲要中.物联网本身并非是创新性技术,只是对已有技术进行创新性集成.从技术本身来看,物联网行业就具有跨部门、跨行业的特点,这就产生了物联网标准难统一的问题,因而,物联网标准的统一需要从国家层面进行协调.随着物联网列为国家重点产业,政府加大了对物联网扶持力度,如2011年国家标准委员在国家物联网基础工作组的基础上成立国家物联网编码标识项目组,这也是国家将技术标准作为战略网络基础资源参与世界竞争.

行业的发展带动了人才的需求,物联网专业已被纳入普通高等学校(本科/专科)专业目录.目前从高校到行业普遍是更多地投入到硬件研发上并且成果显著,如小米公司的智能家庭、华为公司的智能家居.另一方面,采集到的物联网中的海量数据,并没有被有效深度挖掘与分析,缺少对软件领域的智能应用开发.

1物联网数据特点

物联网的目的是更加智能化的用户体验.数据挖掘与分析是智能应用开发的基础,也是将来衡量物联网智能水平的标准[3].

1.1异构性、非结构性、高增长性

2011年,ITU对物联网的定义中物与物相联中的物不仅指能够被感知或者操作的物理设备,还包括在信息系统中能够被识别和访问,具有标识的对象[4],即虚拟的物.物联网中各种物理传感器设备和虚拟对象产生的数据被分隔存储在不同的应用系统中,因此,从物联网的诞生就决定了物联网数据的异构性;另一方面,在这些数据中除了包含有存储在数据库中,可以使用二维表表示的结构化数据,还包含非结构化数据,如文档、视频、图像、文本等不能通过二维表表达的数据.

物联网中包含的海量传感器能够感知的对象非常广,其产生的数据量也非常巨大. 2014年4月IDC“丰富的数据和物联网日益增加的价值”报告中指出,来自于嵌入式系统的物联网数据到2020年将占据全球数据总量的10%.虚拟对象产生的数据量同样具有高增长性,2014年天猫平台仅“双十一”前一分钟的交易量就达到了83万笔,一天的交易额突破了571亿元. 互联网上非结构化数据也呈现爆发式增长,2000年底网页数量就达到了40亿.

1.2分布式存储方式

数据挖掘的前提是数据存储,物联网异构的特征就决定了数据的分布式存储方式.与传统的集中式存储技术不同的是,分布式存储技术并不是将数据集中地存储在某个或多个特定的存储设备或网络节点上,而是通过网络将分散的存储节点构成一个统一的虚拟存储设备,数据分散地存储在各个网络节点上.分布式存储结构如图1所示.分布式技术的出现,让物联网中海量数据的分布式存储成为可能[5].分布式存储实现了不同网络、不同地域间数据共享及数据交换的目的,便于对分散的数据进行集中管理和控制.

图1 物联网分布式存储结构图

1.3基于云计算的数据挖掘架构

如上所述,物联网的设备和数据存储采用的均是分布式存储方式,在数据挖掘方式上相应需采用分布式数据挖掘,在计算模式选择上需要选择目前的热点技术——云计算模式.云计算是基于互联网提供计算服务的新型计算模式,具有低成本、屏蔽底层差异、计算扩展性好、数据处理规模大、容错处理能力强等优点.另外,每一个物联网分布式存储节点所对应的数据终端为实现对实时环境做出快速准确地判断,均需要具有强大的实时数据处理分析能力.综上所述,在数据挖掘算法选择上,选取基于云计算的分布式并行数据挖掘算法.基于云计算的数据挖掘服务框架如图2所示.

图2 基于云计算的数据挖掘服务框架图

并行数据挖掘平台位于物联网大数据之上,并为UI交互层提供数据挖掘“云服务”.用户通过UI交互层可以获得定制的个性化服务.

2数据挖掘在智慧图书馆中的应用

2.1智慧图书馆应用框架

物联网技术体系结构由感知层、传输层、应用层组成.基于云计算的智慧图书馆框架是在传输层扩展了数据层和数据挖掘层,如图3所示.

2.1.1感知层

感知层包含有大量负责采集数据的传感器节点以及可以被抽象化的虚拟资源.如采集图书馆环境信息的温度、湿度传感器节点;读取用户一卡通数据的RFID读写器节点;数字化图书馆日志系统中记录的用户浏览电子图书的路径日志;实时视频监控系统中记录的视频图像资料等.这些数据利用感知层的接入网络将数据采集到数据节点并通过传输层传输到分布式时空数据库.

2.1.2传输层

传输层的主要功能是将移动网络、无线网络、物联网、局域网等异构网络融合,形成一个安全、可靠的数据传输通道,实现各类网络的互联互通,即实现智慧图书馆中人与人、物与物、人与物之间的全面互联、互通与互动[6].

2.1.3数据层

物联网中不同传感器节点数据表示方法均不相同,即使同类型的传感器在不同的系统应用中数据表示方式也不尽相同.因此,造成了物联网数据的异构性.这种数据异构性、非结构性的特点,使得数据层在智慧图书馆数据挖掘平台中起着至关重要的作用.数据层的主要功能是将异构数据和非结构数据进行转换并实现分布式存储.上述功能主要通过数据层的数据转换模块来完成.数据转换模块不仅解决了数据的异构性,而且保证了数据存储的完整性[7].物联网中的数据与一般的属性数据不同,不仅具有属性数据的特定性,还具有空间性、时间性、复杂性等能够反映现实世界各种变化的地理时空特性.利用Hadoop平台完成物联网数据的分布式时空数据库存储.Hadoop平台是一个由Apache基金会发布的分布式系统基础架构,具有成本低、高容错性特点,能够为海量数据集提供高吞吐量的应用访问.分布式时空数据库中的数据经过筛选、清洗、转换可以构建面向主题的数据仓库并为数据挖掘层模式/规则发现提供数据源.

2.1.4数据挖掘层

数据挖掘层是智慧图书馆框架中的核心之一.数据挖掘引擎提供基于云计算的数据挖掘预处理云服务,如数据的清洗、转换等,以及并行计算数据挖掘算法库.数据挖掘层可以实现关联、分类、聚类、模式发现、异常发现等功能.需要对Hadoop平台中的传统数据挖掘算法进行并行化处理改进.在数据层和数据挖掘层引入工作流系统,实现任务的组合管理,同时,为提高数据挖掘平台的可移植性在数据挖掘层设计一个为UI层提供数据挖掘服务的接口.

2.1.5用户UI层

用户UI层是实现人机交互的门户,主要包含用户身份识别、服务成果展示.用户身份识别采用单点登录(Single Sign On,SSO)模式.通过单点登录实现与学校其他业务系统进行整合.

图3 智慧图书馆框架图

2.2数据挖掘在智慧图书馆个性化服务中的应用

2.2.1数据挖掘在智慧图书馆中的应用业务分析

基于物联网的智慧图书馆实现了将人与文献、文献与文献相互关联.智慧图书馆系统中包含了海量的与用户有关的信息,如用户的文献借阅记录.通过对用户借阅信息的深度挖掘与分析可以得到用户个性访问信息.数据挖掘在智慧图书馆的应用主要体现在优化馆藏资源和馆藏布局,基于角色的个性化服务等方面.

(1)优化馆藏资源和馆藏布局

通过对所有用户的借阅记录,包含借阅频率、检索记录可以分析出用户的实际馆藏资源需求与借阅习惯,可以为图书采购和馆藏布局提供指导,使馆藏资源和馆藏布局最优化.

(2)基于角色的个性化服务

基于角色的智慧图书馆个性化服务包含内容定制、个性推荐等方面.通过数据挖掘分析用户借阅记录,得到用户个人浏览习惯和兴趣后,用户不仅可以在智慧图书馆的数字化资源中根据自己的浏览习惯进行内容定制,还可以基于移动终端平台如移动APP、微信公众号等向角色用户进行个性化推送服务,如可以定期向用户推送热点图书、兴趣图书推荐等个性化内容.

2.2.2关键技术实现思路

(1)基于用户行为特征和知识本体的用户建模

用户个性化服务的基础是基于用户本体的需求,就如去餐厅用餐,想按照自己的口味进行点餐,但是餐厅本身只提供统一的套餐一样,用户要想获得个性化服务,首先要分析用户个性化需求才能按需服务.另一方面,每个用户的知识背景、兴趣爱好、情感和社会关系均不相同,并且是动态变化的.如,同样在智慧图书馆中搜索“C语言”,大一的学生和大二的学生以及看过视频的与没看过视频的其知识背景是不同的,因此动态更新用户本体是正确建立用户模型的关键,是本模块需要解决的关键问题.实现思路如图4所示,首先对用户的借阅记录和点击日志记录进行聚类分析完成本体建模,然后通过对海量Web日志进行分析和计算,完成用户的情感分析与兴趣判断,最后通过统一的用户模型更新模块完成用户本体更新.

(2)个性化推荐引擎

传统的图书检索,使用同一个关键字搜索到的资源结果相同,用户要想找到自己需要的资源并不容易.基于数据挖掘技术实现的个性化推荐引擎就是根据用户知识背景、社会关系、情感的变化,帮助其从海量知识中获取有用知识,主要用来解决信息过载的问题.该引擎基于分析当前和过去的用户行为,为用户提供符合用户喜好的内容,其架构由下及上分为:数据层、引擎算法层、应用层.数据层是整个个性推荐引擎应用的数据源;引擎算法层完成个性化推荐算法,是个性推荐引擎的核心;应用层是直接面向终端用户构建的各种应用.

图4 用户模型与本体更新过程图

3结束语

数据挖掘是物联网实现智能应用关键的部分,其在物联网领域的应用,提高了智能化应用水平与用户体验.基于数据挖掘的智慧图书馆框架,不仅实现了图书馆各个业务系统和物理环境间的互联互通,而且为实现更加智能化应用提供了技术支撑.

参考文献:

[1]李德仁,姚远,邵振锋.智慧城市中的大数据[J].武汉大学学报(信息科学版),2014,39(6):631-640.

[2]丁治明,高需.面向海量传感器采样数据管理的数据库集群系统框架[J].计算机学报,2012,35(6):1175-1191.

[3]何清. 物联网与数据挖掘云服务[J].智能系统学报,2012,7(3):189-194.

[4]刘多.物联网标准化进程[J].中兴通讯技术, 2012, 18(2):5-9.

[5]薛建生,于忠臣,黄磊,等.物联网海量数据的分布式存储算法[J].小型微型计算机系统, 2013, 34(9):2081-2084.

[6]王燕.智慧校园建设总体架构模型及典型应用分析[J].中国电教化教育,2014(9):88-92.

[7]张毅,崔晓燕.基于云计算平台的物联网数据挖掘研究[J].软件, 2014, 35(1):108-111.

Application research of data mining technology in internet of things

XU Yandan1, ZHANG Qianjin1,2,WANG Zhihong1

(1. Anhui Vocational College of Defense Technology, Anhui Lu’an 237011,China;2. Lu'an Dajiang Information Technology Co. Ltd., Anhui Lu’an 237000,China)

Abstract:Data mining, cloud computing and internet of things are a hot topics in the field of information technology. The application of data mining in the internet of things and the application status of internet of things are discussed. Analysis of the characteristics of the internet of things and data mining service structure based on cloud computing, and finally to the intelligent library as an example to illustrate the application of data mining in the internet of things.

Key words:data mining; internet of things; cloud computing; intelligent library

收稿日期:2015-03-20;修回日期:2015-09-24

基金项目:安徽省自然科学研究重点项目(No.KJ2016A120);2015年安徽省质量工程项目(No. 2015jxtd096);2013年安徽省质量工程项目(No.2013sjjd056)

作者简介:许艳丹(1983- ),女,河南周口人,讲师,硕士,主要从事数据挖掘方向研究.

中图分类号:TP391.1

文献标志码:A

文章编号:1671-9476(2016)02-0133-04

DOI:10.13450/j.cnki.jzknu.2016.02.033

猜你喜欢
智慧图书馆云计算物联网
Beacon技术在图书馆信息服务中的应用研究
基于高职院校物联网技术应用人才培养的思考分析
基于云计算的移动学习平台的设计
实验云:理论教学与实验教学深度融合的助推器
云计算中的存储虚拟化技术应用
中国或成“物联网”领军者
论智慧图书馆的三大特点
RFID技术在我馆的应用及其局限性探讨