物联网环境下大数据流中有效信息过滤算法研究

2020-07-24 02:11瞿霞华建祥
软件导刊 2020年6期
关键词:物联网

瞿霞 华建祥

摘要:针对常规有效信息过滤算法对数据间关联规则识别能力较弱等问题,提出物联网环境下大数据流中有效信息过滤算法。该算法根据数据权重向量维度,通过余弦夹角构建目标相似的大数据推荐模型;设置表层关联与隐含关联预测规则,利用预测函数确定数据间的关联程度;按照数据间的衔接性质,将数据集合划分成若干子集,模糊聚类物联网中的有效信息;根据用户主观倾向设置偏好函数,以协同过滤方式,得到有效信息过滤算法。实验结果表明,与常规有效信息过滤算法相比,该算法对数据关联规则识别能力提升14.97%,满足当前物联网大数据流中对有效数据的过滤要求。

关键词:物联网;大数据流;有效信息过滤算法

DOI:10.11907/rjdk.201413 开放科学(资源服务)标识码(OSID):

中图分类号:TP312文献标识码:A 文章编号:1672-7800(2020)006-0214-04

0 引言

物联网利用局部网络或互联网等通信技术,将传感器、控制器、机器、人员和物品之间建立有效连接,形成一个人与物、物与物之间相关联的智能化网络信息通讯平台,产生了数量庞大的网络数据信息。现阶段称之为大数据,其本身具有体量庞大、运行处理快速、类型多样、价值密度低及真实性高等特点。因此,针对大数据中的海量信息,按照顺序将这些数据设置为只读数据序列,形成规律性的大数据流。

围绕相关问题,很多学者进行了研究。文献首先分析聚类算法具体过程,判断结果是否有效,并表达数据集,根据数据集构建多维高斯核密度估计方法,使其能够分析数据集本身特性,然后结合聚类有效性分析方法,进行聚类结果探讨,最后验证其方法合理性与有效性;文献提出基于Storm的P-HT并行化算法,该算法以满足Storm流处理平台为基础,首先设置滑动窗口机制,然后替代子树机制,进行并行化处理,体现出较好的灵活性和通用性,利用物联网进行数据处理与分类时具有更大吞吐量和更快处理速度。但以上算法对数据之间关联规则划分能力不足,数据隐含关联挖掘能力较弱,因此过滤后的信息并不理想。为此,对文献算法予以优化,提出物联网环境下大数据流中有效信息过滤算法。本文算法从文献算法中存在的问题人手,着重研究大数据流内数据之间的关联规则,过滤方式更加详细,满足当前物联网对有效信息的过滤要求。

1 物联网大数据流有效信息过滤算法

1.1 目标相似的大数据推荐模型构建

考虑到物联网中大数据流类型的多样性,构建一个推荐模型,该模型主要对类型不同、目标相似的数据信息实施推荐。模型构建需要考虑不同数据之间的目标相似程度,该程度可用余弦夹角衡量。假设大数据流中的数据类型有a1,a2,…,an,每一数据的权重指数分别为qa1,qa2,…,qan,权重向量维度用T表示,则数据之间的目标相似度如式(1)所示。

式中,i表示大数据流数据量,fi(an)表示i个数据量下的类型函数,gi(qan)表示i个数据量下的权重函数。此时,数据之间的目标相似度曲线如图l所示。

图1中的曲线是3个类型完全不同的目标相似数据,根据曲线走向及曲线弧度可知,虽然数据类型完全不同,但这些数据之间具有共同目标,因此其走势相似,只是作用价值不同,产生了价值差异。根据式(1)得出相似度结果,设置大数据推荐模型,该模型计算表达式如式(2)所示。

1.2 数据关联程度预测

根据上述得到的推荐数据Fm,预测F1,F2,…,Fm之间的关联性,预测规则如图2所示。

通过上述预测规则可知,根据多个预测条件,设置不同的预测方式,抓住其中表层关联及隐含关联,得到分化详细的关联程度值。建立一个集合R,令该集合R={F1,F2,…,Fm};設置k1,k2,…,km是与推荐数据F1,F2,…Fm相对应的预测条件,则预测系数计算表达式如式(3)所示。

式中,Kn表示设置的n个预测系数,ωm表示预测约束条件,gm(Fm)表示对推荐数据Fm的m次预测,gm-1(Fm-1)表示对于预测数据Fm的m-1次预测,ks表示每次预测时,在预测强度s影响下的调整指标。根据计算所得预测系数,对推荐数据的关联程度进行预测,当该结果为正数时,说明得出的关联性指标可靠,该关联预测表达式如式(4)所示。

式中,pred(Fm)表示对推荐数据的预测函数,IDEN(u,v)表示关联规则鉴别函数,ζ表示调和指数,ζ表示调和平均值,u表示表层关联指标,v表示递进的隐含关联指标。根据上述预测表达式,得到不同类型数据之间的关联规则,根据关联规则取值不同,可以确定物联网中大数据之间的联系强度。

1.3 有效信息模糊聚类

将具有关联规则的数据,按照一定顺序排列,利用模糊聚类分析方法获取数据特征,匹配并划分客观有效的数据。该数据划分形式以图3所示的划分集合为例,按照数据特征,将不同类型的关联数据分配到不同集合中。

由图3可知,原始数据集只有一个,不利于数据之间的特征分析,因此利用模糊聚类,将原有集合转换成图3(b)所示的分类子集,通过数据分类,提取出数据特征量。将集合及模糊聚类,得到n个数据子集,用rn表示。将子集中的数据按照衔接性质分类,该分类规则如式(5)所示。

猜你喜欢
物联网
基于无线组网的智慧公交站点信息系统研究与实践
基于LABVIEW的温室管理系统的研究与设计
论智能油田的发展趋势及必要性
中国或成“物联网”领军者