一种基于信息论的文本数据挖掘算法

2017-07-05 17:10方玉峰
电子技术与软件工程 2017年12期
关键词:信息论准确度数据挖掘

方玉峰

摘 要随着互联网技术的快速发展和应用,很多领域已经积累了海量数据资源,文本数据占据了85.6%,因此文本数据挖掘和分析成为人们研究的热点,并且引起了百度、Google、京东、腾讯等互联网公司关注。可以在文本数据挖掘中引入支持向量机、BP神经网络、K均值算法,但是这些算法需要依赖经验知识,不能够从多维度挖掘文本数据。因此,为了解决上述问题,本文提出构建一种基于信息论的文本数据挖掘算法,该算法可以从海量文本数据集中发现潜在的有价值的信息,提高文本分类的准确度。

【关键词】信息论 文本数据 数据挖掘 准确度

1 引言

文本数据挖掘包括两个大类别,一种是有监督学习方法,比如BP神经网络、支持向量机、贝叶斯理论;一种是无监督学习方法,比如谱聚类、密度聚类、K均值、信息论等方法。有监督文本数据挖掘方法需要利用人们的经验,预先构建一个分析模型,然后尽可能地提高这个学习模型的准确性,从而保证文本数据挖掘的精确度;无监督学习方法却不需要任何先验知识,系统自动地将文本数据按照不同的关注角度进行分类。

2 文本数据处理发展现状

文本数据处理自从诞生之后,从简单的人工标注发展到当前的自动挖掘,文本数据挖掘取得了显著的应用成效。本文结合笔者实践知识,简要介绍BP神经网络、支持向量机、K均值三种具有代表性的文本数据挖掘算法。BP神经网络能够按照统计学规则,实现文本数据处理,输入层可以接收所有数据,并且将这些数据传输给中间层的神经元,神经元负责数据信息处理、变换,并且能够根据信息变化能力的需求,改变和整合中间层结构。文本数据流经过识别和处理之后,就可以从中间层分发到输出层,这样就可以完成一次学习过程,将BP神经网络训练成为一个准确度非常高的模型,还可以通过误差梯度下降等修正各个层次的权值,向隐藏层逐级反馈,实现反向传播和修正,提高文本数据识别精确度。支持向量机是一种基于统计学习理论的模式识别算法,是一个二类分类模型,在文本数据分析过程中,可以将文本数据划分为正常数据或非法数据,并且可以对文本数据进行深度分析。支持向量机是一种性能强大的文本数据分析技术,其可以解决样本数量较少、非线性或高维模式数据分析的问题,比如推广到函数拟合的其他类型数据分析问题中,可以更好地分析数据、识别模式,用于分类和回归分析。K均值(K-means)算法是一种基于距离的聚类算法,其可以把距离作为相似性评价和度量指标,采用无监督学习模式,通常两个文本数据对象的距离越近,这两个文本数据对象的相似性就会越高,不需要指定数据的类别标签就可以获取文本内部结构,将文本数据汇聚在一起,实现数据解释。

3 一种基于信息论的文本数据挖掘算法设计

在信息论中,熵是最基本的概念之一,熵可以用来度量随机变量中的各种不确定性,服从p(x)分布的离散随机变量X的熵H(X)的计算过程如公式1所示。

(1)

互信息可以描述任意两个概率分布之间的信息量,假设给定了任意两个随机变量(X,Y)服从概率分布p(x,y),同时变量X的边缘概率分布p(x)=∑Y p(x,y),变量Y的边缘概率分布p(y)=∑X p(x,y),则随机变量X和随机变量Y之间包含的互信息如公式2所示。

(2)

其中,如果随机变量X和随机变量Y之间是相互独立的,则两个随机变量之间的互信息I(X;Y)=0。

在使用文本数据挖掘算法的过程中,可以使用变量X描述文本数据对象集合,x可以具体指代某一篇文档;使用变量Y描述单词特征变量集合,y可以具体指代某一篇文档的单词特征。基于互信息的文本信息处理算法从X和Y两个方向开始聚类,详细描述如下:

从X方向挖掘文本数据过程中,可以将Y作为相关信息;从Y方向挖掘特征数据过程中,可以将X作为相关信息;X和Y在聚类过程中都是动态地减少,如果将所有的文本数据划分为多层聚类模式,就可以更加准确地挖掘数据内容,实现对数据的操作和处理。具体地,为了能够度量文本数据挖掘的内容,可以把互信息作为信息保存的量进行设置,如果互信息損失达到阈值,则可以停止算法执行。

为了能够验证本文算法的有效性,采用Lang收集2000篇信息文档进行实验,分为9个子数据集,每一个文本数据集包含了500篇文档,Binary_1,2,3表示拥有两个真实类别的文档数据集;Multi5_1,2,3可以描述拥有五个真实类别文档数据集;Multi10_1,2,3可以描述拥有十个真实类别文档数据集。通常情况下,文本数据挖掘采用精确度作为评价算法运行结果的标准,算法运行结果精确度评价公示如公式3所示。

(3)

其中,t∈T,其可以描述相关的数据对象;c∈C,其可以描述相关的类别号或簇标号;A1(c,T)可以描述相关的已经正确分配到c中的文档或元组的数量;A2(c,T)可以描述相关的算法不正确的分配到c中的文档或元组的数量;A3(c,T)可以描述相关的不正确的没有分配到c中的文档或元组的数量。

4 结束语

实验结果显示,本文提出的基于信息论的文本数据挖掘算法可以精准发现文档类别,文本数据挖掘精确度达到了96.7%,能够根据用户的输入请求推荐更加准确地挖掘结果,可以为百度搜索、搜狗、腾讯、京东等网站的搜索引擎提供服务,具有重要的作用和意义。

参考文献

[1]黄蓉.基于聚类分析的数据挖掘方法研究[J].山东农业大学学报(自然科学版),2017,48(01).

[2]张军,刘文杰.一种新的基于邻居样本分布特征的异常值检测算法研究[J].科技通报,2017(01):86-88.

[3]尹治华,张大鹏,谭明,等.一种改进的基于FP-Tree的高效挖掘最大频繁项目集算法[J].济南大学学报:自然科学版,2017,31(02).

作者单位

云南科技信息职业学院 云南省昆明市 650224

猜你喜欢
信息论准确度数据挖掘
幕墙用挂件安装准确度控制技术
基于超像素和信息论的SAR图像目标检测研究
基于并行计算的大数据挖掘在电网中的应用
动态汽车衡准确度等级的现实意义
安全通论(11)——《信息论》、《博弈论》与《安全通论》的融合:刷新您的通信观念
一种基于Hadoop的大数据挖掘云服务及应用
微生物二元网络作用关系研究
高炉重量布料准确度的提高
对电子天平的误差及保证其称量准确度的探讨
基于GPGPU的离散数据挖掘研究