雷亚莉
(海南软件职业技术学院 海南 琼海 571400)
档案文献主题探测方法探讨
雷亚莉
(海南软件职业技术学院 海南 琼海 571400)
本文主题探测是以档案类文献作为文本集,以文本数据挖掘(Text Mining)的方式来对文本集进行处理。文章主要对文本分类和文本聚类的常用方法做了简单的概括,并提出了基于主题模型的档案文献主题探测方法。
档案文献;主题探测;主题模型
随着目前科技文献资源的大量增长,档案类文献的资源也在突飞猛进的增长,但对于大量的文献资源,要能更精确的找到我们所需要的信息却变得难上加难。主题探测(Topic Detection,作为一项旨在帮助人们应对信息过载问题的研究,其研究目标是要实现按主题查找、组织和利用来自多种媒体的多语言信息[1]。
传统的科技文献分类方法都是基于文本分类的,这些方法是对给定的文本,根据其内容自动或手动地加上一个类别标签,通过给定的训练集,用某种方法构建文本特征与文本类别之间的关系模型,再利用这个关系模型对新的未知类别文本进行类别训练。
1.1 基于简单向量距离的分类法
简单向量距离分类法的主要思想,是首先确定新文本的向量,然后根据尚未分类的文本向量与每个类别中心向量的距离来判断此文本属于哪个类别,确定新文本向量的前提是:先根据算术平均为每类文本集生成一个代表该类的中心向量[2]。
简单距离向量分类法实现简单,分类的复杂度也不高,其缺点也很明显:直接使用特征空间的特征分布,受训练文本中的噪声影响较大,同时对分布不规则的数据,能够取得的效果是很有限的。
1.2 K 近邻法(K-Nearest Neighbor)
KNN最初由Cover和Hart于1968年提出,是一个理论上比较成熟的方法,其分类方式是通过查询已知类别文本的情况,来判断新文本与已知文本是否属于同一类。算法的基本思想是:首先给定新文本,然后在训练文本集中找出与新文本距离最近的文本,依据找出的最近距离文本的类别,来判定新文本所属的类别。
KNN方法相对简单,易于实现,用于基于统计的模式识别中非常有效,并且对于未知和非正态的分布能够取得比较高的分类准确率。但对于样本分布依赖性较大,当样本分布不均匀时,可能造成一定的偏向性。
1.3 贝叶斯分类法
贝叶斯分类方法在使误判率或风险最小的问题上是很有意义的。它是将研究对象的先验概率来作为辅助判断,这样做可以使结论更精确的得到分析。但由于贝叶斯分类器的前提是需要已知条件概率,而且它的决策面比较复杂,因此在计算和构造方面是相对困难的[26]。
贝叶斯分类的优点在于算法逻辑简单,易于实现,并且算法稳定。但其也有缺陷,就是在其独立性假设时,在许多实际中并不能够成立,这样会引起分类的误差。
对比试验板选择在相同的工况环境下进行焊接,最终经无损检测合格后进行理化检测试验,检测内容包括焊缝金相显微组织、拉伸试验、冲击试验、焊接接头硬度。
1.4 支持向量机(SVM)
支持向量机(Support Vector Machine,SVM)是统计学概念上一个有监督的学习方法,在解决小样本、非线性及高维模式识别问题中表现出特有的优势。这种方法是针对线性可分情况进行分析,通过寻找最优线性分类面来减小对新文档的误分概率[3]。
作为一种无监督的机器学习方法,文本聚类是在给定的某种相似性度量下,把对象集合进行分组,使得相似的对象能够分到同一个组内。其方法通常是利用向量空间模型,将文本转换成高维空间中的向量,然后对这些向量进行聚类。因此,影响文本聚类结果的因素除了文档聚类算法的选择外,还包括语义问题和降维问题。
2.1 基于划分的方法
划分法(Partitioning Method)也称分裂法,其基本原理是:首先得到初始的k个划分,然后通过迭代,将文档从一个中间类转移到另一个类中,以改进聚类的质量。代表性算法有K-means算法、k-中心点、CLARA、CLARANS等。
2.2 基于层次的方法
典型的层次聚类方法包括:CURE(ClusteringUsingREprisentatives) 方法、ROCK 方法、Chameleon、BIRCH (Balances Iterative Reducingand ClusteringusingHierarchies)方法等。
2.3 基于模型的方法
基于模型的方法(Model-based methods)是从文本集合中学习一个模型,每个模型代表一个文本类,并优化给定的数据和数学模型之间的适应性。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。典型的基于模型的方法有:统计方法COBWEB和CLASSIT。
2.4 基于网格的方法
基于网格的算法(Grid-based methods)首先将数据空间划分成为有限个单元的网格结构(所有的处理都是以单个的单元为对象的),然后利用网格结构完成聚类。其优点是处理速度比较快,通常与目标数据库中记录的个数无关,只与将数据空间所分的单元数量有关。代表性算法有:STING(STatistical INformation Grid)算法、CLIQUE(ClusteringIn QUEst)算法、WAVE-CLUSTER 算法。
2.5 基于密度的方法
为了发现任意形状的聚类结果,提出了基于密度的方法(Density-based methods)。这类方法将簇看作是数据空间中被低密度区域分割开的高密度区域。只要一个区域中点的密度大于某个阀值,就将其加到与之相近的聚类中去。代表的算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。
基于主题模型的档案文献主题探测,初步提出了将LDA主题模型运用到档案主题探测中。
使用LDA主题模型,旨在更好的获取文本的主题。主题模型采用了概率分析的方法,和以往其他模型的统计方法有着很大的不同。而LDA是服从于Dirichlet分布的概率模型,使得文本、主题、单词在模型超参数上有了不同的发生概率,LDA主题模型的提出,使文本不再局限于与主题一一对应,并且给出了文本在各个主题上的概率分布。
文本数据挖掘方法一直是数据挖掘工作人员不断探索的重要内容,而主题探测能够很好的帮助我们解决“信息过载”的现象。本文概述了文本挖掘的常用方法,并提出了最新主题模型LDA,将其运用到档案文献主题探测中,目前正对其方法做进一步的测试,将其与常用的文本分类或文本聚类方法做比较。
[1]李保利,俞士汶.话题识别与跟踪研究[J].计算机工程与应用.2003(17):7-10.
[2]庞剑峰,基于向量空间模型的自反馈的文本分类系统的研究与实现[D].中科院计算所硕士论文.2001.
[3]T.Joachims.Text categorization with support Vector machines:Learning with many relevant features[C].Lecture Notes in Computer Science,1998,(1398):137-142.
雷亚莉,女,1986.3.17,陕西韩城人,硕士,2013.11毕业于中山大学软件学院,现从事数据挖掘与计算机教学及研究工作。