基于LDA模型和SVM的文本分类研究

2013-04-29 00:44李小三雷康
网友世界 2013年5期
关键词:文本分类

李小三 雷康

【摘 要】LDA是生成式概率模型,从理论上说,具有其他模型无可比拟的建模优点;SVM分类算法在文本分类上具有独特的优异性能,本文将前者良好的文本表示性能、降维效果与后者强大的分类能力结合起来。实验表明,该方法克服了传统选择方法带来的分类性能受损问题,并且能够在降低数据维度的条件下提高分类的正确率。

【关键词】LDA模型;文本分类;SVM算法;主题分析;Gibbs抽样

隐含狄利克雷分配(LDA)模型是近年来提出的一种表示文本主题能力的非监督学习模型[1]。LDA对文档建模,降低了计算的维度,简化了问题的复杂性,同时也为模型的改进提供了契机。每篇文档是由若干个主题构成,不同类别的文档由概率各不相同的主题随机混合构成,同理,同一类别的文档具有相似的主题概率分布,LDA是一个主题模型的例子,可以用图的模型来表示[2]。本实验首先经过一系列的文本预处理后,通过Gibbs抽样生成文档的LDA模型,然后结合分类性能出色的SVM算法,对降维后的文本数据进行分类。

1.LDA模型

在文本分类中,分类方法的选择与实现是分类系统的核心部分,如何选择一个合适的分类模型是一个重要的问题[3]。目前的概率主题模型一般基于同样的思想:文本是若干主题的随机混合,不同的模型会进一步做不同的统计假设,以不同的方式获取模型参数。

1.1 模型概况

LDA是一种概率主题模型[4],我们以P(z)代表主题z在一个特定文档上的分布,P(w|z)代表主题z上单词的概率分布。该模型将主题混合权重视为k维参数的潜在随机变量,而非与训练数据直接联系的个体参数集合,推理上采用Laplace近似、变分近似以及期望-扩散[5]等方法获取参数值。P(zi=j)表示在第j个主题抽取第i个单词的概率。P(wi|zi=j)表示单词wi在主题j下的概率。在一个文档中单词的分布概率如下:

T是主题总数。为了简化模型,以φ(j)=

P(w|z=j)来表示主题j的多项式分布我们以θ(d)=P(z)来表示文档d的主题多项式分布。在多项式分布p=(p1,…,pT)上的T维度的狄利克雷分布的被定义为:

1.2 支持向量机算法

支持向量机(Support Vector Machines,SVM)是二十世纪九十年代中期在统计学习理论基础上发展起来的一种新型机器学习算法,采用结构风险最小化准则训练学习机器[6]。

2.文档建模

我们通过一系列词索引wi和文档di来表现一系列的文档。我们写这个条件概率分布为P(zi=j|z-i,wi,di,.),zi=j代表词i分配给主题j,z-i代表其它所有词的主题分配,α和β代表超参数。条件分布公式如下:

和分别是W*T和D*T维的计数矩阵,表示词w赋值给j的数目,包含了赋给文档d中的一些词的主题的数目,不包括当前的实例i。

2.1 Gibbs抽样过程

抽样算法给了每一个词的直接估计,然而许多模型例子需要估计主题-词分布φ和文档-主题分布θ,这可以通过下面的计数矩阵获得。

2.2 LDA模型的矩阵表示法

LDA模型可以用矩阵分解的方式表达出来,通过矩阵分解,我们可以构造出LDA的概率模型。LDA模型的矩阵表示法如下:

C代表文档-词组分布矩阵,φ代表主题-词组矩阵,Θ代表文档-主题模型,利用上面的矩阵模型,结合上面的公式,我们就可以构造Gibbs抽样的LDA概率主题模型。

3.基于LDA模型的文本分类

3.1 文本分类方法

基于LDA模型的文本分类方法使用LDA作为语料库及文本建模。主要包括预处理,模型选择,语料库建模,分类方法,效果评估5个部分。文档数据如下表。

3.2 试验结果分析

中文语料库经过分词,去除停用词后,采用LDA模型对整个文档进行主题建模,=50/T,=0.01,文档集T取50,迭代500次。每个文本表示为包含50个主题的主题集上的多项式分布,得到文档集的隐含主题-文本矩阵,在该矩阵上构造SVM分类器。得到的主题-文本矩阵如下:

4.总结

本文利用LDA为所给的语料库建立模型,由于LDA是完全的生成型,所以理论上有其他模型无可比拟的建模优点。利用本方法能够识别包含一系列词组的文档的隐含结构,基于LDA模型的文本分类方法,采用Gibbs抽样进行参数推理和估计,采用SVM分类算法,对文档集合进行分类获得了较好的分类效果,体现了本方法的有效性和优越性。下一步的工作将要尝试一些方法来提高大规模主题建模的速度。

参考文献:

[1]Blei,David M.Ng,Andrew Y.Jordan,M.I.(January 2003).Latent Dirichlet allocation[J].Journal of Machine Learning Research,3,993-1022.

[2]石晶,范猛,李万龙.基于LDA模型的主题分析[J].自动化学报,2009,35(12):1586-1592.

[3]张华平.中文信息处理技术发展简史[EB/OL].http://www.nlp.org.cn,中国科学院计算技术研究所软件实验室,2002.

[4]Steyvers M,Griffiths T.Probabilistic topic models.Hand-book of Latent Semantic Analysis[M].New Jersey:Springer,2007.

[5]Minka Thomas,Lafferty John.Expectation-propagation for the generative spect model[J].Proceedings of the Uncertainty in Artificial Intelligence.(UAI)Edmonton,Alberta,Canada,2002:352-359.

[6]Chih-Chung Chang and Chih-Jen Lin.LIBSVM:a library for support vector machines[J].ACM Transationson Intelligent Systems and Technology,Vol2.USA,ACM:2011.

作者简介:

李小三(1987-),男,河南武陟人,长安大学2011级信号与信息处理专业研究生,研究方向:信息检索技术。

雷康(1986—),男,陕西岐山人,长安大学2011级智能交通及信息系统工程专业研究生,研究方向:物联网Zigbee技术。

猜你喜欢
文本分类
基于朴素贝叶斯的Web文本分类及其应用
基于组合分类算法的源代码注释质量评估方法
基于贝叶斯分类器的中文文本分类
基于蚁群智能算法的研究文本分类
基于朴素贝叶斯分类的Java课程网络答疑反馈系统
基于K—means算法的文本分类技术研究
文本分类算法在山东女子学院档案管理的应用
不同情境下中文文本分类模型的表现及选择
基于内容的英语录音教材标注研究与应用
多核SVM文本分类研究