基于LDA模型的新闻话题分类研究

2014-07-28 00:40谈成访汪材印
电脑知识与技术 2014年16期
关键词:主题分类

谈成访 汪材印

摘要: 针对部分网站中新闻话题没有分类或者分类不清等问题, 将LDA模型应用到新闻话题的分类中。首先对新闻数据集进行LDA主题建模,根据贝叶斯标准方法选择最佳主题数,采用Gibbs抽样间接计算出模型参数,得到数据集的主题概率分布;然后根据JS距离计算文档之间的语义相似度,得到相似度矩阵;最后利用增量文本聚类算法对新闻文档聚类,将新闻话题分成若干个不同结构的子话题。实验结果显示表明该方法能有效地实现对新闻话题的划分。

关键词: LDA;文本聚类;新闻话题;分类;主题

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)16-3795-03

Abstract: The LDA model is applied to the classification of news topic on the website because of its no classification or unclear classification. Firstly, news dataset is modeled by LDA modeling, the optimal number of topic is chosen according to Bias standard method, and get the topic probability distribution of dataset by using Gibbs sampling to calculate the model parameters; and then similarity matrix is obtained based on the semantic similarity between documents by computing JS distance; finally, the incremental clustering algorithm is used to cluster news document, and the topic is divided into a number of different structure of the sub topic. The experimental results show that this method can realize the division of news topic effectively.

Key words: Latent Dirichlet Allocation; Text Clustering; News Topic; Classification; Topic

1 概述

随着互联网技术的快速发展,很多门户网站提供了新闻专题报道栏目,尤其是当某一热点事件产生时,与该热点事件相关联的新闻话题通常以专栏形式集中报道发布,以便于人们及时了解事件的发展动态。然而,目前一些网站新闻专题栏目,缺少对新闻话题进行进一步的分类或者分类不够清晰,从而影响了人们对页面的浏览兴趣。因此,如何对新闻话题具体清晰地进行分类具有重要的研究意义。

本文将LDA模型融入新闻话题分类研究中,利用JS距离计算文档间的语义相似度,在此基础上进行文档聚类,实现对新闻话题的进一步划分。

2 LDA模型

LDA是Blei等[1]提出的一种统计主题模型,包含词、主题和文档三层结构。其主要思想是文档是由若干主题混合而成,每个主题又由一系列的词汇混合而成[2]。 模型的建立如图1所示。

其中,[α]代表整个文档集上主题的Dirichlet先验分布,[β]代表所有主题上词语的Dirichlet先验分布,[N]代表词语个数,[M]代表整个文档集中的文档数量,[T]代表主题个数。

假设文档集[D]中有[M]个文档,表示为[D={d1,d2,...,dm}],其中任意一个文档[d]包含[N]个词语,表示为[d={w1,w2,...,wn}],因此,一个文档中词语[wi]的概率分布计算公式如下:

[p(wi)=j=1Tp(wi|zi=j)p(zi=j)] (1)

其中,[zi]是潜在变量,[p(wi|zi=j)]表示词语[wi]属于第[j]个主题的概率,[p(zi=j)]表示文档[d]中属于第[j]个主题的概率。

3 基于LDA模型的新闻话题分类方法

基于LDA模型的新闻话题分类过程如图2所示。

3.1 文本预处理

预处理在中文文本分类主要是指中文分词、词性标注、去除停用词等。首先对新闻文档集进行中文分词,然后剔除虚词、停用词等与主题无关或者关联非常小的词,仅仅保留对主题影响较大的名词和动词。

3.2 特征选择和文本表示

本文采用在中文分类中效果较好的MI方法抽取特征[3],单词[wi]和类别[c]之间的互信息定义为:

[MI(wi,c)=logp(wi?c)p(wi)p(c)] (2)

其中,[p(wi?c)]表示表示[wi]和[c]同时出现的概率,[p(wi)]表示[wi]出现的概率,[p(c)]

则表示[c]出现的概率。

文本表示采用目前应用较广泛的向量空间模型(VSM) 来表示文本。

[Mmi=(w1,w2,...,wn)] (3)

其中[wi]表示第[i]个特征项的权重,根据著名的TF-IDF 公式计算权重:

[Wi(d)=tfi(d)*log(N/ni+0.1)i=1n(tfi(d))2×log2(N/ni+0.1)] (4)

其中, [tfi(d)] 表示第[i]个特征项在文档[d]中的词频, [N]为训练文本的总数, [ni]为训练文本集中出现[i]的文本数, 分母为归一化因子。endprint

3.3 LDA主题建模

3.3.1 模型选择

由于主题个数影响LDA模型对文档集的拟合性能,因此需要确定主题个数的最佳值。该文采用贝叶斯统计中的标准方法来确定最佳主题个数。 在LDA 模型中,[α]和[β]分别是[θ]和[φ] 上的Dirichlet 先验分布,通过对[θ]和[φ]积分可以求取联合概率[p(w,z)]的值,计算如下。

根据公式(6)计算出使用不同主题数T对数据集建模的[p(w|T)]值。由[p(w|T)]值确定最佳主题数T。

3.3.2 参数估计

根据MCMC中的Gibbs抽样算法进行参数推理,通过对变量[z]进行Gibbs抽样间接计算出文本-主题概率分布和主题-词概率分布,即[θ]和[?][4],计算公式如下:

[θd=nmj+αnd?+Tα] (7)

[?w=nwj+βn?j+Wβ] (8)

其中,[nmj]表示是文档[dm]中分配给主题[j]的词数,[nd?]表示文档[dm]中所有分配了主题的词数,[nwj]表示词汇[w]分配给主题[j]的频数,[n?j]表示分配给主题[j]的所有词汇数。

3.4 文本相似度计算

通过LDA模型的构建可以得到文本-主题概率分布和主题-词概率分布,因此,计算两个文档的相似度可通过计算与之对应的主题概率分布来实现。由于主题是词向量的混合分布,因此,该文使用JS(Jensen-Shannon)距离来计算主题概率向量[p=(p1,p2,...,pk)]到[q=(q1,q2,...,qk)]的距离,具体的计算公式如下:

[Djs(p,q)=12[DKL(p,p+q2)+DKL(q,p+q2)]] (9)

其中[DKL(p,q)=j=1Tpjlnpjqj],p,q为主题概率分布。

3.5 文本聚类

增量文本聚类是话题检测领域中常用的一种算法,该文采用该算法对新闻话题文档集进行主题聚类,其算法思想如下[5]:

1) 预设一个聚类阈值[k];

2) 计算每个文档[di]与已识别子话题簇[Cjt]之间的相似度并找到最相似子话题簇,[Sim(di,CMt)=maxSim(di,Cjt)];

3) 若[Sim(di,CMt)>k](预设的聚类阈值),则将该文档[di]加入子话题簇[CMt]中;否则,以该微博文档[di]作为种子话题创建新的子话题。

4 实验与分析

4.1 实验数据

本文实验数据利用网页爬虫从新浪新闻爬取“马航失联航班”专题下的相关报道模块,时间范围从2014年3月8日到2014年3月15日的新闻报道共6,321篇。经过分词、剔除无用词等预处理后,从中选取3800篇作为实验数据集。

4.2 评估方法

实验评估方法选择传统的评估标准:正确率p、召回率r、F1值、宏平均正确率Macro-p、宏平均召回率Macro-r、宏平均率Macro-F1值。计算公式如下[6]:

其中,[a]表示正确分到一个类别的文本数量,[b]表示分类结果中分类错误的文本数量,[c]表示应该被分到一个类别但没有正确分类的文本数量,[k]表示文本的类别个数。

4.3 实验结果分析

首先使用前面介绍的最佳主题个数确定方法,根据[α=50/T],[β=0.01][7] (此为经验值,这种取值在本实验数据集上有较好的效果)。[T]在各种不同的取值下分别运行Gibbs抽样算法,分析[logP(w|T)]的变化。实验结果如图3所示。

由图3可知,当[T]= 60 时,[logP(w|T)]最小,此时模型对于文档集的拟合性能最佳。因此,在实验中选择主题个数[T]为60。

本文将文本表示选择VSM,采用MI提取特征词,然后使用增量文本聚类算法分类,作为对比实验,实验结果如表1所示。

5 结论

本文将LDA模型应用到新闻话题分类中,利用LDA模型进行主题建模和文本语义相似度计算,并使用增量文本聚类算法实现对新闻话题的分类,实验结果表明,与传统的向量空间模型相比,通过LDA建模,降低了数据稀疏性和特征空间高维性等问题,提高了分类的正确率。在今后的工作中,将进一步研究提高LDA模型的建模和推断时间,并将其拓展到更多的领域,如信息检索、微博话题发现、情感分析等。

参考文献:

[1] Blei D M, Lafferty J D. A correlated topic model of science[J].Annals of Applied Statistics, 2007, 1(1):17-35.

[2] 谈成访,汪材印,张亚康. 基于LDA的中文微博热点话题发现[J]. 宿州学院学学报,2014(4): 71-73.

[3] Lv Nan,Luo Jun-yong,Liu Yao,et al.Topic three layer model based topic evolution analysis algorithm [J]. Computer Engineering, 2009, 35(23): 71-75.

[4] QUAN X J, LIU G, et al.Short text similarity based on probabilistic topics [J]. Knowledge Information System, 2010, 25(3):473-491.

[5] 赵爱华,刘培玉,郑燕. 基于LDA的新闻话题子话题划分方法[J]. 小型微型计算机系统,2013, 34(4):732-735.

[6] Chengfang TAN. Short Text Classification Based on LDA and SVM [J]. International Journal of Applied Mathematics and Statistics (IJAMS), 2013, 51(22):205-214.

[7] 姚全珠,宋志理,彭程. 基于LDA的文本分类研究[J]. 计算机工程与应用,2011,47(13):150-153.endprint

3.3 LDA主题建模

3.3.1 模型选择

由于主题个数影响LDA模型对文档集的拟合性能,因此需要确定主题个数的最佳值。该文采用贝叶斯统计中的标准方法来确定最佳主题个数。 在LDA 模型中,[α]和[β]分别是[θ]和[φ] 上的Dirichlet 先验分布,通过对[θ]和[φ]积分可以求取联合概率[p(w,z)]的值,计算如下。

根据公式(6)计算出使用不同主题数T对数据集建模的[p(w|T)]值。由[p(w|T)]值确定最佳主题数T。

3.3.2 参数估计

根据MCMC中的Gibbs抽样算法进行参数推理,通过对变量[z]进行Gibbs抽样间接计算出文本-主题概率分布和主题-词概率分布,即[θ]和[?][4],计算公式如下:

[θd=nmj+αnd?+Tα] (7)

[?w=nwj+βn?j+Wβ] (8)

其中,[nmj]表示是文档[dm]中分配给主题[j]的词数,[nd?]表示文档[dm]中所有分配了主题的词数,[nwj]表示词汇[w]分配给主题[j]的频数,[n?j]表示分配给主题[j]的所有词汇数。

3.4 文本相似度计算

通过LDA模型的构建可以得到文本-主题概率分布和主题-词概率分布,因此,计算两个文档的相似度可通过计算与之对应的主题概率分布来实现。由于主题是词向量的混合分布,因此,该文使用JS(Jensen-Shannon)距离来计算主题概率向量[p=(p1,p2,...,pk)]到[q=(q1,q2,...,qk)]的距离,具体的计算公式如下:

[Djs(p,q)=12[DKL(p,p+q2)+DKL(q,p+q2)]] (9)

其中[DKL(p,q)=j=1Tpjlnpjqj],p,q为主题概率分布。

3.5 文本聚类

增量文本聚类是话题检测领域中常用的一种算法,该文采用该算法对新闻话题文档集进行主题聚类,其算法思想如下[5]:

1) 预设一个聚类阈值[k];

2) 计算每个文档[di]与已识别子话题簇[Cjt]之间的相似度并找到最相似子话题簇,[Sim(di,CMt)=maxSim(di,Cjt)];

3) 若[Sim(di,CMt)>k](预设的聚类阈值),则将该文档[di]加入子话题簇[CMt]中;否则,以该微博文档[di]作为种子话题创建新的子话题。

4 实验与分析

4.1 实验数据

本文实验数据利用网页爬虫从新浪新闻爬取“马航失联航班”专题下的相关报道模块,时间范围从2014年3月8日到2014年3月15日的新闻报道共6,321篇。经过分词、剔除无用词等预处理后,从中选取3800篇作为实验数据集。

4.2 评估方法

实验评估方法选择传统的评估标准:正确率p、召回率r、F1值、宏平均正确率Macro-p、宏平均召回率Macro-r、宏平均率Macro-F1值。计算公式如下[6]:

其中,[a]表示正确分到一个类别的文本数量,[b]表示分类结果中分类错误的文本数量,[c]表示应该被分到一个类别但没有正确分类的文本数量,[k]表示文本的类别个数。

4.3 实验结果分析

首先使用前面介绍的最佳主题个数确定方法,根据[α=50/T],[β=0.01][7] (此为经验值,这种取值在本实验数据集上有较好的效果)。[T]在各种不同的取值下分别运行Gibbs抽样算法,分析[logP(w|T)]的变化。实验结果如图3所示。

由图3可知,当[T]= 60 时,[logP(w|T)]最小,此时模型对于文档集的拟合性能最佳。因此,在实验中选择主题个数[T]为60。

本文将文本表示选择VSM,采用MI提取特征词,然后使用增量文本聚类算法分类,作为对比实验,实验结果如表1所示。

5 结论

本文将LDA模型应用到新闻话题分类中,利用LDA模型进行主题建模和文本语义相似度计算,并使用增量文本聚类算法实现对新闻话题的分类,实验结果表明,与传统的向量空间模型相比,通过LDA建模,降低了数据稀疏性和特征空间高维性等问题,提高了分类的正确率。在今后的工作中,将进一步研究提高LDA模型的建模和推断时间,并将其拓展到更多的领域,如信息检索、微博话题发现、情感分析等。

参考文献:

[1] Blei D M, Lafferty J D. A correlated topic model of science[J].Annals of Applied Statistics, 2007, 1(1):17-35.

[2] 谈成访,汪材印,张亚康. 基于LDA的中文微博热点话题发现[J]. 宿州学院学学报,2014(4): 71-73.

[3] Lv Nan,Luo Jun-yong,Liu Yao,et al.Topic three layer model based topic evolution analysis algorithm [J]. Computer Engineering, 2009, 35(23): 71-75.

[4] QUAN X J, LIU G, et al.Short text similarity based on probabilistic topics [J]. Knowledge Information System, 2010, 25(3):473-491.

[5] 赵爱华,刘培玉,郑燕. 基于LDA的新闻话题子话题划分方法[J]. 小型微型计算机系统,2013, 34(4):732-735.

[6] Chengfang TAN. Short Text Classification Based on LDA and SVM [J]. International Journal of Applied Mathematics and Statistics (IJAMS), 2013, 51(22):205-214.

[7] 姚全珠,宋志理,彭程. 基于LDA的文本分类研究[J]. 计算机工程与应用,2011,47(13):150-153.endprint

3.3 LDA主题建模

3.3.1 模型选择

由于主题个数影响LDA模型对文档集的拟合性能,因此需要确定主题个数的最佳值。该文采用贝叶斯统计中的标准方法来确定最佳主题个数。 在LDA 模型中,[α]和[β]分别是[θ]和[φ] 上的Dirichlet 先验分布,通过对[θ]和[φ]积分可以求取联合概率[p(w,z)]的值,计算如下。

根据公式(6)计算出使用不同主题数T对数据集建模的[p(w|T)]值。由[p(w|T)]值确定最佳主题数T。

3.3.2 参数估计

根据MCMC中的Gibbs抽样算法进行参数推理,通过对变量[z]进行Gibbs抽样间接计算出文本-主题概率分布和主题-词概率分布,即[θ]和[?][4],计算公式如下:

[θd=nmj+αnd?+Tα] (7)

[?w=nwj+βn?j+Wβ] (8)

其中,[nmj]表示是文档[dm]中分配给主题[j]的词数,[nd?]表示文档[dm]中所有分配了主题的词数,[nwj]表示词汇[w]分配给主题[j]的频数,[n?j]表示分配给主题[j]的所有词汇数。

3.4 文本相似度计算

通过LDA模型的构建可以得到文本-主题概率分布和主题-词概率分布,因此,计算两个文档的相似度可通过计算与之对应的主题概率分布来实现。由于主题是词向量的混合分布,因此,该文使用JS(Jensen-Shannon)距离来计算主题概率向量[p=(p1,p2,...,pk)]到[q=(q1,q2,...,qk)]的距离,具体的计算公式如下:

[Djs(p,q)=12[DKL(p,p+q2)+DKL(q,p+q2)]] (9)

其中[DKL(p,q)=j=1Tpjlnpjqj],p,q为主题概率分布。

3.5 文本聚类

增量文本聚类是话题检测领域中常用的一种算法,该文采用该算法对新闻话题文档集进行主题聚类,其算法思想如下[5]:

1) 预设一个聚类阈值[k];

2) 计算每个文档[di]与已识别子话题簇[Cjt]之间的相似度并找到最相似子话题簇,[Sim(di,CMt)=maxSim(di,Cjt)];

3) 若[Sim(di,CMt)>k](预设的聚类阈值),则将该文档[di]加入子话题簇[CMt]中;否则,以该微博文档[di]作为种子话题创建新的子话题。

4 实验与分析

4.1 实验数据

本文实验数据利用网页爬虫从新浪新闻爬取“马航失联航班”专题下的相关报道模块,时间范围从2014年3月8日到2014年3月15日的新闻报道共6,321篇。经过分词、剔除无用词等预处理后,从中选取3800篇作为实验数据集。

4.2 评估方法

实验评估方法选择传统的评估标准:正确率p、召回率r、F1值、宏平均正确率Macro-p、宏平均召回率Macro-r、宏平均率Macro-F1值。计算公式如下[6]:

其中,[a]表示正确分到一个类别的文本数量,[b]表示分类结果中分类错误的文本数量,[c]表示应该被分到一个类别但没有正确分类的文本数量,[k]表示文本的类别个数。

4.3 实验结果分析

首先使用前面介绍的最佳主题个数确定方法,根据[α=50/T],[β=0.01][7] (此为经验值,这种取值在本实验数据集上有较好的效果)。[T]在各种不同的取值下分别运行Gibbs抽样算法,分析[logP(w|T)]的变化。实验结果如图3所示。

由图3可知,当[T]= 60 时,[logP(w|T)]最小,此时模型对于文档集的拟合性能最佳。因此,在实验中选择主题个数[T]为60。

本文将文本表示选择VSM,采用MI提取特征词,然后使用增量文本聚类算法分类,作为对比实验,实验结果如表1所示。

5 结论

本文将LDA模型应用到新闻话题分类中,利用LDA模型进行主题建模和文本语义相似度计算,并使用增量文本聚类算法实现对新闻话题的分类,实验结果表明,与传统的向量空间模型相比,通过LDA建模,降低了数据稀疏性和特征空间高维性等问题,提高了分类的正确率。在今后的工作中,将进一步研究提高LDA模型的建模和推断时间,并将其拓展到更多的领域,如信息检索、微博话题发现、情感分析等。

参考文献:

[1] Blei D M, Lafferty J D. A correlated topic model of science[J].Annals of Applied Statistics, 2007, 1(1):17-35.

[2] 谈成访,汪材印,张亚康. 基于LDA的中文微博热点话题发现[J]. 宿州学院学学报,2014(4): 71-73.

[3] Lv Nan,Luo Jun-yong,Liu Yao,et al.Topic three layer model based topic evolution analysis algorithm [J]. Computer Engineering, 2009, 35(23): 71-75.

[4] QUAN X J, LIU G, et al.Short text similarity based on probabilistic topics [J]. Knowledge Information System, 2010, 25(3):473-491.

[5] 赵爱华,刘培玉,郑燕. 基于LDA的新闻话题子话题划分方法[J]. 小型微型计算机系统,2013, 34(4):732-735.

[6] Chengfang TAN. Short Text Classification Based on LDA and SVM [J]. International Journal of Applied Mathematics and Statistics (IJAMS), 2013, 51(22):205-214.

[7] 姚全珠,宋志理,彭程. 基于LDA的文本分类研究[J]. 计算机工程与应用,2011,47(13):150-153.endprint

猜你喜欢
主题分类
分类算一算
垃圾分类的困惑你有吗
分类讨论求坐标
数据分析中的分类讨论
教你一招:数的分类
浅谈中国侠文化背景下的武侠电影
《风雨哈佛路》的主题评析与文化解读
浅析古诗词教学中意象教学的策略
农村幼儿园“幼小衔接”的“五步走”
岩井俊二的青春片摭谈