余 璇,孙 伟,张 翔
(上海海事大学 信息工程学院,上海 201306)
基于互信息的文本分类改进方法研究
余 璇,孙 伟,张 翔
(上海海事大学 信息工程学院,上海 201306)
传统的LDA主题模型没有考虑词频对主题分类的影响,使得主题分布向高频词倾斜。为了综合考虑词频和主题间的相关性,文中利用互信息能够表达变量间相关性的特点,在互信息基础上改进作为特征选择方法,利用评价函数评价特征词的权重值改进LDA算法分类过程,提高对主题分类贡献度高的特征词的作用。通过在新闻语料库上的分类实验证明了该方法的有效性,同时表明分类的准确率也有所提高。
主题模型;词频;互信息;特征选择
文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程,本质上是一种模式识别过程,它可以对文本的特征模式进行识别,关键技术有语料库的预处理、特征选择、分类模型构建等。主题模型[1](topic modeling)是一种常见的机器学习方法,可以自动提取隐含在文档集中的主题,并且按照词的分布形式直观地表达主题,无监督地分析文档和预测新文档,目前广泛应用于对文本的分类。其中LDA(Latent Dirichlet Allocation)[2]主题模型由于其参数简单,不产生过度拟合的现象,逐渐成为主题模型应用于文本分类的研究热点。根据zipf定律,文档中的词频分布符合幂律分布,在LDA主题模型学习时,这种幂律分布影响了词对主题间相关性的表达能力。针对这一现象,利用评价函数通过特征选择提取出文档中特征词,对特征集中的每一个特征词进行评估,选取特定数目的特征词组成特征子集表示文本,达到文本降维的目的。传统的特征选择方法有词频[3](Term Frequency,TF)、文档频率[4](Document Frequency,DF)、信息增益[5](Information Gain,IG)、互信息[6](Mutual Information,MI)、卡方统计[6](Chi-square Statistic,CHI)、期望交叉熵[6](Expected Cross Entropy,ECE)、文本证据权[6](Weight of Evidence for Text,WET)、优势比[6](Odds Ratio,OR)等方法。文本利用词频与互信息结合做为评估函数提取特征词,并在LDA模型中对特征词进行加权处理,提高特征词对文本主题分类的能力。
LDA主题模型是一种对文本数据的主题信息进行提取的方法,通过对文本内容进行简短的描述,保留本质的统计信息,高效地处理大规模数据集。LDA模型是一个产生式三层贝叶斯概率模型,分别是文档层、主题层和词层。
为了表述文档中主题类间的相关性问题,在LDA模型的基础上,Blei等人在LDA模型提出之后接着提出了CTM[7](Correlated Topic Model)模型,用逻辑正态分布(Logistic-Normal)替换Dirichlet主题先验分布,通过引入主题间的协方差矩阵来描述主题相关性。Li等人提出PAM[8](Pachinko Allocation Model)模型,用一个有向无环图(DAG)表示语义结构,在描述词之间的相关性的同时,还描述了主题之间的相关性,通过主题相关性提高文本分类效果。张振平、宣国荣等人[9]于2005年提出一种基于分类错误率最小的改进型LDA特征选择算法 ,采用迭代计算使Bayes分类错误率上界最小,取得比原LDA更好的分类效果。由于LDA模型应用广泛,卢盛祺等人[10]提出了一种基于LDA模型的电影推荐方法,提高了视频推荐的精度。
针对LDA模型的主题分布中词分布不均匀现象,高频词的比重大导致能够代表主题的多数词被少量的高频词淹没,使得主题表达能力降低,张小平、周雪忠[11]利用高斯函数对特征词加权,改进模型的主题分布。虽然在数据预处理阶段大量无用词已被剔除,但在构造分类器时,其余的特征词数量仍然很多,并且有很多特征词表述类别信息能力较差,甚至会误导分类结果。因此,为提高分类器的效率,更好地表示主题间的关系,本文从这些特征词中进一步挑选出对类别贡献大的特征词构成特征向量。对于几种不同的特征选择方法,下面着重介绍词频和互信息。
2.1词频
词频指特征词的频次(Term Frequency,TF),即特征词在所有文本即整个语料中出现的次数。设立阈值根据词频的大小对所有词项进行筛选。
2.2互信息
作为计算语言学模型分析中的重要内容,互信息可以衡量两个事件之间的相关性。两个事件X和Y的互信息计算方法为:
H(X,Y)=H(X)+H(Y)-H(X,Y)
(1)
其中H(X,Y)是事件的联合熵,定义为:
H(X,Y)=-∑p(x,y)log(p(x,y))
(2)
在文本分类中特征词和主题类的互信息公式为:
(3)
其中,p(t)表示特征词t在整个文档集中出现的文档频,p(ci)是文档集中第ci类文档个数与整个文档集中文档个数的比值,p(t,ci)表示类别c中含有特征t的文档个数。
3.1特征词的抽取
特征词在一篇文档中的词频率并不绝对对应于该特征词在该文档中的重要性,互信息方法可以度量特征词对于整个文档集分类的重要程度,它根据文档频和特征词与类别之间的关系判断词对主题类划分的贡献度。缺点是有可能导致最终所得的特征集中,能够代表某类的特征词较多,而代表其他类的较少,即会导致特征集合“不均匀”。
为了提高特征词对文本分类的贡献度,需要重新构造每篇文档的特征向量,即在构造特征向量时,使用原来的特征词构成特征向量,同时将在该文档中以高词频出现的特征词补充在向量列表中。本文通过词频与互信息结合的方式,用式(4)作为评价函数计算每个特征词在一篇文档中的贡献度:
(4)
为了得到特征词t与各个文档的平均关联程度,特征词对于文档集的平均互信息计算公式为:
(5)
在主题分类前由于不确定主题类,因此本文用互信息表示特征词与文档之间的相关程度,其中p(di)表示第i篇文档的词频,p(t)表示特征词t在整个文档集中出现的词频,p(t,di)表示文档i中含有特征词t的词个数。利用词频代替文档频表示特征词与文档的相关性方法,避免了仅仅考虑文档频不考虑词频导致的最终计算出的互信息值大量相同的现象,减缓最终根据阈值筛选特征词时丢失很多有价值的特征词的问题。
3.2模型的推导与估计
将文档集表示为D篇文本,假设由K个主题混合产生表示每篇文本,主题类别个数K已知,并且主题类间相互独立,忽略文本中的语法结构和词出现的先后顺序,每个主题k由词的多项式分布形成。将LDA模型使用概率图表示(如图1),图中黑色标志词w是唯一可观察到的变量,wdn表示第d篇文本的第n个词,wdn∈V,V表示文档中词的字典集;zdn表示wdn产生的主题;α表示文档集的主题先验分布超参数;θd代表文档d在主题上的分布比例,对于每篇文档d,θd服从狄利克雷分布;主题φk表示字典V中的词分布;图中主题模型包含k个主题在词上的分布φ1:k,文档中词的总个数用N表示。作为一个产生式概率模型,假设主题类个数确定,给定参数α和β,文档d的物理产生过程描述为:(1)从p(θ|α)中随机选择一个K维向量θd,产生文档d的主题分布;(2)通过p(wdn|θd,φ1:k)产生文档d的每个词wdn。
图1 LDA图概率模型表示
(6)
上式的条件概率计算中涉及到两个Dirichlet-multinational共轭结构:
(7)
(8)
(9)
(10)
由式(9)、(10)得到LDA文本建模最终的参数采样公式为:
p(zi=k|z,w,α,β)∞
p(zi=k,wi=t|z,w,α,β)∞
(11)
本文在词频与互信息结合的基础上改进模型,通过对LDA模型进行扩展改变模型生成特征词的过程, 提高表意性较强的特征词在生成过程中的采样分布。对此将特征词在文档中的权重考虑在参数采样公式中,权重值公式参考前文提到的平均互信息计算公式,即
(12)
改变生成模型生成特征词的概率,提出一个基于Gibbs Sampling公式基础上的新公式:
p(zi=k|z,w,α,β)∞
p(zi=k,wi=t|z,w,α,β)∞
(13)
本文使用的主题模型方法在Gibbs Sampling采样过程中对词的权重值进行调整,并使用0均值标准化(Z-score standardization)(如式(12))方法在模型中词概率值进行归一化。
z=(p-μ)/σ
(14)
其中μ、σ分别为Gibbs Sampling迭代之前的特征词频率值的均值和方差,归一化后Gibbs Sampling过程能够顺利收敛。
4.1实验数据和实验环境
本实验所使用的数据是搜狗实验室提供的全网新闻数据,来自若干新闻站点2012年6月至7月期间国内、国际、体育、社会、娱乐等18个频道的新闻数据,选取其中的30 000篇新闻数据,训练数据20 000篇,测试数据10 000篇。
实验PC为Thinkpad A6-3400M,主频为1.4 GHz,采用Python2.7基于本文提出的词频与互信息结合的方法实现特征词的提取,根据具体的评估函数计算特征词对文本分类的贡献度建立数据字典,通过Python实现改进后的主题模型,利用WEKA工具对分类效果进行评价。
4.2实验评价标准
对分类器性能的全面评估需要考虑两个方面的关键因素:一方面是分类器正确分类的能力;另一方面是分类器快速分类的能力。如何提高分类器正确分类的能力仍然是研究的热点,目前常用的性能评估指标有召回率R(Recall)、准确率P(Precision)和F1值。
4.3特征词选择效果对比
为综合评估本文提出的词频与互信息结合的主题模型特征选择方法(简称TFMI-LDA模型)的有效性,将本文得到的特征词与使用词频、互信息、信息增益分别得到的前10个特征词及权重值变化进行对比,以体育类为例,结果如表1所示。
表1 不同特征选择方法选择出的特征词及权重值变化比较
从表1可以看出,仅仅根据词频得到的特征词如奖金、参与、视频等特征词对体育类主题的新闻表意性较差、对文本的理解贡献度较低。根据互信息和信息增益的方法得到的关键词中也有审核、收看等对主题区分度不高的词,而通过本文的TFMI-LDA方法提取的关键词,其中权重值最高的比赛、篮球、热火、詹姆斯、高尔夫等词都与体育类主题相关性较高,对文本分类贡献度更高,更具代表性。
4.4准确率、召回率、F1值对比
为综合评估本文提出的基于词频和互信息结合的主题模型文本分类方法的有效性, 将基于词频、互信息、信息增益、LDA模型作为基础对比方法, 与本文TFMI-LDA方法进行对比实验。LDA过程中的参数设定为:K=18,α=50/K,β=0.1。针对训练的新闻数据,各特征选择方法在特征词数500~2 500之间的分类效果, 如图2。
图2 不同特征词个数时几种方法的F1值对比
从实验结果可以看出,针对体育、社会、娱乐、财经等主题的新闻分类中,基于文本提出的TFMI-LDA方法在分类结果F1值上都要优于基于传统的词频、互信息、信息增益特征选择方法,随着特征词个数的增加,F1值逐渐增加,当特征词个数在2 500时,分类结果F1值达到86%。
将特征词个数选取为2 100个,在LDA模型的基础上,分别使用本文提出的TFMI-LDA方法和前文提到的张小平、周雪忠等人通过高斯函数对特征词加权的方法做对比实验,选取体育、社会、娱乐、财经、国内、国际主题类,实验准确率、召回率、F1值结果分别如图3所示。
图3 不同主题类下三种方法的准确率、召回率、F1值对比
观察实验结果,当设定相同的参数时,高斯函数加权法和本文的TFMI-LDA方法在传统LDA模型基础上实验准确率、召回率、F1值都有所提高,并且TFMI-LDA方法比高斯函数加权法的F1值提高更多。
传统的LDA模型在主题分类时没有考虑语料库中高频词对分类结果的影响,本文提出基于词频与互信息结合的方法做特征提取,并用评价函数计算特征词的贡献度,改进LDA主题模型文本分类方法。实验结果表示TFMI-LDA方法比传统LDA模型具有更好的性能,分类准确率、召回率、F1值也有所提高。
[1] DEERWESTER S,DUMAIS S, FURNAS U,et al.Indexing by latent semantic analysis[J]. Journal of the American Society for Information Science, 1990,41(6): 391-407.
[2] BLEI D,NG A,JORDAN M.Latent dirichlet allocation[J].Journal of Machine Learning Research, 2003(3):993-1022.
[3] 费晓红,康松林,朱晓娟,等.基于词频统计的中文分词研究[J].计算机工程与应用,2005,41(7):67-68.
[4] 杨凯峰,张毅坤,李燕. 基于文档频率的特征选择方法[J].计算机工程,2010,36(9):33-35,38.
[5] 刘庆和,梁正友.一种基于信息增益的特征优化选择方法[J].计算机工程与应用,2011, 47(12):130-132.
[6] 邓彩凤.中文文本分类中互信息特征选择方法研究[D].重庆:西南大学,2011.
[7] BLEI D,LAFFERTY J.Correlated topic models[C].In;Proc,of International Conference on Machine Learning, 2006: 113-120.
[8] LI W,MCCALLUM A.Pachinko allocation:DAG(rstructured mixture models of topic correlations[C].In:Proc.of International Conference on Machine Learning, 2006:577-584.
[9] 张振平,宣国荣,郑俊翔,等.一种基于最小分类错误率的改进型 LDA特征选择算法[J].微型电脑应用,2005(4):4-6.
[10] 卢盛祺,管连,金敏,等.LDA模型在网络视频推荐中的应用[J].微型机与应用,2016,35(11): 74-79.
[11] 张小平,周雪忠,黄厚宽.一种改进的 LDA 主题模型[J].北京交通大学学报,2010,34(2): 111-114.
Research on text classification improvement method based on mutual information
Yu Xuan, Sun Wei, Zhang Xiang
(College of Information Engineering, Shanghai Maritime University , Shanghai 201306, China)
The traditional Latent Dirichlet Allocation(LDA) topic model does not consider the influence of word frequency on the subject classification, so that the distribution of the subject is tilted to the high frequency word.In order to comprehensively consider the correlation between word frequency and subject, this paper uses mutual information to express the characteristics of correlation between variables, and improves it as a feature selection method on the basis of mutual information. We use the evaluation function to evaluate the weight value of the characteristic word to improve the LDA algorithm classification process, and improve the contribution of the characteristic words with high contribution to the subject classification. The validity of the method is proved by the classification experiment in the news corpus, and the result shows that the accuracy of the classification is also improved.
topic model; word frequency; mutual information; feature selection
TP301.6
A
10.19358/j.issn.1674- 7720.2017.19.006
余璇,孙伟,张翔.基于互信息的文本分类改进方法研究[J].微型机与应用,2017,36(19):19-22.
2017-04-04)
余璇(1994-),通信作者,女,硕士研究生,主要研究方向:数据挖掘、文本分析。E-mail:15001882660@163.com。孙伟(1978-),男,博士,副教授,主要研究方向:智能信息处理(模糊认知图)、移动传感器网络动态组网、物联网技术等。张翔(1991-),男,硕士研究生,主要研究方向:数据挖掘、文本分析。