郑伟 王若怡 马林 李明 王喆
[摘 要]KNN算法是模式识别领域中的一种常用算法,具有简单有效、无须估计参数等优点。本文针对训练样本的不规则性,分析了相似度权重的KNN算法,并将该算法应用于网络舆情的识别实验中,旨在为研究KNN算法提供借鉴。实验结果表明:KNN算法用相似度作为权重能够有效提高舆情识别质量。
[关键词]舆情;KNN算法;准确率
doi:10.3969/j.issn.1673 - 0194.2019.06.074
[中图分类号]TP391[文献标识码]A[文章编号]1673-0194(2019)06-0-02
0 引 言
现实生活中的热点、焦点问题会引发广大网民关注,同时民众会通过网络媒体转发并发表相关意见。舆情就是大量民众集中的意见表述与诉求,网络舆情识别与预警对于舆情工作尤为重要,如有关部门提前发现舆情的源头或预测可能产生的现实危机,可以提早判断舆论走向,可以通过多部门联动做好舆论引导和应对突发事件的准备。舆情预警是否及时决定了后续舆情处理效果的好坏,如何有效地从海量的互联网言论中及时发现一些潜在的存在危机的舆论导向对维护社会安定尤为重要。目前,舆情识别技术除日常监测外还有以下技术,如主题提取、情感分析、话题聚类和话题跟踪等。
近年来,一些研究者做了一些与舆情识别新技术有关的研究。例如:王珍从社会网络的角度详细分析了舆情的监测和预警方法;田殷姿提出了一种挖掘搜索引擎日志内容的舆情监测方法,并通过实践获得了较好的预警效果;刘勘 等提出一种基于支持向量的真假舆情识别方法;赵静娴针对舆情的识别问题,提出一种基于组合优化决策树的伪舆情识别方法。本文主要研究了KNN算法下的网络舆情识别及分类,并尝试在KNN中采用相似度作为权重参与计算。
1 经典KNN算法
经典KNN(K-Nearest Neighbor)是一种基于统计的分类算法,原理简单、编程易理解,在各个领域应用广泛。很多研究者对其进行了不同程度的改进,在分类、推荐与模式识别方向取得了较好的效果。KNN算法的思想在分类时采用投票原则,即少数服从多数原则;通过某种测量手段测量未知样本的K个近邻数,统计K个近邻大多数属于的类别,算法如下。
(1)已知训练样本集合K={K1,K2,…,Km},训练集合中样本的数目,m、n为类别数目。
(2)设定待测样本的最近邻数目值k。
(3)样本间的相似程度采用余弦相似度进行测量,测度值用s表示。
(4)每个待测样本用Z表示。①计算m个测度值并使用排序算法对其进行排序,排序后为:s1,s2,…,sk,sK+1,…,sm。②取出其相似度最高的K个样本,然后遵守投票规则进行待测样本Z的类别值判定,Z类别值为得票数最多的那个类别。
2 加权重KNN算法
针对K值的不易确定性、训练样本的不均匀性,KNN算法采用一种相似度加权的KNN算法,该算法在分类时可以有效体现类别代表样本的重要性,修改后的算法流程如下。
(1)已知训练样本集合K={K1,K2,…,Km},m为训练样本数目,n为类别数。(2)样本间的相似程度采用余弦相似度进行测量,测度值用s表示。
(3)每个待测样本Z的计算如下:①依次计算样本X与训练样本的余弦相似度si,其中i∈[1,n];②计算X的K个最近邻的相似值{s1,s2,…,sk};③使用式(1)判别样本X的类别,其中wk=sk,y?取最大值时所对应的类别为样本最终对应的分类类别。
3 文本特征提取方法
向量空间模型常用文本向量表示,文本中的代表特征提取也称特征选择,通过构造一个评估算法,对待评估的文本特征进行打分,通过预设的阈值筛选出合适的词条作为文本样本的特征。目前,常用的特征评估函数有下列几种形式:信息增益(IG)、互信息(MI)、χ2统计(CHI)、文本证据权(WET)、期望交叉熵(CE)等。周茜对上述常用的特征选择方法进行了研究,研究发现IG、χ2、WET法的效果较佳。
3.1 信息增益(IG)
信息增益是信息论的一种信息计算公式,可以衡量特征出现时类别的贡献度,n個类别的信息增益值需要累加。IG的定义如下。
其中,t与t分别表示特征的出现与不出现,ci表示第i个类别。
3.2 文本证据权(Weight of Evid Txt)
一个类别出现的概率与某个特征出现的概率关系可以通过条件概率之间的差别进行表示,定义如下。
3.3 χ2估计(CHI)
CHI可以有效衡量特征词t与类c之间的依存关系,特征t的CHI计算值为零,表示特征t与类别c之间相互独立。对于类别c,特征t的CHI估计定义如下。
4 基于KNN算法的舆情分类实验
表1显示的是使用经典KNN分类算法取不同K值时的分类结果。在京东网上商城下载关于某型号数码相机的网络商品评论数据,共360条作为语料进行分类实验,其中评论情感数据分为好评与差评两类。实验时选择其中270条评论作为训练数据,余下90条作为测试数据,实验数据使用2组交叉语料进行实验,特征选择算法使用信息增益方法,特征维数取经验值500维。实验采用的评估指标为准确率,其具体计算公式如下。
从表1可以看到,当K值增大时,2组测试样本所对应的分类准确率均在K值等于10时取最大值,随后呈现波动趋势,可见K值在10以后增加时,近邻样本中不断引入各类别“杂”样本。但是,加权重KNN算法与经典KNN分类准确率不同,表2显示的是采用加权重KNN算法用于分类的结果。