贾隆嘉
[摘 要]通过一种文本表示策略解决新浪微博主题分类研究所面临的特征权重表示不准确、模型解释性不强的问题。【方法/过程】采取“选择前预测”构建特征加权向量,在训练集上通过交叉验证方式对特征加权向量的成效进行评价,选择最好评估结果对应的特征加权向量作为测试集的特征加权向量。【结果/结论】对比传统W-Max、D-Max和D-TMax三种方法,本文提出的方法在微平均F1方面分别提升4.25%、5.03%和7.10%。在网络舆情主题分类中,该方法可以为数据集构建更明确的特征加权向量,并增强模型的可解释性,同时提升分类性能。
[关键词]网络舆情;主题分类;文本表示策略;机器学习
doi:10.3969/j.issn.1673-0194.2023.21.047
[中图分类号]TP391;G647 [文献标识码]A [文章编号]1673-0194(2023)21-0158-07
0 引 言
随着互联网在全球范围内的飞速发展,网络媒体已被公认为是继报紙、广播、电视之后的“第四媒体”,
成为思想文化信息的集散地和舆论的放大器。高校学生是网民中对社会热点现象反映最积极、最活跃、最敏感的群体,极易通过互联网表达自己对社会热点问题的看法。在某些情况下,他们的意见和建议得不到重视或延误解决,就可能在网上形成炒作,个体情绪可能传染到群体,演变为群体的不满情绪,激化矛盾,爆发形成网络舆情。高校学生群体既有较强的公民责任感,又具备组织行动的天然优势,遇到某些敏感热门话题,一经煽动,极易激发他们的社会责任感和民族情怀,进而引发大规模的网络舆情。高校网络舆情作为社会舆情的一个组成部分,在一定程度上反映并影响社会舆情的生成与发展。因此,面向高校网络舆情安全的分析研究具有广阔的应用前景以及非常重要的实用价值与现实意义。当前,关于网络舆情安全的研究,主要有以下几个方面。
(1)基于社会网络分析方法研究网络舆情安全。赵蓉英等[1]采用社会网络分析方法,结合具有代表意义的突发事件案例,对其产生的网络舆情数据加以采集与组织,并进行突发事件网络舆情传播的定量化测度分析,挖掘识别关键节点并解释其内在的结构特征与演变规律。梁晓敏等[2]提出舆论对象分析模型,利用依存句法分析,识别和抽取舆论对象与情感词对,进行情感分析,并对舆论对象的关系网络进行研究。王晰巍等[3]以新浪微博中雾霾话题信息为例,基于社会网络分析法,从点度中心性、中间中心性和接近中心性3个属性出发,对网络舆情信息传播进行对比分析,使用Gephi和数理统计分析验证了社会网络分析法在移动环境下网络舆情信息传播研究中的有效性。
(2)基于搜索引擎的关注度指标研究网络舆情。陈涛等[4]利用搜索引擎的关注度指标对网络舆情热度时空演变情况进行了研究,并以“小悦悦事件”“郭美美事件”和“药家鑫事件”作为案例,比较了谷歌趋势和百度指数在关注度的时间和空间维度的变化特点。张和平等[5]根据网络舆情事件的百度指数构建发展趋势的时间序列指标,通过几何平均弱化缓冲算子处理后建立改进的灰色Verhulst模型预测,最后采用马尔可夫模型对改进的灰色Verhulst模型预测结果进行修正。
(3)基于信息熵研究网络舆情预测。黄亚驹等[6]通过信息熵理论控制种群初始化,利用遗传算法的全局搜索能力和粒子群算法的局部搜索能力实现对BP神经网络权值的优化,构建了混合算法优化的BP神经网络的网络舆情预测模型。邹凯等[7]基于网络舆情分析了政府信息服务公众满意度影响因素,参考顾客满意度模型建立了基于网络舆情的政府信息服务公众满意度指数模型。针对指标权重获取的问题,构建了基于粗糙集条件信息熵的政府信息服务公众满意度智能评价方法。
面向网络舆情信息进行主题分类对用户具有重要意义。一方面,可以分类查询和统计各类事件信息,形成呈送简报;另一方面,可以为用户判断不同来源的同一事件提供技术支持。基于新浪微博数据的高校网络舆情主题分类问题是一项训练集和测试集都非常简短的特殊文档分类任务。本文分析研究了五种表示策略,同时提出了一种表示策略ODRS(Optimal Document Representation Strategy for Supervised Term Weighting Schemes),该方法通过对比各个类别的特征加权向量对于训练集分类产生的效果,可以构建出适用于数据集的特征加权向量。实验结果表明,本文提出的表示策略可以有效提升高校网络舆情安全主题分类性能。
1 研究方法
在向量空间模型中,文档可以被表示为D={t1 t2,…, tn}的形式,其中t代表数据集中的特征,n代表向量空间模型中特征的总数。可以采用特征加权方法对向量中的元素进行加权,用以明确它们在分类中的贡献,从而增强模型的解释性,提高系统分类性能。
大多数研究表示在同一数据集上,有监督的特征加权方法产生的分类效果普遍优于无监督的特征加权方法[8-10]。之所以称为“有监督特征加权方法”,是因为在度量特征重要性时,采用了训练集中的类别信息。由于在分类模型中,系统不能获得测试集的任何类别信息,通过每个类别的估计分布,最初测试文档可以被表示的向量数与数据集的类别数相同,如何在多个备选向量中构建一个最终向量,现阶段研究中主要有两种策略:局部策略和全局策略。在局部表示策略中,每一篇测试文档在独立的二分类任务中都将会被表示为一个单独的向量,这意味着每篇文档的表示不是单独的向量,而是与不同的二分类任务相对应的向量集合,即有一个二分类任务就有一个向量与之相对应。第二种是较为常用的全局策略,在全局策略中,每一篇文档都将会有一个与之相对应的全局独立表示向量。在大多数分类任务中,文档一般只允许被分类到一个类别中,标记一个与当前文档内容最相近的类别标签,因此大部分分类任务都被视为单标签任务并在特征加权时采用全局策略,全局策略表示方法如公式(1)所示。
在公式(1)中,TW(t)是特征t的最终权重,TW(t,ci)是特征t通过有监督的特征加权方法在类别ci中获得的权重,|C|为训练集中的类别总数。可以看出,全局策略针对构建的特征加权向量中每一个特征的权重值都是取其在所有类别对应的特征加权向量中相应列的最大值,由于缺少对构建的特征加权向量进行评估的过程,因此不能确保最终特征加权向量的有效性[11]。
本文研究的新浪微博文档相比正常的文本文档存在以下四点特殊性:第一,微博文档包含的词数较少,对于分类所包含的信息量少;第二,微博文档中的停用词相比正常文本文档中占比高;第三,微博文档中含有特殊符号表情;第四,微博文档数据短,同时由于数据量大,将导致数据集的特征矩阵极度稀疏。由于数据的特殊性,对于以新浪微博数据为基础的高校网络舆情安全主题分类问题,现存的文本表示策略是否仍然有效,如果有效,哪一种表示策略可以获得最好的结果?这是我们希望在本研究中解决的第一个问题。
1.1 相关表示策略
在文档分类中,由于文本文档不能直接被分类器解释,通常需要将原始文档转换为向量表示,因此,文档表示是文档分类的重要步骤之一。在本节中,我们简要回顾几种文本表示策略。
Younghoong Ko[11]于2012年提出了W-Max、
D-Max和D-TMax三种表示策略,用以改进传统表示策略,提高分类性能。下面针对三种表示策略逐一介绍。
(1)W-Max。数据集特征加权向量中的每一个特征权重值,将由所有类别对应的特征加权向量中相应维度的最大值代替。通过与全局策略对比分析可以得知,两种策略的核心思想是一致的。考虑到这种情况,在本文的相关对比实验中将只展示其中一种结果。
(2)D-Max。遍历数据集中各个类别对应的特征加权向量,逐一对各个特征加权向量中的特征权重值求和,最终最大和值对应的特征加权向量,将作为数据集的特征加权向量。
(3)D-TMax。首先,遍历数据集中各个类别对应的特征加权向量,逐一对各个特征加权向量中的特征权重值求和,然后将求和后的值由大到小排序,排序列表前两个值(即最高值和次高值)所对应的特征向量(记为vmax1和vmax2)将被选出。遍历两个被选出特征向量vmax1和vmax2的每一维,在每一维度两个特征值中较大的元素值将作为最终数据集特征加权向量相应维度的权重值。
下面举例说明上述三种表示策略针对同一情况的不同结果。假设有训练集D={d1, d2,…, dn},包含n篇文档,m个特征,|C|个类别,类别集C={c1, c2,…, c|C|};当某个类别作为正类别时,对应的特征加权向量集合V={v1, v2,…, v|C|}。矩阵V如公式(2)所示。
在公式(2)中,tij代表类别ci作为正类时,取得特征加权向量的第j个元素。假设测试集的最终特征加权向量为vd={w1, w2,…, wm},wk为vd的第k个元素。
(1)当使用W-Max策略时,wk可以由公式(3)计算。
(2)当使用D-Max策略时,首先采用公式(4)计算各个类别对应的特征加权向量的权重和。然后,将求和后的值由大到小排序,记录值最大的sumi对应的i值,則此sumi对应的特征加权向量将被选择作为测试集的特征加权向量vd。
(3)当使用D-TMax策略时,首先采用公式(4)计算各个类别对应的特征加权向量的权重和,然后,将求和后的值由大到小排序,选择出排序列表前两个值,记为:suma与sumb,记录对应的下标a、b。最终wk可以由公式(5)计算。其中,tak和tbk分别为类别a与类别b对应特征加权向量的第k个元素。
wk=max(tak,tbk);a≠b∈[1,k],k∈[1,m] (5)
1.2 有监督特征加权方法的最优表示策略
根据之前的分析,在不同数据集获得好的分类性能,需要不同的表示策略[11];即同一表示策略不能适用于所有数据集。如何在选择文本表示策略前预测或分析它对当前数据集带来的效果,换句话说,对于一个待分析的数据集,我们如何选择文本表示策略?这是我们在本文中希望解决的第二个问题,将在文章结尾给出答案。
文本表示策略选择不恰当,将直接导致特征权重赋值不合理,对于一些类别对应的特征加权向量,它们赋予特征的权重值对于分类没有作用,甚至会带来负面效果,降低分类性能。下面举例说明这一情况,假设有训练集包含19篇文档、5个特征、5个类别;文档、特征、类别三者之间的关系如表1所示,数字代表特征在文档中出现的次数。
以特征加权方法tf *rf = tf *log(2+a/max(1,c))为例[9],其中a代表特征在正类别文档中出现的次数,c代表特征在负类别文档中出现的次数。当类别1至类别5分别作为正类时,计算得到的对应特征权重值如表2所示。
当不同类别作为正类时,每个特征被赋予的权重值不同,如何综合各个类别分布特点,为数据集构建恰当的特征加权向量,基于D-Max和D-TMax策略的思想,我们首先根据公式(4)计算类别C1至C5对应的特征加权向量的权重和,然后依次选择前1个至前5个最高和值对应的向量,最后按照公式(6)分别构建特征加权向量。
在公式(6)中,selected C代表根据特征权重和值排序后,选择的对应向量数量。当选择前1个或前2个和值对应的向量时,为D-Max策略或D-TMax策略;我们将选择前3个、4个及5个和值对应的向量,然后构建特征加权向量的策略,分别称为“D-3Max” “D-4Max”和“D-5Max”。对于更多类别时,我们统一称为“D-NMax”(Document Number Max),其中“N”指的是选择向量的数量。各个类别对应的特征加权向量的权重和值排序结果如表3所示。表4展示了采用不同表示策略时,特征t1至t5所获得的权重值。
通过分析表1中文档、特征和类别三者间的关系,相比特征t3和t5的特征权重值,特征t1,t2和t4的特征权重值应该较高,同时在t1,t2和t4三个特征中,t1的特征权重值应该最小,t2的特征权重值应该最大。原因主要有以下三点:一是相比特征t1,t2和t4,特征t3和t5在5个类别的文档中,分布相对均匀,不具备明显区分度,因此相比特征t1,t2和t4,特征t3和t5的特征权重值应该较小。二是相比特征t2和t4,特征t1在各个文档中出现的频次较低,同时特征t1在类别C1的部分文档(d4)和类别C2的部分文档(d9)中出现的频次与在类别C5的文档(d17,d18和d19)中出现的频次相同,因此相比特征t2和t4,t1不具备明显区分度,在t1,t2和t4三个特征中,t1的特征权重值应该最小。三是相比其他特征,特征t2集中出现在类别C4的文档中,并且频次较高,是一个具备明显区分度的特征,因此在5个特征中t2的特征权重值应该最大。
通过总结以上实例和传统文本表示策略,本文提出了ODRS方法。通过循环遍历每个类别对应的特征权重值,依次根据公式(6)重新组合形成新的特征加权向量,然后在训练集上比较、验证各个新生成特征加权向量的加权效果,最终选择适合于当前数据集的特征加权向量。循环遍历的思想主要是受到Yun-Qian Miao[12]等人的启发,他们提出了一个成对优化的Rocchio算法,算法中通过在训练集上动态调整介于两个类别间的原始分类线位置,记录每一次调整后的分类结果,最终遍历所有结果,选择最适合当前两个类别的分类线位置。
相比传统方法,本文提出方法有三点改进。一是针对有监督特征加权方法,不再是根据研究人员的经验采用某种文本表示策略对文本进行表示,而是根据当前数据集,智能构建特征加权向量,进一步对数据集进行表示。二是提出的方法引入了循环遍历思想,重新构建特征加权向量的备选向量不再受局限,可以根据各个类别分布的实际情况,构建出适合当前数据集的特征加权向量。三是提出的方法实行“选择前预测”,在构建特征加权向量时,采用类似交叉验证的方式,在训练集上测试特征加权向量的效果,根据文档、特征以及类别之间的关系构建特征加权向量。方法描述如下。
在本文提出的方法中,采用Micro F1作為交叉验证结果的评价指标,而没有采用精确率、召回率等评价指标,主要原因是精确率和召回率是互相影响的,一般情况下精确率高,召回率就低;召回率高,精确率就低。本文采用了综合两者的评价指标Micro F1。
2 实验与分析
2.1 实验数据
为了验证提出算法的有效性,本文应用网络爬虫技术,从新浪微博抓取20 000条高校微博文档数据。根据以下规则从源数据中抽取出具有分类价值的微博文档:第一,选取纯文本类型的微博文档;第二,选取大于120个字符的微博文档。通过这两条规则,共筛选出了13 079条微博文档。根据《2016年中国高校政务新媒体发展报告》,校园学生发微博排在前10位的类型分别是:休闲娱乐、人文艺术、科技科普、教育、交通服务、新闻资讯、读书写作、运动健身、公益、情感。实验中将以上10个类别作为目标类别,采用以下方式对抽取到的数据进行标注:对所有数据进行两次标注,工作由4人完成,将两次标注的结果逐一核对,微博内容相同但是标注类别不同的文档需筛选出来,进行单独讨论,同时,丢弃难以确认类别的微博文档。经过标注后的数据集共包含9 183条微博文档,每个类别中包含的文档数详见表5。
2.2 评价标准及分类器
考虑到本文实验数据集为失衡数据集,在度量结果时,将采用微平均作为评价指标,同时采用了主题分类中常用的支持向量机分类器。由于支持向量机采用了结构风险最小化原则,使其在分类的时候常常展现出较好的性能,Leopold和Kindermann[13]指出相比改变核函数,应用特征加权方法可以有效地提高支持向量机的性能。一些文献也指出支持向量机的线性核函数性能优于非线性核函数[14]。此外,考虑到实验数据的特征数目和样本数目都较大,本文在使用支持向量机的时候选用了线性核函数,并且将其他参数设置为默认,实验中采用LibSVM工具包[15-16]。
2.3 结果与分析
本文将使用tf *rf有监督特征加权方法,结合W-Max、D-Max、D-TMax以及本文提出的ODRS方法进行比较。实验中ODRS方法得到的selected C值为5。对比采用W-Max、D-Max和D-TMax三种策略,本文提出的ODRS方法结合tf *rf特征加权方法获得了最优结果。
图1展示了采用tf *rf特征加权方法,应用四种文本表示策略,使用支持向量机分类器取得的微平均F1值结果。横轴代表不同的文本表示策略,纵轴代表取得的相应微平均F1值。从中可以看出,ODRS方法获得微平均F1值结果明显高于其他文本表示策略得到的结果。为充分展示ODRS方法的有效性,除图1中的结果外,表6中列出了其他情况对应的结果。
通过观察表6可以得知,针对微博短文档失衡数据集选择文本表示策略时,传统的文本表示策略并不是最优选择,相比之下,ODRS方法表示的数据集可以获得较好的分类结果。主要原因为微博文档相比常规文档包含特征词少了许多,由于数据量较大,使得数据集特征矩阵极度稀疏,传统文本表示策略不能依据数据集实际特点构建恰当的特征加权向量;ODRS方法通过“选择前预测”方式,在构建数据集的特征加权向量时,首先在训练集上采取交叉验证方式对当前特征加权向量的效果进行充分评价,然后从所有待选择的特征加权向量中,选择最好评估结果对应的特征加权向量作为测试集的特征加权向量。
在文章结尾,我们对之前提出的两个问题给出答案。
(1)对于以新浪微博数据为基础的高校网络舆情安全主题分类问题,现存的文本表示策略是否仍然有效,如果有效,哪一种表示策略可以获得最好的结果?
通过在实际数据集上对现存的文本表示策略进行性能评估,我们发现各个文本表示策略性能差异显著,W-Max(全局策略)取得的结果优于D-Max和D-TMax策略。
(2)如何在选择文本表示策略前预测或分析它对当前数据集带来的效果,换句话说,对于一个待分析的数据集,我们如何选择文本表示策略?
为使得数据集获得恰当的文档表示,本文提出了ODRS方法。方法在构建特征加权向量过程中,通过循环遍历方式,为最终确定的特征加权向量提供了多个备选特征加权向量,根据各类别的分布特点,在训练集上对备选特征加权向量采用交叉验证方式评价其加权效果,最终将评价效果最好的特征加权向量作为测试集的特征加权向量。
3 结束语
随着微博的快速发展,对于微博文档主题分类已经有了迫切需求,然而,微博文档作为特殊的短文本文档,每条微博包含的特征词较少,不确定当前文本表示策略对其是否有效。在本文中,我们研究了几个应用较为广泛的文本表示策略,与此同时,提出了一种新的文本表示策略,对高校网络舆情主题分类带来的效果明显。方法采取“选择前预测”方式构建特征加权向量,避免了传统依据经验选择文本表示策略造成的分类效果不理想问题。
本文提出的方法在一定程度上满足了网络舆情主题分类中文本表示问题的现实需求,可以为高校网络舆情分析提供一定的技术方法支持。然而,高校网络舆情安全正处于探索阶段,本文仅研究主题分类中文本表示技术,对于主题分类中其他相关步骤有待进一步研究。
主要参考文献
[1]赵蓉英,王旭.突发事件网络舆情关键节点识别及导控对策研究:以“大贤村遭洪灾事件”为例[J].现代情报,2018,38(1):19-24,30.
[2]梁晓敏,徐健.舆情事件中评论对象的情感分析及其关系网络研究[J].情报科学,2018,36(2):37-42.
[3]王晰巍,邢云菲,赵丹,等.基于社会网络分析的移动环境下网络舆情信息传播研究:以新浪微博“雾霾”话题为例[J].图书情报工作,2015,59(7):14-22.
[4]陈涛,林杰.基于搜索引擎关注度的网络舆情时空演化比较分析:以谷歌趋势和百度指数比较为例[J].情报杂志,2013,32(3):7-10,16.
[5]张和平,陈齐海.基于灰色马尔可夫模型的网络舆情预测研究[J].情报科学,2018,36(1):75-79.
[6]黄亚驹,陈福集,游丹丹.基于混合算法和BP神经网络的网络舆情预测研究[J].情报科学,2018,36(2):24-29.
[7]邹凯,左珊,陈旸,等.基于网络舆情的政府信息服务公众满意度评价研究[J].情报科学,2016,34(2):45-49.
[8]LAN M,SUNG S Y,LOW H B,et al. A comparative study on term weighting schemes for text categorization[C]//,Proceedings of IEEE International Joint Conference on Neural Networks. 2005:546-551.
[9]LAN M,TAN C L,SU J,et al. Supervised and traditional term weighting methods for automatic text categorization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(4):721-735.
[10]QUAN X,WENYIN L,QIU B. Term weighting schemes for question categorization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(5):1009-1021.
[11]KO Y. A study of term weighting schemes using class information for text classification[C]//Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval,2012:1029-1030.
[12]MIAO Y Q,KAMEL M. Pairwise optimized Rocchio algorithm for text categorization[J]. Pattern Recognition Letters, 2011,32(2):375-382.
[13]LEOPOLD E,KINDERMANN J. Text categorization with support vector machines:How to represent texts in input space?[J]. Machine Learning,2002,46(1-3):423-444.
[14]CAI D,HE X. Manifold adaptive experimental design for text categorization[J]. IEEE Transactions on Knowledge and Data Engineering,2012,24(4):707-719.
[15]ChANG C C,LIN C J. LIBSVM: A library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology(TIST),2011,2(3):27-33.
[16]田梅,朱學芳. 基于支持向量机的大学生网络信息偶遇影响因素研究[J]. 图书情报工作,2018,62(8):84-92.