伍 俊,贾礼平(通信作者)
(乐山师范学院 四川 乐山 614000)
随着信息时代的来临,互联网平台成为传达通信的纽带,能实现信息的即时分享、传播互动。据中国互联网网络信息中心(CNNIC)发布的第47次《中国互联网络发展状况统计报告》显示,截至2020年12月20日,我国互联网规模达9.89亿,较2020年3月增长8 540万,互联网普及率达70.4%,手机网络用户达9.87亿[1]。由于互联网传播便捷,形式多样,越来越多人开始加入互联网的阵营。
新浪微博是网民活动的主阵地,据2020年新浪微博的用户发展报告可以发现,2020年9月微博活跃用户为5.1亿,日活用户为2.24亿,微博用户群体以90后、00后为主,两者总占比接近80%,微博用户呈现年轻化,从而可以发现互联网的舆论导向也逐渐年轻化[2]。
此外,微博作为公众社交平台,具有以下特点:首先,对参与用户无门槛要求,参与度广,互动性强。其次,传播速度极快,能在短时间内使舆情事件迅速发酵。最后,传播形式多样,图片、文字等都能进行传播。因此,实时掌握评论的动向,了解人们的情感倾向,对于把握事情的整体发展情况,以及为决策者提供决策依据是十分重要的。
在互联网时代,大学生成为了微博用户中的主力军,从微博上获得了平等交流的机会和多样化的信息,满足了自身求知欲和猎奇心理。同时通过微博这个平台展现自己的青春、活力、个性化,自由发表自己的言论,但同时也反映出大学生随大流、情绪化和非理性化的特点。
首先,微博用户的素质参差不齐,信息真假参半;其次,微博信息由于字数限制表达不完整,易被曲解;最后,传播速度快、范围广,缺乏把关人员[3]。因此,微博时代的舆情分析对大学生及高校的稳定发展具有十分重要的意义。
网络舆情反映了网民对舆情事件的情感走向。舆情分析,对于获取有效信息,增强另一方解决问题的能力,了解两者之间的情感态度,都有十分重要的意义。
本研究可以针对性指出学生关注的重点,使高校能及时获知学生及其他群众意见,做好信息沟通和舆论引导,通过微博评论汇聚群众的智慧。同时,高校能通过微博及时有效、公开透明地应对网络舆情,积极引导舆情走向,缓解师生情绪,润滑干群关系。网络舆情具有两面性,正确把握舆情的发展规律,营造良好的网络氛围,有利于大学生的健康成长,有利于高校的决策管理,更有利于两者持续稳定的关系。
“词云”是对关键信息进行可视化的表现,最早由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)提出的[4]。在现有的舆情分析中,“词云”的应用极为广泛,主要是对文本数据的可视化。此外,“词云”可以过滤掉大量的无效信息,抓取关键部分,进行关键词渲染,突出高频关键词,让人一目了然。
TF-IDF矩阵具有能够将预处理及分词后的文本数据转化为词频矩阵,计算权重,形成文档矩阵的能力。TF是词频(Term Frequency),表示一个词或词组在文档中出现的频率,IDF是逆文本频率指数(Inverse Document Frequency),整个文档中包含某个词或词组的文档数,文档数越多,表示这个词或词组对文本的贡献率越低[5]。所以TF-IDF矩阵可以作为判断词或词组重要性的标准,词的重要性分别与其在文本和语料库中出现的次数成正相关和负相关,并优先保留关键词[5]。
TF的计算公式[5]:
其中NW是在某以文本中词条w出现的次数,N是文本的总词条数。
IDF的计算公式[5]:
其中Y是语料库的文档总数,YW是包含词条w的文档数TF-IDF的计算公式[5]:
文本聚类是一种无监督的机器学习方法,对文本数据进行聚类,将杂乱的文本数据划分成若干类。同类文本相似度大,而不同类文本相似度低。
文本聚类的过程的主要分为:文本的预处理、文本表示、聚类分析。图1为文本聚类具体流程。
常见的文本聚类算法:K-Means、K-中心点、分裂法、DBSCAN等。
3.2.1 K-Means聚类
K-Means算法是一种基于划分的聚类算法,其目的:在不知数据所属类别和类别数量的前提下,依据自身所暗含的特点对数据进行聚类[6]。将距离作为相似性作为评价指标,认为两者之间距离越近,相似度越大[7]。
欧氏距离公式:
其中,dist(X,Y)表示实际距离,Xi和Yi表示坐标。
3.2.2 DBSCAN聚类法
DBSCAN聚类法基于密度划分的聚类法,适用于凸样本集和非凸样本集,显著优点是聚类速度快、能够有效处理噪声点、发现任意形状的空间聚类,且同一类别的样本联系紧密[8]。
3.2.3 聚类性能评估——轮廓系数
轮廓系数的取值范围为[-1,1],当值越接近1时,簇内越紧凑,簇间距离越大,聚类效果越好;反之,越接近-1,聚类性能越差;等于0时,表示有簇重叠[9]。
a:某个样本与其所在簇内其他样本的平均距离;
b:某个样本与其他簇样本的平均距离。
则针对某个样本的轮廓系数s为[9]:
聚类总的轮廓系数SC为[9]:
本文的情感分析基于情感词典,其中情绪词对领域有较大的依赖性,对于跨领域的情感分析是不够准确的。相比之下,用于特定领域和短文本,则有着较好的分析效果。图2为情感分析流程。
在大数据信息化的时代,极大的数据量和多样化的数据增强了课题研究的准确性。新浪微博作为一个提供信息交流共享和娱乐休闲的大型平台,数据具有开放和包容的特点,并且活跃用户群体广大,从中获取数据具有较强的代表性。
确定研究对象与数据来源后,要明确数据的采集方式。利用PYthon爬虫技术爬取了2020年5月20日至2021年5月20日期间乐山师范学院新浪官方微博12551条评论,编写爬虫程序进行数据采集,采集字段包括:_id、id、name、时间、点赞、评论内容。表1为采集字段的展示。
表1 采集字段
由于网上爬取的数据存在无效信息,直接使用未处理的数据会对文本分析造成影响,所以需要进行数据清洗。数据清洗主要包括:去除空白行、列以及空白项、去除重复值、去除网页标签、表情符号等。通过清洗,得到有效数据12 285条。对得到的数据进行预处理:分词、去停用词、词频统计及词性标注、绘制词云图。
将得到的词频统计结果与词云图进行比较,可以发现二者的代表性一致,词云通过词语大小表示词频的高低,形象直观,具有较强的代表性。表2为乐山师范学院新浪官方微博前20的词频结果。图3为乐山师范学院新浪官方微博关键词词云图。
5.4.1 构建分词TD-IDF矩阵
首先将文本转化为文本聚类分析适用的TF-IDF矩阵。再采用阶段奇异值分解SVD降维,选择需要的特征数或所要选择的成分数,调用TruncatedSVD对其进行降维处理,再利用fit()函数进行拟合,通过transform()函数应用于原矩阵。
将其划分为30份,所得的矩阵中的特征的值有正有负,奇异值越大,代表的信息越多,出现负值代表文本数据中存在无效信息,可以初步通过特征值的正负过滤无效信息。
5.4.2 基于TD-IDF矩阵的K-Means聚类
为了能够清晰展现该文本数据的聚类情况,此处绘制了K-Means聚类的轮廓系数图。图4为基于K-Means聚类的轮廓系数图。
由图4可知,在簇数为5、6、8分别产生了拐点,并且在簇数为8时,轮廓系数最大,大约为0.818,非常接近1;其次为簇数为5的时候,大约为0.807;最后是簇数为6的时候,大约为0.802。综上所述,将簇数选择为8时,文本聚类效果最好。
5.4.3 DBSCAN聚类
未知文本数据分类情况,对文本进行DBSCAN聚类,计算其所有样本的平均轮廓系数。所得结果约为0.813951,非常接近1,表示聚类效果比较好。
5.5.1 评分标准
根据情感态度对某事物进行打分,范围为0到1,评分越高,情感越强烈。
5.5.2 情感评分结果
基于情感字典,对文本数据分类,对文本的内容逐条评分,情感评分小于0则判别为消极,情感评分等于0则判别为中性,情感评分大于0则判别为积极。
图5为情感极性分布结果,消极微博评论仅占23.4%,中性微博的评论占49.2%,积极微博评论占27.4%,占比情况:中性>积极>消极,可以发现大多评论还是偏于理性,小部分较为激进。
图6为情感分析密度图,呈现了整个评分过程的变化趋势,发现主要集中在评分为-0.5~-0.25、0.00~0.50这两个区间,后者集中趋势更明显,大于0.75,变化趋于平缓。图5~6以不同的方式表达了一致的结果,表明分析结果具有代表性。
图7为情感密度柱状图,情感值为0左右时,评论数量占比最多,达到6 000多条,情感值为-1或1左右时,评论数量基本相同,大约为2 000条,其余情感值的评论几乎都小于500条,甚至没有。
在该项目中,分别使用K-Means聚类和DBSCAN聚类,发现聚类效果都比较理想,都能达到0.8以上。但轮廓系数法对于簇结构为凸的数据是非常友好的,轮廓系数值高;反之,轮廓系数值较低。且刚好K–means聚类无法处理非凸数据,DBSCAN聚类可以处理任意形状的数据,但其精度与参数设置相关,实用性不强。因此,轮廓系数不适用于评估不同聚类算法的优劣,比如本文使用的K-Means聚类和DBSCAN聚类。
情感字典的方法,适用于任何数据,不需要训练,但仅使用该方法,其准确率不是很高。但与Snownlp评分相比,基于情感字典进行评分,结果更为准确,效果更好,情感态度也更加明确,也未出现极度情感偏向问题。其中,消极、中性、积极分别占23.4%、49.2%、27.4%,占比情况:中性>积极>消极。
为了更好促进高校舆情管理,以乐山师范学院为例,提供一些可供参考的建议,如下:(1)成立舆情分析小组,监管与收集相关数据,定期汇报分析结果;(2)参与管理有关乐山师范学院的信息交流平台,实时掌握舆情动态;(3)健全和完善乐山师范学院相关服务体制,及时解决有关问题;(4)校内组织相关活动,汇聚群众智慧,共同参与校园舆情管理。