校园舆情热点问题提取与分析

2020-06-19 08:45郑建灵张艳玲田俊雄黄子豪梁茵
软件导刊 2020年4期

郑建灵 张艳玲 田俊雄 黄子豪 梁茵

摘要:为从高校各种网络平台上的海量言论中提取和分析校园舆情热点问题,使用爬虫获取高校贴吧文本,对获得的文本数据进行分词、清洗;然后使用tensorfloW hub中的神经网络语言模型(NNIM)进行迁移训练得到文本向量,对文本向量使用基于划分的K-means聚类,得到多个文本簇团;对簇团使用词频一逆文档频率算法(TF-IDF),得到每个簇团的关键信息并进行人工分析。实验结果表明,贴吧上的热点问题主要是考研类和入学类话题。根据分析得出的话题可为高校管理决策提供依据。

关键词:校园舆情;迁移训练;词表征;词频一逆文档频率;K-means聚类

DOI: 10. 11907/rjdk.191649

开放科学(资源服务)标识码(OSID):

中图分类号:TP301

文献标识码:A

文章编号:1672-7800( 2020)004-0061-06

O 引言

随着互联网技术的普及,社交网络成为大学生活至关重要的一部分。新媒体潮流促进了信息流动和传播,也带来了海量的媒体内容与用户数据。大学生平常关注的热点问题,对高校管理有重要的指导意义。

自然语言文本信息的聚类需要将文本信息转换成数字信息,这一过程叫做文本表征,高强[1]较为完整地阐述了如何将文本信息转换成数字信息以应用于聚类的过程与技术细节。传统的文本表征是使用词频信息表达文本。文峤[2]分别使用词频、TF-IDF、卡方检验、互信息表征文本得到使用各类表征方式的分类准确率与特征维度的关系。但是,单从本文中提取词频特征,会忽视词项语义,无法充分提取文本包含的语义信息,且得到的文本表征存在高维、稀疏等问题;张雪松[3]使用频繁词集表示文本以降低文本维度;Mikolov[4]在2013提出Word2vector,使获取词项的上下文语义信息成为可能;周顺先[5]等使用词向量聚类质心频率模型,将得到的特征化文本放入神经网络语言模型进行分类实验,得到比单纯基于词频统计的TF-IDF更好的分类效果;贺益侗[6]分别使用TF-IDF与DOC2VEC表征文本,得到两个模型,然后使用模型融合得到最后结果。但TF-IDF的表征仅包含词频信息,而DOC2VEC能够反映词项语义信息却没有包含词频信息,使用模型融合也没有真正将词频和词项语义信息结合在一起;黄承慧"、高明霞等[8]提出使用词频与词项语义相结合的方法度量文本相似度,這类方法在各白的实验中都取得了比单独使用词频信息或词项语义更好的实验结果;汪静[9]在结合词频与语义的基础上,在计算词频上加入了词性的贡献因子,对文本信息的提取更加深入;邹艳春[10]使用DBSCAN聚类方法对文本进行聚类;李春青[11]介绍了文本聚类的4种聚类方法;徐维林[12]结合LDA和SVM模型,利用K-means聚类对长文本进行聚类,获得较好的聚类质量和稳定性;熊祖涛[13]探究了几种文本表征和聚类方法对短文本进行聚类;周海晨[14]使用TF-IDF作为文本表征,对文章标题进行文本挖掘,建议在不同时期给学生推送内容;刘家成[15]基于TF-IDF和K-means聚类方法研究了价格波动与买家评论的相关性。

直接使用TF-IDF表征文本向量,在应用到大量文本数据进行表征时,不仅存在数据矩阵极其稀疏、运算时间极长等问题,而且该种表征仅体现了词频信息,没有词义信息。若使用WORD2VEC与TF-IDF相结合的表征方法,在提取词向量与作为权重的TF-IDF相乘时,同样耗时过长,难以得到训练结果。本文直接使用tensorflow一hub中的NNLM模型进行迁移训练得到文本向量。这种表示方法可以直接指定数据矩阵维度,解决数据矩阵密度稀疏问题,且在运行速度上也有较大提高。

本文首先利用python爬虫工具,收集高校贴吧中学生发布的言论;再使用python中的jieba分词将文本切割成一个个词汇,使用NNLM模型得到关于文本的词汇及进行迁移训练,得到每个文本的文本向量;接着使用K-means算法对文本进行聚类,对聚类结果使用TF-IDF算法计算,得到每个簇的关键信息,以此分析大学生关注的热点问题。

1 文本数据预处理

本文所探讨的校园舆情内容来自百度贴吧。使用Pv-thon爬虫技术,在全国各个高校贴吧主页爬取学生讨论内容。本次研究一共爬取全国784所高校共4605942个帖。

1.1 文本分词

常见的分词T具有jieha分词、ltp分词、thulac等分词-具。仅从分词上看,jieba分词具有精确、搜索引擎、新词识别等模式,加入字典的词将直接匹配,安装使用方便;ltp分词粒度较大.词性类型较少,安装稍复杂;thulac分词具有世界上最大的人工分词和词性标注中文语料库,分词速度快。

针对贴吧文本分别使用jieba、ltp分工具,得到如图l所示结果。

可以看到,ltp分词中,“新生加群”、“师姐会”、“新生学弟”等没有被分开,相应在jieba分词中均被分开。总的来说,ltp分词粒度相对较大,即文本会被分割成更长的词串,而jieha分词粒度相对较小,就分词效果而言,分词粒度小更适合本实验;此外,为了保证分词效果,加人人工白定义词典。ltp分词将所定义的词典以特征的方式加入机器学习算法,无法保证输入的词能完整切分,而jieha分词可以匹配白定义词典中词及其词性,故最后选择jieha分词作为分词工具。

1.2文本清洗

首先对单一文本进行清洗,分别加入停用词,用户白定义词典以及对词性筛选,得到将要用于表征的文本。实验所采用的停用词分为两个部分:①从网上找到的停用词表,即一些普遍没有意义的词及标点符号;②通过人T筛选得到的对于研究没有意义的词语。在用户白定义词典方面,需要通过人工检查分词结果,手动将被错误切分的词合并并定义词性,然后加入用户白定义词典,这样能够修正被错误分词的词语.获得更多有意义的词语。筛选掉的部分词语如表1所示。

从表1可以看出,第一类主要是称呼用语,第二类是一些单个字,难以表达一个准确意思的动词,第三类是一些数量词、序数词,以及其它对研究主题没有意义的词语。在词性筛选方面,利用jieba分词的词性标注功能给每个词语定义词性,然后筛选必要的名词、形容词、动词等对实验较有意义的词性并保留。

经过单一文本清洗后会对每一篇文本进行词数检查,如果词的个数不足10个,则说明该贴的关注度不高,将舍弃该文本。经过必要清洗筛选后选取其中920351个帖进行研究。

2文本表征

将文本信息转化成向量信息,文本向量表征的好坏决定最后聚类理论上能否达到最好的结果。特征选择函数种类繁多,对训练集和分类算法依赖性也很大,不同研究针对不同的分类应用,采用不同的训练过程和分类算法,对各评价函数的性能评价结果差异也较大[16]。最常用的文本向量表征方法是TF-IDF模型,属于基于词频的表征方法。但在大量文本下,实验分词后词库高达382 326个词。即便通过筛选,也仍有10万数量级词量,导致最后的向量空间维度过高,难以直接运行出结果。而使用WORD2VEC模型能够得到词的低维度向量空间表示,但利用词向量有效表示短文本是一个研究难点。常见的方法有以文本所有词向量的均值表示文本,也有利用TF-IDF值表达每个词的权重,从而利用权重得到表示文本的向量[8]。但由于使用WORD2VEC模型与TF-IDF权重计算时耗时过长,难以得出运算結果。

迁移学习是利用先验知识从一个领域和任务类比到另一个领域和任务,本文使用Tensorflow huh中的NNLM中文模型进行迁移训练获取文本表征。

神经网络语言模型( Nerual Network Language Model,NNLM)由Bengio等[17]于2003年提出。NNLM利用前n-l个词预测第n个词同时为最大化目标词语的概率。NNLM在中间层将句子编码压缩成一条稠密特征,解决了表征向量稀疏化问题。同时,由于分类模型作用,该特征能很好地表达句子含义,也具备传统统计学模型不具备的上下义信息,解决了Word2vec难以表达句子的问题。Tensorflowhub中NNLM模型使用大语料库进行训练,能较好地涵盖各种中文语料库。使用NNLM迁移训练贴吧数据,对得到的文本表征将有更好的泛化能力。

文献[9]提出使用词性作为影响因子进行权重计算的方法。据此,本实验采取更简便的方法,将除名词、动词、形容词等词性以外的词全部舍弃,只留下对探究主题有用的词语,但这样做的弊端是存在许多离群点。

3文本聚类

文本聚类指白动地将文本集合分组为不同的类别。同一类别中的文本非常相似,而不同类别之间的文本则不相似”1。基本分类方法有划分方法、层次方法、基于密度的方法、基于网格的方法等[19]。

3.1 K-means聚类

本文使用K-means聚类。K-means聚类是一种基于划分的聚类方法。通过初始化k个簇心点计算每个点与簇心点的距离,将每个点划分到距离该点最近的簇心中,然后利用簇中的每个点到簇心的距离计算均值,得到新的簇中心;重复计算点与簇心的距离,更新簇中心,如此迭代一定次数,或者前后两次每个点到簇中心距离的总和(簇内变差)不超过设定的阈值则停止迭代,输出聚类结果。

3.2实现思路

根据义本向量表征将每篇文档向量看成M维空间的一个点,共N个点。本文进行分组对照实验,将N个点划分成4个组分别进行文本聚类,聚类思路如下:①在M维空间中,随机选取10个点作为初始簇中心点;②计算每个点分别到10个簇中心点的欧式距离,将每个点划分至与其欧式距离最近的质心点簇中;③计算新的簇内变差,即每个点到其所在的簇中心欧式距离的总和,并记录,设定旧的簇内变差为一1;④根据簇的每个点坐标,将簇内所有点维度相同的值相加,再求每个维度的平均值,得到新的簇中心点;⑤计算新旧簇内变差的差值,若差值小于1或者进行100次迭代计算,然后退出,否则重复步骤②一⑤;⑥重复步骤①一⑤若干次,取多次K-means聚类中得到的最小簇内变差,并以此作为聚类结果。

3.3聚类实验结果处理

对所有文档聚类之后,计算每篇文档所有词的TF-IDF值,然后根据每个簇中词的TF-IDF值总和进行排序,筛选得到每个簇的关键信息。

3.3.1 词频一逆文档频率(Tenn Frequency-Inverse Docu-ment Frequency, TF-IDF)

TF-IDF方法对于提取文本库中某一篇文档的特征较为有效。通过计算每个词在当前文档的频率,突出该词在本文中的重要程度,但有可能是没有意义的高频词;再计算词的逆文档频率,与词频率相乘,可以降低没意义的高频词TF-IDF值,得到较好表征文本的词语,但此过程没有考虑词义。

根据TF-IDF= TF*IDF计算得出每篇文档所有词的TF-IDF值。

设文本库共有IDI篇文档,将所有文档中的不同词语构成一个词库M,词数为IMI,则每篇文档对应一个M维向量,文档向量中每个维度的值为TF-IDF值或0。整个文本库可以构成一个IDlxIMI矩阵,得到文本向量表征。

3.3.2簇关键信息提取

聚类后得到的每个文档向量归属于一个类中。提取聚类结果思路如下:①对每个类建立一个关于词库的IMI维向量K,且初始值均为0;②将类内每个文档向量中维度上的数值与K向量上相应维度的数值相加;③对词库向量K进行排序,得到TF-IDF值最高的前7个词,查找词库,得到相应的词语,作为该类关键词。

4 热点问题分析

首先,使用Pvthon中jieha分词对贴吧评论进行分词并统计词频,得到词频最高的前20个词,如图2所示。

从得到的前20个词频上看,学生舆论涉及的话题主要围绕“学校”、“专业”、“考研”、“宿舍”、“工作”、“录取”等关键词展开。

然后,使用TF-IDF算法提取每组每个簇的簇关键词信息,得到每组10个簇的关键词信息,如图3所示。

(1)每个分组得到最大帖数的簇分别是图3(a)6、图3(b)5、图3(c)7、图3(d)9,都具有“学校”、“一本”、“专业”、“新生群”、“同学”和“微信”等关键信息。从关键信息可以看到,这些簇主要是关于准大学生对将要踏人大学校园的提问,主要有学校、填报志愿、专业、加入各种新生讨论群等,其中较有意思的是“微信”这个关键词,一般新生讨论群都在QQ建立,微信这个词出现主要是由于许多大学都开设有公众号,学生会通过大学公众号查询白已是否过线,以及一些专业录取情况等。将这个簇所包含的信息定义为“入学类”,表2包含了与该簇相关的簇类信息。

从相关簇类关键信息可进一步了解到准大学生会在贴吧上咨询每年的文、理、综排名情况,每年各学校的录取情况等。准大学生通过这些方式确认白己的分数是否能考上心仪的大学,以及能否选到理想的专业。

(2)每组第二大帖数的簇分别是图3(a)9、图3(b)8、图3 (c)10、图3(d)4,都具有“考研”这个关键信息。这个簇类主要是关于大学生继续深造的问题,将簇包含信息定义为“考研类”,表3包含了相关的簇类信息。

结合相关簇类信息可知,每个分组都拥有的关键信息增加了“专业”、“资料”、“学院”,其中有3个分组都包含“调剂”、“研究生”等关键信息。由此可知,准备考研的大学生关注学校专业方面的问题,此外,大学生报考相应院校还因专业试题不同,会在贴吧上寻求相应帮助,获取备考资料、询问相关调剂信息等等,也不乏一些T作方面的讨论。

(3)对每个簇进行定义,分为“入学类”、“考研类”、“情感类”、“宿舍类”、“社团类”、“电子产品类”,得到分类表如表4所示。

其中,情感类主要信息有“喜欢”、“爱”、“感觉”、“女朋友”等,主要是关于大学生恋爱问题;宿舍类主要信息有“宿舍”、“空调”、“租”、“人间”等,主要是探讨学校宿舍环境、住宿人数等,也有不少讨论在校外租房的情况;社团类主要关注社团管理等问题,该簇类是所有簇中最小的簇,可以看到分组c甚至没有凝聚出该类;电子产品类主要是大学生讨论关于购买电脑、手机等问题,也有关于使用手机卡、学校网络的讨论。对每个类别统计其总帖子数,如表5所示。

从表5可以看出考研类帖数最多,是大学生讨论最为广泛的一个话题,其次是入学类帖子。此外,情感类、宿舍类、电子产品类等帖子数量也在30000上下,也是大学生讨论的主要问题之一,而社团类帖子数量较少,讨论也不多。

通过定义平均回复数评测哪个话题更容易引起学生的强烈反应。

平均回复数=簇类总回复数量/簇类帖子数量

通过计算得到图4。

从图4可知,从单项上看,图4(a)、图4(c)回复数量最大的是考研类信息,图4(b)、图4(d)回复数量最大的是社团类信息,且回复数量第二的也是考研类信息。从帖子基数上看,考研信息一直是贴吧中较为活跃的话题,而社团类信息虽然帖数不多,但一经发布就会有较高人次的讨论。计算每类信息的平均回复数量,得到表6。

从表6分析可以得到,考研类、情感类、社团类信息是最为活跃的几个话题,参与人次位列前三。然后是宿舍类、入学类、电子产品类问题。

最后,将所有贴吧信息全部进行聚类并提取关键信息,得到图5。

由图5可以得到表7。

其中,帖数最高的类别是考研类,总帖数达267482;其次是入学类,总帖数达232 055;情感类、宿舍類、电子产品类帖数也相差数万,而社团类帖数相对较少。所得结果与分组结果相近。

5 结语

本文以百度贴吧中高校贴吧作为数据,对相应的学生舆论内容进行数据挖掘,对文本数据使用jieha分词处理,筛选掉无关词语;使用tensorflow huh模型进行迁移训练,将文本信息转换为数字信息;再利用K-means聚类算法聚类,对得到的聚类结果使用TF-IDF提取每个簇中的关键词,以此挖掘贴吧文本中的焦点问题。

从结果上看,贴吧学生用户主要有3大群体。

(1)高中毕业的准大学生。主要在高校贴吧咨询录取分数线、分数排名以及填报志愿和加入新生群等问题;另外关注学校校舍问题,经常问询诸如校舍几人间、是否有空调、外出租房等问题。根据帖数计算这类群体所提问题出现比例约为36.26%。

(2)考研生。他们更多在白己心仪的学校贴吧寻找咨询通道,也有向学校询问报考信息、面试情况、寻求复习资料等。其中不乏对不同学校专业的讨论,包括是否过线及调剂等问题。根据帖数计算,所占比例约为29.0%。

(3)在校大学生。主要是作为“过来人”给准大学生提供一些咨询渠道,如新生咨询群解答新生在贴吧中提出的各类问题等。此外,有关社团类问题也应是在读大学生所发布,但所占规模仅为0.45%。

因此,高校可在贴吧上设置更为全面详细的本科生、研究生招生信息,以拓宽宣传渠道。对于本科生,可以提供相关年份的录取分数线,包括各个专业的分数线以及相关专业介绍,解答准大学生的各种疑虑,让准大学生找准适合自己的专业,实现人生价值。同时,学校宿舍也是学生关注的重点问题。可以根据校舍情况在贴吧设立专门模块,展示校舍的各种优势,以吸引更多优质生源。对准备考研的学生,可提供学习教材目录,介绍研究生考试群等等,满足考研学生需要。此外,电子产品也是学生关注的问题之一,生产商可通过了解学生需求,把握商机,制造更加吸引学生的电子产品;学校可与相关公司合作,提供宣传机会,增加广告收入。关于学生情感问题,可设立相应的情感辅导老师,在贴吧上进行相应的心理辅导,引导学生积极面对大学生活。

后续主题研究中,可将相似的簇合并并进行重聚类,以得到更多聚类主题。在方法上,可以构建专属于学生舆论的模型进行迁移训练。在数据上要获取更多平台上的学生舆论,以获取更多学生关注的问题。

参考文献:

[1]高强.基于向量空间的文本聚类算法[J].电子世界,2017(20):61-62

[2]文峤.基于文本特征提取方法的文本分类研究[J]电脑知识与技术,2018 .14( 18): 188-189.192.

[3]张雪松,贾彩燕一种基于频繁词集表示的新文本聚类方法[J].计算机研究与发展,2018,55(1):102-112

[4]MIKOLOV T. SUTSKEVER I, CHEN K, et al. Distributed representa-tions of words and phrases and their compositionalitv[J] Advances inNeural Information Processing Systems, 2013, 10(26): 3111-3119.

[5]周顺先,蒋励,林霜巧,等.基于Word2vector的文本特征化表示方法[J].重庆邮电大学学报(自然科学版),2018,30(2):272-279.

[6]贺益侗,基于doc2vec和TF-IDF的相似文本识别[J].电子制作,2018(18):37-39

[7]黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J]计算机学报,2011,34(5):856-864.

[8]高明霞,李经纬.基于word2vec词模型的中文短文本分类方法[J]山东大学学报(工学版),2018,11(2):159-163

[9]汪静,罗浪,王德强.基于Word2vec的中文短文本分类问题研究[J]计算机系统应用,2018,27(5):209-215.

[10]邹艳春.基于DBSCAN算法的文本聚类研究[J]软件导刊,2016,15(8):36-38.

[11]李春青文本聚类算法研究[J].软件导刊,2015,14(1):74-76.

[12]徐维林,朱宗,高丽,等,基于主题模型的网络微博舆情分析[J]. 软件导刊,2016,15(5):153-154.

[13]熊祖涛.基于稀疏特征的中文微博短文本聚类方法研究[J].软件导刊,2014,13(1):133-135.

[14]周海晨.基于爬虫与文本挖掘的“985”高校图书馆微信公众号的调研[D].合肥:安徽大学,2017

[15]刘家成,王艺憬,孙燕红基于TF-IDF算法和K-means聚类的商品评論与价格波动相关性研究——以ThinkPad电脑为例[J].科技创业月刊,2018,31(7):45-49

[16]单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43( S1):319-324

[17]YOSHUA BENGIO, REJEAN DUCHARME, PASCAL VINCENT,et al.A neural prohahilistic language modelEJl. Journal of MachineLearning Research. 2003(3):1137-1155.

[18]nCyc.lopedia of Data Warehousing&Mining Second Edi-tion. 2005(2):197-203.

[19]韩家炜,裴建等.数据挖掘:概念与技术[M]北京:机械工业出版 社.2012.

[20]11 D 0, MEI H H. SHEN Y. et al. ECharts:a declarative frame-work for rapid construction of weh-basedVisualization[J] Visual In-formatics. 2018(6):561-567.

(责任编辑:杜能钢)

作者简介:郑建灵(1995-),男,广州大学计算机科学与网络工程学院学生,研究方向为文本分析;张艳玲(1970-),女,博士,广州大学计算机科学与网络工程学院副教授、硕士生导师,研究方向为人工智能及其应用。本文通讯作者:张艳玲。