高职院校学生网络舆情分析系统的研究*

2011-02-02 00:57娄建玮
潍坊学院学报 2011年2期
关键词:舆情聚类分类

娄建玮

(潍坊职业学院,山东 潍坊 261031)

0 引言

随着社会自由度的逐渐开放和大众传媒的进一步普及,舆情(public opinion sentiment)在当前社会的政治和生活中发挥着越来越重要的作用。合理正确的舆情引导,成为秩序建设的特殊形式,也是构建和谐社会的重要组成部分。与此同时,随着高职院校的院校网络迅速建设,“网络化生存”正逐渐成为学生在校生活的重要方式,使得高职院校的校园舆情也出现了与网络相结合的新特征。校园舆情同公众舆情一样,是大学生作为舆情主体基于自身的某种利益,对校园现实或社会现实的反映和对自身意愿的表达[1]。同时校园论坛已经成为学生发表舆情的重要平台。

因此,基于校园论坛建立一个有效的舆情热点推荐系统,通过信息化技术了解学生当前的思想状态,帮助学生管理人员快速寻找到当前学生的舆情热点,并对学生进行恰当的引导,对学生管理工作不无裨益。本研究以校园网络服务器中的论坛数据库话题记录表为基础,提出一种基于Web数据挖掘的关键词权重评分协同过滤聚类算法为主线,来达到汇集舆情热点的目的。

1 论坛舆情挖掘中的数据过滤

面对网络上的海量数据,首先使用数据过滤来解决网络舆情数据信息量大、数据噪声多等问题。以学校服务器上的论坛数据库为基础,从tb_User表、tb_Topic表、tb_Revert表等数据表中使用联合查询获得相应数据。对学生用户发表的话题,进行前置转换与处理,将发表话题ID、发表用户登陆名、发表时间、话题内容长度、浏览次数和回复次数等四项数据作为分析的基础,本文以表1为例进行分析。

表1 前置处理后的数据表

根据从服务器数据库中所撷取出的学生所发表帖子数据内容特性,可根据定义数据取用的限制条件,过滤出有效的数据。而在本研究中,定义了三项限制条件。

1.1 时间限制

本研究立足于对当前学生舆情的分析与引导,一般而言,学生关心的舆情热点存在季节性的差别,因此本研究首先针对前置处理后的数据,撷取出2009年的记录,如表2所示。表2为表1的延续,其中的数据仅保留发表于2009年的话题记录,其余记录皆忽略不计。

表2 时间限制

1.2 内容长度限制

学生用户以设定的账号与密码登入论坛发表话题,鉴于每个学生用户具有不同的发表目的,具有明确发表意向的用户往往会有较多文字内容的描述。为了使分析结果具有较高的参考性,排除部分学生用户较少字数话题的干扰项,本研究定义了一个最低内容字数的门坎值,以过滤出为获得用户积分而发表的字数较少无实际内容的话题,如表3所示。表3为表2例子的延续,其中话题字数小于5个字的,其浏览记录将忽略不计。

1.3 兴趣度限制

当在论坛上学生对一个话题的浏览次数(点击率)和回复次数很高时,我们可以称学生对该话题具有较高的兴趣度。所以本研究定义了一个最低点击率门坎值,以过滤出点击率和回复次数之和低于门坎值的用户话题,如表4所示。表4为表3的延续,其中学生在论坛上发表的某个话题如果没有引起足够的兴趣度即浏览次数和回复数之和低于12次的,将被忽略。

表3 内容长度限制

表4 兴趣度限制

根据本研究所定义的三项限制条件,上述例子最后得到表4的话题浏览记录,大幅降低了待处理的数据量。

如何有效地描述互联网舆情指数,如何精确地判定某个网络突发事件发生,如何准确地将网络突发事件类别化等等,所有这些问题都源自互联网舆情关键词的挖掘技术。因此,在下个步骤中,要从被选数据集中获得相应的舆情关键词集分类。

2 舆情关键词集的分类

2.1 舆情关键词挖掘方法概述

首先,互联网可用的信息源非常丰富,为了避免所研究的问题过于庞杂,我们将网络舆情的信息源限定到校园网络服务器的BBS论坛上。BBS最主要的信息传递方式是话题的文本信息,为网络舆情的发生和变化提供了平台,因此可以也应当考虑用代表文本信息的特征词,即舆情关键词对网络舆情进行必要的描述。从话题的文本信息中挖掘舆情关键词并对其进行必要的分类。

2.2 舆情关键词集的选取

本文依据校园网络的BBS论坛等文本内容均是网络舆情的直接反映,可以作为语料集的待选信息源。内容页面是用户感兴趣信息的主要载体,一个内容页面中包含了图像、动画、音频、超链接等丰富的信息表达方式,但最主要的信息传递方式还是正文的文字信息。为了简单起见,本文只处理正文信息,为此我们将原始语料集中网页结构信息,以及图像、动画、音频、超链接等信息统一屏蔽,仅仅保留原始语料集的正文信息。

与英文不同,中文词汇不像英语中的单词那样是自然分割的,有的时候是词和词之间紧密连接成为短语。句子中的词汇需要人为地通过语境来切分,短语所表达的意思会因不同的切分方式而与单个的词语意不同。在短文本串聚类方面,黄永光等人针对近些年来大量出现的聊天语言和手机短信中的短文本,提出了一种面向变异短文本的快速高效的聚类算法,该算法采取特征串抽取方法,并融合了压缩编码的思想,从而加快了处理速度,该方法较适合手机短信等不规范的短文本进行聚类[2]。另外,朱烨行等人为方便BBS浏览提取一种新的文本聚类方法,即以分等级的菜单方式组织帖子,该方法类似于找出最长公共特征串,利用频繁出现的串先聚成小类,再对小类进行合并,进而得到粒度适当的类[3]。在研究BBS、Blog等短文本聚类时,这些技术可以有效的得到正确的关键词和关键词短语。

文献[4]中给出了如何建立备选网络舆情关键词语料集,基于统计的中文高频词提取,舆情关键词的评价标准、提取算法以及舆情关键词的分类,即网络舆情关键词挖掘的四个步骤,并在关键词的分类技术上,给出了一种改进了的k-均值(k-means)聚类分析算法。

经过试验,我们按照已选定网络舆情的备选关键词原始语料集的分类目录分别运行进行改进了的k -均值聚类分析程序,剔除重复的关键词,得到代表网络舆情的关键词。

2.3 舆情关键词集的分类

得到了关键词集以后,为了确定各个关键词分类,选用德尔菲法,根据潍坊职业学院信息工程系中具有多年学生管理工作经验的各位辅导员的意见获得大体的关键词分类,然后统计关键词评估因素分类表如表5所示。

表5 关键词分类表

主要分成了六大类评估因素,在每一个大的评估因素里面,为了方便关键词分类,又细分了各个方面的分支,例如,如果关键词属于对人评价类评估因素中的教师评教类,则它的分类编号为D。得到了关键词的分类表就可以运用关键词项目评分来汇总舆情热点。

3 基于关键词评分的协同过滤算法

基于词汇权重评分的协同过滤算法的基本思想就是对舆情关键词权重评分相似的最近邻居(如果两个话题文本的舆论方向大体一致,我们就称其中一个话题文本为另一个目标话题文本的最近邻居)的聚类算法。该相似度聚类方法基于这样一个前提:在单一文本中关键词的出现频数可以作为用于描述文本的特征向量,如果最近邻居对相同类别的舆情关键词的权重评分与目标话题非常相似,则这两个话题文本属于同一种舆情方向。

在基于校园网络的大型论坛(BBS)系统中,一个比较明显的问题在于:当学生用户数目和发表的话题数目增加很快,关键词的评分数据却和大幅增加的学生发表的话题成反比。在关键词分布极端稀疏的情况下,根据文献[5]中提出的基于项目评分聚类的协同过滤推荐算法(K-means聚类算法)可以有效的根据关键词的相似性度量对舆情的方向进行聚合。

4 舆情热点的推荐

在数据过滤之后,根据关键字库的分类,分析话题关键词的偏好。通过使用关键词表遍历数据库,在话题中出现的关键词标记为(关键词类别号,关键词编号),例如(A,14)代表该关键词为A类第14号关键词。在表4的基础上得到表6。按照话题所包含的某类别的关键词出现次数为评分标准,在表6的基础上得到表7。

表6 话题关键词集合

表7 关键词评分矩阵

由于表7为表1一路衍生而来,所以表7中包含的所有话题,均符合文中所定义的时间限制、内容长度限制、兴趣度限制。

在整理出目标关键词表和关键词评分矩阵之后,可以把关键词集合评分大体相同的话题聚合在一起,根据协同过滤推荐算法,分别计算话题的相似度。Topic08和 Topic10的相似度近似为1,Topic23和 Topic71的相似度为1,因此 Topic10和 Topic71可以作为舆情方向相似项分别与 Topic08、Topic23进行聚合。这样可以有效减少分析的数据量并且不影响数据挖掘的结果,为进一步缩减的结果,通过以上的方法,可以得到与合并相近性后的话题集合。接着根据兴趣度即点击率和回复率之和降序摆列,将推荐后兴趣度高的话题排放在前面,整理如表8。

表8 关键词评分聚类后的话题集合

在每次聚类时,把相同舆情方向中被合并的话题数目进行记录,根据表8操作所得的结果,将得到的舆情热点整理如表9所示。

表9 络舆情热点

5 实验结果与分析

首先从校园服务器上的论坛SQL数据库中取出论坛的话题及回复话题的记录,共计52750条记录,接着根据所定义的限定性条件:

(1)时间限制:2009年11月份、12月份的记录

(2)内容长度限制:发表的话题字数在10个字以上的。

(3)兴趣度限制:浏览和回复次数在12次以上的。

过滤后,留下1386条记录,再使用关键词评分,进行相似度计算,合并相似度近的舆情热点。(见表10)

表10 网络舆情热点分析

根据汇总出2009年11月份、12月份的学生网络舆情主要方向有:

(1)部分学生对学校的硬件设备满意度不高,认为很多学生活动的实施过程形式化,没有预期的效果。

(2)部分学生对技能大赛还存在疑惑,不知道自己适合哪个方向,哪个方向能出成绩。选方向的时候基本是根据对指导老师的认可度进行选择。

(3)部分学生对2009年11月份的学校奖学金评定过程感觉不公平,奖罚不分明,不少同学对奖学金的评选特别是市级以上奖学金的评选失去信心。

得到了大体的舆情方向后,班主任、辅导员就可以采取班会、座谈会等形式,对学生进行积极的开导和引导。

[1]陈文举,夏泉.试论高校舆论引导与和谐校园建设[J].济南大学学报,2006,16(6):88-95.

[2]黄永光,刘挺.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68.

[3]朱烨行,戴冠中.一种文本聚类方法及BBS浏览机制研究[J].微电子学与计算机,2006,23(8):55-60.

[4]赵旭东.互联网舆情指数挖掘方法研究[D].哈尔滨:哈尔滨工业大学,2007.

[5]邓爱林,左子叶,朱扬勇.基于项目聚类的协同过滤推荐算法[J].小型微型计算机系统,2004,24(9):67-68.

猜你喜欢
舆情聚类分类
分类算一算
基于K-means聚类的车-地无线通信场强研究
分类讨论求坐标
数据分析中的分类讨论
教你一招:数的分类
基于高斯混合聚类的阵列干涉SAR三维成像
舆情
舆情
舆情
一种层次初始的聚类个数自适应的聚类方法研究