基于主题扩展的校园论坛热点话题发现方法与系统

2017-01-11 02:30王学贺
西藏大学学报(自然科学版) 2016年2期
关键词:热点话题帖子模块

王学贺

(菏泽医学专科学校计算机教研室 山东菏泽 274030)

基于主题扩展的校园论坛热点话题发现方法与系统

王学贺

(菏泽医学专科学校计算机教研室 山东菏泽 274030)

文章首先给出了基于话题检测实现论坛热门话题发现的基本方法,再针对论坛文本稀疏性造成的漏报率高的问题,提出了基于主题扩展的话题发现方法,最后设计并实现了一个BBS热点话题发现原型系统。实验结果表明文章提出的方法和系统可以有效地监控校园论坛上出现的热门话题。

话题检测;BBS;主题扩展;单遍聚类算法

引言

随着互联网技术的发展,越来越多的用户通过互联网来发表自己的观点、想法、意见和建议,形成网络舆情。校园论坛(BBS)作为高校文化建设的重要组成部分,既是展现校园特有文化的网络平台,也是师生交流的重要平台。统计发现,越来越多的师生习惯于在校园论坛上发表自己对学校管理的意见和看法。因此,对校园论坛有效监控、及时发现论坛上出现的热点话题对于掌握师生思想动态、维护学校稳定具有非常重要的作用[1]。

校园论坛话题发现研究引起了国内外研究者的广泛关注[2],并提出了一系列有效的方法。JXu等人[3]基于马尔科夫的方法实现了一种在线BBS论坛话题发现方法,有效监测了论坛出现的热门话题。唐国等人[4]在发现BBS热点主题的基础上,实现了一种层次文本聚类方法。TXu等人[5]实现了基于神经网络的预测话题热度的方法,取来了不错的效果。蒋凡等人[6]首先建立了回复链,然后抽取具有影响力的词语,最后通过对这些词语聚类实现BBS论坛中主题的发现。赵艳红等人[7]在给出了用于BBS话题检测的基本模型的基础上,实现了基于功率谱的话题检测方法,并提出了一种基于时间信息进行话题预测的方法[7]。

由于校园论坛中的帖子属于用户产生内容(User Generated Content,UGC),帖子内容长短不一,数据稀疏现象比较严重,导致很多与话题相关的帖子不能及时被检测到,严重影响了话题发现系统的性能。为此,本文在给出了论坛热点话题发现的基本方法基础上,针对论坛帖子内容的数据稀疏现象,提出了基于主题扩展的话题发现方法,并设计实现了一个用于论坛话题发现的原型系统。

1 系统模型与校园论坛话题发现的基本方法

1.1 面向论坛热点话题发现的系统模型

为了能及时发现论坛上出现的热点话题,以便对网络舆情及时加以控制,本文设计了如图1所示的系统模型。本系统首先爬取论坛上的数据,然后进行预处理操作,并将处理后的数据存放在数据库中,最后通过对数据进行分析得出的BBS中的热点话题呈现给用户。

图1 系统架构图

如图1所示,系统共包含三个模块,数据获取及预处理模块(M1)、热点话题发现模块(M2)以及校园热点话题发现原型系统模块(M3),各个模块的主要功能为:

①数据获取及预处理模块(M1):师生发表的帖子是散布在论坛的各个角落,为了实现热点话题的发现,首先需要将这些散布在各个角落的数据汇总在一起。M1模块主要是通过网络爬虫爬取校园论坛上的数据,并对数据进行预处理,将数据存放在数据库中,为后续热点话题的发现奠定数据基础。

②热点话题发现模块(M2):该模块是系统的核心部分,主要是发现热点话题,对话题和帖子表示模型、相似度计算、话题发现算法、热度计算方法等内容展开分析,同时提出了一种基于主题扩展的话题发现算法。

③校园热点话题发现原型系统模块(M3):本文开发了一个原型系统用以展示热点话题发现的结果,方便用户浏览。

1.2 热点话题发现的基本方法

本文用于论坛话题发现的流程如图2所示,从图中可以看出,热点话题发现方法包括话题和帖子模型、话题和帖子相似度计算、热点发现算法和热度计算等多个问题,本节将从以上几个方面介绍本文用于热点话题发现的基本方法。

图2 论坛话题发现流程

1.2.1 帖子和话题表示模型

本文使用向量空间模型表示帖子。假设P是一个经过预处理的论坛帖子,k1,k2,…kn是出现在P中的不同的词,那么P可以表示成:P=(k1,w1;k2,w2;…;kn,wn),wi是ki在P中的权值,TFIDF公式计算得到,其中,tfi是ki在P中的词频,N是系统已经检测过的帖子的数量,ni是检测过的所有帖子中包含关键词ki的帖子的个数。

话题采用中心向量模型表示。假设T是一个话题,P1,P2,…Pm是属于这个话题的帖子,则T的建模过程如下:根据文档频次DF从m个帖子中选择代表这个话题的特征项,假设抽取的特征项为δ1,δ2,…,δb,然后根据公式(1)计算每个特征项在每个帖子中的权值,最后通过“简单平均”的方式计算特征项最终的权值。

1.2.2 话题和帖子相似度计算方法

在本文实现的校园论坛话题发现系统中,采用余弦函数计算话题和帖子之间的相似度。假设P=(wp1,wp2,…,wpb)、T=(wt1,wt2,…,wtb)分别表示帖子P和话题T的向量,那么P和T基于余弦函数的相似度如下所示:

其中,b是话题向量空间模型的维度,而wpi和wti分别表示特征项在帖子和话题模型中对应的权值。

1.2.3 基于单遍聚类算法的话题发现方法

本文基于单遍聚类算法实现话题发现,假设待检测的帖子集合为{ } P1,P2,P3,…Pa,单遍聚类算法的过程如下:

2 基于主题扩展的论坛热点话题发现方法

网络论坛中的帖子长度不一,属于一种异构文本。对于某些比较短的帖子,其中含有的内容非常少,简单依据这种帖子的内容进行相似度计算,会导致很多帖子不能被检测到,使得系统的漏报率很高。通过浏览论坛帖子我们发现,当一个用户发表了一个帖子之后,其他用户会对这个帖子进行回复,而回复的内容是围绕帖子展开的。为此,本文提出了基于主题扩展的话题发现方法,其基本思想如下:

①假设R1,R2,…Rc是对帖子P的回复,那么我们将执行P→{ } P+R1+R2-…+Rc操作,其中→代表内容扩充,+表示将内容进行拼接,拼接后的内容记为P1。

②将P1表示为向量空间模型,其中特征项是P1中出现的不同词,而权值采用公式(1)计算。

③采用单遍聚类算法实现话题发现,具体过程见1.2节。

3 热点话题发现原型系统设计与实现

为了验证本文话题发现方法的有效性,我们设计并实现了一个热点话题发现原型系统。该系统选取海天一色论坛(http://www.htys.cc/)作为话题监测的平台。整个系统分为4个模块(见图3)。

图3 论坛话题发现原型系统框架

①论坛数据获取模块:通过网络爬虫获取“海天一色”校园话题板块中的帖子,并抽取帖子元数据,包括帖子发表时间、发表者、内容、回复信息等,并且封装成合适的格式以便进行存储和其他处理。

②论坛数据存取模块:将封装好的校园话题数据存储到相应的数据库中。实现过程中我们采用了比较精简的SQLite3数据库,共建立了5个表用来存放相应的数据。

③论坛数据发现模块:该模块主要是后台运行,从已经获取的数据中依据话题检测方法实现论坛话题发现。

④前台显示界面:该模块主要实现对已经发现话题的可视化,方便用户查看。

4 算法实验验证与系统运行结果

4.1 语料及评测标准

为了验证本文提出方法的有效性,从论坛上收集了6850条帖子,并对帖子所描述的话题进行了人工标记,共标记13个话题。实验中,随机抽取了4800个帖子及其话题标注作为训练语料,其余作为测试语料。

实验采用漏报率、误报率和归一化检测开销作为评价标准。如果用表1数据表示微博话题检测中第i个话题的检测结果,那么第i个话题的漏报率Miss(i)和误报率Fallout(i)将分别用公式(3)和公式(4)定义:

表1 参数定义

系统的平均漏报率Pmiss和平均误报率Pfallout及归一化检测开销(CDet)Norm可以分别由公式(5)、(6)、(7)定义:

其中,CMiss表示话题发现系统漏报一个帖子的开销,Cfallout表示话题发现系统误报一个帖子的开销,Pnon-target=1-Ptarget。在话题检测与跟踪研究中,CMiss、Cfallout及Ptarget通常取值1.0,0.1,0.02。显然,归一化检测开销越小表示话题检测系统的性能越好。

4.2 实验与结果分析

为了验证本文实现的话题发现方法的有效性,我们设计了以下两组实验:

①在训练语料中训练了原型系统,在θ取不同值时进行了训练,结果如表2所示。

表2 训练结果

通过分析表2所示结果,可以看出当θ取0.20时系统的效果最好,所以后续所有的实验都是在θ=0.20设定下进行。

②为了验证提出的基于主题扩展的话题发现方法的有效性,在测试语料中对比了话题发现基本方法与基于主题扩展话题发现方法的性能,结果如表3所示。

表3 测试结果

图4给出了以上两种方法在13个话题上的性能表现。

通过分析表3的测试结果和图4的对比图,可以发现基于主题扩展的话题发现方法可以较好地降低归一化检测开销,证明主题扩展的方法可以有效解决论坛数据的稀疏性问题,进而改善话题发现系统的整体性能。

4.3 热点话题发现原型系统运行结果

为了进一步证明本文提出方法的有效性,我们设计并开发了原型系统,系统首先进行数据抓取,然后以XML或者SQLite格式文件进行存储,接着在后台进行话题发现,最后将结果呈现给用户。图5给出了系统发现的热点话题。

图4 系统结果对比图

图5 热点话题发现结果展示

5 结论

本文主要面向校园论坛的热点话题方法,在给出了用于话题发现的基本方法的基础上,提出了用以解决论坛文本数据稀疏性的基于主题扩展的论坛话题发现方法,最后设计并实现了一个原型系统。实验结果表明,本文提出的方法和系统能有效监控BBS上出现的热点话题。后续将进一步面向异构论坛异构文本的帖子和话题表示模型进行深入研究,并对话题发现的速度进一步进行提升,更好地改善话题发现系统的性能。

[1]曹丽娜,唐锡晋.基于主题模型的BBS话题演化趋势分析[J].管理科学学报,2014,17(11):109-121.

[2]刘骅,朱庆华.基于标题的BBS热点话题挖掘—以南京大学小百合BBS为例[J].现代情报,2013,33(1):162-165.

[3]JXu,H Li,Y Zhao,BHe.Online High-Quality Topic Detection for Bulletin Board Systems[J].Ieice Transactions on Information &Systems,2014,97(2):255-265.

[4]唐果,陈宏刚.基于BBS热点主题发现的文本聚类方法[J].计算机工程.2010,36(7):79-81.

[5]T Xu,M Xu,H Ding.BBSTopic's Hotness Forecast Based on Back-Propagation Neural Network[J].International Conference on Web Information Systems&Mining,2010(1):57-61.

[6]蒋凡,高俊波,张敏,王煦法.BBS中主题发现原型系统的设计与实现[J].计算机工程与应用,2005,31:151-153.

[7]赵艳红,聂哲.基于内容分析的中文BBS话题检测系统的设计与实现[J].计算机应用与软件,2011,28(6):242-246.

Hot topic detectingmethod and system ofCampus BBSbased on themeexpansion

Wang Xue-he

(Division ofComputer Science,HezeMedicalCollege,Heze 274030,Shandong)

The basicmethod ofbulletin board hot topic findingwasgiven based on the realization of topic detection and a topic findingmethod was proposed based on topic extension in connection with the high rate of false negatives caused by the sparsity of bulletin board text.Finally a primitive type system of BBS hot topic finding was designed and realized.The experimental results showed that themethod and the system proposed can effectivelymonitor thehot topicsappeared in BBS.

topic detection;BBS;topic expansion;single-pass clustering

10.16249/j.cnki.54-1034/c.2016.02.018

TP391.1

A

1005-5738(2016)02-110-007

[责任编辑:张建伟]

2016-07-13

王学贺,男,汉族,山东郓城人,菏泽医学专科学校计算机教研室副教授,主要研究方向为计算机软件与理论。

猜你喜欢
热点话题帖子模块
28通道收发处理模块设计
“选修3—3”模块的复习备考
2017年高考作文热点话题预测
暴力老妈
基于SVM的热点话题跟踪实现过程研究
热点话题排行榜
集成水空中冷器的进气模块
高手是这样拍马屁的
我是怎样在坛子里堕落的