王丽英
(南京师范大学教育技术系,江苏南京210097)
高校BBS教育舆情的时空特征模型构建和热点发现
——基于南京大学小百合BBS数据集的分析
王丽英
(南京师范大学教育技术系,江苏南京210097)
自媒体时代网络舆情的治理与引导在时、效、度3个维度都面临着巨大的挑战。针对高校BBS教育舆情,运用网络测量学技术对自动采集到的南京大学小百合BBS相关数据集加以分析,构建了教育舆情的时空特征模型。该模型显示,测量舆情的空间特征和多个时间特征能够有效快速发现热点信息。实验证明,高校BBS教育舆情总体分布比较稀疏,单日活跃用户数并不高,并且热点信息相对较少、利用显著的时空特征易于检测。
教育舆情;网络测量学;时空特征模型;热点发现
自媒体时代网络舆情的治理与引导在时、效、度3个维度都面临着巨大的挑战。自媒体的特点是以用户生成内容和共享为主,但内容可信度低,影响力无法确定。由于网络空间的开放性,我们无法事先预知自媒体上舆情传播演变的时空特征,也就无法确定监控的重点和引导时机,所以在线实时监测成为一个难题。
自媒体中的论坛采用了主回帖关联的组织方式,没有用户关联功能,而且内容采用目录方式呈现,结构相对简单,所以基于论坛的在线实时监测相对容易实现。由于论坛的开发技术相异,如开源的Discuz、BBSXp等,工业界的软件难以通用。加之针对高校BBS的实时监测和预警软件相对较少,所以亟需开发针对性的软件为校园管理提供辅助支撑。
2011年舆情行业被称为朝阳行业。围绕网络媒体的话题检测与跟踪、热点话题发现、意见领袖挖掘等舆情问题得到了充分研究。相关的网络测量学、自然语言处理、文本特征表示、机器学习、社会网络分析等理论和算法为内容自动监控提供了重要支持。
网络测量学是利用网络爬虫采集数据,对整体网络开展舆情定量统计、整体监测和趋势分析。樊鹏翼等人[1]对新浪微博进行了网络测量,得到小世界拓扑特征和用户发博时间的周分布模式。徐恪等人[2]全面综述网络测量学的相关技术,阐述了大数据分析在线社交网络的舆情演化、拓扑结构和用户行为的可行性和典型方法。上述研究拓展了舆情治理和引导的时、效、度的研究视野,不再停留于历史抽样的文本数据分析和概念层面。
很多学者从传播学角度研究网络舆情的传播过程和规律,发现热点。以高校BBS热点发现的相关研究为例,兰凯梅[3]以主帖的回帖数、用户数和人气数的加权之和作为主题帖的热度;罗泰晔[4]根据发帖量定义活跃用户,利用用户回复关系计算点出入度,由此区分活跃用户的4种类型;乔文妤等人[5]统计发帖数、回帖数和回复率,发现信息的数量规模和活跃话题存在长尾效应,能够确定出信息传播的关键节点。王君泽等人[6]指出王青从舆情热度、强度、倾度和生长度4个指标来评价舆情,但已有网络舆情指标体系还不完善,直接影响舆情研判和预警。
热点信息挖掘常见的做法是:通过文本分析提取语义特征、特征表示之后,聚类归纳出主题。其中,语义特征是基于“词是文本的最小语义单位”来提取的。目前,国内学者广泛应用的自然语言处理二次开发接口有NLPIR/ICTCLAS汉语分词、Lucene分词引擎等,效果都很好。语义特征表示模型主要有向量空间模型VSM、隐含主题概率模型LDA。VSM以词频统计值如TF、TF-IDF或布尔型值作为词语权重表示文本。VSM表示容易实现,应用广泛。例如,刘骅等人[7]采用布尔型值作为词语权重表示文本,通过凝聚式层次聚类法分析BBS“每日十大热门话题”标题共同的热点;兰凯梅采用网络爬虫收集论坛文本,用TF-IDF值作为词语权重表示文本,应用多中心增量聚类来发现主题帖热点。VSM存在的问题是,会丢失词语之间的语义关联信息,导致文本聚类结果不够准确。与之相比,LDA在文本和词之间增加了主题层,以主题分布概率作为主题权重表示文本,所以效果优于VSM。比如黄炜[8]就是采用LDA聚类算法感知舆情事件的热点。上述研究都局限于对历史数据进行线下的主回帖关联分析,无法及时反映网络舆情的实时变化。
国内外很多公司、科研单位和媒体本身开展舆情研究,积极应对信息安全和市场营销的需要,形成了相应的舆情监控软件。例如,国外的Buzzlogic、Radian6、TNS Cymdony、Trackur、Reputation Defender等,用于公司、产品、品牌在网页上的影响力监测。在国内,中科点击的军犬、优捷信达的Rank、红麦聚信的红麦等软件,用于政府、企业等单位舆情重点监控;融尚Winshield、互普威盾、欧克深信服、天锐网络警、网络幽狗、网猫等软件,主要针对上网行为、聊天内容、邮件等进行监控。已有的监控工具或软件是通用的,没有专门的面向教育领域的设计,缺乏针对性。
基于专用软件的缺乏及网络舆情指标体系不完善的现状,本研究试图运用网络测量学技术解析高校BBS教育舆情传播的时空特征,为热点发现、实时监控提供支持。
本研究的基本思路是:首先,对南京大学小百合BBS的教育主题相关的主题帖进行自动采集;然后对采集得到的教育舆情数据集进行统计测量,建立时空特征模型;再依据该模型测量新数据,以发现舆情热点和演变趋势。
整个研究框架包括信息采集、特征模型、特征测量和热点追踪4个步骤,如图1所示。
图1 在线舆情监测研究框架
本研究的技术路线是:首先,基于网络爬虫构建教育舆情采集算法,获得论坛空间2013年11月2日至2014年5月10日之间的教育主题帖数据集;然后,运用网络测量学技术分析教育舆情,构建一个时空特征模型;最后,运用时空特征指标进行舆情测量,发现热点和引导时机。
本研究以兰凯梅的网络爬虫算法为基础,根据南京大学的小百合BBS的信息组织结构对该算法进行了相应的调整,形成本研究的教育舆情采集算法。通过页面爬行、页面解析、文本结构化等步骤得到教育舆情数据集。
3.1 采集算法流程
本研究的采集算法流程如图2所示。其中,初始URL设为各个讨论区的汇总页面,即“全部讨论区”页面URL。经过顺序爬行得到各个讨论区首页URL,然后并行爬行讨论区首页URL及其主题帖页面URL。
图2 教育相关的主题网络爬虫的工作流程
每个讨论区首页采用主题模式和一般模式两种呈现方式。主题模式以主题帖为单位显示,主题帖包含主帖及其回帖等全部内容。一般模式以用户帖子为单位显示,主帖及其回帖分离,需要通过帖子页面中“同主题阅读”才能相互关联。因此本研究采用主题模式直接找到关联的主回帖内容。
页面分析包括内容和链接的解析和评价:解析是利用CHttpFile API接口读取页面文件,然后定位HTML标签,提取出主题帖信息,包括标题、作者、正文、发表时间、人气数、回帖数等,存储到结构化的主题帖数据库中;评价包括时间相关、主题相关和重复数据过滤。主题相关通过标题和正文中预设主题词的词频统计进行过滤,词频越大,相关度越大,页面越重要。本研究选取教育相关的一些主题词,如学术、讲座、考试、奖学金等,从而聚焦到关于师生权益、校园声誉等方面的教育舆情监控。
3.2 并行采集策略
由于论坛帖子数量庞大,而顺序爬行耗时长、时效差,所以采用并行爬行加速。如果URL队列中的元素不存在爬行的顺序依赖关系,可以认为URL具有独立性,可以并行爬行和解析。论坛上能并行爬行的URL有两类:一类是各个讨论区首页的URL;另一类是各个主题帖页面的URL。据此设计了两类线程,实现同进程下的多线程并行算法。
第一类线程负责爬行和解析一个讨论区首页的URL页面,提取若干主题帖页面的URL和“上一页”的URL。因为“上一页”的URL不符合独立性,只能按顺序逐页爬行。如果页面上不存在“上一页”URL,则该讨论区的爬行结束。讨论区逐页顺序爬行的流程图如图3所示。主题帖的标题是主题相关的,就把该主题帖页面的URL加入到待爬行的URL队列中。
第二类线程负责解析一个主题帖页面,解析过程采用离线方式。离线方式是下载主题帖页面到本地,留待以后解析。离线方式能够减少页面采样时差,因为主题帖的爬行时刻大致相同,也就是采样时刻近似相等。所有主题帖下载到本地的页面集合构成页面库,相当于某个时刻对论坛的一次快照。与离线方式相比,在线方式边爬行边解析,耗时较长,使得主题帖页面的采样时刻先后相差很大,在此期间会有新帖发布的可能,因此在线方式不能收集到同一个采样时刻论坛的真实数据。
图3 讨论区主题帖逐页顺序爬行流程图
多线程数量受限于同一个网站的HTTP请求的次数,所以不能过于频繁。经过实验,将多线程数量设置为8个。
南京大学小百合BBS上共有讨论区459个、用户数60 883个。应用上述算法,采集了2013年11月2日之后190天的教育主题帖,总计帖子数22 054个、主帖数5 172个、转载帖1 781个,涉及约48%的讨论区(223个)、11%的用户(6 944个)。
采用网络测量学技术分析该数据集上的教育舆情,形成教育舆情的时空特征模型。
4.1 舆情空间特征
教育舆情的发帖量在各个讨论区中的分布并不均匀,常常集中在几个讨论区中。数据集的讨论区发帖量统计如图4所示。
图4 讨论区发帖量统计图
图4 (a)显示出大部分(大于300个)讨论区的发帖量接近于零,图4(b)显示98%的发帖量位于6.6%的讨论区中。利用教育舆情在讨论区空间的分布特征可以预测舆情出现的可能性概率。讨论区的教育舆情相关度的计算公式为:B=(c1N+c2P)/t,表示时间t内新增帖子数N和人气数P。考虑到回帖数对舆情的贡献权重比人气数的要大得多,本研究取c1=1,c2=0.05。
讨论区首页的URL的重要性按照讨论区的舆情相关度B进行评价,相关度大的讨论区在监控时窗内排序靠前,就会优先采集和监控,尽早获得相关数据,而不是在其他讨论区上费时费力却一无所获。需要说明的是,本研究关注教育话题,与论坛本身的前一日十大热门讨论区、各区十大热门话题及全站的十大热门话题不同。
4.2 舆情时间特征
舆情测量的时间特征如表1所示。
表1 舆情测量的时间特征
4.2.1 生存期、贡献度和活跃度分析
主题帖的生存期T以小时为单位,分段统计结果如图5所示。T=0的主题帖占77.8%,表明主帖是没有回帖的;T∈[0,24]的主题帖占91.2%。这表明,不同主题帖的生存期有很大差异,大部分持续时间短,只有小部分的主题帖具有吸引力,持续时间长。
图5 主题帖生存期(小时)分段统计饼图
统计主题帖的贡献度和生存期的关系。可以发现以下几点:
(1)生存期长但用户少、回帖少、人气少,代表无人问津,贡献度小。例如,生存期最长的主题帖,标题为:“苏州索法招聘留学写作人员(全职)”,生存期T=108天,但R=5,U=1,P=297。
(2)生存期长、活跃度低的主题帖,其舆情贡献度小。例如,生存期前10名的主题帖中,9个主题帖的参与用户数U<5。活跃度低的主题帖还表现为日贡献度持续较小。例如,参与用户数最多但活跃度低的主题帖,其标题为:“招聘,工作地点:常州”,其时间特征指标T=68、R=20、U=13、P=1367,日贡献量为(0,1]:4/4、(1,2]:5/6、(2,6]:1/2或0/2或1/1或0/1、(67,68]:1/1。其中,(0,1]:4/4表示第1天新增用户数为4,新增回帖数为4。
(3)生存期居中、活跃度A比较高的主题帖,才能进入活跃集S,成为监测重点。例如,数据集中参与用户数U>7的主题帖共计406个,占比7.8%,回帖数7 332个,其生存期T平均值为3天,取值范围是1小时到31天,其中7天之内的主题帖占92.7%。
统计表明,联合多个时间特征指标可以快速发现舆情热点。
4.2.2 回帖时间间隔分析
跟踪活跃集S中主题帖的回帖发布的时间间隔,绘制了活跃度降序排名在第1和100位的主题帖回帖时间间隔变化图,如图6所示。图6说明,活跃度低的主题帖的回帖时间间隔大,其线性(红色)趋势线的斜率更大。
假设,主题帖的回帖时间函数y=f(x),其中x代表回帖的楼号,y代表时刻,f(0)表示主帖的发布时刻。时间函数的一阶差分f′(x)表示相邻两个回帖之间的时间间隔。时间函数的二阶差分f″(x)表示时间间隔差分,即时间间隔变化量,变化量递增说明活跃度下降,反之活跃度上升。利用时间间隔变化量与主题贴的活跃度是负相关的关系,对引导时机的时间窗口进行预测。当时间间隔变化量小于阈值时进入时间窗,当时间间隔变化量大于阈值时离开时间窗。
最后,按照发布时间分24小时统计发帖数,如图7所示。发现,教育舆情活跃的时间段在早上9点到夜间24点,这是监测的重点时域。
采用vc和sql server实现了针对南大小百合BBS教育舆情的采集算法和B/S模式的论坛热点跟踪系统。
图6 回帖时间间隔变化图
图7 发帖数的分时统计图
每次采集之后,测量本次采集到的数据集时空特征指标。指标排序靠前、达到阈值要求的确定为热点信息。并且热点信息的采集时间间隔将被调小,普通信息的采集时间间隔将被调大。作为监控重点,热点信息主要包括热门讨论区、热门话题和活跃用户。
5.1 热门讨论区
统计讨论区的主帖数、回帖数和回复率指标,降序排名,前十名统计如果如表2所示。从主帖数排名发现,“就业”“创业与求职”“兼职工作信息”“实习”等4个板块的信息相对较多,说明这些版块是校园信息发布的重要渠道,信息更新传播快,对BBS的贡献度最大。从回帖数排名发现,“贴图版”“创业与求职”“飞越重洋”3个版块的回应信息多,说明这些版块为学生提供了交流思想的空间。“飞越重洋”具有较高的回复率,说明南大学生对出国留学有非常高的意愿,渴望交流,学校应给予相关指导。在主、回帖数排名前10的讨论区中,贴图版是回复率最高的版块,说明媒体素材的丰富可以促进用户的深度交流,是在校学生交流的主要阵地,应该成为监控的重点。从小百合自身在线人气排序得出的热门讨论区(TOP20)看,尽管“百年好合”“女生天地”等版块排名靠前,但在主、回帖数和回复率的指标上排名并不靠前,因此可以推断这两个版块以围观人数居多,不必过多监控。
表2 热门讨论区排名表
5.2 热门话题
统计主题帖的回帖数R、参与用户数U、人气数P、转载数,降序排名。排名靠前的热门话题是近期师生共同关心的学习生活事件,包括了用户的个人见解和思想交锋。以2014/5/1和2014/5/7单日发布的帖子为例,排名居首的主题帖如表3所示。从回帖情况看,BBS上没有进行任何干预。
例如2014/5/1的排名首位的热门主题帖,其回帖情况如表4所示,将“外甥现象”归因于“慈母多败儿”有失偏颇。监测回帖时间间隔,设时间间隔阈值为10分钟。当时间间隔小于阈值时,该主题帖进入监控时间窗。因此,从21楼开始进入监控时间窗,成为预测的引导时机。
表3 单日热门主题帖表
表4 主题帖的回帖时间表
5.3 活跃用户
统计用户发布的主帖数M、回帖数Ru、获回帖数R(指用户发布的主帖的回帖数),降序排名,数值大于阈值的成为活跃用户。结合用户回复率(Ru/M)以及获得回复率(R/M),将活跃用户细分为发帖型、回应型和领袖型。发帖型是用户回复率极低,回应型是用户回复率极高,领袖型是获得回复率极高。表5罗列给出了2014年3月前4位活跃用户的发帖情况。
表5 活跃用户表
高校网络空间中,BBS是教育舆情反映比较集中的平台。高校BBS教育舆情总体分布比较稀疏,主要反映在热门讨论区中。单日活跃用户数(DAU)并不高,南大BBS的DAU平均只有36.5人/天。活跃度高的主题帖比例很小,该比例在南大BBS上不到7.8%。这说明,只有少部分主题帖时空特征显著,易于检测。
本研究根据一所高校BBS教育舆情数据集分析得到时空特征模型,能够有效发现热点,预测引导时机。如果要推广到其他主题的BBS舆情时空特征测量、分析,只要修改采集算法中的页面分析模块就可以实现,修改难度低,工作量比较小。因此,本研究具有一般意义及普适性价值。
尽管本研究具有在线实时监控舆情的优势,但因为只关注舆情传播的时空特征,没有考虑内容语义分析,使得结果不够全面。进一步的工作可以结合文本内容分析的方法,挖掘重大事件,分析敏感异常舆情。
[1]樊鹏翼,王晖.微博网络测量研究[J].计算机研究与发展,2012,49(4):691-699.
[2]徐恪,张赛,陈昊,等.在线社会网络的测量与分析[J].计算机学报,2014,37(1):165-188.
[3]兰凯梅.BBS热点话题发现与监控系统[D].北京:北京交通大学,2011.
[4]罗泰晔.高校BBS活跃用户信息行为分析[J].现代情报,2011,31(1):150-152.
[5]乔文妤,高冕.高校BBS讨论区内信息有序化研究与管理启示——以南京大学小百合网站为例[J].图书情报工作,2013,57(5):116-120.
[6]王君泽,方醒,杜洪涛.网络舆情分析系统中的支撑技术研究[J].现代情报,2015,35(8):51-56.
[7]刘骅,朱庆华.基于标题的BBS热点话题挖掘——以南京大学小百合BBS为例[J].现代情报,2013,33(1):162-164.
[8]黄炜,姚嘉威.网络舆情事件的主动感知实践[J].现代情报,2015,35(10):7-11.
(本文责任编辑:郭沫含)
Construction of Spatial-Time Feature Model for Educational Public Opinion on University BBS and Hot Opinion Detection—Analysis of Nanjing University Lily BBS Dataset
Wang Liying
(Department of Educational Techenology,Nanjing Normal University,Nanjing 210097,China)
The governance and guidance of public opinion on Internet self-media are facing with big challenge in three dimentions of time effect and degree.For educational public opinion on university BBS,the network measurement technology is applied to analyze the related dataset,which is gathered automaticly from Nanjing University Lily BBS for a half year.A spatial-time feature model for educational public opinion is built,which indicates that it is effective to rapidly detect hot opinion from spatial and multiple time features.Experiments showed that educational public opinion on university BBS distributes very sparse,related day active user number is not high,hot opinion is relatively few and easy to be detected from its prominent spatial-time features.
educational public opinion;network measurement;spatial-time feature model;hot opinion detection
10.3969/j.issn.1008-0821.2016.01.015
G250.73
A
1008-0821(2016)01-0084-07
2015-10-20
江苏省高校哲学社会科学研究基金“高校网络教育舆情的热点信息挖掘与异常监测”(项目编号:2011SJB880029)。
王丽英(1976-),女,讲师,博士,研究方向:网络信息安全、计算机图形学。