一种基于时间序列网络舆情热点事件发现模型

2016-12-15 08:07林丽娜魏德志
关键词:热点排序舆情

林丽娜,魏德志,2

(1.集美大学 诚毅学院,福建 厦门 361021; 2.福州大学 经济与管理学院,福建 福州 350108)



一种基于时间序列网络舆情热点事件发现模型

林丽娜1,魏德志1,2

(1.集美大学 诚毅学院,福建 厦门 361021; 2.福州大学 经济与管理学院,福建 福州 350108)

在大数据背景下,互联网每天都能产生大量的舆情信息,如何从大量的舆情信息中及时发现热点事件,有利于政府及时监控相关热点事件的发展趋势,对网民进行舆论导向的引导,减少舆情信息对社会的不良影响,保护网民的权益,促进社会的稳定.本文针对目前网络舆情热点事件发现模型存在的一些问题,提出了一个基于时间序列的排序模型用于发现热点事件,该模型采用影响热点事件的相关因素作为评价指标,并且指标的相关数据全部为客观数据,有利于模型评价的客观性.为了求解该模型,首先采用熵权法确定模型中指标的权重,然后提出将TOPSIS法和灰色关联法以相对贴近度的形式结合起来进行计算,以判断方案的优劣,最后通过实验验证,和其他热点事件发现算法进行对比,最终得出该方法具有比较好的客观性和准确性.

网络舆情;时间序列;排序模型;大数据

1 概述

在互联网的新时代,无论是重大事件或国际活动,可以形成在网络上的舆论在很短的时间,甚至有舆论的巨大力量.面对几亿网民和几百万的媒体网站,每天都能产生海量的网络舆情信息,这些信息符合大数据的四个特点:大量、高速、多样、价值.如何准确快速从海量舆情信息中发现热点事件已经成为科研工作的研究热点.对网络舆情热度目前的研究主要是基于两个方面:一方面主要是基于数据挖掘技术,主要采用的是聚类算法[1~5],另一方面主要是基于内容的舆情热度分析方法[6],通过对网络内容[7]、网络结构及网络应用[8~11]、网络技术监控和模型计算[12~15]的分析来获取舆情信息,进而推到舆情热度变化趋势.

以上研究主要集中在网络舆情热点事件的发现,取得了比较好的效果.但是在大数据背景下,每天产生的热点新闻数量比较多的,不同媒体网站对热点新闻的排序也是不一样,主要在于针对热点事件的因素考虑得不够全面.如何全面考虑和热点事件相关的因素比如新闻数量、新闻点击率、网友评论等指标在目前的研究中还比较有限.本文提出基于时间序列的热度排序模型,综合考虑和热点事件相关因素,全面客观的分析影响热点事件的因素,找出相关热点事件,有利于政府及时调控舆论走向,使舆论朝健康正确的方向发展将有一定的现实意义.

2 基于时间序列的排序数学模型

根据上述存在的问题,提出一个基于时间序列的热点事件排序数学模型,主要指标包括:新闻浏览数量L、新闻回复数量R、新闻发布数量S、参与发布媒体数量M、新闻分享数P,这些客观指标数据的获取可以根据新闻采集软件获取.排序决策矩阵A如公式(1)所示,n代表排序的事件数.

(1)

各项指标的具体计算如下:假设按照时间间隔t进行统计,统计的网站媒体数量为n,需要统计的时间为k个间隔t.

以上基于时间序列模型可以根据用户要求指定任意时间间隔进行统计(可以是1天或者n天),统计覆盖范围可以是整个网络,也可以是单一网站(n=1),该模型具有较广泛的适用性,统计指标也比较全面.

3 指标权重的确定

基于时间序列的热点事件排序数学模型的指标有5个,每个指标的属性权重的确定对整个数学模型最终排序的结果影响非常大,为了更好确定属性权重,本文考虑采用熵权法来确定指标的权重,熵权法是一种根据排序数据来确定权重的客观方法,不会受人为因素影响,比较适合本模型的计算机自动求解.

熵权法求解排序矩阵指标属性客观权重的具体步骤如下.

1)将矩阵A的指标属性H列归一化得

2)计算指标属性熵值

4 改进的TOPSIS方法对决策排序矩阵进行计算

TOPSIS法是一种多属性决策方法从几何学的角度,从属性的角度来评估各种选项,类似于维空间的多点分析,根据点和理想点的位置来确定方案的贴近度.灰色关联分析的对象是一种时间序列图,和灰色关联度为标准,从直接反映几何中曲线的相似程度的几何,两个时间序列曲线形状接近,他们的灰色关联度较大的.

灰色关联法是从序列点的形状相似性反映了方案与理想方案的接近程度,TOPSIS法从空间点的位置上的距离来反映方案与理想方案的接近程度.把TOPSIS法结合灰色关联法形成一种新的方法GR-TOPSIS,综合考虑了决策方案位置的接近和形状相似,充分利用两种方法的优点,该方法能够更好的解决排序方案的优劣.

具体算法步骤如下.

1)对原始决策矩阵X=(xij)m×n规范化处理

得到规范化矩阵:Y=(yij)m×n

2)计算加权规范化决策矩阵Z=(zij)m×n,其中zij=ωjyij.

3)确定加权规范化矩阵的正理想解Z+和负理想解Z-

4)计算各方案到正负理想解的距离

5)计算各个方案和正负理想解之间的灰色关联系数矩阵R+和R-

ε∈(0,1)为分辨系数,一般取值0.5.

6)具有同正负理想解的灰色关联度r+和r-的计算公式;

8)计算各方案的相对贴近度

5 实验案例分析

考虑到实验数据采集的复杂度,本文采用网络矿工对新浪、网易、搜狐三个网站媒体进行采集,时间为2016年3月10日,采集的时间周期为一周,即k=1,t=7 d,采集新闻数量为热点前10相关新闻,经过整理并根据本文5个指标的数据进行统计,统计得出10个网络热点事件,具体如表1.

表1 3~10日网络热点事件列表

根据表1统计的数据可以得到排序决策矩阵A1.

表2 不同方法的排序结果

三种方法最终都能得到自己的排序方案,但是灰度关联的方法和TOPSIS的方法在结果上存在较大的不同,主要原因是两种方法在排序时考虑的因素不一样,灰色关联法主要是考虑了序列点的形状相似性,TOPSIS法考虑了空间点的位置上的距离,GR-TOPSIS方法结合了两者的优点能够更好和准确地得到较好的排序方案.比如E1事件江西35岁女县长直升副厅级领导事件是目前网络最为热点的舆情事件,但是如果使用灰度关联方法就无法表现出来该事件的热度,比如E3原铁道部副部长炮轰发改委事件和E6深圳一小区市值抵中国第五大机场,E5延迟退休方案今年推出和E9购房首付贷违法,TOPSIS方法和灰度关联方法存在较大不同,采用GR-TOPSIS方法可以综合考虑两种方法,更好表示排序方案的客观性和准确性.

6 结论

在大数据背景下,每天都能产生海量的网络舆情事件,本文对网络舆情事件的热度排序方法进行了有效的探讨,基于时间序列综合考虑网络新闻的5个指标,更客观的反应网络舆情事件热度的全面性.该热点事件发现模型有利于政府相关管理部门及时发现舆情的相关热点信息,对不良舆情信息进行有效监控,维护广大网民的权益,保护社会的稳定.

[1] 马雯雯,魏文晗,邓一贵.基于隐含语义分析的微博话题发现方法[J].计算机工程与应用,2014,50(1):96-100.

[2] 王 巍,杨 武,齐海凤.基于多中心模型的网络热点话题发现算法[J].南京理工大学学报(自然科学版),2009,33(4):422-426

[3] 王 林,戴冠中.基于复杂网络社区结构的论坛热点主题发现[J].计算机工程,2008,34(11):214-216

[4] 张寿华,丛 帅,尚开雨,等.网络舆情追踪中热点关键词的提取[J].河北大学学报(自然科学版),2012,32(3):311-315

[5] 陈 翰,韩永峰,李弼程.基于突发事件热度的站点地图构建算法[J].计算机应用研究,2012,29(8):2943-2947

[6] 杨 震,段立娟,赖英旭.基于字符串相似性聚类的网络短文本舆情热点发现技术[J].北京工业大学学报,2010,36(5):669-673

[7] 刘星星,何婷婷,龚海军,等.网络热点事件发现系统的设计[J].中文信息学报,2008,22(6):80-85

[8] 闫力君,赵玉芳.极小化加权总完工时间的可拒绝单机排序问题[J].沈阳师范大学学报(自然科学版),2015,33(1):33-37

[9] 谢晓娟,石新宇.网络舆情与网络话语权[J]. 沈阳师范大学学报(社会科学版),2014,31(4):10-12

[10] 曹依霏,孟 韬.虚拟社区网络传播机制分析[J]. 沈阳师范大学学报(社会科学版),2014,31(5):168-170

[11] ZHAO J C,GUO J X.The research of network public opinion hotspots technologies for internet web[J].Applied Mechanics and Materials,2013,24(1):2500-2503

[12] XUREN W,BEI S,SHUO Y.Research of Internet public opinion based on data mining[C]//Proceedings of 2011 International Conference on Computer Science and Network Technology,2011,4(2):2414-2418

[13] ZHANG S,SHANG K,Cong S,etal.WIPOMTS:An internet public opinion monitoring system[C]//Information Computing and Applications.Springer Berlin Heidelberg,2012,5(2):1-8

[14] WANG Y M,LUO Y,Zhongsheng Hua,On the extent analysis method for fuzzy AHP and its applications[J].European Journal of Operational Research,2008,186(2):735-747

[15] Ying-Ming WANG,Kwai-Sang CHIN.Fuzzy analytic hierarchy process:A logarithmic fuzzy preference programming methodology[J].International Journal of Approximate Reasoning,2011,52(4):541-553

Sort Model about Hotspots Public Opinion Event Based on Time-series in the Context of Large Data

LIN Lina1, WEI Dezhi1,2

(1.Jimei University, Chengyi College, Xiamen 361021;2.School of Economics and Management, Fuzhou University, Fuzhou 350108, China)

A lot of public opinion information were produced on the Internet every day in the context of big date. How to find a hot spot in time from a lot of public opinion information is in order to monitor the development trend of the relevant hot events,and it is in order to reduce the adverse effects of public opinion information about society. It can also help to protect the rights and interests of the Internet users, and promote the stability of social. According to the the some problems of the models which were found the hotspot events of the public opinion, a sort model based on time serial was proposed to solve the sort of hotspots public opinion event. Firstly, the weight of indicators was determined by the combination of entropy method and fuzzy AHP. Then, a method was proposed by the combination of TOPSIS method and gray correlation method in the form of relative nearness to determine the merits of the program. Finally, with the experimental verification, the method has better objectivity and accuracy by the comparison of TOPSIS method and gray correlation method.

internet public opinion;time series;sort model;big data

2016-08-17

国家自然科学基金(71271056);福建省教育厅项目资助的课题(C13001,JA14368).

林丽娜(1984-),女,福建莆田人,硕士,集美大学讲师,主要从事网络安全、网络舆情研究.

1672-2027(2016)03-0052-05

G354;TP393

A

猜你喜欢
热点排序舆情
热点
作者简介
恐怖排序
热点
节日排序
结合热点做演讲
消费舆情
舆情
舆情
舆情