杨琳 张德贤 唐亚娟
【摘要】 网络信息量的逐年增长,使得获取网络敏感的舆情信息并做出相应的监控处理变得十分重要,网络舆情信息挖掘技术研究十分活跃。本文介绍舆情挖掘步骤及其核心算法,分析互联网热点文件下载曲线与网络舆情发展曲线的关联,通过关联关系对互联网文件下载数据进行信息挖掘,从中找出是否存在符合曲线发展规律的热点文件,最终将文件的主题与当时的网络舆情信息进行比对,对结果进行验证,为网络舆情的监测提出了一种新的方法。
【关键词】 热点文件 下载数据 曲线 网络舆情 信息挖掘
随着互联网的快速发展,网络信息变得多样化,网络的虚拟性、隐蔽性、开放性等特点,使网络舆情信息仅靠人工统计监测更加困难。因此,如何从海量的网络数据中自动提取数据,成为国内外学者研究的热点。近年来,网络舆情信息挖掘技术作为一种跨学科技术受到人们越来越多的关注,其应用范围被用于信息安全、主题跟踪、热点话题检测与预警等方面。本文基于网络舆情信息挖掘技术,通过分析热点文件发展曲线与舆情文件发展曲线的特点,对下载数据进一步挖掘分析,为网络舆情的监测提供了一种新的参考。
一、信息挖掘步骤
首先介绍互联网文件下载的网络舆情信息挖掘的主要步骤,其流程图如下:
图1 网络舆情信息挖掘流程
如上图(图1)所示,基于互联网文件下载的网络舆情信息挖掘共分3个步骤:样本数据的准备阶段、样本数据的训练阶段、测试数据的挖掘阶段,最终得到数据挖掘结果。下面针对各个阶段的内容进行介绍[1]。
1.1 样本数据准备阶段
采集一段时间内的互联网文件下载的数据,并将其分为两类:一类是包含舆情主题的热点文件,它包含当时相关的舆情主题,其发展曲线也和网络舆情发展曲线类似。一类是普通下载文件,它是任何类型文件,其下载发展曲线较平稳,没有热点文件的特征。
1.2 样本数据的训练阶段
根据采集的样本数据进行数据挖掘训练,形成训练集,该训练集将成为后续测试数据信息挖掘的分类评判标准。
1.3 测试数据信息挖掘阶段
对大量的互联网文件下载的数据进行信息挖掘,分类的评判标准采用上一阶段所生成的训练集,将所有测试数据进行分类。信息挖掘过后对于每个互联网下载文件将产生一个类型标签,代表该下载文件是属于互联网热点文件还是普通下载文件。
二、网络舆情信息挖掘技术
根据信息挖掘步骤,网络舆情挖掘技术分为爬虫技术、网页解析技术、分类技术、聚类技术及数据处理技术。其中常用的分类技术有中心法(向量空间模型)、朴素贝叶斯分类、支持向量机(SVM)、K最近邻算法(KNN)等。下面将主要介绍本文选用的KNN算法。
KNN 算法是一种非参数分类算法,现已广泛应用于数据挖掘的各种领域[2]。算法的基本思想可以简单定义为:假定每一个类包含多个数据样本,每个数据都有唯一的类标记表示这些样本属于哪一个分类。通过计算待分类的样本x与训练样本中每个文本的相似度,找出与x最接近的k个样本,然后根据这k个样本的类别标签确定x的类别。
KNN算法的优点:首先,原理简单,易于实现;其次,KNN虽遵守极限定理,但是待分类文本只与相近样本有关,因此很好的避免了样本不平衡,同时相似度根据样本的所有特征值计算,也减少了由于特征选择不当造成的误差。
然而,KNN本质上属于一种懒惰的学习方法,当数据分布不均匀、倾斜现象严重时,大类别样本的特征参数出现的频率增长,这会影响KNN分类的性能。同时,KNN的相似度需要对待分类样本与训练样本逐个计算,因此,距离机制是KNN算法实现的关键[3]。
三、基于热点文件下载的相似度计算
直观分析热点文件下载曲线和网络舆情发展曲线(如图2),对两条曲线进行相似度计算,这里引入增长率、增长向量、曲线相似度的概念。
其中,上式中Rise(t1|t2)为从tl到t2这段时间的曲线增长率,Numt1为tl时间点的数量,Numt2为t2时间点的数量,通过计算增长率完成单纯的增长情况的目的[4]。
3.2增长向量:在计算出两条曲线每日的增长率后,以曲线的一个周期时间为向量的维数。从曲线图(图3)中可以看出,设定曲线的周期为30天,由此定义一条曲线的增长向量如下:
其中,上式中Rise(ti|tj)代表ti到tj这段时间的增长率,所以上式中增长率向量GN表示的是30天内曲线的增长情况。
3.3曲线相似度:常用计算相似度的算法有余弦夹角、内积、Jaccard系数等。余弦相似度就是简单的对每个文档的向量进行单位化,然后进行内积计算,得出的结果可以严格控制在[0,1]之间,这不仅易于判断,而且降低了处理较大数据的计算代价[5]。因此,余弦相似度在目前得到了广泛的应用。余弦夹角计算相似度的公式如下:
(I)
这里,DN代表热点文件的曲线向量,RN代表网络舆情的曲线向量。根据两条曲线的相似度进行计算,两条曲线的增长向量如下:
DN = ( 5.0000, 2.3333, 1.0000, 1.5000, 0.6358, 0.5000, 0.3333, 0.3750, 0.2727, 0.2857, 0.3889, 0.1600, 0.0690, 0.0484, 0.0309, 0.0149, 0.0296, 0.0146, 0.0136, 0.0286, 0.0069, 0.0130, 0.0070, 0.0042, 0.0040, 0.0069, 0.0052, 0.0063, 0.0016);
RN = (4.0000, 1.4000, 0.7500, 0.4286, 0.3000, 0.2308, 0.1875, 0.0947, 0.6899, 0.8397, 0.5869, 0.4426, 0.3947, 0.3200, 0.2564, 0.0126, 0.0968, 0.0769, 0.0635, 0.0536, 0.0536, 0.0432, 0.0369, 0.0210, 0.0128, 0.0048, 0.0053, 0.0045, 0.0043)
计算得出热点文件与网络舆情文件的曲线相似度:
可以看出,两条曲线在增长趋势上有着很大的相似性,曲线发展趋势大致相同,因此两者间存在着相应的联系,通过对热点文件数据进行分析,可以判别出其相应的舆情发展趋势,对于舆情信息挖掘具有重要的作用。
3.4基于KNN算法及曲线相似度的改进,得到对热点文件下载的网络舆情挖掘算法的步骤如下:
(1)计算出待分类数据和样本数据的距离,即曲线相似度,计算公式为公式(I)。
(2)在计算出的距离后找出10个离这个待分类数据最近的样本数据。
(3)统计出这10个样本数据大多属于的分类。
(4)这个分类就是这个待分类样本数据所属的分类。
四、舆情挖掘实验与结果
将舆情挖掘步骤与舆情挖掘算法应用在WEKA平台。WEKA集合大量机器学习算法,包括数据的预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。同时,实验阶段采用的是SQL Server2005。
下面利用测试数据进行数据挖掘,得到测试数据的各个分类标签,即该文件是属于网络舆情文件或者普通文件。从属于网络舆情文件的结果中找到属于符合舆情发展类的数据,查看其文件主题可以得到如下(表1):
可以看出,基于热点文件下载所得的挖掘结果(表1)中,如“白静事件”等均与2012年3月份的网络舆情热点(表2)相符,说明基于热点文件下载数据可以挖掘出相应舆情信息。将挖掘结果分析如下:
第一,能够根据互联网下载数据挖掘出正确的网络舆情。这类网络舆情可以通过互联网下载数据挖掘得出,该类网络舆情通过互联网下载文件进行传播,人们对该文件下载以及上传达到传播的目的。
第二,不能根据互联网下载数据挖掘出正确的网络舆情。该类网络舆情无法从互联网下载数据中挖掘出来,例如表2中的“麦当劳过期食品遭央视3.15曝光”等。其原因是这类舆情主要通过网页传播,一些新闻网站对其进行大量报道,导致不能根据下载数据准确的将其挖掘出来。
第三,根据互联网下载数据挖掘出错误的网络舆情结果。这类舆情的文件下载发展曲线虽然符合网络舆情的发展,但并不是网络舆情。如表1中“大侦探福尔摩斯2:诡影游戏.rmvb”等,它们属于电影类文件,不能表现为网络舆情主题,所以是错误的挖掘结果。其原因可能是由于某时刻的热点电影类文件的突发出现,但其数量较少,可进行过滤操作。
五、结束语
在网络舆情信息挖掘的技术的基础上,本文结合热点文件的下载与网络舆情关联的分析,归纳对比两者发展曲线寻找其中关联,对KNN算法的距离公式进行研究,使得更适用热点文件下载的网络舆情信息挖掘。针对采集的互联网文件下载数据,通过对热点文件下载的进一步挖掘,寻找其中的网络舆情主题,分析最后的挖掘结果,为网络舆情监测提供了新的参考。
参考文献
[1]吴健.基于Hadoop的上市公司舆情挖掘系统的研究与实现[D].电子科技大学2013
[2] Yang Y, An evaluation of statistical approaches to text categorization[J].Information Retrieval, 1999, 1(1): 76 -88
[3]周靖,刘晋胜.一种采用类相关度优化距离的KNN算法[J].微计算机应用.2010.第31卷-第11期
[4]郑燕.基于增量学习的自适应话题追踪技术研究[D].山东师范大学2013
[5]刘恒文.基于网络语义挖掘的舆情监测预警研究[D].武汉理工大学2010
[6]周小丽.基于网络爬虫和Lucene索引的互联网舆情监测系统设计与实现[D].吉林大学2013
[7]衣波.网络舆情信息的话题发现和追踪技术的研究与应用[D].广东工业大学2013
[8]梁越岭.互联网舆情信息挖掘与群体行为分析[D].武汉理工大学2010
[9]唐勇.互联网舆情监控系统的设计与实现[D].北京邮电大学2013
[10]周民.海量web舆情挖掘算法研究[D].电子科技大学2011
[11]曾奉尧.基于社会网络的网络舆情挖掘技术与研究[D].电子科技大学2011