基于Web挖掘技术的网络舆情研究

2011-05-14 20:07李雪妍
卷宗 2011年10期
关键词:网络舆情

李雪妍

摘要:随着互联网的飞速发展,网络舆情的预警和分析对掌控网络、促进社会和谐发展起着至关重要的作用。面对网络中的海量数据,引入Web 挖掘技术可以快速有效的从互联网上获得并分析舆情信息。本文阐述了Web挖掘技术及基于Web挖掘的网络舆情分析方法,最终将该方法运用于一个校园舆情分析治理的系统构架中。

关键词:Web挖掘;网络舆情;舆情分析

1. 引言

网络舆情是由于各种事件的刺激而产生的通过互联网传播的人们对于该事件的所有认知、态度、情感和行为倾向的集合。随着因特网在全球范围内的飞速发展,广泛的网络平台为公众内隐的情绪和态度的表达提供了开放、快速、交互的渠道,为社会各阶层成员自由发表言论、参与公共事务讨论提供了便利,对社会一些突发事件的处理起到了积极有效的作用。然而,这些变化也为一些有害信息、杂音和噪音的传播提供了渠道。因而对舆情的管控就是要使舆情不转化为舆论或转化为良性舆论,为此需要加强对网络舆情信息的分析和预警处理,从而及时发现舆情的热点以及正确引导民意的走势,这已成为成为社会管理者面临的重大课题。

近年来,国内外许多专家学者和研究机构从事于网络舆情分析技术的研究和探讨,并取得了一定进展。这些研究虽然在一定程度上增强了相关职能部门对舆情信息的监控和引导能力,但仍存在一些不足。由于网络的信息量十分巨大,仅仅依靠人工的方法难以应付海量信息的收集和处理,而自动化、智能化的舆情收集和分析处理技术的研究甚少,针对这一难题,Web挖掘作为一种新兴的数据挖掘技术,可以有效地从互联网上获取并分析相关舆情,达到监控和治理的目的,为处置网络舆情提供很大帮助。

2. Web挖掘技术

Web挖掘能够快速、准确地获得有价值的网络信息、利用历史数据预测未来的行为以及从海量数据中发现知识。它克服了普通数据库管理系统无法发现数据中存在的关系和规则、无法根据现有的数据预测未来的发展趋势、缺乏发现数据背后隐藏的知识的手段等弱点。它的出现为自动和智能地把互联网上的海量数据转化为有用信息和知识提供了条件,在实际工作中具有重要的意义

2.1 Web挖掘的方法和过程

1. 数据源的收集

通过各种信息渠道收集互联网上的信息,包括门户网站、博客、微博、论坛等网站上的信息,通过这些网站的WWW服务器中提取存储的用户的访问日志和用户访问的交互信息,这也是Web使用记录挖掘的重要数据来源,对于这些数据,可以分为日志文件和用户访问数据。

2. 数据预处理

数据预处理主要对数据源进行数据清洗、数据规范化和数据集成等,形成事务数据库,其目标是,通过对用户访问站点留下的数据,整理成为便于被模式挖掘算法所使用的数据形式,以供数据挖掘阶段使用。

3. 模式挖掘

对数据预处理所形成的事务数据库,利用模式挖掘的一些有效算法来发现隐藏的模式或者规则。常用的技术有:统计分析、路径分析技术、关联规则发现、序列模式、分类和聚类等技术。

4. 模式分析

由于用户使用模式挖掘出来的信息还不能直接被人们所理解,需要把这些模式解释为人们可以理解的知识,同时也要去除对人们没有用的模式,所以对于模式分析需要借助一些工具来实现。

2.2 Web挖掘的分类

Web 数据挖掘可以分为Web 内容挖掘(Web Content mining),Web结构挖掘(Web structure mining),Web 使用挖掘(Web usage Mining)三类。

2.2.1 Web内容挖掘

Web内容挖掘从网页内容中抽取有用的信息和知识。例如:根据网页的主题,我们可以进行自动的聚类和分类。虽然这些任务与传统数据挖掘的任务相似,但是我们依然可以为了各种不同的目的从网页中根据模式抽取有用的信息,例如热点词的跟踪商品描述、论坛回帖等。而这些信息可以被用作进一步分析来挖掘用户态度。这些任务也不是传统的数据挖掘任务。

2.2.2 Web结构挖掘

Web结构挖掘从表征Web结构的超链接(简称链接)中寻找有用的知识。例如:从这些链接中,我们可以找出哪些是重要的网页,这是一项搜索引擎采用的重要技术。我们也可以发掘具有共同兴趣的用户社区。这些任务在传统的数据挖掘中并不存在,因为在关系型表格中并没有链接结构。挖掘页面的结构和Web 结构,可以用来指导对页面进行分类和聚类,找到权威页面、中心页面,从而提高检索的性能。同时还可以用来指导页面采集工作,提高采集效率。

2.2.3 Web使用挖掘

Web使用挖掘从记录每位用户点击情况的使用日志中挖掘用户的访问模式。这项任务也使用了许多数据挖掘的算法。其中一项重要的议题是点击流数据的预处理,以便生成可以用来挖掘的合适数据。

3. 基于Web挖掘的网络舆情分析方法

1. 主题词检索

主题词检索是将Web上的文档转化为一种类似关系型数据库中记录的形式,内容较规则且能反应文本内容特征的中间形式,一般采用文本特征向量表示法来进行表示、特征抽取、内容总结,然后利用机器学习方法来提取知识模式。通过自动主题词检索,可以及时掌握用户关心的重点舆情问题,实时跟踪了解情况。

2. 舆情热点跟踪

该方法首先将存放在文本文件中的Web记录转换成序列数据库中的访问记录,然后采用某种序列模式挖掘算法对数据库中的记录进行挖掘,最后分析出用户所关心的序列模式。通过对舆情热点的跟踪,可以发现网络舆情问题的演变情况,分析出舆情问题的发展规律,从而可以预测舆情问题的发展趋势,为下一步的决策做准备。

3. 分类分析

分类分析首先按特定标记对记录集合进行分类,然后挖掘出比按特定标记分类的记录集合更丰富、更细致的特征描述或模式描述。分类技术要求对舆情的描述对象及其行为方式进行归类,然后将这些归类进行联合,从而分析出具有相似描述和相似行为的对象是否可以符合。

4. 聚类分析

聚类首先采用访问频度阈值和页面间距离阈值对页面进行初步的筛选,然后把访问频度大于访问频度阈值的页面加到频繁访问页面集合中,然后将其中距离低于页面距离阈值的页面聚合在一起。聚类分析的结果是一系列相近信息组成的集合,同一组中的信息相近,不同组的信息相差较大。据此可以判别当前网络舆情的热点及重点问题。类似的舆情问题存在某种有序关系,这种有序关系反映了此类舆情的特征,通过聚类分析,可以得出各种不同的热点问题集合,有益于相关部门采取进一步的行动。

5. 统计分析

统计分析是利用统计、概率的原理对关系中各属性进行统计分析,从而找出它们之间的关系和规律。统计分析是数据挖掘最基本的技术方法之一。常用的统计方法有判别分析、因子分析、相关分析、回归分析等。通过对互联网上日志访问频率进行统计分析,可以在一定程度上发现用户感兴趣的问题,从而确定当前的热点网络舆情话题。

4. 校园舆情分析治理系统架构

依据基于Web挖掘的网络舆情分析方法,结合Web挖掘的工作流程和数据库原理,设计了一个校园舆情分析治理系统构架,该系统主要由三个功能平台构成,如图1所示。

(1)内容管理平台

内容管理平台通过词典管理、系统管理和数据库管理功能对整个舆情分析系统进行全面的管理,同时该平台的链接功能保证了系统的可扩展和灵活性。

(2)监控分析平台

利用主题词检索、舆情热点跟踪、分类分析、聚类分析和统计分析等多种方法对收集来的舆情信息进行监控和分析,从而有效的为校园舆情治理提供必要的准备。

(3)舆情发布平台

通过舆情预警、舆情监测、舆情导向等手段,为学管人员和指导教师提供经过总结的有指导意义的舆情分析报告,进一步采取座谈交流、干预教育、对BBS论坛舆情引导等途径,实现校园舆情的分析和治理。

参考文献

[1] 梅中玲.基于WEB信息挖掘与网络舆情分析技术[J].中国人民公安大学学报(自然科学版),2007,(4)

[2] 陈文举,夏泉.试论高校舆论引导与和谐校园建设[J].济南大学学报.2006.16(6):88-95

[3] 黄晓斌.网络信息挖掘[M].北京:电子工业出版社.2005

[4] 费爱国,王新辉.一种基于Web日志文件的信息挖掘方法[J].计算机应用,2004,24(6):58

猜你喜欢
网络舆情
新媒体环境下网络舆情预警体系研究
微博问政与回应中的政府形象塑造
试论高校大学生网络舆情引导方略
网络舆情编辑能力构成因素浅析
数据挖掘技术在网络舆情管理中的研究
“互联网+”背景下高校平安校园建设研究
浅析网络舆情治理
基于社会稳定视角的网络舆情预警机制构建的思考
突发事件网络舆情的演化规律与监控