邝楚文
(惠州经济职业技术学院,广东惠州 516001)
由于网络本身所具有的随意性、隐蔽性和虚拟性等特点,将自己的真实想法通过网络表达出来日渐受到人们的欢迎。网络舆情能够反映社情民意的重要表现和某些社会群体或阶层的社会政治态度,是社会舆情的重要组成部分[1]。在学校范围内的网络舆情,其主体主要包括校内学生、教育工作者、与学校各类事项和教育密切联系的群体。校园网络舆情主要通过学校新闻网、学校贴吧等移动通讯工具进行传播。大量外部信息、社会舆论导向通过社交网络浸入校园,对校内学生的思想行为产生影响。从整体上看,校园网络舆情是集合学校相关联的一切网络八卦讨论整体。互联网的虚化世界具有隐蔽性,造谣诽谤等侵权行为层出不穷[2]。由于监管难以面面俱到,导致互联网色情暴力对学生的身心健康产生严重影响。大数据背景下,基于数据挖掘技术设计校园网络舆情监测系统具有重要意义。
通过对海量数据中潜在的模式进行刻画,并根据数据的潜在模式预测,从而得到数据模型与规律。
数据挖掘过程包括数据预备、数据挖掘和解释评估三部分。利用数据挖掘进行数据分析的常用方法包括分类、聚类、回归分析、关联规则、Web页挖掘等[3]。数据挖掘流程如图1所示。
图1 数据挖掘流程Fig.1 Data Mining Process
为应对动态变化的海量数据,数据挖掘技术的并行计算和分布式处理能力逐步得到提升。这些大数据挖掘技术可以构造网络分析、文本分析等数据挖掘模型。在社交网络中,文本是大数据的非结构化部分的重要内容,校园网络舆情监测是文本挖掘技术的典型应用[4]。
全文检索主要包括两方面的功能,是校园网络舆情监测系统的重要组成部分;它能够针对数据库中的网络舆情数据快速构建全文索引,并且通过主题相关性分析的方式筛选网络舆情信息[5]。用户需要对主题关键词进行自定义,全文检索根据库存文档进行检索匹配,并根据主题关键出现的频率、顺序等特征,构建索引文档并进行记录。
全文检索技术包括索引和检索两个重要模型。其中,索引模型对组织存储结构进行表达,检索模型提供文档和度量查询的相似度检索方法。根据主题关键字词或字的相似程度判断文档与查询的相关度。相关度和相似度呈正比。从本质上看,全文检索是分析用户查询主题关键词和计算机语料库中文档的相似度。
该数据挖掘方法主要是聚类分析和关联分析等技术,系统能够把敏感词相关联的信息返回给用户。在国内,研究人员不断优化关联规则挖掘技术。在各个方面如金融、医学等领域已经广泛应用改善的关联规则。通过关联规则挖掘,能够获得海量数据中隐藏的有用信息。结合自然语言处理和数据挖掘方式,我们利用关联规则实现对敏感词的关联词自动发现,对敏感信息进行推演,为实现校园网络舆情监测中发现与追踪主题功能提供条件[6]。
在搜索引擎的支持下,基于关联分析的方法具有较高的效率,但是在一些情况下,难以保证允许系统在短时间内发送大量查询[7]。如果用户所关注的内容不限敏感词以及与其相关性较强的短语或者词,通过设置阈值进行聚类,对语义的涵义进行分析。
文本挖掘的基础是文本表示。通常情况下,文本由大量词汇构成,将会映射出较高维度的向量空间,从而增加计算机分析的运算时间。一般采用文档特征提取的方式,即将分类贡献较小的词汇去除,筛选特征词汇,以提高程序运行的速度和效率。
校园网络舆情属于整体概念,是学生利用网络传递和表明自己的想法、情感等的集合。多数情况下,学生主要从论坛、新闻客户端、博客等公共信息平台发布的文章及评论等渠道获取网络信息。互联网时代为校园网络人群提供更大的情感宣泄空间,同时,也会带来潜在的校园网络舆情爆发。
随着互联网的快速发展,对校园网络用户也会带来更加严重的影响。校园网络舆情不仅是个别老师、学生的思想碰撞以及学校论坛贴吧里热议的话题新闻,而是包含所有与学校涉及相关网络流传的言论总和[8]。
当前情况下,校园网络舆情可能在多个网络平台发布,但是,通常情况下,校园网络监测系统难以对每个网络平台的信息都进行全面监测。在本文基于数据挖掘的校园网络舆情监测系统中,主要监测几个主流媒体网站,这些平台的数据量足能够表征整个网络的舆情情况。
微信公众号。由于它是腾讯微信的附属产品,拥有大多数的微信用户,其用户数量十分庞大。微信公众号不具备较强的交互性,但是具备较强的引导性和传播性[9]。
新浪微博。新浪微博属于开放式,集成化的网络社交平台,经过多年累积,已拥有大量用户群体。每个用户都允许在平台上发布文章与评论,还可以选择关注其他用户,创建好友关系。
百度贴吧。百度贴吧属于互动性、开放性的网络信息交流平台。它具有丰富多样的内容,与百度搜索引擎共用账号,方便用户使用该平台。百度贴吧的内容由特定用户进行管理,发布的内容容易受到该用户的管控。百度贴吧的用户量十分庞大,值得我们关注。
天涯论坛。天涯论坛属于互动性、开放性和匿名性的网络信息交流平台,其用户数量庞大。天涯论坛具有较多内容种类,不同种类的风格各有差异,其内容涉及学术研究以及社会生活的方方面面。各类网民基本都能找到自己感兴趣的论坛和板块,获得相关信息。匿名性是该论坛的典型特性,该论坛允许用户在没有注册账号的情况下,在论坛内发表言论。使得恶意注水与造谣的成本大大降低[10]。
我们设计校园网络舆情监测系统设计时,选择对这些主流网络站点进行监测,为校园网络舆情监测系统提供数据。校园问卷调查表明,学生用户对新闻网站的网络舆情内容非常感兴趣,由于新闻网站的网络舆情产生量不足不做监测。
校园网络舆情用户管理。用例图能够更加深透地了解系统或类的行为,为系统开发人员提供更加详细的设计素材。校园网络舆情监测系统的用户主要有系统操作员、教师及学生用户。其中,校园网络舆情人员管理用例主要包括查询舆情信息、查询人员信息、发布通知、管理文件、修改文件、清除文件、查询通知、退出系统几个部分。
校园网络舆情信息收集模块。校园网络舆情监测系统从主流媒体收集相关信息。其监测信息流程如图2 所示。
图2 校园网络舆情监测信息流程Fig.2 Information flow of public opinion monitoring on campus network
校园网络舆情检索功能。在校园网络舆情监测系统中,摒弃传统的网络舆情信息管理方式,采用现代化的网络舆情信息管理方式,使学校负责校园网络舆情监管的部门信息能够共享信息,并且及时联动更新信息,避免信息更新不及时导致对校园网络舆情信息的管理带来失误。现代化的校园网络舆情信息检测系统能够减少相关工作量,降低校园网络舆情监测成本,在学校内部各个院系之间实现信息共享,更加方便准确地传输校园网络舆情信息,提高网络舆情监测效率。需要建立统一的校园网络舆情信息共享体系,对学校各单位通过各自的门户网站、呼叫中心、单位办公系统、领导信箱等各种方式的校园网络舆情监测受理工作进行整合,实现统一管理,重点协调和监督及时处理信件,提高办理质量。
校园网络舆情干预功能。在基于数据挖掘的校园网络舆情监测系统设计中,实现网络舆情信息的统一监测是难点之一。因此,需要在网络舆情监测业务建模的基础上开展详细设计工作,制定网络平台信件的合理处理流程,确保能够灵活调整业务流程,实现校园网络舆情监测业务归口统一。
校园网络舆情监测系统的体系结构庞大,用户量众多,在设计物理架构时,需要考虑架构的适用性以及维护成本。在系统体系结构中,描述了调用服务器数据生成用户界面的过程,包括系统执行所经过的层次以及各层次之间的相互关系。对比B/S和C/S架构,可以直接将B/S架构安放在广域网中,满足多用户访问,其交互性强、灵活性高,具有较低的维护成本。因此,在本系统设计时采用B/S结构。网络舆情监测系统架构如图3所示。
图3 基于数据挖掘技术的校园网络舆情监测系统架构Fig.3 Architecture of Campus Network Public Opinion Monitoring System Based on Data Mining Technology
其中,前端采集模块主要负责对基础数据的采集工作;后台数据分析部分实现相似关联、特征提取,最终实现跟踪或者发现校园网络舆情事件;用户交互部分实现定制或者统计用户的实际业务需求,根据不同的监测要求发出监测预警指令。
校园网络舆情监测系统主要由四部分构成,包括信息采集,信息检索,信息分析及服务。校园网络舆情监测信息收集模块设计如图4 所示。
图4 校园网络舆情监测信息收集模块设计Fig.4 Design of Information Collection Module of Public Opinion Monitoring in Campus Network
信息检索主要完成将检索的校园网络舆情信息发布到的数据采集服务器,信息数据采集爬虫根据任务的描述进行工作,在服务器中存储最终的采集结果。校园网络舆情监测信息检索模块设计如图5 所示。
图5 校园网络舆情监测信息检索模块设计Fig.5 Design of information retrieval module
在舆情监测系统中,热点发现功能能够使用户及时、迅速地对网络热门话题有所了解和把握,提供有效掌握网络舆情的办法。在校园网络舆情监测系统中,用户可以根据实际需要,分别针对不同的舆情事件设置追踪命令,系统从釆集的网络信息中找到与当前主题相关的网页文本信息,并按照任务等级进行呈现。校园网络舆情分析模块设计如图6 所示。
图6 校园网络舆情监测舆情分析管理模块设计Fig.6 Design of Analysis and Management Module of Public Opinion Monitoring in Campus Network
互联网时代,数字化信息化发展十分迅速,需要加快信息化建设以便对网络舆情有效监管。在校园网络舆情监测管理过程中,构建完善的网络舆情监测系统能够在很大程度上提高校园网络舆情信息监管的运行效率。基于数据挖掘技术,对校园网络敏感信息进行分析挖掘,设计能够自动发现关键词的相关检索词方法,实现校园网络舆情监测中热点信息发现、主题追踪的功能,最终达到较为完整的网络舆情监测过程。由于时间限制,本系统设计存在一些不足之处,需要在后续工作中进一步完善和细化。