高涛涛 匡芳君
(温州商学院信息工程学院,浙江 温州 325035)
基于大数据的高校网络舆情分析研究
高涛涛 匡芳君*
(温州商学院信息工程学院,浙江 温州 325035)
随着互联网的高速发展,移动网络不仅改变人们的生活方式,更改变了交流方式,尤其在高校中,大量的个人言论通过网络进行传播、碰撞、融合,产生的校园网络舆情,对高校影响巨大。如何监测网络舆情数据,给高校网络舆情以正确的导向,是高校提升核心竞争力急需解决的关键问题。本文提出基于数据挖掘和数据分析等技术构建高校网络舆情体系,以引导高校网络舆情更加积极化、健康化,从而促进高校校园文化和谐发展。
高校网络舆情;大数据;数据分析;数据挖掘;监察体制
随着互联网的高速发展,我国的网民规模不断上升,截至 2017年6月,我国网民规模达7.51亿,我国手机网民规模达7.24亿,而网民中学生群体占比更是高居榜首,高达25.0%[1]。而在学生层次中,和互联网最密切相关的便是大学生,对于丰富多彩的Internet,无数的网络信息必将影响其言行。各高校校园BBS、贴吧、博客等社交平台大大方便了大学生之间交流讨论的同时,随着新言论的不断出现,各个个体间意见不断交互,各种观点不断碰撞,从最初可能只是个人或者是少数人的意见,到最后可能转化成为绝大多数人的集体意识,并在校园里形成“家喻户晓”的校园网络舆情。随着大数据时代的到来,校园网络言论产生的数据量也在不断飞涨,高校管理者如何从如此庞大的数据中提取到有价值的信息,从而在校园舆情形成之际及时有效地发现以及引导,构建高校网络舆情体系势在必行。本文通过对高校网络言论的大数据分析,进行数据的采集、分析,从而构建高校网络舆情体系,其分析出来的舆情结果可以让管理人员及时有效地处理高校网络舆情,保证校园的和谐稳定。
高校网络舆情,是指高校内部各类群体在校园网空间中,对其所关心的特定的中介性社会事项产生和所持有的社会政治态度,高校网络舆情是一个特指的以大学生为主体的概念[2]。而大学生群体又是各个群体中最为特殊的群体,他们受教育程度较高,创造性强,精力充沛,相对于一般的社会群体,大学生群体拥有群体间相互交往频率高、时间长、空间相对单一、目标共性强等特征,而正是这些特征赋予高校网络舆情个性化的特性。高校网络舆情正是基于高校这一特殊环境,作为象牙塔内的大学生群体通过社交平台表达自己的言论,从而影响当前大学生的思想和行为。
高校网络舆情传播速度惊人,信息传播随意性强,高校应当格外重视校园网络舆情,加强对网络舆情的研究、引导,正确的认识高校网络舆情的作用并对其进行科学化的管理。在高校网络舆情传播过程中,大学生已经不单单局限于信息的接收,更是逐渐地主导着信息的传递。但生活在校园中的高校大学生,社会经验和阅历的缺乏,评判能力有限,面对着庞大的真假难辨的信息,难以在短时间内做出正确的判断,更加难以分辨出事情的真伪,从而容易导致高校学生对发生在身边的校园事件或社会现象认识难免有失偏颇,受到错误的舆论引导,造成其表达的方式往往比较过激,而这些不正当的言论直接发表在社交平台上,就有可能引起不健康的高校网络舆情,从而影响大学生观念的不正确发展,造成严重的后果。
高校网络舆情是高校工作的重要组成部分,进入互联网时代以来,各个高校在不断提高校园网络舆情安全意识,从各种途径来保障校园网络的安全。建立学生代表制度,学生代表在各自的学生群体中有较大的影响,通过学生代表引导校园网络舆情发展的方向;开设心理课堂、课外心理咨询,关注学生的心理健康,降低网上不良言论出现的概率。但是,在大数据的时代里,面对纷杂斑驳的数据,仅仅依靠人是很难应对的,这不仅体现在工作量上,而且对高校管理者的专业性也有很高的要求。所以在未来,必须加强高校管理人员的数据意识,依靠校园网络舆情信息的收集平台,监测校园网络舆情,掌握舆情的发展趋势。网络舆情的形成和演变有四大阶段:言论形成期;讨论传播期;网下冲突期;舆论消退期[3]。建立完善的校园网络舆情预案,模拟相关的校园网络舆情危机,制定周密有效的应急处理行为规范,坚决将校园舆情牢牢控制在第二阶段,将校园网络舆情的不良影响降到最低。
随着信息技术的不断发展,数据流量也越来越庞大,数据的价值不断提升,甚至成为了最宝贵的财富。因此,数据的处理需求也大大提升,相应的数据处理技术也在不断发展,特别是对于数据的分析以及数据潜在价值的挖掘尤为重要,数据分析、数据挖掘等技术成为了核心关键技术。
数据分析的数学基础在20世纪早期就已确立,但是直到计算机的出现才让数据分析得以推广,数据分析利用数学的大脑,计算机的身体组成了智能的产品。数据分析在多个领域都有着举足轻重的作用,数据和数据分析的价值也有目共睹。数据分析技术可以分析文本、数字、日志等,数据之间往往具有互联性,当面对大量的数据毫无头绪时,可以通过作图表等辅助方法来帮助分析、推断,也可以通过数据对已有的假设进行验证性的分析。
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘在技术上又有着这样的定义:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程途径[4]。随着时代的发展,信息技术的发展速度有目共睹,随之网络数据也越来越庞大,如何从中得到有价值的信息也越来越考验着我们。数据挖掘是对于数据的管理、分析和处理的一项技术,是数据处理的关键一步。而对于网络舆情来说,其本质就是针对数据的深度处理,通过对大量的数据进行挖掘,从而得到重要的、有意义的数据,再通过有效的数据来分析出网络舆情中蕴藏的观点。
结合高校网络舆情特点和实际情况,设立适应高校的网络舆情分析系统,设计的校园网络舆情系统框架如图1所示,系统结构主要包括数据收集模块、数据分析模块、数据分类存储模块、数据检索模块、舆情发布模块这五大功能模块。通过该舆情分析系统,可以较好地抓取以及处理高校网络平台的网络数据,通过对数据的分析,将数据进行分类存储,通过检索从数据库搜索数据,提取出现频率高的数据并进行重点关注。对比分析从而了解高校网络舆情的起源,发展的过程以及为后续决策提供理论支持,从而基本掌握校园网络舆情,把握校园舆论动态。
图1 高校网络舆情系统框架图
大学生除了关注自身的学习外,还比较关注的就是校园的周边,尤其是一些大众喜欢的话题,往往会引起大学生强烈的兴趣,当他们想要发表、讨论的时候,自然就来到了校园论坛等社交平台这一虚拟的空间来发表自己的看法,这就会形成新的校园舆情。这类信息的讨论对象越具有吸引力并触动大学生情绪的时候,就越能引发强大的网上讨论热潮,就像“滚雪球”一样,讨论的学生越来越多,相关的言论碰撞也越来越激烈,从而关注的群体也越来越广泛,相关的数据也随之变大。面对如此庞大的数据,我们主要采用的是网络爬虫技术,利用其抓取网页信息。爬虫从用户的社交平台的URL开始,获取其所对应页面上的链接,然后持续更新URL,从而不断获取新信息,再将这些网页信息全部存储到本地,在一定的周期内重复对这些页面进行爬取,然后对比数据库,判断该数据是否被保存下来,从而决定增添数据库或者保持不变。
该模块是系统最基本的存储功能模块,为了处理庞大的数据,该存储模块主要是采用了分布式、面向列的分布式数据库HBase,且其不是一个关系型的数据库,可以很好地存储大量分析好的数据,并对其进行分类存储,为其他模块的调用做准备。
数据分析是该系统的重要组成部分,其主要作用是识别不同的主题,追踪同一主题的相似内容,完成对响应主题的分析。利用Canopy算法,以简单的形式构造了一个分类器,将数据进行简单分类处理并提供K值,再利用K-Means算法先选取K个文档作为聚类中心,然后将剩余的文档归在最近的中心,得到新的中心,直至将所有文档聚类。在主题跟踪中训练样本数、训练与分类算法都是影响跟踪质量的重要因素,和文本分类问题类似,经典的KNN算法、SVM 算法、决策树算法等都能发挥很好的作用[5]。
该模块主要包括普通检索、舆情检索、元搜索、检索结果查看等,用户可通过自定义关键词进行搜索查询,对特定的高校网路舆情进行了解。建立敏感词汇数据库。作为人群密度大的高校,由于学生自身的素质参差不齐,难免会有有关反动、政治、色情性质的言论出现,这个时候敏感词库就发挥了重要的作用,根据搜集过来的数据与其进行匹配,并将该情况马上反馈给管理人员,通过管理人员来处理,防止形成校园网络舆情以及造成不良影响。
根据之前模块对数据的处理,将舆情分门别类,结合系统能够根据用户关注、发表的敏感信息,对其中的热点问题进行统计分析,并将积极的热点问题推送给用户,对不积极的数据进行更加深入的研究,将查询统计结果生成报告,及时将舆情报告发送给高校领导,为高校的决策提供依据。
某高校校园贴吧爆出了一则学校“高价热水”新闻,该贴一出现,就被网友疯狂转载,一时间传遍网络,更是在第二天便满校皆知,人人议论纷纷,虽然最后经过调查,事件得到了圆满的解决,但也不难看出其存在的问题——校园网络舆情难以控制,必须要有相应的处理机制,相应的校园舆情处理系统。新言论一经出现,通过已经设定的URL进行信息的爬取,然后将其存储在HBase分布式数据库中,再利用Canopy进行简单的归类,并利用K-means聚类算法对“天价热水”等相关内容进行统计归类,然后将其进行储存。当“天价热水”这一主题频繁出现,不断被检索时,便会第一时间通过舆情发布系统以短信或者邮件的形式推送给管理人员,最后由管理者视情况决定是否引导校园舆情或者上报上级领导。当学校领导提前得知校园舆情的时候,其响应的应急机制便会提前启动。
高校应当重点抓住大数据在网络舆情挖掘中的价值,利用数据挖掘等技术的同时,结合互联网时代的舆情特征,善于利用新时代新技术,让高校能够更好地检查、应对校园网络舆情突发危机,可采取更及时、更稳妥、更高效的措施,使其能更好地服务于高校工作,为维护高校校园的稳定,维护社会秩序的稳定打下扎实的基础。
[1]中国互联网信息中心.第40次中国互联网络发展状况调查统计报告[R].中国互联网信息中心,2017.
[2]李昌祖,周杰,郑苏法.高校网络舆情及其研判的若干思考[J].江苏高教,2010(5):106-108.
[3]丁义浩,王铄.当前高校网络舆情工作中存在的问题及对策[J].东北大学学报(社科学版),2013,15(4):424-428.
[4]林树地,吴扬扬.基于Hadoop的C4.5决策树分类算法并行化[J].微型机与应用,2013,32(12):85-87,91.
[5]陈艺卓.基于数据挖掘的高校网络舆情分析系统设计与实现[J].电子技术与软件工程,2016(23):189.
Research on College Network Public Opinion Based on Big Data
Gao Taotao Kuang Fangjun*
(Wenzhou Business College,Wenzhou 325035,Zhejiang)
With the development of the Internet,mobile network not only changes people's lifestyle,but also transform the communication way of people.Especially in universities,it has enormous impact among universities when more and more personal speeches spread,collide and integrate by the network.How to monitor the network public opinion data,and give correct guidance to the college network public opinion is the key problem that universities need to solve urgently.This paper proposes the construction of college network public opinion system based on data mining technology and data analysis technology,in order to guide the network public opinion more active and healthy,so as to promote the harmonious development of campus culture.
college network public opinion;big data;data analysis;data mining;supervision mechanism
TP391
A
1008-6609(2017)10-0055-03
高涛涛(1995-),男,浙江台州人,本科,研究方向为软件工程。
*通信作者:匡芳君(1976-),女,湖南衡阳人,博士,教授,研究方向为群智能与多目标优化、模式识别、信息安全等。