张啸杰
摘 要:融媒体时代的到来、互联网终端设备的普及,使得整个社会发生了翻天覆地的变化,人工智能与大数据的运用使人们的生活更加方便与高效。新媒体的发展、“草根媒介”的诞生、小视频的蓬勃发展,颠覆了原有的传播方式与信息发布和获取方式。青年人作为社会中最为活跃的一部分人群,往往集中于高校,并且经常运用互联网发声,尝试新手段、新技术等。文章运用大数据对校园网络媒体监控是当今时代下及时、有效地引导青年的必要手段进行了研究。
关键词:融媒时代;校园网络;数据监控;内容引导
1 校园网络媒体监控的背景与目的
融媒体时代的到来、互联网的迅猛发展、移动终端的普及、传播方式的颠覆,是当前社会给我们的直观感受,根据中国互联网发展状况统计调查,2018年6月数据显示,我国互联网用户突破8亿,其中学生占据了25%左右[1]。他们善于在网络上发声,利用互联网制造舆论,且是思想最为活跃,而又尚未形成个人价值观与世界观的群体,他们“理想”、猎奇而又冲动,容易被利用。因此,互联网成为当今青年获取和发布信息的重要手段和舆情高发的版块。
学生的高校时期正是“三观”形成的关键期,而高校肩负着青年学生思想政治教育责任,又是连接社会的纽带,因此在校园里正确引导学生、努力使青年学生成为社会主义的建设者和接班人是高校不可推卸的责任。高校学生有更多的个人生活时间和空间,网络不能断、手机不离手已成为常态,在这种随时都可能获取负面信息、时刻会造成舆论的情况下,及时发现问题、解决问题,甚至未雨绸缪,提前预判不利情况的发生成为高校舆情监控必不可少的能力。
在当前情况下,运用大数据进行校园网络媒体监控显得十分必要。在保证个人信息不被泄露的情况下,全面监控校园网络信息,以监控为手段、内容引导为目的,通过大数据手段对校园内青年学生们从网络上获取的信息及发布的信息进行处理,形成敏感词库。针对某一时间集中爆发的高频词语或某一时间段的高频词语甚至某一个ID账户经常浏览的信息进行收集、整理和分析,从而获取个人以及集体的关注重点,反向的给学校提供内容引导的向导,有更好地判断和更高效、更精准的引导方向[2]。
2 校园网络媒体监控的现状
目前国内拥有较多的舆情监控软件,如红麦舆情监控系统、中国舆情网PALAS帕拉斯网络舆情监控系统、Goonie网络舆情监控系统、乐思舆情监测系统及军犬网络舆情监控系统等,各自拥有不同的特点,而且在自己的领域拥有较强的数据挖掘能力,能够较快地挖掘需要的信息。目前研发的舆情监控系统更多的是为政府部门和企业所用,帮助政府了解突发事件或者舆论热点情况,帮助合作企业了解竞争对手产品特性、提供决策意见和制定相关营销方案。但使用成本较高,对于一般的公司或者一些高校而言,受制于经济情况,无法完整地使用相关监测软件。而相关政府部门对相关舆情监控后,又缺乏预测机制抑或事件已经发生,当信息传递到高校时,很有可能为时已晚。因此,高校自主建设或拥有独立的舆情监控与引导方式显得格外重要,能够让较早地了解校内学生对于社会热点事件如何看待及其选择的新闻信息内容或者查找内容的倾向性,从而帮助学校更好地了解学生对于群体性事件、社会热点事件的了解和看法,并时刻关注学生的个体健康状况[3]。
3 大数据下校园网络媒体监控研究
本次研究运用爬虫技术获取Web页面文本信息9 000余条,其中经过识别,剔除广告等数据,获得可用数据7 000余条。在文本预处理情况下确定文本关键词,形成数据模型,运用赋值法形成敏感阈值范围。
3.1 数据文本预处理
本次获取文本多为短文本,短文本预处理尤其困难,采用rost分词软件将获取文本进行分词,去除停用词和无实际意义的介词等进行简单的文本分词,透过分词可以较为明显地获取某一时段或某一IP查找网络信息的特点。结合词频—逆文档处理(Term Frequency–Inverse Document Frequency,TF-IDF)对文本信息进行整理,不能仅依靠频率数据来确定文本信息的敏感性[4-5]。例如在高校中拥有心理亚健康状态的学生有很多,甚至隐藏着很多存在心理疾病的人群。针对此种情况,不能仅依靠文本数据频率来确定是否敏感,更应该将或许频率较少但却极为重要的信息进行监控与分析,因此针对此类信息更应该单独关注。
3.2 文本信息聚类
结合文本预处理、关键词频率以及高校学生重点关注情况,基于DBSCAN算法[6]形成以下5类文本信息聚类:文体娱乐类、校园生活类、社会热点时事政治类、医疗健康类。其中文体娱乐类多涉及文化、体育、广告、明星等各类娱乐新闻。校园生活则包含宿舍、班级、生活日常、购物、社团等各类校园内的日常或有关校园的各类话题。社会热点主要指去除微博热点中一些娱乐新闻热点的,包含教育、医疗、国家、政治等社会时政热点。医疗健康则是为了了解当前学生身体状态。高校学生身心日渐成熟,对于一些不方便对外公布的疾病往往选择通过网络查询,来了解自身状态或寻求治疗,因此,医疗健康分类包含各类疾病的查询或各类药品的查询。
3.3 构建文本信息三维数据模型及赋值
根据文本信息聚类、网络信息传播中个人选择信息方式以及信息平台影响范围,对各类监控信息形成三维数据模型,校园网络媒体监控主要是对一些舆情的监控、对部分个人IP非正常信息查询的监控。因此,从内容分类来看文体娱乐往往不在监控范围,每一个大学生都有自己的爱好以及自己喜欢的明星,其信息的选择和传播往往不会对社会或者校园产生重大舆情的影响。校园生活类是能够在校园内形成舆情的重要信息,尤其是一些管理类的失误、服务类的不及时等,一些很小的事情可能都会在网络上引起轩然大波。社会热点中的时政热點是了解当前青年学生思想政治认识以及人生观、价值观的重要标尺,青年人的选择、是非的认知或者思想上的倾向都应该是学校积极掌握的。医疗健康类中的传染类疾病、心理疾病等这些存在隐私的疾病,患者往往选择网络查询,是可以从网络监控中了解的。通过这些手段可以更好地进行干预,避免事态影响扩大。
操作方式的选择是依据个人对信息的认知程度和信息传播的影响程度来确定,在操作方式中阅读信息是最基本的信息获取,而点赞或举报是个人对信息经过思考后对其是否认可或符合个人倾向的深度表现。网络查询往往基于百度,而查询则是对于个人而言要进一步了解相关信息的一种表现,转发和评论是除了个人认知外,更想要向其他人传递信息的一种深度表现。
网络平台的选择一方面有其个人喜好的原因,但也存在其传播目的性影响范围的选择。在校园网络媒体监控中,任何高校都有其值得吐槽的地方,系统允许大家吐槽或追问,但要有意识地进行解释或者干预,尤其一些在论坛、贴吧、网页、公众号和微博上宣传的信息更容易引发全网的舆情。基于此形成数据三维模型(见图1)。在此模型中当数值超过5时,定义为“敏感”,需要跟进关注;当数值≥8时,定义为“高度敏感”,需要重点关注。
4 结语
在互联网覆盖度极高、移动终端普及、信息获取和发布更加多元化的情况下,校园对网络参与度极高的青年学生进行网络监控显得极为重要,能够更有效地指导教育方向,重点在于防患于未然。文章提出了网络监控的一种方式,尝试运用大数据对校园网络媒体进行监控,通过三维数据模型对获取的文本信息进行处理,得到信息是否值得关注的结果。但目前仍然缺乏系统的内部监控系统,对于隐私的保护也需要进一步加强,数据信息维度仍有待加强。高校青年学生是国家的未来,他们的认知、“三观”倾向关系着个人的未来,也关系着国家和社会的未来,高校积极、有效地加强对青年学生的教育,尤其是思想政治教育,是时代赋予的重要历史使命。
[参考文献]
[1]中国互联网络信息中心.2018年上半年中国互联网产业发展状况[J].科技中国,2018(9):32-39.
[2]叶云峰,葛启超.新媒体背景下高校舆论引导研究[J].湖北科技学院学报,2016(3):8.
[3]李影溪.高校网络媒体的舆论监督特性研究[J].陕西教育,2012(1):38-39.
[4]牛萍.TF_IDF与规则结合的中文关键词自动抽取研究[D].大连:大连理工大学,2015.
[5]马宏炜.基于语言网络的微博特征发现和话题关键词提取[D].杭州:杭州电子科技大学,2014.
[6]杨宇,鄒臣嵩.基于COMET的现代学徒制职业能力聚类分析[J].广东技术师范学院学报,2018(3):74-79.