基于Hadoop 技术的互联网舆情监测处理平台的设计
——以易班平台为视角*

2023-10-15 07:36淮南师范学院刘媛媛
数字技术与应用 2023年9期
关键词:易班舆情舆论

淮南师范学院 刘媛媛

作为Web 2.0 时代的产物,由于其独特的优势,例如,领先的政府部门、用户注册实名、关注对象、专注于教育服务等,已成为高校舆论网络的重要组成部分。随着叶氏类的快速发展,各高校基于叶氏类的舆论信息网络呈指数级增长。传统的监控证据方法很难处理,监控和研究大学在互联网上的意见需要有效的信息检索技术,自动化技术在高校舆论监控网络中的应用是不可避免的趋势。基于此,本文探讨了一些基于Hadoop 技术的关键技术,并介绍了高校舆情监控系统网络的一些相关模型,一起裨益于该领域的健康发展。

根据我国互联网络中心发布的相关报告显示,我国网民数量已达8.29 亿,居世界第一。互联网已经成为人们社交生活不可或缺的一部分,在互联网时代,人们可以在正确的时间从互联网上的各种媒体获取所需的信息。与此同时,互联网上的高度互动使人们有权广泛参与。然而,开放网络空间使不良信息成为“温床”,很容易对大学生心理产生负面影响。因此,加强高校舆论监测网络非常重要。

1 易班环境下高校网络舆情的内涵和特征

1.1 高校网络舆情的内涵和特征

(1)高校网络舆情的内涵。互联网上的舆论是人们在各种事件的刺激使其在互联网上传播的知识、态度、情绪和行为的集合。高校互联网上的舆论主要是指教师和学生对相关重大问题、社会焦点、政治事务以及相关问题的感受、观点和态度,校园事务、学校管理等与其自身利益相关的问题。

(2)高校网络舆情的特征。1)主体隐秘,发展难控。从通信主体的角度来看,互联网上的匿名性将导致公众舆论与现实、道德和正义分离。此外,大学生还不够成熟,无法轻易煽动虚假信息和敌对势力。其允许自己在网络空间做自己的言行,在表达自己的观点时缺乏社会责任感,极端主义观点和言论可能导致舆论的发展,威胁到网络的安全与稳定。2)背景多元,内容复杂。从内容传播的角度来看,大学舆论网络的信息来源多种多样且复杂。不同的政治背景、地区文化和价值观通过新媒体和技术相互影响,教师和学生很快就进入了在线生活,直接或间接影响高校教师和学生意识形态的复杂信息。3)实时交互,传播迅速。从沟通渠道的角度来看,大学生特别关注热点社会问题和时事,并迅速接受和使用新媒体和技术进行多种渠道的信息传播。打破时间和空间限制的网络,允许来自不同地区的群体在不同时间进行交流和互动,这通常成为在互联网上传播舆论的重要因素。4)意见指向,影响辐射。从有效沟通的角度来看,高校在互联网上表达的舆论内容广泛多样,但也相对一致。大学生具有相同的年龄、经验和习惯,这更容易就价值观达成一致。对许多事情的看法也非常相似,很容易引起共鸣。在公众舆论是一种被广泛认可和接受的前提下,辐射的影响从一个点到一个地区,从一个地区到另一个群体。

1.2 易班环境下高校网络舆情的内涵和特征

(1)一流环境下高校的舆论网络。易班是改善高校教师生活的顶尖社交论坛之一,具有独特的优势,例如,政府管理、用户名注册和专注于教育服务。提供了最好的在线平台,使我们能够探索大学生的需求,了解和评估互联网上的舆论。因此,在不断变化的课堂环境中,大学网络中的舆论是大学舆论网络的重要组成部分。主要在一个简单的课堂平台上探索高校学生和教师在各种核心活动中的感受、观点、意见和态度。

(2)易班环境下高校网络舆情的特征。除了公共网络中的舆情特征外,由于用户的具体特征以及大学环境的开放性和包容性,高校网络环境中的舆情也有其自身的特点。1)主题统一,实名认证,网络真实性有保障。当课程发生变化时,高校网络的舆情是大学的教师和学生,主要是在校的年轻学生。由于相互渗透,易班用户通常会对公众舆情中相互关注事件形成高校师生的代表性观点。同时,易班使用的注册方法是验证正确的名称,这使得舆情处理更有针对性和响应性。2)政府主导,专注教育服务,信息源纯净。易班是一个互联网文化建设项目,重点是加强全城教育委员会,并使其正式化。上海易班发展中心拥有一个强大的平台来监控教师和学生,以创造一个相对清洁的网络环境。易班自成立以来,一直致力于教育服务,并有相对明确的服务目标和目的,可以独立发声,不会混淆商业利益等社会因素,也不容易受到外部干扰。3)突出班级概念,分解舆论压力。易班突出课堂,每个学校和班级都可以形成自己的小舆论场。课堂上的对话更容易进行,也更轻松。事实上,密切关系有助于就同一问题达成一致。因此,在阶级意见的小范围内,一些问题可以得到解决,从而减轻整个不断变化的阶级对大意见的压力。

2 高校网络舆情监控的几项关键技术

2.1 WebCrawler

超文本标记语言(HTML)协议是互联网本身的一种工具,可以处理各种数据,然后将其设置为统一的资源定位器。HTML 协议允许网络爬虫在接收信息时访问并收集指定URL 列表中的所有必要信息。同时,可以选择一个符合要求的URL,并将其包含在可读列表中。网络索引技术通常可以分为两种类型:一般类型和目标类型。网络爬虫通常在该地区进行大规模爬网,并经常用于搜索引擎门户网站。网络索引的目标是有选择地对相关网站类型进行索引,被称为网络索引主题[1]。为了在高校建立一个舆论监测系统网络,我们必须更加关注技术指数网络。

2.2 文本聚类

文本分组是指对一组文本进行分组,目的是将文本分组,以便属于不同的、不太相似的文本组,属于同一组比相似性更大的文本。组装算法的开发经历了漫长的过程。经过不断改进,该算法的开发变得越来越成熟,可以将其分为几个部分:首先,根据文本结构,包括两类:拆分和合并方法;其次,广泛基于内容汇编中相关主题的区域视角;最后,K-Means,根据相似性对文本进行分类[2]。虽然算法组装的分类可能会有所不同,但基本过程非常相似:所有原始文本都必须预先处理,材料的选择必须尊重理性原则;总结文本的不同特征,构建访谈模型;使用类似算法汇总获得的结果。

2.3 关键词抓取

互联网上有很多信息,如果要采取全面的研究方法,将不可避免地需要很长时间。如今,在有效获取和处理信息的背景下,这种方法对市场的适应性较差。如今,关键词搜索主要通过以下几种方式完成:首先,基于语义分析和对定义的理解;其次,从相关数据中获取统计结果;最后,对学习机器的信心。关键字捕获技术在实践中面临许多过程,其中一些过程更为复杂,可以参考以下几点设计过程:分析和过滤相关关键字;设置统一主题词汇;此表包含从文本到分析的关键字片段,根据权重比原则接收关键字;选择这些关键字。

3 基于Hadoop 平台的高校网络舆情监控系统设计与实现

3.1 高校网络舆情数据采集

基于高校网络中不同的舆情来源,应采取不同的方法进行数据收集。舆情信息通常从两个主要渠道收集:新闻网站和微博网站,其中第一个主要通过Nutch 收集信息。Nutch 系统的当前类别包括去中心化和非去中心化系统,分布式系统比非去中心化系统更有效率[3,4]。在新闻网站上收集公众意见的过程如下:首先,应该添加URL 列表CrawlDb,并根据URL 列表设置分段;其次,创建一个Fetchlist,使用内容解析器分析收集的数据,提取一个新的URL 并同时更新CrawlDb。微博平台使用平台自己提供的API 来收集网络舆情数据,使用API 收集数据时,客户必须获得微博平台的许可并打开应用程序。

3.2 高校网络舆情数据预处理及聚类

在采集阶段获得的数据不能直接处理,必须启动数字化。一方面,我国大学的网络民意数据大多是中文数据,这与英语分词中划分空间的方法不同。中文单词碎片化的界限还不够明确,即使是中文单词碎片化处理实际上也是处理相关数据中最重要的技术;另一方面,数据及其处理的主要因素也是空间载体文本的构建。该模型的基本元素是频率单词、标题、演讲部分等,不同类型关键字的权重各不相同[5]。此外,在模块化数据收集中,分层分组算法是两种主要形式。算法的应用应基于以下几点考虑:大规模数据处理的可能性;依赖相关参数;输入周期是否会影响等。

3.3 高校网络舆情分析

在基于Hadop 的高校建立舆论监测系统的主要要素之一是舆论分析模块,该模块可分为以下几点主要要素:(1)监测敏感话题和开放网络表达不同观点的采访渠道。在互动交流中,一些敏感话题将对社会稳定产生重大影响,即使系统完成了文档处理,也会对数据库中的敏感话题做出回应(敏感词词典)。为了监控敏感话题,在收集、分析和分类主题、文章和评论的基础上,计算对文章(新闻)的兴趣程度,并按数值对其进行分类,最后确定热点话题的特定时间段[6,7]。(2)跟踪内容方向基本上是分析出版商的主观情绪信息,以了解出版商对该主题的立场。特殊任务与处理方法相似,但面试内容替换情感话语,并根据体重计算。

4 实验与测试

4.1 系统运作环境

系统选择8 台Dell 商用服务器作为系统的硬件基础。对于操作系统,部署了64 位的CentOS6.4 和Java64 位的JDKL。7.0_60.这个版本目前被广泛使用,并且具有很强的稳定性。

4.2 系统评估机制

本文介绍了一种TDT 评估标准,用于评估高校网络中舆情聚集的趋势。所选的指标是FA(误报率)、Miss(漏报率)和CDet(识别成本)。

4.3 实验结果

使用网络爬网技术收集的记录数量为5946 条。在处理相关数据、分组分析后,根据如表1 所示的内容收到了以下关键字,对数据的比较和分析表明,从操作系统中获得的实验结果与上述结果一致。根据平均假警报次数、假警报和最低标准成本0.33468、0.03352 和0.49285,可以显示该系统的准确性。

表1 高校网络舆情热点关键词及实验结果(%)Tab.1 Hot keywords and experimental results of network public opinion in colleges and universities (%)

5 结语

作为改善高校教师生活的社交平台之一,Yee Class为我们提供了一个友好的在线平台,以研究高校学生的需求,了解和判断网络上的舆论。随着阶级变化的迅速发展,高校基于阶级变化的民意数据网络也显著增加。监测和搜索研究所对互联网的意见需要有效的信息检索技术。在此基础上,本文介绍了在改变课堂环境中建立舆论监测系统的研究,同时考虑到数据收集的深度和广度,并提高准确性。随着舆论监测网络不断变化的分层系统的发展,理论研究和实际应用有机地结合在一起,有必要在大学网络中建立舆论监控系统,以满足数字时代的要求。构建高校网络舆情监控系统,有望为大数据时代网络舆情管理体系的构建提供有效的参考和借鉴。

猜你喜欢
易班舆情舆论
“三全育人”视域下高校完善“易班”建设探析
浅议易班在高校共青团改革中的作用
阿桑奇突然被捕引爆舆论
辅导员应用“易班”开展工作的思考与建议
舆情
舆情
舆情
微博的舆情控制与言论自由