虞晨洁
(东华大学 计算机科学与技术学院, 上海 201620)
易班环境下高校网络舆情知识库平台建设研究
虞晨洁
(东华大学 计算机科学与技术学院, 上海 201620)
易班作为Web 2.0时代的产物,因其具有政府部门主导、用户实名注册、对象主体集中、专注教育服务等独特优势,已成为当前高校网络舆情的重要组成部分。然而,随着易班的快速发展,基于易班的各类高校网络舆情信息呈海量增长,相关舆情监测和引导过程中逐步凸显各类问题,传统的人工监控方法已经难以应对,监测和研判高校网络舆情需要强有力的信息搜索技术。基于此,本文提出易班环境下的高校网络舆情知识库平台建设研究,在考虑信息采集的深度和广度的同时, 进一步提高精度与准度,并结合“东华大学计算机科学与技术学院易班网络舆情知识库系统”的开发工作,将理论研究和实践应用有机结合,取得初步成效。
易班;高校网络舆情;监测;知识库
(一) 易班环境下高校网络舆情的内涵
高校网络舆情主要是指师生对相关国际重大问题、社会焦点问题、时政问题以及有关校园事务、学校管理等与自己利益相关的问题的情绪、看法、意见和态度[1]。易班作为Web2.0时代的产物,已成为沪上各高校师生活跃度最高的社交平台之一,为我们深入研究师生需求、把握并研判高校网络舆情提供了一个友好的网络平台,已成为当前高校网络舆情的重要组成部分。易班环境下的高校网络舆情主要研究基于易班平台的硬空间中高校师生对于各类事件的情绪、看法、意见和态度。
(二) 易班环境下高校网络舆情的特征
易班环境下的高校网络舆情除了具有一般网络舆情的特征外,还因其用户的特殊和高校环境的开放包容,从而具有自身的一些特征。
主体一元,实名认证,网络真实性得到保证。易班环境下高校网络舆情的主体为高校师生,以在校的青年学生为主。由于他们在知识储备、成长历程、心理诉求等方面具有不少交集,因而易班用户在彼此关注的舆情事件上易形成高校师生的代表性观点。同时,易班目前采取的注册方式为实名认证,使舆情处置针对性更强,反应速度更快。
政府主导,专注教育服务,信息源纯净。易班是市教委在全市高校中重点推进的网络文化建设项目,具有其官方性。上海市易班发展中心对于易班平台监控有力,为师生营造了一个相对纯净的网络环境。易班从设立开始就以服务教育为目的,有较为明确的服务对象和目标,不掺杂企业利益等社会影响因素,不易受到外界干扰。
内容丰富,多向交织互动,舆情形成迅速。易班环境下的高校网络舆情涉及社会问题、校园问题等囊括社会各个方面的信息,表达和传播方式多种多样。以东华大学易班社区为例,下属33个学院或部门,已有成员41502人,学校与学生、老师与学生、学生与学生之间的沟通形态呈现扁平化,减少了以往信息传递过程中的内容失真和时间耗散。因而,舆情易在极短的时间内传播、交织、膨胀。
突出班级概念,分解舆论压力。易班突出班级,在班级中问题的探讨更容易以缓和的方式展开,现实生活中的亲密关系有助于对同一问题达成共识,因此在班级的小舆论圈中就可以化解一些问题,为整个易班的大舆论场减轻了压力[2]。
随着易班建设不断推进,网站在思想教育、教务教学、生活服务、文化娱乐等方面吸引和积累的资源也愈加丰富和多样化,由此产生的线上行为、信息文本、线下行动等方面的海量数据是高校网络舆情监测和引导的重要来源,如何收集、管理和分析数据是网络舆情研究工作中首当其冲的问题。当前,基于易班的高校网络舆情监测和引导工作已经开始推进,但在其操作过程中也存在着一些问题。主要问题如下:
(一) 数据源的“质量”价值尚未得到充分重视
在易班环境下,高校网络舆情工作的重要内容之一就是掌握有“量”、有“质”的数据源,并在此基础上为易班监管者提供定量、定性分析结果。目前,这项工作并未得到足够重视。
从2007年至今,易班网的建设已历经八年,目前该网站已经覆盖上海地区所有高校。截至2015年6月,已有注册用户180万人,日均访问量1000万次,总计学习资料2000万个,总发帖量2570万个。无论是从时间维度,还是从地理维度上来看,易班将占据全国高校师生网络行为数据的制高点,成为教育领域网络舆情的重要数据来源和分析平台。易班数据体量庞大,它的不断激增,也意味着网站管理者对高校师生网络行为的记录范围、测量范围和分析范围在不断扩大,但从现状而言,这部分数据并未得到充分利用。
需要指出的是,做好网络舆情工作,除了重视数据的“量”之外,还要重视数据的“质”。所谓数据的“质”就是样本的全面性[3]。所谓全面性,不仅仅指数量层面的多寡,更是要求指数据的采集面能够覆盖网站上所有信息。易班的数据源分为显性数据和隐性数据两个部分。显性部分即是易班网上公开发布的各类信息,隐性部分是易班网上被屏蔽或者删除的各类信息。由于易班本身的特殊定位,决定了其显性部分数据往往具有正面性,在一定程度上反映高校校园积极向上的一面。相对而言,隐性部分数据中就有可能存在危害校园安全、社会安全的相关信息。将显性数据和隐性数据综合起来,才能立体多维地呈现易班环境中高校网络舆情的真实面貌。
(二) 现有高校网络舆情工作体系难以适应快速多变网络舆情监测的需要
随着新媒体技术的不断演进,易班除了拥有网站平台之外,还拥有移动客户端、微信公众号等多个平台。这些平台既结合了时下各种主流网络应用,又较好地扩大了易班的社会知名度和影响力。其必然结果是:易班信息资源传播速度不断加快、易班的社会关注度得到不断提高。因此,易班与其他社会网站一样,也具有随时爆发网络舆情的可能性。在管理模式方面,绝大多数高校现有网络舆情工作体系采用传统的自上而下的垂直管理模式。该模式在处理非紧急事件时能收到一定效果,但是在突发性网络舆情事件中难以实现快速有效地响应。在软硬件建设方面,高校在网络舆情监测工作中对软硬件的建设投入较少,这也直接影响到监测实效[4]。网络舆情监控分析系统因购置成本较高、技术难度较大,故而国内仅有小部分高校采取了有害信息过滤系统、网络监控系统等舆情安全技术措施。大多数高校的舆情信息仍然来源于人工检测、抓取数据的传统方式,该方式难以适应快速多变网络舆情监测的需要。
(三) 易班“虚”“实”交互成效显著,但在网络舆情引导介入方面有待加强
易班与其他网络应用一样,具有虚实二重性。易班的“虚”主要表现为信息内容的虚拟化。作为一个全方位育人平台,易班通过主动对接学校教育教学资源,为学生提供一站式服务,实现网络平台、教育资源、学习空间的共享。例如:东华大学推出“教学资源建设工程”,将教材、课件、视频、科研成果等内容供师生分享,提升教学资源的利用率和附加值;开设“课程答疑互助分享”专栏,增强师生的互动性。
易班的“实”主要表现为建设队伍的实体化和线下活动的实际化。在建设队伍实体化方面,易班在市级层面启动易班体制机制改革,摸索新的建设模式,进一步加强易班核心团队建设,培养了一支年轻且富有战斗力的核心队伍。同时,在学校层面,分别成立了校易班发展中心和易班学生工作站,通过培训、交流,不断提升队伍的工作能力和水平,为易班的全面推进奠定了扎实基础。
易班在“虚”和“实”两方面均取得了一定成效,且交互成效显著,但在这个过程中,有关网络舆情引导相关工作却未充分介入,仍大多停留在表面的项目推进、活动开展等方面,基于背后的数据呈现、网络舆情动态等关注不够。易班作为一个重要的社交平台,数据的激增隐藏着重要的各类网络舆情信息,网络舆情的引导工作至关重要,需要在人员队伍、引导策略等方面对于网络空间进行治理。就现状而言,易班工作中网络舆情引导介入需要增强。
易班发展迅速,已逐渐由上海向全国推广,其所涉及到的学生用户群体数呈指数级增加,基于易班的高校网络舆情信息量海量增长,传统的人工监控方法已经难以应对,监测和研判高校网络舆情需要强有力的信息搜索技术。当前,网络舆情监控研究的主要方法是通过获取舆情话题的主题内容,利用统计方法来实现热点问题发现和话题态势分析,缺少基于知识的推理,也没有专门针对舆情知识库的相关研究。国内具有代表性的舆情监控系统,如方正智思舆情预警辅助决策系统、TRS网络舆情监测系统等,虽提供了较强的数据采集和统计分析功能,但在舆情分析与预警的精准度方面仍存在不足,缺少对不同舆情事件间相互关系的挖掘等。导致这些问题的原因在于系统缺乏完善的底层知识库平台的支持,缺少知识对舆情监控过程的有效引导,导致系统难以准确获取舆情关键信息,从而无法有效实现突发事件网络舆情预警。
易班融合了微博、论坛、博客等多种网络应用,在成为沪上各高校师生活跃度最高的社交平台之一的同时,因其具有政府部门主导、用户实名注册、对象主体集中、专注教育服务等独特优势,为我们深入研究高校学生需求、把握并研判高校网络舆情提供了一个友好的网络平台。因此,易班环境下的高校网络舆情监测应更加关注技术革新,大力加强基于易班的高校网络舆情知识库系统平台的建立,在考虑信息采集的深度和广度的同时, 进一步提高系统的精度与准度,从而及时应对各类网络舆情状况的出现。易班环境下高校网络舆情知识库平台建设是顺应数字时代的客观要求,其势在必行。
(一) 网络舆情知识库的定义
网络舆情知识库包含在舆情数据采集、舆情数据抽取、舆情监测追踪、舆情态势分析等过程中的基础知识和数据。它是关于舆情源、发布舆情的主体、舆情针对的客体、舆情话题主体、舆情分析指标等的描述。通过建立易班环境下的高校网络舆情知识库可以形成易班热点人物指数、热词指数和热点贴文指数等,以便主管部门准确获取网络舆情关键信息,对舆情监控过程进行有效引导。
(二) 基于易班的高校网络舆情的组成
基于易班的高校网络舆情的形成有两个主要的要素:舆情具体指向的事件和舆情参与主体。因此,易班舆情监测和研判的重点应包括易班网络特殊事件、易班网络特殊主体[5]。易班网络特殊事件是指在现实校园或易班网络社区中容易形成巨大影响的重要事件,其关注度高、传播迅速、社会影响范围广,如评奖评优、报送研究生、发展党员等,社会热点事件也是大学生们最为关注的焦点。在易班网络社区中,那些活跃的成员将逐渐成为易班网络空间里的强势声音,而其他易班用户由于从众心理而跟从这些声音,从而使得易班网络舆情易被这些少数主体所主导。同时,由于高校各项事务的运行有一定的时间规律,易班网络舆情监测和研判需要重点关注特殊时段,如网上选课期间、推优入党期间、毕业离校期间等。因此,基于易班的高校网络舆情知识库的基本体系架构是由易班网络特殊事件、易班网络特殊主体、易班网络特殊时段三个子库组成。知识库系统自动实时抓取相关信息,并定期提供相关易班网络舆情分析报告,为高校网络舆情工作提供保障。
(三) 基于易班的高校网络舆情知识库系统平台建设实践——以东华大学计算机科学与技术学院为例
东华大学计算机科学与技术学院作为上海市首批推进易班的试点单位,经过8年多的发展,易班工作成效显著,并积攒了相应的高校网络舆情工作经验。2014年9月,学院结合学科优势,成立易班技术开发工作室,致力于以项目化的运作模式开发和实现各类有东华特色的应用系统,并进行基于平台建设的各类大数据分析统计。该工作室成立后承接的第一项系统开发任务便是配合2014年度上海学校德育实践研究课题“基于易班的高校网络舆情知识库建设”同步推进的实体系统开发,经过一年的开发与测试,第一期系统基本完成。
1. 系统平台架构
在第一期开发实践中,着重完成易班热点人物知识库、易班热词知识库和易班热点贴文知识库三个子库的建立。
(1) 易班热点人物知识库:易班用户是易班环境下网络舆情产生的主体,其特征是影响易班网络舆情形成的直接因素。本库是关于易班热点人物的知识库。易班热点人物是指活跃度高、影响力大的易班用户。易班热点人物的选取标准是易班用户的影响力和活跃度,选取指标是用户发帖量和贴文评论数。易班用户发帖的次数越多、贴文的评论数越多,其在信息传播过程中产生的影响越大,舆情研究价值就越高。对于易班用户,我们主要对用户名、所属群体和贴文数等属性进行编码,在此基础上以贴文数量为参考指标对易班用户进行排序,形成易班热点人物指数。易班热点人物知识库的结构设计为:人物编号、发帖人、开始时间、结束时间、所属群体、发帖数、贴文主题。
(2) 易班热词知识库:热词作为一种词汇现象,反映了一个国家、一个地区的人们在某一个时期普遍关注的问题和事物,具有时代特征,反映一个时期的热点话题及民生问题。本库是关于易班热词的知识库。易班热词包括两类,一是在某一时间段内易班用户提及次数达到一定量的人名;二是在某一时间段内易班用户互动数达到一定量的事件名。易班热词的选取标准是易班环境中出现频率较高的词,选取指标是词出现的频率。建立热词知识库的意义在于希望通过对易班热词的采集、跟踪、整理、分析,探索易班热词与易班用户关注热点及易班用户用网习惯之间的联系,剖析词汇关注群体的情感脉络以及对事件和生活的态度。对于易班热词,我们主要对词、词所在贴文、发帖者等属性进行编码。在此基础上以热词出现频率为唯一参考指标,进行排序,形成易班热词指数。易班热词知识库的结构设计为:热词编号、热词、热词频率、开始时间、结束时间、所属贴文主题、发帖人。
(3) 易班热点贴文知识库:本知识库用于归纳和掌握易班舆情热点动向,对可能演化为网络风险事件的热点事件实时监控,对网络热点特征和发展规律进行深入研究。易班热点贴文是指在某一时间段内易班用户互动数达到一定量的贴文。易班热点贴文的选取标准是易班网上贴文的互动情况,具体指标是贴文的评论数、转载数和点击数。对于易班热点贴文,我们主要对贴文主题、发帖人、所属群体、浏览数、回复数等属性进行编码。易班热点贴文知识库的结构设计为:贴文编号、贴文主题、发帖人、学校、学院、班级、开始时间、结束时间、浏览量、回复数。
图1 易班舆情知识库系统平台架构
2. 系统流程分析
易班的主要数据来自于易班的帖文,建设基于易班的高校网络舆情知识库系统主要围绕易班的帖文进行系统建设和分析。由于易班尚未开放数据查询的公共接口,因此目前对易班的帖文数据主要依靠网络爬虫获取。本系统能够自动获取限定时间段内易班平台的发帖信息,将网络爬虫所得的易班帖文数据经过筛选和清洗之后放入数据库系统中,依靠数据库系统的信息整合能力对易班数据进行分析、数据挖掘,最后根据需要将获得的结果集以图标或表格的形式展示给用户,使用户能够直观地获取易班的数据信息。
图2 易班舆情知识库系统流程分析
3. 系统主要模块设计
网络爬虫模块:本模块是数据获取模块,管理员启动该模块,该模块根据设定的时间,起始网页地址自动从易班网站上获取相关贴文的原网页,并下载原网页存储于数据库中。爬虫采用广度优先搜索,搜索与初始URL一定距离内的网页,保证对浅层网页的优先处理。
图3 易班舆情知识库系统主要模块设计
数据清洗模块:由网络爬虫模块获取并存储于数据库中的原网页包含网页中的所有信息,而这些信息并不都是我们所需要的,我们需要从原网页中获取我们所需要的贴文信息以及发帖人信息。我们利用JAVA程序从数据库中获取原网页,利用HTML解析工具获取需要的信息块,并结合正则表达式工具提取贴文、发帖人、浏览量、回复量等信息,并将这些信息分别存入数据库中的贴文表、用户表等不同表中。
数据分析模块:对存储于数据库中的各种数据表我们还需要作进一步的中文分词分析,获取更多的信息。利用JAVA程序通过设计好的SQL语句生成各类数据报表的视图,并对贴文进行进一步的分词分析。利用分词工具IKAnalyzer将贴文主题进行划分,通过添加用户词库和删除无关词语和虚词等手段确保分词产生的结果的准确性,并通过数据分析将“热词”进行提炼并再次存入数据库。
数据展示模块:最后数据以图表的形式展现给用户,利用PHP连接数据库,从数据库中获取分析后的数据,前台通过ichartjs和HTML5将数据绘制成图像和表格。
本系统基本按照原定计划,根据当前高校网络舆情搜集、研判的基本规律,初步完成“基于易班的高校网络舆情知识库系统建设”第一期相关任务,研究成果兼具理论性和应用性,有较好的参考价值。第二期开发阶段,我们将从以下几个方面进行推进:一是子知识库建立不断完善,在前期易班热点人物知识库、易班热词知识库、易班热点贴文知识库的基础上,拓展功能,完成易班网络特殊时段等子库的开发工作。二是知识库的数据需要增大容量,囿于硬件基础,目前知识库系统的数据仅能以东华大学易班平台所有贴文为样本,并不能建立起易班全网的舆情知识库系统。在后续研究中,应不断扩充样本容量,从而实现更全面的舆情监控。三是知识库的成果需进一步推广。从研究成果来看,热点事件、热点人物和热词的查询已经实现。这对于当前易班教师用户来说,是提升易班用户友好感的一项重要服务。因此,希望能够将本研究成果“基于易班的高校网络舆情知识库系统”软件推广至易班教师用户,为教师提供更多样化的服务。
易班作为沪上各高校师生活跃度最高的社交平台之一,为我们深入研究高校学生需求、把握并研判高校网络舆情提供了一个友好的网络平台。然而,随着易班的快速发展,基于易班的各类高校网络舆情信息呈海量增长,监测和研判高校网络舆情需要强有力的信息搜索技术。基于此,本文提出易班环境下的高校网络舆情知识库平台建设研究,在考虑信息采集的深度和广度的同时, 进一步提高精度与准度,并结合“东华大学计算机科学与技术学院易班网络舆情知识库系统”的开发工作,将理论研究和实践应用有机结合。高校网络舆情知识库平台建设顺应数字时代的客观要求,其势在必行。期望易班环境下的高校网络舆情知识库平台建设为大数据时代下的网络舆情管理体系建设提供有效借鉴和参考。
[1] 陶宇炜,熊长江,王娟琳.高校网络舆情信息监测管理体系的构建研究[J].现代教育技术,2013,(12):111-113.
[2] 陈然,吴桂山.新媒体事件对大学生价值观教育影响的初步研究——易班网络舆情研究系列[J].中国科教创新导刊,2013,(10):88-89.
[3] 曾润喜.网络舆情管控工作机制研究,图书情报工作,2009,(18):79-82.
[4] 张建利,李羽佳.基于易班平台的高校网络舆情事件化解与引导机制研究[J].思想理论教育,2014,(9):81-84.
[5] 曾阳素,刘水强,伍雁鹏,等.对高校网络舆情系统建设的几点思考[J].邵阳学院学报:自然科学版,2012,(4):25-28.
2015-12-21
2014年度上海学校德育实践研究课题“基于易班的高校网络舆情知识库建设”(项目编号:2014-D-116)的研究成果。
虞晨洁(1981—),女,上海人,讲师,硕士,研究方向为思想政治教育。E-mail:yuchenjie@dhu.edu.cn
G641
A
1009-9034(2016)02-0069-06