李金海,胡 旭
(泰州学院计算机科学与技术学院,江苏 泰州 225300)
网络作为日常交流、获取信息、表达情感的重要渠道,已成为高校师生学习生活的重要组成部分。高校网络舆情的影响力与日俱增,其中高校大学生是最活跃的互联网用户群体,他们通过互联网对社会和高校热点话题来表达自己的观点和看法[1-2]。
百度贴吧[3]是学校校园文化的重要载体,是学生发泄情绪、表明诉求的关键渠道,是大学生认识社会、交流思想情感的主要媒介。其内容涉及学校教学管理、生活环境以及学生的爱情交友,融合了学生关注的热点话题。跟贴者接连不断,看法也多种多样,部分内容对于校园稳定和人才培养产生了潜移默化的改变。目前贴吧存在的问题诸多,例如贴吧隐秘性、吧民对主题表述的情绪化、贴吧信息的虚假化、部分帖子内容庸俗且低级。因此,学校在尊重网络传播规律基础之上,应该加大指引力度,成立有效的双向沟通机制,消弭沟通障碍,保障高校稳定,促进高校往积极阳光的方向发展[4]。
在大数据背景下,互联网对高校集体性事件的蔓延早已产生了广泛而深远的影响[5]。虽然此类问题已经得到高校有关部门的高度正视,但在互联网时代下仍存在高校对于网络舆论分析的欠缺,应对体系构建缺失,对此问题的应对不全面。因此,对高校网络舆情的研究有利于加强高校对舆情的应对措施[6-7],弥补体系构建缺失,更有针对性地提供理论依据去分析高校网络舆论的热点话题。
西方有关舆情的研究最早开始于民意研究[8]。18世纪Rousseau[9]首次提出public opinion即公众意见,作者认为主权是公意的使用,舆论是人民的共同意志,舆论是“公众对社会或公共事务的意见”。
20世纪初以来,西方发达国家的学术界开始研究网络舆情,主要集中在传播学、政治学及新闻学[10]。李普曼先生是传播学史上最具有影响力的代表人物之一,在其代表作《公众舆论》中,他全面阐述了公众舆论的形成,强调了现实和虚拟环境对公众舆论的影响[11]。
关于舆情的出现我国最早可追究到古代,据现有文献记载,“舆情”一词出现在诗人李中的《献乔侍郎》一诗:“格论思名士,舆情渴直臣”[12]。
关于高校网络舆情预警研究,刘海鸥等人[13]以微博为数据源,基于警情、警源、警兆3个维度,通过舆情态势计量模型定量化研究高校网络舆情。He等人[14]基于舆情热度指数和时间序列,在通过LDA主题模型提取主题的基础上,利用短期趋势预测结果,提高高校网络舆情预警分析的效率。
关于高校网络舆情引导研究,郑晓娜晓等人[15]指出:高校在学生网络舆情引导策略中,需要加强网络文明队伍保障机制,完善校园新媒体管理机制,建立高校学生网络舆情监控与反馈机制,厘清高校学生网络舆情深层意蕴。臧运蕾[16]提出了新媒体时代下需采取的引导战略,重点包括提升大学生网络素养,发挥网络“大V”的舆论引导作用,完善网络舆情监测与引导机制,提升高校网络舆情管理队伍的专业素养等内容。
我国目前对这一领域的研究己经形成了一个较为系统的理论框架[17],但必须承认关于高校网络舆情热点话题的研究还存在些许不足。所以需要借鉴高校网络舆情研究的相关理论知识[18-22],结合高校在百度贴吧背景下的优势使高校对大学生学习生活上有一个正确的引导,以及对大学生信息行为进行准确指导和规范。
高校网络舆情是一把双刃剑,在带来积极正面影响的同时也会造成消极负面的影响[23]。从技术上来讲使用Python网络爬虫获取贴吧数据,然后使用Python数据分析技术分析贴吧得到的帖子进一步去研究高校热点话题是可行的。从泰州学院吧的发帖信息来看研究此课题也是可行的,因为同学们大多都是讨论校园学习和日常生活中出现的热点话题。每一个贴吧注册用户都可以成为话题表达者和评论者,这使百度贴吧的功能不仅仅是一个发布兴趣的网站,而且成为了吧友相互分享和互动讨论的文化交流社区。
首先确定采集数据,在基于泰州学院百度贴吧进行网络爬虫的基础上获取泰州学院贴吧所有主题帖信息、获取泰州学院贴吧关于考研贴的信息、获取泰州学院贴吧关于招聘贴的信息。然后使用数据清洗的方法进行数据预处理,将数据中大量重复值如泰州学院、学校、招聘和考研等关键词剔除,再调用def write_excel_xls(path, sheet_name, value)函数将得到的数据以excel文件的形式保存到本地。接下来对预处理后的数据利用Python数据分析技术进行数据分析,通过词云图、绘制饼图和直方图的方法进行数据分析的可视化展示,最后根据数据分析得到基于百度贴吧关于泰州学院热点话题分析的一系列结果,进一步得出研究结论。高校热点话题数据分析流程如图1所示。
图1 高校热点话题数据分析流程
根据图1的数据分析流程可知,网络爬虫模块、数据预处理模块、数据存储模块、数据可视化分析模块是高校热点话题数据分析模型构建中的关键环节。下面将分析各重点模块的构建流程。
1)网络爬虫模块。
网络爬虫模块的构建采用Python的requests与bs4库实现对贴吧网页的获取与解析。爬虫目标为获取泰州学院贴吧所有主题帖信息、获取泰州学院贴吧关于考研贴的信息、获取泰州学院贴吧关于招聘贴的信息。首先打开网站百度贴吧的页面,搜索泰州学院吧,这时进入泰州学院吧的网页,需要点开吧内搜索链接,依次进入详细主题吧网页、考研贴页面、招聘贴页面,这就包含了3次爬取所需要的信息。然后分析相关的网站链接规律,对每一页采用for循环,调用excel将采集到的信息写入其中,其次是对列表的每行每列进行循环,最后调用write函数将得到的贴吧内容写入excel表格中。爬虫的运行基本流程如图2所示。
图2 网络爬虫模块基本流程
2)数据预处理模块。
数据预处理模块的构建采用Python的beautifulsoup库在解析网络爬虫模块爬取的html文件基础上,通过xlutils库实现数据的复制、分割、筛选等预处理操作。从百度贴吧——泰州学院吧的网页地址获取html文件得到的是各种标签,格式混乱,需要用beautifulsoup库进行数据预处理,使用beautifulsoup库可以定位需要采集数据的所在位置,然后筛选到泰州学院吧主题贴的内容和主题帖的回复量,保存到名为泰州学院吧帖子_评论数据_原始的excel文件中。最后读取原始文件里的内容,利用for循环,循环列表里面的第一列,再嵌套一个if表达式进行去重处理,将原始文件中重复的帖子进行删除,保存到名为泰州学院吧帖子_评论数据的excel文件中。数据预处理模块如图3所示。
图3 数据预处理模块
3)数据存储模块。
数据存储模块的构建采用Python的xlrd与xlwt库实现对网络爬虫模型爬取信息的写入与读取。先定义一个write_excel_xls函数,设置path、sheet_name和value这3个参数值,获取需要写入数据的行数。然后使用xlwt(写入)库新建一个工作簿,通过sheet=workbook.add_sheet(sheet_name)在工作簿中新建一个表格,再使用for循环将对应的行和列的数据写入表格中。最后用workbook.save(path)保存工作簿,输出“xls格式表格写入数据成功!”。
再定义一个write_excel_xls_append函数,设置path和value这2个参数值,通过xlrd(读取)库打开之前拿到的工作簿,获取工作簿中的所有表格,即所有表格中的第一个表格和表格中已存在的数据的行数。然后使用new_workbook=copy(workbook)将xlrd对象拷贝转化为xlwt对象之后再获取转化后工作簿中的第一个表格,用for循环将需要追加的数据写入表格中。最后用workbook.save(path)保存工作簿,输出“xls格式表格【追加】写入数据成功!”。
4)数据可视化分析模块。
数据可视化分析模块的构建是在采用Python的jieba库进行文本内容分词的基础上,通过wordcloud库进行词云可视化,以及matplotlib库绘制饼图和直方图。数据可视化分析包括词云图、设计饼图和直方图设计。词云图设计需要使用中文分词工具jieba和词云生成工具wordcloud,通过读取“泰州学院吧帖子_评论数据”excel,用jieba进行分词,使用stopwords和ciyun stop设置停用词生成词云图。词云图设计如图4所示。
图4 数据可视化分析模块-词云图设计流程
饼图和直方图设计需要使用绘图工具matplotlib,通过读取“泰州学院吧帖子_评论数据”“招聘数据”和“考研数据”excel,调用pie()函数和bar()函数绘制饼图和直方图。饼图和直方图设计如图5所示。
图5 数据可视化分析模块中的饼图和直方图设计
基于Python数据分析技术的高校热点话题数据分析模型,由于Python数据分析技术的简洁性以及强大的第三方库功能,模型构建流程较为清晰,实现技术较为便捷,相比于传统的采用LDA模型的热点话题分析模型,该模型不需要预先设定话题的数目,另外,LDA模型适用于较为复杂文本的主题提取,而百度贴吧的主题帖文本形式较为简单,因此,采用基于Python数据分析技术也可以完成热点话题的提取,而且由于模型算法的简洁性,在模型运行效率上也具有一定的优势。
图6 泰州学院吧部分主题帖数据
本文以“泰州学院吧”贴吧为数据来源,采集从本吧开贴到2020年2月20日的数据,本吧共包括18661条主题,贴子数为821329篇,泰院学子数为46878个人,采集其中主题帖部分数据。数据采集过程分为2个部分:
1)首先利用Python的requests与bs4库实现对贴吧网页的获取与解析。再利用for循环和write函数来匹配所要抓取的主题帖标题、回贴量数据,然后保存到名为泰州学院吧帖子_评论数据_原始xls文件中。最后将拿到的数据利用for循环对列表进行去重处理,去掉重复的帖子,图6为去重后部分贴吧主题贴数据。
2)同样利用Python的requests与bs4库,重点在于对主题帖标题下的考研和招聘相关内容的抓取,最后保存为xls文件。图7为部分贴吧考研贴数据。
图7 泰州学院吧部分考研帖数据
在基于实验数据的基础上,对泰州学院贴吧里的热点话题进行数据可视化分析。
3.2.1 主题帖词云图分析
matplotlib是Python的作图工具,结合wordcloud将泰州学院吧主题帖“标题”这一列数据做词频统计,使用jieba模块将字符串分割为文本列表,依据文本生成词云实现数据可视化,得到所有主题和考研相关内容的词云图如图8与图9所示。
图8 主题帖的词云图
图9 考研贴的词云图
由图8可知,论文题目、英语四级、两室一厅、学长学姐等在主题帖标题里出现的频率相对较高,高校管理者可根据此主题帖标题来了解学生们在日常学习生活中比较关心的话题是什么,同时高校学生也可通过此结果来掌握泰州学院吧能给自己带来什么所需信息。从词云图中也可看出平日里泰院学子较多关注的是毕业论文题目、校外租房和学长学姐与学弟学妹之间的交流。
从图9可知,泰州学院吧里考研相关帖中出现最多的词语为“资料”“合租”“研友”,这说明考研学子在备考过程中较关心的是资料和合租问题。从中可以看到“图书馆”“自习室”词语,这也说明泰院学子喜欢的备考地点在图书馆和自习室较多,同时可以看到“英语”“计算机”“心理学”和“政治”这些都属于考研科目。
3.2.2 主题帖回帖量TOP10分析
运用plt对象将泰州学院吧主题帖里前10的回帖数量绘制成饼图形式。在制图前需要在excel文件里删除回复量第一的帖子“【泰院吧务】此贴为专业引水渠”,此贴是吧主和吧务用来发送贴吧规则的帖子,里面的数据多以2013年和2014年为主且多为表情包,对此研究没有意义,故删除。主题帖回帖量TOP10如图10所示。
图10 主题帖回复量TOP10饼状图
由图10可知,可通过回复贴TOP10得知在校园贴吧里泰院学子关注最热的话题是什么。“留下你们学校,说不定能找到高中校友哦”此贴回复量占比18.1%,许多人在刚来到一个新环境时,都会迫不及待地想要找寻身边所熟悉的共同话题,以此来适应新环境。“手机号后两位加起来等于100的,你们两交往试试”和“单身狗都进来,楼主给你们牵红线!”这2个帖子都是关于大学生寻求交往对象的帖子,“泰州学院招生常见问题及答疑咨询帖”此帖子每年都会发布,暑假之际会有较多高考生咨询泰州学院的录取分数、学校环境和住宿条件等问题。
3.2.3 考研和招聘帖子直方图分析
运用plt对象将泰州学院吧主题帖里考研和招聘帖子分别以X轴为回帖时间,Y轴为帖子数量绘制成直方图形式。直方图如图11和图12所示。
图11 考研帖子数量与回帖时间的直方图
从图11可知,泰州学院吧里的考研帖子在1月、2月、5月、9月和12月发帖数量较多。在1月份和2月份是考研了解和准备阶段,此时期在贴吧里咨询相关备考专业、院校和资料,以及寻找研友和租房室友的人较多;在考研备考迷茫期9月份考研帖子达到了高峰,在贴吧里,泰院考研人会了解别人的备考情况和心情,然后大家会相互鼓励加油;考研最后一个月12月份里,贴吧里考研贴又再一次热起来,此刻大家都讨论一下关于最后时刻的备考心情和状态。
图12 招聘帖子数量与回帖时间的直方图
从图12可知,泰州学院吧里的招聘帖子在12月发帖数量远超其他几个月。其原因可能有2个:1)在过去的10月秋招里很多大四学生并没有多花时间和精力在找工作上,秋招一过,才感觉到内心慌张;2)临近寒假,很多学生咨询寒假实习和兼职等问题。
4.1.1 发布帖子信息行为研究
通过对获取到的贴吧数据,提取2019年至今的主题帖发帖数量,然后再剔除无效数据和考研招聘帖后得到359个主题帖,最后按发帖数量前5进行整理。
表1 发布热点话题帖子情况统计
从表1可看出泰州学院贴吧里平日发得较多的帖子是情感交流的“找人谈心”和信息分享的“社团介绍”“租房被骗”“外卖被偷”,对校园热点帖子发布的次数做统计,在关注此贴吧的4.6万人中,2019年发帖数极少,说明现在泰院学子在贴吧发布帖子表达自己的情感兴趣逐渐降低。但是从少数的359个主题帖里的5个热点帖子可得知,在贴吧里发布的帖子多是与日常校园生活和经历相关。类似于外卖被偷和租房被骗这样的事件在校园中时有发生,但是少部分同学会选择在网上进行吐槽和曝光,说明绝大部分同学对于身边所发生的校园热点事件都是持旁观态度,仅仅是想通过别人之手去获得更多的信息,也不愿过多地暴露自己。
4.1.2 回复帖子信息行为研究
通过获取的贴吧数据,提取2019年至今的主题帖回帖数量,然后再剔除无效数据和考研招聘帖后得到15978条帖子,最后按回帖数量前5进行整理。
表2 回复热点帖子情况统计
表2中的“你快乐吗?”和“缩写心里小秘密”这2个热帖都属于情感发泄,可看出同学们喜欢在很多人都不认识的网络环境里发泄自己内心的情感。贴吧里关于招聘信息的发帖数量占比较大,其中存在不少虚假信息导致同学们的钱财和身心受到一定的伤害,对此,高校管理者可采取一定的措施制止这样的事情发生和蔓延。在15978条帖子里热点帖子回复的占比为4.8%,比例较小,说明更多的学生还是对热点抱着旁观的看法,只是想打听事件过程,并不乐意参与其中。
4.2.1 建立以高校学生为主的校园媒体组织
通过数据分析结果得知,贴吧上多是相关日常学习生活的问题,譬如学生常常咨询考研相关资讯、招聘和租房等。所以高校应建立以高校学生为核心的校园媒体组织,主要是培养一批以高校学生为主的校园舆情监测和控制员。校园媒体在工作过程中,对同学们发布在校园网络平台上的言论和诉求进行监测和追踪,然后实时地进行问题回复,这样能够在降低同学们被骗风险的同时也提高了校园舆情监测质量。
4.2.2 建设高校大学生网络舆情引导机制
首先要建立高校舆情引导队伍,这支队伍要求具备专业的网络舆情引导知识,还需要了解高校大学生的学习生活规律。其次,要培养具有舆论领导力的师生,在发生舆论事件时才可在舆论中占据主导地位,引导事情往好的方向发展。最后高校管理者要做到信息公开,在发生校园突发事件时,高校不应隐瞒实情,这样可有效防止谣言散布[24]。
4.2.3 提升高校大学生网络素质
互联网时代,高校大学生容易迷失在充满诱惑的网络世界里,造成许多无法避免的错误。所以高校需要开设关于如何提升大学生网络素质的教育课程或者讲座去加强大学生网络道德素养,可联合相关公安部门共同组织校园网络安全宣传活动,强化大学生网络安全意识,提高他们的自身辨别能力。
4.2.4 开通高校学生信息咨询服务平台
首先高校需要开设官方校园网络媒介,例如在贴吧、微博、微信公众号之类的媒介开通官方账号来发布校园信息,使得同学们可以更加方便地了解校园新动态,这样可有效避免出现虚假信息,诸如招聘和租房类的虚假信息。
然后大学生正是处于渴望得到关注感,体验爱情的成熟时期,情感需求更是比比皆是,所以在数据分析结果中,多是情感发泄和情感交流的帖子。对于大学生们在网上最常关心的情感类的问题,高校可设立相关校园感情生活评论中心媒体,给同学们提供咨询平台空间,引导正确的情感观。
最后高校工作者应关注同学们在平台上的咨询信息,比如外卖被偷、教室不开空调和图书馆占座等校园时常发生的热点话题,这样可了解学生们日常所需,然后采取相应措施解决同学们的难题,才能进一步更好地营造一个和谐美好的校园环境。
互联网时代,使网络得到了人们高度的关注,特别是高校大学生在网上肆意表达自我,彰显个性。同时他们借助一定的网络媒介和平台去发表评论,宣泄情绪,使得高校网络舆情影响和规模变得更大。百度贴吧作为高校大学生常用的社交网络平台,从网络舆情的特征、引导等去认识高校网络舆情传播,可以帮助学生们更有效地获取贴吧网络讯息,同时有助于高校管理部门正确及时引导高校网络舆情。
本文的分析具有一定局限性,选择的实验数据是以百度贴吧泰州学院吧为例,不能完全概括高校网络热点话题舆情。另外本文只选择泰州学院吧的主题帖内容和回帖数量的数据来分析高校网络舆情下大学生信息行为特点,实验数据不够全面。在接下来的研究中,将增加实验量和关键词获取数据,进而得到网络舆情下高校大学生信息行为特点和发展趋势,从而可以提出管控和引导建议。