大数据时代对网络环境的管理

2021-07-08 09:46王文强江远帆方冉冉卫清
数码影像时代 2021年7期
关键词:弹幕直播间屏蔽

王文强 江远帆 方冉冉 卫清

编者按:在这个到处被流量充斥的时代,网络直播恶俗弹幕不断出现,影响网络环境的同时,在一定程度上也影响着部分未成年用户的身心健康,网络弹幕的相关问题亟待解决。本项目基于利用Python爬虫、 Selenium模块、Matplotlib等模块与技术完成对于bilibili恶俗弹幕问题的优化处理。本项目将直播过程中出现的弹幕抓取并存储于目标数据库中,再通过设定的语义框架对抓取内容进行实时且有效地弹幕过滤,以此来管理弹幕中出现的恶俗词汇与不良言论,从而达到净化网络环境的最终目的。

问题背景

网络让人们言论自由、话语权趋于平等的同时,也为一些人进行网络暴力提供了机会。虚拟的网络环境致使网络发言者可以以虚拟的网名和网络ID的形式,隐藏其真实身份,这就造成网民言说责任与真实身份的断裂,使其有了放纵自身网络行为的机会。虽然现在部分软件已经开始渐渐提倡用实名认证的方式让用户做到文明发言,但是网络暴力、恶俗弹幕的问题依旧存在。

目前弹幕言论监管还主要依靠人工进行删除与禁言,操作繁琐且常常出现“漏网之鱼”。“弹幕”最早时为军事用语,指的是用炮弹对目标进行密集炮击。后来因为niconico①播放器的评论功能与当时的弹幕射击游戏很是相似,所以才渐渐发展成现在我们所说的视频或是直播中的弹幕功能。随着弹幕文化在大众、尤其是年轻群体中的影响力不断扩大,弹幕内容也逐渐成为视频传播过程中非常重要的一部分,但目前诸多平台弹幕监察措施和过滤手段却迟迟没有得到优化,伴随着的是恶俗弹幕内容的不断出现。

系统设计思路

为了能够达到直播间弹幕收集并快速有效屏蔽的目的,本项目使用Python + Selenium模块模拟浏览器对bilibili网站某一直播间、某一具体时段的弹幕信息进行有效抓取,并将这些抓取到的弹幕数据保存到提前设定好的MySQL数据库中。我们可以利用Matplotlib等模块对数据进行可视化分析,观察弹幕构成及一些弹幕中最常出现的词汇,并对结果进行分析同时提出一些可行性建议。

此外通过对抓取弹幕信息进行语义分析与语义框架的相似度判断,确定弹幕的过滤条件并进行快速的过滤操作。依据当前视频弹幕文本的语义框架和一个经过过滤后的标准语义框架,计算两个语义框架的相似度,根据此处的语义相似度,确定是否过滤所述当前弹幕。这在简化用户操作、提高视频弹幕过滤效率的同时完成了对恶俗弹幕的过滤与屏蔽。

文本数据收集

文本数据选择

我们利用Python爬虫等技术来获取视频和直播的弹幕及其他信息,并以获取的数据为基础来对恶俗弹幕进行有效屏蔽。在视频和直播的文本数据之间进行选择,最终我们选择对直播的数据进行采集,理由有如下几点。

(1)直播相比于视频更有时效性。视频中弹幕时间跨度较大,视频发布后的任意时间人们都可以进行弹幕评论,而直播中的弹幕只有在直播过程中才可以发送,因此直播弹幕更具有时效性。

(2)直播相比于视频更具有针对性。根据前期问卷调查我们发现,观看直播的人群一般只对特定分类的直播感兴趣,而观看视频的人群通常对各类视频都会有一定程度的浏览,人们发送的弹幕评论可能与视频内容无关,而直播弹幕则绝大部分都与当前直播内容有关,因此直播弹幕更具有针对性。

(3)直播相比于视频更有互动性。在观看视频的时候,观众往往无法与视频发布者进行实时的互动,在同一个视频中弹幕之间的互动也往往无法在同一时间进行。而在一场直播中,主播能很及时地与弹幕进行互动,且由于观众都在这一时间段观看直播,使得直播弹幕更有互动性。

部分采集数据

以下是8月18日B站主播“向晚大魔王”直播间的部分数据。

(1)进场及互动数据

(2)弹幕数量统计

(3)弹幕词频统计

我们对部分主播直播情况进行了单场直播数据分析,与此同时,对于单个主播,我们也会进行每月的数据总结,并以此为基礎进行深层数据分析。

系统实现

功能实现

本项目功能实现主要依靠于Python和MySQL数据库。以下是本项目功能实现部分的相关介绍。

(1)运行环境需求

采用Python3、requirements.txt中的库以及MySQL数据库。

(2)直播信息抓取

使用Selenium模块模拟浏览器对直播间信息进行抓取,这部分主要用于抓取直播间的所有信息,例如弹幕、SC、进场等数据,并将抓取到的数据保存到提前设定的MySQL数据库中。

(3)文件使用

修改直播房间中room_id、target_id、medal _room_id,通过修改这些关键数据我们可以抓取任意一位主播的直播间信息。在修改好文件中的参数后,运行程序会自动生成MySQL中的数据表,程序终端会有心跳包等信息输出,操作者可以连接数据库查看最新的信息。

(4)恶俗弹幕关键词屏蔽

通过对抓取弹幕信息进行语义分析与判断,确定弹幕过滤条件并进行过滤操作。依据当前视频弹幕文本的语义框架和一个经过过滤后的标准语义框架,计算两个语义框架的相似度,根据此处的语义相似度,确定是否过滤所述当前弹幕。

关键技术

该项目核心技术是利用Python抓取直播间的数据,并链接到MySQL数据库自动生成一个数据表。该方法需要利用以下几个Python库实现:

其中每个库都将负责不同的模块:

PyMySQL库的作用是链接Python与MySQL数据库,这样Python爬取的数据就可以存储到数据库中方便今后的调用;jieba库的作用是将一些较长的弹幕进行分词,以输出较短的分词进行词频统计;aiowebsocket库的作用是获取需要爬取网站的数据,是本项目所有数据的来源;Matplotlib库的作用是利用我们所获取的数据进行绘图,将获取的文字化数据进行可视化处理;NumPy库的作用是处理多为数组的数据,一般我们将NumPy库与Matplotlib联合使用以达到数据可视化的标准;Imageio库的作用是提供了一个简单的接口来读取和写入大量的图像数据,包括动画图像、体积数据和科学格式。

至于弹幕的过滤,该技术主要应用于播放器的弹幕识别与屏蔽,主要内容包括:获取模块,用于从数据库中获取弹幕字段;判断模块,结合具体语义分析用于判断弹幕是否为恶性弹幕,过滤条件简单来说就是采用预设的语义分析装置对所述每个弹幕文本进行语义分析,并确定一个标准的过滤语义框架;分析模块,主要用于判断当前弹幕语义字段同标准的过滤语义框架之间的相似度;确定模块,根据相似度确定是否对该弹幕字段采取屏蔽措施。

通过这些我们可以获取所需要的数据,将这些数据进行可视化分析,并将这些弹幕数据带入弹幕过滤功能模块,完成弹幕从搜集到判断过滤的整个流程,以此为基础来发现并解决直播与视频弹幕中所出现的一些恶俗问题。

系统测试

本部分为了完成该程序的测试工作,我们利用自己的B站账号开启了一次直播(测试结束后统计弹幕确定无其他非测试弹幕出现)。同时,安排其他8名测试人员作为直播观众有计划地发送弹幕,计划测试时长为六分钟,规定发送弹幕数量为30条,其中每人发送的恶俗弹幕内容(采集于网站其他直播间恶俗弹幕条数排名前十的弹幕内容)数量为5条,弹幕发送先后顺序没有具体限制。我们调用程序并借助Google浏览器对该测试直播间的数据进行实时抓取,经过一系列的筛选与过滤后我们发现,程序后台共抓取240条弹幕信息,其中被认定为恶俗弹幕遭到程序屏蔽的弹幕数量为38条,与理论值40相差不大,说明该程序能够起到一定的恶俗弹幕过滤屏蔽作用。

结语

如今,众多视频网站因为弹幕质量低而常常饱受争议,网络暴力、“带节奏”甚至是一些恶俗弹幕时常因为平台监察措施不足而呈现在用户眼中。本项目虽然从一定程度上完成了对于恶俗弹幕的分析与过滤,但是结合用户体验,在使用过程中我们发现程序需要优化的地方还有很多,例如通过推出不同的屏蔽功能的组合更精确地解决用户对于弹幕管理的需求。最后,我们要在保持内容多元化的同时,让弹幕文化朝着更健康的方向发展,弹幕生态建设之路任重道远。

注释:

①Niconico动画(日语:ニコニコ動画,简称:Niconico、N站、Nico等 )是日本NIWANGO公司所运营的在线弹幕视频分享网站。其中“Niconico”在日文中为微笑之意,动画在日文中则为“影片”的意思。

参考文献:

[1]陈代波.近年来我国网络暴力问题研究综述[J].青少年犯罪问题,2011(02):63-66+53.

[2]杨彬彬. 基于多谓词语义框架的网络文本过滤技术研究[D].北方工业大学,2018.

[3]北京奇艺世纪科技有限公司. 视频弹幕过滤方法及装置的制造方法:中国105357585[P].2016-02-24.

[4]自動化技术、计算机技术[J].中国无线电电子学文摘,2011,27(06):163-242.

本文受安徽财经大学大学生创新创业训练计划资助(S202010378219)

第一作者:王文强(1999—)男,汉族,安徽芜湖人,安徽财经大学统计与应用数学学院,2019级本科生,数据科学与大数据技术专业。

猜你喜欢
弹幕直播间屏蔽
“羲和号”开直播间
把生活调成“屏蔽模式”
HOLLOW COMFORT
“弹幕”防御大师
我们的直播间
小鬼进军直播间
进军营直播间
一大拨弹幕正在向你袭来……
满足CLASS A++屏蔽性能的MINI RG59集束电缆的研发
几乎最佳屏蔽二进序列偶构造方法