结合网络暴力的研究设计智能识别网络语言暴力的程序与应用

2020-06-22 13:23黄艳艳朱英浩邱冬冬张石丽

数字技术与应用 2020年4期

黄艳艳朱英浩邱冬冬张石丽

摘要：自2020年3月1日起，《网络信息内容生态治理规定》明确禁止网络信息内容服务使用者和生产者、平台开展网络暴力、人肉搜索，在学界中，已经有大量对网络暴力的定义、分析和治理建议，基于这些背景和基础，本文通过对网络语言暴力这一范围中进行详细的研究，来设计出核心程序，以此更加科学、有效的识别网络语言暴力，并规划了如何使用的流程，希望以此起到净化网络的目的。

关键词：网络暴力;程序设计;机器学习

中图分类号：TP311 文献标识码：A 文章编号：1007-9416（2020）04-0000-00

1研究背景

学界有关网络暴力较为严谨的定义是：网络暴力指由个人或团体通过电子或数字媒体反复实施的，传播表达敌意或侵袭性的信息，意图摧残、折磨他人精神，足以压制受害人反抗的行为[1]。

2020年3月1日，《网络信息内容生态治理规定》发布，其中已经明确禁止网络暴力、人肉搜索等行为，各大主流社交媒体平台纷纷积极响应了政策，将部分大型群体性网络暴力事件的相关话题和评论进行了一些关闭和删除等操作，然而，对于小型的、个体性的网络暴力事件暂时还没有体现有效管理。

近几年里，网络暴力的话题被大家高度关注，尽管网民们已经充分地认识到了网络暴力的威力和危害，但是网络暴力依然活跃在各大热门网络话题中，因此，整顿、治理网络暴力的工作仍旧非常艰难[2]。

大多学者主要提出了完善法律、实名制、提高网民素养、加强媒体把关人的职能、主流媒体的积极引导以及加強平台管理等治理办法。

2设计与应用

2.1设计流程

基于对网络暴力的背景研究并结合了实践过程中对网络语言暴力的新发现，本文从以下方面来设计对网络暴力语言的判断和屏蔽操作。

程序首先将对一个评论区的用户评论进行情感分析，评论较为积极则可以正常发布，若评论的情绪较为负面，则进入第二轮机器判断。第二轮判断将得出评论是不是针对该评论区的个人，如果是并且还包含了网络暴力语言敏感词，则确定该评论属于网络暴力。对于网络暴力语言，将进行三步处理法：第一步，对暴力语言进行屏蔽;第二步，同时对发表该评论的用户进行警告提醒，当警告累计达到五次则进行封号处理;第三步，则是对接下来的用户评论进行会话框提示：“请慎重考虑您的发言，避免出现网络语言暴力”，如图1所示：

2.2程序相关过程及运行结果准确率

该设计主要运用到了Word2vec模型，将爬取到的偏向积极正面的发言数据和负面发言数据进行了词向量的训练，然后用到SVM分类器对语料进行分类，使得机器学会智能判断评论的情感趋势。

首先在各大平台中爬取与网络暴力相关的数据，做好标记，然后进行jieba分词、对数据随机切分，生成训练集和测试集，再用Word2vec模型计算每段话的向量，训练SVM模型，最后对单个句子进行分类，完成情感判断。

在实验运行过程中，情感分析和对判断言论是针对个人还是平台的训练集预测准确率分别达到了82.84%和87.35%，测试集预测准确率较低，在59%和57.32%。过拟合是造成测试集准确率下降的主要原因[3]。

2.3应用环境

由于各类评论环境的不同、相关推送、大数据个性化定制用户喜好等机制，以及对网络暴力语言具有流动性、用户实名信息、平台是否对用户进行强制封号等因素的考虑，该设计的部分功能在实际应用中将会受到一定的限制。

根据抽样调查的数据显示，仅有23.55%的人有非常强烈的意愿来使用这样一个可以屏蔽网络语言暴力的程序，大多数人认为这种方法治标不治本，没有较强的使用意愿。

从平台和用户两方面评估后，本文认为该程序可行性高，能做成平台的相关插件，根据用户的个人意愿自主选择，让那些已经受到、害怕受到网络暴力的个人用户有一个较为优质的网络语言环境。

3结语

2017年Google开发出了一款“Perspective”的工具，利用机器学习的方法来检测网络上侮辱、骚扰等语言，[2]但在诽谤及讥讽性质的言论的识别上还有难度。2018年知乎瓦力升级，可以判断出阴阳怪气的评论并进行折叠，但是用户对于这个把正常评论一起折叠的功能不太认同。

作者意在采集暴力语言数据，再用人工智能技术进行主动学习，设计智能检测网络暴力语言的程序，并将之作为社交平台的附属插件，起到净化网络用语环境的目的。相较于Google和知乎这种大平台对“语言”识别的直接开发，作者换了一个思路，从判断语言情感的方向入手，结合了网络语言暴力中一些特定的词汇库，判断出该语言是不是针对个人的，由此来进行判断，在随机测试环节达到了非常好的效果。

但是在数据判断的准确度上还有待提升，对未来，作者提出了新的数据模型训练，寻找大量有关带有隐喻性、讽刺性、指代性网络暴力语言分别通过机器专门训练其背后的情感模型，还可以专门训练机器来识别语言中是否含有隐喻、夸张、讽刺等手法，来进行更好、更精确的识别。

参考文献

[1] 徐颖.论“网络暴力”致人自杀死亡的刑事责任[J].政法论坛，2020，38（1）：132-142

[2] 韩蒙如.网络暴力背后的心理和语言机制[N].社会科学报，2019-11-28.

[3] 任仝.网络语言暴力现象分析[D].长春：吉林大学，2019.

收稿日期2020-03-07

基金项目：河南省大学生创新性实验训练计划项目资助（201910475144）;河南大学大学生创新性实验训练计划项目资助（201910475144）

作者簡介：黄艳艳，女，上海人，本科，研究方向：网络与新媒体。

Combining Research on Cyber Violence and Designing Programs and Applications that Intelligently Identify Cyber Language Violence

HUANG Yan-yan，ZHU Ying-hao，QIU Dong-dong，ZHANG Shi-li

（Henan University， Kaifeng Henan 475000）

Abstract：Since March 1， 2020， the "Regulations on the Ecological Governance of Network Information Contents" explicitly prohibit users and producers of network information content services， platforms from carrying out cyber violence and human flesh search. In the academic community， there have been a lot of definitions， analysis and governance suggestions on cyber violence. Based on these backgrounds and foundations， this paper studies the scope of cyber language violence in detail. To design the core program， in order to identify the cyber language violence more scientifically and effectively， and to plan how to use the process， hoping to purify the network.

Keyword：cyber violence;programming;machine learning