基于情感分析的恶意发帖检测方法研究

2014-04-23 05:06:24邹明
电脑知识与技术 2014年7期
关键词:聚类分类

邹明

摘要:随着移动互联网时代的到来,针对各大网站产生的海量发帖信息,该文设计了一个恶意发帖检测系统,将海量的帖子进行分析整理,找到恶意发帖信息。本系统采用文本情感分析和数据挖掘技术,对互联网中的帖子信息进行分类整理,建立帖子库,接着对帖子进行文本情感分析,聚类恶意发帖信息,最后采用SVM算法对恶意发帖进行分类,识别出具体的恶意发帖并进行预警处理,具有较高的实际应用价值。

关键词:恶意发帖检测;文本情感分析;SVM;分类;聚类

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2014)07-1403-04

随着互联网( Internet)的蓬勃发展,网络作为一种新的媒介形式,已被人们广泛使用。互联网的发展过程“是一个时时处处有人参与的、不断演化的、自适应的、不断涌现出新的整体特性的过程,是一个开放的、人在其中与社会系统紧密耦合的复杂巨系统[1]”,其业务流量自相似、拓扑结构无尺度等特性的发现为人们正确认识和管理互联网起到了重要作用。

网络论坛是网络舆论形成的一股重要力量,广大网民通过网络来表达观点,一旦遇到社会热点问题,瞬间就能形成巨大网络的舆论。网民通过“发帖”发表意见、参与舆论形成,与论坛网站共同构成了人机结合的虚拟系统[2]。以网络水军为主体的恶意发帖能主导舆论走势,产生错误的舆论导向以及消极的影响,所以对恶意发帖的检测就显得尤为重要。

本文通过对大量论坛发帖信息进行收集分析,形成帖子库,并对帖子内容进行文本情感分析,产生恶意发帖聚类,接着使用支持向量机(SVM)对恶意帖子进行分类,实时产生预警信息,并对发帖源头进行干预。

1 理论背景

基于情感分析的恶意发帖检测系统的分析与研究中,涉及到的理论主要有三个方面,分别是数据挖掘技术,文本情感分析和支持向量机。

1.1 数据挖掘技术

数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和机器学习领域的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的过程[3]。

数据挖掘的分类、聚类、关联规则、预测算法能很好的应用到恶意发帖的分析检测与追踪之中。主要处理如下:

1) 可以對帖子库中的恶意帖子根据恶意的等级不同进行分类处理;

2) 可以对恶意帖子进行聚类分析,找出它们的团伙关系;

3) 利用关联规则,找出发帖人与不同帖子之间的关联关系;

4) 利用预测技术预测出哪些发帖人有恶意发帖的趋势;

5) 利用帖子间的文本的近似的比对,找出某个人多次改变手法发帖。

1.2 文本情感分类

文本情感分类是指通过挖掘和分析文本中的立场、观点、看法、好恶等主观信息,对文本的情感倾向做出类别判断[4]。文本情感分析使用文本极性分析将帖子分为正面或负面,论坛发帖文本情感分析具体工作流程如图1所示。

1) 观点摘要。从一个或若干包含主观性信息的文本文档中概述出其中主观性信息的主要内容。基于观点的摘要分为两种,一种是单文档摘要,另一种是多文档摘要。

2) 文本极性分类。针对给定的文本,使用情感分类方法,识别其中主观性信息的倾向是正面还是负面的。Naive Bayes、最大熵分类(Maximum Entropy Classification)和支持向量机是常用的情感分类方法。

3) 主观和客观识别或分类。识别文本是对事实的描述(客观的文本)还是包含有意见、评价等主观性信息(主观性文本)。

1.3 支持向量机

支持向量机(SVM)是由Vapnik在1963年解决模式识别问题时提出了支持向量方法,这种方法从训练集中选择一组特征子集,使得对特征子集的划分等价于对整个数据集的划分[5]。

SVM从线性可分情况下的最优分类面发展而来,广泛应用于数据分类、手写识别等领域。SVM考虑寻找一个满足分类要求的超平面,并且使训练集中的点距离分类面尽可能的远,也就是寻找一个分类面使它两侧的空白区域(Margin)最大。

3 系统功能分析

整个系统的设计与实现,包括网络发帖采集系统,网络发帖倾向性分析,恶意发帖分析检测引擎和恶意发帖分析监测与监控追踪系统,下面就四个系统的功能进行分析。

3.1网络发帖采集系统

网络发帖采集系统主要功能是完成网络发帖数据的实时采集整理,其中负责采集数据的是网络爬虫,其运行具体步骤如下:

1) 用户通过配置管理界面配置爬虫的数据源、页面解析逻辑、数据存取逻辑和高级设置,配置数据将保存在爬虫配置数据库中;

2) 用户在数据抓取监控界面开始运行数据抓取任务时,系统通过读取页面表中配置数据利用爬虫装配器组装爬虫执行体,读取高级配置爬虫控制器为爬虫执行体分配执行线程、URL队列等运行时参数,爬虫将在爬虫控制器的管理下运行,可进行任务调度、定时执行、自动更新、实时监控等操作;

3) 爬虫抓取的数据将根据配置自动保存到相应数据库中,用户可以通过数据库管理界面进行查看、导出等操作。

3.2网络发帖倾向性分析

网络发帖倾向性分析主要文本情感分析的方法进行帖子分析,因为一个发帖主体可能在多个评论地点(论坛)上进行评论,本系统在文档情感分析的基础上,结合语义倾向,基于LDA模型,使用SVM方法对恶意发帖进行分类。其具体算法流程描述如下。

1) 文档集合预处理。将每个文档中的文本分割为句子,以句子为单位进行词性标注,得到句子中每个词的词性。

2) LDA构建。将句子集合中的每个句子当作LDA模型中的文档,为整个句子文档集合建立一个LDA模型。

3) 主题重要度计算。根据LDA模型得到句子的主题分布和主题词汇分布,计算每个潜在主题的重要度。

4) 句子重要度計算。根据主题重要度,结合主题词分布和语义倾向,计算主题中每个句子的权重。

5) 语句排序。根据句子权重对句子进行排序,如果权重相同,非停用词在句子占比重大的排在前面。

6) 帖子分类。按照句子排序顺序结果使用SVM方法对帖子的恶意情况进行分类。

3.3恶意发帖分析检测引擎

恶意发帖分析检测引擎为本系统的核心,其主要包括以下功能:热点识别能力、自动分类、聚类分析、倾向性分析与统计、主题跟踪、信息自动摘要功能、截取证据、趋势分析、突发事件分析、报警系统、统计报告。

恶意发帖分析检测的核心技术在于恶意发帖分析检测引擎,涉及最主要的技术包括文本分类、聚类、观点倾向性识别、主题检测与跟踪等技术。恶意发帖分析检测引擎是恶意发帖分析与检测系统的核心,主要功能如下:

1) 热点(敏感)话题识别与追踪。利用关键词布控和语义分析,识别敏感话题。

2) 情感倾向分析。对于每个话题,对每个发贴人发表帖子的观点、倾向性(正负面、褒贬义)进行分析与统计。

3) 主题跟踪。分析新发表文章、贴子的话题是否与已有主题相同。

4) 帖子自动摘要。对各类主题,各类倾向能够形成自动摘要。

5) 发帖趋势分析。分析某个主题在不同的时间段内,网民的关注程度。

6) 突发事件分析。对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势。

7) 实时预警。对突发事件、涉及敏感话题及时发现并发出预警信息。

8) 统计报告。根据舆情分析引擎处理后的结果库生成报告,用户可以浏览、检索。根据指定条件对热点话题、倾向性进行查询,提供决策支持。

3.4恶意发帖分析监测与追踪系统

恶意发帖分析监测与追踪系统主要是对指定网站的帖子进行数据采集存储到数据库中,再对库中的帖子情况进行分析,实现实时监测和追踪。主要功能如下:

1) 对库中的帖子提取关键词,进行文本倾向性分析。

2) 根据极性不一样,利用分类算法为帖子指定不同的恶意等级,并根据等级不一样发布不同的预警信息。

3) 利用聚类算法对帖子实现自动归类,挖掘出发帖人之间的团伙关系。

4) 文本近似度分析,发现改变手法多次发帖的发帖人。

5) 利用IP地址及发帖人之间的关系定位发帖人,实现对恶意发帖的检测与追踪。

帖子检测是本系统的核心,即帖子按恶意度分级,将一定级别的恶意帖子收集到一个库中,然后进行统计,分为两种情况:

1) 完全相同的人发帖(同一个人用一个账号多次发帖和同一个人用多个账号一次发帖,如果多个账号发的是同一个帖子,那么应该是同一个人)。

2) 类似的人发帖(一个人改变手法,多次发帖),或者可以看成是一个团伙。

恶意帖子检测流程如图4所示。

建立恶意帖子库后,利用相应的字段信息,例如:发帖者,发帖网站,发帖者账号,帖子内容,跟帖者,跟帖内容。利用数据挖掘的关联规则挖掘技术以及其他技术,实现如下功能。

1) 找出同一个账号多次发出同一恶意帖子,进而定位这个账号,进行跟踪,同IT部门和技术部门合作,找出发帖者的IP地址,确认发帖者的位置和身份。

2) 直接根据发帖内容进行比对,如果是内容相同的帖子,来自于不同和和不同账号,根据这些账号是否由同一个IP地址发出,确认是否为同一个人用多个账号发帖;如果IP不同就有可能是一个同伙或组织用多个账号发出同一个帖子。

3) 根据内容的相似度,找出类似的发帖,找出其账号之间的关联,确定是否为一个人改变手法,多次发帖。

4) 找出恶意帖子库中的跟帖关系,建立关系网络图,利用网络理论中子图发现和查询技术,找出密集型子图,发现恶意发帖团伙。

5) 根据密集子图的密集程度和活跃程度,确定发帖信息的危害程度以及突发事件的可能性,以便及时预警。

4 结束语

本系统建立面向主题的、关键词的、行业的、主流网络平台的恶意发帖信息的语料库;搭建了恶意发帖检测分析平台,及时识别恶意发帖信息,使用网络发帖分析检测引擎,对恶意发帖信息进行分析处理;制定通用的恶意发帖分级制度,建立恶意发帖监控预警标准。建立恶意发帖控制处理平台,建立恶意发帖信息的追踪和预警体系。系统运行稳定正常,具有良好的实际价值。

参考文献:

[1] 山秀明.互联网复杂性研究进展[J].北京邮电大学学报, 2006,29 (1): 1-8.

[2] 谢新洲,肖雯.我国网络信息传播的舆论化趋势及其所带来的问题分析[J].情报理论与实践,2006,29 (6) :645-649.

[3] Jiawei Han.数据挖掘概念与技术[M].北京.机械工业出版社,2012.

[4] 慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学,2007,21(6):88-94.

[5] Nello Cristianini等.支持向量机导论[M].北京.电子工业出版社.2004.

猜你喜欢
聚类分类
分类算一算
分类讨论求坐标
数据分析中的分类讨论
基于DBSACN聚类算法的XML文档聚类
电子测试(2017年15期)2017-12-18 07:19:27
教你一招:数的分类
基于改进的遗传算法的模糊聚类算法
一种层次初始的聚类个数自适应的聚类方法研究
自适应确定K-means算法的聚类数:以遥感图像聚类为例