罗玉,王玲
(西华大学计算机与软件工程学院,成都 610039)
伴随着社会的迅速发展和信息技术的广泛应用,涉警舆情越来越多舆情信息的增长速度越来越快,一些负面涉警舆情,甚至是谣言,在网上传播,如果不引起重视任由其发展,必然会对公安工作的正常建设造成不良影响,引发涉警舆情危机。所以如果能通过一些关键词帮助公安人员进行舆情分析,那么无疑对社会的长治久安具有重大意义。
考虑到涉警舆情数据来源广,文本数量庞大,种类多,本文使用主题爬虫技术,主题爬虫技术是一种依照特定的对象,主动的抓取万维网信息的程序或者脚本[1]。相较于通用爬虫,主题爬虫对爬取对象更加聚焦,抓取的网页信息与特定主题相关。主题爬虫主要面对两个问题主题的描述和主题的相似度计算。主题描述,指用户对所要爬取主题的描述。主题描述的好坏,对于爬虫的结果有着较大的影响[2]。通常主题描述有两种方法,一种是专家确定关键词集,另一种是通过初始页面提取关键词。
当前学者在此基础上提出了一些新的方法,李东晖[3]等提出了一种无监督的主题自动扩展技术,能让一个简单抓取脚本从开始的主题不断积累主题知识。主题爬虫的另一个核心问题,主题相似度计算根据符合要求的主题判断当前网页和当前网页的URL是否保留的算法。有两处需要进行主题相似度计算,一是对当前爬取页面的正文内容,二是对当前页面中的URL。根据网页结构、内容,判断是否与期望主题相关,Guo[4]等提出基于SVN分类的主题爬虫技术,通过训练SVN分类器,来表现文字内容和链接的主题相关度。
由于依据担负任务、职能、领域的不同,人民警察种别,分为户籍、交通、治安、消防森林、经济、经济犯罪侦查等警种,在这里,我们可以把警种类别看作不同的主题,每个警种对应一个或多个主题,每个主题下有与之相关的关键词。
本文将采取LDA方法来进行主题爬虫,利用Word2Vec词向量表示计算主题和网页内容的相似度,主题之间的相似度[5]。
LDA主题模型属于监督学习,它是一种文档的主题生成模型,它可以从语料中抽取潜在的主题,已经被普遍的应用到信息的主题发现中。
该模型的主要思想是一个主题由一些词生成,一篇文章则由一些主题生成,即一篇文章由某些词语生成。LDA模型如图1所示。
图1
其中,wd,n是可计算变量,表示一个文档D中的词汇,zd,n代表每个词在主题上的设定值,θd代表每个文档在主题空间中的比例,βk代表主题空间中第K个主题,α和η分别代表预先设定的比例系数和主题参数。图中矩形部分表示重复过程,|D|表示该语料库中文档的数量,K是当前主题空间的主题数。
因此,文档集D={d1,d2,...,dn}中的任意一个文本d={w1,w2,...,wn}的概率生成过程如下:
(1)D中词的总个数N服从泊松分布。
(2)主题分布 θ服从狄利克雷分布,即 θ|α~Dir(α)
(3)关于每个n,n∈{1,2,...,N}均存在潜在主题zn服从多元分布,zn|θ~Mult(θ)参数
(4)每个词wn也服从多元分布,即:
ξ,α,β表示超参数,其中,ξ仅仅确保表达的完整性,对模型的求解过程无影响;α表示任意一个与文档中主题分布有关的狄利克雷超参数;β表示一个与文本集合中主题词概率相关的狄利克雷超参数。这些超参数根据经验或多次训练来设定。
综上所述,LDA模型采用对文档中每一个词语的概率来进行计算,即:
P(wj|di)表示每个文档中单词出现的概率,即词频,P(wj|zk)表示某个主题中每个单词出现的概率,P(zk|di)表示某个文档中每个主题出现的概率。故得到文档中每个词的生成概率为:
本文的关键词算法采取融合LDA和TF-IDF的自动扩展提取算法。TF-IDF(Term Frequency-Inverse Document Frequency)在自然语言中通常用来表示词语的重要性的加权技术。TF表示词语的频率(Term Fre⁃quency)如公式(4)所示,IDF表示的是是逆文本频率(Inverse Document Frequency),一个特定词语的IDF,表示总的文件数除以包含该词的文件的数,为了简化计算将得到的商取对数。如公式(5)所示。
这里ni,j表示第j篇文档的第i个词语,|D|代表总的文档数,|{j:ti∈dj}|代表包含词语ti的文件数目。
我们选定部分初始关键词,将其加入到爬取种子集中,作为数据抓取的初始种子,通过这些初始种子检索新闻网站,通过融合LDA和TF-IDF算法抽取出文本关键词,将符合标准的关键词作为种子加入到种子集中,再进行新一轮的爬取。如图2所示。
图2 种子集获取流程图
本实验主要是使用Python实现,通过爬取互联网上的新闻作为训练语料,主要来自新浪、新华网、中国新闻网等,抓取新闻正文五万篇。使用Gensim包实现LDA主题模型的训练,训练过程采用Gibbs采样,由于时间和资源有限,选取三个区分度较高的主题作为实验素材,考察实验效果,选取消防、经济犯罪侦查、刑事案件三个主题,结果如表1所示。
表1 F值对比表
表1结果表明,LDA融合TF—IDF的算法在F值上优于单纯地使用LDA和TF-IDF,证明了LDA主题爬虫的可行性和有效性,并随着主题更新的次数不断增加,会有一定提升。
实验进行了6次更新,得到更新后的主题文档,通过统计对比了前后主题文档中出现相同的词,词的主题概率提高了3.12%。
本文提出了一种涉警舆情关键词提取方法,通过使用融合LDA和TF-IDF抽取关键词的方法和为垂直领域的关系抽取提供了一种新思路,为垂直领域的关键词提取建提供了良好的借鉴,后续的工作中将会加大对数据的采集,提高关键词抽取的准确率。