基于分词相关系数的垃圾焚烧“邻避”事件文本相似度计算研究

2018-09-21 11:07谢豪
中国管理信息化 2018年13期
关键词:皮尔逊矢量化结巴

谢豪

[摘 要] 将文本相似度计算引入“邻避”冲突事件的应急决策,通过对案例进行文本分词、词义相似度替换得到关键词频次,然后将数据矢量化得到可用于计算的关键词权重表,最后通过皮尔逊算法对两个案例进行文本相似度计算,进而通过分析相似度结果提供相应决策建议。

[关键词] 文本分词;垃圾焚烧;文本相似度

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 13. 070

[中图分类号] TP391.3 [文献标识码] A [文章编号] 1673 - 0194(2018)13- 0157- 03

0 引 言

近年来,随着工业化、城市化进程的加快,“邻避”问题日益突出,给人民群众的生活及健康造成了不利的影响[1]。据统计,近年来中国境内规模在百人以上的群体性事件中,约32%与像垃圾焚烧这样的“邻避”项目密切相关,因此“邻避”冲突事件发生后如何通过科学决策和快速处置最大限度地降低事件造成的损失和社会影响成为建设生态文明、构建和谐社會过程中亟需解决的现实问题[2]。

我国学者就“邻避”问题的研究主要通过分析、比较真实发生的案例,运用经济学、政治学、社会学等学科的视角和研究方法,得出许多对现实有着指导意义的建议。总体上,当今国内关于“邻避”问题的文献中,研究方法仍以定性方法占多数,而采用定量分析的文献仍然较少,这与西方学界大量运用定量分析、以数据为支撑的研究仍有很大差距。为此,本文将基于文本分词、词义相似度替换以及皮尔逊相关系数法计算案例相似度的方法引入到“邻避”冲突事件的应急决策中,为提出更加精准高效的决策提供支持。

1 文本分词

1.1 基于Python结巴分词的文本分词

结巴分词支持精准模式、全模式以及搜索引擎模式三种分词模式,精准模式指将句子最精确地分开,适用于文本分析,全模式指把句子中所有的可以成词的词语都扫描出来, 优点是速度非常快,但是无法解决歧义,搜索引擎模式指在精确模式的基础上,对长词再次切分,提高召回率,适用于搜索引擎分词。

结巴分词自带一个文本词典,命名为“dict.txt”,其中包含了两万多条词,包含了每个词条出现的次数以及词性(词条次数是结巴分词创造者基于人民日报语料等资源训练得出来的)。结巴分词属于概念语言模型分词,所谓概念语言模型分词,是指在全切分所得的所有结果中求某个切分方案S,使得P(S)最大。

1.2 数据矢量化

数据矢量化是指将文本分词得到的元数据按照关键词表和对应的权重进行矢量化的过程。为了使文本分词得到的结果能够进行量化计算,我们将分词结果与关键词表进行对比去除无意义的词,计算所有关键词的权重,做出对应的键值对矢量表,其中键为关键词,值为权重。

1.3 关键词词义相似度替换

不同人在表达相同的意思时可能会使用不同的词语,仅仅通过文本分词无法使数据矢量化过程结果准确,因此就需要用到关键词词义相似度替换,将与关键词语义相似的词语替换为关键词本身。词义相似度是指两个给定词语的语义相似度。我们使用百度AI开放平台NLP(自然语言处理)接口,它依托全网海量优质数据和深度神经网络技术,通过词语向量化来计算两个词之间的相似度,基于自然语言中的分布假设,即越是经常共同出现的词之间的相似度越高。

百度AI开发平台NLP接口使用百度大规模网页数据进行模型训练,具有样本数据丰富且时效性高,收录词汇覆盖度广,召回率高的特点,同时其基于DNN深度学习大量样本训练模型,完成词语的向量化,可建立高精度的词向量表示体系,另外还基于高精度的词向量表示系统及海量样本训练学习,能够准确描述词义相似度,满足高精度要求的业务场景需求。

2 皮尔逊相似度计算模型

向量相似度的计算主要分为欧几里得距离算法和皮尔逊相关系数算法(Pearson)。其中皮尔逊相关系数法是比欧几里得距离更加复杂的计算向量相似度的一种方法。该相关系数是判断两组数据与某一直线拟合程序的一种试题,它在数据不是很规范的时候,会倾向于给出更好的结果。皮尔逊相关系数是一种度量两个变量间相关程度的方法。其结果是一个介于-1到1之间的值,其中1表示变量完全正相关,-1表示完全负相关,0表示无关。我们使用该系数用来说明两个文本案例之间的强弱程度,数值越大,两个文本案例的相关性就越高,当系数为负时,表明案例间无相关[3]。其计算公式如下:

3 案例应用——垃圾焚烧事件

本文以垃圾焚烧“邻避”事件为例通过上述方法进行文本相似度计算。将从网络任意搜索的一则案例同时与一个垃圾焚烧发电厂顺利落地的典型案例和一个遭受“邻避”冲突的典型案例对比计算出相似度(典型案例可通过聚类方法得出),处理流程如图1所示。

首先使用Python的结巴分词对其进行文本分词并与人工拟定的“垃圾焚烧”关键词表对比计算频次,然后调用百度AI开放平台的NLP接口进行相似词语替换(表1)后重新计算关键词频次,最后将得到的关键词矢量化,得到如下结果(表2,其中佛山南海案例是顺利落地的成功案例,蓟县是遭受激烈“邻避”冲突的失败案例,湖北仙桃案例是待分析案例):

通过对比两个相似度结果可知,湖北仙桃案例与蓟县案例更为相似,因此需要借鉴佛山南海案例成功经验,摈弃蓟县案例的失败决策,让应急决策更加精准有效。

4 结 语

本文利用基于分词相关系数的文本相似度计算模型,可以快速计算两个文本案例之间的文本相似度。后期若通过聚类将案例分类后,选出各个类别最典型案例,将待分析案例与其逐一比较,从而将新案例进行归类,而针对每种类别的案例其决策方式是不尽相同的,因此能够为决策者提供快速解决此类事件的辅助决策方法,节省宝贵的时间,提高决策的科学水平。

主要参考文献

[1]贺晶.浅谈环境应急监测质量管理体系的建设[J].安全与环境工程,2012,19(1):51-53.

[2]张英菊.案例推理技术在环境群体性事件应急决策中的应用研究[J].安全与环境工程,2016,23(1):94-99.

[3]王玉山,林泽聪.基于皮尔逊相似度的食材推荐算法研究[J].信息与电脑:理论版,2017(4):100-102.

猜你喜欢
皮尔逊矢量化结巴
Video Star Gets Job Promoting Tourism
现代统计学之父:卡尔·皮尔逊
现代统计学之父:卡尔·皮尔逊
Excel在水文学教学中的应用
卡方分布的探源
结巴侠
交互式矢量化技术在水文站网分布图编绘中的应用
基于VP Studio和CASS的栅格地形图矢量化方法
遥感图像多尺度分割算法与矢量化算法的集成
张亮:扼住命运的结巴