张学芳,刘胜全,刘艳
(新疆大学软件学院,新疆乌鲁木齐830008)
当今互联网迅速发展,成为舆情的重要载体,舆情信息具有动态性、突发性和跨领域性.舆情分析面向主题展开,针对舆情主题事件进行信息抽取、分析、预测是当前舆情处理的热点研究领域.将相关的舆情知识形成舆情本体,可持续支持后期的舆情分析与监管.
话题检测与跟踪(Topic Detection and Tracking,TDT)的研究多数以新闻作为语料,主要包含人物、时间、地点、发生何事这些要素.TDT的主要任务就是话题建模,它是由Allan[1]提出的,Allan引入信息检索领域的向量空间模型(VSM)进行话题模型构建.Yang等人[2]使用Rocchio算法对VSM进行了扩展.Pons-Porrata等人[3]提出了一种新的层次化的文本聚类算法使用语义语言模型.张晓艳[4]和廖君华等人[5]将文本主题转化为无监督的LDA模型学习引入到话题建模.
概念抽取是本体构建的第一要素,这将依赖于知识抽取等相关技术.在概念抽取方法中主要基于统计、语言学或者二者混合的方法.章成志[6]在2011年采用多层概念度一体化进行概念抽取,此方法需要大量训练语料.Lee等人[7]在2012年采用以关联规则为主的概念抽取,此方法召回率较低.同时,王卫民等人[8]采用半监督方法基于种子进行迭代实现概念识别,此方法需人工参与.
以上方法都是针对静态的、较规范的文本进行领域本体的构建,若应用到舆情本体构建时,没有考虑舆情信息本身是动态的、跨领域的,形成的领域本体不能很好的解决舆情本体的知识共享和重用问题.
本文在主题识别过程中,根据词在网络文本流中分布特点进行特征词动态抽取,并基于Single-Pass聚类进行主题识别,最终实现面向主题的概念抽取.
舆情本体定义如下:
定义1舆情本体.舆情本体的构建主要是基于主题的概念及关系的抽取,
T={c|c∈C且∀c∈Ci,W(c)>δw(δw为设定阈值},对于∀ci∈T,∃Ci,Cj且Ci⊆C,Cj⊆C,使得Ci∩T=Φ且Cj∩T=Φ.
其中C指舆情本体中的概念集合,Ci是与主题相关的概念集合;R指概念间关系集合(relations);T是舆情主题(theme);O属于应用本体.
本文受LexRank算法[9,10]的启发,提出面向主题的本体概念抽取方法:通过相似度计算来确定各候选概念间的关联关系,若两个候选概念间的相似度大于一定阈值,则确定它们间有关联关系.若某个候选概念与其他候选概念关联关系越多,则表明它越重要,即成为核心概念的可能性越大.舆情本体概念抽取流程如图1所示.
图1 舆情本体概念获取流程
本文在舆情本体概念抽取过程中定义了候选概念集为setTcandi={W1,W2,...,Wn},主题核心概念集为setTcore={W1,W2,...,Wm}.无向图G=
在网络文本传播过程中,主题不断更新,其关联话题也不断地迁移.有效地识别主题内容焦点,便于检测与分析网络信息.本文基于时间属性抽取文档特征词,并建立空间向量,可更有效地发现内容焦点发生迁移但属于同一主题的网络文本,并将其归类.
2.1.1 文档特征词抽取
网络文本空间的表示是根据文档中的特征词构建向量空间.特征词是指能够代表整个文档核心内容的标准化术语.抽取步骤如下:
(1)划分文档集中的各文本的标题、正文和发布时间;
(2)分别对每个文本的标题和正文进行词性划分,获得相应的文档词集;
(3)分别计算文档词集中各元素在文档中的词频权重;
(4)根据焦点词在文档流中出现的词频高低、分布持续且持续时间适中的特点筛选文档候选词集;
(5)对特征候选词的权值进行排序,设定合理阈值,采用Top方法获得特征词集.
2.1.2 主题探测与识别
(1)按照爬取文档的时间顺序依次抽取文档的特征词并表示成空间模型;
(2)第一个文档作为初始主题模板;
(3)后继输入的文档与前面已形成的主题模板进行匹配;
(4)通过特征词构建的向量空间进行文档相似度评估,选择相似度最高的主题模板进行主题归类,并更新原主题模板;
(5)若某文档与所有主题模板的相似度都小于所设阈值,则将该文档视为新的主题种子,并构建相应的主题模板.
目前多数方法采用领域相关度和领域一致度进行领域本体概念的提取,没有考虑到舆情语料的跨领域性,多个主题之间会存在领域知识相互“重叠”问题,所以本文针对此问题,将语义相似度方法和词频统计方法相结合进行面向主题核心概念抽取.
将标注的名词或短语作为构建舆情本体的概念,假设经过初次筛选的概念集为
Wi,Wj(其中0
完成概念集setTcandi中各元素的相似度计算,将会形成一个二维数组,如果相似度大于tsim(为设定的概念相似度阈值),则说明Wi、Wj语义相似,并在它们之间建立关联,最终形成网状图G和一些孤立的点,孤立点为知网数据库中没有的词汇或者是一些未登录词,如圆环形.将孤立点另存到集合setTiso中.
根据无向图G中各概念的关联度计算各个候选概念的重要度WR(W),本文定义候选概念语义权值WR(W)的计算方法如公式(2)所示:
W,Wi均为候选概念,且它们之间有一定的关联关系.WR(W)为候选概念W的权值,WR(Wi)为概念集setTcandi中第i个元素的权值,N(Wi)表示与Wi有直接关联的候选概念的总个数,d为调节因子.
通过以上方法进行候选概念的语义权值计算并进行排序,结合词频统计来衡量候选概念在文档中的权重.简单的词频统计,可提高概念抽取的召回率,但准确率会偏低;有些概念与主题内容有关但含义较为宽泛,且它们的语义权值较低,所以本文采用TF-TDF方法计算候选概念的词频权值.
定义2 setTlimt表示知网中可以识别的词,但权值小于阈值t的概念集:
setTlimt=setTcandi-setTiso且WR(Wi) 定义3 核心概念集setTcore,即为构建舆情本体的概念集. 舆情本体核心概念的抽取如算法2.1所示. 算法2.1核心概念抽取 输入:排序后的概念集setTcandi,概念集setTiso,setTlimt 输出:核心概念集setTcore 1:for(inti=0;i 2:Wi∈setTcandi 3:setTcore=setTcore∪{Wi} 4:for each∀Wi∈setTiso 6:ifWi(d)>f1//setTiso中概念词频Wf(i),词频阈值f1 7:setTcore=setTcore∪{Wi} 8:for each∀Wi∈setTlimt 10:ifWi(d)>f2 11:setTcore=setTcore∪{Wi} 12:setT3=setTcandi—setTcore 13:for each∀Wi∈setTcore 14:for each∀Wj∈setT3 15:ifWj包含Wi//概念包含关系 16:setTcore=setTcore∪{Wj}. 在核心概念集setTcore中,对排序后的概念采用topN的方法进行主题词抽取. 基于同一主题的文本语料库在不断地更新变化,概念集也在不断地更新,将新增入到核心概念集中的概念进一步筛选,过滤原概念集已有的同义词. 实验数据源于搜狐新闻、Tencent论坛和新浪微博,主要与环境污染、食物中毒、飞机失事等主题相关.收集时间为2015年9月-2015年12月,共3 183篇文本. 采用中科院提供的分词系统对实验语料进行词性划分和标注,然后将本文的基于时间属性进行特征词提取,并与经典的TF-IDF方法进行特征词提取的性能对比,表1为主题识别阶段文本特征词提取结果.本文选择准确率、召回率和F值分别对抽取的特征词进行衡量. 表1 网络文本特征词提取结果实验对比 由表1看出本文方法可更有效地提取网络文本特征词,根据提取的特征词构建文档空间模型并进行主题识别与聚类.选择标注后的名词或者短语作为候选概念集,组成概念矩阵,相似度计算概念间的关联关系. 对环境污染事件中的不同文档按文中第三部分的概念抽取设计模块进行实验. (1)概念间的相似度取值在不断变化时,概念的权值排序也在不断变化,当tsim=0.18时,专家标注的与主题相关的核心概念排在最前面的数量最多,如图2. 图2 概念相似度阈值 (2)由于文档长短不同,抽取概念数也不同,这样标注的核心概念也不同,一般短文本中核心概念数较少.实验发现,无论将长文本还是短文本作为语料库,根据权值排序后的核心概念大多数分布在所有概念数的前三分之一,所以本文将排序后的词或者短语,取其前三分之一作为核心概念入选到setTcore中; (3)G图中的孤立点一般都是组合词汇或者未登录新词,如生态破坏、PM等,但当这些新词或者短语在文中出现比较集中,而且都是与环境污染有关的核心词,所以本文设定它们的词频阈值较低,经过反复试验将f1设置为0.2; (4)入选的词如环境,在知网词汇库中只解释为实体、情况,比较粗略,语义比较广泛,在与其他词汇进行语义相似度计算时相似度值较低,但它在文本中出现频率较高,根据TF-IDF计算的权值也比较高,所以本文设定f2=0.5; (5)经过试验发现,核心概念集setTcore中权值较大的一些概念基本上能表达主题的核心内容,根据大量实验数据衡量,本文将参数δw设置为0.3,主题相似度阈值εt设置为0.5. 本文采用经典的领域相关度和领域一致度(DR-DC)方法进行实验对比,并通过准确率、召回率和F值对抽取的概念进行衡量.实验结果如表2. 表2 环境污染事件实验结果对比 从表2中可以看出本文方法比DR-DC方法的准确率、召回率和F值分别提高8.3%、26.1%和18%. 实验发现,在面向环境污染事件中提取的核心概念有“法律法规”、“公众”、“经济”等词,可知该事件与法律、民众有关,但用领域相关度和领域一致度方法不能将这些词提取出来,原因是这些词在文本中出现频率低且也在其他主题中出现,所以不能有效提取,这同时也验证了本文中的概念抽取方法. 针对舆情信息的动态性、跨领域性、面向主题等特点,目前已有的领域本体学习方法难以适应舆情本体知识的自动构建.本文采用信息爬取技术收集热点舆情文本信息,根据构建模型自动识别主题进行归类,并对识别后的主题文本提取名词性词汇或者短语作为候选概念集;用语义相似度算法进行本体候选概念的抽取,结合词频统计方法对核心概念抽取,实验取得较好的结果.本体概念抽取为本体关系挖掘提供基础支持,抽取的概念为本体构建提供来源参考.下一步工作是利用抽取的舆情本体概念,辅助抽取舆情本体概念间的关系.2.4 主题词提取及合并
3 实验过程与结果分析
4 结束语