陈麓屹 戴国勇 刘静静
摘 要: 随着互联网技术的发展,各类网络新闻表达和信息传递的渠道越来越大,网络舆情的传播也更加迅速。该文对网络舆情信息意见挖掘的关键技术进行研究,通过对热点事件提取、动态主题库的构建、情感倾向分析这三个技术的分析研究,可以更好的监控网络舆情走向,确保网络安全。
关键词: 网络舆情;热点事件;动态主题库;情感倾向
【中图分类号】 G350 【文献标识码】 A【文章编号】 2236-1879(2018)14-0009-01
1 引 言
当今社会的主流媒体,如博客、微信、微博等网络媒体,已经被越来越多人使用,新闻或信息的传播变得更加快速,舆论力量也越来越强大。从海量的、种类繁杂的、数据信息多样化的舆论信息中挖掘出有价值的信息,并对信息进行分析,是目前进行网络舆情信息监控,控制舆情走向的关键点。本文主要针对网络舆情信息意见挖掘的关键技术进行研究。
2 意见挖掘关键技术
该文主要从热点事件提取、动态主题库的构建、情感倾向分析这三个技术关键点进行分析。
2.1 热点事件提取。
热点事件的提取可以采用文本聚类算法:K-means[1]。在提取热点事件中,主要进行文本预处理、关键特征词提取和聚类模型的选择。
文本预处理主要是对中文和英文进行分词操作[2],并提取关键性文本,过滤无用文本,其中无用文本包括标点符号、垃圾词语以及无实际意义的助词、介词和连词等。
关键特征词提取,主要是获取文本中出现频率较高的句子以及词语。可采用TF-IDF特征加权算法[3],该算法可以通过计算句子的权重,评估出该句子在文本中的重要程度,再从选出的主题句中使用该算法计算关键词语的权重,评估关键特征词。
聚类模型主要选择K-means聚类模型[4],其中心思想是:选择其中k个关键特征词所代表的热点事件,对k个热点事件依次计算与其余页面文本热点事件的相识度,如果相识度超过阀值,就进行热点事件合并,否则,就将当前页面的文本作为新的热点事件;该算法迭代进行,对生成的新热点事件进行重新聚类,直到找到特定个数的热点事件。
2.2 动态主题库的构建。
动态主题库主要是构建一种树形结构的意见主题库,第一层为根节点;第二层为意见类型;第三层为包含意见主题的规则,每条规则由两到三个同义词组构成,每个同义词组中的词语可以和其它同义词组中的所有词语进行组合。动态主题库的构建主要用来将网络信息和动态主题库进行匹配,提取出当前网络信息的主题类型。
2.3 情感倾向分析。
情感倾向分析技术包含数据获取、特征词提取、情感词库的构建,以及情感倾向的分析[5]。
数据获取:通过软件抓取网络信息,对获取到的半结构化数据进行过滤,删除无用信息[6],得到纯文本信息。
特征词提取:对获取到的纯文本信息进行筛选,筛选出现频率比較高的特征词,并将筛选出的特征词构造特征词本体,计算特征词的语义相似度,构建出语义共词矩阵,对语义共词矩阵进行定量的聚类分析。
情感词库的构建:将具有情感倾向的词,通过人工评定的方式,分别抽取出表达正面信息和表达负面信息的词,并确定不同情感值的程度级别和强度,构建出情感强度词表;将情感程度与情感词相搭配构成情感词库,情感词语搭配减弱型情感程度会减弱情感的强度,反之情感词语搭配增强型情感程度会增强情感的强度。
情感倾向分析:抽取词语特征和情感词语,构建本体[7]。将语句中的词语匹配本体中的特征词,将句子的特征词映射到本体中相应的特征上,匹配情感词所在的语境,形成特征-情感词组。最后对特征-情感词组进行判定,整理情感倾向,得出分析结果。
3 结 语
本文主要阐述了如何进行网络舆情信息的意见挖掘。首先通过文本聚类算法进行热点事件的提取;然后构建动态意见主题库,将提取出来的热点事件与动态意见主题库的规则进行匹配,获取到热点事件的主题类型。最后都与热点事件进行情感倾向分析,分析出热点事件的情感倾向和强度。以便能够挖掘出有价值的信息,及时监控舆论信息,保证网络安全,维护社会稳定。
参考文献
[1] 王千,王成,冯振元,等 .K-means聚类算法研究综述[J].电子设计工程,2012(07)21-24.
[2] 刘 件,魏 程. 中文分词算法研究[J]. 微计算机应用,2008,29( 8) : 11-16.
[3] 韩敏,唐常杰,段磊,等 .基于TF-IDF相似度的标签聚类方法[J].计算机科学与探索,2010(03)240-246.
[4] 芬芬 .基于概念和语义相似度的文本聚类算法[J].计算机工程与应用,2012(18)136.
[5] 李耀林 .面向评价对象的商品评论情感倾向性分析研究[D]. 杭州: 浙江工商大学, 2013.
[6] 胡昌平,胡吉明 .个性化服务中基于支持向量机的用户兴趣挖掘分析 [J]. 情报学报,2009,28 ( 4) : 543-547.
[7] 朱礼军,陶兰,刘慧 .领域本体中的概念相似度计算[J]. 华南理工大学学报: 自然科学版,2004,32:147-150.