陈涛 刘世洪
摘要:针对如何高效地发现农业舆情话题,提出了一种基于叙词表的舆情话题发现算法。该算法首先基于《农业叙词表》和综合性词表及网络新词构建叙词词典,作为中文分词软件的词典;然后运用TF-IDF计算特征词的权值,选取前P个特征词表示文本,并基于叙词间的关系计算词语相似度;最后,以叙词为节点构建无向图,通过对无向图聚类实现网络热点话题的发现。分析结果表明,该算法的最小识别代价为0.3534,算法运行效率相比传统算法较高。
关键词:叙词表;农业舆情话题;语义相似度;无向图;聚类
中图分类号:S-058
文献标识号:A
文章编号:1001-4942(2015)10-0112-04
随着互联网的不断发展,各类网站已经成为大众获取信息的主要来源之一。网络中许多重要信息常常被海量数据淹没,因此,快速有效发现网络热点话题,已经成为舆情监控、情报竞争等领域的热点。近年来,我国网民数量和农业网站数量不断增加,互联网涉农信息数量急剧膨胀,涉农网络舆情呈几何级数增长,因此,如何快速有效地发现话题,是非常有必要的。话题发现的研究主要起始于美国国防部高级研究计划署(DARPA)支持的话题检测与追踪(Topic detection and track-ing,TDT)项目,该项目主要致力于新话题检测和跟踪方面的研究。随着技术的不断发展,国内外话题发现的相应研究成果不断丰富起来。李恒训等以主题词为线索,采用多特征话题模型,实现了网络热点话题的发现。王巍等通过将报道内容之间的关联关系层次化,并采用基于单遍聚类思想引入话题中心的策略,实现了热点话题的发现。龙志祎等以特征词为聚类对象,采用基于互信息的词聚类算法产生热点话题。在上述研究的基础上,本研究提出一种基于叙词表的农业舆情话题发现算法,定义话题的表示方法,通过文本信息提取特征词,进而结合农业叙词表进行特征词与叙词转化,通过叙词的等同、等级、相关关系对叙词进行聚类构造话题树,最终实现话题的发现。endprint