基于叙词表的农业舆情话题发现算法研究

2015-12-23 01:30陈涛刘世洪

山东农业科学 2015年10期

关键词：聚类

陈涛　刘世洪

摘要：针对如何高效地发现农业舆情话题，提出了一种基于叙词表的舆情话题发现算法。该算法首先基于《农业叙词表》和综合性词表及网络新词构建叙词词典，作为中文分词软件的词典；然后运用TF-IDF计算特征词的权值，选取前P个特征词表示文本，并基于叙词间的关系计算词语相似度；最后，以叙词为节点构建无向图，通过对无向图聚类实现网络热点话题的发现。分析结果表明，该算法的最小识别代价为0.3534，算法运行效率相比传统算法较高。

关键词：叙词表；农业舆情话题；语义相似度；无向图；聚类

中图分类号：S-058

文献标识号：A

文章编号：1001-4942（2015）10-0112-04

随着互联网的不断发展，各类网站已经成为大众获取信息的主要来源之一。网络中许多重要信息常常被海量数据淹没，因此，快速有效发现网络热点话题，已经成为舆情监控、情报竞争等领域的热点。近年来，我国网民数量和农业网站数量不断增加，互联网涉农信息数量急剧膨胀，涉农网络舆情呈几何级数增长，因此，如何快速有效地发现话题，是非常有必要的。话题发现的研究主要起始于美国国防部高级研究计划署（DARPA）支持的话题检测与追踪（Topic detection and track-ing，TDT）项目，该项目主要致力于新话题检测和跟踪方面的研究。随着技术的不断发展，国内外话题发现的相应研究成果不断丰富起来。李恒训等以主题词为线索，采用多特征话题模型，实现了网络热点话题的发现。王巍等通过将报道内容之间的关联关系层次化，并采用基于单遍聚类思想引入话题中心的策略，实现了热点话题的发现。龙志祎等以特征词为聚类对象，采用基于互信息的词聚类算法产生热点话题。在上述研究的基础上，本研究提出一种基于叙词表的农业舆情话题发现算法，定义话题的表示方法，通过文本信息提取特征词，进而结合农业叙词表进行特征词与叙词转化，通过叙词的等同、等级、相关关系对叙词进行聚类构造话题树，最终实现话题的发现。endprint