基于叙词表的农业舆情话题发现算法研究

2015-12-23 01:30陈涛刘世洪
山东农业科学 2015年10期
关键词:聚类

陈涛 刘世洪

摘要:针对如何高效地发现农业舆情话题,提出了一种基于叙词表的舆情话题发现算法。该算法首先基于《农业叙词表》和综合性词表及网络新词构建叙词词典,作为中文分词软件的词典;然后运用TF-IDF计算特征词的权值,选取前P个特征词表示文本,并基于叙词间的关系计算词语相似度;最后,以叙词为节点构建无向图,通过对无向图聚类实现网络热点话题的发现。分析结果表明,该算法的最小识别代价为0.3534,算法运行效率相比传统算法较高。

关键词:叙词表;农业舆情话题;语义相似度;无向图;聚类

中图分类号:S-058

文献标识号:A

文章编号:1001-4942(2015)10-0112-04

随着互联网的不断发展,各类网站已经成为大众获取信息的主要来源之一。网络中许多重要信息常常被海量数据淹没,因此,快速有效发现网络热点话题,已经成为舆情监控、情报竞争等领域的热点。近年来,我国网民数量和农业网站数量不断增加,互联网涉农信息数量急剧膨胀,涉农网络舆情呈几何级数增长,因此,如何快速有效地发现话题,是非常有必要的。话题发现的研究主要起始于美国国防部高级研究计划署(DARPA)支持的话题检测与追踪(Topic detection and track-ing,TDT)项目,该项目主要致力于新话题检测和跟踪方面的研究。随着技术的不断发展,国内外话题发现的相应研究成果不断丰富起来。李恒训等以主题词为线索,采用多特征话题模型,实现了网络热点话题的发现。王巍等通过将报道内容之间的关联关系层次化,并采用基于单遍聚类思想引入话题中心的策略,实现了热点话题的发现。龙志祎等以特征词为聚类对象,采用基于互信息的词聚类算法产生热点话题。在上述研究的基础上,本研究提出一种基于叙词表的农业舆情话题发现算法,定义话题的表示方法,通过文本信息提取特征词,进而结合农业叙词表进行特征词与叙词转化,通过叙词的等同、等级、相关关系对叙词进行聚类构造话题树,最终实现话题的发现。endprint

猜你喜欢
聚类
K-means算法概述
K-means聚类方法在图像色彩中的应用
基于模糊聚类和支持向量回归的成绩预测
一种基于广域测量信息的在线同调分群方法
针对Kmeans初始聚类中心优化的PCATDKM算法
基于流形学习的自适应反馈聚类中心确定方法
交通监控中基于模糊聚类的无线传感网MAC协议
基于密度的自适应搜索增量聚类法
数据挖掘的主要技术
K—means算法研究综述