基于语义计算的聚类算法

2014-12-05 12:49:55郭红建

电脑知识与技术 2014年31期

关键词：聚类

郭红建

摘要：该文提出了一种基于语义计算的聚类算法。通过计算词语的语义信息，从语义知识库获取词语的生成概率，构建文本的语义表征，将余弦夹角和相对熵等方法引入进行文本单元的语义相似度计算对比实验。实验结果表明，该文提出的算法效果较好。

关键词：语义计算；语义相关性；聚类

中图分类号：TP18 文献标识码：A 文章编号：1009-3044（2014）31-7432-02

Abstract： This paper proposes clustering algorithm based on semantic computing. By calculating word semantic information， and generating probability of word from semantic knowledge database， constructing semantic representation， the cosine angle and Kullback-Leibler Divergence is introduced to calculate semantic similarity of text units. Experiments showed that the proposed clustering algorithm is effective.

Key words： semantic computing， semantic relatedness， clustering

聚类算法是数据挖掘的一个重要方法，它的应用非常广泛。例如在审计数据分析时，审计人员运用查询、验证、挖掘等方式进行数据的观察和分析，从而达到把握总体、突出重点、精确延伸的审计目标。以海量数据为基础的深层次数据分析方式支持审计人员从不同的角度，灵活快捷地对被审计单位的电子数据进行挖掘，并以直观易懂的形式展示分析结果。

聚类算法可分为采用划分的方法、采用层次的方法、采用密度的方法和采用网格的方法。常用的文本聚类算法是基于词语的统计信息，很难表述文档的语义信息，中文文档中多义词和同义词的现象相当普遍，这就很容易造成聚类结果不准确，而且自然语言中由多个词语所构成的短语往往包含比组成它的词语更加精确的语义，如“太空计划”就比其各组成名词“太空”和“计划”的语义更加明确。该文提出了一种基于语义计算的聚类算法。通过计算词语的语义信息，从语义知识库获取词语的生成概率，构建文本的语义表征，将余弦夹角和相对熵等方法引入进行文本单元的语义相似度计算对比实验。

第二部分是基于语义计算的聚类算法，第三部分是实验与结果分析。

1 基于语义计算的聚类算法

3 结束语

本文提出了一种基于语义计算的聚类算法。通过计算词语的语义信息，从语义知识库获取词语的生成概率，构建文本的语义表征，将余弦夹角和相对熵等方法引入进行文本单元的语义相似度计算对比实验。实验结果表明，该文提出的算法效果较好。下一步我们会进一步分析和提高该聚类算法的准确度。

致谢：

本文受到江苏省自然科学基金项目（NO.BK2012472）、江苏省教育厅人文社会科学研究项目（NO.2013SJB870005）、江苏省公共工程审计重点实验室2012年开放课题资助，在此表示感谢。

参考文献：

[1] Ester M， Kriegel H P， Sander J， et al. A density-based algorithm for discovering clusters inlarge spatial databases with noise.， in Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining（KDD） [C]. 2000：495-501， Portland， OR， AAAI Press，1996：226-231.

[2] Ankerst M， Breunig M M， Kriegel H P， et al. OPTICS： Ordering Points to Identify the Clustering Structure.， in Proc. ACM SIGMOD Int. Conf. on Management of Data（SIGMOD99） [C]， Philadelphia，1999：49-60.

[3] Wang W， Yang J. Muntz M. STING： A statistical information grid approach to spatial data mining.， in Proc. 1997 Int. Conf. on Very Large Data Bases （VLDB97） [C]， 1997：186-195.

[4] Sheikholeslami G， Chatterjee S. and Zhang A.， WaveCluster： A wavelet-based clustering approach for multidimensional data in very large databases[J]. The VLDB Journal，2000，8（4）：289-304.