利用词汇分布相似度的中文词汇语义倾向性计算

2009-07-31 04:55蔡皖东
西安交通大学学报 2009年6期

赵 煜 蔡皖东 樊 娜

摘要:针对现有中文词汇语义倾向性计算方法存在较少考虑深层语义影响因素的问题,提出了一种利用词汇分布相似度的中文语义倾向性计算方法,该方法分2个步骤完成:①利用依存句法分析和统计工具获取词汇在语料库中的分布相似度,并综合知网(HowNet)和汉语连词特征信息优化语料库统计结果,计算中文词汇问的语义相似度;②采用无向带权图划分的聚类方法来实现中文词汇语义倾向推断,由于获取最优聚类结果是一个NP难问题,所以采用贪心算法求解近似最优值,通过在自建的语料库上进行测试,并与利用语料库统计信息、利用HowNet等2个词汇语义倾向性计算系统进行比较,结果是所提方法的准确率达到了80%,表明在提高中文词汇语义倾向性计算的准确性方面是可行、有效的,

关键词:中文信息处理;词汇分布相似度;语义倾向;依存句法分析;知网

中图分类号:TP39文献标志码:A文章编号:0253-987X(2009)06-0033-05