利用词汇分布相似度的中文词汇语义倾向性计算

2009-07-31 04:55赵煜蔡皖东樊娜

西安交通大学学报 2009年6期

赵　煜　蔡皖东　樊　娜

摘要：针对现有中文词汇语义倾向性计算方法存在较少考虑深层语义影响因素的问题，提出了一种利用词汇分布相似度的中文语义倾向性计算方法，该方法分2个步骤完成：①利用依存句法分析和统计工具获取词汇在语料库中的分布相似度，并综合知网(HowNet)和汉语连词特征信息优化语料库统计结果，计算中文词汇问的语义相似度；②采用无向带权图划分的聚类方法来实现中文词汇语义倾向推断，由于获取最优聚类结果是一个NP难问题，所以采用贪心算法求解近似最优值，通过在自建的语料库上进行测试，并与利用语料库统计信息、利用HowNet等2个词汇语义倾向性计算系统进行比较，结果是所提方法的准确率达到了80％，表明在提高中文词汇语义倾向性计算的准确性方面是可行、有效的，

关键词：中文信息处理；词汇分布相似度；语义倾向；依存句法分析；知网

中图分类号：TP39文献标志码：A文章编号：0253－987X(2009)06－0033－05

西安交通大学学报2009年6期

西安交通大学学报的其它文章: 可分级视频编码覆盖网非一致性随机成员构建算法; 动态短信通信复杂网络演化模型研究; 面向存储资源管理的多协议存储系统; 分布式环境中高效信任管理的研究; 一组编制模式下组合Ｗｅｂ服务模型的约简规则与算法; 一种高稳定性词汇共现模型