摘要:基于机器学习的文本分类是近年来发展迅速并受广泛关注的数据挖掘技术。该文介绍了几种重要的文本分类方法例如贝叶斯、K最邻近和支持向量机。根据不同方法在不同数据分布状况的中文数据集上的分类表现,对比分析各方法的性能和优缺点。
关键词:中文文本分类;贝叶斯;K最邻近;支持向量机
中图法分类号:TP39 文献标识码:A文章编号:1009-3044(2011)21-5194-03
Research on Chinese Text Categorization Technology Based on Machine Learning
JIA Yu-sheng
(Sichuan University Computer College of Computer Science and Technology Departm