基于粗糙集理论的文本分类研究现状综述

2018-11-20 12:27郭艳芬
教育教学论坛 2018年46期
关键词:文本分类粗糙集

郭艳芬

摘要:文本分类是信息处理的重要研究方向之一。本文对粗糙集和文本分类的发展现状及存在的问题进行了系统性阐述。

关键词:文本分类;粗糙集;属性约简

中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2018)46-0241-02

一、引言

伴随互联网与信息技术的迅猛发展,互联网上的信息与资源也迅猛地增长,在人们日常所接触到的海量信息中,大部分都是以电子文档的形式表现的文本信息。高速有效地管理信息并准确的提取用户信息,是当前信息科学技术领域面臨的一项艰巨的任务和问题[1]。数据挖掘技术成为计算机信息处理领域的研究热点和前沿技术。文本分类是数据挖掘中一项非常重要的任务,并作为处理海量文本信息的一项关键技术,可以在相当大的程度上解决信息杂乱无章的问题,从而方便用户精准地定位所需要的信息和信息分流[2-3]。因此,文本自动分类技术已作为具有实用价值的重要关键技术之一,是当前信息检索和自然语言处理领域最活跃的研究主题之一,得到了广泛的关注。

理论上,模式识别和机器学习是文本分类的一个重要应用方向。由于其特点,它涉及到的学科很多,主要包括语言学类、认知信息科学类、人工智能类、统计学、概率论、计算机等[4]。在社会领域文本分类同样也可以应用到,例如网页分类、科技文献分类、电子图书馆、专利分类、商标分类、电子邮件过滤等。因此,对文本分类进行研究具有重要的理论意义和实用价值。

在文本分类中,向量空间模型是描述文本最经常用到的。自然语言十分复杂的特性导致其所涵盖的特征词的数量增多,这就使得文本特征空间的维数过高,高维的特征空间可能会使一些算法的运算效率过低。因此,某些系统为了降低维数会使用词频统计,利用阈值过滤掉一些特征。但是,这样做也有一些弊端。可能会导致一些重要信息的丢失,例如某些专有名词,虽然使用频率过低但是其作用是不可忽视的。

坡那克教授在1982年提出了粗糙集理论。它可以有效分析和处理各种不完备信息,并且可以从中发现其隐藏的规律和信息。粗糙集理论可以尽可能的解决在处理不完备信息方面存在的问题,因此该理论在数据挖掘抽取中得到了广泛的应用。空间维数过高是文本分类中存在的主要问题,降低文本分类向量维数,减少特征数,提高分类速度是粗糙集理论的属性约简特征。为了可以更好地构成分类器,粗糙集的这一优势可以与其他分类算法相融合,如与K-紧邻,神经网络及模糊集等的结合。

总之,能够分析隐藏在数据中的事实而无需提供除问题之外的任何附加信息和先验信息,是粗糙集理论最显著的优点。对于发现各数据间的关系并提取有用信息,粗糙集理论具有无可比拟的优越性。粗糙集的属性约简和规则冗余值约简是重中之重,通过对维数进行约减和降低,从而总结出一些知识规则来用于决策支持。

二、研究现状

美国IBM公司对文本分类进行了开创性的研究,正在被人们广泛的应用和实践。后来Marone发表了一篇论文,其内容是关于自动文本分类的,其观点是用概率模型来进行的。Salton等人后来提出了向量空间模型(VSM),该模型是文本分类处理的一种经典模型,该模型是在统计学的基础上进行了论述,对文本特性尤其是在抽象描述方面有了很好的诠释。而后,诸多学者在这一领域进行了诸多开创性的研究。

截至上世纪80年代末,在众多文本分类方法中,基于知识工程的方法即系统利用专家规则进行分类,一直起着主导地位。到了90年代,模式识别、统计、数据挖掘等理论逐渐开展开来,机器学习的方法逐渐被人们所使用,进而慢慢取代了知识工程的方法。近年来,研究人员将人工智能和机器学习技术相结合并应用到文本分类研究中,并且提出了各种分类模型与算法,如决策树、K-紧邻(KNN)、朴素贝叶斯、支持向量机、遗传算法(Genetic Algorithms)等。科研人员对这些分类方法进行对比分析,得出粗糙集是最有发展前途的、知识获取研究中的最有力工具之一的结论。英国爱丁堡大学的教授在粗糙集理论的基础上对文本分类问题进行了详细的研究和探讨,已知给定文件全体和一个已分类的文件集合,能够较好地区别文件类型的最小并列关键词集合,并达到大大降低了关键词空间的维数的效果。

我国在中文文本分类的研究方面比国外研究相对较晚。在1981年侯汉清教授对于计算机在文本分类中做了开创性的研究和探讨。同时国内许多研究机构也对文本分类工作进行了研究和开展,其中有代表性的有:中科院的史忠植、李晓黎把网络概念推理植入到文本分类中。上海交通大学王永成将神经网络模型运用到了中文自动分类系统,以及中文自动分类系统的开发者清华大学吴军、东北大学图书馆分类专家系统、开发金融自动分类系统的山西大学刘开瑛等。南京大学计算机系的刘静等对文本分类进行了研究,主要是将分类规则和贝叶斯方法相结合,该方法放宽了贝叶斯对强独立性假设条件的要求。复旦大学李荣陆开发了文本分类系统,是将K近邻方法和支持向量机的方法相结合。在粗糙集方法上,主要有下面几个成果:李钝等提出了一种新的分类方法,将文本聚类和粗糙集理论的属性约简相结合的方式提高了文本分类的效率;张著英将KNN算法的应用范围得到了扩大,解决了KNN算法的缺点,从而使KNN算法得到了广泛的应用。王效岳等提出了一种混合算法是将属性约简的粗糙集理论和分类机理相结合,提高了分类速度并较好地体现了其稳定性及容错性。

对于Pawlak粗糙集理论的分类具有严格的要求,不容有一点错误。按照等价类分类方式进行分类,也就是“包含”或“不包含”的关系。文本分类依赖的关键词,其分布有很大的随机性,采用Pawlak粗糙集模型进行文本分类也会存在一些问题。有诸多不确定的信息需要处理及分析,在多数包含关系的基础上,Ziarko提出了可变精度粗糙集模型(VPRS),通过设定近似包含阈值,放松了经典粗糙集严格的边界定义,它对于抗噪声能力有一定的作用,同时也可以处理一定程度上的包含关系。

三、研究方法

应用粗糙集理论对文本分类中所涉及的关键技术和问题进行研究和探讨时,包括文本向量化、基于可变精度的粗糙集理论的文本特征加权研究、基于可变精度粗糙集理论的知识约简、针对各规则分类结果不相同时的冲突消解等内容。研究目標是利用该方法实现一个分类准确度高的文本分类系统。主要分解为以下几个方面:(1)文本向量化预处理研究。主要是分词处理和文本特征提取。针对中文的最小组成单位是汉字,最小的语义单位是词或者短语,并且以不间断的字符串形式呈现,词与词之间没有歧义词或者自然分隔的问题,展开以概率统计为基础的分词方法的中文分词研究并去停用词;文本匹配到向量匹配的转化研究。(2)特征加权研究。在文本大小不一致情况下,分析绝对词频作为度量某词重要程度标准的不合理性,分析逆文本频率加权算法(TFIDF)存在的问题,进行相对词频计算方法的研究和粗糙集加权算法研究;针对文本特征提取中高维到低维变换可能丧失数据原来所蕴含的信息问题,进行基于TFIDF和VPRS模型的降维处理研究。(3)基于粗糙集理论的知识约简研究。针对VPRS在知识约简中的NP问题,从分类质量、相对正域和决策类三个层面分析约简的核心问题,基于属性核思想展开研究。从两个角度研究:基于分类率不变与正域不变条件下的VPRS属性约简;下属性不变条件下的VPRS属性约简。从而得到最小规则集来降低知识约简计算的复杂度。(4)冲突消解策略研究。针对实际处理过程中,由于现实世界的数据协调性和正确性难以保证,从而导致知识库会存在一定程度的不协调性问题,将产生不同的规则对同一文本可能会做出不同的分类现象,进行冲突消解的研究。

结语:中文分词对于文本分类有着至关重要的影响,随着新词汇的不断出现,对分词工作提出了更新的要求;其次,值得人们探讨和研究的是在使用分类算法时,如何选择最优的特征选择方法。目前,虽存在多种分类算法,但是大部分分类系统都是针对应用某一种分类算法,如何寻找最优的通用的文本分类算法是科研者们面前的一项课题。

参考文献:

[1]王光宏,蒋平.数据挖掘综述[J].同济大学学报,2004,32(2):246-252.

[2]郑丽英,王海涌,刘丽艳.基于粗糙集和模糊聚类理论的文本分类系统的研究与实现[J].铁道学报,2007,29(1):45-49.

[3]王国胤.Rough集理论与知识获取[M].西安:西安交通大学出版社,2001:12-14.

[4]苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):48-55.

猜你喜欢
文本分类粗糙集
基于二进制链表的粗糙集属性约简
优势直觉模糊粗糙集决策方法及其应用
基于组合分类算法的源代码注释质量评估方法
多粒化粗糙集性质的几个充分条件
双论域粗糙集在故障诊断中的应用
两个域上的覆盖变精度粗糙集模型