基于机器学习的文本分类技术研究

2019-11-14 08:17向志华邓怡辰
软件 2019年9期
关键词:类别机器向量

向志华 邓怡辰

摘  要: 随着科学技术的不断发展,机器领域得到了越来越广泛的应用。作为机器学习中最重要的组成部分,要实现对信息的有效检索以及对数据的充分挖掘就必须要全面掌握文本自动分类技术。在社会持续发展的过程中,文本分类技术也取得了显著的发展。但是在其实践过程中也尚存在一些问题,需要从多方面入手对其进行深入研究与综合评判。本文就对基于机器学习的几种文本分类技术进行了系统的研究,并指出了文本分类技术的未来发展方向。

关键词 机器学习;文本分类;向量;特征

中图分类号: TP3    文献标识码 A    DOI:10.3969/j.issn.1003-6970.2019.09.022

本文著录格式:向志华,邓怡辰. 基于机器学习的文本分类技术研究[J]. 软件,2019,40(9):94-97

Text Categorization Technology Research Based on Machine Learning

XIANG Zhi-hua, Deng Yi-chen

Information Technology School, Guangdong Institute of Technology, Zhaoqing Guangdong 526100, China

Abstract: With continuous development of science and technology, machine field has been more and more widely applied. As the most important part of machine learning, it is necessary to master automatic text categorization technology in an all-round way to retrieve information effectively and mine data fully. During social sustainable development, text categorization technology has made remarkable progress. However, there are still some problems in its practice, which should be studied and evaluated comprehensively from many aspects. The paper studies several text categorization technologies based on machine learning systematically, and points out future development direction of text categorization technology.

Key words: Machine learning; Text categorization; Vectors; Features

0  引言

在信息時代逐渐到来的当下,从互联网上获取信息资源已经成为当前最主要的信息获取方式,但是由于互联网上的各种信息及数据量越来越大,要准确提取到有价值的数据及信息的难度随之不断增大。因此,为了可以使互联网中呈无规律分布的有价值信息可以被充分利用,就需要使用到数据挖掘就信息检索的相关功能。而支持这两种功能得以实现的最关键基础就是文本分类技术,此技术的最主要作用就是通过预先设定的分类模型,在对文本内容进行自动识别的基础上实现对文本类别的判定[1]。近年来这种技术在信息管理、信息过滤及其他处理工作方面都得到了极其广泛的应用。历经十几年的发展,文本分类技术至今已取得了显著的进步。

1  文本分类基础技术研究动态

近年来,文本简化为BOW,并在特征处理及相关算法的基础上实现对文本信息的估计和预测已经成为当前文本分类的标准方式,不论是文本表示,还是对文本分类模型的研究也都取得了显著的进展。

1.1  文本表示

一般情况下,为便于处理,文本都需要被表示成为可被计算机识别的方式。当前在文本表示时使用最多的方法仍为VSM,经实践证明这种表示方法一直具备较好的表示效果[2]。在这种表示方式中,所有文档都可被表示成为类似的向量,上述公式中,ti为词条项,wi就表示为权值,其公式则通常为TF-DF公式,具体如下:

其中,主要指出现于文档中的次数,N为训练文本的总数,n为出现的训练文本的总数,M为向量维数。

除此种表示外,其他模型则主要分别基于概率分布及二维视图上,并且还有待在理论与实践上都被进一步验证,当前这些都可为一种全新的表示思路。

1.2特征提取

特征提取主要指特征子集被提取,并通过此过程来实现对空间维数进行降低,并使计算得以简化的过程。在此过程中应首先评估特征的重要程度,之后在根据各重要程度的不同进行排序,并在此技术长通过阈值及相关比率的设定来完成最终的提取工作。而所提取出的自己将比应用于后期的分类过程[3]。当前主要使用到的特征提取算法主要为文档频数、X2统计、信息增益等。

2  机器学习的文本分类方法

当前,较为常见的文本分类方法主要有Rocchio,K近邻,决策树,朴素贝叶斯以及SVM等。

2.1 Rocchio算法

这种方法的理论依据主要为向量空间模型,基于TF-DF的此种算法中,文本通常表示为单个N维向量,其中N主要指文本的特征数,对其权重进行计算时就要使用TF-DF法。首先,向量应使用训练集中的文本进行表示,并进一步生成类别向量,取全部文本向量的平均值。由此可见,Rocchio的训练过程其实也即类别特征向量被建立形成的整个过程。在进行分类时,如设置一未知的文本,并生成其文本表示向量,进而计算此向量与其不同类别特征向量的相似程度,之后再对文本进行分类,通常都会直接归类至相似度最高的类别中[4]。这种算法的优点在于具备较强的操作性,并且运算速度也较之其他算法较快。

2.2K近邻

在这种算法中,当使用一种未知类别的文本时,通过生成相应的特征向量,之后,其KNN就会对全部训练样本进行搜索。在综合对比全部特征向量的基础上,比较其相似度,并从中寻找出最相似的多个训练样本,之后再将未知文本进行分类至文本数目较多的类别中。

2.3朴素贝叶斯模型

这是一种统计学的分类方法,其理论依据主要为贝叶斯决策论,即假设用于表示文档的各个特征词之间始终处于互相独立的状态。此时对于某待分类的文档,假定其表示向量为d,其文档类别集中某一类。则:

2.4决策树

此种方法的结构图通常情况下类似为流程图,并且呈现为树结构。在此结构中,所有节点都用于表示对属性的測试,而分支则表示对测试的输出,叶节点则表示为类别。在对文本进行分类时,使用这种方法通常就是通过在文本中筛选出具备信息特征并且含有信息量的词,之后再结合单词出现的实际情况来对文档的类别进行预测[5]。这种算法的核心为贪心算法,其中较为典型的方法主要有CART与D3、c4.5。

2.5 SVM

这是一种较为新颖的统计学方法,其基础原理主要确保结构化风险的最小化。自上世纪末,这种技术被引进入文本分类研究中之后就取得了极好的分类效果。SVM其本质就是通过找寻出最佳的超平面,使两种不同类别样本之间可以形成最大的间距,而处于超平面上的样本,通常为训练样本就被称为支持向量。SVM的思想其实就是指将在低维空间中呈现出非线性且不可被分开的问题映射至高维空间中,并使其可具备现行且可分的特性。而为实现这转化则主要通过使用核函数来完善对输入样本的相应映射,使维数灾难的问题最大程度被避免。

3  评估对比

在对文本分类的结果进行评估时,通常主要有如下几种方法,如召回率P评估、准确率R评估以及将两种评估方法相结合的F1值评估等。在对比过程中所使用的数据集为标准SogouC和Tancorp60,其中,前者共有8个类别,且数据分布均匀[6],而后者类别较多,共有60个,并且数据分布呈现不平衡的态势。通过这些方法对CNB、NBM、KNN以及SVM等四种分类方法的分类效果进行对比、以类别C为例,P、R及F1的计算公式分别如下:

其中,TC为被正确分配至类别C的测试样本数。FC则表示被错误分配至C中的测试样本数。RC则指应被却未被分配至C中的测试样本数。当PRF1值都越趋向于1,文本就越能被较好分类。

通过使用各算法对本文进行分类后得出如下结果。

由图1-2可知,数据集中数据的分布情况对于各算法的应用效果具备一定的影响作用。如当使用SVM算法时,图1中其性能指标只有70%,而图2限额显示其可达到88%,两者之间的比率相差超过了10%。则可证明,数据的分布情况可对分类方法的最终性能产生影响[7]。而在同一数据集中,NBM与SVM 都具备较好的分类效果,只有KNN分类效果最差。

而通过对训练时间及测试时间进行分析,则可评价出各算法便捷程度的高低,通过实验发现,不同算法的时间开销情况具体如下表所示。

从上表不难看出,当使用KNN时计算机的存储量及计算开销都处于较高的状态,在对Tancorp60数据集进行测试时所消耗的实践较之其他算法要相差4分钟左右,而在 SogouC数据集上则要相差70分钟左右,这种用时消耗以远超于其他算法。而使用SVM时则发现训练收敛速度较慢,并且训练所需的时间较之其余的算法也要花费较长时间。与此同时,在这些算法中,贝叶斯算法不论是训练时间还是测试时间都较少,其时间开销比较少[8]

通过对评估结果进行分析可知,当使用同一分类算法时,数据集不同,其分类效果也将不同。当数据集分布均匀时,分类效果要明显优于非均匀分布的数据集。因此,为达到较好的分类效果,应当在分类前就将数据进行均匀分布。这些算法中,贝叶斯以及SVM的应用比较广泛,而KNN则因为算法极为耗时,通常多被应用于规模较大的数据集分类中[9]

4  主要挑战及研究进展

当前的文本分类技术在对一些数据量较小,且数据分布价位均匀的文本进行分类时已经取得了较好的成绩,但是在处理其余的问题上始终还存在一定的障碍。如当类别体系较大时,分类器如何进行处理,同时目前为止还尚不存在更加优良的类别组织方法以妥善处理类别之间存在的多种复杂关系。再加上用获取的样本去对海量位置数据进行存储在空间上就极为有限,并且还会增加空间分布的难度。以上这些问题都需要在未来的发展过程中得到解决。当前,在应对这些问题时,主要采用了如下一些方法:①数据集偏斜,其中,一种可使用多种差异化的分类方法,将原点当做未知类别的中心,并在此基础上打造出分割面,使问题不受类别分布影响;另一种就是使用重取样法,即针对具备较强干扰性或将小类错误进行改善。②使用多层分类。在进行多层分类时通常都要应用到两种策略,即big-bang以及自顶向下基于级别,前者在应用过程中需要使用同种同类的分类器,而后者则需使用差异的分类器。但是在实际的使用过程中,经常会出现对分类器的准确性评测出现错误的现象。并且这一问题至今为止仍未得到有效的解决[10]

5  结语

随着时代的发展,文本分类技术将会取得更多进步。而在科学技术的不断推动下,当前文本分类技术中存在的问题也终将会得到解决。

参考文献

  • 鞠芳, 唐辉, 陈学亮, 王岱峥. 试析基于机器学习的文本分类[J]. 电脑编程技巧与维护, 2018(11): 36-39.
  • 李伯平. 机器视觉的双工业机器人协调作业分析研究[J]. 

电子元器件与信息技术, 2018(9): 4-6+10.

  • 韩琪恒. 机器学习方法在文本分类中的应用[J]. 电子制作, 2018(18): 61-62+64.
  • 馮成刚, 田大钢. 基于机器学习的微博情感分类研究[J]. 软件导刊, 2018, 17(6): 58-61+66.
  • 刘荣海, 耿磊昭, 杨迎春, 郑欣. 基于机器学习的GIS典型缺陷的智能识别研究[J]. 软件, 2017, 38(8): 184-189.
  • 姜杰, 夏睿. 机器学习与语义规则融合的微博情感分类方法[J]. 北京大学学报(自然科学版), 2017, 53(2): 247-254.
  • 张庆庆, 刘西林. 基于机器学习的中文微博情感分类研究[J]. 未来与发展, 2015, 39(4): 59-63.
  • 吴进. 机器视觉中快速模版匹配算法研究[J]. 新型工业化, 2014, 4(1): 65-69.
  • 贾昱晟. 基于机器学习的中文文本分类技术研究[J]. 电脑知识与技术, 2011, 7(21): 5194-5196.
  • 苏金树, 张博锋, 徐昕. 基于机器学习的文本分类技术研究进展[J]. 软件学报, 2006(9): 1848-1859.

猜你喜欢
类别机器向量
机器狗
向量的分解
机器狗
聚焦“向量与三角”创新题
未来机器城
向量垂直在解析几何中的应用
服务类别
向量五种“变身” 玩转圆锥曲线
论类别股东会
中医类别全科医师培养模式的探讨