王丁
摘 要:在大数据时代下,每天会产生海量的文本信息,为实现对海量文本信息的高效利用,就必须运用文本分类技术剔除信息中的冗余信息,并对文本进行自动分类,在分类文本中提取出具有使用价值的信息,为信息检索与数据挖掘技术的应用打下基础。在信息数据爆发式增长的环境下,文本分类技术已经成为数据挖掘、信息检索以及提高信息资源利用价值的重要技术。本文从概述文本分类技术入手,将随机森林算法作为重点,研究了基于机械学习的文本分类技术,期望对提高文本分类性能有所帮助。
关键词:机器学习 文本分类技术 随机森林算法
中图分类号:TP391.1 文献标识码:A 文章编号:1674-098X(2020)03(b)-0090-02
本文提出一种基于机器学习的文本分类技术,该技术可应用于网页新闻分类、垃圾邮件识别、网络评论分类等领域,具有良好的应用前景。
1 文本分类技术
文本分类是基于自然语言处理技术框架下对单词、句子、段落等文本类别标签作出判断的一种技术,属于监督学习方法。文本类别来自于自定义的类别,类别标签可为任意数量。根据类别的不同,文本分类包括单层分类与多层分类两种形式,单层分类的类别标签数量为一个,多层分类的类别标签数量为多个。基于机器学习的文本分类任务的完成,实质上是函数映射的过程,具体包括以下五个方面。
1.1 文本预处理
在文本分类之前需对原始数据进行预处理,剔除原始数据中的噪声,将其转变为规范的格式。在文本预处理中,可采用基于词典匹配或基于统计的分词算法进行文本分析,如针对中文文本可采用汉语分词系统ICTCLAS进行分词。文本预处理还要去掉连词、介词、语气助词等无实际意义的停用词,以节省文本存储空间。
1.2 文本表示
在基于机器学习的文本分析中,向量空间模型是常用的文本表示方法之一,该模型分为以下两种版本:(1)词袋模型。在文本表示中无需考虑文本结构要素之间的关系,将各要素视为独立项,根据词出现的频率设置计算权重。(2)词的分布表示。该表示方法可分为基于矩阵、基于聚类和基于神经网络三种类型的词的分布模型,其中最后一种分布表示模型可解决前两种模型存在的维数灾难问题。
1.3 空间降维
对高维特征矩阵需要进行空间降维,以避免原始数据过于庞大而造成计算机计算能力超负荷运行。在空间降维中,可采用特征选择与特征提取两种降维方式。其中,特征选择可利用卡方统计、交叉熵、文档频率阈值等方法提取分类中有用的特征;特征抽取可采用成本分析、线性判别分析等方法提取出低纬度的特征。通过空间降维提取特征,可以保证所提取的特征符合文本语义描述。
1.4 分类模型训练
分类模型训练是基于机器学习的文本分类关键技术,包括单重分类器方法和多分类器方法。(1)单重分类器方法包括贝叶斯分类、支持向量机、K最近邻、决策树等方法。前三种方法均存在一定局限性,如分类精度不足、数据处理效率低以及对存储资源和计算能力要求高。而决策树能够对数据型和异常样本进行同时处理,保证输出结果的精确度,所以本文采用决策树方法对基于随机森林算法的文本分类技术进行研究;(2)多分类器方法包括随机森林、Bagging等,通过组合单分类器的决策结果得出样本分类,适用于小规模数据和少类别文本分类。
1.5 分类性能评价
文本分类性能评价根据数据集、评价指标、评价测试策略进行评价。其中,数据集要求易于清理,适合分类实验任务;评价指标主要包括针对文本分类准确性、错误率、F均衡、召回率、ROC曲线等评价指标;K折交叉验证是评价测试的有效策略,通过随机将数据集划分为不同的k个子集,对各个子集进行测试,重复k次,取平均正确率,即为测试结果。
2 基于机器学习的文本分类技术
本文选取机器学习中的随机森林算法对文本分类技术进行研究,对算法过程、算法评价指标、算法特点以及算法优化进行分析,以提高文本分类的性能。随机森林算法集合了CART决策树算法和Bagging集成算法,涵盖多个决策樹分类器集合,可解决回归与分类问题,将最大票数的类别作为文本分类结果。
2.1 算法过程
随机森林算法的具体过程如下:对每棵决策树均生成训练集,样本数量为N,从原始训练中抽取n个样本,n≤N,形成训练子集;在每个训练子集中提取M数量的特征属性,并从特征属性中选取m个特征属性组成特征子空间,m≤M,构成随机特征子空间。遵循基尼系数最小原则,在特征子空间中选择最优属性,开始分类节点,将所有训练样本都进行完全分裂,最终形成决策树;重复上述步骤,构建k棵决策树,生成随机森林,按照随机森林决策模型进行最终决策,最大投票数的类是最终分类结果。
2.2 算法评价
在随机森林算法评价中,可选取分类效果与运行效率两大类评价指标:(1)分类效果评价指标。该类评价指标除了可选取上文提出的分类性能评价指标之外,还可选用泛化能力指标。泛化能力主要用于反映机器学习算法对新样本的适应性,可采用OOB(袋外数据)估计方法进行评价。OOB估计法对随机森林中错误分类样本数量进行统计,计算该数量所占随机森林样本总数的比重,得出OOB误分率,用以评价文本分类性能;(2)运行效率评价。该评价指标可从计算所需的时间与空间资源两个方向进行选取,其中时间资源包括算法编译时间、执行命令时间、重复执行算法时间等评价指标,空间资源包括静态存储空间、输出数据空间、算法输入空间以及可变存储空间等评价指标。
2.3 算法分析
随机森林算法通过组合决策树,随机选取样本和样本特征,可有效提高算法的降噪能力。避免决策树在生成过程中出现过度拟合问题,以达到良好的高维度数据处理效果。同时,基于Bagging集成算法的机械学习算法,能够保证各个决策树之间相互独立,提高算法模型的运行效率。但是,在复杂原始数据中基于随机森林算法的文本分类存在着一定的应用弊端。如,需要考虑强分类器与弱分类器,易降低分类结果的精确度;算法中拥有许多超参数,使得算法受决策树数量、最大特殊特征数、最小样本数等超参数影响而降低文本分类的性能。所以,仍需要基于随机森林算法对文本分类技术进行优化。
2.4 算法优化
下面针对随机森林算法的不足进行优化,优化内容包括以下方面:(1)投票机制优化。采用决策树分类效果评价指标,计算袋外数据的分类正确率,将原本输出样本的类标签转变为输出样本分类的概率,分类正确率越高,则表明决策树分类效果越好。同时,还要结合采用类概率加权投票方法,计算测试样本中每一个类的概率,将加权值最大的类作为分类结果;(2)超参数优化。结合采用随机搜索算法和网络搜索算法对随机森林超参数进行优化,获取最优值组合,得出近似最优解,即得到最后的分类结果。
3 结语
总而言之,文本分类技术是大数据时代下信息数据处理的关键技术之一。基于机器学习的文本分类技术,可利用随机森林算法作为文本分类方法,在优化算法的基础上,进一步完善文本预处理、文本空间降维、文本分类性能评价的过程,用以弥补传统文本分类方法的不足,进而提高随机森林算法的计算能力和文本分类性能。
参考文献
[1] 韦灵,倪志平.基于自然语言处理和机器学习的文本分类及其运用[J].科技视界,2019(9):136-137.
[2] 向志华,邓怡辰.基于机器学习的文本分类技术研究[J].软件,2019(9):140-142.
[3] 王国薇.基于深度学习的文本分类方法研究[D].新疆大学,2019.
[4] 姜璐.基于深度学习的新闻文本分类模型研究[D].山东师范大学,2019.
[5] 周陽.基于机器学习的医疗文本分析挖掘技术研究[D].北京交通大学,2019.