核主成分分析法在酒店数据文本分类中的应用

2023-11-22 06:03黄金铭
现代信息科技 2023年19期
关键词:文本分类特征提取

摘  要:核主成分分析法作为一种非线性数据处理方法,被广泛应用于数据降维。文章将核主成分分析法应用于中文文本分类领域,使用核主成分分析法对酒店评论数据集进行特征提取。然后,基于核主成分分析法降维后的数据,对比极端梯度提升算法和逻辑回归算法的文本分类效果。实验结果表明,核主成分分析法能够有效去除数据冗余,提升中文文本分类的准确率和查全率。相较于极端梯度提升算法,逻辑回归算法在训练集和测试集上的分类准确率差距不大,模型的泛化能力较好。

关键词:核主成分分析法;特征提取;逻辑回归;文本分类

中图分类号:TP39  文献标识码:A  文章编号:2096-4706(2023)19-0160-04

Application of Kernel Principal Component Analysis in Text Classification of Hotel Data

HUANG Jinming

(Public Teaching Department, Heze Medical College, Heze  274000, China)

Abstract: As a nonlinear data process method, Kernel Principal Component Analysis is widely used in data dimensionality reduction. This paper applies the Kernel Principal Component Analysis to the field of Chinese text classification and uses it to perform feature extraction of the hotel review datasets. Then, based on the data after dimensionality reduction by Kernel Principal Component Analysis, it compares the text classification performance of extreme gradient boosting algorithm and logistic regression algorithm. The experimental results show that the Kernel Principal Component Analysis can effectively remove data redundancy and improve the accuracy and recall rate of Chinese text classification. Compared to the extreme gradient boosting algorithm, the classification accuracy of the logistic regression algorithm between the training and testing sets is not significantly large, and the model has better generalization ability.

Keywords: Kernel Principal Component Analysis; feature extraction; logistic regression; text classification

0  引  言

作為一种监督学习技术,文本分类根据一定的规则自动对文本进行分类和标注。近年来,随着数字化信息的持续增加,文本分类受到了信息检索、数据挖掘和机器学习领域研究人员的极大关注。互联网中信息和数据的持续增长导致对高性能文本分类的需求不断增加[1]。然而,随着数据量的急速膨胀,数据维度也越来越高,高维文本数据不仅会降低分类准确率和增加计算成本,对计算机的内存也提出了更高的要求。因此,为了消除数据冗余,为后续分类提供更加可靠的信息,在文本分类之前必须进行数据降维。

大多数的文本分类都可以分为四个阶段:数据预处理、降维、文本表示和文本分类。数据降维是机器学习的一个重要组成部分,也是文本分类的必要步骤。恰当的降维方法能够降低计算复杂度,提高分类性能,并避免过度拟合问题。因此,众多领域的研究人员都对文本分类的降维给予了极大的关注,并提出了各种用于文本分类的降维方法。数据降维一般分为特征选择和特征提取。其中,特征选择方法通常分为两种:一种是基于频率统计方法,另一种则是基于特征与文本、特征与类别信息之间的相关性统计的方法,每种特征选择方法都有其不足之处。

特征提取是模式识别领域对高维数据降维的另一种常见方法,其中,主成分分析法(Principal Component Analysis, PCA)、线性判别分析法等算法可以有效对线性数据进行降维。然而,真实情境下的数据大多是高度非线性的,这时上述线性方法将不再有效。为了处理非线性数据带来的问题,学者们提出了非线性特征提取算法,比如,核主成分分析法(Kernel Principal Component Analysis, KPCA),流形学习算法等。

其中,核主成分分析法是在传统PCA方法基础上改进的方法,可以有效消除输入数据的冗余信息。与其他非线性方法相比,核主成分分析法不涉及非线性优化,因为核主成分分析法只需要线性代数,这使得它和传统主成分分析法一样简单,此外,核主成分分析法不要求在建模之前指定特征数量[2]。因此,核主成分分析法得到了广泛的研究。文献[3]将KPCA法与相关向量机结合用于鉴别人体动作变化。付华等[4]等人为了提高瓦斯涌出量预测精度,使用KPCA法提取样本中的特征向量,有效提高了预测模型的准确度。诊断高压断路器机械故障时,文献[5]首先使用KPCA法对故障特征进行数据降维,将提取的特征向量输入到模型中学习,实验结果表明,使用KPCA方法降维之后的数据可以加快模型的运行速度,提高运行效率。

为了验证核主成分分析法在实际场景的适用性,本文选择携程酒店评论数据文本集,经过对数据集进行分词处理、数据转换、样本均衡等预处理,使用核主成分分析法来提取文本特征,并使用逻辑回归(Logistic Regression, LR)模型对文本进行分类。实验结果表明,核主成分分析法可以应用于酒店数据文本分类问题,并能有效提高后续文本分类的准确率。基于降维后的数据,对比逻辑回归和极端梯度提升(Extreme Gradient Boosting, XGBoost)算法的文本分类效果,实验结果表明,逻辑回归模型的分类准确率和查全率明显优于XGBoost算法。

1  核主成分分析法

KPCA法是非线性特征提取算法最具代表性的方法之一,其基本思想是通过非线性映射将原始数据映射到高维特征空间,将数据结构从非线性修改为线性,然后在高维特征空间基于PCA法进行数据处理。

设X = [x1,x2,…,xN] ∈ RD×N是一个高维数据集,其中xi ∈ RD(i = 1,2,…,N)表示第i个样本,N表示样本大小。首先通过非线性函数?(x)将训练样本xi映射到高维特征空间,经过标准化处理,高维空间中的数据?(xi)满足式(1):

在PCA算法中,样本X的协方差矩阵为 ,因此高维特征空间中的协方差矩阵为:·

,求解协方差矩阵的特征值问题:λi ξi = C ξi。其中,λi是协方差矩阵C的特征值,ξi是与特征值λi相对应的特征向量。

由于协方差矩阵C很难直接计算,因此引入核矩阵K。本文将核矩阵K定义为 ,求解核矩阵的特征值问题:。其中, 是核矩阵K的特征值;αi是与特征值  相对应的特征向量。

随后,将协方差矩阵C和核矩阵K引入核矩阵K的特征方程中,这样,协方差矩阵C的特征向量ξi可以用非线性函数?(xi)表示,即 。其中, 是ξi的第i个系数。

计算得出核矩阵K的特征值 ,根据式(2)计算上述特征值的贡献率gi和累计贡献率G,将所有特征值按贡献率大小降序排列:。

一般来说,若累积到第s个特征值,累计贡献率高于85%时,则认为这些特征值对应的信息足以代表原始数据的信息。最后,高维特征空间中的数据?(xi)对特征值ξi的映射Pi(x)就是第i个主成分,其中,Pi(x)如式(3)所示:

原始数据集X = [x1,x2,…,xN]降维后得到的主成分矩阵记为D={P1(x),P2(x),…,Ps(x)},由映射组成,其中s<N,矩阵D充分保留了原始数据集X的信息[6]。经过KPCA法处理,去除了原始数据中的冗余信息,为文本分类提供了稳健的数据基础。

2  实验数据集

2.1  数据集来源

为了检验算法的适用性,本文采用由谭松波整理的携程酒店评论数据集进行实验。所有的程序均用PyCharm编程,在PyCharm社区版2022软件实现,计算机的硬件配置是:Intel(R) Core(TM) i5-10500 CPU@3.10 GHz 3.10 GHz,系统类型是64位操作系统。

2.2  评价指标

为了综合评价LR算法和XGBoost算法对酒店评论数据集文本分类的效果,本文选取以下四个评价指标:召回率(recall)、精度(precision)、F1分数(F1 score)和准确率(accuracy)。召回率用于计算二分类问题中被正确预测的正样本所占比例。精度计算被分类为正的实际为正的样本数所占的比例。F1分数同时考虑了分类模型的召回率和精度,其最大值是1,最小是0,數值越大,表明模型分类能力越好[7]。准确率衡量分类准确的样本数占样本总数的比例。下面给出召回率(r)、精度(p)、F1分数和准确率(AUC)的定义:

其中,TP表示在二分类问题中被准确预测为正的正样本数;FN表示在二分类问题中被错误预测为负的正样本数;FP表示在二分类问题中被错误预测为正的负样本数;TN表示在二分类问题中被准确预测为负的负样本数。

2.3  数据预处理

为了方便处理数据,首先将数据的格式转换为字符串类型,去除评论中的标点符号和数字,并作分词处理。为了节省存储空间和提高后续的分类效率,处理数据时可以过滤某些极其普遍的、没有任何实际含义的词汇,由于本文讨论的背景为酒店,故本文将酒店、宾馆、携程等这类作为业务背景常出现的词汇加入停用词处理范围,以发现更加具备业务本身价值的特征。该酒店评论数据集共有7 766条评论,包括5 322条正面评论和2 444条正面评论。显然,该数据集存在严重的样本不平衡问题。为了解决样本不均衡问题,本文使用下采样策略,通过删除分类中多数类样本的样本数量来实现样本均衡。下采样在保留少量样本的同时,会丢失多数类样本中的一些信息,样本总量在减少。

在正式建模之前,本文首先将词汇转换为向量,即词嵌入,本文采用TF-IDF(term frequency–inverse document frequency)方案,将每一个词汇处理后得到一个词汇向量。通过词嵌入后的特征维度过多,导致计算量巨大,而且一些TF-IDF比较低的特征本身会对模型产生影响。为了消除上述负面影响,需要对特征进行精简,去掉一些特征,因此在分类之前必须进行特征提取。

3  实验结果与分析

为了使获得的实验结果可信,将数据集按照3:1分为训练集和测试集,每次实验的训练样本集和测试样本集随机确定。为了验证KPCA方法在文本分类中的降维效果,本文选取了同为非线性降维方法的等距特征映射(Isometric Feature Mapping, ISOMAP)算法进行对比,此处分类算法统一选用逻辑回归算法,实验结果如表1所示。从表1可以看出,使用核主成分分析法降维后的分类模型无论是在测试集上,还是在训练集中,其分类召回率、精度、F1分数和准确率都优于ISOMAP算法,尤其在测试集中,使用核主成分分析法降维后的分类准确率提高了大约8%,召回率提高了约8%,精度提高了约7%,说明核主成分分析法适用于中文文本分类情境,而且具有良好的降维效果。

在KPCA算法的基础上,分别采用逻辑回归算法和XGBoost算法对酒店评论的分类效果进行比较研究。实验结果如表2所示。表2对比了LR算法和XGBoost算法的文本分类效果,可以看出,逻辑回归算法在训练集和测试集上的分类准确率差距不大,模型的泛化能力良好。而XGBoost算法在训练和测试集的分类准确率之差相比逻辑回归算法较大,模型整体的泛化能力不足。

为了更加直观评价逻辑回归算法和XGBoost算法的文本分类效果,绘制出两个算法在测试集上的ROC曲线,如图1所示。图1中蓝色曲线表示XGBoost算法在测试集上的分类表现,红色曲线代表逻辑回归算法在测试集上的分类表现,ROC曲线下方的面积越大,说明算法的分类性能越优秀。从图1可以看出,逻辑回归算法的分类性能优于XGBoost算法。

4  结  论

本文基于携程酒店点评数据,首先使用核主成分分析法对数据进行降维,然后使用逻辑回归算法对文本进行分类。实验结果表明,相较于等距特征映射算法,核主成分分析法能够有效提升中文文本分类的准确率和查全率。基于核主成分分析法降维后的数据,对比极端梯度提升算法和逻辑回归算法的酒店文本分类效果,结果表明逻辑回归模型的召回率、精度、F1分数和准确率均高于极端梯度提升算法,逻辑回归算法的分类性能优于极端梯度提升算法。

参考文献:

[1] ABDALLA H,AMER A A. On the integration of similarity measures with machine learning models to enhance text classification performance [J].Information Sciences,2022,614:263-288.

[2] SCH?LKOPF B,SMOLA A,M?LLER K R. Kernel principal component analysis [C]//Artificial Neural Networks - ICANN '97,7th International Conference.Lausanne:DBLP,1997:583-588.

[3] 吳建宁,林秋婷,伍滨.基于核主成分分析的相关向量机人体动作分类新型模型 [J].中国生物医学工程学报,2022,41(6):641-649.

[4] 付华,付昱,赵俊程,等.基于KPCA-ARIMA算法的瓦斯涌出量预测 [J].辽宁工程技术大学学报:自然科学版,2022,41(5):406-412.

[5] 张迅,黄军凯,赵超,等.基于KPCA-SVM的高压断路器机械故障诊断 [J].测试技术学报,2023,37(2):158-164.

[6] LI X,JIA R,ZHANG R,et al. A KPCA-BRANN based data-driven approach to model corrosion degradation of subsea oil pipelines [J].Reliability Engineering and System Safety,2022:108231[2023-02-06].https://ideas.repec.org/a/eee/reensy/v219y2022ics0951832021007092.html.

[7] 周志华.机器学习 [M].北京:清华大学出版社,2016.

作者简介:黄金铭(1995.09—),女,汉族,山东平

度人,助教,硕士研究生,研究方向:数据挖掘。

收稿日期:2023-04-09

猜你喜欢
文本分类特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于Daubechies(dbN)的飞行器音频特征提取
一种基于LBP 特征提取和稀疏表示的肝病识别算法
基于组合分类算法的源代码注释质量评估方法
基于贝叶斯分类器的中文文本分类
基于蚁群智能算法的研究文本分类
基于朴素贝叶斯分类的Java课程网络答疑反馈系统
基于K—means算法的文本分类技术研究
文本分类算法在山东女子学院档案管理的应用
基于DSP的直线特征提取算法