基于词对主题模型的题名信息自动分类方法研究

2023-10-23 08:31:32刘爱琴梁雅琨
晋图学刊 2023年4期
关键词:高频词期刊论文题名

刘爱琴,董 婕,梁雅琨

(1.山西大学 经济与管理学院,山西 太原 030006;2.东北大学秦皇岛分校 管理学院,河北 秦皇岛 066004;3.山西大学 文学院,山西 太原 030006)

0 引言

科技论文的题名具有高度浓缩文章内容、信息导读和类型标识等功能[1],从题名抽取关键词,把题名作为基于本体自动分类的文本主体[2],实现海量期刊高效、精准地分类,这方面研究已经成为图书馆事业发展的重要课题。

题名作为一种短文本规范语言,专业性强,内容简练,能够高度概括和集中表达文本核心内容,因此可以作为文献分类的重要依据[3]。题名分类是利用预先建立的分类器,通过计算机对给定的未知类别论文集进行分类的过程[4]。然而,由于题名长度较短、特征稀疏、描述概念的信号弱、词的个数少等缺点导致题名特征严重不足,其分类效果不是很理想,国内外的研究工作进展缓慢。

国外代表性的观点如下:Rasim Cekik等[5]利用比例粗糙特征选择器(PRFS,Proportional Rough Feature Selector)进行文本的过滤特征选择,开创性地提出了一种新的基于粗糙集理论的短文本分类特征选择方法;Timothy N. Rubin等[6]研究了一类用于多标签文档的生成统计主题模型,该模型对于标签多、标签频率偏倚的数据集具有优势;Xuan-Hieu Phan等[7]使用短文本隐藏的主题内容作为额外特征集,通过推理、使用LDA(Latent Dirichlet Allocation,概率主题模型)模型分析方法获得主题模型,再与原始特征融合用于文本的训练和分类;Yoon Kim[8]将词矢量作为输入特征,利用卷积神经网络进行分类模型训练;Duc-Thuan Vo等[9]利用主题模型增强特征的方法,利用Latent Dirichlet Allocation(概率主题模型,LDA)分配的主题模型分析丰富的数据集,然后结合主题模型的外部文本来增强分类特征,使文档的分类更加有效。

国内相关研究如下:Jingyun Xu等[10]将上下文相关的概念纳入卷积神经网络,提出了一种名为DE-CNN(Differential Entropy-Convolutional Neural Network,微分熵-卷积神经网络)的神经网络短文本分类;吕超镇等[11]利用LDA主题模型分析方法得到短文本的主题分布,把主题中的词作为短文本的部分特征,并扩充到原短文本的特征中去,提出了一种切实可行的分类方法,但由于短文本特征稀疏的问题,分类效果不是很理想;巴志超等[12]借助知网语义词典以及维基百科词条对核心特征词集进行语义概念的扩展,提出了一种基于特征语义扩展的数字文献分类方法,一定程度上提高了数字文献的分类性能,但基于外部资源的特征扩展过度依赖外部资源的质量,容易受到外部知识库的限制。

2013年,国内学者晏小辉等[13]利用混合Unigram模型(一元模型)和与LDA模型相结合的BTM(Biterm Topic Model,词对主题模型)主题模型,在整个语料库建立词对模型,通过对Biterm(词对)的生成过程进行建模来学习短文本主题,打破了短文本特征稀疏的问题,为短文本分类奠定了良好的理论基础。2016年,郑诚等[14]通过对特征向量计算算法进行改进并考虑上下文问题,提出了一种融合BTM主题特征和改进特征权重计算的综合特征提取方法来进行短文本分类,对短文本分类有一定的效果。

综上所述,在高频词和隐含主题两个不同粒度层面,构建了基于BTM主题模型的题名信息自动分类方法。该方法利用文本内部的语义关联特性:首先在细粒度层面进行词频统计,提取文本的领域高频词;随后在粗粒度层面进行BTM主题模型分析,得到文本的主题关键词;之后,将得到的领域高频词和主题关键词去重合并获得领域核心词集;最后,利用SVM(Support Vector Machine,支持向量机)分类算法进行文本分类,实现期刊论文的题名信息分类。

1 基于BTM主题模型的题名信息自动分类方法的原理分析

1.1 BTM主题模型的题名分类原理

Fig.1 BTM topic model图1 BTM主题模型

利用BTM主题模型对语料集进行主题抽取,具体步骤如下:第一步,为文档中的每个主题z构造一个服从φz~Dir(β)的词对分布;第二步,为语料集中的每篇文档构造一个服从θ~Dir(α)的主题分布;第三步,构建语料库词对(wi,wj),词对集合|B|;第四步,从主题分布θ中抽取主题z,构造服从z~Multi(θ)的主题分布;最后,从主题z中抽取词对(wi,wj),服从wi,wj~Multi(φz)。对语料集中的文本重复执行上述过程,可以计算出词对(wi,wj)的联合分布概率,如公式(1)所示,整个语料库词对集合概率分布,如公式(2)所示。

P(b)=∑zP(z)P(wi|z)P(wj|z)

=∑zθzφi|zφj|z

(1)

P(B)=∏(i,j)P(b)=∏(i,j)∑zθzφi|zφj|z

(2)

1.2 支持向量机分类算法

基于统计学理论的二分类模型支持向量机[15](Support Vector Machine,SVM)是将数据非线性地映射到一个高维的特征空间,依据结构风险最小化理论找到一个可以将不同类数据有效分割的最优超平面,从整体上优化分类器。SVM主要分为线性可分和线性不可分两种情况:当数据线性可分时,分类器要从无限个超平面中找出一个类别间隔最大的最大边缘超平面,使分类误差最小;当数据线性不可分时,需要引入合适的核函数,将不可分的样本非线性映射到高维向量空间中,从而有效解决核问题,以达到高效精准的分类效果。

作为一个有监督的机器学习模型,SVM具有稳定精准的分类性能,其主要优势在于不受样本规模和样本空间维数的影响,当样本规模有限时,也能出色解决线性不可分和高维空间等复杂问题,具有良好的分类效果。

1.3 算法处理步骤与特色分析

文本分类是根据文本所蕴含的信息将其映射到预先定义带主题标签的两个或多个类的过程[16]。为实现海量期刊论文的有效分类,本文提出一种基于BTM主题模型的题名信息自动分类方法,如图2所示。该分类方法主要由数据采集、数据预处理、高频词提取、文本建模、文本分类五个步骤组成。各个步骤的功能、输入内容和输出内容详见表1。

表1 基于BTM主题模型的题名信息自动分类方法每个步骤的分析Table 1 Analysis of each step of automatic classification method of title information based on BTM topic model

Fig.2 Algorithm flow of automatic classification of title information based on BTM topic model图2 基于BTM主题模型的题名信息自动分类算法流程

由图2可知,基于BTM主题模型的题名信息自动分类功能主要通过以下五个步骤实现。第一步是文本预处理,即收集到数据后对题名信息的训练集和测试集分别进行预处理:首先,通过Python的正则表达式(Re)进行清洗操作,去除数字、空格、标点等无用的符号;其次,利用Python的Jieba分词工具进行中文分词;最后,将哈工大停用词表不断修改扩充,用于去除停用词。第二步,将预处理后的训练集进行词频统计,获取领域高频词。第三步,对训练语料进行BTM建模,得到各主题下的关键词。第四步,将领域高频词和主题关键词合并,过滤掉重复特征词,得到领域核心词集。第五步,借助SVM分类算法计算测试集与训练集中领域核心词集的相似度,选择相似度最高的类别分配给该测试集对应词汇。各步骤的分析如表1所示。

本文通过以上五个步骤构建了基于BTM主题模型的题名信息自动分类方法。当前主流的分类模型是LDA模型,由于短文本的特殊性——短文本里每篇文档包含的词汇很少——从而导致短文本使用LDA模型进行题名信息分类会出现特征稀疏的现象。而BTM模型利用混合Unigram模型和LDA模型结合,主要采用词对共现的形式来提高特征维数,有力解决了特征稀疏的问题,更加适用于短文本分类。另外,SVM作为一个有监督的机器学习模型,其主要优势在于不受样本规模和样本空间维数的影响,当样本规模有限时,也能出色解决线性不可分和高维空间等复杂问题,本文利用支持向量机(SVM)建立分类器来实现文本分类,具有良好的分类效果。同时采用两种方法的论文较少,将两者有机结合在一起进行具体运用探讨的不多见。两者的结合可以在分类检全的情况下提高查准率。

2 方法优劣的验证

本文利用中国知网数据库进行上述基于BTM主题模型的题名信息自动分类算法的仿真验证。

第一,通过八爪鱼爬虫技术完成文献的采集,选取期刊论文的题名信息作为语料集,在检索栏分别输入关键词“环境”“经济”“体育”“艺术”,共4个类,各类按相关度从高到低采集前700篇,其中随机抽取500篇作为训练集,将其余200篇作为测试集,共采集到2 800篇中文期刊,构成基于BTM主题模型的题名信息自动分类方法的数据集。

第二,利用Python完成数据预处理,即对数据集进行有效优化,清除对文本分类无用或产生干扰的词汇,从而提高分类效果。预处理主要包括三个环节:首先,通过Python的正则表达式Re完成数据集的清洗,比如数字、空格、标点等进行删除;其次,因为中文文本不以空格作为分隔符,所以需要通过中文分词组件进行分词,综合考虑后,选用具有良好分词效果的Jieba软件作为分词工具;最后,本文将《哈工大停用词[对文本主题没有意义的词称为停用词。]表》作为常规表,同时在实验过程中进行人工维护,根据实验需要不断对停用词表进行修正,加入新的停用词。其中,预处理代码如图3所示。

Fig.3 Code display for data preprocessing section图3 数据预处理部分代码展示

上图是数据预处理的部分代码。首先,对爬虫采集到的题名信息进行数据清洗,去掉标点和特殊符号;其次,通过Jieba分词工具进行中文分词,将题名信息分成各个独立的词;最后,对停用词表进行人工修正,完成停用词去除:由此得到预处理后的题名信息结果。

第三,选取领域高频词。领域高频词是指在某个类中出现几率高而在其他类中出现几率低的词,其具有辨识度高、区分能力强、可以唯一确定某个类的特征的特性,因此,本文选用这些高频词作为特征词来进行文本分类。本文将预处理后的训练集进行词频统计,作为领域高频词,从中筛选出环境、经济、体育、艺术各类排名前20的高频词,关键代码如图4所示,选取结果如表2所示。表2展示了环境、经济、体育、艺术4类题名信息的高频词和相应的频数。

表2 各类高频词选取结果展示Table 2 Display of selection results for various high-frequency words

Fig.4 Key code display for word frequency statistics图4 词频统计关键代码展示

上图4是对预处理后的数据进行词频统计从而提取领域高频词的部分代码,通过筛选各个词出现的频数,实现了对环境、经济、体育、艺术4类题名信息的高频词选取。结果如表2所示。

第四,提取主题关键词。在训练语料中存在信息含量丰富的低频词,虽然这些词能有效代表某个类,但在上述高频词的选取过程中,往往在一开始就被过滤掉,为了保留这些核心词,需要进行主题关键词的提取。本文基于粗粒度层面对训练集进行BTM建模,得到文本的主题关键词,从中筛选出环境、经济、体育、艺术各类排名前20名的关键词,选取结果如表3所示。表3展示了环境、经济、体育、艺术4类题名信息对应的主题关键词。

第五,获取领域核心词集。特征词和隐含主题是两种不同的特征粒度,本文从粗细两个粒度分别进行分析:基于细粒度层面进行词频统计,从而提取出文本的领域高频词;基于粗粒度层面采用BTM主题模型,分析得出文本的主题关键词。将各个类中的高频词和主题关键词进行合并,过滤掉其中的重复词,由此获得训练语料的领域核心词集。选取结果如表4所示。表4展示了将上述步骤所得的领域高频词和主题关键词去重合并后的结果,环境、经济、体育、艺术各类的领域核心词集中分别有32、28、27、30个词。

表4 各类语义核心词集选取结果展示Table 4 Display of selection results for various semantic core word sets

第六,支持向量机的自动分类。利用SVM分类算法计算待分类题名信息与4类训练集核心词集的相似度,相似度最高的类即是该题名归属的类别。部分期刊题名的归属类别号以及相似度的关键代码如图5所示。运行分类结果如表5所示:类别号0表示环境类、1表示经济类;2表示体育类;3表示艺术类。可以看出,待分类题名信息与某类别的相似度越高,代表其归属此类别的可能性越大。可见,基于BTM主题模型的题名信息自动分类方法有效实现了文本的自动、高效分类。

表5 基于BTM模型和SVM算法的题名信息分类部分结果展示Table 5 Display of title information classification results based on BTM Model and SVM algorithm

Fig.5 Key codes for title information classification based on BTM model and SVM algorithm图5 基于BTM模型和SVM算法的题名信息分类关键代码

通过以上步骤的数据分析处理,将环境、经济、体育、艺术4个类的题名信息分为训练集和测试集,进行预处理,将词频统计得到的领域高频词和BTM建模得到的主题关键词去重合并得到领域核心词集,用SVM分类算法将测试集与训练集的领域核心词集进行相似度计算,相似度最高的类别即为测试集所归属的类别。

从表5展示出的题名信息分类结果可以看出,测试集通过相似度计算归属的类别号准确,由此可知该方法实现了期刊论文的有效分类检索,分类的效率和准确率较高,是一种可行的题名信息自动分类方法。但由于中文表达的灵活性和复杂性,该方法也有局限性,即BTM主题模型在词对的选择过程中缺少对词语语义相关性的考虑[17],未来可以改进相关的算法流程,实现更高效精准的论文题名信息分类。

3 结束语

在数据采集技术和数据存储设备快速发展的大环境下,多种针对数据分析、挖掘的应用应运而生。在学术研究过程中同样需要应用各种数据分析技术,如期刊论文的分类研究[18]。随着高等教育的迅速发展,学术期刊论文的数量与日俱增,期刊论文的分类检索成为信息处理领域一个亟需解决的问题。为有效解决期刊论文的分类问题,本文将自动分类技术应用于期刊论文的分类研究,利用题名信息对期刊论文进行分类,以提高期刊论文分类的效率和精度。

将特征词和隐含主题两个不同粒度结合,本文设计并实现了基于BTM和SVM的题名信息自动分类方法。该方法通过词频统计和BTM建模分别获得高频词和主题关键词,去重合并后得到核心词集,最后利用SVM分类算法计算测试集与核心词集的相似度,依据相似度进行题名信息自动分类。

利用中国知网数据库进行基于BTM主题模型的题名信息自动分类算法的仿真验证。结果表明:该方法一方面有效地实现了知识的快速聚类和关联自动分类,提高中文学术文献的查全率和查准率;另一方面为用户提供了满意度更高的知识发现及相关扩展服务,有效促进中文信息的获取和传播。但该方法也有局限性,即BTM主题模型在词对的选择过程中缺少对词语语义相关性的考虑[17],由于中文表达的灵活性和复杂性,期刊论文的分类检索还有很大的研究空间,未来将深入探索如何设计出更高效更精准的论文分类方法。

猜你喜欢
高频词期刊论文题名
省级两会上的高频词
小康(2022年7期)2022-03-10 11:15:54
30份政府工作报告中的高频词
小康(2022年7期)2022-03-10 11:15:54
栖凤阁题名记
西江月(2021年2期)2021-11-24 01:16:12
省级两会上的高频词
小康(2021年7期)2021-03-15 05:29:03
28份政府工作报告中的高频词
小康(2021年7期)2021-03-15 05:29:03
医学期刊论文中常见统计学错误
北大汉简五《大罗图》题名商榷
公共图书馆不应认可的职称期刊论文探析——基于重庆图书馆职称期刊论文的实证调研
人文社科期刊论文被引频次和下载频次相关性研究
佳石选赏
中华奇石(2015年7期)2015-07-09 18:32:15