李俊飞,徐黎明,汪洋*,魏鑫
1.中国科学院计算机网络信息中心,北京 100083
2.中国科学院大学,计算机科学与技术学院,北京 100049
由于科技文献中的引文具备一定的同行评议效果,所以科技文献引文分析工作一直是文献研究的重点。引文分类工作能够为学术影响力评估[1-2]、文献检索推荐等提供基础数据,是科技文献引文分析的重要组成部分,得到学术界和工业界的广泛关注。科技文献引文分类研究经历了两个阶段,目前处于第二阶段的快速发展期。第一阶段:引文分类的必要性和可行性研究。该阶段的研究者多为领域专家,他们在对科技文献引文内容分析的基础上,建立起引文分类体系;通过实验证实了引文分类的必要性和可行性;该阶段的主要特点是人工进行、小范围、小样本研究。第二阶段:引文分类技术研究。该阶段引文分类与计算机技术相结合,以引文分类的自动化、规模化和智能化为目的。引文分类系统由三部分构成:引文分类体系、引文分类模型和数据集。本文主要关注引文分类模型的发展,同时对分类体系和数据集进行了汇总。
近年来,随着深度学习技术和预训练语言模型的发展,科技文献引文分类已取得重大进展。但目前仍然缺乏对现有方法和最新趋势的全面调研。为了回顾已有的进展,并帮助研究人员在未来开展新的工作,本文对近12 年来的科技文献引文分类工作发展进行了全面的调研和总结。尽管目前的科技文献引文分类模型在标准数据集上取得了显著的效果,但仍然存在较多问题需要解决。例如,现有分类模型大部分基于通用文本分类模型,没有针对科技文献引文分类的专用模型,且分类准确率相对通用领域的文本分类还有较大差距,影响了引文分类结果的推广和应用。本文对科技文献引文分类的特点和挑战进行了详细总结,也为科技文献引文分类后续研究的重点提出了建议。
综上所述,本文贡献可以总结为以下几点:
(1)总结归纳:本文对基于深度学习技术的科技文献引文分类的发展进行详细总结,主要包括基于卷积神经网络、循环神经网络的分类模型和基于预训练语言模型的分类模型。
(2)存在问题和展望:本文讨论并分析了现有分类模型存在的问题和挑战,提出了下一步研究工作应该关注的方向和重点。
(3)丰富的数据集:本文收集了科技文献引文分类的大量数据集。
本文组织结构如下:第1 节概述了科技文献引文分类体系,数据集和应用广泛的数据集;第2 节介绍基于统计机器学习的引文分类技术;第3 节介绍了基于深度学习技术的引文分类技术发展;第4节对全文进行总结;第5 节对目前存在的问题及下一步研究方向进行讨论。
20 世纪60 年代,科学引文索引(Science Citation Index, SCI)的发展开创了引文分析的大规模实践,其专注于学者间、期刊间的引用次数的统计,引用网络的建立[3]。随后,以引用频次为基础量化科研人员研究成果的h 指数(h-index)[4]、期刊影响因子(Impact Factor,IF)等指标构成了现有的科技评价[5]和学术影响力评估体系。然而这种将每次引用的重要性同等看待的评估方法受到众多学者的诟病,他们认为并非所有引用的重要性都是一样的,并尝试对引文按照一定的分类标准进行分类(不同的类别表示不同的重要性),然后将分类的统计结果引入到学术影响力评估体系中构建全面而合理的学术影响力评估体系。例如:Voos 等[6]第一次提出了引用平等性问题,分析了引文在简介、方法、讨论或者结论段落的位置后发现简介相对其他段落包含更多的被引文献;因此他们认为引文的贡献不但应该基于其数量,而且还与其在文献中的位置相关。Herlach 等[7]扩展了这个观点,认为对于被引文献在方法或者讨论段落再一次被引用应该被认为有更大的贡献。Small[8]是第一个研究引用科学内容的学者,他认为被高度引用的文章并不是学科前沿的标志。
早期的一些领域专家从引用动机、情感、目的等不同的角度对引文类别进行划分和小范围的标注,不同的标注类别代表着引文在文章中不同的重要性。例如:Garfield[9]从作者引用其他文献动机的角度,通过观察列出“提供阅读背景、修正他人工作、给予相关荣誉”等15 种原因。这也是学界第一次从引用动机的角度对引文进行深层次的分析。
Michael 等[10]研究了引用的冗余模式,他们对30 篇理论高能物理学文章中575 篇参考文献进行了分析,从概念的使用、是否冗余、是否评论、观点的肯定与否,将引用划分为4 个大类,每个大类按照肯定、否定、中立划分为3 个小类,共12 个小类,并且发现1/3 的参考文献是冗余的,1/7 是否定的,2/5 是敷衍的。
早期的引文分类是学者们对少量的特定领域文献引文分析后,提出的分类体系,其实证了引文分类的合理性[8-10];同时导致了研究人员各自为政、标注体系过多的问题。学界和业界目前并没有统一的标注规范,影响研究成果的应用和推广。表1 展示了现有的引文分类体系和数据集,其中ALC-ARC和SciCite 数据集是现阶段引文分类领域公认的在分类标准和样本数量方面较好的数据集,被广泛使用,见表2、表3。
表1 科技文献引文分类体系Table 1 Citation Function Classification Schemes
表2 ACL-ARC 数据集Table 2 ACL-ARC Datasets
表3 SciCite 数据集Table 3 SciCite Datasets
总之,学者们对引文从不同的角度进行分析、构造和命名了众多的引文分类体系。本文认为如从引用目的、引用动机、引文功能、引用意图等角度看,引文分类的本质是通过对科技文献中涉及的外来要素(引文)进行定性分析,根据其在研究主题的逻辑链条中所起的不同作用或者角色,给予不同的标签(不同的标签体现了重要性的不同);从整体上看,这些分类体系之间只是分类的角度、粒度不同,相互之间存在包含、相交或者并列关系。本文统称为科技文献引文分类体系。
2010 年以前,计算语言学、统计机器学习技术的发展以及文献全文获取相对便捷,引文分类研究重点由分类体系转向分类方法的研究,其中两种主要的方法被提出:第一种方法使用基于规则的策略,通过预定义线索词或者短语集合等语言学特征,利用决策树分类器分类[20-22];第二种方法使用统计机器学习分类器,结合关键词词典或者线索短语进行分类,如Teufel 等[11]使用将K 设置为3 的K-NN分类器[23],Angrosh 等[24]使用条件随机场分类器(Conditional Random Fields, CRF)[25],尹莉等[26]使用支持向量机分类器(Support Vector Machines, SVM)[27],柏晗[28]使用贝叶斯网络算法进行引文分类。以上基于统计机器学习的方法需要首先由语言学家人工抽取引文中的语言学特征,然后使用具备不同特征的样本数据训练分类模型完成引文的自动分类。使用基于统计机器学习的方法可以完成大规模的引文自动分类,然而也存在两个明显的缺点:其一,由于需要人工抽取语言学特征,导致训练数据集规模不可能太大;其二,不同学科的语言学特征也存在差别,而语言学家由于缺乏相应的专业知识背景,其提取精度也存在一定的偏差。
统计机器学习方法在进行文本分类时需要事先设计特征模板,然后从语法、关键词、线索词组等语言学的角度人工抽取特征,但是大而全的特征组设计可能使许多特征在数据集中仅仅出现一次,这样的特征在统计学上毫无意义。在完成特征抽取后,将这些特征输入分类器进行分类器的训练及预测。这种流水线式的作业方式存在严重的误差传播问题,亦即前一个模块产生的错误被输入到下一个模块中产生更大的错误,最终导致了整个系统的脆弱性。为了解决传统机器学习与自然语言处理中的数据稀疏、人工特征模板和误差传播等问题,人们将注意力转向了另一种机器学习的重要分支——深度学习。
深度学习领域的两大代表算法,卷积神经网络系列(Convolutional Neural Networks, CNNs)[29]、循环神经网络系列(Recurrent Neural Networks, RNNs)[30]各具特色。一般来说,CNNs 能够较好地挖掘输入数据的局部依赖特征,因此适合于空间任务,如图像处理等;RNNs 能够较好地抽取序列数据的前后依赖特征,适合于序列任务,如语音、文本等。因此,在自然语言处理任务中使用RNNs 更为合适。特别是RNNs 家族中的长短时记忆网络(Long Short-Term Memory, LSTM)[31]为建模句子中单词之间的长距离依存创造了条件。然而,RNNs 的缺陷在于难以并行化,而CNNs 在并行化方面具备天然优势。在句子颗粒度上进行的基础自然语言处理(Natural Language Processing, NLP)任务(中文分词、词性标注、命名实体识别和句法分析等)经常采用RNNs 来实现。自2018 年开始兴起的一系列基于Transformer[32]的大规模预训练语言模型与基于CNNs 或LSTM 的上下文化嵌入模型相比,其使用更深层的网络架构,并在大量文本语料库上进行预训练,在许多下游NLP 任务中达到了新的技术水平。
3.1.1 卷积神经网络
卷积神经网络(CNN)最先用于图像分类。对于文本分类任务,首先需要将文本表示为类似于图像表示的向量,然后CNN 从多个角度提取文本特征。具体过程是:首先将输入文本的词向量拼接成矩阵,然后矩阵被送入卷积层,卷积层使用数个不同维数的卷积核进行特征提取,最后卷积层的结果经过池化层,获得文本的最终向量表示,类别由最终向量预测。将CNNs 用于文本处理任务,最经典的是2015 年Chen 提出Text-CNN 模型[33],随后CNNs 模型开始在文本分类任务上广泛应用。2016年,Facebook Research 开源了名为fasttext[34]的文本表达和分类的计算库。fasttext 是基于Chen 等[33,35,36]所提出算法的实现,其针对变形词汇表达,为线性分类优化提供了优秀的解决方案。有学者将CNN 和RNN 的文本分类能力进行了对比实验,发现在一些任务上CNN 比RNN 表现要好[37]。
3.1.2 基于卷积神经网络的引文分类模型
Lauscher 等[38]第一次提出将CNN 应用于定性的引文分析领域,分别从引文的情感和引用目的两个方面进行分类。在模型结构方面,提出由词嵌入(Word Embedding)技术结合CNN 分类模型以及SVM 分类模型结合进行引文分类性能对比实验。在模型设计中,词嵌入技术使用domain-specific word embeddings,即在训练词向量时使用与待分类引文文献领域背景相同或者相似的语料库,并与通用语料库中计算的词向量进行交叉对比,验证了domainspecific word embeddings 技术的有效性。从作者的实验效果看,展示出两个结论:其一,无论是引文情感分类还是引用目的分类,采用domain-specific word embeddings 的正确率均略高于通用词嵌入,验证了在具有领域背景的语料中进行词嵌入计算的有效性;其二,CNN 结构的分类器分类准确率高于SVM 分类器。总之,使用CNN 技术进行引文分类相对于传统的SVM 分类器,其优点是不需要人工进行特征的提取和设计,在分类准确率方面优于传统机器学习的方法,但是从作者的实验结果来看,分类性能提升幅度并不大。
周文远等[39]使用称之为AttentionSBGMC 的模型进行引文情感和引用目的分类,使用BiGRU[40]和Multi-CNN 进行引文的特征提取。由BiGRU 进行序列全局特征的提取,由Multi-CNN 进行序列局部特征的提取,在引文情感分类中得到了83.19%的F1 值,引用目的分类中得到了84.92%的F1 值。虽然作者在实验中取得了较好的指标,但是其模型结构复杂,基本上是热点技术的拼接。实验结论对比目标为较早时期的SVM、LSTM、CNN 等网络结构,缺乏最新的模型分类结果的对比,对于结构中的各个模块所起到的作用没有进行实验分析。上述观点汇总见表4。
表4 基于卷积神经网络模型的分类性能Table 4 Classification performance based on convolutional neural network model
基于卷积神经网络的科技文献引文分类模型优缺点总结如下文。
优点:基于CNN 的分类模型相对于统计机器学习的分类方法而言,CNN 擅长空间特征的学习和捕获,卷积相当于N-gram(使用一定长度的卷积核),使用卷积核提取相关特征,避免了手工设计特征的步骤,具有高并行、快速分类的优点。
缺点:CNN 模型提取依赖特征的长度有限,并且不够直观、可解释性差,尤其是在分析分类错误原因时由于隐藏数据的不可读性,无法解释分类错误的原因。
3.2.1 长短时记忆神经网络
循环神经网络(RNN)将文本视为一个单词序列,旨在捕获文本的单词依赖项和文本结构,通过递归计算获取长期依赖性。RNN 模型学习历史信息,考虑适合文本分类任务的所有单词中的位置信息。在RNN 的反向传播过程中,通过导数的连续乘法计算梯度来调整权重,如果导数非常小则可能会出现连续乘法导致梯度消失问题。为了解决RNN 的梯度消失和梯度爆炸问题而设计出的LSTM 网络及其变种GRU[40]提取长序列全局特征的能力较好。LSTM通过引入一个存储单元来记忆任意时间间隔内的值,以及3 个门(输入门、输出门、遗忘门)来调节信息进出单元,解决了普通RNN 所面临的梯度消失或爆炸问题,在NLP 领域得到广泛的应用。GRU 的优点是参数更少、更容易收敛,但是在数据集很大的情况下LSTM 表达性能更好[37],其能够对单词序列(或上下文)的长期相关性进行建模,在机器翻译[41]、语音识别和文本蕴涵识别[42]等各种NLP 任务中取得了显著成功。
3.2.2 基于循环神经网络的引文分类模型
Munkhdalai 等[43]提出一种新的复合注意力网络(Compositional Attention Network, CAN), 其使用双向LSTM 网络进行单词的编码,将单词序列按照3 个为一组进行划分,使用注意力机制提取局部特征,同时使用注意力机制进行完整序列的全局特征提取,最后将局部特征和全局特征再次使用注意力机制进行特征提取。作者根据样本句子是否包含上下文句构造两个数据集,只包含引用句的F1 值为68.61%,包含引用句上下各一句的数据集F1 值达到了75.57%。作者提出的模型优点是网络结构简单,模型训练时间短,同时证明了引文上下文为分类提供了更多的语义信息,有利于提高分类正确率;缺点是没有使用词嵌入技术,直接使用LSTM 进行编码,导致分类准确率偏低。
Hassan 等[44]通过专家标注的方式将全文中的引文分为重要和不重要两类,将分类结果作为评估文献影响力的指标之一。其使用双层单向LSTM 网络进行单词的编码,输出引文的类别预测。作者将分类结果与传统机器学习分类器SVM、随机森林(Random Forest, RF)[45]、朴素贝叶斯、决策树等分类器进行对比,取得了较好的成绩。该分类网络的结构虽然具有简单、易训练等优点,分类准确率达到92.57%,但缺点也非常明显,例如样本类别过于简单、与其他引文分类体系相比没有扎实的理论基础、网络结构设计过于简单,并且未与双向LSTM 网络进行对比验证等。
Prester 等[46]认为普通的引文分类任务只是进行了不同引文类型的分类,并不关注引文概念内容和概念影响。为了解决这一问题,作者提出了深层概念影响分类方法(Deep Content-Enriched Ideational Impact Classification, Deep-CENIC)。其分类模型整合了基于双向LSTM 的编码模块和人工抽取的语法特征,将语义及上下文特征混合编码,然后经过全连接神经网络输出分类结果。作者的这种将传统的人工制定特征的方法与自动抽取特征的深度学习的方法相结合是该模型的一个亮点,分类F1 值达到了83.36%。但是该模型的输入还需要进行人工的特征提取,与传统的机器学习分类方法相比并无二致,只是提高了F1 值。
Cohan 等[16]提出了一种基于神经网络的多任务学习框架进行引文目的分类。该模型将词嵌入(GloVe或者 ELMo)[15,47]结果输入一个BiLSTM 网络进行词编码后结合注意力机制进行序列的编码,然后将编码结果输入引用功能、引文段落、引文价值3 个分类器进行同步训练。作者在ACL-ARC[48]公开数据集上进行了验证实验,取得了67.9%的F1 值;提出了截止2021 年为止最大的一个引文功能分类数据集SciCite[16],并在该数据集上取得了84.0%的F1 值。作者验证了模型中使用的注意力机制、词嵌入、多任务学习技术对引文功能分类任务准确率的提升作用。但该方法也存在一些缺点:其一,训练数据准备过于复杂,需要提取引文所在段落的标题,并需要对引文的价值进行评估;其二,作者将引文所在段落标题作为分类任务之一,在一定程度上利用了引用在文献中的位置分布特征,然而该特征并不是引文功能的确定特征,容易引入噪声,影响分类准确率。
Nicholson 等[49]为了弥补通用引文网络只展示文献元数据的问题,提出了智能引文索引(smart citation index scite),通过将引文及周边句子作为分类样本,使用深度学习技术对样本进行分类来确定引用目的和情感。模型中作者使用ELMo 词嵌入,将BiGRU 作为编码和分类器、SciBERT[50]作为主要的对比模型,结果显示SciBERT 在3 种分类标签的F1 值分别取得了58.97%、64.80%、97.28%的好成绩。作者虽然在分类正确率上取得了较高的分值,使用了最新的SciBERT 作为词嵌入手段,但是作者没有从网络结构的角度对所使用的模型进行优缺点分析,并且实验结果中并没有对分类结果进行整体的F1 值统计,以及未对不同标签间指标的差距进行分析说明。具体性能指标总结见表5。
表5 基于循环神经网络模型的分类性能Table 5 Classification performance based on recurrent neural network model
该模型优缺点总结如下。
优点:基于LSTM 的模型可以在一定程度上弥补CNN 模型提取依赖特征长度有限的缺点,在一定程度上改善了长距依赖问题。
缺点:存在处理长文本时耗时较长的问题,考虑到上下文表示,一般还需采用双向RNN 结构,进一步降低了处理效率;在模型效果上,由于数据需经过很多个步骤的传递,导致有效信息减弱,对于长距离依赖问题的效果并不突出。
3.3.1 预训练语言模型
预训练语言模型通常使用无监督的方法自动挖掘语义知识,然后构造预训练目标以便机器学习理解语义,其最大优势在于可以有效地学习全局语义表示。ELMo 是一种深层语境化的词表示模型,很容易集成到模型中。它可以模拟单词的复杂特征,学习不同语境下的不同表达;它利用双向LSTM 根据上下文单词学习每个单词的嵌入向量。随着基于Transformer 编码器的BERT 预训练模型在NLP 领域的大放异彩,各种NLP 下游任务纷纷使用BERT 得到文本向量。Transformer 通过运用Self-Attention 机制来并行计算句子中的每个单词或记录一个“注意分数”,模拟每个单词对另一个单词的影响,从而克服了句子中单词之间关系的计算成本随着句子长度的增加而增加的问题[51]。例如,以Transformer 为基础的ALBERT[52]、SciBERT[50]、XLNet[53]、RoBERTa[54]等模型使分类性能显著提升。XLNet 是一种广义自回归预训练模型,与BERT 不同的是在第一阶段不使用带掩码的去噪自动编码器,而是使用自回归语言模型。它使整个因式分解顺序排列的预期可能性最大化,以学习双向上下文。为了减少参数,ALBERT 减少了碎片向量的长度,并与所有编码器共享参数。它还将下一个句子匹配任务替换为顺序任务,并持续阻止碎片。在大规模中文语料库上对ALBERT 模型进行预训练时,参数更少、性能更好。RoBERTa 是BERT 的一个改进版本,采用了动态掩蔽方法,每次都会生成掩蔽图案,并将一个序列输入到模型中。它使用更多数据进行更长时间的预训练,并估计各种基本超参数的影响和训练数据的大小。
3.3.2 基于预训练语言模型的引文分类模型
Beltagy 等[50]使用由18%的计算机科学领域、82%的生物领域文献构成的共计1.14M 的文献数据集,训练得到基于BERT 结构的SciBERT 预训练语言模型,使用引文功能分类进行模型性能验证。在SciCite 和ACL-ARC 两个数据集上得到85.49%、70.98%的最好F1 值。SciBERT 的最大贡献在于证明了在自然语言处理领域中背景知识的重要性,无论是文本分类还是摘要等各种下游任务的实施,使预训练语言模型具有相应的背景知识是非常必要和重要的。
XLNet[53]是一种自回归语言模型。其根据上文来预测下一个单词,在上文中添加了下文信息,解决了BERT 模型忽略了被mask 的单词之间的依赖性,以及被mask 带来的不一致问题和无法同时引入上下文信息的问题。XLNet 在20 个任务上的表现优于BERT,并在18 个任务中实现最先进的结果。例如问答、自然语言推理、情感分析和文档排名等[55-59]。Mercier 等[60]提出了基于XLNet 的引文影响力分类方法ImpactCite。实验中与ALBERT、BERT、SciBERT 等预训练语言模型进行性能对比,在SciCite 数据集取得了88.93%的F1 值。作者虽然取得了最好的F1 值,但是并未对模型之间的结果差异进行详细的分析,对分类结果的提升部分作出模型结构方面的关联分析。具体性能指标总结见表6。
表6 基于预训练语言模型的分类性能Table 6 Classification performance based on Pre-training model
Chen 等[62]使用BERT、XLNet 模型,通过微调(fine tuning)的方式进行引文功能分类,分别在DFKI[63]、UMICH[64]、TKDE[65]数据集上取得了87.2%、86.9%、81.6%的F1 值。
Lauscher 等[66]认为传统的引文功能标注体系将引文只分一个功能标签是不合理的。其通过专家标注的方式将一个引用句标注多个标签,并且对引文文本进行扩充,抽取引用句周边与引用句语义上存在强相关的语句,与引用句一起组成gold 上下文(gold context),并构建了MULTICITE 数据集。试验中作者同时将gold 上下文与引文固定尺寸的上下文(尺寸选择为1 或2 或3+等)一起,使用SciBERT、RoBERTa 模型进行性能验证。作者验证指出RoBERTa 在性能上略高于SciBERT,最高达到81%的F1 值[67],同时gold 上下文的性能要高于固定尺寸的上下文。作者提出的引文功能多标签架构及gold 上下文对于更一步分析和使用引文文本具有积极意义,但是作者并没有对gold 上下文的标注标准进行阐述,并且在多标签的情况下,样本标签预测正确个数设置越多,其预测准确率越低,导致实用性不强。
该方法的优缺点总结如下。
优点:预训练语言模型可以有效地学习全局语义表示,并且比CNN 和RNN 更有利于并行化,使得在GPU 上高效地训练大型模型成为可能。
缺点:需要更多的数据资源、算力资源进行模型的训练。
科技文献引文分类研究一直是引文分析的重点。1990 年代以前,学者们通过对文献小范围的分析后定义了各种分类框架,证实了通过引文分类进行文献重要性评估的可行性。但是由于这些分类体系的标注需要领域专业知识,且人工标注的规模较小,致使分类体系应用的普遍性和推广性较差。
1990 年代以后,随着机器学习技术、计算语言学的发展,使大规模的引文自动分类成为可能。学者们构建了基于不同分类框架的、各种大小的训练数据集,并将各种分类模型应用在引文分类中实现了引文分类的自动化,为推动引文在推荐系统、信息检索、文本摘要等各种场景下的广泛应用打下坚实的基础。然而这种技术体系也存在短板:输入数据需要人工进行语言特征的提取、人工设计特征模板,并且由于语言的复杂性,不同领域和学科在语言特征方面存在着差别,导致特征模板的设计并不完备,分类准确率较低,推广和实用性不强。
2010 年以后,深度学习技术促进了自然语言处理领域的快速发展。RNN、CNN、LSTM、GRU 等深度学习模型均在引文分类任务中进行了应用。这些模型的优点是无需人工抽取特征、人工设计特征模板,只需人工构建训练数据集,由深度学习模型自动完成特征的提取和引文分类。这一进步不但使构建新的学术影响力评估体系具备了实施的数据条件,也使引文分析进入了语义分析的新阶段。BERT、SciBERT、XLNet、RoBERTa、ALBERT等预训练语言模型在引文分类中的应用使分类准确率有了大幅的提高,特别是SciBERT 从预训练语言模型的领域背景方面证实了具备与下游任务一样的背景知识的重要性。XLNet 弥补了BERT 结构中忽略文本序列上下文依赖性的不足,达到了最好的88.93%的F1 值。
迄今,引文自动分类技术在重构文献影响力评估方面还处于探讨阶段。但是在文献推荐、信息检索等方面已取得实质性的成果。语义学者网(https://www.semanticscholar.org/)推出了基于引用目的的文献推荐和评价系统,其将文献的引文按照功能分为Background、Method、Result 三类,并在此基础上设计出Highly Influential Citations,使文献检索读者能够快速查询到重要的文献,提高文献检索效率和精度。
虽然深度学习技术极大地促进了科技文献引文自动分类工作的发展,但是还存在一些不足。理论层面:第一,分类标准不统一,无法形成大家广泛接受和认可的分类体系,导致只能存在于研究层面,无法在科研界推广使用;第二,包含丰富分类信息的引文上下文定义不明确,导致引文分类任务存在源数据的不确定性。技术层面:第一,具备领域背景知识的预训练语言模型训练难度大;第二,训练样本数据不平衡,即不同类别的引文训练数据样本数据量比例悬殊,导致分类模型对类别的识别性能差距较大,分类准确率提升困难。
最后,对未来科技文献引文分类研究的发展提出如下建议。理论方面:第一,研究发明出一个能够为广大科研人员、管理者、读者所接受的引文分类体系,提高分类结果的实用价值;第二,研究出引文上下文的准确定义,使引文分析有确定的目标数据,提升分类任务的统一性。技术方面:第一,研究出具备全领域背景知识的预训练语言模型或者编码模型;第二,数据集研究,解决数据集标签不平衡问题;第三,从引文抽取到分类的端到端的分类模型研究,提升引文自动分类任务的准确率。
利益冲突声明
所有作者声明不存在利益冲突关系。