曹树金 赵 浜
(中山大学信息管理学院,广东 广州 510006)
科研创新是每一位学者应有的不懈追求,然而科研创新并非易事,需要在科研工作中不断地求索与开拓。学术论文是学者们科研工作的综合呈现,每一篇都凝结着前人的智慧、当下的成果,以及对后人的启发。每一次真正的科研探索都会由特定基点出发,有新的发现、尚存的问题,以及对进一步研究的思考乃至推演,从而引出下一步的基点,而这些通常会被论文所承载。论文间就存在着这样一种潜在关联,发掘此种关联可为学者提供开展科研创新、创作学术论文梳理可以遵从的成果基础,需要注意的探索阻碍以及值得努力的创新方向。
学术论文通常在篇章结构上存在结论与展望部分,这里会总结研究发现与结论、研究不足与局限以及未来可开展的研究方向与思路等,谓之“启后”;而论文的摘要部分通常也包含研究目的与意义,是学者们经过提炼前人研究后针对不足与局限,或是当前研究空白所进行更深入探索的契机,谓之“承前”。每篇论文都可能有其“承前”或“启后”的1篇或多篇论文,而它们之间就可能存在一种“承前启后”的关联链条,甚至是关联网络。
然而发掘此间关联并非易事,特别是当前面对学术论文资源爆炸性增长的态势,传统的“文献检索+人工理解分析”方式显然会越来越困难。一般的引文分析又因缺乏被引位置的上下文语义信息导致无法判断其具体作用,且引文分析是往前追溯,无法对未来可创新的基点进行有效预测。因此,本文尝试综合运用深度学习模型、语义相似算法等自然语言处理技术以及模糊逻辑,从语义角度构建学术论文起承关联智能化挖掘方案,以期有效发掘论文间“承前启后”的关联,助力学者更快梳理领域内已有研究的脉络与传承关系,发现后续研究值得创新的方向与视角,启发科研工作者的创新灵感与思路。
论文间的关联研究一直是图书情报学界的重要研究内容。目前大量工作从作者、机构、期刊、基金项目、关键词、引文等论文要素关联角度展开;而基于论文内容的关联,特别是论文内容间的语义关联的研究相对较少。但随着自然语言处理在文本分类、语义分析、信息检索、阅读理解等技术上取得的长足进步[1],相关研究也在迅速进展。已有研究包括结合科研实体与研究内容的科技文献间语义关联网络[2],利用语义分析方法构建学术论文创新内容知识图谱[3],从特定功能章节内容中的引文分布结构探讨对后续文献的影响[4]等,分别从不同视角对论文间的关联开展了探索。
对于论文内的结构功能识别研究,秦成磊等[5]利用不同粒度的层次注意力网络模型在特定领域中实现了较好的识别效果;王佳敏等[6]通过多层次融合模型实现了对章节标题、章节内容和章节段落的有效抽取。对于摘要结构功能的识别研究,沈思等[7]利用LSTM-CRF模型较好地识别了目的、方法、结果等摘要结构;郑梦悦等[8]通过知识元本体模型实现了对非结构化摘要中上述3种摘要结构的有效抽取。针对论文内句子级特定类型内容的识别研究,罗卓然等[9]基于ALBERT深度学习模型有效识别了学术论文创新贡献句;曹树金等[10]利用BERT深度学习模型识别学术论文创新句并构建了创新点检索入口。实际上,句子级特定类型内容的识别与摘要结构功能的识别非常类似,可以等同为同一类研究问题;而其与论文篇章结构功能识别的不同在某些模式下可理解为长短文本的差异。
语义相似度算法在自然语言处理中是一个古老却又一直焕发着生机与活力的话题,在经历了传统的基于字符串匹配、基于分布统计、基于知识库等经典算法后,随着神经网络的出现,各种基于深度学习的方法迅速发展。特别是2018年BERT模型[11]的出现,给NLP界带来了巨大变化,随后在语义相似度计算任务上不断涌现了诸如Sentence-BERT[12]、BERT-flow[13]、SimCSE[14]、CoSENT[15]等优秀的算法模型。语义相似度计算从任务目标上可划分为短文本间的匹配、短文本与长文本间的匹配以及长文本间的匹配,目前的算法模型普遍来讲在短文本间匹配的任务上效果相对较好。
在自然语言中,绝对精确是不多的,在平时说话、写文章、下定义时,都大量地存在着模糊现象。为了以科学的方法将模糊的事情变得精确,美国控制论专家扎德(Zadeh L A)提出了模糊集理论,目前该理论在人工智能领域有着重要且广泛的应用。模糊计算以模糊集理论为基础,可以表现事物本身性质的内在不确定性,能够模拟人脑认识客观世界的非精确、非线性的信息处理能力,在综合评价[16]、知识发现[17]、决策支持[18]等方面都有深入的研究。
本文将充分借鉴当前相关研究的成功经验,结合本研究欲为学者们开展更深层或更广域科研创新提供线索与指引的目标,利用深度学习模型、语义相似度算法以及模糊逻辑在特定任务上的优势,尝试构建一套智能化的论文间“承前启后”关联挖掘方案。
论文中结论、不足、展望部分都会对后续研究有一定的启发作用,但由于其功能的不同以及作者表述上的差异,有必要将三者加以区分。一般情况下,展望部分是最直接的对后续研究基点的表述。但也经常会有因不足而引出的展望,因结论而推出的展望,这种情况下,为了语言的简练,作者会使用诸如“针对上述不足……”“基于上述结论……”等形式,这样在展望部分中就可能损失一定的上下文语义信息。而对于不足部分,正反两种表达会产生字面信息的较大差别,比如“本文仅考虑了abc,未考虑其他因素……”与“本文未考虑诸如def因素……”,从语义匹配角度来讲由此也会产生较大差异。对于结论部分,又通常会包含较多与其研究相关的语义信息。因此需要对3个部分综合考量。
论文摘要中研究目的与意义部分通常包含其研究基点的描述,虽然更详尽的研究背景介绍以及研究问题如何引入等通常出现在正文的引言部分,但考虑到针对这部分内容的识别效率以及本方案的执行效率,本研究就以论文摘要中研究目的与意义部分作为引言中所论述其研究“承前”基点的概述。那么在识别出这部分内容后就可以将如何发掘论文间“承前启后”关联的问题转化为如何有效地将论文结论、不足、展望部分内容语义信息与之后发表的其他论文摘要中研究目的与意义部分内容语义信息匹配并综合考量。
因此,本研究将学术论文间“承前启后”关联挖掘分为4个子任务:①截取论文结论与展望章节后对句子级结论、不足、展望部分的识别;②对论文摘要中研究目的与意义部分的识别;③结论、不足、展望部分分别和其他论文摘要中目的与意义部分的语义相似度计算;④论文间是否存在“承前启后”关联的推断。子任务①、②可以同步进行,随后逐步开展子任务③与④。
本研究以情报学期刊论文文本为原始语料,通过CNKI选取《情报学报》2013—2022年4月发表的1 168篇文献,经初步筛查后排除“卷首语”“编者的话”等非完整学术论文54篇后,对其余1 114篇文献文本内容进行深入处理分析。
在进行完初步语料数据预处理后的首要任务就是对论文相关内容部分的分类识别。文本分类一直都是自然语言处理的基础任务,按照输出类别(标签)不同,可分为单标签多分类(Multi-Class Classification)和多标签分类(Multi-Label Classification),而单标签多分类任务中又包含二分类、三分类、多分类任务。各种分类任务都已被广泛应用,比如广告过滤(二分类)、情感分析(三分类:正面、负面、中性)、新闻分类(多分类或多标签分类)等。本研究中,对于论文摘要中研究目的与意义部分的识别可视为一个二分类任务,对于结论与展望章节中结论、不足、展望部分的识别可视为一个多分类任务。BERT模型在多项文本分类任务中都有良好的效果[19],但由于二分类与多分类是不同任务,且在模型层面有些许差异,本研究将分别用两个预训练模型对这两个任务进行微调。
ALBERT[20]作为BERT的一个轻量级版本,在BERT模型的基础上加入了多种改进策略,使其在大幅减少参数量、几乎不降低模型效果的同时,在模型训练和模型预测的速度上有了很大的提升。本研究将调用ALBERT预训练模型,用于后续的文本分类任务。
在文本语义相似度(Sentence Textual Similarity)任务上,BERT虽然有着优异的效果,但却有着巨大计算开销的代价,随后提出的Sentence-BERT[12],在保持精度的同时大幅提升了效率。
而CoSENT(Cosine Sentence)又在InferSent[21]和Sentence-BERT的基础上,设计了一个可排序的、优化cos值的新的损失函数,使训练过程更贴近预测,在收敛速度和最终效果上普遍比InferSent和Sentence-BERT更好[15]。CoSENT已在开源世界中获得了大多数的认可,其综合性能是值得肯定的。因此,本研究将采用基于CoSENT的语义相似度算法分别计算子任务①中识别出的3个部分与子任务②中识别出的部分之间的语义相似度。
前3个子任务完成后,本研究将面临的问题是,结论、不足、展望部分与目的与意义部分的语义相似度达到多少可以谓之相似?三部分分别与目的与意义部分在何种相似情况下可以推断论文间存在“承前启后”的关联?实际上这些定义和判断是相对模糊的。而模糊逻辑可用来尝试解决上述问题,它运用模糊集理论来研究模糊性思维、语言形式及其规律。模糊逻辑善于表达界限不清晰的定性知识与经验,它借助于隶属度函数概念,区分模糊集合,处理模糊关系,模拟人脑实施规则型推理,解决常规方法难于对付的规则型模糊信息问题[22]。
模糊控制语言(Fuzzy Control Language,FCL)[23]是一个实现模糊逻辑,以国际电工委员会IEC 61131-7为标准规范的领域编程语言。模糊控制语言允许使用模糊逻辑定义从给定输入到输出的映射过程。它基于适合捕捉专家知识模糊推理方法,它的规则能以更贴近人的方式描述专家知识[24]。模糊推理过程包括以下步骤:对输入进行模糊化处理,对模糊规则进行评估,对输出进行聚合得到最终决策,对输出进行解模糊处理得到一个清晰值。本研究将在子任务③完成后对所有相似度值定量分析的基础上,结合专家经验与判断,通过模糊控制语言制定适当的模糊函数与模糊逻辑规则,以期较为合理地推断论文间是否存在“承前启后”的关联。
获取论文全文本的一般途径是通过论文期刊数据库下载PDF全文文件,但在批量处理全文本时由于PDF文件排版的不同或是格式版本号的不同会导致非常多的麻烦。因此,本研究选择通过抓取CNKI期刊数据库的论文网页数据来获得论文全文,随后使用基于JAVA语言的HTML解析器Jsoup来解析并获取不同网页标签下对应的各章节段落文本以及摘要,甚至是标题、作者、收稿日期等。在论文网页数据抓取阶段发现本文2.1章节所提的1 114篇文献中有16篇只有PDF全文链接,没有论文网页链接,所以这16篇暂不处理,排除后对剩余1 098篇文献进行后续分析处理。
为了增加整体方案效率,本研究将识别学术论文结论与展望章节的任务简单化处理,即通过简单的页面解析与代码逻辑获取论文全文本数据中的最后一个章节,以此作为对结论与展望章节的初步判断,并直接开展下一步流程。后续实验结果表明,这样处理在绝大多数情况下是正确的,也有少数例外,比如截取出的论文最后一章是致谢,或者是附录。但通过下一步句子级的结论、不足、展望的识别,基本可以将这些情况鉴别出来(即在最后一章中没有识别出三者中的任一类型),随后再专门处理这些例外情况。通过对1 098篇文献的最后一章文本以句号、分号或者换行为结尾的简单分句,共获得13 166个句子,并标记好每个句子对应的论文编号,以及他们所在章节的次序。
首先是数据标注,本研究随机抽取了165篇论文进行标注。标注样本中共出现989个结论句,412个不足句,445个展望句以及23个其他句(包括致谢、附录、图表标题等)。随后又选择另外两位标注者同时对其中的55篇再次标注,并进行交叉检验,得到Kappa一致性系数为0.7,即相对可靠的一致水平。
随后是ALBERT模型的部署和训练代码的编写与调试。本研究选用Bert4keras作为预训练模型加载框架,它基于Keras开发,目前支持多种预训练模型,并支持多种环境和后端[25],极大简化了使用各种预训练模型的编码流程。本研究的实验环境如表1所示,后续的实验均在此环境中完成。
表1 实验环境及配置
对albert_base_zh_additional_36k_steps预训练模型进行微调,将batch_size设置为32,最大句长设置为256,epoch设置为5。最终模型达到了较好的水平,模型效果指标如图1所示。
图1 模型效果指标
但是,也可以发现其中展望部分的识别准确率相对其他部分较差。经过对训练样本的分析发现:①有一些论文在写作时将不足与展望合并在一句话中表述,而在标注时的逻辑是在发现有“不足”或“局限”字眼时优先标成“不足”,但如果论文的不足与展望中仅有合并的这一句时又会标注成“展望”;②有些论文会将展望部分分成几个小点分别表述,而表述的语言形式又与结论比较类似。这些可能都会造成模型在“学习”过程中的“迷惑”,从而影响最终的效果。
由于本研究的①、②子任务与后续任务是层层递进的关系,每一层的结果都会对下一层任务产生影响。在模型执行完对所有结论、不足、展望部分的预测后,针对上文所述展望部分识别准确率相对较低的分析,又做了少量的干预(主要靠代码自动处理)。处理的内容包括:①如果每一篇论文仅有结论与不足部分,自动将不足部分转换成展望部分。这样处理可以理解为如果论文作者只写了不足,言下之意这就是未来需要进一步探索的地方;还有一个主要原因是子任务④中的模糊逻辑的设想是优先判断展望部分和研究目的与意义部分间的语义相似度;②如果每一篇论文在识别出的展望部分之后(依靠数据预处理过程中记录下的句子次序判断),又识别出了结论部分,那么会提示进一步人工判断是否将后面这些结论部分转换成展望部分。因为这种情况大多数是由于论文实际的展望部分分了几个小点分别表述,而被模型判断成了结论,但少数例外是个别论文先写了对未来的展望,再总结结论。
类似地,整体沿用子任务①中的方法、模型和流程,对ALBERT模型的微调代码进行适当改造后使其适用于二分类任务。随机抽取200篇论文摘要进行研究目的与意义部分的标注,微调训练好新模型后对其余论文摘要进行预测识别。由于篇幅限制,不过多论述这部分内容。
将每篇论文被识别出的结论、不足、展望部分分别和其他论文摘要中目的与意义部分进行语义相似度计算。这里计算语义相似度的过程暂不考虑论文发表时间的先后次序(时序因素可待后续分析),仅排除论文自己与自己比的情况。
模型使用通过CoSENT方法,在MacBERT-base[26]预训练模型的基础上,利用中文STS-B(Semantic Textual Similarity Benchmark)数据集上训练且在中文STS-B测试集评估达到SOTA(State of the Art)的text2vec-base-chinese。而MacBERT则是吸收了ALBERT的句子顺序预测(Sentence Order Prediction,SOP)这一优化策略,弥补了BERT在MLM(Masked Language Model)预训练任务中会影响其微调性能的缺陷[27],并在中文语料上进行预训练。因此,有理由相信使用该模型可以得到较好的语义相似度计算效果。
实际计算效果示例如图2所示,“VS”左右两边分别代表先前任务识别的某篇论文的展望部分以及其他论文摘要的研究目的与意义部分,SCORE代表二者的相似度分值。
同时,在所需相似度分值全部计算完成的情况下,可以通过排序算法找到相互间相似度最高的匹配,如图3所示,可以实现一个简单的语义相似度检索入口。由此发现了一个疑似的“承前启后”关联(由后续分析可知,0.8691对于展望部分来说是一个相对较高的相似度分值,较大概率可以推断出“承前启后”关联的存在)。
图3 语义相似度检索示例
全部相互间的语义相似度计算完成后,共得到2 669 238个相似度分值。找到每篇论文的结论、不足、展望部分和其他论文摘要的研究目的与意义间语义相似度最高的分值,统计后做成分布直方图,如图4~图6所示。通过每篇论文对应部分间相似度最高值,结合实际人工判断来为后续的模糊逻辑预测一个大致的参考空间。经初步判断,展望部分的相似度与是否存在“承前启后”关联的相关性较高;在存在“承前启后”关联的情况下,结论部分的相似度也普遍很高,而不足部分的相似度影响不大;以展望部分相似度最高分值的前5%为前提,再找结论部分相似度较高的,有很大概率发现“承前启后”的关联。
图4 结论部分最高相似度分布
图5 不足部分最高相似度分布
模糊计算并不模糊,反倒可以使模糊的事情变得精确。针对本文研究问题,首先需要确定论文结论、不足、展望3个部分分别与其他论文研究目的与意义部分相似度分值的模糊集合,以及对应的隶属度函数。在模糊集合中,每个元素ei对集合A均有一定的隶属度,隶属度的数值取决于针对模糊集合A而定义的隶属函数μA,其中μA(ei)表示元素ei在模糊集合A中的隶属度,μA(ei)∈[0,1],1≤i≤n。隶属函数可描绘为不同形状,包括三角形、梯形和高斯形等。通常情况下,确定模糊集合与其对应隶属度函数需要专家知识与经验。本文研究的语料对象为情报学学术论文,是笔者熟悉的学科,加之通过对各部分语义相似度数据的统计分析,并在实验中不断调整函数参数与验证,可以给出一个较为合理的设定。
参考图4~图6对应的各部分相似度分值的分布区间,将相似度分值分成4个模糊集合,即不相似(poor)、些许相似(median)、较相似(good)、非常相似(excellent),初步依照各项最高相似度分值的前5%、10%、20%、30%、50%等设定函数的主要节点,同时逐步调整各项节点数值,以适当地收紧或放宽对应区间,并加以验证。最终形成以模糊控制语言(FCL)描述的模糊集合与隶属度函数的定义,如图7所示。
图6 展望部分最高相似度分布
其中conclusion、shortage、future分别对应结论、不足、展望部分,每个FUZZIFY-END_FUZZIFY模块对应了各部分的模糊集合与其隶属度函数的定义。如图8~图10描绘了各部分的隶属度函数,图中横坐标代表相似度分值,纵坐标代表对应模糊集合的隶属度数值(Membership)。
图10 展望部分隶属函数图像
图11 “承前启后”关联的模糊逻辑规则
同时,基于模糊集合与其隶属度函数的定义,结合语义相似度数据分析与多次实验尝试获得的关联验证经验,设计出如下模糊逻辑规则,如图11所示,基本逻辑是优先判断展望部分的相似度。用correlation代表最终是否存在“承前启后”关联的评价指标,依据关联性高低分为great、fine、little,设定只有当评价为great时可以推断出“承前启后”关联的存在。模糊推理的过程相当于去模糊化的过程,常用的方法包括加权平均判决法、最大值平均法、重心法等,选择使用计算复杂度相对较高但也更精确的重心法(Center of Gravity)作为去模糊化算法。
设计好整套模糊逻辑后相当于构建了一个小型模糊推理系统,当前的系统输入为论文“3个部分”各自对应的语义相似度分值,而输出结果即为“承前启后”关联性(correlation)的评价。
随后编写代码逻辑遍历所有论文“3个部分”各自对应的语义相似度分值作为系统输入,获得运行结果如图12所示,其中papername对应结论与展望部分的论文编号,abstractid对应摘要部分的论文编号,以便进一步查找相关联的论文。
最终基于上述模糊逻辑,发现了52例“承前启后”的关联,经阅读判断,有41例较为符合,基本能够实现论文间“承前启后”关联的智能化挖掘需求。语义相似度计算与模糊推理结果示例如表2所示,其中论文A[28]的展望部分与论文B[29]的目的与意义部分语义相似度相对很高,依据隶属度函数以及模糊逻辑可以直接推断出二者存在“承前启后”关联。巧合的是,A与B也存在引文关系,B在其正文研究现状部分也有对A研究成果的引述,然而,本研究所探索的“承前启后”关联与其间引文关系并没有必然联系。另外,也可以看出,实际上A的展望与B的目的意义还是存在一定细节差异的,而这种细节差异的识别只能通过后续更加细粒度的识别算法加以区分。
表2 语义相似度计算与模糊推理结果示例
经阅读判断后整理出较为符合的41例“承前启后”关联,由于篇幅限制仅展示部分结果,如表3所示。对所有41例关联进行分析,有如下发现:①“承前”或“启后”的论文二者间是一种多对多的关系,即同一篇论文可能同时“承前”多篇论文,另外同一篇论文也可能同时“启后”多篇论文;②多数关联是两两关联的二元关联,但也存在1例两两关联形成的三元关联,且形成一种三角关系,即A→B,B→C,A→C,这在理论上也预示着该方案在更大数据集中发现四元、五元甚至更长关联链条,乃至多边关联的可能性;③有13例关联存在引文关系,其中有11例的引文出现在引言或研究现状部分,而另外2例引文出现在研究设计与分析部分,这也一定程度上印证了本研究选择论文摘要中研究目的与意义部分作为引言中所论述其研究“承前”基点概述的合理性;④本研究所挖掘的论文间“承前启后”关联与其间是否存在引文关系没有必然联系,但不存在引文关系的原因也是值得分析的。其中不存在引文关系的案例中有5例,是同一科研团队或者交叉合作团队在同一时期发表的系列论文,也有个别案例是因为前后两篇论文发表时间相隔很近。其余案例的原因有待后续研究进一步分析;⑤计算所有关联论文的发表时间间隔,平均值仅为1.945年,中位数仅为1.625年,排除上述5例同一时期发表的情况后平均间隔2.215年,中位数1.709年,这说明存在“承前启后”关联的论文发表间隔非常短。这也预示着如果想在已发表论文的结论、不足、展望的基础上开展科研创新,需要敏锐的把握并付诸迅捷有力的科研行动;⑥有个别关联包含综述类的文章,这在语义关联的角度是合理的,从创作论文的角度也是需要“承前”参考的,且综述类文章可以成为“承前启后”关联的中介。但若要从严格意义上排除综述类文章的关联,未来可以考虑增加对论文标题的识别来控制对这类文章间关联的输出。
表3 关联挖掘结果示例
有部分错误推断是由于配对语句中同时包含的非关键概念信息过多导致的混淆,以及论文发表时间上的前后颠倒,例如一篇相对较新的文章提出未来可以“结合语义分析……”,而语义分析又是个较为传统且宽泛的话题,这种情况就可能关联上一篇相对较早的文章,当前数据集在这种情况下也未发现正例(即展望的具体内容在早期已有研究)。
从千余篇同一期刊10年来发表论文的集合中发现40余例关联,这个比例不大,另外,理论上这种关联是可能形成链条乃至多边关联来展现科研发展脉络的,然而在当前数据集中仅发现1例短的三元关联链条,主要也是由于数据集局限在单一期刊所致,因为针对展望内容的研究可能会在其他刊物发表。另外,即使两篇论文间实际存在着“承前启后”的关联,但只要前后两篇文献首尾表述中有任一方没使用较为直接明显的表述,都会造成无法通过语义相似度匹配。不过,在有限的集合中仍有一定的发现,也验证了本方案通过论文的结论、不足、展望部分与其他论文摘要的研究目的与意义部分的语义关联与模糊逻辑来综合推断其间“承前启后”关联的有效性与可行性。
当然,正如此前实验流程所讲述那样,模糊集合、隶属度函数、模糊逻辑对于模糊推理系统而言都是可调节的变量,如果把它当成一个检索系统,知道查全率和查准率不可同时满足,因此,可以依据具体科研检索需求,适当放宽或收紧隶属度函数参数以及模糊逻辑判断条件,以达到更切合实际的效果。另外,本研究尝试了将“3个部分”的最高相似度倒排序,并制定模糊逻辑优先选择各项最高相似度中最低的,也能发现一些潜在未被研究的方向。
同时,还可以变换思路,比如,当前本研究的目标是设法找到特定数据集上所有领域的“承前启后”关联,但实际情况是,作为论文作者一般只关心自己聚焦的方向或问题,因此这个需求就变成了如何在特定数据集中找到自己聚焦的方向或问题上,可以“承前”并对自己有所启发的文献。这时,可以设想自己在写摘要并拟定一句研究目的与意义,以此作为检索式,反向查找语义相似度最高的展望、不足或结论部分(类似示例见图3),再结合模糊逻辑,更加智能化地推荐可以参考的文献。
探索论文间“承前启后”的关联会有很多有趣且有意义的发现,比如论文A描述了x、y、z 3点未来可以深入研究的方向,之后在论文B与论文C中分别发现了与x、y之间的关联,但未发现与z有关联的文献,那么z是否为一个值得继续研究的方向,是否为一个不易解决的难题,甚至是否为一个伪命题,都是值得进一步思考的。这对未来的科研创新有着巨大的指导意义。另外,如果加入时序的判断,是否存在B或者C在A之前已经发表的情况,即所述展望已有前人研究,是否存在z在多年后仍被展望等问题也是需要关注的。再者,如果加入作者的判断,是否存在作者并未继续深入研究其此前展望内容的情况,后续研究的作者与“前文”作者存在何种关系等也值得探讨。当然,在更全量论文数据集中探索上述潜在发现,才能发挥其更大的价值。
本研究综合运用深度学习模型、语义相似度算法以及模糊逻辑,识别并深入挖掘论文中结论、不足、展望部分和其他论文摘要中研究目的与意义部分之间潜在的“承前启后”关联,构建了一套较为有效的关联智能挖掘方案,并讨论了多种可以应用的科研创新场景,以及潜在可研究的问题。研究表明:①学术论文间存在语义上的“承前启后”关联,且该关联存在多元关联链条,以及多边关联的可能性;②论文结论与展望部分对后续科研选题及创新具有启发作用;③本文构建的方案可以较好地发掘出论文间“承前启后”的关联,助力学者更快梳理领域内已有研究的脉络与传承关系,发现后续研究值得创新的方向与视角,启发学者的创新灵感与思路,为学者们开展更深层或更广域科研创新提供线索与指引的目标。
本研究所构建的方案仅仅是一套初步的探索,在如下几个方面仍有局限:①仅选取了一种情报学刊物作为实验探索的论文文本语料来源,数据来源较为单一,需要进一步在更大范围上验证方案的有效性;②论文引言的部分内容是更加合理完整的“承前启后”关联挖掘素材,目前仅使用摘要的研究目的与意义部分作为其概述可能会导致“漏判”情况;③句子级甚至段落级的语义相似度匹配存在非关键语义信息过多的潜在问题,无法把握语句重点,会造成一定程度的混淆;④该方案有一定的数据集依赖性,主要因为需要根据语料识别效果而做的人工干预以及制定模糊逻辑时的“经验”,虽然在不同数据集上按照类似流程行得通,但不同数据集可能无法很好地融合兼容。
未来可以进一步开展的工作包括:①拓展论文文本语料数据集,面向更多期刊以及其他学科领域;②尝试将方案拓展至论文其他部分间关联的探索;③基于现有语料数据,进行更细粒度的实体与关系抽取,构建知识图谱,进行更加精确、更多角度的论文间关联性探索;④疏通完善方案中每个子任务间的数据处理与传递流程,设计用户交互界面,构建关联检索系统。