黄 月 张 昕
(北京语言大学信息科学学院 北京 100083)
学科交叉是伴随社会和学科自身发展需求而出现的一种综合性科学活动,是形成交叉学科的途径和过程[1]。学科交叉主题识别以发掘代表不同研究领域交叉与汇聚的具体交叉点为目的,来分析不同领域在什么主题、什么方向产生了交叉,这不仅能为科研人员科技创新提供新思路,还能对前瞻性科技规划决策提供参考[2],近年也陆续有文章对学科交叉相关问题进行综述[2-4]。
国家社会科学基金项目是目前国内级别最高、权威性最强、资助力度最大、影响力最广的哲学社会科学研究项目,集中体现了高校及科研人员的研究水平以及学科领域内研究的发展前沿[5]。国家社会科学基金项目数据库[6],每年度完善新获得立项的项目名称、项目类别、学科名称等,基于这些信息进行学科交叉主题识别对研究人员把握领域的最新发展动态具有重要意义。现有方法大多基于共词分析研究学科间的交叉性,人工智能新兴技术在学科交叉主题识别研究中的应用较少,针对由基金项目名称构成的短文本集的主题识别效果不佳。
本研究以基金项目名称短文本作为研究对象,提出融合预训练模型BERT与句向量模型Sentence-BERT的学科交叉主题识别方法,获得项目名称短文本的句向量表示,并与已有方法进行对比实验,为学科交叉主题识别贡献新思路。
学科交叉主题识别的传统方法是基于文献计量进行分析,然后基于主题模型等文本挖掘技术的交叉主题识别方法逐渐得到广泛应用,近年来随着人工智能前沿技术的扩散,词向量模型也被应用到了学科交叉主题识别领域。
学科交叉主题识别的基础方法是从文献计量角度进行主题挖掘,主要包括以下几类:
a.基于引文分析的学科交叉主题识别。例如,张艺蔓等[7]利用引文耦合强度衡量学科交叉度,对情报学交叉学科的学科结构进行分析。杜德慧等[8]通过跨学科参考文献关键词以及该关键词在目标学科中作为作者标引关键词出现的频次,识别在目标学科具有较大合作潜力的跨学科相关知识。
b.基于合著分析的学科交叉主题识别。例如,Abramo[9]等人分析了来自不同学科的科学家之间的合作程度,以确定研究活动中最常见的“知识组合”,采用基于出版物共同作者的学科归属,确定跨学科合作潜力最大的领域。孙晓玲[10]基于作者之间合作关系,通过合作网络中作者团体之间的融合和分化来体现学科之间的融合和新学科的产生。Sun[11]等人提出了一种基于作者跨领域重叠的科学制图方法,利用团体检测算法对科学领域进行识别。
c.基于共词分析的学科交叉主题识别,这类方法应用较为普遍。魏建香等[12]对不同学科的关键词降维通过模糊聚类算法得到学科交叉点。闵超等[13]对高频交叉关键词及其共词矩阵进行分析探讨学科交叉研究热点领域的整体特征。王连喜等[14]使用关键词交集分析、共词聚类分析和战略坐标分析与主题模型对网络舆情研究主题进行了比较分析。温芳芳等[15]对国家社科基金项目名称分词后的词语进行了共现分析,进行了人文社科领域全域的学科交叉性测度及演化规律分析。
LDA(Latent Dirichlet Allocation)主题模型,在2003年由Blei等[16]提出,可以刻画一词多义且适合大规模且具有不同数据特性的语料,在主题挖掘上表现出独特的优势,被广泛应用。王连喜等[14]使用LDA对网络舆情研究主题进行分析。熊文靓等[17]使用LDA结合压缩算法识别跨学科性研究的主要主题。Qi等[18]提出了一种基于LDA的矩阵可视化方法,从而提取交叉主题。王明蕊[19]使用基于LDA演化而来的作者主题模型进行主题挖掘。但LDA是一种基于词频的模型,基金项目名称为短文本数据集,当文本长度很短时,可能无法捕捉到足够的上下文信息来生成有意义的主题。
除LDA模型之外,其他主题模型及文本聚类方法也被用于学科交叉主题识别。史盛楠[20]利用相关主题模型(Correlated Topic Model)将引文分析与文本内容相结合来探究学科交叉发展趋势。隗玲等[21]通过弱共现网络聚类分析主题间的弱连接特点得到主题间的学科交叉模式。张琳等[22]采用“引文-文本”混合聚类技术,将其应用到学科结构研究。
基于共词分析的学科交叉主题识别方法只考虑词之间的共现关系,而基于主题模型的学科交叉主题识别方法也是基于词频的,均不适用于短文本数据的稀疏且不规则性,且得到的学科交叉词集在主题解读上存在一定的困难,而基于词向量的学科交叉主题识别方法恰好可以弥补这一缺陷。
词向量指的是词语基于神经网络的分布表示,是2000年由Bengio等人提出神经网络语言模型[23]时被提出的。传统语言模型使用词的独热表示,存在严重的数据稀疏问题,而词向量很好地解决了这个问题。2013年,Mikolov等人同时提出了word2vec词向量模型[24],包括CBOW和skip-gram模型。其中,CBOW根据上下文预测目标词,skip-gram根据目标词预测上下文,skip-gram模型结构更为简单、在小规模语料上的表现也更好。
Tshitoyan等[25]用word2vec训练数百万篇材料科学的文献摘要来推断材料性质及预测具有热电效应等特定属性的新材料,该研究的核心思路是利用word2vec预测性质,将模型计算出的高语义相似度关键词认为是在未来的研究中可能出现的具有共现关系的词对,预测未来的研究方向。王卫军等[26]于2021年率先将上述理论应用到学科交叉研究中,提出基于word2vec结合共词分析与DBSCAN聚类算法获取潜在的学科交叉知识点,对国家自然科学基金“人工智能”与“信息管理”两个领域的关键词进行实证分析。但文章中没有明确词向量模型优化指标的效果以及模型预测共词关系词对相似度阈值的设置依据,所使用的DBSCAN算法当样本集密度不均匀时容易聚类效果不佳。何涛等[27]基于SCI论文摘要文本生成含有作者关键词的自然科学常见词汇,结合词嵌入与局部异常因子算法发现领域交叉知识。
word2vec是基于上下文无关的词向量表示方法,即对于同一个词,它的向量表示是相同的,它的缺点是无法解决多义词。2019年提出的预训练模型BERT[28]使用双向语言模型,使用预测目标词和下一句这中多任务学习方式进行训练。BERT虽然在很多下游任务都达到最优效果,但是原生BERT生成的句向量效果并不好。句向量模型Sentence-BERT[29]在原生BERT基础上做参数微调,在微调阶段把句向量生成相关的相似度任务加进去后BERT就可以学到句向量生成的能力。Sentence-BERT相比BERT可以使用更小的模型进行训练,同时还可以使用更小的批处理规模和更少的训练迭代次数,在文本分类和相似度匹配等任务上,相比BERT表现更好,可以得到更高的准确性和更好的结果。
针对基金项目名称短文本集,本文提出基于预训练模型BERT和句向量模型Sentence-BERT的学科交叉主题识别方法。首先将项目名称分词,利用BERT获取词向量表示,将传统基于关键词共现的学科交叉知识发现方法扩展到与共现词语语义相似度高的词汇均认为具有学科交叉性质,再依据数据短文本集特点,使用Sentence-BERT和被广泛应用的数据挖掘经典k-means聚类算法进行学科交叉主题识别,最后与基于word2vec和DBSCAN的学科交叉主题识别方法进行对比,从而判别其有效性。具体包括以下四步:
第一步,获取两个学科的词集,构建词的共现矩阵。首先,将项目名称进行数据预处理,包括:分词、删除标点符号、删除高频无意义词。然后,针对清洗后的词,根据是否同时出现在一个项目名称,来构建词的共现矩阵。
第二步,获取学科交叉性质的词集。本文认为学科交叉词集由三部分构成:第一部分是同时存在于两个学科词集中的词,第二部分是共词矩阵中具有共现关系且分属不同学科的词对,第三部分是两个学科的词集中大于相似度阈值的词对。其中,第一部分和第二部分容易计算得到。第三部分词对的获得,首先使用BERT对两个学科词集进行词向量表示,基于余弦相似度进行词对的相似度计算,筛选出高于相似度阈值的词对作为候选学科交叉性质词对集,相似度阈值设定依据是数据集中存在实际共词关系的词对的相似度平均值,最后将候选学科交叉性质词对集中分别属于不同学科的词加入学科交叉性质词集。
第三步,利用词集查找具有学科交叉性质的项目名称。若项目名称中包含的平均词数为n个,将包含不小于n个学科交叉性质词汇的项目名称认为具有学科交叉性质。
第四步,使用Sentence-BERT和k-means进行学科交叉主题识别。将上述具有学科交叉性质的项目名称作为Sentence-BERT输入,获得每个项目的句向量表示,作为k-means输入,进行聚类,从而获得学科交叉主题。
本文选取国家社会科学基金项目数据库[6],立项时间跨度选取2012-2021年,不限项目类别,学科分类选择具有一定交叉性的“新闻学与传播学”“图书馆、情报与文献学”,检索日期为2022年9月2日,得到项目名称分别为1633条和1341条。去重后,获得项目名称分别为1571条和1287条,作为本文实验数据。
根据本文所提方法的第一步,获取两个学科“新闻学与传播学”和“图书馆、情报与文献学”的词集,构建词的共现矩阵。使用Python下的中文分词工具jieba[30]对项目名称进行分词,使用HMM模型[30]自动识别新词,对无法识别的词加入自定义词典作为补充(例如,“中国梦”“一带一路”“新浪大V”“云计算”“互联网+”等,占比约1.4%),删除标点符号、删去高频无意义词,抽取项目名称中实际存在的词的共现关系,构建词的共现矩阵,作为下一步相似度阈值的设置依据。
根据本文所提方法的第二步,训练模型获取学科交叉性质的词集。其中,构成学科交叉词集的第一部分是同时存在于学科“新闻学与传播学”和“图书馆、情报与文献学”词集中的词,有686个。第二部分是共词矩阵中具有共现关系且分属不同学科的词对,统计得到涉及的词有2 858个。针对第三部分,本文使用腾讯AI Lab开源的BERT服务[31]作为接口、哈工大讯飞联合发布全词覆盖中文BERT预训练模型[32]获取数据集词表的词向量表示。针对实验数据集,模型计算出的存在实际共词关系的词对的相似度平均值为0.7560,获得高于0.76且词对集中分别属于不同学科的词,共涉及的词有2 787个。最终获得本实验的学科交叉词集规模为2 933。
根据本文所提方法的第三步,利用词集查找具有学科交叉性质的项目名称。统计项目名称分词后的平均词数约为10,获得具有学科交叉性质的项目名称94条,将筛选得到的项目名称作为Sentence-BERT模型的输入。
根据本文所提方法的第四步,使用Sentence-BERT模型进行训练[29],其中SentenceTransformer选用distiluse-base-multilingual-cased-v1,得到短文本的向量表示,再用k-means算法[33]进行聚类。聚类个数根据轮廓值(Silhouette Score)和CH值(Calinski Harabasz Score)指标确定,得分越高,聚类效果越好。由此,根据两个指标的计算结果(见图1),最优聚类个数为10。
图1 根据聚类评价指标确定最优聚类个数
根据聚类结果总结学科交叉主题。
主题1包括的项目名称有“移动网络环境下高校图书馆用户情景敏感服务模式及实证研究”“基于嵌入式服务视角的高校图书馆特定用户延伸服务的理论与实践探索研究”“基于大规模网络分析方法和内存计算技术的高校图书馆大数据应用模式与实证研究”“面向数字人文研究的图书馆开放数据体系构建与服务模式设计研究”,由此可以总结得到主题1是“高校图书馆服务研究”。
主题2包括的项目名称有“面向新型职业农民的农村公共图书馆精准信息服务机制研究”“公共文化服务均等化背景下城乡流动儿童阅读环境和阅读行为研究”“标准化推动乡村公共数字文化服务可及性的模式及实施路径研究”等,总结得到主题2“公共文化服务研究”。
主题3包括的项目名称有“突发事件情境下社交媒体用户情感表达行为的特征与驱动因素研究”“焦虑情绪下在线健康社区用户信息精细加工和健康行为研究”“政务社交媒体信息效用的影响因素作用机制与提升路径研究”“应对城市大型集会舆情风险的政府危机传播困境及对策研究”“基于刻板印象挖掘的突发公共事件网络媒体报道影响力分析及其应用研究”“大规模社交网络中正负影响力竞争传播的量化计算及引导管控研究”“新冠疫情社交媒体信息传播对疫区青年集体性无助的影响研究”“基于区块链技术的网络涉军负面舆情挖掘方法传播模型及治理机制研究”“多重社会网络视角下的突发公共事件信息传播模式与演化规律研究”“社交媒体时代重大疫情公众网络舆情卷入特征机制及引导策略研究”等,总结得到主题3“公共事件舆情传播与政府应对研究”。
主题4包括的项目名称有“我国与一带一路沿线国家图书贸易关联度测评及精准化走出去研究”“中国与一带一路沿线支点国家文化产业优先合作领域的战略选择研究”“一带一路沿线国家汉语教科书中国形象传播的话语路径与策略研究”“基于大数据的中国大陆英文媒体中国梦对外传播效果及叙事策略研究”“媒介融合背景下中国广播电视网络产业发展机制创新与实现路径研究”“文化强国背景下国家形象广告对中国传统文化的承载与传播研究”“新世纪以来中国题材纪录片国际传播的国家形象构建及效果研究”“海外华语电视的本土内容生产与中华传统文化传播创新研究”“一带一路背景下中国出版走出去的战略定位市场布局与推进机制研究”等,总结得到主题4“中国文化国际传播与发展研究”。
主题5包括的项目名称有“文化数字化保护视域下甘青川藏族民间苯教文献整理研究”“口述史方法下的中国大陆当代古籍版本学家鉴定经验整理集成与研究”“民族记忆传承视阈下的西部国家综合档案馆民族档案文献遗产资源共建研究”“汉蒙藏满英梵新蒙文七种文字合璧大藏经目录编制与比较研究”“武陵民族地区濒危传统技艺口述史料采辑与保护利用研究”,总结得到主题5“少数民族文献遗产建档研究”。
主题6包括的项目名称有“西部民族地区数字时代阅读行为与阅读推广机制构建研究”“信息承载力视角下西北五省区区域信息治理与信息援助的模式与路径研究”“全域旅游背景下的西部地区影视传播与旅游产业创新发展研究”“西部农村地区基于移动互联网的政治类出版物传播效果评价体系研究”“认知差异机制下的中国国家形象建构研究理论框架与实践方案”“社会治理视角下西部民族地区县级媒体融合的跃迁机制研究”“河西走廊民族互嵌型社区铸牢中华民族共同体意识的传播符码体系重构研究”等,总结得到主题6“西部地区信息传播与国家形象建设”。
主题7包括的项目名称有“基于社会网络知识图谱的高校科研创新团队内部的知识整合研究”“人文社会科学网络开放学术信息质量评价体系研究与实证分析”“创新和质量导向的中国人文社会科学学术成果评价管理控制机制研究”“融合多维信息计量指标的人文社会科学代表性学术专著评价方法与实现机制研究”“同质化背景下人文社会科学学术期刊品牌建设水平诊断及提升路径研究”等,总结得到主题7“人文社会科学领域学术成果评价研究”。
主题8包括的项目名称有“移动互联环境下融入实时情境的个性化信息动态推荐机制研究”“智能手机对彝族青年生活方式及其家乡振兴发展的影响研究基于凉山彝寨的实证考察”“区块链对数字出版产业全球价值链重构机理与中国战略选择研究”“人工智能时代新闻推荐系统中的信息茧房问题形成机理及应对策略研究”“人工智能时代民族地区危机传播的嬗变及其治理能力数智化转型研究”等,总结得到主题8“新型信息技术的传播与影响研究”。
主题9包括的项目名称有“在线健康社区用户信息精细加工与健康行为的联动机制与促进策略研究”“民族地区公众网络参与社会政策与社会认同度提升的关系研究”“我国社会性科学议题的科学传播模式与公众认知模式的偏差研究”“重大突发公共卫生事件社交媒体传播评价体系构建及公众政治认同研究”等,总结得到主题9“基于网络的公共信息传播研究”。
主题10包括的项目名称有“情报治理体系和治理能力现代化视域下大规模情报监控监督制约问题研究”“媒介融合背景下西部民族地区重大突发事件中的舆论引导与博弈策略研究”“藏疆公民政治认同视角下现代民族政治传播体系建构基于中美涉藏涉疆报道的比较研究”“全媒体语境下宗教极端思想伊吉拉特在新疆的传播及其应对策略研究”“社会媒体环境中大众舆论关注焦点形成与演变动态过程研究”等,总结得到主题10“媒介融合下的国家安全舆情分析”。
通过与研究相同领域之间交叉性的文献进行交叉验证[13-14],得到了相似的学科主题,比如舆情分析、政府舆情应对、期刊评价与管理、网络信息传播等,从而说明了本文所提方法的有效性。
为进一步说明本研究方法的有效性和适用范围,选取前文提到的基于word2vec和DBSCAN算法的学科交叉主题识别方法[26]进行对比实验。
首先,使用Gensim库中的word2vec[24]训练词向量,选用skip-gram模型,设置最小词频为1,词向量维度为50,模型的迭代次数为10。计算得出存在实际共词关系的词对的相似度平均值为0.94608,故将模型优化中的词语相似度阈值设定为0.95。
然后,使用PageRank算法[35]计算出关键词的重要性排序,选取前500个关键词作为DBSCAN[36]的输入(最小包含点数参数设置为8、扫描半径参数设置为0.101),得到7个聚类簇。只保留聚类中具有两个学科关键词,且每个学科关键词数量均大于等于2的关键词聚类,得到分类簇6个。①聚类1包括的关键词有:垄断、道教、涉农、地理、学术交流、永乐、联网、考据、群众、扁平化、计学、穆青、业界、构成、军队、补正、一国两制、范型、全球性、年谱、编辑部、建国、系统结构、伊犁河、秦简,其中“垄断”“计学”“全球性”涉及研究内容“全球经济形式”,“穆青”“编辑部”涉及研究内容“政府新闻机构”,“涉农”“地理”“伊犁河”涉及研究内容“农业地理”。②聚类2包括的关键词有:通讯社、锡伯族、传媒业、学习效果、印刷术等,可以将主题总结为“少数民族文化传播”。③聚类3包括的关键词有:美学、演化过程、伦敦、礼记,主题可以总结为“美学思想传播”。④聚类4包括的关键词有:疾病、汉至、碎片、信息系统、上中下、知识化、时间,主题可以总结为“医疗信息化”。⑤聚类5包括的关键词有中“宋辽金”“武陵”“吐蕃”“元代”“进士”“叙事学”“叙词”涉及研究内容“中国古典文学”,而“哈佛大学”“战略伙伴”“资源管理”涉及研究内容“商业科学”。⑥聚类6包括的关键词中“纸张”“汉字”“公文纸”“印本”“刊行”涉及研究内容“古籍印刷”,而“贫困县”“洮河”“国际舆论”涉及研究内容“贫困治理”。
可见,对于国家社科基金项目名称数据集,基于word2vec和DBSCAN方法由于同一聚类簇内的词之间语义关联性很弱、可能涉及多个主题,类内研究差异较大,因此聚类1、5、6没能总结出明确的类主题。由实验结果可知,本文提出的基于BERT和Sentence-BERT的学科交叉主题识别方法在处理由项目名称构成的短文本数据集上效果有改进。
结合人工智能领域的前沿技术,提出了一种针对基金项目名称短文本集进行学科交叉主题挖掘的方法,扩展了交叉学科知识发现方法,对发现新的学科增长点具有一定的积极作用。本文提出首先基于BERT获取词向量识别出学科交叉词集,再使用模型Sentence-BERT进行学科交叉主题挖掘。区别于以往研究,本文通过BERT计算词之间的语义相似度,而不是简单的基于词频,解决了短文本分词造成的词语格式不规范对词汇学科交叉性质体现的影响。本文对学科交叉词集构成进行总结,认为其包括三部分:同时存在于两个学科词集中的词、共词矩阵中具有共现关系且分属不同学科的词对、模型计算出的两个学科的词集中大于相似度阈值的词对。同时本文将包含不小于学科交叉词个数平均值的项目名称作为获得具有学科交叉性质的短文本集,提高学科交叉词集内词汇间的语义相似度,以此避免词向量模型训练出的学科交叉词集规模过于宽泛,改善了词集中出现的存在共现关系但词语单独出现无法表达主题的问题。通过实验对比发现,相较于已有基于word2vec词向量和DBSCAN聚类获得的由词集构成的聚类结果,本方法对由短文本构成的聚类结果更易解读,在短文本数据集上得到的研究主题更明确。但本文研究也有不足之处,对于学科交叉词集中涉及的词对相似性阈值确定目前采用均值,还可以进一步考虑优化算法。此外,比如有些项目名称没有采用学科交叉词汇进行描述但却具有学科交叉特征,在未来的研究中,考虑新的科学文献及基金项目数据的嵌入表示方法,为主题识别研究贡献新思路。