自然语言处理在我国社会科学领域应用的发展路径识别与构建研究

2023-10-14 07:22任敏慧
科技和产业 2023年18期
关键词:社科发文领域

任敏慧, 樊 宇,2

(1.北京信息科技大学 经济管理学院, 北京 100192; 2.绿色发展大数据决策北京市重点实验室, 北京 100192)

当前,学科在发展中不断融合,学术研究中普遍存在学科交叉现象,不同学科之间的壁垒不再明显。自然语言处理(natural language processing, NLP)是计算机语言学的分支之一,是计算机文化的开路先锋,是一门跨语言、信息、认知科学和计算机技术的边缘学科[1]。近年来各类互联网平台快速发展,自然语言信息体量的迅速增长,在学科融合的背景下,NLP技术已在人文社会科学各个领域产生广泛而深远的影响[2],相关技术被应用于机器翻译[3-4]、情感分析[5]、文本分类[6-9]等场景,场景的应用需求也不断推动人文社会科学领域发现新问题,创造新任务,开拓新方法。

引文分析是文献计量研究中的重要方法,CiteSpace等科学计量学工具从引文分析的角度,为研究知识扩散和知识整合现象提供方法支撑[10-11]。然而,引文分析在知识发现中存在滞后性[12],因此仅利用上述工具完成研究主题发展路径的准确识别依然存在困难。同时,从研究主题看,NLP领域已有的研究综述大多基于计算机技术视角或仅针对某一个单独的研究方向[5,13-16],在学科不断交叉与融合的背景下,这些研究难以概述NLP技术应用的发展历史,也无法进一步探究NLP对其他学科领域产生的影响[17]。

本文旨在利用引文分析法,综合分析NLP各研究方向的历史发展脉络,全面准确地刻画其应用发展路径。首先,基于NLP领域2010—2021年年国内CSSCI的文献,利用CiteSpace软件从作者、机构、研究主题、研究内容时区演化等角度对该领域研究现状进行分析;其次,基于关键词信息,利用关键词阶段演进与中心度特征构建技术应用发展路径框架,并根据研究热点偏移情况,最终形成NLP技术在社科领域主要应用方向的发展路径。

1 数据来源与分析

在中国知网搜索主题词为“自然语言处理”的学术期刊,利用知网自动统计功能,统计该主题的年度发文趋势和关键词分布,结果如图1和图2所示。

图1 主题检索年发文量

图2 主题数量统计

年度发文数据表明近年来NLP领域受到越来越多国内研究人员的重视,该技术在我国社会科学领域的应用更加广泛。从NLP技术发展视角,2013年CBOW和Skip-Gram模型被提出[18],基于这两种模型,可计算得到高质量的词向量,并可实现语义合成;2017年Transformer模型被提出[19],结束之前以RNN为主要基线结构的时代,对众多学者的研究方式产生重大影响。按照上述两次里程碑事件将2010—2021年划分成三个阶段,考虑到技术发展和应用之间存在一定的时间差,以2014年和2018年作为第二、三阶段的开端。

最终划分2010—2013年为平稳期,在该阶段发文数量没有明显的增长特征,每年的发文数量都在100篇以下;2014—2017年为增长期,发文数量明显呈现逐年递增的趋势;2018—2021年为爆发期,每年的发文数量急剧增加,增速持续保持在相对较高的水平。

图2中,一些关键词具有较强领域特征或方法特征,还有一些关键词发文量较多,并在我国社会科学领域被广泛应用,根据这些关键词继续添加检索条件。设置检索条件的主题为“文本分类”“情感分析”“知识图谱”“机器翻译”“NLP”“实体识别”“问答系统”“中文分词”“注意力机制”,设置时间为2010—2021年,筛选出CSSCI来源的期刊,一共得到4 445篇相关文献,从中剔除如翻译、教育等专业性极强的文章,剔除领域和研究主题与本文差异程度较大的文献计量类文章,这些发文对本文研究意义较小。最终导出1 968篇文献,利用CiteSpace软件进行格式转化处理,得到的文献记录全部有效。

2 我国社科领域的自然语言处理应用现状

2.1 主要作者及合作关系

表1 主要作者统计

对作者之间的合作关系进行可视化呈现,以分析本领域作者的合作关系特征。作者合作关系图谱如图3所示。

图3 作者合作关系图谱

在图3中,节点代表学者,边代表学者间存在合作关系。图中节点共460个,边为235条,密度为0.002 2。国内的作者合作网络主要有王昊、邓三鸿、王东波等形成的网络,主要研究内容包括情感分析、文本分类、效果评价等;袁勤俭、沈洪洲、宋乾进等形成的网络,主要以知识图谱的方法对领域问题进行研究;鲜国建、赵瑞雪、寇远涛等形成的网络,主要对农业知识服务进行研究,这些作者合作关系广,但合作次数较少。

2.2 主要研究机构分布及合作关系

高校在人文社会科学研究中发挥着重要作用[21],如图4所示,NLP技术在我国社科领域的研究机构主要有各高校信息管理类学院等图书情报类研究机构,发文量占比较大的高校有武汉大学、南京大学、中山大学、吉林大学等。

图4 主要研究机构占比统计

对比图4和表1结果可知,武汉大学信息管理学院总发文量多于南京大学信息管理学院,但作者最大发文量为8篇,远少于南京大学信息管理学院王昊的15篇,说明两个单位的研究力量存在不同优势特点。

如图5所示,基于机构间合作关系形成以南京大学信息管理学院和武汉大学信息管理学院为核心的两大机构群,此外武汉大学还拥有信息资源研究中心,该研究中心由原武汉大学图书馆学情报学研究所改组而来,已成为针对社会经济信息化问题重要的研究机构。

图5 主要研究机构合作关系

2.3 研究主题分类

基于CiteSpace软件的关键词聚类得到图6所示的关键词聚类图,所有关键词被聚类到特定网络类别中,整个网络有节点545个,边1 229条,密度为0.008 3。所有文献被聚为10个类别,并用不同颜色加以区分,聚类平均轮廓值为0.868 7,聚类模块值为0.525 4。平均轮廓值大于0.5,可认为聚类合理;大于0.7,可认为聚类是令人信服的;聚类模块值大于0.3,表明聚类结构显著[22]。

图6 关键词聚类

根据具体研究内容,将CiteSpace的聚类代表性标签继续分类,结果如表2所示,共得到4种分类主题,第一类包含知识发现的相关关键词,主要研究内容包括作者的合作关系、研究内容的发展路径、研究内容的热点前沿和演化过程等;第二类指文本数据处理关键词,包含特征选择、聚类分析等方法;第三类是NLP技术在翻译领域的应用;第四类是指情感分析的方法和应用,情感分析多应用在如用户评论等主观倾向较为明显的语料中。

表2 关键词分类

2.4 研究内容时区演化

CiteSpace所形成的关键词时区图能够分阶段展现文献研究内容的演化情况。按照阶段对时间进行划分,得到如图7所示的时区视图。

图7 时区视图

第一阶段(2010—2013年)出现的关键词对应NLP领域不同研究内容以及应用方法,研究内容如知识图谱、情感分析、机器翻译等,研究方法如机器学习、聚类分析、词频分析等。

第二阶段(2014—2017年)的关键词有深度学习、神经网络、大数据、研究动态等,说明深度学习模型开始被应用于相关研究。由于文本数据首先需要进行转化才能被数学模型所处理,因此词嵌入成为一个关键环节,高质量的词向量为深度学习模型的应用奠定基础。

第三阶段(2018—2021年)关键词有集成学习、迁移学习、知识融合等。在第三阶段,NLP在我国社科领域的研究与应用整体呈现方法融合、领域融合的态势,Bommasani等[23]预训练模型的出现对社科领域研究方法产生深远影响,后续模型架构发生改变,并呈现明显的同质性,同时,计算与人文学科之间的联系与研究得到进一步加深。

3 融合阶段演进与中心度特征的技术应用发展路径识别

3.1 重要关键词筛选

利用正则表达式提取6种具有不同阶段演进特征的关键词:在第一、二、三阶段都出现,只在第一、二阶段出现,只在第二、三阶段出现,分别只在第一、二、三阶段出现,分别得到146、59、207、467、809、2 037个关键词。利用CiteSpace计算每个关键词的中心度,筛选出60个中心度≥0.01的关键词,结果如表3所示。

表3 中心度≥0.01的关键词

基于表3对具有阶段演进特征的关键词进行过滤,得到具有阶段演进特征的重要关键词如图8所示。其中三个阶段都出现的关键词没有在图中展示,包括中文分词、共词分析、信息抽取、在线评论等34个关键词。

图8 具有阶段分布特征的关键词

3.2 技术应用发展路径框架构建

获取以上关键词所属文章的完整关键词集合,并提取这些文章共同的关键词,据此构建如图9~图13所示的技术发展路径框架。其中,横线表示技术演化的方向,横线上方表示多篇文章共同的关键词,横线下方表示重要关键词及其所属文章的关键词集合。

图9 第一、二阶段关键词

图10 第二阶段关键词

图11 第二、三阶段关键词

图12 第二、三阶段关键词(二)

图13 第三阶段关键词

NLP技术在我国社科领域应用的关键词演变情况如图9~图13所示:在第一、二阶段出现的互信息,以及与之共同出现的SVM、决策树等方法在第三阶段消失,而深度学习、注意力机制等模型和方法在第三阶段出现,说明在我国社科领域NLP的相关研究方法在不断地更新迭代,并与计算机紧密结合,进一步说明NLP在我国社科领域的研究充分具备基础活力;第二、三阶段出现的舆情、社交网络、突发事件等研究内容在第一阶段未出现,说明技术进步对我国社科领域的影响愈加深刻,特定领域知识体系逐渐形成。但以上未对研究方向做区分,也无法定量考察研究热点的偏移情况,因此有必要结合关键词的词频信息进一步研究。

3.3 领域热点偏移研究

分别统计三个阶段关键词的词频,表4以各关键词数量在当前阶段所占百分比的方式展示。

表4 不同阶段的关键词统计

随着研究阶段的推进,不同研究内容的文献数量占比也在发生改变,该现象与NLP技术在我国社科领域研究和应用的热点偏移情况相契合。如图6和图7所示,NLP技术在我国社会科学领域主要分为4个应用方向,分别为文本分类、科学知识图谱、机器翻译和情感分析,在表4中,文本分类发文数在第一阶段比例最大,但在第二、三阶段比例持续降低;科学知识图谱的发文比例有所降低,但维持在中间水平;机器翻译在第二阶段的发文比例较小,在第三阶段增加;情感分析在第一阶段发文数相对较少,但在第二、三阶段增多。

3.4 技术应用发展路径识别

结合上文所述的技术发展路径框架和表4所展示的热点偏移情况,并辅以文献查找,分别统计4个方向发文所涉及的具体方法,最终各方向的发展路径如图14所示。

图14 4个研究方向应用发展路径

综合图9~图14,文本分类、机器翻译、情感分析3个方向的研究方法在我国社科领域的应用整体上经历了由机器学习到深度学习、由独立模型到集成模型、由粗粒度任务到细粒度任务的演化进程,在最后一阶段的研究大都应用深度学习模型,在解决社科问题的同时,为构建AI治理贡献解决方案,实现人与智能体的相互依存,进而实现AI赋能社会[24]。科学知识图谱的研究方法变化不明显,其主要方法包括可视化、文献计量、词共现等,但其研究主题有明显变化。

3.4.1 文本分类应用的发展路径

文本分类技术在我国社科领域应用的前两个阶段大多基于概率分布模型,如SVM、LDA模型和TF-IDF算法等,后续学者在此基础上进行改进,并将其应用于各个场景,第三阶段的学者则明显倾向于应用集成学习和深度学习模型。随着我国社科领域各应用场景进一步扩展,以及场景细分下分类模型的效果不断提升,相关研究与社科研究场景融合进一步加深,纯粹针对文本分类的创新潜在机会变少,因此该方向发文数量逐渐减少。

3.4.2 科学知识图谱应用的发展路径

在科学知识图谱发展路径中,值得注意的关键词有区块链、协同创新等,这些关键词大多出现在第三阶段。针对该方向,相较于模型应用,社科领域对知识发现的研究结果以及其结论更为重视,因此我国社会科学领域大量学者针对自己的细分研究领域开展了调查研究。第三阶段NLP在我国社会科学领域的应用研究具有以下特点:①学科融合化,如对体育管理学、农村体育的研究;②产业新兴性,如对区块链、协同创新机制的研究;③政策理论化,如乡建研究、廉政研究;④方向创新性,如对静坐少动行为的研究,对农民工城市化的研究。学科概念在不断的融合与创新中得到发展,新的研究领域持续涌现,科学知识图谱的构建工作始终在进行,因此该方向的发文保持相对平衡的数量。

3.4.3 机器翻译应用的发展路径

机器翻译技术在我国社科领域第一阶段的研究和应用主要基于依存句法、统计机器翻译等方法,在第三阶段的发文大多对当前的大数据时代具有高度敏感性,有很多学者探讨了人工智能发展和翻译的联系、大数据时代的翻译人才培养、大数据时代的译后编辑工作等。从翻译技术到翻译人才,我国社科领域对于机器翻译方向的研究内容更加丰满、深刻,Transformer等模型的出现使得机器翻译技术得到进一步发展,因此第三阶段发文数量增多。

3.4.4 情感分析应用的发展路径

情感分析本身具有从用户角度出发的属性,与人类社会构成的联系较紧密,因此相关技术被广泛应用于我国社科领域的相关研究。情感分析方向的研究在第一阶段主要针对情感极性的分类方法;在第二阶段将情感极性拓展至用户满意度、舆情、社交网络等概念,说明情感分析得到进一步的研究和应用;在第三阶段的研究对象变化不大,但发文明显更倾向于对深度学习模型、多模态分析、细粒度分析等方法的应用,其中细粒度情感分析往往以实体识别作为前置任务。社会科学领域对情感分析的要求不断提高,细粒度情感分析逐渐成为该方向的热门研究内容,因此该方向的发文持续增加。

综上,从文本分类、科学知识图谱、机器翻译、情感分析4个方向出发,NLP技术在我国社会科学领域研究和应用的发展路径构建完成。相较于关键词聚类分析,在分类基础上将各类别的逻辑关系纳入考虑,形成如图14具有“研究方向-阶段分布-统一方法”具有递进逻辑层次关系的发展路径;相较于关键词时区视图,在最大限度避免重要信息丢失的情况下,清晰刻画各研究方向的关键词阶段演进路线,并通过定量计算总结出各研究方向研究热度和主流研究方法的偏移情况。

4 结论

以中国知网数据库中CSSCI期刊在2010—2021年自然语言处理领域的发文为样本,借助CiteSpace软件可视化功能,结合阶段演进和中心度特征,通过分阶段的关键词筛选和热点偏移研究,分别对文本分类、科学知识图谱、机器翻译、情感分析4个方向进行挖掘,识别与构建出自然语言处理技术在我国社会科学领域应用的发展路径。结果表明,我国社会科学领域自然语言处理技术发展与应用需求相互促进,在短短的十余年间,主流技术从机器学习到深度学习,再到预训练模型不断演进,这离不开学者的国际视野以及其良好的信息素养[25]。

此外,NLP与社会科学各细分领域研究的结合得到不断加深,不同学科之间的融合日益紧密,在知识图谱研究方法的支持下,我国社会科学领域中越来越多的知识体系得以建立和发展,NLP技术在模型算法、关键任务、场景应用等不同维度上对其他研究领域产生了广泛影响。

本文也存在局限性,一方面,主体研究内容基本基于关键词信息,但关键词是一种知识要素载体,欠缺对知识要素本身的挖掘[12];另一方面,由于各研究方向绝对数量的差异,发文较少的方向可能被掩盖,因此内容局限于文中所述的4个研究方向,后续研究将会针对以上两方面问题进行改进。

猜你喜欢
社科发文领域
社科成果展示
社科成果展示
社科成果展示
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
领域·对峙
校园拾趣
爷孙趣事
以牙还牙
人文社科
新常态下推动多层次多领域依法治理初探