逯 万 辉
(中国社会科学院 中国社会科学评价研究院,北京 100732)
2016年5月17日,习近平总书记在哲学社会科学工作座谈会上的重要讲话中,首次明确提出了“加快构建中国特色哲学社会科学”的重大论断和战略任务[1],深刻阐明了加快构建中国特色哲学社会科学学科体系、学术体系、话语体系的基本原则,为新时代我国哲学社会科学事业的发展指明了前进方向,也为我国哲学社会科学工作者开展科研活动提供了根本遵循。学科体系是加快构建中国特色哲学社会科学的根本依托。在加快构建学科体系过程中,我们要强化全局性、前瞻性、战略性、储备性、基础性研究,坚持问题意识和需求导向,这也是三大体系建设的基础工程[2]。开展学科体系建设与研究工作,需要我们对学科基础知识、学科发展脉络与演进方向、学科研究前沿与热点问题等具有较强的理解力与洞察力。但是,我们处于信息爆炸时代,科技创新演变与知识交叉融合加速发展,科学研究与技术研发环境愈加复杂,学术成果数量的增长速度显著提升,科研工作者在科研活动过程中面临的问题和对象也更加复杂多样,与此同时,学术研究范式也在发生着剧烈转变,以密集型数据计算为基础的第四范式的兴起,不仅为科学研究活动提供了新的方法和工具,同时也促使科研人员的知识创新方式在广度和深度上都发生着质的变化,基于知识的创新驱动发展过程越来越依赖于对已有学术成果的挖掘与拓展[3-4]。
从理论层面上来看,领域研究热点与研究前沿识别一直都是科学学与图书情报学领域的研究重点之一,对其进行信息分析和挖掘,有助于科研人员对其所在学科领域形成较为全面的认识。但是当前在研究前沿识别方面的相关研究多集中于自然科学领域,社会科学领域的研究前沿是否存在,其表现形式与表现特征与自然科学领域的研究前沿有何差别,是当前迫切需要解决和回答的问题。开展人文社会科学领域研究前沿的相关研究,可以进一步丰富研究前沿的形式与内涵,拓展情报研究方法的应用边界与范围,并进一步丰富和完善研究前沿识别方法。从应用层面来说,人文社会科学研究热点与研究前沿主题的识别与发现,是学者们了解科学研究发展动态,把握学科研究方向必不可少的环节,也是促进人文社会科学繁荣发展、加快构建人文社会科学学科体系、学术体系与话语体系的重要步骤。通常,研究热点或研究前沿本质上是指科研共同体高度关注并积极开展研究的领域,在一定程度上代表了学科的研究重点和未来发展方向,对于研究热点和研究前沿的识别是科研活动中探明知识基础、梳理知识发展脉络与发掘前沿趋势的必要手段,不仅可以为科研工作者开展学术研究提供基础支撑,也可以为科研管理部门和政府决策部门制定科技政策提供参考依据。
1.研究热点与研究前沿的概念辨析
美国学者Price在1965年提出了研究前沿的概念。他认为研究前沿是用来描述某一科学研究领域的一项瞬时性特征,表现为引文网络中经常被引用且在近期发表的文献集合所代表的研究领域[5]。后续学者以此为基础,对研究前沿的概念界定不断得到优化。1974年,Small等人在Price的研究前沿概念的基础上,从研究领域的核心文献识别出发,采用文献共被引的聚类分析方法,来研究领域内较早发表的、基础性的核心文献,反映当前活跃的研究领域及其结构,其研究结果认为通过共被引聚类分析所得到的高被引文献簇能更好地表征研究前沿,从而进一步丰富和拓展了研究前沿基本概念与识别方法[6-7]。1989年,Garfield基于前人的研究成果并在实际工作中对研究前沿的概念进行了扩展,认为科学研究发展进程中存在着的新兴的热点领域或随着研究领域的发展而不断产生新的研究分支即研究前沿,在定量研究中表现为近3年内的高被引文献集合、共被引聚类的核心论文和引用这些核心论文的最新文献[8]。2006年,陈超美把研究前沿定义为一组突现的动态概念和潜在的研究问题(即正在兴起的理论趋势和新主题的涌现),并利用Kleinberg的突破检测算法[9]识别高频词作为研究前沿词汇,以共被引文献簇表示知识基础来进行研究前沿的探测工作,开发了CiteSpace分析工具[10]。近些年来,国内学者在研究前沿识别领域也开展了大量卓有成效的工作。谭宗颖认为学科热点前沿与发展趋势作为学科战略情报研究的重要内容,是科技战略决策研究的重要组成部分,对其研究内涵、主要内容、研究层面、研究理论基础与方法进行了梳理,并对战略情报研究的分析指标做了详细阐释[11]。郑彦宁等在梳理国内外研究前沿定义、归纳研究前沿特性的基础上界定研究前沿的内涵,进而提出识别研究前沿的指标体系,构建基于关键词共现的研究前沿识别方法,并在LED领域进行应用分析[12]。冷伏海等在研究前沿识别与应用方面做了大量的研究和实践,在研究前沿识别方法、基于研究前沿的国际科技对比等领域做了许多具有开创性的工作,在此基础上,中国科学院与科睿唯安合作,定期发布研究前沿报告[13-14]。从总体上来看,目前有关研究前沿识别的相关研究仍主要集中在自然科学研究领域,对人文社会科学研究领域的研究前沿识别还较少涉及。
一般来说,研究热点是反映了某个领域中受到学者高度关注、深入探讨分析或有效开发应用的研究主题;研究前沿是科学研究中最新、最先进或最具有发展潜力的研究主题,其本质是在某一科学领域内处于领先地位的研究成果和思想;新兴趋势是科学研究中暂未引发广泛关注但是极具发展潜力的研究主题,会随着时间推移引起越来越多的研究兴趣和更加广泛的现实应用的主题领域。从其外延范围来看,研究热点的范围要大于研究前沿,新兴趋势则在发展到一定程度后有可能成为研究前沿,如图1所示。
图1 研究前沿的相关概念辨析
区别于自然科学研究,人文社会科学研究具有其强烈的时代性与意识形态属性,研究对象更加复杂多样,其研究内容又易受到经济社会发展与科技进步的影响,在开展人文社会科学研究前沿与学科发展态势分析过程中,我们将更加侧重于通过对其研究热点的分析与挖掘,展现研究主题在当前时段内的表现情况与发展趋势,因此,本文将对人文社会科学领域研究前沿与研究热点进行统一表述。
2.人文社会科学研究热点与前沿的主要特征
通过上文对研究热点与研究前沿的概念辨析,以及对人文社会科学研究较之自然科学研究特殊性的分析,我们认为研究热点或研究前沿本质上是指科研共同体高度关注并积极开展研究的领域,从一定程度上代表了学科在某一时间段内的研究重点和未来发展方向。作为研究领域最活跃的部分,研究热点与前沿对研究领域的发展具有重要的推动作用。郑彦宁等从当前国内外学者对研究前沿定义及相关理论研究和梳理后,总结了研究前沿具备新颖性、时效性与集中性三大特征[12],这也可以作为人文社会科学研究热点与研究前沿判断的主要特征,但是限于人文社会科学区别于自然科学研究特点,在其特征表述与计算方法上也略有不同,因此,本文在其基础上进一步将人文社会科学研究热点与前沿的特征表述为以下3个方面:
(1)时效性。研究热点与研究前沿应该是动态发展的,随着时间的变化,研究热点与研究前沿可能发生变化,因此,在研究热点与研究前沿识别过程中描述研究热点与研究前沿时要把其限定到某个时间段。
(2)集中性。研究热点与研究前沿应该是在短时间内引起科学家高度关注的研究主题,在文献计量上应该表现为关键词的爆发式增长或突现、某些主题的文章发表数量的骤增以及关注该主题作者数量的骤增等。
(3)新颖性。从人文社会科学的学科属性出发,人文社会科学研究热点与研究前沿应该来源于经济社会发展过程中出现的新的理论或现实问题所触发的学术研究与探讨,是一个研究领域最为关注的研究问题。从学术层面来看,人文社会科学研究热点与研究前沿是解决该时段研究领域关键问题、突出矛盾的钥匙,在文献计量指标上应该体现为高质量的学术文献以及新主题的出现。
通过对不同学者对研究前沿定义的梳理总结以及对研究前沿特性的归纳,本文把人文社会科学研究热点与研究前沿定义为某个研究领域在某时间段内新出现或正在兴起的引起学界高度关注的研究主题。
目前在研究前沿识别过程中,常用的方法有:基于引文的方法(包含直接引用、共被引、文献耦合等)、基于词频的方法、基于共词分析的方法、基于主题模型的方法等,众多学者在该领域展开了广泛和深入的研究,并对各种方法的基础理论、代表性成果、方法的优点和局限性等进行了深入探讨[15-16]。从总体来看,每一种方法的提出都有其特定的技术背景和应用场景,都在某种程度上解决了当时的问题,并为后续学者开展进一步研究提供了理论和方法层面的支撑。但是由于人文社会科学各学科引文半衰期整体较长,其引文时滞性表现与影响也更为突出,如考古学、历史学、文学等学科的引文半衰期均在10年以上,而引文半衰期较短的经济学、图书情报学、新闻与传播学等学科也在3年左右[17]。因此,较之于引文分析方法,基于文本内容分析的研究热点与研究前沿识别方法相对更适用于进行人文社会科学领域。在此背景下,针对人文社会科学研究热点与前沿识别,本文将采用基于主题词共现的研究前沿识别分析方法并对其进行优化改进,在基于主题词共现的网络图挖掘基础上进行主题聚类,从而识别出研究主题,并设计和改进研究主题的测度指标算法,以期实现人文社会科学研究热点与研究前沿的识别。基于上述方法,本文构建的人文社会科学研究热点与前沿识别模型如图2所示:
图2 基于词共现的研究热点与研究前沿识别一般流程
1.基于词共现的研究热点与前沿识别实施步骤
基于主题词共现网络挖掘的研究热点与前沿识别主要包含以下几个步骤:
(1)确定数据源并提取相关领域文献数据集,并对文献集进行时间段划分。
(2)在对文献集进行时间段划分的基础上,对每一时间段内的文本进行主题词抽取,并建立主题词共现关系。本文在主题词抽取的过程中,采用TFIDF算法进行主题词提取。
(1)
式(1)中ni,j是词i在文件j中的出现次数,∑knk,j是在文件j中所有字词的出现次数之和,|D|为语料库中的文件总数,|{j:ti∈dj}|为文档集中包含词语i的文档数。
(3)在主题词抽取的基础上,构建主题词共现网络,并对网络图进行挖掘,识别研究领域主题。在进行主题识别的过程中,鉴于谱聚类算法(Spectral Clustering)在稀疏数据及高维矩阵上的良好表现,能在任意形状的样本空间上聚类且收敛于全局最优解等优点[18],本文采用谱聚类进行基于词共现网络的主题识别。
(4)基于前文的时间段划分,对每一个时间段上的文献集进行主题词抽取及共现网络构建,并滑动时间窗口,对每个时间段内的主题进行相似度计算,构建主题演化关系网络,梳理研究领域主题演变关系。
(5)在主题识别与主题演化关系挖掘的基础上,构建研究主题的主题强度、主题成熟度和主题辐射性测度指标,判断研究领域热点和前沿主题。
2.人文社会科学研究热点与前沿判断指标
在主题识别的基础上,我们进一步通过构建测度指标来判断不同研究主题的热度与前沿。根据前文中所探讨的人文社会科学研究热点与前沿的特性,设计出以下3个指标来进行不同研究主题间的对比:
(1)主题强度
主题研究强度与包含该主题的文献数量有关,包含该主题的研究文献数量越多,该研究主题的强度越大。此处所指的该研究主题内容的文献界定为包含该主题内两个或两个以上的关键词的文献[19]。
(2)主题成熟度
对主题研究成熟度的测算采用网络凝聚性指标进行展示,具体计算过程中以主题的网络密度进行表征。网络密度(Density)是反映网络中各个节点间联系紧密程度的重要指标,该指标通过对网络连接的扩散性和连通性测度进而体现整体网络的结构特性,其计算公式表示为网络中实际存在的节点连线与可能存在的节点连线之比[20],网络密度的取值范围在0~1之间,其值越接近1表示网络内各节点间的联系越频繁。
(2)
公式(2)中,m为网络中实际存在的连线数,n为网络中的节点数目。
(3)主题辐射性
对主题的辐射性测度采用主题的群体网络中心度指标进行展示。为了考察整体网络中的某个子群在网络中发挥的作用和所处位置等特征,Everett等学者将中心度测量从网络中的单个行动者扩展到一系列行动者(即子群)中,形成了群体中心度测量指标。根据Everett的定义,对一个大型网络中的某个小群体来说,该群体的度数中心度是指该群体之外与其内部成员有直接关联的点数,如果该群体有多个节点与群体外的一点相连,则只计算一次。归一化后的群体中心度计算公式为:
(3)
公式(3)中,C为整体网络V中的某个子群节点个数,N(C)表示子群C之外与该群有直接联系的节点个数。研究主题的群体中心度数值越大,说明该主题与其他主题或文档关联越大,热度越高,前沿价值越高。
在群体的中介中心度计算过程中,假设C是一个网络中的一个子群,令g(u,v)代表连接点u和点v的捷径数,令g(u,v)(C)代表连接点u和点v的经过点集C的捷径数,那么子群C的中介中心度为:
(4)
3.基于战略坐标分析的研究热点与前沿识别
在研究热点与前沿判断过程中,本文采用基于巴斯德象限思想的战略坐标分析法来进行不同研究主题间的对比分析,该方法可以通过可视化的形式来描述研究主题的内部联系和不同主题之间的相互联系[21-22]。在战略坐标图中,横轴表示研究主题的辐射性,具体用上文中的群体中心度(Group Betweenness)指标度量;纵轴表示主题的成熟度,具体用网络密度(Density)指标度量,通过该方法可以直观地描述各主题的研究发展状况及发展趋势。其中,主题的网络密度高,说明该主题内部联系紧密,研究趋向成熟; 主题的中心度高,则说明该主题处于网络的中心,主题辐射性较强,与其余主题连接紧密,对其他主题的影响力较大。
图3 主题分析战略坐标图
1.马克思主义理论学科研究热点与前沿识别
基于上述方法,本研究以马克思主义理论学科为例进行实证研究。以中国社会科学评价研究院建设的中国人文社会科学期刊引文数据库(CHSSCD)为实验数据源,选取2012~2018年的马克思主义学科期刊所刊载的3.4万余篇论文为实验对象,进行马克思主义理论学科研究热点和前沿识别。
首先,基于上文所述方法进行主题词抽取,并以“年”为时间单位构建历年的主题词共现关系网络,在此基础上采用谱聚类算法对主题词共现网络进行聚类,在谱聚类及主题识别过程中,在每个子图(主题)中选取词频最高的前3个词作为该主题簇的类标签,得到历年的主要研究主题及主题演化关系,如图4所示,图中圆点的大小代表主题的研究热度,圆点越大,与该主题相关的研究成果数量越多,主题研究热度越高。从图4中可以较为明显地看出该学科研究主题的热度变化情况。如党的十八大以来,有关中国特色社会主义的相关研究和阐释一直是马克思主义理论学科的研究热点,同时“思想政治教育”“社会主义核心价值观”等主题研究热度也较为突出;党的十九大以来,有关习近平新时代中国特色社会主义思想的相关研究一直是马克思主义理论学科最为重要和前沿的研究主题。此外,2017年是《资本论》第一卷发表150周年,有关该主题的相关研究相对较多;2018年是马克思诞辰200周年和《共产党宣言》发表170周年,有关这方面的相关学术研究成果表现也较为突出。
图4 2012~2018年马克思主义理论学科主要研究主题及其演化关系
在主题演化分析的基础上,为进一步识别该领域的研究热点与前沿主题,采用上文的计算指标对历年各个主题的主题强度、主题辐射性与主题成熟度等进行计算,并将其计算结果放置于战略坐标中,对主题的重要性和成熟度等进行对比分析,图5中展示了2018年的主要研究主题情况,图中横轴为主题网络中心度所表征的主题辐射性指标,纵轴为主题网络密度所表征的主题成熟度指标,图中圆圈代表主题,并以该主题中词频最高的前3个词作为该主题的标签,圆圈的大小代表该主题的研究强度,即与该主题相关的文献数量。从图5中可以明显看出,在2018年,有关习近平新时代中国特色社会主义思想的相关研究是该学科最为重要的新兴研究主题,其研究强度最大、主题的辐射性也最强,表明以习近平新时代中国特色社会主义思想为指导是马克思主义理论学科最为重要的基本特征,这也是整个中国学术界的根本遵循;此外,2018年是马克思诞辰200周年和《共产党宣言》发表170周年,有关这方面的相关学术研究成果表现也较为突出;与此同时,“人类命运共同体/一带一路/全球化”相关主题也是该学科较为关注的重要研究主题之一。
图5 2018年马克思主义理论学科研究热点与前沿主题分布
图6 党的十九大以来马克思主义理论学科研究热点与前沿主题分布
党的十九大以来,有关习近平新时代中国特色社会主义思想的相关研究与阐释一直是马克思主义理论学科最为重要和前沿的研究主题,也是该学科领域研究强度最高的主题,此外,“思想政治教育”“社会主义核心价值观”“全面从严治党”“人类命运共同体”等主题在这一时段内的研究热度也相对较高。
通过对马克思主义理论学科研究热点与前沿主题的识别,我们可以较为直观地看出该领域的主要研究内容及其在时间维度上的演化轨迹,对科研人员或科研管理部门了解和掌握该领域的研究重点和研究趋势等有一定的支撑作用。在此基础上,通过对主题维度下不同机构的表现情况进行挖掘分析,可以进一步锁定特定主题下不同机构的研究优势或研究侧重,对于从宏观上掌握不同学科领域学术发展态势、开展学术评价以及面向重大问题攻关中整合不同研究机构的研究特长与学术优势等也都具有一定的支撑作用。
运用上述研究方法,习近平新时代中国特色社会主义思想主要研究机构有中国人民大学马克思主义学院、清华大学马克思主义学院、中央党史和文献研究院、中国社会科学院马克思主义研究院、武汉大学马克思主义学院等机构。马克思主义基本理论的相关研究作为马克思主义理论学科的理论基础,也是该学科领域的研究重点,该研究主题位于巴斯德象限的第一象限中,主题成熟度和主题辐射性都相对较高,通过对该主题的相关研究进行统计分析,得到该研究领域的主要研究机构有中央党史和文献研究院、中国社会科学院马克思主义研究院、北京大学马克思主义学院、中国人民大学马克思主义学院、南京大学哲学系等。
人文社会科学研究作为整个科学体系中的重要分支,在经济社会发展进程中发挥着重要的作用。当前,在国家治理体系现代化建设与社会经济高质量发展进程中,繁荣发展哲学社会科学并服务于重大理论和现实问题需要是哲学社会科学工作者的重要使命。研究和识别学科研究热点和前沿问题,可以为科研管理部门把握学科发展战略与演进方向、进行项目布局提供支撑,这也是服务“三大体系”建设的重要环节。基于此,本文对人文社会科学研究热点与前沿的相关概念进行了辨析,并重点研究了人文社会科学研究热点与研究前沿的主要特征,在此基础上构建了人文社会科学研究热点与研究前沿识别方法,并以马克思主义理论学科为例进行了实践。
从研究结果来看,本文构建的人文社会科学研究热点与前沿识别方法能够较为有效地识别出研究领域的热点与前沿,在此基础上还进一步统计了不同研究主题下的研究机构分布情况,对于了解学科发展态势有一定的帮助,且该方法避免了基于引文分析研究前沿识别中的时滞性问题,具有较强的扩展性,可以较为容易地扩展到人文社会科学其他学科领域。但是,本研究也具有一定的局限性,即在数据源的选择过程中以单一学科的学术期刊为对象进行了实证分析,鉴于人文社会科学研究内容的交叉性,后续我们需要进一步拓展研究和探索学术论文的领域属性划分方法,以期为研究领域热点和研究前沿的识别提供更加准确和全面的分析数据源。