陈 稳 陈 伟,3
(1.中国科学院武汉文献情报中心 武汉 430071;2.中国科学院大学经济与管理学院图书情报与档案管理系 北京 100190;3.科技大数据湖北省重点实验室 武汉 430071)
研究前沿是受到高度关注、具有发展潜力和一定影响力的代表着研究难点、热点与趋势的研究问题,既包括科学前沿主题也包括技术前沿主题,它具备新颖性、成长性、影响力等最典型特征。研究前沿预示了科技研究发展方向,分析研究前沿及其内部演化有助于了解科技前沿发展方向,预测未来的科技发展趋势,对科研资源的部署及研究方向的调整都有着重要参考价值。
目前,研究前沿识别多采用论文数据,但单源数据所含信息有限,分析结果易受到数据库、刊物等因素的干扰,且研究多停留在识别结果解读,较少对前沿主题之间的联系及其演化进行深入分析。鉴于此,本文提出一套科学与技术对比视角下的研究前沿主题识别及演化分析方法,以论文和专利为数据源,从研究前沿核心特征出发识别前沿主题,并对比分析科学前沿与技术前沿之间的异同;将各时间窗口下研究主题与前沿主题相似度作为主题过滤指标对研究主题进行筛选得到阶段性前沿主题,并将阶段性前沿主题作为前沿主题演化分析主体进行可视化分析,以了解前沿主题的动态变化及其之间的关联。
随着科学研究的发展,研究前沿的内涵一直发生着改变。Price[1]、Small[2]等人是研究前沿识别领域的早期研究者,他们从引文分析的角度出发,以论文为分析对象,以文献簇表示研究前沿,此类定义方法使得研究前沿识别不得不依赖于引文分析,但引文分析的时间滞后性、引用动机盲目性都限制了其应用范围与识别准确性。近年,研究人员对研究前沿的本质和特征进行深入探讨,周群[3]提出研究前沿是最具有发展潜力的新兴研究领域或研究主题,具有研究成果数量较快增长、学术辐射力较强、具有一定的研究规模和影响力等特征;欧洲研究理事会[4]认为科技研究前沿是具有时效性、创新性、连贯性、风险性和学科交叉性5个特征的研究主题。研究前沿的内涵与特征研究为基于文本挖掘的前沿主题识别方法的发展提供了理论基础,此类研究大多通过将文本挖掘技术与表征前沿主题的特征指标相结合来识别前沿主题[5]。基于文本挖掘的前沿主题识别方法克服了引文识别的时滞性问题,细化了主题识别粒度,但研究选取的前沿主题特征指标差异较大,同一指标也存在着多种计算方式[6-8]。
主题演化分析通常是指分析主题在时间变量下动态变化的趋势、特征,它是一种利用文献特征之间关联关系的分析方法。根据演化分析对象,可将主题演化分析分为主题强度演化分析与主题内容演化分析;根据时间维度的纳入方式,可将主题演化分析分为先时间离散后主题分析的先离散分析[9],先主题分析后时间离散的后离散分析[10]以及将时间作为模型变量观察主题随时间演化[11]3种。后两种方法在各个时间段下的主题数固定,更易于分析主题的强度演化,而先离散后聚类的方法可以灵活选择各个时期的主题数量,可以分析主题强度与内容的演化。
前沿主题识别与演化研究虽然已取得了一定的进展,但仍存在以下问题:a.基于引文角度的研究前沿定义局限了分析数据源,单源数据分析信息量有限,且引文分析方法也存在时滞性、结果难以解读等问题。b.在基于文本挖掘的前沿主题识别中,前沿主题识别指标的设计往往受到研究者的主观影响,研究前沿内涵特征和识别指标之间未建立良好的联系。c.大多前沿识别研究停留在结果解读阶段,并未对前沿主题的内容演化及前沿主题之间的关联进行深层次分析。
因此,本文提出了科学与技术对比视角下的前沿主题识别及演化分析方法,以论文和专利为数据源,从研究前沿核心特征出发识别科学前沿主题和技术前沿主题,并分析两者之间的联系及异同。本研究方法的创新点如下:首先,多源数据分析可以从科学发现和技术发明等层面全面地反映研究前沿,增强了前沿主题识别的科学性。其次,本文针对研究前沿特征及多源数据特点设计前沿主题识别指标体系,系统强化了前沿主题概念特征与测度指标之间的对应关系。最后,利用主题相似度分析了科学前沿主题内部、技术前沿主题内部以及科学前沿与技术前沿主题之间的内容演化,揭示了前沿主题的动态变化及其之间的关联,可为预判科技前沿方向提供参考。
本文方法框架如图1所示,包括:数据预处理与主题识别、研究前沿识别、研究前沿内容演化分析3个部分。
图1 科学与技术对比视角下的前沿主题识别与演化分析框架
2.1数据预处理与主题识别本文采用论文和专利数据作为研究前沿识别数据源,分别抽取论文与专利的摘要字段构建对应语料集。为了确保语料质量,对语料集进行数据预处理,首先删除重复数据及缺失数据,接着进行分词与词性归并。为了保障语料分词的准确性与正确性,在分词阶段采用自定义词典和自定义停用词表保证语料质量。相较于关键词,术语词组的可解读性更强,能更好反映科技类文献的主题,因此本文将论文关键词字段中的多元术语词组补充到用户词典以增加主题挖掘结果的可解读性,并在通用停用词的基础上补充特定领域停用词构成停用词表。考虑到数据量及分析效果,删除只在1篇文献中出现的低频词以及出现在数据集50%文献中的高频词,使用TF-IDF法进行词赋权,构建分析词袋,最终获得论文语料库和专利语料库。
LDA模型是一种具有词、主题、文档3层结构的自然语言模型[12],被广泛用于语料隐含主题的抽取分析。利用LDA主题模型分别对论文数据和专利数据进行主题抽取,获得科学研究主题与技术研究主题。由于停用词表无法穷尽所有停用词,为了保证主题分析质量,需要对LDA模型识别出的主题进行过滤,去除主题簇过小及无实意的噪声主题。
2.2研究前沿识别
2.2.1 研究前沿测度指标体系 针对研究前沿的新颖性、成长性、影响力3个典型特征,本文构建了新颖度、增长性、影响力、交叉性4个测度指标进行前沿主题识别,其中新颖度指标从时间角度分析主题的新颖性;增长性指标从科研成果数量上测度主题的成长趋势;影响力指标从引文角度衡量主题影响力;交叉性指标同时可以表征主题成长性和影响力特征,它不但可以从主题的发展空间上分析主题成长空间,也可以表征主题在多领域的影响力。
a.新颖度。近期发表的研究成果通常具有较高的新颖度,因此主题新颖度可由主题相关的论文/专利平均出现时间表示,计算方法如式(1),其中Nj为第j个主题的新颖度,Ti为第i篇论文/专利出现时间,论文数据的出现时间为其出版时间,而专利数据的出现时间为其公开时间,N为该主题的论文/专利总量。
(1)
b.增长性。增长性可由主题相关论文/专利产出量的年增长率测度。在研究前沿识别过程中,为了避免论文刊物扩充或缩减、专利审批流程等因素对年产出量的影响,参考前人研究[13],取近3年的论文/专利年增长率均值代替实际增长率,主题增长性计算方式如下:
(2)
(3)
其中,YGRi为第i年主题论文/专利增长率,Pi为第i年主题论文/专利产出量,G为主题增长性。
c.影响力。科学主题的影响力主要通过论文被引体现。但论文的被引存在明显的时间累积现象,为了分析科学研究主题对目前学术研究的影响力,需要在科学主题学术影响力的测度中纳入时间权重ti以平衡早期发表的文献的累计被引[14],计算公式如式(4),其中ti表示第i年的主题相关论文被引频次的时间权重,n为数据集的年份跨度。科学主题影响力测度方法如式(5),其中As为主题学术影响力,Ci为该主题论文于第i年的被引频次。
(4)
(5)
技术主题的技术影响力可以通过专利间的引用分析,本研究通过计算主题相关专利的平均被引频次来分析该主题的技术影响力,计算公式如式(6),At为主题技术影响力,Cj为该主题第j件专利被引频次,N为该主题相关专利数量。
(6)
d.交叉性。随着科技的发展,科学研究往往涉及多个学科领域,学科交叉为科学主题提供了多个发展方向,提高了其发展潜力以及创新性。Rao-Stirling指数是目前常用的学科交叉性指标,它从种类、平衡及差异三个角度衡量科学主题的学科交叉性,其计算公式如下:
(7)
其中,Ds为主题的学科交叉度,Pi与Pj是不同学科的概率分布,dij是学科i与学科j之间的距离,可用余弦相似度计算,α、β为权重参数。
本文通过专利技术宽度来分析技术主题技术交叉性,专利技术宽度即涉及的技术领域越多,说明该专利对各领域技术的综合性越强[15],其技术交叉性也可能越高。采用国际专利分类号(International Patent Classification,IPC)测度技术主题的技术交叉性,其计算方式如下:
(8)
其中,Dt为主题的技术交叉度,K为主题相关的专利数量,Ii为第i个主题的专利IPC分类小类数量。整理本文所提的研究前沿测度指标及其计算方式,如表1所示。
表1 研究前沿测度指标
2.2.2 研究前沿综合指数计算
a.标准化处理。不同指标直接计算得到的结果数量级别差距较大,为了增加前沿主题识别结果的准确性,采用正向离差标准化方法对指标值进行标准化:
(9)
其中,Yi为标准化后的指标值,Xi为指标的原始值,Xmax、Xmin分别为该指标的最大值和最小值。
b.测度指标权重计算。对多维测度指标进行赋权来计算综合指数以识别研究前沿,CRITIC法是近年来在图书情报领域应用较多的客观赋权方法[13,16-17]。CRITIC法通过计算指标的对比强度和冲突性对指标赋予客观权重,其分析结果的科学性和可复现性较强。指标取值差异越大、与其他指标相似度越低,则该指标信息量越大,该指标越重要[13]。指标信息量计算公式如式(10)所示,其中CRj表示指标j的信息量,δj表示指标j的标准差,n表示指标个数,rij表示指标i和指标j的相关系数。对指标信息量CRj进行归一化处理,如式(11),得到指标j的客观权重Wj。最后,根据指标权重和标准化指标值计算前沿主题综合指数,取综合指数较高的主题为研究前沿主题。
(10)
(11)
2.3研究前沿内容演化分析
2.3.1 阶段性前沿主题识别 研究前沿的研究侧重点是动态变化的,研究前沿在不同时间窗口的具体体现,即阶段性前沿主题也有所不同,因而可以通过分析阶段性前沿主题之间的联系来实现对前沿主题内容演化的分析。首先,对论文数据和专利数据进行时间切片,识别出各时间窗口下的科学研究主题与技术研究主题。在此基础上,对识别得到的主题进行过滤,过滤掉无实意主题及与研究前沿关联度较低的主题获得阶段性前沿主题。采用Hellinger距离分析主题之间的关联,Hellinger距离表示了主题之间的差异性,Hellinger距离越小,则主题间相似度越高,主题相似度计算公式如式(12),其中,P与Q为两个主题下主题词的概率分布,长度为K,H(P,Q)为P与Q之间的Hellinger距离。
Sim(P,Q)=1-H(P,Q)=
(12)
2.3.2 科学前沿与技术前沿主题演化可视化 计算相邻时间窗口下阶段性前沿主题之间的主题相似度,若主题相似度大于阈值,则认为主题间存在演化关系。识别出所有具有演化关系的主题对,使用桑基图对主题演化路径进行可视化分析。
3.1数据获取及清洗实证领域为固体氧化物燃料电池(Solid oxide fuel cell, SOFC),其检索式为:((("solid oxide" or "solid-oxide") near/2 "fuel cell*") not (("solid oxide" or "solid-oxide") near/2 "carbon fuel cell*"))),时间:2016-2020年,论文数据来源于Web of Science数据库核心集,文献类型限定为Article,获得文献5 209篇;专利数据来源为Derwent Innovations Index数据库,检索得到专利2 627件,清洗后得到5 005篇论文及2 622件专利。构建领域术语词典、停用词表,分别对论文和专利的摘要字段进行分词、去标点、去停用词、词形合并、去高低频词,得到论文语料库和专利语料库,并使用TF-IDF法进行特征词选择得到对应特征词袋。
3.2科学研究主题和技术研究主题识别分别对论文数据与专利数据进行LDA主题聚类抽取科学研究主题与技术研究主题,通过计算主题困惑度和主题一致性选择16个和15个作为论文数据和专利数据的最优主题数。对这31个主题进行人工筛选,去除主题簇过小及无实意主题,最后获得12个科学研究主题和14个技术研究主题,对主题进行编号,科学研究主题以“S”开头,技术研究主题则以“T”开头,见表2。
表2 科学研究主题与技术研究主题识别结果(部分)
3.3研究前沿识别计算各主题的新颖度、增长性、影响力、交叉性测度指标,并对指标结果进行标化,使用CRITIC法分别计算科学前沿主题、技术前沿主题指标的权重,如表3所示。
表3 固体氧化物燃料电池领域前沿主题测度指标权重
计算科学研究主题与技术研究主题的综合指数,分别选取综合指数前30%的主题,即综合指数排名前4的主题作为科学前沿主题与技术前沿主题,结果如表4所示。可以看出,固体氧化物燃料电池堆模型(S3、T4)、电极材料(S12、T12)、电解质材料研究(S10、T1)是固体氧化物燃料电池科学研究和技术开发领域共同的前沿主题。通过进一步分析发现,科学前沿主题和技术前沿主题研究的侧重点有所区别。在电池材料研究中,基础科学研究更关注于固体氧化物燃料电池材料的基本结构与理化性质研究(S9、S10),如钠、钾掺杂对电极导电性的影响,相关研究可为技术开发与产业化提供理论支持,而技术开发更侧重于材料制备研究(T6),如陶瓷材料制备等;在电解质研究中,基础科学前沿的研究内容较为广泛,涉及各类固体氧化物燃料电池的电解质结构及其优化研究(S10),而技术开发前沿已聚焦到中温固体氧化物燃料电池电解质(T1),如氧化钆、氧化铈双掺电解质及其制备等。阅读固体氧化物燃料电池发展趋势相关综述文献,对前沿主题识别结果进行验证。刘少名[18]、Hodjati-Pugh[19]等专家认为SOFC领域的前沿集中于电池材料开发、电池堆栈/系统设计、电流集流等。中国工程院院士衣宝廉[20]认为固体氧化物燃料电池领域需要重点改进燃料电池核心部件,降低电极、电解质等部件制备成本,通过增强关键材料与研发新型材料来提高燃料电池的性能,与此同时,需要设计研发高均一性燃料电池堆,提高燃料电池堆性能与比功率,实现燃料电池发电系统的高功率输出。可以发现本文所识别的固体氧化物燃料电池研究前沿主题与该领域专家的观点较为一致,证明了本文所提的研究前沿识别方法的有效性。
表4 固体氧化物燃料电池领域科学前沿主题和技术前沿主题
3.4研究前沿主题内容演化分析
3.4.1 阶段性前沿主题识别 本文将时间窗口设为一年,将固体氧化物燃料电池研究的论文与专利数据各划分为5个时间切片,并通过LDA主题模型识别每一时间切片中的科学研究主题与技术研究主题。过滤噪音主题及与研究前沿主题相似度低于0.3的主题进行阶段性前沿主题筛选,主题识别与过滤结果如表5所示。
表5 各时间切片下阶段性前沿主题筛选结果
3.4.2 科学前沿与技术前沿主题演化可视化 计算相邻时间窗口下阶段性前沿主题间的主题相似度,相似度大于0.4的主题之间可认为存在主题演化关系,最终得到763对具有演化关系的主题对。绘制科学前沿主题与技术前沿主题之间的内容演化图谱,如图2所示,其中底部横轴代表时间,每个节点代表一个阶段性前沿主题,节点大小反映了该主题在下一时间窗口演化的程度,节点名称由主题名称及主题类型组成,根据每个主题的高概率主题词标注主题名称,括号内表示主题类型,“S”代表阶段性科学前沿主题,“T”代表阶段性技术前沿主题,每一纵列代表在时间切片下新增的研究内容,节点间的横向连接表示主题随着时间新增的研究内容,节点间的连线与主题间的相似度成正比。由图3可知,固体氧化物燃料电池领域的研究前沿主题数量总体保持稳定,相邻时间切片中的主题节点间联系密切,主题频繁分裂融合,说明固体氧化物燃料电池领域前沿主题间的内容交叉与更新频繁,知识流动与转化速度较快,推动了该领域的快速发展。
图2 固体氧化物燃料电池科学前沿主题与技术前沿主题之间演化路径
按照主题类型及其所处时间将具有演化关系的主题对划分为只存在科学主题的S模式主体对、只存在技术主题的T模式主体对、存在科学主题与技术主题且科学主题早于技术主题的S-T模式主体对、存在科学主题与技术主题且技术主题早于科学主题的T-S模式主体对。统计相邻时间切片下各个模式主题对数量,结果见表6,可以发现近年固体氧化物燃料电池领域中S模式、T模式、S-T模式、T-S模式主体对数量较为均衡,S-T模式与T-S模式之和约为所有主题对数量的一半,说明固体氧化物燃料电池领域的科技前沿演化互动活跃,科技成果转化较为良好。从时间角度分析,可以发现S模式主题数量呈增长趋势,而T模式则随时间逐渐下降,S-T模式与T-S模式呈现交叉增长,说明固体氧化物燃料电池领域的基础科学研究愈发受到重视,科学研究与技术开发互相推进,呈现双螺旋式发展。
表6 科学前沿与技术前沿主题之间演化统计结果
分别提取只涉及阶段性科学前沿主题和阶段性技术前沿主题的演化,绘制科学前沿主题内部演化路径(见图3)、技术前沿主题内部演化路径(见图4)。可以看出,在研究方向层面,相较于技术开发,基础科学研究探索更为多元,科学前沿研究更关注于固体氧化物燃料电池元件材料结构研究(如复合电极材料)及固体氧化物燃料电池数值仿真(如不同燃料下固体氧化物燃料电池性能分析);而通过基础研究阶段的试错,技术前沿的研究内容逐渐集中于固体氧化物燃料电池功能系统研究,例如热电联供系统。在主题的具体研究内容层面,以铈 (cerium)主题为例,在科学前沿主题演化路径中,铈主题分裂为复合阳极(composite anode)、阴极(cathode)、混合系统(hybrid system)、晶界(grain boundary)等6个主题,主要围绕铈元素对固体氧化物燃料电池电解质、电极性能的影响进行研究;而在技术前沿主题演化路径中铈主题分裂为掺杂(doped)、数据(data)主题,主要研究内容为掺杂铈的电解质、铈的实验参数调整、电极材料的制备,可以发现,固体氧化物燃料电池的科学研究领域更重视新型材料的基础理论研究,而技术开发领域更注重材料制备、系统设计的应用研究。
图3 固体氧化物燃料电池科学前沿主题内部演化路径
图4 固体氧化物燃料电池技术前沿主题内部演化路径
本文以LDA主题模型、Hellinger距离、CRITIC法等为基础,以论文和专利为数据源,基于研究前沿的新颖性、成长性和影响力特征设计新颖度、增长性、影响力、交叉性4个指标识别科学前沿主题与技术前沿主题,并通过分析科学前沿和技术前沿之间的关联及其在研究内容、演化路径上的差异来了解科学前沿与技术前沿的区别与联系。以固体氧化物燃料电池领域为实证对象,识别出该领域中包含固体氧化物燃料电池堆研究等在内的4个科学前沿主题与复合电极材料在内的4个技术前沿主题,其中,电极材料研究、固体氧化物燃料电池堆是固体氧化物燃料电池的重点前沿方向,科学前沿研究更注重于材料的基本结构、理化性质的理论研究,技术前沿研究更注重于材料制备、系统设计的应用研究,科学研究与技术开发互相推进,呈现双螺旋式发展。
本文所提的前沿主题识别与内容演化分析方法克服了单源数据信息不全的缺陷,同时基于研究前沿特征设计的多维测度指标为前沿主题识别提供了有力支撑,可为今后的研究前沿识别与演化提供参考。但本研究仅从语义层面分析了研究前沿主题的内容演化,在未来的研究中将考虑补充对前沿主题强度、热度等演化规律的研究,实现在了解研究前沿的基础上对前沿主题发展趋势进行预测,为国家、科研机构与研究人员前瞻科研动态提供支持。