许 鑫,叶丁菱
(华东师范大学经济与管理学部信息管理系,上海 200241)
在大数据时代,科学数据呈井喷式增长,数据价值逐渐突显并成为社会发展与科学研究的关键性动力。但在科学数据泛滥的同时,也存在着可用数据缺乏的问题。面对此间矛盾,2020年4月,我国出台的《关于构建更加完善的要素市场化配置体制机制的意见》中,首次将数据纳入生产要素范畴,并提出加快推进数据开放共享、加强数据资源整合、建立数据管理制度的要求,充分体现了数据的基础资源地位[1]。在国家政策支持、科研人员研究需求和科研范式转变的背景下,针对科学数据开放、利用的研究不断涌现,其中作为数据出版的数据论文更是引起众多研究人员的关注。
数据论文是指经过同行评议对数据进行正式出版,描述数据生产目的、收集处理、覆盖内容、时空范围和文件格式的论文[2]。数据论文注重描述数据本身,通常包含一个或多个数据文件,利于促进数据的发现、获取和重用,推动数据产权、数据引用、学术创新等发展[3]。研究表明,数据论文评价可以有效促进数据的发布与应用,有效规范数据引证行为[4]。对此,诸多学者呼吁并提出数据计量,并指出数据计量是对数据在生产、传播以及利用过程中产生“痕迹”的计量,包括但不限于Altmetrics和论文级别计量,把握数据在运动中产生的影响力,从而为科研人员获取、引用和评价数据提供参考[5-9]。鉴于此,本文试图基于数据计量,融合Alt‐metrics与引文分析解构数据论文影响力[10],展开数据论文潜在影响力、学术影响力和社会影响力的多维评价。以期为数据论文影响力评价指标遴选和模型优化提供借鉴,也为改善数据论文影响力评价现状提供新思路。
学术评价的意义不仅在于评价学术成果或学术活动本身,还在于对学术资源、学术创新等的推动和激励。现有的学术评价主要集中于学术论文、学术期刊和科研项目,伴随数据论文等特殊学术资源的发展以及相关政府政策的支持引导,数据论文评价也逐渐引发科研人员的关注。例如,2018年国务院办公厅印发的《科学数据管理办法》中提出,“主管部门和法人单位应积极推动科学数据出版和传播工作,支持科研人员整理发表产权清晰、准确完整、共享价值高的科学数据”[11]。然而,面对数据论文的应用与研究,存在出版数量不足、应用不广泛、引证不规范等问题,数据论文影响力评价的相关研究虽然逐渐兴起,但是研究成果相对较少。
数据论文影响力评价通常以引文分析法或Alt‐metrics评价法为基础,以多类指标为要素进行评价框架或评价体系的构建。引文分析法是从引证与被引证现象来解释评价对象的数量特征与内在规律的方法;Altmetrics评价方法注重测度用户的关注行为,以用户在社交网络中的浏览、阅读、下载、讨论等数据作为计量评价的基础,通常被认为是对传统评价方法的补充[12-14]。Ingwersen等[15]选用GBIF(Global Biodiversity Information Facility,生物多样性数据库)的数据,建立了包括搜索记录、下载频率、使用影响、兴趣影响、数据集数等14指标在内的数据使用指标(data usage index,DUI)体系。Ball等[16]探索了引用频次、唯一标志符、同行评议、下载量、社会媒体链接等指标在科学数据计量中的适用性,认为这些指标可较好地应用于科学数据影响力评价。Fear[17]以数据引用频次、重用数据的出版物质量、重用数据的出版物多样性、数据集的网络规模和下载量为指标,展开科学数据的影响力评价。Peters等[18]基于DCI(data citation index)和PlumX对数据论文的引用频次与Altmetrics指标的相关性进行了研究,指出Altmetrics指标可以对引用频次进行补充。Costas等[7]以数据出版为基础,结合文献计量与Altmetrics构建了基础数据计量模型,文献计量维度包括数据出版总数、数据平均被引次数、数据期刊的平均数据影响力、期刊影响因子,Altmetrics指标包括社会媒体指数、读者数与下载量。翟姗姗等[19]融合Altmetrics与引文分析,采用被引对象频次、当年影响因子、下载量等指标构建了数据论文学术影响力评价模型,并指出融合Altmetrics与引文分析可以更为全面、丰富、科学地评价数据论文。刘闯[20]以引用次数与施引文献的期刊影响因子两个指标研究了“全球变化科学研究数据出版系统”中数据论文的影响力。
通过梳理相关研究可以发现,国内外学者对数据论文或类似科学数据衍生成果进行评价时,在评价方法上,有单从引文或Altmetrics方面的评价,也有融合两者的评价。融合引文分析和Altmetrics的评价方法考虑了数据论文在学术研究和社会交流中的价值体现,可以完善评价指标,扩大评价适用范围[21-22],为数据论文提供综合的评价体系;在评价内容上,主要从单一维度展开,数据论文从发布到使用历经复杂的科研活动过程,其影响力的产生与评价必然具备多维属性,仅从单一的学术影响力进行评价,忽略了数据论文影响的多重性和全面性;在评价指标上,评价指标的选择较缺多样性,对引文评价多从引用频次出发。然而,数据论文层级复杂,语言逻辑难懂,在文章中的不同位置体现着明显的不同作用,对引文、方法、结论和讨论的支撑性具有显著的不同,针对数据论文这一特性本文引入被引对象频次特征指标。因此,在有关数据论文的引文指标与Altmetrics指标发展和可追踪的基础上,面对数据论文影响力评价欠缺完善的、针对不同数据源进行多维影响力测度的评价指标体系这一现象,本文结合引文分析指标与Altmetrics指标,分析数据论文影响力在不同维度的表现及其影响因素,构建更为系统的、全面的评价体系。
数据论文作为承载科研人员研究成果的载体,是知识信息传播的途径之一。基于数据计量的界定,数据论文影响力是指数据论文在交流传播过程中产生的综合影响。因此,本文对于数据论文影响力综合评价框架的建立,一方面以科学、适用、综合的评价方法为依托,另一方面以数据论文的传播形式和影响力的产生机制为基础。
学术成果作为成果创造者和成果使用者之间的交互介质,不同的交互路径和交互过程构成学术成果不同的传播模式,催生不同的影响机制。数据论文的传播模式可以从传播路径和传播过程两个层面进行解析,传播路径是从微观角度分析学术成果传播的具体实现载体,传播过程是从宏观角度分析学术成果传播的不同发展阶段。
数据论文传播路径。根据Björk[23]提出的数字化科学交流模型,研究成果可以定义为科学文献或数据出版两种形式,交流路径可以分为“利用出版物交流研究成果”和“非正式的在线交流研究成果”两种类型。因此,数据论文的交流路径包括为正式交流途径和非正式交流途径。其中,正式交流途径是指经过同行评审的数据论文进行传播扩散的学术成果系统,非正式交流途径是指数据论文在论文创造者和论文使用者之间直接通过社交网络实现传播和扩散的方式。数据论文则在两种交流途径中,被认知、传播和扩散,数据论文的传播和扩散过程既可以反映出读者对数据论文的观念和态度,也可以反映出数据论文对读者产生的影响力。
数据论文传播过程。依据数据论文网络开放发布的特性,数据论文在经过一定形式的评审后,通过数字出版平台或者信息发布平台实现在线出版和开放获取。在线出版和开放获取以其特有的“零进入壁垒”的形式突破学术交流中的时空限制、组织边界和知识界限,促进数据论文便捷、高效、广泛地传播。借鉴王贤文等[24]提出的学术成果在线传播过程可以分析出,数据论文首先通过在线出版实现数据论文的获取和感知,即浏览、下载或收藏数据论文等行为。随后,科研人员通过对数据论文的阅读、理解和吸收,对具有参考价值的内容分别采取引用行为或者评论、分享行为,促进数据论文在学术共同体内部和社会公众之间的传播和扩散。由引用行为形成的施引文献促进数据论文的再次阅读和评论,由交流行为带来的关注度促进数据论文的新一轮阅读和引用,至此完成数据论文在科学交流中的传播过程。因此,数据论文的在线传播过程具体由感知、引用和交流三种主要形式组成。
通过对数据论文传播路径和传播过程的分析可知,数据论文的具体传播模式是依托以数据论文成果系统为载体的正式交流途径和以社交平台为载体的非正式交流途径在感知、引用和交流三种形式中实现泛在传播。
依据数据论文影响力的定义可知,数据论文影响力的产生机制依托于数据论文的传播模式。通过对数据论文传播模式的分析,数据论文以专业文献系统或社交平台为载体实现在感知、引用和交流中的泛在传播。因此,感知、引用和交流既是数据论文传播过程中的三种形式,也是影响力产生的三个关键点。
根据邱均平等[25]提出的科研成果影响力产生模型可以拓展出数据论文影响力产生机制,如图1所示。从影响力内部而言,感知数据论文的用户构成数据论文的受众群,感知越多,则知名度越大;引用是科研人员对数据论文学术价值认可的权威行为,意味着数据论文所承载和传递的信息对科研人员的知识和思想带来了改变,应用越多,则学术影响越深;社交媒体的发展促进在线交流的深入,交流是使用者对数据论文所持有的观点或态度,交流越活跃,则社会影响越广泛。从影响力外部而言,通过感知有用性、感知兴趣性等潜在影响,形成对数据论文的理解与评论,作为后续应用、交流形成的前提和基础,将其中有参考价值的内容通过标注形成正式引用,将感兴趣的内容通过社交平台进行转发和评论;引用所带来的马太效应既可以增强感知,又可以促进交流;交流既通过受众群的扩大增强感知,又通过分享加深应用。因此,本文认为在数据论文影响力的产生过程中,感知可以形成潜在影响力,应用可以促进学术影响力,交流可以反映社会影响力。数据论文的综合影响力最终由潜在影响力、学术影响力和社会影响力三个维度构成。
图1 数据论文影响力产生机制
数据论文影响力评价框架的建立既包括对多维影响力的解析,又包含对评价指标的识别。评价指标的合理性可以直接影响评价结果的合理性[26],因此,本文将从评价指标的适用性和可信度进行指标分析,识别出可以纳入数据论文评价指标体系的候选指标。评价指标的适用性可以从指标的覆盖程度和区分程度进行评估,包括覆盖范围、重复范围和区分程度。评价指标的可信度可以从指标的稳定性和解释性进行评估,包括成熟程度和解释程度。
数据论文的潜在影响力是指数据论文被感知的程度。感知作为用户对数据论文最初的关注形式,是后续应用和交流产生的前提,也是影响力形成的基础。用户只有在感知(即阅读、理解)数据论文后,发掘其数据内涵、数据方法等参考价值,才会产生标注形成学术引用,或者通过社交平台进行分享和评论,从而引发数据论文的社会关注。面对数据论文这一专业性较强、时间成本较高的学术资源,用户必然会出于某种需要或兴趣进行预判和选择。因此,当用户通过不同途径初步接触数据论文后,仍然选择阅读、下载或收藏,可视为对数据论文影响力的一种测度,即用户对数据论文传播内容的接受程度反映其影响程度。
伴随Altmetrics的发展,数据论文的感知程度被定量化,定量的测度指标依据影响的深浅层次可依次分为浏览(Views)、下载(Downloads)、收藏阅读(Mendeley、CiteULike)等。从适用性而言,在浏览、下载、收藏中,以浏览为最低级别,三者之间层层递进。浏览是下载、收藏等行为的转化基础,下载量在一定程度上可以反映数据论文的质量,作为数据论文质量的早期指标[5],Mendeley读者数能够在一定程度上预测科研成果被引数,反映科研成果的学术影响力[27]。浏览和下载在感知阶段反映的数据论文潜在影响力重复范围小、覆盖范围广,层级分明、区分程度大。然而,Mendeley和CiteULike同时表征收藏数,两者之间存在外在交叉和异质性,需要进行遴选。Mendeley与CiteULike相比,在数据论文上使用群体更多、更稳定,覆盖范围更广泛,表征效果更好;从可信度而言,浏览量、下载量、Mendeley和CiteULike都是当前广受应用、发展较为成熟、具备研究意义的评价指标,各指标所表征的内涵可以清晰反映用户的感知行为。综合适用性和可信度,本文选取浏览量、下载量和Mendeley读者数作为数据论文潜在影响力的评价指标。
数据论文的学术影响力是指用户对数据论文的引用程度。引用代表数据论文在科学交流活动中产生的重要影响,并且这种影响重要到科研人员必须将其进行标注来反映其对科学研究的贡献和效用,是对数据论文学术价值较为权威和深度的认可。基于马太效应的影响,拥有较高学术影响力的数据论文,一方面,通过其较高的知名度,增加数据论文的感知途径和感知程度,扩大潜在影响力;另一方面,通过其较高的关注度,引发社会讨论,激发社会影响力。因此,引用为数据论文被积极转化和深度应用的重要形式。
对数据论文而言,引用通常采用参考文献的方式进行呈现,针对这一类型影响力的测度指标包括总引用频次(Total Citations)、平均引用频次(Av‐erage Citations)、施引文献引用频次(Citing Arti‐cles Citations)、施引文献期刊影响因子(Impact Factor)、论文H指数(H-index)等引文分析指标。依据数据论文作为文章底层支撑数据的特性,应深入文章内容进行评价,本文引入被引对象频次(Citation Target)指标[19]。从适用性而言,总被引频次、平均被引频次和被引对象频次都是从直接引用次数来反映数据论文的学术影响力的,重复程度高,覆盖范围相同,但总被引频次和平均被引频次是基于表层引用的反映,被引对象频次深入到文献内部具体反映引用行为,具有深层次性。所以,总被引频次和平均被引频次反映同一层级内容需要进行遴选。施引文献被引频次、H指数和施引文献期刊影响因子均是从引用的间接影响形式反映数据论文的学术影响力,三个指标的受众群体相同,区分程度相对较弱,影响程度相对较小。并且施引文献期刊影响因子作为反映期刊质量的指标,相对于其他指标反映数据论文影响程度最小。从可信度而言,总被引频次和平均被引频次的发展时间久、内涵相似,但总被引频次的成熟程度较高,被认可程度也较高。被引对象频次发展相对较晚,但反映评价对象的内涵深度相对较强。施引文献被引频次、H指数和施引文献期刊影响因子发展成熟、稳定性强,其中,H指数综合了数据论文数量和影响,与施引文献被引频次和施引文献期刊影响因子相比,H指数的内涵范围相对较广、解释数据论文程度相对较高。因此,本文选取总被引频次、被引对象频次和H指数作为数据论文学术影响力的评价指标。
数据论文的社会影响力是指用户对数据论文的社会交流程度。社交平台的发展为用户提供了实时、高效的交互平台,也为数据论文提供了泛在传播平台。社会交流反映了用户在阅读和理解数据论文后,凭借社交平台展示对数据论文的兴趣、观点、态度等行为。此行为通常以评论、转发或分享等作为表征,通过观点、态度来表示用户对数据论文相对浅显、非系统的认知,体现数据论文影响力的广泛程度;以评论为代表的交流行为通常对用户公开可见,可以较为清晰、及时地反馈用户投入程度。社会影响力一方面通过社交平台扩大数据论文的受众面,加强数据论文的感知程度,提升潜在影响力;另一方面通过社交平台发布、传递的相关综合信息、洞见性的评论等,加深科研人员对数据论文的理解,促进数据论文的引用,加深学术影响力。
针对这一类型影响力的测度指标,依据影响的深浅层次可依次分为脸书分享(Facebook)、推特评论(Twitter)、博客(Blogs)、维基百科(Wiki‐pedia)、新闻报道(News)等Altmetrics指标。从适用性而言,博客提及量表征用户对数据论文翔实的讨论行为,新闻报道量表征主流媒体对数据论文的分享行为,维基百科链接数表征用户对数据论文的引用行为,推特评论提及量表征用户对数据论文及时、简短的讨论行为,脸书分享量表征用户对数据论文及时的分享行为。这五个指标分别从主流媒体、研究学者、普通大众的讨论、评价、分享等行为,拓展数据论文社会影响力的广度、延伸数据论文社会影响力的深度,指标间外在交叉程度相对较小。从可用度而言,五个指标发展稳定性趋强、内涵明晰、集中获取程度高。因此,本文采用上述五个指标作为数据论文社会影响力的评价指标。
基于此,本文构建融合Altmetrics与引文分析的数据论文影响力综合评价框架,如图2所示。融合Altmetrics与引文分析的数据论文影响力综合评价框架考虑了影响力来源的三维分层性、补充性和评价指标的聚合性,能够发挥以感知形成的潜在导向作用,以应用促进的学术传承作用,以交流反映的社会补充作用。
图2 数据论文影响力综合评价框架
考虑到数据论文质量的可控性和出版实践的成熟性,本文选择Earth System Science Data出版的数据论文作为研究对象。Earth System Science Data作为专业数据期刊要求出版的数据论文提交与其对应数据集的详细信息,并经历严格的两段式同行评议,以保证数据论文和数据集的真实性、准确性和有效性[28],在数据论文出版领域具有较高的成熟度和权威性。本文选取2009—2020年发表在Earth System Science Data上的12卷24期489篇数据论文。通过Web of Science获取引文指标信息,通过Earth System Science Data网站获取浏览量、下载量等Alt‐metrics指标,通过Plum Analytics获取其余Altmet‐rics指标信息。
本文从指标覆盖率分析、相关性分析和信效度分析对数据论文影响力评价指标进行遴选与甄别。在指标覆盖率分析上,Wikipedia指标覆盖率低于5%,不具备区分度,故对该指标做删除处理。在相关性分析上,评价指标相关性分析如表1所示。由表1可知,数据论文学术影响力各指标高度正相关,数据论文潜在影响力和社会影响力的评价指标显著相关,但各指标之间的相关性较弱。因此,为了进一步分析各指标对测量变量的目的关联性强弱,对潜在影响力和社会影响力的各评价指标进行总项相关分析,分项对总项相关系数是测量指标的重要性得分和全部指标的重要性得分总和间的相关程度,用于反映测量指标的重要程度,如表2所示。数据论文潜在影响力和社会影响力的各评价指标对总项的相关性均大于0.5,说明潜在影响力和社会影响力的各评价指标对测量变量的目的相关性较强,因此,保留各评价指标。在信效度分析上,整体Alpha值为0.903,各评价指标的Alpha值均大于0.8,各指标内部具有较强一致性。KMO值大于0.8,说明评价指标效度非常好,反映评价目的的程度高。
表1 数据论文多维影响力评价指标相关性分析
表2 数据论文二维影响力评价指标分项对总项相关性分析
基于此,本文初步构建包含浏览量、下载量和读者数的潜在影响力指标,包含总被引频次、H指数和被引对象频次的学术影响力指标,以及包含博客提及量、新闻报道量、推特评论提及量和脸书分享量的社会影响力指标的数据论文影响力综合评价体系。
本文采用偏最小二乘结构方程模型确定评价指标权重,偏最小二乘结构方程模型在不需要样本数据符合正态分布的基础上,集合了多元线性回归、主成分分析、典型相关分析等统计学方法[29],可以解决评价指标的多重共线性问题,研究每个潜变量和显变量间的关系,得到综合各潜变量和代表所有潜变量的综合指数[30-31]。本文构建的数据论文影响力偏最小二乘结构方程模型包含潜在影响力、学术影响力和社会影响力三个潜在变量,通过显著性检验和质量检验进一步验证模型信效度,在此基础上,通过路径加权进行参数估计,最后通过路径系数计算实现评价体系的权重配置。
在潜在影响力、学术影响力和社会影响力的唯一维度检验通过的基础上,利用PLS测量模型质量,潜在影响力、学术影响力、社会影响力和综合影响力的AVE值均大于0.5的适配标准,组合信度和内部一致性系数均大于0.7的适配标准,综合影响力对于三个潜变量的R2为1,说明评价指标区分效度较好,综合影响力对三个潜变量的解释程度较高。随后对评价体系进行显著性检验,如图3和图4所示。从图3可以看到,潜在影响力、学术影响力和社会影响力对综合影响力的路径系数分别为0.364、0.375和0.472。从图4可知,所有测量变量的因子载荷系数的显著性检验T值和潜变量之间的标准化路径系数显著性T值都大于1.96,说明评价体系通过了显著性检验,进一步证明了本文构建的评价体系具有合理性,评价数据具有较好的信效度,可以使用该模型对数据论文影响力进行评价和权重配置。
图3 因子载荷系数和标准化路径系数
图4 综合评价体系显著性检验
Fornell等[32]指出,通过对测量变量的外部权重系数进行加权平均可估计潜变量的数值,因此,本文将综合评价体系的外部权重系数和潜变量路径系数作为评价指标权重,各评价指标影响权重如表3所示。
表3 数据论文影响力综合评价体系
同时,本文将数据论文的综合影响力、潜在影响力、学术影响力和社会影响力分别命名为DM、DM1、DM2和DM3,具体数据论文影响力综合评价体系计算公式为
其中,Wi为数据论文潜在影响力下各评价指标的权重;Xi为各评价指标的值,i∈[1,3];Wj为数据论文学术影响力下各评价指标的权重,Xj为各评价指标的值,j∈[1,3];Wk为数据论文社会影响力下各评价指标的权重,Xk为各评价指标的值,k∈[1,4]。
数据论文作为新型特殊学术资源,一方面处于初始研究阶段,发展尚不成熟;另一方面,适用数据针对性较强,需要花费研究人员大量的精力和时间分析数据的关联程度或支撑程度,应用尚不广泛。本文通过对Earth System Science Data数据期刊的调研发现,大量数据论文在多维度中缺乏有意义的指标数据,尤其是Altmetrics指标的缺失,因此,出于数据一致性、完整性和评价适用性的考虑,本文依据Altmetrics.score分值,选取Earth System Sci‐ence Data中前100篇数据论文作为综合评价的研究样本数据展开综合评价分析。
根据数据论文评价体系中各指标权重,计算数据论文的潜在影响力、学术影响力、社会影响力和综合影响力,评价结果如表4所示。由表4可知,数据论文在潜在影响力、学术影响力和综合影响力的评分中差值程度相对较小,社会影响力的评分中差值程度相对较大,并且社会影响力评分明显小于其余影响力评分。从各影响力评分及排名可以看到,以“Global Carbon Budget”加上年份的数据论文在各维度影响力及综合影响力排名中都有出现,并且排名比较靠前。本文通过对此类数据论文进行阅读分析发现,此类数据论文从研究内容而言,包含内容范围较广,从大气、土地、森林各方面对二氧化碳的排放行为进行分析;从研究时效性而言,时间跨度较长,时效性较高,可适用时间长;从稳定性而言,以年为周期展开研究,版本几乎不用更新,数据无需更改,引用较为方便和稳定;从阅读性而言,内容解释明晰,通俗易懂,便于普通用户理解和讨论。
表4 数据论文影响力评分及排名
6.2.1 数据论文影响力相关性分析
数据论文影响力相关性分析结果如表5所示。从影响力维度而言,数据论文在三维度影响力都显著正相关,各维度影响力和综合影响力也呈现显著的正相关关系。就显著性而言,潜在影响力对数据论文综合影响力的作用最强,其次是学术影响力,社会影响力对综合影响力的作用最弱。
表5 数据论文影响力相关性分析
潜在影响力、学术影响力和社会影响力的相关关系表明,三维影响力之间会互相促进。其中,潜在影响力和学术影响力的相关性最高,为0.841,数据论文潜在影响力较高,从侧面说明数据论文的初始认可程度相对较高,较高的初始认可程度会增大数据论文的引用概率。同时,较高的数据论文引用会产生马太效应,促进数据论文的浏览、下载、收藏等潜在影响行为。潜在影响力和社会影响力的相关性次之,为0.489,说明用户在阅读数据论文后,在一定程度上会对数据论文进行分享、讨论等一系列操作,从而提升数据论文社会影响力;而数据论文社会影响力的提升,会扩大数据论文的传播范围、拓展数据论文的社群影响,从而促进潜在影响力的提升。学术影响力和社会影响力的相关性最弱,为0.318,说明两者之间会相互促进,但非必然。一方面,由于学术影响力和社会影响力的侧重点不同,数据论文的专业性较强、学科界限明显,限制部分用户对数据论文的关注;另一方面,社会交流中的数据论文首先需要被专家学者关注,而后进行科学评判、适用性鉴定、支撑性评估等一系列复杂操作才会进行引用,即通过参考文献的形式提升学术影响力。
三维影响力和综合影响力间的相关关系说明,三维影响力会在不同程度上促进综合影响力的提升。其中,潜在影响力和综合影响力的相关性最高,为0.918,浏览、下载、收藏是数据论文影响力产生的第一环节,也是数据论文应用、交流的基础与前提。在信息爆炸的当下,注意力演变为稀缺资源,潜在影响力的提升必然会在较大程度上扩大数据论文的影响力。学术影响力和综合影响力的相关性次之,为0.847,以应用的不同发展形式形成的学术影响力,从科学性、适用性等方面验证数据论文,通过规范化、系统化的学术交流活动体现数据论文的学术价值,累积和促进了数据论文的综合影响力。社会影响力和综合影响力的相关性最弱,为0.638,说明社会影响力对综合影响力起到补充作用,学术成果的社会交流过程尚不成熟,加之数据论文交流的专业性限制,社会交流活动虽然可以及时、快速地扩大数据论文影响力,但影响程度有限。
6.2.2 数据论文影响力差异性分析
为探索数据论文在三维影响力中的具体表现,根据各维度得分绘制三维散点图,直观反映数据论文影响力,如图5所示。同时,本文采用各维度加权平均值作为数据论文在各维度评分高低的标准,将数据论文划分为“名作数据论文”“专业数据论文”“明星数据论文”和“普通数据论文”。“名作数据论文”共有24篇,符合“二八定律”,“专业数据论文”共有25篇,“明星数据论文”共有15篇,“普通数据论文”共有36篇。
图5 数据论文影响力三维评价
(1)“名作数据论文”,是指同时具备高潜在影响力、学术影响力和社会影响力的数据论文。这种类型的数据论文具有较高知名度,被用户广泛获取,同时其学术价值被业内专家认可,产生学术贡献,在社会交流中也引起广泛关注。该类型数据论文往往是研究领域中的关键论文或前沿内容,从而被众多学者、用户关注和追踪。例如,数据论文“An improved and homogeneous altimeter sea level re‐cord from the ESA Climate Change Initiative”所研究的内容和发表的数据基于欧盟的倡导项目而来,其前沿性和研究性显著。数据论文“Anthropogenic land use estimates for the Holocene-HYDE 3.2”提供的土地利用数据从公元前1万年至公元2015年,万年间土地利用形式的演变会引发用户好奇心,吸引用户关注力,激发社会讨论度。
(2)“专业数据论文”,是指学术影响力较高、潜在影响力或社会影响力相对较低的数据论文。这种类型数据论文的专业性质较强,具有前瞻性,学术界限明显,因此,专业性用语、方法和知识背景限制了部分用户对数据论文的获取,也为数据论文的大范围传播筑起了屏障。例如,数据论文“The Global Streamflow Indices and Metadata Archive(GSIM)-Part 2:Quality control,time-series indices and homo‐geneity assessment”研究三万流域站点的每日流量、面积、气候等数据,数据专业翔实,但篇幅过长、时间成本较高,不便于普通用户阅读和分享。数据论文“Generation and analysis of a new global burned area product based on MODIS 250 m reflectance bands and thermal anomalies”依据欧洲航天局的专业项目,详细研究和提供了全球燃烧区数据,用语精炼、专业性较强,学术价值较高的同时学术界限也较为明显。
(3)“明星数据论文”,是指社会影响力较高、潜在影响力或学术影响力相对较低的数据论文。这种类型的数据论文出版之后,会快速地在社交平台引发讨论和评价,产生较高的关注度。其通常具有普适性、应用性或贴合社会热点,从而引起广大用户的兴趣。例如,数据论文“A new bed elevation model for the Weddell Sea sector of the West Antarctic Ice Sheet”和“Copepod species abundance from the Southern Ocean and other regions(1980-2005)-a lega‐cy”都是基于南极地区的观测数据,前者针对南极冰川变化,后者针对南极浮游动物群。南极地区作为较为神秘和重要的原始大陆,社会关注度和好奇度较强,数据论文贴合用户兴趣点,极易引起反响。
(4)“普通数据论文”,是指潜在影响力、学术影响力和社会影响力都相对较低的数据论文。作为发展和应用尚不成熟并且阅读分析时间成本较高的数据论文,如果不具备较强的适用性、数据的难以替代性、方法的新颖性等,那么就较难吸引研究人员或普通用户的注意。因此,伴随时间的推移,新数据论文的发布,这种类型数据论文可能并未进入公众视野。例如,数据论文“Hydrometeorological data from Baker Creek Research Watershed,Northwest Territories,Canada”是对加拿大极北偏远地区水文数据的研究,研究对象受关注程度低,适用性也较差。
6.2.3 多学科数据论文影响力分析
为了进一步分析数据论文的实际应用特征,本文依据数据论文的学科属性,按照数据论文影响力高低,将不同学科的数据论文分为“名作数据论文”“专业数据论文”“明星数据论文”和“普通数据论文”四类,如表6所示。本文选取的Earth System Science Data数据期刊为地理领域期刊,从一级学科进行划分,主要分为地理学、环境科学、气象学和海洋学。
表6 多学科数据论文影响力分析
地理学出版的数据论文数量最多,既与本文选取的数据论文期刊为地理领域相关,也与地理学自身数据论文的发展相关。地理学在数据论文从提交、审核、出版,到数据仓储,具有连贯而严格的学术系统,在数据论文的需求、获取和引用上也具有成熟的操作规则和获取系统。地理学虽然具有较多的“普通数据论文”,但其余三类数据论文的数量明显多于“普通数据论文”,说明地理学出版的数据论文整体上质量较高,既具有较高的学术研究和使用价值,又具有广泛的社会传播和交流价值。环境科学出版的数据论文数量其次,这与全球十分关心和注重生态环境的现象较符合。相关数据论文主要集中于“名作数据论文”,一方面说明学术界十分关注且广泛探索和研究生态环境相关的内容,另一方面说明环境科学出版的数据论文在质量上具有较高的完整性、科学性、严谨性和真实性,在内容上具有较强的适用性和支撑性,重现要求低而重现价值高。气象学和海洋学出版的数据论文主要集中于“普通数据论文”,出现在“专业数据论文”和“明星数据论文”的研究对象多与南极和北极相关,一方面说明极地地区研究数据具有较高价值和较强吸引力,另一方面也可能与气象和海洋相关数据在国家官方网站发布较多、可替代性较强有关。
本文通过对可用数据论文的选择、数据论文影响力的比较分析,可以发现,从整体而言,数据论文的获取、应用和交流程度较低,整体影响力较小。从内部而言,数据论文的影响力存在维度偏差,“名作数据论文”的数量较少,潜在影响力和学术影响力相对较高,社会影响力相对较弱。因此,数据论文影响力的发展需要综合整体的提高和内部的优化。
在整体提升上,数据论文评审机制是保证数据质量的首要途径,引用机制是促成数据论文应用的关键手段,激励机制是拓展数据论文多样交流的外生驱动。三种机制的配套结合,有利于充分挖掘数据论文的价值,提升数据论文的影响力;在内部优化上,数据论文需要增强创新性以提升用户的感知水平,发展多模态使用方式促进用户应用,构建清晰的语言逻辑强化用户交流,注重应用时效性延长论文“保鲜期”。通过内外部的融合促进,激发数据论文出版、促进数据论文使用,创建全新数据驱动科研的新模式。