邢红梅,吕先竞,刘文君,畅 佩,程 路(四川学术成果分析与应用研究中心,西华大学图书馆)
基于DCI的社会学数据影响力分析
邢红梅,吕先竞,刘文君,畅佩,程路
(四川学术成果分析与应用研究中心,西华大学图书馆)
摘要:随着大数据时代的来临,数据的开放和利用情况受到各国政府和研究机构的高度重视,尤其在最近几年,政府数据和科学研究数据不断被公开获取。汤森路透所发布的Data Citation Index(DCI)促进了全球数据开放与共享的发展,客观评价科学数据成为众多学术研究者所关注的问题。本文从DCI数据库筛选出社会学的科学数据,统计这些数据的有效引用频次(M)、二次引用数量(F)和最近引用时间(R),将这些数据的有效引用频次、二次引用数量和最近引用时间进行线性组合,计算这些科学数据的学术影响力。最后,利用社会学研究数据的统计分析结果讨论了该学科领域科学数据的学术价值。
关键词:数据开放;数据引文索引;学术影响力
在大数据时代,数据的数量呈指数增长,成为一种重要的科研产出。科研人员、研究机构、高校图书馆和出版商都认为开放和重用科学数据具有重要的价值。欧洲和美国科学数据基础设施的发展已经取得了显著效果,并开始着手全球范围的数据共享和协作。[1]2010年,潘顿协议启动了“开放数据协议”,要求科学数据供应商必须遵守协议规定,开放其所拥有的科学数据;[2]2010年, NSF声明更改其数据共享政策,要求自2011年7月18日起所有申请NSF资助的项目计划要以两页补充文件形式提交研究项目的数据管理计划。[3]2012年10月,汤森路透所发布了Data Citation Index(DCI),该数据引文数据库受到各国政府和研究机构的高度重视。[4]
Data Citation Index(DCI)是Web of Knowledge平台上一个新的研究资源,是科研工作者和全球高质量数据中心获取数据资源的桥梁。DCI中文献类型分为数据中心(Repository)、数据研究(Data study)和数据集(Data set)。截至2014年5月,DCI收录了70多个数据中心和380多万条记录。Thomson Reuters公司对数据进行了严格的筛选,而且每个星期都会更新DCI数据库,以保证数据的质量。另外,DCI为科研提供支撑,提高了研究工作的成效;DCI重新利用数据,加快科学研究的进程;推动了学术发展,使数据产生增值。[5,6]
本文从DCI数据库筛选出社会学(Sociology)的科学数据,统计这些数据的有效引用频次(M)、二次引用数量(F)和最近引用时间(R),[7,8]将这些数据的有效引用频次、二次引用数量和最近引用时间进行线性组合,计算这些科学数据的学术影响力。
社会学是现代社会科学中从某种角度,对社会、人及他们之间的关系进行综合分析的学科,[9]其主要是对社会关系、社会结构和社会环境等方面的研究。本文基于DCI研究社会学是为了揭示该学科领域科学数据的学术价值,推动我国社会学数据的共享和再利用。
截至2014年6月27日,在DCI高级检索界面,输入检索式“SU = Sociology”,检索出1930~2013年共计48260条记录,并通过DCI数据库获取了这些记录的被引频次、二次引用数量、出版年和最近引用年。此外,记录的有效引用频次是利用该数据在Web of Science的核心数据库的被引频次和其他数据库的被引频次进行计算,这些记录的最近引用时间通过它们的最近引用年和出版年来进行计算。[10]
由于社会学在DCI中是一个独立学科,包括的记录很多,我们对从48260条记录集中筛选出被引频次排名前十的记录进行分析。这10条记录的语种都是英语。其中,9条记录的文献类型是Data Study,另1条是Repository。这10条记录涉及的内容包括:一般社会调查(主要包括对工作生活质量、枪支的态度、伤残等级、使用外语、心理健康的态度和经验、参与会众对科学和知识的态度及宗教信仰的发展趋势以及政府角色和工作方向的调查),澳大利亚的家庭、收入和劳工动态调查(主要包括对贫困率和贫困动态、资产配置和收入变化、身体和心理健康的影响、家庭的形成和溶解、主观幸福感的调查),综合的社会调查(主要包括对家庭收入和政府援助的调查),世界价值观调查,澳大利亚老龄化纵向研究(主要包括对长期护理服务、发病率、死亡率的调查研究),英国住户小组调查(主要调查了家庭成员的健康和生活),美国黑人和白人的生活差异调查。
2.1M指标分析
在本文中,M指标是指记录的有效引用频次。数据的有效引用频次反映了数据直接被引频率。数据的有效引用频次越大,学术影响力就越大。[11,12]M指标是将数据在Web of Science的核心数据库的被引频次(M1)和在Web of Science的其他数据库的被引频次(M2)进行线性组合而获取的。根据M1、M2对数据的M指标的贡献程度,暂时赋予:M1的权重为0.7,M2的权重为0.3。数据的M指标计算公式:M指标= 0.7 * M1 + 0.3 * M2。
在表1中,可以发现“General Social Surveys, 1972-2006[Cumulative File]”记录的引用文献有444个是被Web of Science的核心数据库收录的,其M指标是最大的,为330.6,从M指标的角度分析这条记录的学术影响力是最大的。“British Household Panel Survey: Waves 1-17, 1991-2008”和“British Household Panel Survey, Waves 1-17, 1991-2008: Secure Data Access, National Grid Reference(Easting, Northing, OSGRDIND)”记录的M指标都为74.7,这2个记录的学术影响力是相同的,是10条记录中学术影响力最小的。
表1 10条记录的M指标
2.2F指标分析
在本文中,F指标是指数据的二次引用数量。数据的F指标反映了数据的间接被引频率。数据F指标越大,数据的学术影响力就越大。
在表2中,可以发现“General Social Surveys, 1972-2006[Cumulative File]”记录的F指标是最大的,为26635,从F指标的角度分析这条记录的学术影响力是最大的。“The Australian Longitudinal Study of Ageing: Wave 6 Clinical Data, 2001”和“The Australian Longitudinal Studyof Ageing:Wave1,1992”记录的F指标是相同的,是最小的,都为1175,这两条记录的学术影响力基本上都是相同的。
2.3R指标分析
在本文中,R指标是指数据的最近被引用时间。R指标的计算公式:R指标=数据的最近引用年-数据的出版年。
在公式中,数据的最近引用年是指距离数据出版年最近的引用文献的时间。从DCI数据库中,可以发现一些数据的引用时间要早于它们的出版时间,根据R指标计算公式这些数据的R指标值都是负数。当数据的R指标大于零时,R指标值越小,这条数据的学术影响力就越大;当数据的R指标小于0时,R指标值越大,即R指标绝对值越小,这条数据的学术影响力就越大。
在表3中,可以发现“General Social Surveys, 1972-2006[Cumulative File]”和“Americans' Changing Lives: Waves I, II, III, and IV, 1986, 1989, 1994, and 2002”记录的R指标绝对值是最小的,为0,从R指标的角度分析这条记录的学术影响力是最大的。“Household,Income and Labour Dynamics in Anstralia (HILDA)Survey”、“General Social Survey CumulativeFile, 1972-1986”和“World Values Survey, 1981-1984 and 1990-1993”记录的R指标是负值,其绝对值都比较大,其学术影响力比较小。
表2 10条记录的F指标
表3 10条记录的R指标
2.4数据学术影响力分析
数据的学术影响力是将M指标、F指标、R指标及各指标对应的权重进行线性组合而获取的。此外,本文将每个评价指标进行标准化处理,即用每个指标的实际值比该指标绝对值的最大值,将这个比值作为该指标的标准值。[13,14]
根据各指标对学术影响力的贡献程度,暂时赋予:M指标的权重为0.7,F指标的权重是0.2,R指标的权重是0.1。数据的学术影响力的线性组合计算公式[15,16]:数据的学术影响力= 0.7 * M + 0.2 * F - 0.1 *│R│。
表4 10条记录的学术影响力计算结果
在表4中,可以发现“General Social Surveys, 1972-2006[Cumulative File](一般社会调查,1972-2006,累积文件)”记录的学术影响力是最大的,为0.9000。这条记录的学术价值最大。“The Australian Longitudinal Study of Ageing:Wave 6 Clinical Data,2001 (2001年澳大利亚老龄化纵向研究,波6临床数据)”和“The Australian Longitudinal Study of Ageing: Wave 1, 1992(1992年澳大利亚老龄化纵向研究,波1)”记录的学术影响力计算结果是最小的,为0.1533。这两条记录的学术影响力基本上都是相同的,是这10条记录中学术价值最小的。
(1)从数据的引用频次看,社会学影响力比较大的数据涉及:一般社会调查、澳大利亚的家庭收入和劳工动态调查、综合社会调查、世界价值观调查、澳大利亚老龄化纵向研究、英国住户小组调查、美国黑人和白人的生活差异调查。其中,对工作生活质量、枪支的态度、伤残等级、心理健康的态度和经验、参与会众、对科学知识的态度、宗教的发展趋势、政府的角色和工作方向的研究数据受到科研人员的极大关注。这些数据的引用频率最大,同时它们的学术价值最高。
(2)从数据的二次引用数量看,数据的二次引用次数远大于引用频次,但是二次引用量包含了大量的自引频次。这说明了数据的引用频率远小于期刊论文、会议论文等文献的引用频率,而且数据跨学科的引用频率较低。
(3)从数据的学术影响力看,对数据的学术影响力起主导作用的是核心数据库的引用频次。此外,最近引用时间也在一定程度上影响了数据的影响力,数据的出版年和最近引用年应该受到更多的关注。
(4)从10条数据的共同点可以看出,在社会学学科领域,文献类型为Data Study的数据引用频次较多。此外,这些数据语种均是“English”,语种为英文数据的学术影响力较高,开放程度也较高。
[参考文献]
[1]黄永文,等.国外开放科学数据研究综述[J].现代图书情报技术,2013(5):21-27.
[2]张晓林.开放获取、开放知识、开放创新推动开放知识服务——3O会聚与研究图书馆范式再转变[J].现代图书情报技术,2013(2):1-10.
[3]李慧佳,等.国内外科学数据的组织与管理研究进展[J].图书情报工作,2013(23):130-136.
[4]黄如花,邱春艳.国外科学数据共享研究综述[J].情报资料工作,2013(4):24-30.
[5]Thomson Reuters..Data Citation Index数据库介绍——揭示尘封的宝藏[EB/OL].[2015-03-02].https: //thomsonreuters.webex.com.cn/mw0307l/mywebex/default.do?nomenu=true&siteurl=thomsonreuters&service=6&rnd =0.7428476558776997&main_url.
[6]Torres-Salinas D,etal.Analysisof the coverage ofthe Data Citation Index Thomson Reuters:disciplines,documenttypesandrepositories[J].Revista Espanola de Documentacion Cientifica,2014,37(1):e036.
[7]张海营.基于RFM模型的图书馆图书评价系统研究[J].图书馆,2012(3):60-62.
[8]朱艳华,等.基于被引频次统计的基础科学数据库影响力分析[J].科研信息化技术与应用,2013(4):12-18.
[9]白国应.关于社会学文献分类的研究[J].江苏图书馆学报,2002(6):13-19.
[10]叶继元.《中文图书引文索引·人文社会科学》示范数据库研制过程、意义及其启示[J].大学图书馆学报,2013(1):48-53.
[11]邱均平.文献计量学[M].北京:科学技术文献出版社,1988:225-229.
[12]白云,苏新宁.《现代图书情报技术》载文及引文特征的学术影响力分析——基于CSSCI(2004-2006)[J].现代图书情报技术,2008(4):95-102.
[13]李雁翎,等.五维图书评价体系及分析模型的建构[J].情报科学,2013(8):77-80,140.
[14]苏新宁.中国人文社会科学学术影响力报告[M].北京:高等教育出版社,2011:741-781.
[15]苏新宁.中国人文社会科学图书学术影响力报告[M].北京:高等教育出版社,2007:741-781.
[16]朱强,等.中文核心期刊要目总览(2014年版)[M].北京:北京大学出版社,2015:1-20.
Analysis on Social Science Data Influence Based on DCI
Xing Hong-mei,Lv Xian-jing,Liu Wen-jun,Chang Pei,Cheng Lu
Abstract:With the coming of Big Data era, governments and research institutions have paid great emphasis on openness and utilization of data and governmental as well as scientific data keep being accessed recently.Data Citation Index (DCI) of Thomson Reuters has promoted the development of the global data openness and sharing and objective evaluation of scientific data is a concerned issue for many academic researchers.This article, taking social science data from DCI, calculates the academic influence and value of these data withsome indicators。
Keywords:Data Openness;Data Citation Index; Academic Influence
[收稿日期]2015-03-30[责任编辑]刘丹
[作者简介]邢红梅(1992-),女,西华大学图书馆信息资源管理专业研究生,研究方向:信息分析;吕先竞(1962-),男,情报学教授,西华大学管理学院企业管理硕士研究生导师,西华大学图书馆馆长;刘文君(1986-),男,西华大学图书馆助理馆员,研究方向:数据挖掘、人工智能;畅佩(1989-),女,西华大学图书馆信息资源管理专业研究生,研究方向:信息分析;程路(1989-),男,西华大学图书馆信息资源管理专业研究生,研究方向:信息分析。
[基金项目]本文系西华大学社会科学基金项目“我国社会科学数据引证的影响力研究”(项目编号:y14216007),西华大学研究生创新基金项目“大数据背景下的管理学图书引文分析研究”(项目编号:ycjj2014015)资助项目成果。
中图分类号:G250.252
文献标志码:A
文章编号:1005-8214(2016)02-0043-04