关键词词频变化视角下我国“科学数据”领域研究主题演化分析

2018-01-10 07:09王德庄马海群
现代情报 2018年1期
关键词:共词词频领域

姜 鑫 王德庄 马海群

(1.黑龙江大学信息资源管理研究中心,黑龙江 哈尔滨 150080;2.黑龙江大学图书馆,黑龙江 哈尔滨 150080)

·管理论坛·

词频变化视角下我国“科学数据”领域研究主题演化分析

姜 鑫1王德庄2马海群1

(1.黑龙江大学信息资源管理研究中心,黑龙江 哈尔滨 150080;2.黑龙江大学图书馆,黑龙江 哈尔滨 150080)

本文利用CNKI数据库通过词频分析法结合共词分析法对2005-2016年我国“科学数据”领域的研究主题进行演化分析。选取2005-2016年“科学数据”领域发表于北大中文核心期刊和CSSCI来源期刊的547篇期刊论文作为数据来源,通过对数似然值结合相对变化率判断关键词词频的相对增长、平稳和下降趋势,识别不同研究时段“科学数据”领域的核心词、突变词和新生词,并结合共词分析法揭示“科学数据”领域相关文献研究主题的动态演化趋势。研究结果表明:2005-2016年我国“科学数据”领域的相关研究从以技术层面的研究主题为主逐渐过渡到管理层面、服务层面和政策层面的研究主题,图书情报领域已逐渐成为我国“科学数据”相关研究的主要学科领域。

科学数据(Scientific Data),也称科研数据(Research Data),与科学论文一样也被视为重要的科研产出,也是一种具有潜在经济价值的战略资源。开放科学数据对数据驱动科学研究起到了关键作用,越来越多的研究是建立在对已有科学数据重用的基础之上的。因此,完整保存并开放获取先前研究的科学数据,对于顺利开展后续研究、推动科学进步具有重要意义。通过开放科学数据改善社会生活受到众多投资者、出版商、科学家和其他利益相关者的高度关注,欧洲、美国以及众多国际组织与研究机构都积极建立开放科学数据的政策保障与管理机制,如美国已经形成了以“完全与开放”为基本国策的科学数据开放共享法规体系。我国也已出台开放科学数据的相关管理规定,如早在2002年就已正式启动了科学数据共享工程,并先后在六大领域共计24个部门开展了科学数据共享工作。伴随着科学数据的开放与共享、组织与分类、监管与服务、出版与引用等相关领域的实践进展,科学数据领域的各相关研究主题已经引起了国内外图书情报、信息科学和其他学科领域的研究关注。司莉等(2014)利用CNKI数据库通过共词分析法和因子分析法确定了2003-2013年我国“科学数据”领域的8个研究主题[1]。谢智敏等(2015)利用CSSCI数据库对我国“科学数据”领域的研究文献从发文年代、发文作者、发文机构、载文期刊等进行了文献计量分析[2]。周志峰(2016)利用CNKI数据库通过共词分析法、聚类分析法和多维尺度分析法确定了近十五年来我国大陆“科学数据”研究的7个主题领域[3]。王曰芬等(2016)利用Web of Science数据库对国外的科学数据研究通过CiteSpace软件进行了基于关键词的主题演化分析[4]。本研究利用CNKI数据库通过词频分析法结合共词分析法对2005-2016年我国“科学数据”领域的研究主题进行演化分析。

1 数据来源与研究方法

1.1 数据来源

由于发表于北大中文核心期刊和CSSCI来源期刊的期刊论文具有较高的学术认可度,从而能够较好地反映出相关研究领域的研究动态和发展趋势,因此本文选择发表于核心期刊和CSSCI来源期刊的期刊论文作为数据来源,动态展现近十二年来我国“科学数据”领域研究主题的演化历程。在《中国期刊全文数据库(CNKI)》中选择“主题词”进行精确检索,检索词为:“科学数据”或者“科研数据”或者“研究数据”;检索数据库为“中国学术期刊网络出版总库”;来源类别为:“核心期刊”或者“CSSCI”;检索时间为:2017年8月10日。2002年,我国科技部正式启动了“国家科学数据共享工程”,国内学者由此开启针对“科学数据”领域的相关研究,最初关注的是美国政府早在20世纪90年代初期实施的“完全、开放、无偿”科学数据共享国策,如国内相关研究的早期代表文献是孙枢等(2002)的《美国科学数据共享政策考察报告》。由于2002-2004年的相关文献数量非常少,2005年之后的相关文献数量逐渐增加,因此本研究将检索时间设定为2005-2016年。删除通知、简讯、评论等不相关的非学术文献,同时删除不包括作者关键词的学术文献,共计得到547篇发表于核心期刊或CSSCI来源期刊的“科学数据”领域相关文献。图1展示了2005-2016年“科学数据”领域相关文献发文量的时间序列图。由图1可见,2011年以前各年的发文量均比较少,2012年以后各年的发文量呈现出高速增长的趋势,表明从2012年开始“科学数据”相关研究引起了更多学者的关注。

图1 2005-2016年我国“科学数据”领域研究文献的发文量

1.2 研究方法

学科领域的研究主题演化分析是指以关键词或主题词为表征的研究主题在时间维度上的发展变化过程,与研究主题的空间变化相比,时间演化体现的是研究主题的新陈代谢过程,体现了某一学科领域的发展态势和未来走向,也是研究学科领域发展规律的重要内容[5]。目前对学科领域的研究主题进行演化分析的文献计量方法主要有词频分析法、共引分析法和共词分析法。词频分析法是利用能够揭示或表达文献核心内容的关键词或主题词在某一学科领域的研究文献中出现的词频高低,来确定该学科领域的研究热点和发展动向的文献计量方法[6]。在以往应用词频分析法对学科领域的研究主题进行演化分析的研究中,主要是通过关键词在各时段的词频变化来判断相应研究主题的演化趋势。由于利用关键词的绝对词频有时无法准确、客观地反映出词频的变化趋势,近年来也出现了少量对传统的词频分析法进行改进的研究文献。

钱峰(2008)提出通过对成对的中英文关键词词频进行二次卡方检验,来判断该学科领域国内外研究热点是否存在显著差异并发现其具体差异[7]。仓宏宇等(2009)提出通过计算关键词词频的Z分数来对词频进行标准化处理,并将Z分数>0的关键词作为高频关键词来对比该学科领域国内外研究热点的差异[8]。周鑫等(2016)提出通过移动平均法对相对词频进行修匀得到移动平均值,将相邻两年之间移动平均值的相对变化率逐年累加得到词频变化率Z值,通过对词频变化率Z值设定阈值将关键词分为3种类型:增长型、平稳型和下降型[9]。但上述改进方法对于类似于本研究的小样本数据均不太适用。由于小样本数据的关键词词频较低且波动较大,通过计算词频的Z分数和移动平均值反映变化趋势并不适合,过低的关键词词频也很可能不满足卡方检验的条件(如要求20%以上的词频的期望频数不小于5)。

2 数据处理与结果分析

2.1 数据处理

本研究首先对作者关键词通过人工甄别进行规范化处理:去除揭示论文内容专指性不强、含义过于宽泛的关键词,如“美国”、“英国”、“国外”、“数据”、“对策”等;合并同义、近义关键词,如“科学数据”、“科研数据”与“研究数据”合并为“科学数据”,“数据监管”、“数据监护”、“数据管护”、“数据策展”、“数据策管”与“Data Curation”合并为“数据监管”。在上述2005-2016年我国“科学数据”领域547篇相关文献中共计出现了813个关键词,关键词出现的总累计频次为2 384次,平均出现频次约为2.93次。本研究划分为3个时段:2005-2008年、2009-2012年和2013-2016年进行分析,通过对数似然值确定不同时段内关键词词频是否具有显著差异,并将对数似然值与相对变化率相结合来识别核心词、突变词和新生词,进而判断“科学数据”领域相关文献研究主题的动态演化趋势。

借鉴冯佳(2015)和刘敏娟等(2016)关于核心词、新生词和突变词的定义,核心词是在某一时段词频排序靠前的高频关键词,对揭示学科领域的核心主题具有重要作用。通过比较不同时段核心词的变化情况,可以发现学科领域核心主题的演化趋势。新生词是在后一时段新出现且词频不断增加的中、高频关键词,其在某一时段进入中、高频区域并在出现后稳定存在,对揭示学科领域的新兴主题具有重要作用。通过监测新生词的变化趋势,可以发现学科领域内潜在的新兴主题。突变词是指在不同时段内词频发生显著变化,呈现突然上升或下降趋势的中、高频关键词。通过追踪突变词在不同时段内的变化情况,可以发现学科领域一般主题的演变趋势[11-12]。

表1 2005-2008年、2009-2012年关键词词频变化情况

表2 2009-2012年、2013-2016年关键词词频变化情况

表2(续)

2.2 结果分析

由于共词分析法结合知识图谱技术已成为研究主题演化分析的重要手段,本研究按照上述3个时段分别绘制共词网络图谱以揭示研究主题的演化趋势。共词分析法是以文献的关键词或主题词作为分析对象,能够反映出关键词或主题词在同一篇文献中的共现关系,可以从更微观的角度去揭示学科领域研究主题的演化规律。分别针对上述3个时段构建关键词的共词网络,然后通过绘图软件工具NetDraw直接展现关键词之间的共现关系(见图2、图3和图4)。图中节点大小与关键词的点度中心性成正比,并用▲表示其词频呈现相对增长趋势的关键词,用■表示其词频呈现相对平稳趋势的关键词,用▼表示其词频呈现相对下降趋势的关键词。图2和图3中关键词词频的变化趋势是相对下一时段而言的,但图4中关键词词频的变化趋势是相对上一时段而言的。

图2 2005-2008年关键词共词网络图谱(词频≥2)

2005-2008年我国“科学数据”研究的相关文献数量非常有限(81篇),其研究主题主要涉及专业领域内科学数据的分类、组织与管理,科学数据共享系统或平台的设计、实现与访问等,表明在我国科技部于2002年启动“国家科学数据共享工程”之后许多学科领域都已展开了“科学数据”领域的相关研究。这一时段图书情报领域关于“科学数据”的相关研究还非常少,主要涉及科学数据的公共获取与知识产权问题、专业图书馆如何参与科学数据共享等研究主题。这一时段我国“科学数据”领域的相关研究以技术层面的研究主题为主,部分表征技术层面研究主题的关键词词频在下一时段呈现出相对下降趋势,如“地球科学”、“地震科学”、“林业科学”、“系统设计”、“Web Services”、“数据机构”和“网格服务”等;但大部分表征技术层面研究主题的关键词词频在下一时段呈现出相对平稳趋势,如“农业科学”、“水利科学”、“数据汇交”、“XML”、“网格”、“元数据”、“数据集”、“数据产品”、“数据库”、“数据中心”和“数据共享平台”等,这表明技术层面的相关研究主题在下一时段依然受到持续关注。

2009-2012年我国“科学数据”研究的相关文献数量也很有限(102篇),其技术层面的研究主题大多是延续上一时段的研究主题,并且技术层面相关研究主题的文献数量大幅下降,表明其他学科领域对“科学数据”相关主题的研究关注在这一时段逐渐衰退。这一时段图书情报领域关于“科学数据”的相关研究显著增长,主要涉及国外科学数据开放共享政策法规体系,图书馆参与科学数据的组织、管理、监管与服务,科学数据管理服务如何与学科服务、图书馆服务相结合等研究主题。大部分表征技术层面研究主题的关键词词频在下一时段均已呈现相对下降趋势,如“地球科学”、“农业科学”、“水利科学”、“数据汇交”、“数据分类”、“网格”、“元数据”、“数据产品”、“目录服务”、“数据中心”和“数据共享平台”等,这表明技术层面的相关研究主题在下一时段受到的研究关注迅速衰退。大部分表征管理层面、服务层面研究主题的关键词词频在下一时段则呈现出相对平稳、增长趋势,如“数据管理”、“数据服务”、“数据监管”、“数据整合”、“数据生命周期”、“学科服务”、“图书馆服务”等,这表明管理层面、服务层面的相关研究主题在下一时段受到了更广泛的研究关注。

图3 2009-2012年关键词共词网络图谱(词频≥2)

图4 2013-2016年关键词共词网络图谱(词频≥4)

2013-2016年我国“科学数据”研究的相关文献数量与上一时段相比有大幅增长(364篇),其中图书情报领域关于“科学数据”研究的文献数量增长极为显著,已经发展成为我国“科学数据”相关研究的主要学科领域,其他学科领域的研究文献数量在这一时段已经非常少了,并且管理学、新闻传播学等其他社会科学领域的相关研究主题与图书情报领域相比差别不大。这一时段出现了大量管理层面、服务层面和政策层面的新兴研究主题,表征这些研究主题的关键词词频与上一时段相比大多呈现出相对平稳、增长趋势,如“数据仓储”、“机构知识库”、“数据知识库”、“数据期刊”、“数据出版”、“数据引用”、“DOI”、“数据政策”、“数据权益”、“数据管理政策”、“数据共享政策”、“数据管理服务”、“嵌入式服务”和“数据素养教育”等。这一时段的新兴研究主题在整体上呈现出不断深化、日渐丰富的发展特点。这一时段出现的表征技术层面研究主题的关键词大幅减少,其词频与上一时段相比大多呈现出相对平稳、下降趋势,如“地球科学”、“数据保存”、“数据集成”、“数据组织”、“数据发现”、“数据中心”、“本体”、“元数据”、“元数据标准”、“数据中心”和“数据共享平台”等。

3 结 论

本研究提出判断关键词词频的相对变化趋势的一种方法:通过对数似然值结合相对变化率判断关键词词频的相对增长、平稳和下降趋势,该方法在时间跨度较短、样本数据较少的情况下也同样适用,并可作为识别学科领域的核心词、突变词和新兴词的方法之一。本研究选取2005-2016年“科学数据”领域发表于北大中文核心期刊和CSSCI来源期刊的期刊论文作为数据来源,通过对数似然值结合相对变化率判断关键词词频的相对增长、平稳和下降趋势,识别不同研究时段的“科学数据”领域的核心词、突变词和新生词,并结合共词分析法揭示“科学数据”领域相关文献研究主题的动态演化趋势。2005-2016年我国“科学数据”领域的相关研究从以技术层面的研究主题为主逐渐过渡到管理层面、服务层面和政策层面的研究主题,各相关研究主题已经引起图书情报、信息科学、新闻传播和其他学科领域的研究关注,其中图书情报领域已逐渐成为我国“科学数据”相关研究的主要学科领域。

[1]司莉,李鑫.基于共词分析的我国科学数据领域研究主题探析[J].图书馆,2014,(6):68-72.

[2]谢智敏,郭倩玲,高彦静.基于CSSCI的我国科学数据研究文献计量分析[J].情报探索,2015,(9):33-38.

[3]周志峰.中国大陆科学数据领域研究热点分析——基于知识图谱[J].情报杂志,2016,35(1):81-86.

[4]王曰芬,谢清楠,宋小康.国外数据科学研究的回顾与展望[J].图书情报工作,2016,60(14):5-14.

[5]王春秀,冉美丽.学科主题演化定量分析的理论基础探析[J].现代情报,2008,(6):48-50.

[6]马费成,张勤.国内外知识管理研究热点——基于词频的统计分析[J].情报学报,2006,25(2):163-171.

[7]钱峰.基于卡方检验的国内外知识管理研究热点比较[J].情报杂志,2008,(9):56-58.

[8]仓宏宇,谭宗颖.国内外信息检索研究热点分析——基于Z-Score标准化的词频[J].图书馆建设,2009,(1):93-98.

[9]周鑫,陈媛媛.关键词词频变化视角下学科研究发展趋势分析——以国内情报学研究为例[J].情报杂志,2016,35(5):133-140,112.

[10]马晓雷.被引内容分析——探究领域知识结构的新方法尝试[M].北京:外语教学与研究出版社,2011.

[11]刘敏娟,张学福,颜蕴.基于核心词、突变词与新生词的学科主题演化方法研究[J].情报杂志,2016,35(12):175-180.

[12]冯佳,张云秋.基于新生词与知识图谱的新兴趋势探测研究[J].情报理论与实践,2015,38(11):87-90,138.

ExploringtheEvolutionofScientificDataResearchThemesinChinafromthePerspectiveofKeywordsFrequencyChange

Jiang Xin1Wang Dezhuang2Ma Haiqun1

(1.Research Center of Information Resources Management,Heilongjiang University,Harbin 150080,China;2.Library,Heilongjiang University,Harbin 150080,China)

This paper conducted an empirical study of research themes evolution in the field of Research Data from 2005 to 2016 based on CNKI database through the methods of keyword frequency analysis and co-word analysis.Based on 547 articles in the field of Research Data published from 2005 to 2016,which were embodied by Chinese core journal criterion of PKU or Chinese Social Science Citation Index(CSSCI),this paper determined the relative growth,stable and decline trend of keyword frequencies and identified the core words,burst words and new words during the different research periods by calculating logarithmic likelihood value and relative variation ratio,and finally revealed the dynamic evolution trends of research themes combined with co-word analysis.The research results showed that the relevant research themes in the field of Research Data in China from 2005 to 2016 had transitioned from mainly technical level ones to managerial,service and political level ones,and that the Library and Information Science(LIS)had gradually become the main subject area of relevant domestic research in the field of Research Data.

scientific data;research themes evolution;keyword;frequency analysis;logarithmic likelihood value

科学数据;主题演化;关键词;词频分析法;对数似然值

10.3969/j.issn.1008-0821.2018.01.021

G250.252

A

1008-0821(2018)01-0141-06

2017-10-11

国家社会科学基金项目“科学数据开放政策分析与评估研究”(项目编号16BTQ060);黑龙江省高校基本科研业务费专项资金项目“我国图书情报学科知识结构的动态演化研究基于科学知识图谱视角”(项目编号HDJDY201615);黑龙江大学研究生创新科研项目“基于政策文本分析的科学数据开放共享政策研究”(项目编号YJSCX2017-005HLJU)。

姜鑫(1980-),女,副教授,博士研究生,硕士生导师,研究方向:信息计量与科学评价。王德庄(1978-),男,馆员,硕士,研究方向:科技政策分析与评估。马海群(1964-),男,教授,博士生导师,研究方向:信息政策与法律研究。

郭沫含)

猜你喜欢
共词词频领域
基于词频分析法的社区公园归属感营建要素研究
领域·对峙
基于突变检测与共词分析的深阅读新兴趋势分析
基于共词知识图谱技术的国内VLC可视化研究
基于关键词共词分析的我国亲子关系热点研究
词频,一部隐秘的历史
云存储中支持词频和用户喜好的密文模糊检索
新常态下推动多层次多领域依法治理初探
以关键词词频法透视《大学图书馆学报》学术研究特色
肯定与质疑:“慕课”在基础教育领域的应用