中国科学数据研究论文的文献计量学分析

2014-12-31 19:15曾小红
热带农业科学 2014年11期
关键词:词频论文期刊

曾小红

摘 要 以1995~2013年间CNKI中国期刊全文数据库中收录的科学数据研究方面的论文为样本,分别从作者、期刊分布、研究机构、关键词等角度进行定量分析,揭示中国在科学数据领域的研究现状、热点及未来趋势,为科学数据研究提供参考。

关键词 科学数据 ;文献计量 ;研究 ;发展

分类号 G353.1

作为21世纪科学技术发展的基础,科学数据以其最基本、影响面最宽奠定了国家科技发展的重要基石,其不仅能满足科技创新、社会发展、经济增长和国家安全等多种需求,且能见证国家科技历史的发展,是人类社会发展的重要组成部分[1]。自中国开展科技基础条件平台建设以来,围绕科学数据的共建共享已开展了多方面的研究,本文拟从近年来发表的有关科学数据研究的论文为切入点,定量分析中国科学数据的研究现状。

1 材料与方法

1.1 文献收集

以中国知识资源总库(中国知网CNKI)为数据源,跨库选择数据库为中国学术期刊网络出版总库、特色期刊、中国博士学位论文全文数据库、中国优秀硕士学位论文全文数据库、中国优秀硕士学位论文全文数据库、2013增刊、中国重要会议论文全文数据库、国际会议论文全文数据库和中国学术辑刊全文数据库。

检索方式为高级检索,检索词为“科学数据”,检索入口为“篇名”、“主题”和“关键词”,匹配模式为“精确”,检索时间为1979年1月1日至2014年4月16日。检索出570条文献信息,通过手工排除不相关的文献,最后获得有效文献466篇,在此基础上对相关信息进行计量统计分析,以期对中国科学数据的研究现状进行一个简要分析。

1.2 文献信息提取和处理

提取和记录每一篇文献的题录信息,包括文献来源、发表时间、第一作者、通讯作者、作者单位、期刊类别和关键词。采用Excel对上述各项信息进行分析处理,统计每一项信息中各个类别出现的频次和概率,通过数量的对比,获得科学数据研究领域文献的年代分布、文献分布的主要期刊、主要研究人员和主要研究机构。

2 数据结果分析

2.1 论文总量分布

由图1可见,中国科学数据研究的第一篇研究论文发表于1995年,是西安交通大学陈铁发表的有关科学数据显示分析的科学数据图显分析软件Tecplot[2]。此后直到2002年研究论文才达到6篇,2003年开始才有了显著增长,达到27篇,此后科学数据的研究论文都在呈上升状态,2011、2012年有所减少,分别为26篇,31篇,2013年又上升为50篇。从发表论文累积量看,论文的增长趋势尤为明显。

通过对此期间论文发表情况比较,从1995年发表在《软件世界》上的有关科学数据分析的软件开始,科学数据的研究开展逐步拉开。1996年,李军发表了一篇真正意义上的科学数据研究,即《地理学报》上刊登的《地球科学数据研究的初步探讨》[3]。随着2002年科技部联合有关部门启动了中国科技基础条件平台建设试点工作,中国科学数据研究才开始正式启动[4],此后有关科技基础条件平台建设中的资源建设、共享、元数据、平台建设、数据挖掘等有关的理论、实践和技术应用和服务等全方位开展。

2.2 来源期刊分布

从来源期刊分布(表1)情况看,共涉及期刊253种期刊,从载文量在5篇以上的期刊列表中可以看出,中国基础科学载文量对多,为27篇,占总发文量的5.79%;其次是图书情报工作,载文量为14篇,占3.00%。在载文量在5篇以上的17种期刊中,自然科学、图书情报、工业技术类期刊都有,说明中国科学数据的研究从自然科学中的数据来源、数据分析,及数据建设的载体都有全方位的开展研究。

按照科学数据研究发文期刊所属学科领域对期刊进行整理归类,发现科学数据研究论文主要发表在“自然科学”类期刊,其次是“图书情报”、“工业技术”、“科技信息”、“社会科学”、“农业科学”和“医药卫生”类期刊,其中“高校论文”、“会议论文”也都有涉及科学数据的研究,说明中国科学数据研究主要集中在自然科学中有关科学数据的集成、整合及其应用。

2.3 主要研究机构分析

通过对样本数据中作者的所属机构进行统计,其中把具有不同机构名称的同一机构合并,如中国科学院国家图书馆、中国科学院国家图书馆武汉分馆、中国科学院国家图书馆兰州分馆;吉林大学管理学院、吉林大学物理系、吉林大学信息管理系;中国地震局地震预测研究所、中国地震局地质研究所、中国地震局第二监测中心等,合并后统计共有235个研究机构。表3为1995~2013年间国内科学数据研究发文量10篇以上的研究机构,其中中国科学院地理科学与资源研究所发文量最多,为32篇,占总发文量的5.30%。在发文最多的11个研究机构中,除了武汉大学外,其余都是科研机构。说明在中国科学数据共享建设发展中,目前主要是科研机构在进行科学数据的共建,并对相关的如科学数据共享平台建设、标准规范等进行研究。

2.4 高产作者分析

通过对样本数据中作者的统计,共出现741位作者。其中有540位发表1篇论文,105位发表2篇论文,42位发表3篇论文,16人发表4篇,15人发表5篇;发表6篇及以上的作者有23位(见表4)。

其中中国科学院计算机网络信息中心的阎保平发文12篇,其研究的主要方向为大规模科学数据共享技术、数据网格、数据库技术、信息发布技术等;中国科学院寒区旱区环境与工程研究所的王亮绪发文11篇,其研究方向为科学数据共享研究;中国人民解放军总医院的尹岭发文11篇,其研究方向为:医学科学数据共;中国科学院寒区旱区环境与工程研究所南卓铜发文10篇,其研究方向为科学数据共享和寒区环境建模、空间决策支持系统;中国科学院寒区旱区环境与工程研究所吴立宗发文10篇,其研究方向为数据共享和冰川变化研究。

2.5 高频词分析

通过关键词词频统计分析,在466篇科学数据研究论文中共出现1 103个关键词,均关键词约为2.37个/篇。其中词频为1的关键词有834个,占75.61%;词频为2的关键词有135个,占12.24%;词频为3的关键词有51个,占4.62%;词频4~10的有60个,占5.44%;词频在10(含)以上的有21个,占1.90%。从表5可以看出,“科学数据”作为词频最高的关键词,远远高于排位第二、第三的“数据共享”、“科学数据共享”,共出现了154次。在词频出现10次以上的关键词中,“科学数据”、“数据共享”、“科学数据共享”、“元数据”、“共享”是出现最多的前五个关键词。从中可以看出,在科学数据研究中,对科学数据本身的研究是最多的,其次是研究如何使科学数据共享,如何达到共享。

3 结语

对中国科学数据研究方面论文的定量分析,研究发现,中国科学数据研究只要以科研单位为主要研究机构;关键词分析表明,科学数据研究主要集中在科学数据本身的研究,及科学数据共享、元数据等方面。结合中国自2002年开始启动国家科技基础条件平台建设至今,中国的科学数据共享建设已进入第二个阶段。在前期主要进行科学数据的资源建设,即数据库建设,此时以科学数据载体为主要研究内容,包括元数据、数据库、数据管理、数据中心、数据资源等关键词主要出现在此期间的研究文献中;第二阶段,一方面除了继续进行数据资源的建设,加大了数据服务的力度,即以如何开展科学数据的共享为主,此后多出现数据共享、共享平台、共享服务及数据挖掘等关键词。

从科学数据的研究趋势,结合国家科技基础条件平台建设的发展进程,中国在科学数据研究上,将进一步开展如何更好的进行科学数据共享服务,以及如何深度挖掘科学数据,有针对性的结合数据的需求开展各种专题服务,使科学数据共享服务有的放矢。此外,由于长期以来中国科研体制状况,大量科学数据还集中在科研人员手中,如何使国家投入巨额科研经费取得的科学数据能够真正的用之于民,使科学数据共建共享能够得到规范化、制度化,这将是今后建设的重点。

参考文献

[1] 徐冠华. 实施科学数据共享 增强国家科技竞争力[J].中国基础科学,2003(1):5-9.

[2] 陈 铁. 科学数据图显分析软件Tecplot[J]. 软件世界,1995(6):28.

[3] 李 军. 地球科学数据研究的初步探讨[J].地理学报,1996(S1):16.

[4] 国家科技基础条件平台建设简介[o/l]. http://www.nstic.gov.cn/navigation/set.jsp.2014-8-2

猜你喜欢
词频论文期刊
期刊更名启事
期刊简介
基于词频分析法的社区公园归属感营建要素研究
期刊问答
词频,一部隐秘的历史
下期论文摘要预登
下期论文摘要预登
下期论文摘要预登
云存储中支持词频和用户喜好的密文模糊检索
2013年5—12月最佳论文