数据共享论文的文献计量分析

2018-11-22 07:28朱艳华胡良霖高瑜蔚于铁强
中国科技资源导刊 2018年5期
关键词:总量论文科学

朱艳华 胡良霖 高瑜蔚 于铁强

(1.中国科学院计算机网络信息中心,北京 100190;2.北京软件和信息服务交易所有限公司,北京 100086)

数据共享已经得到各国政府和国际组织的共识,全面公开地获取数据不仅能使其在应用过程中增值,也是推动科学认识突破的重要条件。因此,及时关注、了解和分析科研人员在数据共享方面的研究,对于指导数据管理和共享活动具有重要的现实意义。本文将对数据共享研究的论文进行文献计量分析,以揭示数据共享研究的现状和发展趋势。数据主要来自中国知网学术文献总库,以“数据共享”为检索词,在文章篇名中进行精确检索,检索时间截至2017年5月8日。选取的文献类型包括期刊、报纸、硕士论文、博士论文、国内会议和国际会议[1]。一共检索得到2067篇论文,每条记录包括题名、作者、来源、发表时间、来源数据库、被引次数、下载次数等基本信息。本文将分别从论文的学科、发表年度、论文类型、文献来源、作者机构、资助基金、研究层次等方面进行统计分析。

1 论文的发文量、类型和来源

最早的一篇论文是《I/O重定向与管道技术及其在实现数据共享方面的应用》,于1986年发表在《交通与计算机》上,介绍了输入/输出重定向和管道技术,是UNIX操作系统和由其演变而来的XENIX操作系统中很有特色的计算机管理技术;发表论文最多的年份是2016年,共213篇。历年的发文量,如图1所示。

图1 论文的年度发文量

从图1可以看到,2002—2004年以及2014—2016年,这两个时间段发文量有明显的增长趋势。首先,科学数据共享工程的启动带来了2002—2004年数据共享论文量快速增长的第一个阶段。2001年年底,科学数据共享工程启动第一个试点——气象科学数据共享试点,然后在资源环境、农业、人口与健康、基础与前沿等领域共24个部门开展了科学数据共享工作[2]。此后3年,与科学数据共享工程相关的数据共享论文数量持续增加。其次,大数据的快速发展与相关政策密集出台带来了2014—2016年快速增长的第二个阶段。2015年8月,国务院印发《促进大数据发展行动纲要》,提出大数据成为推动经济转型发展的新动力、重塑国家竞争优势的新机遇以及提升政府治理能力的新途径[3]。2016年3月,根据两会授权,新华社在线发布了《中华人民共和国国民经济和社会发展第十三个五年规划纲要》,明确提出建设包括大数据应用在内的8项信息化重大工程[4]。随后,国家发展改革委、工业和信息化部、科技部等相继启动大数据发展计划和研究项目。国家发展改革委发布《国家发展改革委办公厅关于组织实施促进大数据发展重大工程的通知》[5]、科技部发布云计算和大数据重点专项2016年度项目申报指南[6]、国家自然科学基金委发布大数据驱动的管理与决策研究重大研究计划2016年度项目指南等[7]。多个省市也按照行动纲要要求公开公布相关科学数据,以上海市、贵州省为代表的部分省市先后规划、部署、实施大数据工作;阿里巴巴、百度、华为等国内产业巨头纷纷布局大数据研究和应用生态链建设。受到国家政策和相关资助项目的鼓励和支持的情况下,研究数据共享的学者们给予数据共享的大数据研究充分的关注和解读。此外,数据共享研究资助基金情况也在一定程度上体现了国家的数据政策导向。

在2067篇论文中,期刊论文1401篇,占论文总量的67.78 %;报纸文章343篇,占论文总量的16.59%;硕士学位论文207篇,占论文总量的10.02%;博士学位论文11篇,占论文总量的0.53%;国内会议89篇,占论文总量的4.31%;国际会议16篇,占论文总量的0.77%。详见图2。

按文献来源的发文量进行排序,排名前10的期刊和报纸分别为:科技日报(24篇,14.29%)、中国气象报(23篇,13.69%)、中国基础科学(23篇,13.69%)、测绘与空间地理信息(19篇,11.31%)、贵阳日报(17篇,10.12%)、电脑知识与技术(14篇,8.33%)、地球信息科学学报(14篇,8.33%)、计算机工程(12篇,7.14%)、微计算机信息(11篇,6.55%)、计算机应用与软件(11篇,6.55%)。详见图3。

2 论文的学科、领域与研究热点

图2 论文的类型分布

图3 论文文献来源分布

2067篇数据共享论文中,标引学科与领域的共计1944篇论文。其中,有1465篇属于自然科学研究层次(其中,工程技术、基础与应用基础研究、行业技术指导、专业实用技术、政策研究、标准与质量控制分别是976篇、368篇、68篇、33篇、18篇、2篇),占标引总量的75.36%;454篇属于社会科学研究层次(其中,行业指导、基础研究、政策研究、职业指导分别是207篇、144篇、75篇、28篇),占标引总量的23.35%;25篇属于其他研究层次(其中,大众科普、高等教育、经济信息、大众文化、基础教育与中等职业教育分别有11篇、9篇、3篇、1篇、1篇),占标引总量的1.29%。详见图4。

其中,发表论文最多的前10门学科的分布及文章数量分别是:计算机软件及计算机应用(851篇,50.41%)、自然地理学和测绘学(227篇,13.45%)、互联网技术(152篇,9.00%)、自动化技术(92篇,5.45%)、科学研究管理(69篇,4.08%)、图书情报与数字图书馆(67篇,3.97%)、地球物理学(59篇,3.50%)、地质学(58篇,3.44%)、信息经济与邮政经济(57篇,3.38%)、气象学(56篇,3.32%)。详见图5。

数据共享论文排名前10的关键词分别为:数据共享(624篇,52.35%)、共享(100篇,8.39%)、元数据(97篇,8.14%)、科学数据(86篇,7.21%)、XML(68篇,5.71%)、科学数据共享(53篇,4.45%)、数据库(52篇,4.36%)、WebGIS(38篇,3.19%)、 共 享 平 台(37篇,3.10%)、空间数据(37篇,3.10%)。这些关键词涉及数据共享、元数据标准、科学数据共享、数据共享与建库技术、领域数据共享等内容主题。详见图6。

图4 论文的学科分布

图5 论文所属学科前十名排名

此外,中国知网还对关键词共同出现的情况进行了共现矩阵分析。其中,与“数据共享”同时出现的关键词前10个分别为:元数据(46次)、科学数据(31次)、XML(30次)、数据库(21次)、Web GIS(12次)、数据交换(13次)、GIS(13次)、空间数据(12次)、大数据(11次)、Web Service(10次)。由此可见,研究数据共享的论文主要集中在元数据标准、科学数据共享、数据共享技术、领域数据共享等方面。

3 论文的作者机构

根据论文第一作者所在单位的行业性质划分,发表数据共享论文的作者单位包括高等学校、科研机构、政府管理部门、公司企业等。其中,发表论文最多的10个单位分别为:中国科学院(56篇,25.81%)、武汉大学(43篇,19.81%)、中国农业科学院农业信息研究所(18篇,8.29%)、浙江大学(18篇,8.29%)、解放军信息工程大学(16篇,7.37%)、南京大学(15篇,6.91%)、华中科技大学(14篇,6.45%)、电子科技大学(13篇,5.99%)、中国水利水电科学研究院(12篇,5.54%)、河海大学 (12篇,5.54%)。详见图7。

图6 数据共享论文关键词前十名分布

图7 论文作者机构分布

4 论文资助基金

2067篇论文中共得到341项基金支持。其中,国家部委基金278项,占基金总量的81.52%;地方政府基金43项,占基金总量的12.61%;高校基金10项,占基金总量的2.93%;科研院所基金8项,占基金总量的2.35%;企业基金2项,占基金总量的0.59%。详见图8。

5 结论

本文通过中国知网学术文献总库,检索到1986—2017年数据共享研究领域论文2067篇,对这些论文进行了文献计量分析,得到如下分析结果。

(1)不同文献载体关注数据共享的不同方面。数据共享论文主要发表在学术期刊上,占了论文总量的一半以上;报纸文章也在宣传数据共享政策和共享现状方面发挥了重要作用,发文量位居第二;学位论中的硕士论文和博士论文占论文总量的10.55%。针对数据共享的研究主题,3种文献载体各有侧重。期刊论文关注数据共享学术研究,如数据共享政策/模式、数据共享和管理技术、数据共享标准规范体系、数据共享服务效果评估、数据共享平台建设和服务等。报纸文章则侧重报道和宣传国内外数据共享政策和相关学术活动、科学数据共享平台建设进展和成效等,如(地方)政府数据共享开放(特别是以上海市、贵州省为代表的政府数据共享开放路径可行性探索)、政府数据与智慧城市、科研数据共享平台、商业数据共享等。学位论文的研究重点聚焦在以下几个专题:数据共享平台研究与实现、数据查询与交换技术、异构数据融合与集成、元数据标准与管理、数据共享机制与策略研究等方面。

(2)载文的期刊既有计算机工程、测绘与空间地理信息、中国医药导刊这类专业性期刊,也有中国基础科学、电子科技大学等综合性期刊,内容涉及基础科学、计算机、医学、气象、交通、农业、医学、海洋等学科领域;报纸既有科技日报、人民日报、中国信息报等全国性报纸,也有贵州日报、济南日报、银川日报等地方性报纸,前者主要关注全国的数据共享政策和方针,后者则重点关注当地政府的数据共享进展和现状。

图8 论文支持基金类型分布

(3)数据共享研究与数据政策和资助力度呈现正相关性。2002—2004年以及2014—2016年两个时间段的论文数量增长趋势明显,这是因为国家启动了数据共享项目和颁布了大数据政策,以及多个省市也按照行动纲要要求公开公布了相关科学数据。此外,国家部委基金项目和各级地方政府基金的支持,也是导致论文增长的原因。从论文的资助基金分布来看,在研究数据共享论文的基金项目中,80%是通过国家部委基金项目的支持,其中,国家自然科学基金、国家科技基础条件平台建设计划、国家高技术研究发展计划排在前列。此外,各级地方政府基金也积极支持数据共享的研究,在资助基金中所占比例位居第二。

(4)论文主要集中在自然科学研究领域,将近占论文总量的80%,而社会科学研究也占了一定比例。其中,自然科学领域中占份额最多的是“工程技术”共976篇,占该研究层次的66.62%;社会科学研究中所占份额最多的是“行业指导”共207篇,占该研究层次的45.60%。论文的专业主要集中在计算机软件及计算机应用领域、互联网技术、自动化技术等学科,这些领域重点研究数据共享的技术及其应用。论文涉及的专业还聚焦在地理学和测绘学、地球物理学、地质学、气象学等具体学科领域,这些领域重点关注学科数据共享平台建设、开放服务等研究主题。论文的研究热点包括数据共享模式、元数据标准规范、科学数据共享平台、数据共享技术和领域数据共享等方面。

(5)论文的作者机构既有研究单位、政府部门,也有公司企业,体现了数据共享研究的核心团队。发表论文的机构首位是中国科学院,以下依次是武汉大学、中国农业科学院农业信息研究所、浙江大学、解放军信息工程大学、南京大学、华中科技大学、电子科技大学等,分别发文56篇、43篇、18篇、18篇、16篇、15篇、14篇、13篇等。这些机构的研究人员是国内数据共享研究的核心力量。其中,中国科学院一直高度重视科学数据在科研发现、信息化建设中的创新及应用。20世纪70年代,中国科学院开始建设专业数据库。经过数十年的持续建设,截至“十二五”项目结束,“科技数据资源整合与共享工程”系统地整合了58家单位的科学数据库,可共享数据量达655TB[8]。

(6)当前,缺乏有关数据管理的研究,而这方面的研究将是为有关部门制定数据共享政策和法规提供参考的理论基础,还有待进一步加强。2018年1月23日,中央全面深化改革领导小组第二次会议23日审议通过了《科学数据管理办法》,并强调加强和规范科学数据管理,要适应大数据发展形势,积极推进科学数据资源开发利用和开放共享。该办法的出台和实施,将进一步加强和规范科学数据管理,保障科学数据安全,提高开放共享水平,也将极大地推动我国各领域科学数据之间、科学数据与其他领域数据之间的整合和共享,为科技创新和经济社会发展提供有力支撑,让科研人员和普通公众从获取数据中获益。

猜你喜欢
总量论文科学
“十三五”期间山西省与10省签约粮食总量2230万吨
2020年全国农民工总量比上年减少517万人
点击科学
科学大爆炸
为何化肥淡储总量再度增加
总量控制原则下排污权有效配置的实施
科学拔牙
下期论文摘要预登
下期论文摘要预登
下期论文摘要预登