我国数据共享研究热点与前沿可视化分析

2022-03-29 07:46朱良涵张新岭郭玲珑
生产力研究 2022年2期
关键词:发文图谱领域

朱良涵,张新岭,郭玲珑

(南京邮电大学 管理学院,江苏 南京 210003)

人类的生产生活利用信息技术实现了各类事物的交汇融合,促进了海量数据资源的爆发增长[1],引领我们进入了大数据时代。大数据时代,为提高数据资源的利用效率,需要对海量数据进行挖掘和应用,因而必须进行数据共享[2]。随着科学技术的迅猛发展,数据已经渗透到当今每一个工业和商业领域,数据共享逐渐成为人们的共识。

数据共享早在20 世纪80 年代就已经出现在我国学者们的研究文献中,可以将其定义为“共享者发布研究数据为他人所用”。大数据与区块链等新一代的信息技术为海量数据的开放与共享提供了强有力的支持,我国开始逐渐重视数据共享的战略价值,大力促进数据共享工程的发展进程。

我国学者对数据共享的研究取得了丰硕的成果,然而目前学术界却少有针对相关研究进行的梳理和分析。本文意欲借助Citesapce 软件对我国数据共享相关文献进行可视化分析,对其历程、现状和趋势进行系统研究,探索国内数据共享的研究热点和研究趋势,为进一步推动我国数据共享的发展提供参考。

一、研究方法

(一)研究工具

Citespace 是一种文献可视化的知识图谱软件,由陈美超团队基于科学计量学和数据可视化发展研发而出,可以显示科学知识的发展规律与结构关系图形。Citesapce 软件能够探索学科前沿的变化趋势,直观地识别学科发展的演化路径,弥补传统文献综述的不足,目前已被广泛应用。本文拟运用可视化分析CitespaceV5.7.R2 软件绘制数据共享知识图谱。

(二)数据来源

本文主要通过对国内数据共享主题文献的关键词进行词频、聚类、热点以及突现词分析。分析前需要进行原始文献数据的采集工作,将研究样本的数据来源选定为中国知网学术期刊数据库(CNKI),检索的主题词为“数据共享”,文献检索时间段截至2020 年12 月31 日,通过手工筛选,剔除会议、报告和新闻等与数据共享主题无关的文章,最终检索得到1998—2020 年的文献数据共计1 223 篇。

二、数据共享计量分析结果

(一)发文量分析

文献的发文量和发文时间可以反映出该领域不同阶段的研究情况,图1 是根据知网检索的“数据共享”主题1998—2020 年的发文量绘制的折线图。

图1 文献数量年份统计图

以数字共享为主题的文献最早出现于1998 年,20 世纪后相关研究逐步增多。自2011 年以来,围绕数据共享为主题的文献开始以指数形式增加,这与国家的政策导向密切相关——在“十二五”期间,教育部为建成数字化学习资源开放共享服务平台,大力推动学习资源建设、开放与共享。党的十八大以来,我国确定了数据强国的战略建设目标,各领域都在不断加强数据开发利用意识。国家近年来的措施体现了对数据共享的重视,也引发了学界对数据共享更多的关注,由此数据共享发文量在2017—2020年阶段发文量增长速度更快,并于2020 年达到峰值。2017 年党的十九大报告提出全面实施国家大数据战略。2018 年,习近平总书记指出,中国愿意在数据共享方面同世界各国开展合作,共享数字经济发展机遇。此外,党的十九届五中全会指出,“十四五”时期,要坚定不移建设数字中国,探索在各地区、各部门间形成共享共有的机制。共享共有机制的有效实施是数字经济发展的有利工具,能够弥补区域不平衡发展带来的“数字鸿沟”,对我国经济发展必将产生重要影响。

(二)发文机构网络共现分析

对发文机构网络共现分析可以认识推动国内数据共享研究发展的主要力量。本研究运用Citespace软件中的发文机构网络共现功能,对数据共享发文机构来源进行统计,最终得到数据共享领域的主要发文机构共现图(见图2)。

网络图谱中的每一个节点代表一个发文机构,节点的大小表示该机构发文数量的多少,节点间的连线则表示两机构之间存在合作关系。图2 呈现出来的网络图谱共包含685 个节点,747 条连线,网密度为0.003 2,节点分布较为分散,机构间合作强度较弱。其中发文量排名前十的机构如表1 所示。

图2 发文机构合作网络

有研究表明,地理距离阻碍着科研合作关系,地理邻近性越大,越有利于创新主体交流互动,促进研发合作[3]。根据图2 和表1,可以发现在数据共享研究领域内的各大发文机构间存在较为明显的地域间合作,且合作强度较弱,未形成强大凝聚力的科研群体,在合作共赢方面存在较大的发展空间:发文量最多的武汉大学信息管理学院的主要合作机构也仅是武汉大学信息资源研究中心;位于同一地区的中国科学院大学和中国科学院文献情报中心等研究机构存在合作关系;其他的高被引机构位于不同区域,目前尚未形成合作关系,联系强度不够。

(三)作者网络共现分析

学者们在核心期刊的发文数量总数通常在一定程度上代表了该作者在该领域的学术地位[4],通过作者共现图谱可以识别研究领域内的核心作者群体。作者间网络合作知识图谱中共有586 个节点,443 条连线,表明数据共享领域研究有586 名学者发文在2 篇以上,部分核心作者构建了自己的合作群体。

以上数据共享研究作者被引情况具有三大特点:一是构成合作关系的学者大多位于同一机构内,由于组织间的跨区域合作较少,所以跨组织作者间未形成较为固定的合作关系;二是独立研究者较多,发文量位于前列的作者聚焦方向不同,未建立不同视角下数据共享问题的合作关系;三是高产作者的研究方向主要体现在科研数据共享管理和政府数据共享两大方向,反映了数据共享研究紧跟时代热点,体现了较强的政策性导向。

图3 作者合作网络

三、数据共享研究的热点与演进

(一)热点研究内容

1.关键词共现分析。研究热点是某一学术研究领域内学者们关注的焦点,能够表明该领域在某一时期所关注的重点问题[5]。经过对节点大小、位置的调整后绘制出的关键词共现知识图谱如图4 所示:该图谱共有694 个节点和1 178 条连线。图4 中的圆圈大小表示关键词在文章中出现的频次,圆圈越大则表示关键词出现次数越大,圆圈间连线的粗细代表关键词之间的联系紧密程度,连线颜色的深浅代表该研究热点出现的时间。

图4 数据共享研究热点的知识图谱

表2 数据共享排名前10 的高频关键词

数据共享研究领域内“数据共享”“科学数据”“大数据”出现频次高且中心度较强,在数据共享领域内具有较强的控制力,在关键词共现网络中,连接着不同的聚类,起到了重要的桥梁中介作用,同时对关键词网络结构具有较强的影响力,据此展开的研究较多,是数据共享领域研究的热点。

2.关键词聚类分析。聚类分析是根据关键词之间的共现强度,将共享强度较大的关键词聚集在一起形成几大聚类标签。本文采用K 均值聚类,最大聚类个数设定为10 个,将聚类共现矩阵中最大的作为该聚类的主题词,以此来反映该聚类的科研发展方向,呈现出来的聚类图谱显示轮廓系数S=0.8532(S>0.7)表示聚类具有高信度。

图5 关键词聚类网络图谱

我国目前的数据共享研究的发展方向主要集中于政府数据和科学数据共享,具体研究围绕这两大主题展开,如#0 科学数据管理、#3 科学数据、#5数字政府、#8 电子政务等。由于数据隐私问题层出不穷,数据治理问题不容忽视,#4 数据治理与#9 数据隐私也是学者们的研究重点。在大数据、人工智能快速发展背景下,政府治理改革趋向于政府数据治理改革,实施政府数据治理改革,推动数据治理革新,有助于政府数据治理绩效提升[6]。

(二)研究前沿分析

1.基于突现词可视化的研究趋势分析。突现词是指在短时间内出现频率较高的词,结合关键词突现图谱研究各主题的演进情况,经过整理得到1998—2020 年数据共享研究关键词突现图谱,我国数据共享领域研究的关键词突增始于2000 年,关键性主题词的突现情况各不相同。

根据突现词的突显强度研究发现,“大数据”的(Strength=10.89)突现强度非常高,发现在大数据这一时代背景下,政府显著提高了对数据共享的关注度,并且陆续出台了相关政策引导政府数据的共享与管治。2015 年国务院印发的《促进大数据发展行动纲要》明确了之后5~10 年的五大发展目标,其中包括:2017 年底前形成跨部门数据资源共享共用格局;2018 年底前建成国家政府数据统一开放平台;2020 年底前民生保障服务相关领域的政府数据集向社会开放,由此可见大数据在数据共享领域的相关研究扮演了重要的推动角色。

图6 国内数据共享关键词突现情况

2.基于时间可视化的研究趋势分析。主题演化分析能够直观看到在数据共享研究领域内,随着时间推移其相关主题强度和内容的演化情况。为分析数据共享1998—2020 年的主题演化轨迹,利用Citespace 软件中基于关键词网络共现图的操作,得到关键词时区图谱(见图7)。图7 是以时间为横轴,节点代表热点关键词,节点大小表示词频,节点间的连线则代表了热点在时间轴上的演进趋势。结合主题演化图谱,可将我国数据共享的研究经历分为以下三阶段:

图7 数据共享关键词共现时区图谱

(1)第一阶段:探索阶段(1998—2004 年)。在探索阶段就涌现出了不少的研究成果,热点主要集中在“数据共享”“元数据”和“科学数据共享”等。数据是构成电子文件的背景信息的重要组成部分,对于元数据的整理和利用可以有效地实现信息资源的管理和共享。1998 年,江泽民在中国科学院会议上两次提到“数字地球”,提升了数据共享在学术界的研究热度。2001 年以来,科技部启动了科学数据共享工程,召开了以“中国科学数据共享”为主题的科技会议,2003 年开始建设国家科技技术基础条件平台,这是我国共享平台建设的开端,为共享平台发展积累了实践经验。

(2)第二阶段:缓慢发展阶段(2005—2011 年)。

结合图谱,可以直观地发现此时期的研究成果较少,并没有迎来数据共享热点研究的爆发期,该阶段出现的研究热点主要包括“数据中心”和“科研数据”。数据中心的建立有利于科学数据资源利用,科学数据的共享行为驱动了科研协作[7]。教育部于2006 年7 月完成“十五”211 工程中设立中国教育科研网格重大专项工作,满足了各大研究高校的科研需求。信息化的发展促进了不同学科间的交汇融合以及知识的转移与转化,必然推动科学的发展。

(3)第三阶段:快速发展阶段(2012—2020 年)。国内在数据共享领域研究的广度和深度在此阶段发生了变化,反映了未来的研究趋势。2011 年后,在大数据背景下,科研创新的数据驱动促进了学术界对高校加强科学数据管理的热点研究。2018 年,中央全面深化改革领导小组第二次会议通过了《科学数据管理办法》,首次在国家层面以制度形式对科学数据的共享与服务实施管控。这是我国科研数据领域有法可依的重要法规,积极推进了科学数据资源开发利用和开放共享,为科学研究提供了有力支撑。

在此阶段,政府数据开放共享在国内开始被中央高度重视,成为了时代的热点命题。2013 年G8 峰会召开,八国领导人共同签署了开放数据宪章,被称为开放数据的标志性事件之一,推动了政府数据对公众开放共享。2015 年3 月,中科曙光发布“数据中国”战略,提出“让全社会共享数据价值”的愿景理念;同年,国务院在《促进大数据发展行动纲要》中明确了对政府资源共享的主要任务是加快政府数据开放共享,推动资源整合、提高治理能力。

从政府信息公开到政府数据开放共享的过程体现了我国治理体系和治理能力的现代化和法治化,未来研究方向也势必趋近政府数据共享的治理以及数据的开放共享,这既是国家大数据对于政府数据治理的需求,也反映了学术研究与时俱进的特点。

四、总结

本文运用基于科学知识图谱的可视化分析方法,借助Citespace5.7.R2 软件以CNKI 数据库中1998—2020 年与“数据共享”主题有关的研究文献作为样本数据,分析了我国数据共享研究领域的研究热点和发展演进趋势等内容,为未来我国学者对数据共享网络综合性研究提供了参考。

我国数据共享研究主要经历了探索、缓慢发展、快速发展三个阶段,核心研究主题主要集中在科学数据、政府数据管理与共享两方面,随着大数据、区块链等新兴技术的注入,政府数据治理已成为发展趋势。目前,数据共享研究领域内的组织间合作松散、交流少,对科研发展形成不利影响。随着数据共享相关研究的丰富,科研合作正是进行科研数据共享的有效方法之一,科研数据共享可以增加学术成果的利用率,推进学术进程。因此,数据共享领域内的科学研究机构、学术研究作者们应该迈出固有的研究机构和资源框架,广泛开展科研合作,提升研究和创新水平。

欧美等发达国家已形成了一批国家级的科学数据中心或高水平数据库,利用它们持续汇聚和整合本国乃至全球科学数据资源,推动了科研发展,我国高校应加强知识共享服务平台建设,积极借鉴国外高校在数据管理与共享政策等方面的长处,消除科研信息“孤岛”,提升我国在该领域内的学术研究成果。

五、展望

基于上述分析,结合我国数据共享发展现状,后续研究可以从以下几个方面进行探索:

(一)完善数据共享法规顶层设计

从国内数据共享实践来看,国家在宏观层面给予了强有力的支撑,国务院印发了《政务信息资源共享管理暂行办法》,其中强调了国家对政府数据资源共享应做好规划部署,保证政府数据开放与共享的有序进行。但目前宏观政策研究体系缺乏整体性和协同性,各级政府应坚持以宏观政策为指导,遵循合理布局、整合共享、分级分类、动态调整的基本原则,协同制定政策法规,规范责任主体,促进数据共享平台建设。

(二)提升数据共享学术成果质量

随着海量数据资源的爆发式增长,数据内容丰富且繁杂,如果不能及时有效存储数据,那么数据利用率会在很大程度上降低。我国科学数据的管理与应用存在明显的不足,具有高价值的科学数据没有得到充分的共享和使用。宋佳指出,大数据时代科学数据共享应遵循FAIR 原则(可发现、可访问、可互操作、可重用四项原则)[8]。为了能够实现真正的数据FAIR,国家应该加强数据技术研发工作,健全科学数据共享评价机制。

(三)注重结合新兴技术

区块链是一种基于大数据技术(数据量大、开放流动)的基础上产生的一种新型分布式数据治理的新兴技术,可以用于任何形式数据的交换。其主要优势体现在提高数据公开透明度、促进数据分级共享、提高数据开放效率和保障数据安全。2019 年,习近平总书记在中央政治局第十八次集体学习时指出:“要探索利用区块链数据共享模式,实现政务数据跨部门、跨区域共同维护和利用。”区块链的发展还处于成长期,其稳定性和扩展性等方面还不够完善,随着其技术的不断优化升级,与大数据、5G等技术协同发展,建立以区块链技术为核心的全国统一数据共享体系,为我国数据共享领域的发展创造增长动力。

猜你喜欢
发文图谱领域
电子战领域的争锋
绘一张成长图谱
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
2020 IT领域大事记
领域·对峙
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
新常态下推动多层次多领域依法治理初探
杂草图谱