科技全球化背景下大数据研究合作网络的可视化分析

2021-09-11 11:35吕晓赞蔡小静
科技管理研究 2021年16期
关键词:聚类论文节点

吕晓赞,蔡小静,周 萍

(1.浙大城市学院法学院,浙江杭州 310015;2.浙江大学公共管理学院,浙江杭州 310058)

1 研究背景

当前,大数据已经成为继人力、土地和资本之后的新型生产要素,相关技术应用不断拓展升级,数字经济已然成为全球产业变革和经济增长的重要驱动力[1]。大数据技术及其应用所蕴藏的巨大价值,不仅引起产业界的巨大关注[2],更是引发世界各国间的竞争与合作。2012 年,美国最早出台的“联邦大数据研究与开发战略计划”开启了大数据战略的大幕,此后许多国家纷纷出台相关战略,大力推动该领域的发展,如澳大利亚的公共服务大数据战略、英国的数据能力战略以及我国的国家大数据战略等[3]。大数据在产业界的成功也引发了学术界的极大关注,如何改进现有技术和算法处理、存储和分析数据,如何挖掘和利用数据背后的知识,以及如何应对大数据时代的各种问题成为国内外共同关注的重要研究课题。

与此同时,随着科技全球化的不断推进,国家、企业、科研机构等主体间开展的多层次的科技合作成为了当今世界国际科技合作的主流,科学研究也由此进入到第4 个时代——国际合作时代[4]。作为高科技实力的基本体现之一,科学合作不仅能够为科研人员提供更为广阔的思路、方法及资源,还能够节省研发成本、提高研发效率、扩大研究影响力[5]。在过去20 年间,国际合作论文占全球总论文的比例增幅超过一倍,科技领先国的论文几乎都由合作产生,全球科学研究正在朝着一个相互关联的体系发展[6]。但对于各国而言,合作在带来一些积极效益之余,也会对其创造以及保存科学财富的能力产生巨大的挑战。因此,如何在国际合作与竞争中趋利避害、实现利益最大化,成为各国关注的焦点。

随着大数据领域的不断发展成熟,相关研究产出增长迅猛,合著论文占比也不断攀升[7],科研合作已成为大数据研究的主流形式[8]。早期有关大数据合作的研究多以个体学者为研究对象,发现从事大数据研究的学者之间的合作密度整体较低,合作关系相对分散[9]。据此,本研究将从研究机构和国家两个维度出发,分析2003—2017 年全球大数据研究的合作状况及变化趋势,以期探究该领域内各国和各机构的合作特征及贡献程度,为各国、各机构开展后续研究,以及探寻有效合作路径和合作伙伴提供参考,并为有关部门的政策制定提供决策依据。

2 数据和方法

2.1 数据与指标

科技合著论文是科学合作成果最直接的体现形式,也是科学合作关系的重要反映[10],已成为研究科学合作的主要途径之一[11]。本研究将大数据相关合作论文作为研究对象,论文数据来源于Web of Science(WoS)数据库的核心合集,时间跨度为2003—2017 年,文献类型包括研究论文(article)、综述文献(review)和会议论文(proceedings paper)。参考和综合已有的大数据计量研究,如杨良 斌 等[12]、Hu 等[13]、Singh 等[14]、杨瑞仙[15]等,以“大数据”为检索词进行主题检索。具体检索策略如下:PY=2003-2017 and TS=(“big data”or“bigdata”or“huge data”or“large scale data”or“large-scale data”or“massive data”)。检索截止日期为2019 年1 月3 日,获取相关论文共计28 201篇(以下简称“样本合作论文”),包括研究论文10 166篇(占36.0%)、会议论文17 260篇(占61.2%)和综述文献775 篇(占2.7%)。

在对样本合作论文进行量化统计分析的基础上,还将结合社会网络分析(social network analysis,SNA)方法进一步分析和可视化合作网络特征及参与者地位。相关主要概念与指标如下:

(1)合作论文。指作者数量大于1 的论文。基于研究对象不同,合作论文可以分为国家间合作(即国家和作者数量均大于1,或称为“国际合作”)、机构合作(即机构与作者数量均大于1)和研究者合作(即作者数量大于1)等。其中,机构合作包含国内机构间合作以及与跨国机构的合作。本研究主要考察前两种合作类型,即国家间合作和机构合作。

(2)合作网络特征。指通过社会网络指标测度整体网络的特征概况和演化趋势。参考斯科特[16]83-90的研究,主要指标包括:

1)网络规模。用网络中节点的数量来考察合作网络的规模大小。

2)平均度数。节点的度为与该节点连接的其他节点的数量,合作网络中所有节点度的平均值称为“网络平均度数”。

3)网络密度。用网络节点间的实际合作次数与其理论最大合作次数之比来考察合作网络的密度大小,反映节点间的联结程度。

4)网络连通性。用起点与终点之间联结必须移除的节点数来测度合作网络的通达性。

5)聚类系数,这是一个局部特征量,指与一个给定节点直接相连的两个节点彼此恰好也直接相连的概率,用于衡量合作网络的集团化程度。

6)度中心势,用来表示网络的整体中心性,体现整体合作网络的集中程度。

(3)国家与机构地位。指合作论文的参与国家或者机构在合作中起到的作用。考虑到第一作者(以下简称“一作”)或通信作者在论文写作过程中的重要作用,通过一作或通信作者的论文比重来反映其在参与研究中的主导性地位,并通过社会网络中心性指标测度其在合作网络中的地位。参考斯科特[16]90-97的研究,主要指标包括:

1)度中心性。指一个节点与其他节点连线的数量。在合作网络中,节点的度中心性越大,则表明该节点在整个网络中就越重要。

2)接近中心性。指一个节点与其他节点连线的平均距离。该指标侧重于测量合作网络中一个节点对网络中所有其他点的接近程度,反映节点对整个网络的影响力。

3)中介中心性。指所有穿过该节点的最短路径的条数,用来测度节点在合作网络中的位置。中介中心性越大,则说明该节点在合作网络中处于许多其他节点的捷径上。

2.2 科学叠加图

近几年来,随着数据挖掘、处理和分析技术的不断发展与进步,科学地图(science map)作为一种用可视化方式来描述科学问题的研究方法已成为图书情报界、科学学研究、政策管理等领域的研究热点[17]。科学地图的应用范围广泛,不仅可以用来展示科研主体(如研究者、机构、国家等)或某个主题领域的科学结构,也可以分析科技人才队伍分布和协作情况,形成合作地图,或是用于研究特定机构或地域的国际合作情况等。科学叠加地图(overlay map)则是在基础科学地图的基础上根据主体的属性或特征进一步对其可视化,进而呈现出主体间的共性或差异[18]。

借鉴Van Eck 等[19]的做法,采用VOSviewer 1.6.9 软件对数据分析的结果进行可视化。一方面,VOSviewer 用于形成领域内国家和机构的研究合作网络,并根据合作关系强度进行聚类;另一方面,其叠加功能(overlay)可用于呈现不同国家或机构在合作研究中的特征,如合作论文比重、一作或通信作者比重等。此外,将国家数据与其地理坐标进行匹配,可用于呈现基于地理位置的合作网络,比较不同地域的大数据研究与合作能力。因此,科学叠加图的应用能够增加研究数据的可读性,并有助于提升研究结果的视觉吸引力。具体的数据处理与分析过程如图1 所示。

图1 数据处理与分析过程

3 结果分析

在了解全球大数据论文产出概况基础上,从国家和机构两个视角对大数据研究的合作情况进行系统分析,包括合作网络特征与演进规律、研究活跃国家及其地位,以及主要研究机构及其网络地位等。

3.1 国家合作网络

样本合作论文中,产出国主要是欧美发达国家和少数亚洲国家。其中,中国和美国是主要产出国,参与了占一半以上(53.8%)的论文;其次是英国(6.4%)、印度(6.0%)、德国(4.7%)、澳大利亚(3.9%)、日本(3.7%)和韩国(3.6%)等。在全球范围内,对大数据的合作研究较为普遍,但主要依赖国内合作,尤其是机构内合作,国家间的合作程度不高。图2 为基于VOSviewer 构建的合作论文网络,共包含了87 个发表论文数量大于等于3篇的国家节点,节点间的连线代表国家间的合作关系,节点大小代表该国与其他国家的合作次数,节点越大表明该国参与的国际合作越多。

图2 大数据领域样本论文国际合作网络

表1 所示为合作网络主要特征指标值,表明网络中存在较少的孤立点,合作关系较为普遍,但网络较为稀疏,整体合作程度不高,且网络节点的度中心性分布差异较大,合作关系主要集中在部分国家之间。

表1 大数据领域论文国际合作网络主要特征

尽管信息通信技术的发展使得地理距离在合作中的重要性有所削弱[20],但大数据领域研究的国际合作关系依旧与地理位置密切相关,形成了几大明显的地域性合作团体(见图2 以虚线标记)。其中,聚类1 主要包括南美、非洲和部分亚欧国家,如巴西、墨西哥、智利、印度和法国等;聚类2 主要包含了欧洲各国,如英国、瑞士、德国、西班牙、意大利和荷兰等;聚类3 以西亚、北非地区国家为主,典型代表为约旦、黎巴嫩、沙特阿拉伯、伊拉克和卡塔尔等;聚类4 以中、美两国为主导,涉及澳大利亚、日本、越南等环太平洋国家;聚类5 主要集中在北欧地区,如挪威、丹麦、冰岛等。其中,美国、中国、英国、德国和澳大利亚的合作关系总体较多,其合作伙伴也明显多于其他国家,可视为大数据领域研究合作的主要参与者。

随着越来越多国家的加入,大数据领域研究的全球化特征日益凸显。如表2 所示,在合作网络中,2003 年仅有23 个国家参与国际合作,合作程度低,2013 年参与合作的国家达到61 个,而到2017 年参与合作国家数量已经增长到了114 个;此外,网络密度的增加说明国家之间的合作越来越频繁,合作关系日益密切,而度中心势的变化则说明合作网络结构有所变化,从最初的整体分散到个别国家主导,后续又逐渐向多元化转变。参考金碧辉等[21]的研究分析,造成合作网络中这种趋势的可能原因是,越来越多国家的加入导致原有的中心势力受到制衡,使得合作网络的中心势降低、网络集中度减少,从而表现出趋于分散的特征。

表2 大数据领域论文国际合作网络年度特征

图3 呈现了合作网络的演化情况。在大数据发展初期(2003 年),美国、加拿大和中国是领域内最主要的合作研究参与者,其次是部分欧洲国家(如英国、瑞士、德国等)和少数亚洲国家(如新加坡、日本、印度等);经过10 年发展,到2013 年,领域内的合作程度依然不高,参与国家数量增长有限且主要集中在欧洲及其毗邻地区,美国、加拿大和中国依然是最为核心的合作研究参与者,但英国、法国以及日本的合作关系提升明显;2017 年合作网络显示出了较为密集的合作关系,一方面参与合作的国家数量增长迅速,覆盖范围几乎涵盖各大洲,另一方面国家之间合作十分频繁,国际合作程度较高的主要合作者的数量也有增加,显示出多元化的网络特征。

图3 大数据领域论文国际合作网络演化趋势

进一步,在图2 基础上,图4 以叠加图的方式呈现了各国国家间合作论文的比重。其中节点的颜色越深,说明比重越高,即其参与国际合作程度越高。从具体分布来看,欧洲各国整体比重较高,国际合作较为普遍,近一半论文由国际合作产生,尤其是靠近北欧的国家,如丹麦、挪威等,合作率高达70%;中国和美国尽管论文产量最多,但国际合作比重较低,不到30%;印度(11.4%)、日本(26.2%)和韩国(27.4%)等亚洲国家的论文产出主要依赖于国内合作,尤其是机构内部的合作,其中印度近84%的论文由国内合作产生,而国内合作的2/3 由机构内合作产生。此外,由于相关论文数量少,中东、南美以及非洲等国家也表现出了较高的国际合作率。

图4 大数据领域论文国际合作主产国比重分布

3.2 活跃国家地位

样本合作论文中一作或者通信作者论文的比重如图5 所示,其中节点的颜色越深,说明该国一作或通信作者论文的比重越高,在大数据领域内合作研究中的主导性就越强。整体而言,各国作者的主导性与其合作程度较为一致,欧美等国的比重高于亚洲国家,如英国、德国、澳大利亚、加拿大和意大利等,平均比重约为3%,中东及东亚地区的国家则相形见绌。在所有参与国际合作的国家或地区中,中国和美国的一作和通信作者比重最高,分别为23%和20%,远高于其他国家,这说明中美两国不仅积极参与国际合作,并且在合作中占据主导地位,是大数据领域内合作论文的主要贡献者,对全球大数据研究具有重要意义。此外,中国的主导性优势意味着中国积极主动地寻求国际合作,努力拓展合作范围,另一方面也是中国在大数据领域科研实力的体现,说明中国能够在合作中起到一定的主导作用。

图5 大数据领域论文国际合作主产国一作或通信作者论文比重分布

如表3 所示,合作网络中心性的测度结果表明,美国是当前大数据领域研究国际合作的核心力量,不仅合作程度高、合作规模大,而且在整个合作网络中起到了重要的桥梁作用,有助于促进不同国家和地区间的合作,这与美国的大数据技术发展水平及其对大数据技术的重视程度密切相关;其次是英国,尽管其论文总产量不高,但在全球合作网络中处于重要地位,合作程度整体较高;此外,中国、德国、澳大利亚、日本、意大利、加拿大和法国也在网络中占据有利位置,拥有较多的合作关系。其中值得注意的是,中国尽管论文产量最高,国际合作论文多,但接近中心性和中介中心性指标排名均较靠后,说明中国的合作对象较为固定,合作范围有限。

表3 大数据领域论文国际合作活跃国家及其中心性

基于中美两国在大数据领域研究产出和国际合作中的重要作用,我们进一步根据样本合作论文描绘了两国的合作网络(见图6)。图6 中,节点的大小代表中美两国与其合作国家合作论文的占比,节点越大说明该国与美国或中国的合作论文越多、所占比重越大,合作关系更为密切。总体来看,两国的合作对象分布较广,以亚洲和欧洲等地区的国家为主,美国的合作者更多;除互为各自的首要合作伙伴外,两国共同合作者数量多,其中加拿大、澳大利亚和英国与两国均有密切的合作关系,平均占比均在4%左右;此外,中国与日本、新加坡和韩国等邻国合作较多,而美国则与德国和意大利等欧洲国家有较为频繁的合作关系。

图6 大数据领域中国和美国论文国际合作网络

3.3 机构合作网络

样本合作论文涉及机构数量大、分布范围广,主要是高校和研究机构,也包括了部分企业。其中,中国科学院在论文产量方面优势明显,位列第一;其次是清华大学、IBM 公司(IBM Crop)和德克萨斯大学(Univ Texas);此外,北京邮电大学、上海交通大学、武汉大学、麻省理工学院(MIT)、华中科技大学和国防科技大学也是主要贡献者,合作论文数量均在150 篇以上。

图7 为主要机构合作网络,与国家间的合作关系相似,研究机构的合作关系也与其地理距离密切相关,构成了三大主要聚类:聚类1 以美国的知名高校、研究机构和企业为主,包括麻省理工学院、德克萨斯大学和IBM 公司等;聚类2 主要是以中国科学院为核心的中国高校和研究机构,如中国科学院大学(Univ Chinese Acad Sci)、上海交通大学(Shanghai Jiao Tong Univ)和清华大学(Tsinghua Univ);聚类3 的机构分布则相对较为分散,以大洋洲和欧洲的一些高校和研究机构为主,如澳大利亚联邦科学和工业研究组织(The Commonwealth Scientific and Industrial Research Organisation,CSRIO)、悉尼大学(Univ Sydney)和法国国家科学研究中心(National Center for Scientific Research,CNRS)等。

图7 大数据领域论文国际机构合作聚类

表4 体现了该网络的特征指标值,表明合作现象非常普遍,不存在孤立的节点,网络整体较为密集,节点间合作程度较高,但各机构的度中心性部分差异较大,主要合作关系集中在部分机构间。

表4 大数据领域论文国际合作机构网络特征

图8 和图9 分别展示了各研究机构的合作论文和跨国合作论文的比重。如上所述,参与大数据研究的机构合作程度较高,但以本国机构间的合作为主,跨国合作比重相对较低且分布不均。从总体合作情况看,图8 中的深色节点分布较为分散,且每个聚类均有涉及,如聚类1 中的法国工科大学(Ecole Polytech)、哈佛医学院(Harvard Med Sch)和西北大学(Northwestern Univ),聚类2 的中国科学院(Chinese Acad Sci)、中国科学院大学和深圳大学(Shenzhen Univ),聚类3 中的剑桥大学(Univ Cambridge)和悉尼大学,这些机构的合作率较高,80%以上的论文均由合作产生,是各个聚类的主要合作者。

图8 大数据领域论文合作机构比重分布

如图9 所示,跨国合作比重呈现出明显的自上而下递减式分布,说明欧美和澳大利亚等国家和地区的机构在国际合作中优势明显,绝大多数的合作论文均和国外机构合作产生,而中国等亚洲国家的机构则更倾向于国内机构间的合作。

图9 大数据领域论文跨国合作机构比重分布

3.4 活跃机构地位

在样本合作论文中,各机构合作论文一作或通信作者的比重叠加图如图10 所示。总体而言,参与合作的机构的主导性不高,一作或通信作者的比重约为20%,且分布不均,自左向右递增,而中国机构的主导地位明显,平均占比为40%左右。其中,尽管中国科学院的论文数量较多、合作范围较广,但其一作或通信作者比重相较于其他国内机构而言并不高,约为32%,而国内其他一些高校尽管合作论文数量有限,但其一作或通信作者的主导比例较高,研究贡献较大,如北京交通大学(Beijing Jiaotong Univ)、武汉科技大学(Wuhan Univ Technol)以及山东大学(Shandong Univ);欧美等发达国家和地区的机构尽管合作率较高,但多数机构的一作或通信作者并非主导者,主要起到参与或辅助作用。图11 进一步考察各机构在跨国合作中一作或通信作者的比重。整体分布趋势与图10 相似,自左向右逐渐递增,即中国机构的比重依然较高,主导优势明显。此外,相对于所有机构间合作,聚类1 中的欧美机构的主导地位有所削弱,尤其是部分美国高校,如东北大学(Northeastern Univ)、哈佛大学(Harvard Univ)和华盛顿大学(George Washington Univ),说明这些机构更多地在国内机构合作中占主导;部分澳大利亚机构则正好相反,在跨国机构合作中更具主导优势,如澳大利亚国立大学(Australia Natl Univ)、纽卡斯尔大学(Univ Newcastle)和悉尼大学(Univ Sydney),其一作或通信作者比例有所提升。

图10 大数据领域机构合作论文一作或通信作者比重分布

图11 大数据领域跨国合作论文一作或通信作者比重分布

中心性测度表明处于网络中重要位置的机构基本都来自中国和美国(见表5)。其中,中国科学院是大数据国际合作中的核心力量,其中介中心性和度中心性指标均排在首位,说明其合作程度高、合作规模大,并起到了重要的桥梁作用,合作资源丰富;其次是德克萨斯大学和清华大学,其中介中心性和度中心性均较高。除高校外,IBM 是最为重要的企业代表,合作规模较大,在网络中占据有利地位。另外,中国的武汉理工大学、东北大学、香港中文大学和美国的加州大学圣地亚哥分校,以及新加坡的南洋理工大学的中介中心性排名均明显高于其度中心性排名,说明这些机构尽管合作规模有限,但在合作中起到了一定的桥梁作用。

表5 大数据领域论文合作活跃机构及其中心性

基于中国科学院对于大数据研究的重要贡献及其在合作网络中的核心地位,我们进一步分析了中国科学院的主要合作对象及其合作强度。如图12 所示,各机构节点的大小代表其与中国科学院的合作论文数量,聚类(以虚线标记)则代表了各机构所在的国家或地区。整体而言,中国科学院的合作机构数量多、分布广,共与115 个机构均有合作。具体来看,中国科学院与中国科学院大学之间的合作关系最为紧密,两者合作的论文高达119 篇;其次是中国地质大学(China Univ Geosci),合作论文数量为20 篇。就地区分布来看,中国科学院的合作对象主要为国内机构,多数集中在北京,与其地理距离较为接近;就国外合作机构而言,虽然从数量上看中国科学院与美国机构合作较多,但从合作强度来看与澳大利亚的机构合作更为频繁,尤其是澳大利亚科学和工业研究组织和悉尼大学。

图12 大数据领域中国科学院论文主要合作机构及数量分布

4 结论与讨论

通过结合社会网络分析方法和科学叠加图,本研究从国家和机构两个角度系统分析和呈现了当前国际大数据合作研究发展概况,并进一步探究了参与者在合作中的地位。全球范围内,大数据研究的论文合作程度较高,但主要依赖于国内合作,尤其是机构内合作,国家和机构间的合作程度不高,但随着科技全球化的推进和大数据技术的不断发展,这两类合作的比重都在不断增长。

从合作程度来看,欧美等发达国家的国际合作水平普遍高于亚洲国家,其近一半以上的论文都源自国际合作。合作网络的演变显示,2003—2017年间,参与合作研究的国家数量不断增长,几乎覆盖了各大洲,大数据研究国际合作的全球化特征日益凸显,随着合作的不断拓展与深化,特定国家之间的合作在一定程度上有所弱化,合作集中度有所下降,多元化趋势则日益凸显,由三元主导(美国、中国和加拿大)向多极化趋势转变。其中,美国、中国和英国不论是一作与通信作者的论文比重还是中心性测度都位于前列,是大数据国际研究的主要推动者,占据核心地位;而在所有的合作关系中,美国和中国互为对方最为重要的合作伙伴,合作强度明显高于其他国家之间的合作。此外,美国在合作者数量上领先全球其他各国,起到重要的桥梁作用,也证明了其在大数据领域的领先优势。

从具体机构来看,高校和研究机构是大数据论文的产出主体,但不同机构之间的合作程度不高。中国和美国的知名高校及企业在合作网络中均有良好表现,参与合作程度较高。其中,中国科学院不仅在论文产出中占据绝对优势,在合作网络中也处于重要地位,合作规模大,起到了重要的桥梁作用,促进了其他机构间的合作;其次,德克萨斯大学、清华大学、华盛顿大学以及Microsoft 和IBM 公司的合作伙伴也明显较多,影响力较大。作者主导性情况表明欧美等发达国家的机构的合作率较高,主要起到参与或辅助作用,亚洲与澳大利亚的机构,尤其是中国的机构,主导性更强,而这一特征在跨国机构合作中更为明显。由此可见,中国机构在大数据的合作研究中起到了十分关键的作用,不仅贡献了大量的论文,同时也积极主动寻求合作。

此外,尽管随着信息通信技术的发展,地理距离在合作研究中的重要性有所弱化,但在大数据研究中,国家和机构间的合作关系分布依旧与地理位置密切相关。其中,以美国为核心的北美等国、以中国为核心的亚洲各国以及欧洲国家形成了三足鼎立的合作阵营;尽管跨国机构间的合作已经较为普遍,但与本国机构的合作依然是主流趋势,而在国家内部,地理位置越近的机构其合作紧密性就越突出。

由此可见,全球大数据研究发展迅猛,不仅论文产量爆发式增长,领域内不同机构、不同国家间的合作关系也在不断加强,形成了较为稳定的合作团体,知名高校、研究机构以及企业在各自的合作团体中发挥着重要作用,推动大数据研究不断发展。在未来研究中,如何突破地域限制、寻求更多合作伙伴将是各机构和各国需要解决的一大问题。

猜你喜欢
聚类论文节点
概念格的一种并行构造算法
结合概率路由的机会网络自私节点检测算法
采用贪婪启发式的异构WSNs 部分覆盖算法*
Crosstalk between gut microbiota and antidiabetic drug action
面向WSN的聚类头选举与维护协议的研究综述
本期论文英文摘要
改进K均值聚类算法
本期论文英文摘要
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法