朱玲玲 彭爱东 朱永凤
(1.南京农业大学信息科技学院 南京 210095;2.南京航空航天大学经济与管理学院 南京 211106)
在大数据时代,数据的价值不言而喻,数据开放已成为研究热点。国务院《促进大数据发展行动纲要》及工业和信息化部发布的《大数据产业发展规划(2016—2020年)》都强调了要通过数据开放、共享做到数据取之于民、用之于民[1]。与此同时,数据开放研究已经引起国内学者的关注,研究成果主要集中在定性研究和案例分析的层面,如以我国地方性政府数据开放为例,提出我国政府数据平台存在的问题与不足[2];从开放数据的不同主体和不同阶段归纳其责任义务及运行机制[3]等。随着研究的深入和范围的扩大,陆续出现了数据开放政策、数据管理和元数据标准等研究子主题。为了对本领域研究主题的整体分布、态势及彼此之间的关联有更直观清晰的认识,文章拟采用共词分析、社会网络分析、聚类分析及战略坐标分析等方法对国内图书情报领域数据开放研究文献进行计量分析,以发现其中的研究热点并揭示其研究主题的发展脉络,在此基础上对国内图书情报领域数据开放研究的发展趋势进行展望。
文章数据来源于中国知网CNKI期刊全文数据库。选择高级检索功能,学科领域选择图书情报与数字图书馆,检索项中选择“主题”,检索词中选择“开放数据”或含“数据开放”,并将时间限定为2009年至2018年,剔除与主题不相关论文,最终得到切合主题的205条记录,以此作为本研究的数据源,并选择Endnote作为文献导出格式。
2009—2018年我国图书情报领域对数据开放的研究呈现递增趋势,但文献总量不大。2009—2014年发文量较少,且多数研究提到数字图书馆的元数据应用、关联数据应用的协议研究或是大数据时代图书馆的开放创新研究,对数据开放的研究还处于基本的概念解释阶段。2015年国务院出台了《促进大数据发展行动纲要》[4],国内图书情报领域的数据开放研究开始迅速增长,目前处于稳定发展阶段。
文章选取2009—2018年国内图书情报领域数据开放研究的期刊论文进行发文量统计。借助文献题录信息统计分析工具SATI3.2,将Endnote格式的文献题目导入工具中,运用共词分析法对国内图书情报领域关于数据开放论文中的关键词字段进行抽取,并统计词频,同时对关键词进行同义词合并处理。再通过关键词的两两统计,在Rows/Cols设定共现矩阵行列数构建关键词共词矩阵,以Excel文档格式存储,运用Netdraw软件绘制出数据开放高频关键词共现网络,分析图书情报领域内数据开放主题的发展趋势。最后将相异矩阵导入SPSS19.0进行聚类分析,对输出的聚类树状图剖析,得出国内数据开放研究的高频主题类团,通过计算每一类团的密度和向心度绘制出战略坐标图,揭示出关键词的亲疏关系以及该领域研究主题现状。在对数据开放的文献进行梳理的基础上,将聚类分析与战略分析相结合,并结合数据开放的实践,展望未来数据开放研究发展趋势,以期为国内图书情报领域的数据开放研究提供参考。
在文献计量与内容分析法中关键词是对文章内容的高度概括,也是研究某一学术领域的重要指标。文章抽取了国内图书情报领域数据开放研究的205篇论文的474个关键词,发现有些词语出现同义不同词的情况,先对关键词进行同义词合并处理,如将政府数据开放、政府开放数据、开放政府数据合并为政府数据开放,将数据开放、开放数据统一为开放数据,再按频次降序排列。数据开放研究起步晚,导致关键词数量少,词频普遍偏低。为了更全面地反映研究主题热点分布及后期的聚类分析,截取频次≧3的39个高频关键词,其累计频次占所有关键词总频次的72.17%。如下表1所示,可见开放数据、科学数据、政府数据开放、开放获取、图书馆、元数据、数据政策等关键词频次高。
表1 国内图书情报领域数据开放研究论文高频关键词统计表(部分)
在词频统计基础上,基于高频关键词的共现进行两两统计,构建39*39的关键词共现矩阵导入Ucinet软件中,进行格式转化,将其文件格式生成.##h后缀文件,再在Netdraw中绘制出数据开放研究高频关键词共现网络图(见图1),图中关键词节点间的连线数,显示了它们之间共现的关系强弱,两者呈正相关关系。
图1 国内图书情报领域数据开放研究高频关键词共现网络
通过可视化的图谱展示205个数据样本文献中高频关键词之间的相关性。从图1可以看出,开放数据、科学数据、政府数据开放、开放获取、图书馆、大数据、元数据等关键词位于该共现网络图中心,对其他关键词的影响最深。另外,随着数据开放实践的不断开展,边缘关键词如:开放数据服务、开放共享、数据管理等,可能会演变为研究关注点,进而成为核心关键词。
在SPSS软件中采用聚类分析,根据研究对象的特征,遵循物以类聚的原则,把需要处理的数据分为不同的类,相似性大的对象会聚到同一类,相异性大的分为不同类的分类分析方式[5]。在SPSS19.0中导入前文的高频关键词相异矩阵,聚类方法中选择Ward法,采用系统聚类进行聚类分析,标准化处理时选用Z分数,输出我国2009—2018年数据开放研究高频关键词共现聚类树图,如图2。结合社会网络分析中关键词的所处点及其与其它关键词的共现次数,可分为5大类研究主题:科学数据开放、元数据研究、政府数据开放研究、数据政策研究、图书馆参与数据开放途径讨论。
图2 关键词聚类分析树状图
Law[6]等提出战略坐标法,即用密度、向心度两个指标衡量某研究领域研究内容间相互影响的情况。其中密度表示研究主题内部关联程度,密度数值越大则该主题研究越成熟;向心度表示该主题与其它研究主题间的密切程度,数值越大表明与其它类别联系越紧密,在该研究领域中处于核心地位。文章在共词矩阵和聚类分析的基础上,计算2009—2018年我国图书情报领域内数据开放五大类主题类团的密度和向心度。计算密度的方法是取类团内所有关键词两两共现频次总和的均值;向心度表示该类团与其它类团的联系程度,用类团中关键词与其它类团关键词共现之和的均值表示[7]。用X轴表示向心度,Y轴表示密度,两个轴的平均数(11.59,15)为坐标原点,绘制四象限主题类团战略坐标图,描述关于数据开放的不同研究主题的发展现状。
图3 主题类团战略坐标图
由图3的战略坐标图可知,B类元数据标准研究、D类数据开放政策研究位于第一象限中,其密度、向心度都相对较高,表明该研究主题内部联系紧密且与其它主题的联系强,说明这两类研究主题是数据开放研究领域的关注热点,不易消失;E类图书馆参与数据开放研究位于第二象限,密度值高,说明该主题研究成熟,也渐趋形成独立的研究领域;A类科学数据开放研究处于第三象限,密度与向心度指标均低于其它团类,表明研究不成熟,与其它研究主题的联系也不紧密,有待加强关注;C类政府数据开放研究位于第四象限内,有一定的向心度,与其它研究主题联系较紧密,说明政府数据开放的研究表现活跃,但其密度偏低,还不够成熟。
在将数据开放研究的高频关键词进行共现、聚类及战略坐标分析的基础上,得到我国图书情报领域内的数据开放研究的具体主题内容,为了探究数据开放研究各主题的研究发展空间,将检索出的以“数据开放”为主题的文献内容进行分析梳理,展开对国内图书情报领域内数据开放的热点进行分析。
数据开放经历了科学数据开放和政府数据开放的阶段。A类科学数据开放与C类政府数据开放的基础研究,主要侧重于对科学数据开放、政府数据开放的概念、特点等方面的基础理论研究。黄永文[8]等基于国外开放科学数据的发展进程,阐述开放科学数据的含义、基本内容及相关政策,解释Figshare、Dryad、PANGAEA三种重要的数据仓储。李成赞[9]等学者归纳了单源数据共享模式、分布式注册模式、集中存缴模式、科学数据出版、数据集市等五种数据开放模式。马建华[10]等人归纳了data repository、data journal、data explanatory material三种具体的科研数据开放途径。2018年3月17日,我国国务院颁布了《科学数据管理办法》[11],明确提出对社会和相关部门开放科学数据。科学数据开放在理论研究方面已取得一定成果,却面临着如何保证建立国家级的科学数据中心,如何保障科学数据的传播和重用等实际问题。基本理论研究,尤其是在大数据时代背景下,政府数据开放与开放政府之间相互关系的研究对于实践开展具有理论指导意义。赵润娣[12]阐述政府数据开放是政府信息公开的新阶段,解释开放政府、政府数据、开放数据等基本概念。周志峰[13]等以美国、英国、加拿大、澳大利亚和新加坡五国的政府开放数据平台为例,分析在用户参与下的数据开放门户网站的功能设计。A类与C类研究主题需进一步加强与其它主题的紧密度,未来关于如何推动数据开放理念的践行、提供开放数据服务等具体实际应用问题研究将成为研究热点。
元数据标准是数据开放共享的关键所在,若要使数据集被发现的可能性高就必须提高数据集的元数据可描述性,采用统一的元数据标准发布数据,才能实现数据开放的价值。我国在开放数据与元数据标准方面主要集中于基本理论研究、案例研究、制度层面的研究,它们都是数据开放研究领域内的热点内容。武琳[14]等学者分析了发达国家数据开放的元数据政策和标准,介绍了其元数据格式、元数据框架等内容。司莉[15]等以美国政府数据开放的元数据标准为研究对象,指出我国应按数据集内容与数据集格式的不同建立元数据标准,增强数据集的可操作性;耿骞[16]等从注册管理方面、从需求变化出发,认为元数据标准要具有灵活的描述体系。从制度层面出发,学者以开放水平较高的澳大利亚为例,认为我国不仅要建立统一的元数据标准,提供多种开放格式,还要设置专门的维护机构,承担元数据标准管理[17]。此外,元数据研究与科学数据开放、政府数据开放研究联系密切,例如图书馆推行科研数据管理中的元数据应用,提供元数据标准。赵蓉英以Data.gov.uk为例归纳了政府数据开放的CKAN记录格式和GEMINI标准的不同类型元数据标准,认为我国政府数据开放亟待建立通用的、统一的元数据标准[18]。
数据开放的政策研究是图书情报领域数据开放的研究热点,涉及科学数据开放、政府数据开放及相关数据管理等内容。国外出台了相关的强制性开放科学数据政策,如美国的National Science Foundation、英国的Research Council UK、澳大利亚的Australian Research Council制定了科学数据开放共享的政策[19]。张玉娥等人以“欧盟地平线2020”计划为例,探讨欧盟的科研数据开放政策,认为美国、英国、新西兰、加拿大等数据开放的先行国家,在保护个人数据隐私与对数据使用进行监管方面[20],形成了较完备的法律体系;朱贝等人介绍了英国政府数据开放政策[21];马海群等人利用文献研究的定性方法比较了国内外的数据开放政策的特点,强调对具体的专业领域开放数据政策的研究,在制定数据开放政策时呼吁社会组织参与其中[22]。此外,关联数据的研究也是热点,关联数据涉及广泛的数据类型,覆盖政府、出版物、科学等不同领域。在数据开放中关联数据可提供网络应用方式,但须有与之配套的应用协议,现广泛应用的协议有Creative Commons License(知识共享许可协议)、Design Science License(设计科学许可协议)等[23],不过目前尚未建立明确的保障关联数据可持续发展的法律机制。数据开放政策关系到数据开放实践的展开,因此,其不仅要从相关政策的顶层设计入手,更需要从推进数据开放实践的策略方面进行研究。
图书馆作为社会公共文化机构,是数据开放的实践者,如上海图书馆举办开放数据应用开发竞赛,建设本馆的数据开放平台等。图书馆利用自身在信息组织与获取、宣传推广等方面的经验与优势,通过参与政府数据开放,提供相关数据服务,更好地拓展了图书馆的服务内容和服务方式[24]。张磊从内容、服务、平台角度构建了图书馆开放数据服务的基本框架,凸显图书馆数据开放的灵活性[25]。在实践层面,图书馆作为开放的信息资源和信息服务中心,还可以开展科学数据培训、科研数据管理等系列服务,以促进科研数据利用并加大宣传,实现科研数据的开放共享。目前我国部分高校图书馆已开始提供科学数据服务,如北京大学开放研究数据平台是由北京大学图书馆与北京大学管理科学数据中心联合主办,为研究者提供如中国家庭追踪调查(CFPS)、中国健康与养老追踪调查(CHARLS)等31个精品数据空间和232个数据集,同时鼓励研究者共享研究科研数据[26]。图书情报领域应拓展图书馆与数据开放结合发展的新研究领域,在技术和实践层面推进图书馆与数据开放研究的深度,以此扩大数据开放研究的辐射范围。
数据开放研究领域的各研究主题仍有很大的发展空间。结合对已有研究成果的总结分析,笔者认为以下四个方面为国内图书情报领域内数据开放研究的趋势:
进入数据开放应用迅速发展时期。Tim·Berners[27]解释了政府数据、科学数据、社区数据等通过“实时的开放”,进行数据关联后,释放出巨大的数据价值。开放数据不只是简单的免费获取数据,而是数据连接起来后可得到有意义的实践应用,只有以需求驱动和应用导向的数据开放才能实现深度开放目标。从研究内容看,数据开放应用实践研究是数据开放研究符合用户需求的研究主题,未来可从以实现数据资源公开共享及数据创新为目的的数据服务、信息服务等方面展开相应的应用实践。笔者认为该主题应成为未来的研究重点。
元数据标准研究在基本理论研究、案例研究等方面已取得一定进展。元数据标准关系到数据开放的效率与价值,是数据开放研究领域内的热点,有望引发研究者的持续关注,并加强对其的“深度”与“广度”研究。元数据标准是考察数据开放质量的重要指标。从内容上看,目前国内元数据标准研究集中在以国外政府数据开放平台为例,对元数据标准进行总结等方面。我国尚未建成国家级的政府数据开放平台。随着国家级、地方级的不同层级数据开放平台的建立,有关元数据标准的研究可进一步细化,如根据国内政府开放的不同数据类型,开展元数据标准构建研究,并加深其研究深度。就研究广度而言,元数据标准研究可与其它研究主题联合展开,比如图书馆参与数据开放需要元数据作为必备工具,因此图书馆参与数据开放的元数据应用研究,可成为深入研究的主题。
数据开放政策研究是图书情报领域数据开放的研究热点,但在数据开放实践中,为保证数据发布的效率与质量,难免会发发侵犯版权问题以及侵犯个人隐私问题,此时需要顶层的政策协调,数据开放政策也因此成为促进数据开放研究的驱动力量[28]。在数据开放中个人隐私保护及数据安全更是社会问题,加拿大盲目追求数据开放的程度,与数据安全政策失衡,造成了巨大的社会经济损失;而英国的数据开放平台Data.gov.uk则强调从数据技术和组织程序保护用户的数据安全[29]。可见,个人数据的保护成为数据开放中的重要研究主题。数据开放与隐私保护的关系是数据开放实践中的长久难题,数据开放政策要与个人隐私保护政策互为平衡[30],开放数据政策与数据安全政策要协同制定。要根据数据开放的具体阶段性内容和模式,在实践推进的不同阶段,围绕新的科学研究周期,预见性地、有针对性地对数据开放实践展开政策评估,以保护数据安全,从而实现数据开放实践的突破进展。
图书馆在数据开放中承担着“服务者”与“实践者”的角色,利用关联数据技术,以更加开放的姿态向社会开放公共数据,围绕数据开放提供数据整合、数据关联等数据服务,以促进开放数据的再利用。德国国家图书馆提供关联数据服务(Linked Data Service)[31];大英图书馆以Z39.50方式开放英国国家书目数据(Linked Open British National Bibliography),提供开放数据服务,成为数据与大众间的桥梁,承担起两者之间的对接、利用与反馈[32];Europeana(欧洲数字图书馆)以服务为核心,运用关联数据统一资源整合中的数据结构,对收录数据资源的许可协议,包括对许可协议的介绍、数据交换协议、使用公共领域贡献宣告(CC0)等有明确规定内容[33]。图书馆举办开放数据竞赛是国内图书馆数据开放的实践活动之一,如上海图书馆在2018年3月启动了开放数据应用开放竞赛,向全社会开放历史人物数据,鼓励参赛者以开放数据为基础,开发优秀移动应用产品原型或服务创意[34]。图书馆作为与政府、企业、用户、文化馆、博物馆等进行数据资源开放与分享的信息资源主体,是数据开放的“服务者”和“实践者”,图书馆在数据开放领域内的研究已深入至理论与实践研究中,是未来数据开放研究领域的热点,可进一步扩大图书馆的数据开放研究的辐射范围。
文章以中国知网CNKI数据库收录的“数据开放”文献作为数据源,对数据开放的研究主题进行词频分析并构建共词矩阵,借助SPSS、Ucinet等工具进行可视化分析,可得出以下结论:
第一,从2015年开始,数据开放研究受到学者的广泛关注,相关论文增幅明显,数据开放领域已经进入快速发展阶段。
第二,开放数据、科学数据、政府数据开放、开放获取、图书馆、大数据、元数据等关键词位于该结构图中心位置,与其它研究主题联系紧密。
第三,共词聚类分析结果揭示了我国图书情报领域在数据开放方面的研究热点主要有:科学数据开放研究、元数据研究、政府数据开放研究、数据开放政策研究、图书馆参与讨论等,处于研究边缘的开放数据服务、开放数据管理的研究还不成熟,但与热点研究联系紧密,发展潜力较大。
第四,数据开放的五大类团主题的研究力度不均衡,图书馆参与数据开放的研究表现活跃,图书馆作为数据开放实践者的角色,将是以后的研究热点。
第五,未来数据开放研究趋势主要为数据开放应用实践研究、元数据标准的“深度”与“广度”研究、数据开放政策与个人隐私保护研究、图书馆的“数据开放”新角色研究四个方面。
(来稿时间:2018年12月)