基于共词分析的我国科学数据领域研究主题探析❋

2014-12-25 02:15
图书馆 2014年6期
关键词:共词数据管理因子

(武汉大学信息管理学院 湖北武汉 430072)

1 引言

随着数据密集型、数据驱动的科研成为新的科研方式,科学数据的管理和共享迅速得到了国内外图书情报界、信息科学和其他学科领域的高度重视。王巧玲等从时间、主题和期刊等方面对我国科学数据共享研究的论文进行了计量分析,〔1〕姜晓虹梳理了科学数据研究的进程,并提出了现阶段研究存在的问题与不足以及未来重点关注的方向。〔2〕这些研究对了解科学数据研究的发展现状和趋势及其研究进程和结构有较大的参考价值,但他们均利用频次对文献数量、作者、主题、机构、来源期刊等进行统计描述,缺乏基于内容的分析,在考察科学数据的研究现状,尤其是对于当前科学数据的研究主题和热点的揭示存在一定的局限性。

共词分析法属于内容分析方法的一种,其原理是对一组词两两统计它们在同一篇文献中出现的次数,以此为基础对这些词进行聚类分析,从而反映出这些词之间的亲疏关系,进而分析这些词所代表的学科和主题的结构变化,鉴别某一学科或主题的主要知识结构和研究热点。〔3〕研究借助SPSS统计分析软件,采用共词分析方法探讨当前科学数据的研究主题,并结合文献梳理主要的研究内容,旨在更加完整、客观地展示科学数据领域的研究现状和结构。

2 研究设计

2.1 数据来源

研究所使用的数据来自CNKI全文数据库,为了尽可能地保证查全率,检索主题为“科学数据”或“科研数据”的相关文献 (精确匹配),时间设定为2003年至2013年(检索时间为2014年1月13日),共获得2221条记录。剔除与主题不符、重复刊载的论文和会议文献,有效记录为582条,下载相应的题录数据,采用共词分析法,分三个阶段进行研究。

2.2 研究过程

2.2.1 统计高频词和构造共词矩阵

第一,关键词的预处理。抽取题录数据中的关键词,在词频统计之前进行关键词的消歧处理,如将“data curation”中文译名统一为“数据监护”。第二,统计关键词频次和构建共词矩阵。利用EXCEL统计分析功能统计关键词的出现频次,并截取频次不小于5的48个关键词作为科学数据领域研究方向和热点的高频关键词。高频词不足以概括该领域的研究主题,需要两两统计这48个高频词在文献中出现的频次,利用EXCEL构造共词矩阵。

2.2.2 基于共词矩阵的因子分析

在共词矩阵的基础上,利用SPSS软件进行因子分析,进而展示该领域的研究主题和结构。因子分析的目标是用尽可能少的因子去描述众多的指标或要素之间的联系,根据相关性大小把研究对象的变量分组,使相关性比较密切的几个变量归在同一类中,每一类变量就成为一个因子。〔4〕因子分析中,为消除共词频次差异的影响,首先根据相关性将48×48的共词矩阵转化成斯皮尔曼相关矩阵。在此基础上,利用主成分分析法(Principal Components)、协方差矩阵(Covariance Matrix)和平均正交旋转方法(Equamax)进行因子分析,得到主成分列表,并根据各主成分内因子载荷的分布情况结合文献内容对主成分进行命名。

2.2.3 研究结果的分析和讨论

通过因子分析获得了国内科学数据领域研究论文关键词的聚类结果,结合相关主题的文献对研究结果进行进一步的阐释说明,确定我国科学数据领域的研究主题和结构,并深入分析相关主题的研究内容。

3 研究的主要发现

3.1 获取的高频关键词和构造的共词矩阵

通过对582篇文献的关键词进行词频统计,共获取1193个关键词。按照词频由高到低进行排序,并截取词频不小于5的48个高频关键词作为共词分析的基础(如表1)。可以看出,科学数据共享和科学数据是出现最为频繁的关键词,其频次远远高于排在第三的元数据。

表1 国内科学数据研究论文的高频关键词(频次>4)

将48个高频关键词两两组合,统计其在582篇文献中共现的次数,形成48×48的共词矩阵,如表2所示(版面所限,只列出共词矩阵的局部)。由于科学数据共享本身出现的频次远远高于其他关键词,因此,科学数据共享与其他关键词在同一篇文献中共现的概率也是最高的。

表2 国内科学数据研究论文高频词的共词矩阵(部分)

3.2 因子分析结果

通过因子分析,最终可得到主成分列表(如表3)。图1中列出了部分主成分,它们按特征根从大到小排列,放弃特征值小于1的主成分,前8个主成分解释了总变量的89.893%,其中仅前3个主成分的信息解释量就达到了63.914%。表3显示了因子载荷大于0.5的关键词在8个因子(主成分)中的分布情况。

表3 因子数与涵盖的信息量

表4 因子分析确定的科学数据研究主题结构

结合表3和表4,因子分析的结果如下:

(1)因子命名。大部分关键词都归于相应的因子,只有1个关键词——云计算,由于其载荷系数小于0.5而未能参加分类,说明这一关键词代表的主题较新,还没有很好地同其他研究方向相结合。根据因子载荷大于0.7就对因子解释有帮助的原则,〔5〕并综合因子中其他关键词的属性,笔者给8个因子依次命名为:科学数据共享和数据共享平台、科学数据组织与分类、科学数据监护与服务、科学数据整合、科学数据政策与开放获取、科学数据网格技术、科学数据挖掘、科学数据管理(见表4)。

(2)关键词跨区分布情况。共有4个关键词跨区分布。因子1和因子7中同时出现了数据共享平台,因子3和因子8中同时出现了科学数据管理,因子1和因子3中同时出现了数据服务,因子3和因子5中同时出现了关联数据。这表明了上述的两两因子包含的内容相互渗透和交叉,有一定的相关性。

(3)关键词的因子载荷系数为负的分布情况。共有2个关键词的因子载荷系数为负,分别为“数据集成”(系数为-0.588)和“关联规则”(系数为 -0.584),同相应的因子构成负相关关系,一般对此类因子不予考虑。例如,在因子3中的“关联规则”是负值,这表明关于科学数据监护与服务的研究可能涉及关联规则方面的问题,但还是比较少。

4 讨论

本部分结合关键词词频和因子分析的结果,确定了科学数据研究的8大主题。从数据库中获得相关主题文献的全文,通过深入分析文献内容,剖析这些主题的研究内容和结构,进而探讨目前国内科学数据研究所呈现出的特征。

4.1 研究分布的8大主题

4.1.1 科学数据共享和数据共享平台

国内对科学数据共享的研究主要涉及以下4方面:①科学数据共享的动力分析。如张晋朝采用问卷调查方法,通过结构方程模型分析了影响我国高校科研人员科学数据共享意愿的关键因素。〔6〕②图书馆、科研机构等机构参与科学数据共享。如黄筱瑾等探讨了研究型图书馆与科学数据共享的关系,指出不同类型图书馆应根据自身的服务能力及服务对象的需求提供不同类型的科学数据共享服务。〔7〕③不同技术在科学共享中的应用,包括本体、元数据、网格等。如李丽亚等构建了基于Ontology的数据共享检索体系,并实现了简单的语义查询功能。〔8〕④科学数据共享的模式和实践。如左建安和陈雅提出了大数据环境下科学数据共享的4种模式:国家政策驱动、部门之间交换、企业发展带动以及国际组织参与。〔9〕

科技部在2002年和2003年分别启动的“国家科学数据共享工程”和“国家基础条件平台建设”项目,引发了科学数据共享平台建设与研究的热潮。地球、气象、林业、水利、机械、资源环境等不同学科和专业领域的学者均探讨了相应领域中数据共享平台中数据资源建设、数据资源分类与编码、数据安全、数据汇交、网站总体设计、平台的架构与实现、互操作等问题。如诸云强等基于Java EE环境,研制开发了分布式地球系统科学数据共享平台,能够实现跨部门、跨系统的部署。〔10〕

4.1.2 科学数据组织与分类

科学数据分类与组织是科学数据管理、集成和服务的基础。早期的研究主要包括元数据和XML等数据标引技术、分类和编码体系以及传统的信息组织方法的应用。如耿庆斋等提出了多维组合的水利科学数据分类体系结构,构建了由科学属性、获取方法、数据载体和时空定位组成的多维水利科学数据分类体系,并对其进行了规范化的编码设计。〔11〕

随着对语义网技术研究的深入,数据资源的组织方法不再仅仅从数据资源的表面特征入手,而是逐渐深入至数据资源的概念和语义,出现了一些基于本体、关联数据、生命周期的数据组织的理论与方法。如房小可指出图书馆可以从实体命名、实体资源描述框架描述、实体关联胡和实体的发布等方面构建科学数据的组织模型。〔12〕

4.1.3 科学数据监护与服务

国外图书情报界对数据监护(Data Curation,DC)的研究涉猎较广,从其历史背景、概念界定、战略规划的制定、数据标准、关键技术到相关法律制定等都作了很多探索性研究与实践。〔13〕然而,DC在国内图书情报界还是一个新兴的研究领域,目前还没有相关实践探索,理论研究主要集中在:①国外的机构、组织及高校图书馆等有关DC的会议、培训、项目和实践活动及其最新进展。②国内图书馆可开展的DC服务,包括数据保存、数据共享和教育培训等服务类型,分析开展此项服务面临的问题,并提出相应的对策。〔14〕③在国内实施DC的方法和途径,包括制定明确的DC规划和发展策略、培训数据监护人才、完善高校图书馆数字资源长期保存机制等。〔15〕

随着科学研究逐渐向数据密集型科研转变,科研信息服务也由传统的文献服务转向科学数据服务。国内科学数据服务研究主要关注以下3个方面:①科学数据服务的内容与方式。主要包括数据存储与发布服务、数据发现与获取服务、数据管理规划服务、数据分析服务、数据引用服务和用户社区服务等。〔16〕②科学数据服务中技术的应用。涉及数据共享平台的构建技术、数据存储、访问和获取技术、SOA技术、语义集成技术、云计算和虚拟化技术等。③图书馆参与科学数据服务。研究主要包括科学数据服务引发的图书馆未来发展定位、战略规划问题、图书馆参与科学数据服务的角色定位、图书馆可提供的科学数据服务方式及基于科学数据服务的信息素养教育等。〔17〕

4.1.4 科学数据整合

整合集成海量与异构的科学数据资源是实现科学数据管理和共享的基础。目前在实际应用中已经形成了一些较为成熟的整合方式,主要包括基于数据仓库和基于中间模式的整合方式。〔18〕随着数据仓库应用和网络技术的发展,基于数据仓库的整合方式有了一些新的发展,如整合的对象由异构数据库向Web数据发展、利用数据挖掘等技术实现决策服务等更深层次的服务。基于中介模式的整合方式主要是采用中间件,中间件构建方法主要有两种:基于XML和基于语义模型的构建。〔19〕基于中介模式的整合方式也有一些新的发展,如开始利用Web Service、网格中间件等相关技术实现面向服务的集成整合。另外,为了解决数据整合中的语义异构问题,研究者开始关注如何利用具有较强语义概念的本体来解决数据整合中的语义不一致的问题。

4.1.5 科学数据政策与开放获取

科学数据的管理和共享需要政策的支持和引导,国外在科学数据政策的制定和研究起步较早。国内相关研究主要侧重于对英、美和澳大利亚等发达国家科学数据政策的调查和分析。从结构层次上看,科学数据政策体系应该是由宏观(国家)、中观(科研资助机构)、微观(科研机构、高校、出版机构等)层面分别制定的科学数据政策共同组成。从内容上看,科学数据政策体系的内容至少应该涵盖数据产生与汇交政策、数据管理与共享政策、数据保管与利用政策、技术支持政策。裴雷结合我国科学数据相关政策进行了实证研究,构建了上下位政策概念的一致性指标测算框架,讨论了12个领域数据共享政策在吸收、扩散和创新过程中的政策文本质量,并提出改进建议。〔20〕

相关的科学数据保存和共享政策,极大地促进了数据的开放获取。国内对科学数据开放获取的研究主要集中在科学数据公共获取的障碍、开放科学数据的相关政策、科学数据的开放注册和引用、开放科学数据仓储与数据共享平台等。陈传夫较早地关注了科学数据的公共获取问题,分析了科学数据获取方面存在的障碍,提出促进科学数据公共获取的建议。〔21〕随后,刘细文和熊瑞分析了英美以及众多国际组织与研究机构的开放获取政策的特点,认为其体现出围绕科学数据交流渠道的各环节的特征。〔22〕另外,黄永文等对国外3个开放科学数据仓储进行了介绍和比较,指出唯一标识符(DOI)和CC协议的采用有利于科学数据的开放共享和再利用。〔23〕

4.1.6 科学数据网格技术

网格是一个集成的计算和资源环境,其目标是将分布在不同地理位置上的网络、数据、计算资源、存储、应用等在内的资源整合成一个无缝的计算环境。〔24〕科学数据网格(SDG)是其在国内的主要应用。SDG是中科院科研信息化环境建设中的一个试点项目,建立在海量数据资源的基础上,旨在利用网格技术达到大规模、分布、异构的数据资源的集成和共享,并以网格服务的形式提供数据服务的发布、查找和调用。〔25〕

目前科学数据网格以Globus为基础提供数据访问和统一服务接口,但本质上还是C/S模型,在发布和发现服务上采用集中式模式,对海量数据访问低效,周园春等在结合P2P特点的基础上,提出了一种新的数据访问中间件框架,具有可扩展性、数据访问高效性等特点。〔26〕另外,科学数据网格环境下数据传输技术、数据资源节点信任评价系统、信息服务技术、分布式查询处理技术的关注也不断增加。

4.1.7 科学数据挖掘

科学数据海量增长的态势,使得科学数据挖掘技术在数据分析、聚类、关联、知识发现以及趋势预测等各项应用中变得尤为重要。由于数据的高维度、时变、时空相关等特性,使得现有的数据挖掘技术不能够完全适应这些特性,很多学者探讨如何将传统的数据挖掘方法包括基于决策树的方法、基于神经网络的方法、基于遗传算法的方法、贝叶斯方法、基于粗糙集的方法等应用在科学数据挖掘中,提高挖掘的效率与精度。另外,针对当前对科学数据特征表示的深度不够问题,孙巍提出了一种基于复合文本描述的科学数据特征的表示方法,提高了科学数据聚类的效果。〔27〕

4.1.8 科学数据管理

科学数据管理的研究主要集中在:①国外科学数据管理与服务实践。如彭建波归纳了北美人文社会科学数据管理典型案例的特点,对我国开展人文社会科学数据管理提出了建议。〔28〕②科学数据管理工具与模式,涉及科学数据管理系统与平台、科学数据可视化分析系统、科学数据管理的方法与程序和科学数据管理框架等。③科学数据管理政策。主要包括宏观和微观两个层面,宏观政策为科学数据的管理和共享提供法律上的依据,〔29〕微观层面主要体现在组织、机构等的数据发展与管理政策。④科学数据管理的教育与培训。主要是对国外培训项目的介绍,目前国内图书情报专业课程设置中还未曾见到与科学数据管理相关的课程。〔30〕

4.2 研究特点分析

通过因子分析和对文献内容的研究,国内学者对科学数据的研究已经形成了相对集中的主题领域,我们可以对科学数据的研究特点做进一步的探讨。第一,从上述8大主题的研究深度来看,部分主题还停留在基础理论的研究阶段。以科学数据共享主题为例,主要探讨了数据共享的方法与机制,并没有深入探究科研人员对科学数据需求状况、数据共享中利益平衡问题以及科学数据共享中的障碍因素。第二,许多新兴主题研究力度不够,难以单独形成体系。通过对关键词的统计分析,发现“云计算”、“关联数据”等主题正在逐步成长为新的热点,但由于关注度和研究力度不够,使得他们在共词分析中只能依附于其他主题。第三,部分研究主题内容相互交叉。例如,“科学数据共享和数据共享平台”和“科学数据监护与服务”这两个主题均涉及到科学数据服务的研究。

5 结论

研究以近十年国内科学数据研究的582篇文献的高频关键词为数据基础,通过共词分析方法对研究主题和结构进行了分析,揭示了国内科学数据8大研究主题,分别为科学数据共享和数据共享平台、科学数据组织与分类、科学数据监护与服务、科学数据整合、科学数据政策与开放获取、科学数据网格技术、科学数据挖掘、科学数据管理,对了解国内科学数据研究的关注主题具有较大的参考价值。需要指出的是,研究尚处于探索性阶段,还存在着一些不足。首先,在高频词的阈值确定方面,没有足够的理论支撑,阈值的确定很大程度上依赖于以往的经验,具有一定的主观性。其次,所研究的文献类型为期刊论文,并没有包括学位论文等其他文献,如果将其他类型的文献统计在内,可能会对研究结论有一定的修正作用。另外,还可以利用CiteSpace等软件对共引作者、机构等进行分析,展示当前科学数据领域的研究进展和前沿。

1.王巧玲,钟永恒,江洪.我国科学数据共享研究的文献计量分析.情报杂志,2008(7):128-130

2.姜晓虹.国内科学数据相关研究进展分析.图书情报工作,2009,53(13):50-53

3.李武,董伟.国内开放存取的研究热点:基于共词分析的文献计量研究.中国图书馆学报,2010(6):105-115

4.陆宇杰,张凤仙,范并思.基于共词分析的高校图书馆核心价值研究.大学图书馆学报,2012(6):34-40

5.马费成,望俊成,张于涛.国内生命周期理论研究知识图谱绘制.情报科学,2010(3):334-340

6.张晋朝.我国高校科研人员科学数据共享意愿研究.情报理论与实践,2013,36(10):25-30

7.黄筱瑾,朱江,李菁楠.研究型图书馆参与科学数据共享服务研究.图书馆论坛,2009,29(6):177-179

8.李丽亚等.基于Ontology的科学数据共享检索体系解析.情报理论与实践,2009(5):81-85

9.左建安,陈雅.基于大数据环境的科学数据共享模式研究.情报杂志,2013(12):151-154

10.诸云强等.分布式地球系统科学数据共享平台研究.计算机工程与应用,2009,45(1):245-248

11.耿庆斋,张行南,朱星明.基于多维组合的水利科学数据分类体系及其编码结构.河海大学学报(自然科学版),2009(3):23

12.房小可.基于关联数据的高校图书馆科学数据组织研究.图书馆建设,2013(10):31-44

13.吴敏琦.Digital Curation:图书情报学的一个新兴研究领域.图书馆杂志,2012(3):8-12

14.沈婷婷,卢志国.数据监管在我国高校图书馆的应用展望.图书情报工作,2012,56(7):54-57

15.程莲娟.美国高校图书馆数据监护的实践及其启示.图书馆杂志,2012,31(1):76-78

16.洪程.国外科学数据服务现状研究.图书馆杂志,2012(10):31-34

17.肖潇,吕俊生.E-science环境下国外图书馆科学数据服务研究进展.图书情报工作,2012,56(17):53-58

18.马文峰,杜小勇.基于数据的资源整合.情报资料工作,2007(1):41-45

19.白如江,冷伏海.“大数据”时代科学数据整合研究.情报理论与实践,2014(1):94-99

20.裴雷.我国科学数据共享政策概念一致性与政策质量评估.情报理论与实践,2013,36(9):28-31

21.陈传夫.中国科学数据公共获取机制:特点、障碍与优化的建议.中国软科学,2004(2):8-13

22.刘细文,熊瑞.国外科学数据开放获取政策特点分析.情报理论与实践,2009(9):5-9

23.黄永文等.国外开放科学数据研究综述.现代图书情报技术,2013(5):21-27

24.宋佳等.人地系统科学数据网格.科研信息化技术与应用,2011(2):82-89

25.张西广等.科学数据网格研究进展.计算机应用研究,2009,26(10):3601-3603,3624

26.周园春等.科学数据网格中数据访问中间件的研究.微电子学与计算机,2006,23(11):44-46

27.孙巍.一种基于复合文本描述的科学数据特征表示方法.现代图书情报技术,2009(5):22-27

28.彭建波.北美人文社会科学数据管理的实践及其启示.大学图书馆学报,2013(6):33-37

29.孟祥保,钱鹏.高校社会科学数据管理的国际经验及其借鉴——以UKDA和ICPSR为例.情报资料工作,2013(2):77-80

30.司莉等.2005年以来国外科学数据管理与共享研究进展与启示.国家图书馆学刊,2013,22(3):40-49

猜你喜欢
共词数据管理因子
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
因子von Neumann代数上的非线性ξ-Jordan*-三重可导映射
CTCS-2级报文数据管理需求分析和实现
一些关于无穷多个素因子的问题
影响因子
基于突变检测与共词分析的深阅读新兴趋势分析
我的健康和长寿因子
基于Matlab的共词矩阵构造