新一代机构知识库中研究数据的关联组织研究

2018-12-04 09:39都平平李雨珂邓志文陈俊男
现代情报 2018年12期
关键词:知识库数据管理关联

都平平 李雨珂 孟 勇 邓志文 鲍 劼 陈俊男

(1.中国矿业大学图书馆,江苏 徐州 221116;2.上海出版印刷高等专科学校文化传播系,上海 200093;3.南京大学图书馆,江苏 南京 210023;4.国立台湾科技大学,台北)

研究数据,是新的生产要素,是开展学术探究的基础性资源和实现十九大报告提出:“推动实施国家大数据战略,加强完善数据基础设施,推进数据资源整合和开放共享,保障数据安全,加快建设数字中国”的战略性资源。本文针对机构知识库中研究数据关联组织作为研究对象,创新性设计研究数据关联组织方案和管理策略,规范机构知识资源在重组中的关联保存和运用,促进数据资源发展,实现科学获取数据、全面关联组织数据、开放利用数据[1]。

1 研究数据的发展与现状

1.1 发 展

16世纪,Tycho Brahe使用六分仪记录天文观测数据,R L Baker最早在文献中使用科研数据管理这一术语,学术记录正在演变成为一种更深入全面的学术活动记录,其范围不再局限于期刊文章和专著报告的成果,而是扩展到包括在研究过程中和出版后产生的一系列学术成果[2-3]。400年后,斯隆数据巡天(Sloan Digital Sky Survey)广泛采用新的大数据驱动的研究模型来计算这些数据量非常大的数据。加上人文和社会科学领域新兴的数据密集型计算研究技术,彻底改变了21世纪学术研究数据及其组合、管理、处理过程中的面貌,数据集的保留和长期管理正在成为学科学术实践的一部分,在发达国家,以往的机构知识库运行管理正在开始新的升级探索——研究数据管理(RDM)[4-5]。我国的研究数据的研究经历了19世纪60年代到20世纪末期的缓慢发展阶段,直到20世纪末期至今,在开放科学运动的促进下逐渐升温。国内学者对开放科学的研究集中在概念辨析、动机探索、角色转等方面,2002年科技部提出我国将实施科学数据共享工程,以此为标志,我国的“研究数据研究(RDM)”拉开了帷幕。

1.2 现 状

RDM是开放数据运动的产物,研究数据管理涵盖了数据获取、关联、分析、运用各方面。①数据获取:研究数据作为学术记录的一部分进行管理的益处得到了资助者、政府机构和研究机构的广泛认可[6]。美国国家科学基金会(NSF)要求所有项目计划书在提交时一并提交其数据管理计划,并注明“研究者愿意与其他研究者共享主要数据、样的、物理馆藏及其他在NSF资助下创造或收集的支持材料”[7];英国研究委员会的理念是“在公共资助下产生的研究数据是公共财富,由公共利益产生,应以及时的、负责任的方式尽可能减少限制,公开可用”[8]。国外许多大学都对全范围地记录教师和学生创造的数据集等学术成果感兴趣,并经常使用Elsevier Pure、Symplectic Elements等科研信息管理(RIM)系统来记录和描述这些学术产出。许多机构开发了RDM服务包,以帮助其教师和学生能够在研究过程中和研究后有效地管理研究数据集,数据的发展要在规划基础上进行促进数据网络协调和可持续发展已经成为共识[9-10]。②关联组织数据:把研究数据与论文或论著置于同等甚至更为重要的位置是国际科学界的新理念。数据的质量而非数量对服务和数字创新至关重要(Kuk和Davies,2011),关联数据和开放数据的价值创造需要将来自不同数据源的数据结合起来(Janssen,Estevez & Janowski,2014)成果研究数据的数据关联新组合,可以对隐藏数据的发现和有利于对新见解的揭示[11]。③开放复用数据:目前世界发达国家都将开放科学看作是科技创新的抓手,纳入本国发展战略。2013年欧洲建立了欧洲开放科学云“European Open Science Cloud”,八国集团首脑在北爱尔兰峰会上签署《开放数据宪章》提出了开放数据五原则[12]。开放科学是欧盟研究科学和创新政策的三大重心之一,芬兰教育文化部于2014年10月发布了《2014-2017年开放科学与研究路线图》,明确提出芬兰要在2017年成为全球开放科学的领先国家[13]。2017年3月欧盟委员会发布《开放科学监测报告》[14]。G Knight提出,高校图书馆有必要根据研究人员需要提供量身定制的服务,实践中可以依据现有的科研项目特性尝试估计不同情景下潜在用户的需求,加强数据利用和再利用,形成研究成果公开和流通向研究数据的再利用转移的趋势[15]。④OCLC于2017上半年发布了《研究数据管理的现实》(The Realities of Research Data Management)系列报告[16]。

我国“科学数据(科研数据)开放、共享、管理”的实践探索与学术研究,主要表现为以下几个方面:①出台或制定科学数据管理规范或标准。代表性的有科技部的《国家科学数据中心建设技术规范》、中科院的《科学数据分类规范与分类词表》标准、以及中国国家委员会的《数据治理白皮书》国际标准[17]。②开通运营若干科学数据共享平台。代表性的有科技部的国家科技基础条件平台、陕西省科学数据共享平台、自2011年始,复旦大学、武汉大学、北京大学和上海外国语大学图书馆先后开展了科研数据管理服务工作。2014年10月召开的“中国高校图书馆科学数据研究与实践联盟讨论会”确定了“推进科研数据管理措施、政策的制定和施行”等8项工作目标。

2 新一代机构知识库的内容扩展

目前多数高校建设的是研究成果型的机构知识库,建设的资源主要是学术成果,而“新一代”高校机构知识库是传统机构知识库的扩展,即科学研究者,科研过程中产生的研究数据,科研过程完成的研究成果三者的共建,在建设中需要解决的问题是科研全过程中产生的数据的采集、保存、关系数据的关联组织、发布管理等相关问题。在原有机构库基础上主要发展和完善包括:新一代高校机构知识库的建设内容扩展;科研全过程数据的采集;数据保存规范及数据的保存方式;科研过程中数据的关联关系及关联展示;科学研究者、研究数据、研究成果的关联数据共享及开放利用。

3 研究数据的组织与关联

3.1 机构知识中成果数据与研究数据的关联关系

国外高校科学数据管理的方式经历了从机构知识库到数据存储管理中心再到数据监管发布中心的演变。最初高校机构知识库或机构仓储仅限于保存研究论文、报告或灰色文献等成果数据,随着公众和科学界对研究数据管理和共享需求越来越高,研究数据机构库成为趋势和发展目标。一般产生机构研究数据较多的是高校和研究机构,它是科学进程中通过社会调查、科学实验、科学勘探,数据普查等产生的过程成果,是进行科学研究的依据,是得出结论事实认证。研究数据中蕴含着大量的信息,包括数据的属性、来源、走向、数据间的关系等,要建立科学的研究体系、可持续的研究及数据二次利用的是必要的,进行研究数据的采集与归档管理。对科学数据进行属性分析,进行关系关联,可以使读者直观了解数据与数据的链接关系,为读者的科研选题或科研过程提供支持。见数据关系图1。

3.2 研究数据的数据范畴

研究数据是通过数据的方法研究科学和用科学的方法研究数据产生的数据,学术调研的基础,为实证调研和推理提供的原始材料,研究数据的组成包括两个因素:一是数据的广泛性和多样性;二是数据研究的共性。现代社会的各行各业都充满了数据,这些数据的类型多种多样,不仅包括传统的结构化数据,也包括网页、文本、图像、视频、语音等非结构化数据。主要为:科学数据集(实验数据、模拟数据、标本数据等);调查数据(勘探数据、卫星数据等);普查数据(人口普查、地质普查等);统计数据(经济数据等);编制数据(软件、汇编、定制数据等);交互数据(富媒体交互产生的数据);机器学习数据(图形数据等)。

图1 机构知识库和“新一代”机构知识库关联关系

3.3 研究数据的采集与归档

研究数据主要特点为:①数据量大;②数据维度高;③数据不规律增加;④数据类型复杂;⑤数据混杂等特点。采集数据主要通过学者自身的数据提交,机构采集,管理通过网页爬虫、数据抓取、大数据标注、人工搜索和整理等。快速的提取二次使用数据。仓储时存在给数据清洗和分析带来挑战,需要有一定修正功能的模型(如图像中的正则化和机器学习中的去噪自编码器)来进行清洗处理[18]。

表1 数据特性、问题与采集关系表

4 研究数据的关联关系及开放体系构建

关联数据是指通过统一资源标识符(URI)来标识实体数据,并用资源描述框架(RDF)进行链接,然后发布到网上,继而用户可以采用超文本传输协议(HTTP)来获取利用所发布的数据,其核心意义就是注重数据之间的语义互联,使人和计算机能够充分利用这些语境信息。数据的关联能够将数据库的数据进行链接互联,其不仅可以将同一数据库不同系统内难以互操作的数据进行关联,还可以把不同来源的数据库互联。具体来说,关联管理是指这些数据集可以与其他外部数据库的数据集进行链接,从而达到资源重组聚合,能够最大化利用的效果。研究数据关联可系统分析为:“成果—关联—数据—结构—效果—利用”的逻辑结构关系出发,分析RDM组织过程数据关联规律、形成要素、知识链之间的链接方式,揭示机构知识库和研究数据之间的多维度关系。从好利用和好共享的标准来完善研究数据揭示关系,对分布、传递、相互引证及其功能的开发利用等做出定量描述,进行数据分析和研究,建立关联模型,以揭示其特征和内在规律[19]。

图2 学者—研究数据—研究成果关联关系

5 机构知识资源数据缺失与实施保障案例

研究数据的作为学术记录的益处已经被投资者、政府部门、研究机构所认可。

5.1 数据缺失的损失案例

法国巴斯德大学植物学家Véronique Ziegler-Graff于15年前发表的一篇文章(J Virol,2002,(13):6815-6824),被发现多幅Western Blot和Northern Blot插图的有问题,包括同一泳道图像重复生成不同的插图、不恰当的对比度调校等。责任落到了负责配图的一作S Pfeffer肩上。该实验室重复了实验,确认了当年的结论,也有其他好几个实验室独立进行了确认。本来可以用原始图像生成正确的插图纠正过来,然而,因为不能提供所有的原始数据,通讯作者最后还是决定,主动要求把它撤了……[20]。

一般做完实验写好文章,通常单位、资助机构和某些杂志会要求提交原始数据,上传云端或刻入光盘,但最好的保障措施是机构管理。

5.2 数据的保障措施

Dryad(大型公共科研数据库)是2008年9月由美国国家科学基金会资助建立的非盈利性共享科研数据库,推动各学科的科研数据开放共享。一方面长期保存了出版物背后的数据;另一方面也使它们可被发现、可重复使用、可引用,让其他学者从历史数据中创造新的价值,也可用真实数据进行科研教育[21]。

这类大型的研究数据机构,一般有详细而完善的数据保存策略,包括备份、迁移、故障应急预案等,也有专门的程序来监测数据的流通、识别非法操作。它身为作者和期刊之间的第三方公共数据库,有自己的一套管理审核措施。它接受所有类型的与出版物相关的原始数据,包括文本、图像、表格、音频、视频等等,默认情况下与文章一同发表。数据提交后会获得永久可解析的DOI标识,便于引用和交流。

由此可见,研究数据的管理和研究意义重大。

6 新一代机构知识资源研究数据建设机遇与作用

2017年5月,欧盟竞争力委员会(The Competitiveness Council)在布鲁塞尔欧盟总部达成了一个雄心勃勃的开放获取(OA)目标——至2020年,欧洲所有科学文章要实现可自由访问,这种开放也延伸到科学数据(我们称之为“OA-2020决定”),构建科研环境和创新环境,为开放科研成果和共享科研数据带来机遇,改善创新环境、提高竞争力的有效设计。是科学研究开放化发展。

新一代机构知识资源奖研究成果和研究数据资源的关联组织,将其融入高校知识资源循环利用创新体系中,对高校各种创新成果及过程成果(包括专家、知识、数据、利用等)进行数据揭示和创新发现,对其组织、活动、成果、政策、环境、发展、效果、贡献等的分布、传递、相互关联引证和循环利用等协同关系做出定量描述,并进行研究数据开放使用分析和研究,揭示其研究数据及成果的数量特征和内在规律[21]。为成果和数据揭示的技术化、规范化、科学化提供参考依据,以改善高校知识资源的组织管理、信息管理和创新管理,提高机构知识库研究数据关联组织管理水平和开放效果[22]。

研究数据资源的关联组织使机构知识库的数字资源实现有效关联、高度聚合,从而使用户能够迅速、准确、方便获取到需要的资源,充分满足用户的需求。关联数据具有高度关联、充分共享、容易扩展、方便重用等特征。数据资源是重要的现代战略资源,其重要程度将越来越凸显,在本世纪有可能超过石油、煤炭、矿产,成为最重要的人类资源之一[23]。

猜你喜欢
知识库数据管理关联
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
“一带一路”递进,关联民生更紧
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
奇趣搭配
智趣
高速公路信息系统维护知识库的建立和应用