机构科研数据知识库联盟建设模式比较*

2018-08-08 03:09
图书馆论坛 2018年8期
关键词:集中式知识库数据管理

越来越多的学术机构将产出的科研数据存放在机构知识库中。尽管科研数据机构知识库可作为保存、共享科研数据的选择,但所收集的数据资源仅来源于本机构,共享范围仅限于机构内部。科研数据管理面临的挑战与日俱增,任何学术机构均难以凭借自身有限的力量独自应对。因此,由个体独立的“机构知识库孤岛”逐渐走向协同一体的机构知识库联盟,是科研数据机构库发展的必然趋势,也是科研数据共享的内在要求。科研数据资源是机构科研数据知识库联盟存在与运行的基础,也是联盟各项工作的基本对象,系机构科研数据知识库联盟建设的最基本要素。其收集管理方式对于联盟的组织管理形式具有实质性影响,因而从根本上决定着联盟的建设模式。国内外机构知识库联盟主要采用集中采集管理(保存)资源与分布采集管理(保存)资源两大方式[1-4]。机构科研数据知识库联盟就其本质而言是一种机构知识库联盟,因此在建设中可在对数据实施集中采集管理、分布采集管理的基础上,构建相应的联盟组织与管理机制,进而形成两种联盟建设模式——集中式建设模式与分布式建设模式。实践中,芬兰Doria等机构知识库联盟同时采用集中采集、分布采集加元数据收割这两种资源收集方式[4]。由此可见,综合集中式与分布式模式之长,形成融两者特点于一体的联盟建设模式也应可行,笔者将其称为混合式建设模式。

1 集中式建设模式

1.1 运行架构

由参与机构共建、共用一个集中式的机构知识库是构建机构知识库联盟的途径之一,其称为共享型机构库联盟[5]。集中式建设模式是指多所学术机构组成一个联合体,只建立一个科研数据平台,各机构的内部成员将元数据与数据提交至该机构数据管理部门,再由其提交至该平台;或直接将元数据与数据提交到该平台,然后通过统一的用户界面为成员机构和/或联合体外部用户提供服务,所构建的科研数据平台实际上是联合体的科研数据机构库。从数据提交到数据开放使用的全过程,所有的数据管理与维护实行集中管理,每个联盟成员遵循相同的数据开放获取协议。联盟设有中枢管理负责机构,由能力较强的成员主导联盟构建和管理,其余成员安排联络人员,就自身的需求进行沟通,协调,保障科研数据平台的统一管理与运行。模式架构见图1。

图1 集中式建设模式架构图

1.2 优势与不足

1.2.1 优势

(1)各参与机构的成本低,避免重复性投入,易于产生数据管理与共享的规模效应。

(2)集中力量对提交的数据进行系统的筛选和组织、加工,协力解决数据管理与保存中的难题,从而提高数据资源建设与管理的质量。

(3)由于应用统一的技术标准,便于科研数据元数据的管理与开放乃至平台与外部数据平台的互操作,也有助于实现服务的标准化。

(4)对建设条件欠缺且无法独立地保存科研数据的成员机构,通过实施该模式可以快速实现科研数据的有效管理与安全保存,并在共建过程中提升建设能力,最终有益于保障数据的长期再利用。

1.2.2 不足

(1)联盟政策制定困难。为使联盟政策尽可能兼顾各成员的利益,须高度依赖成员机构间的反复协调和联盟管理中心的统筹规划,但成员的特殊诉求仍不易满足,统筹协调过多会降低管理效率。

(2)较难处理成员间的利益平衡。一方面联盟只建立一个科研数据平台,其或以某一核心机构徽标为标识,或以联盟徽标为标识,不能展示各成员的身份;对外宣传时无法详加说明每个成员机构的贡献与付出,因而使多数成员不易得到外界的认可与关注,缺少归属感,从而挫伤其积极性,最终可能削弱其提交数据的意愿。另一方面,当联盟成员对联盟所作贡献与从中所得大不相称,投入与回报差距较悬殊时,易引发联盟行政管理层面的问题,诱发成员间的矛盾,甚至导致贡献大的成员退出联盟。

(3)联盟数据平台的使用与推广有所受限。成员机构均没有自己专属的科研数据机构库,而由于各成员内部的相关系统(如教师成果系统、实验室管理系统、科研管理信息系统)在接口、标准规范、协议、体系结构等方面存在差异,联盟的科研数据平台较难与这些系统进行有机集成,使科研数据平台不易嵌入研究人员的日常科研环境中,从而对其使用和宣传推广造成不利影响。

(4)建立大规模的机构科研数据知识库联盟时存在较多困难。为保障海量数据的长期安全保存,并及时响应、处理来自各方的数据操作与服务请求,科研数据平台必须具备优异的效能。依托一个科研数据管理系统/平台支撑联盟的运行,即使在其建设和维护上予以大量投入,科研数据管理与保存的风险仍可能随着时间的推移而不断增大,用户服务也将面临巨大压力。

1.3 适用情境

(1)科研数据的总量较小或数据的增长速度较慢。集中式模式下,联盟仅仅依靠一个数据管理共享系统/平台担负管理、保存所有成员的科研数据与提供各类服务的重任,对平台的效能、可靠性要求很高。因此,若数据量过大或者数据持续激增,平台在数据管理、存储、检索等方面的性能也必须随之迅速提高。平台如不能及时地更新升级,将很可能难堪重负。

(2)各成员机构之间具备良好的合作历史或具有共同的隶属关系。加入集中式联盟往往意味着将数据资源托付给数据管理经验丰富的机构代管,这显然要求联盟成员对彼此间的情况较为熟悉,且对代管机构具有较强的信任。还需要各成员在事关科研数据管理与共享的重大问题上保持一致,且成员间无明显的利益冲突。因此,如果成员机构具有共同的隶属关系或彼此间的交往与合作较密切,则更为适用该模式。

(3)成员机构遵循统一的标准协议。一方面,实行数据的集中采集、管理与存储必然要求各成员依据一致的数据选择标准、组织加工标准和统一的数据管理规程开展相应工作。另一方面,成员机构都通过同一个平台/系统获取科研数据,因而也必须遵循统一的数据开放使用协议才能保证各成员在共享、利用数据时享有平等的权利、义务,以维系联盟内部关系的和谐。

(4)成员机构对科研数据共享持开放态度。采用集中式模式的联盟对科研数据实施集中管控,或由少数实力较雄厚的成员代为履行数据保管职能,或另辟存储空间,实行成员机构共管,因此参与成员愿意将数据置于外部空间保管。如成员机构大力支持科研数据共享,则往往并不过分在意数据存储的位置(机构内或机构外)。所以成员机构对科研数据共享的态度积极与否也是联盟是否选择集中式建设模式的影响因素。

(5)数据的来源学科较单一,种类较少。当集中保管成员机构的所有科研数据时,原则上应依照统一的元数据标准进行描述。然而,科研数据的类型、格式极为繁多。尤其在自然科学领域,不同学科甚至同一学科内不同研究领域的数据的属性都差异显著,难以使用一种元数据标准进行描述。只有数据来自同一学科或若干邻近学科,选用统一的元数据标准才较为可行。

2 分布式建设模式

2.1 运行架构

从各成员的机构知识库中收割数据,构建集成检索平台,使用户经由统一检索界面访问和获取资源是构建机构知识库联盟的另一策略。中国农业科学院机构知识库采取的“集中揭示、分布部署”的“院-研究所”两级建设模式即是上述策略的具体应用[6]。据此,机构科研数据知识库联盟的分布式建设模式是指成员机构根据共同的数据交互标准,分别建立物理空间独立的科研数据机构库,使数据资源呈离散式分布。同时在实现各机构库中资源独立搜索的基础上,收割各库中数据的元数据并汇集到一个元数据仓储中或向其中分别导入元数据文档,通过建立统一检索平台的方式为用户提供联盟中所有科研数据机构库内资源的一站式检索。该元数据仓储实际上成为联盟数据资源集成共享的纽带。成员机构仍遵循统一的数据开放获取协议(但某机构内部人员访问、利用本机构科研数据机构库时可能执行与此不同的开放获取协议)。联盟的管理组织架构相对松散,可能不必设置中枢管理机构,仅订立合作协议或章程。模式架构如图2所示。

图2 分布式建设模式架构图

2.2 优势与不足

2.2.1 优势

(1)易于宣传各成员及其科研数据机构库。建立的多个科研数据机构库构成科研数据资源节点网络,一旦形成整体性的科研数据共享声誉、品牌,个体科研数据机构库便可展现出自身价值。借助网络效应,在更高层次和更大范围内帮助本机构提升学术形象和扩大影响。

(2)成员机构能较好地保持自主性。作为相对独立的节点,成员机构在数据资源采集和组织加工方面所受的限制与约束较小,便于实现数据资源建设的连续性和特色性。各成员不仅参与联盟开展的各项公共服务,还可以根据自身的战略规划和内部人员的数据管理需求开发和拓展本地化和个性化的功能、服务,从而提升联盟服务的层次性和多样性。

(3)利于深化和拓展成员间的合作。成员机构在建设的过程中都可能遇到有关机构库管理政策框架、数据保存技术、数据管理与服务系统、知识产权保护等方面的相同或类似问题。通过联盟的纽带作用,各成员很容易建立和形成更多聚焦科研数据机构库建设的社群,利于科研数据机构库的推广普及,同时也为成员间凝聚共识提供了条件,有利于促进整个联盟的协同可持续发展。

(4)建设难度较低。OAI-PMH、OAI-ORE等开放互操作标准在包括科研数据平台在内的数字化知识库系统的开发中得到普遍应用,并已基本成为一种默认标准。科学数据云,尤其是领域科学数据云的发展显著优化了分布式科研数据中心的资源存储、聚合、检索与共享。机构科研数据知识库联盟分布式建设模式实现的技术难度由此大大降低。

2.2.2 不足

(1)各成员选用的数据管理软件/系统可能相异。该模式强调联盟成员的高度自治性,并不强制其采用同一软件,只是推荐使用某种软件/系统,或自主开发原型系统供成员选择。这固然有助于使各成员较好地满足自身的实际应用需求,但不利于主流科研数据管理系统工具的推广应用,系统间的互操作也面临挑战。联盟成员不便分享系统运行、维护、更新等方面的经验或教训,某个成员遇到有关系统开发与维护的疑难时也难以向其他成员寻求解决方案。

(2)使用的元数据标准可能不一致。该模式的实现建立在对各联盟成员本地科研数据机构库元数据的采集基础之上,而各成员采用的数据管理软件的不同以及对数据描述与组织的要求相异决定了各个机构库应用的元数据标准也有所差别。这就需要专门设计元数据互操作解决方案,在统一跨库检索时完成元数据间的互操作,否则将会降低数据检索的检全率、检准率。

(3)制定的政策不尽相同。每个成员自主管理本地数据机构库,联盟管理层或领导机构尽管可通过编制宏观性的数据管理政策指南以明确成员机构政策的编制原则和基本框架,但并不统一规定各成员的数据管理共享政策与方式。这种弹性管理增加了成员在行动上保持一致的难度。例如,数据采集政策的区别可能导致不同机构库中数据资源的种类有所差异,影响数据收集的完整性以及数据的整合效果。成员制定的数据加工处理或质量控制标准不同,也会使各机构库中数据的质量参差不齐,削弱联盟数据的整体质量。

(4)可能引发数据资源的重复建设。由于科研合作行为的普遍存在,多个机构、人员可能拥有同一科研数据(集)。由于各成员使用的元数据标准不同,多条元数据记录可能指向同一数据对象,因此,分头独立建设科研数据机构库时难以避免对数据资源的重复收集,且不易及时发现。由此不仅额外耗费建库人员的时间和精力,还造成数据一站式检索时的检索结果的去重问题,增加了系统平台的处理负担,降低了检索质量。

2.3 适用情境

(1)联盟成员的实力均较为雄厚。实施分布式建设模式的前提是所有成员都建有科研数据机构库,且该模式下联盟运行中主要依靠成员的自身力量负责各机构库的长期管理和维护,这必然要求成员均具备相应的技术能力,并能为机构库的建设提供稳定充足的人力、物力和财力投入。

(2)联盟成员的来源面广。当联盟成员来源较广时(如成员中既有高校,又有科研院所和其他学术性组织),其在机构性质、科研活动特征等方面差异明显。这种差异使不同机构中科研人员的科研数据管理与保存方式、习惯各具特点,对科研数据管理与服务的需求随之多元化、个性化。为满足这些需求,由各成员分头建立科研数据机构库,在向联盟提交元数据或允许收割元数据以使外部用户获取、利用数据的同时,也专为该机构用户提供一定的个性化定制服务较为合适。

(3)成员机构对科研数据共享的态度较谨慎。若研究机构相对谨慎地看待科研数据共享,往往顾虑数据的安全性,担心自身的数据保存在本机构外部将容易丢失、毁坏,造成无可挽回的损失。因此更希望数据保存于该机构内。而一般情况下,采用分布式模式的联盟的数据存储空间均位于各机构的网络防火墙以内,由各成员独立监管维护。

(4)数据来自多个学科,类型多样。由于对科研数据实施分布式存储,不同机构可以根据数据特征与自身需求,采用不同的分类编码标准和元数据标准进行描述、组织。这就为联盟管理和保存众多学科、类型的研究数据奠定了基础,更容易构建内容全面、综合性强的机构科研数据知识库联盟。

3 混合式建设模式

3.1 运行架构

从资源聚合方式看,兼具集中提交和元数据收割两种方式的机构库联盟即为混合式机构库联盟。对机构科研数据知识库联盟,混合式模式是指在建设机构科研数据知识库联盟时,部分有条件的机构分别建立自己的科研数据机构库,其余机构共建单个或多个科研数据仓储,组成若干集中式机构科研数据知识库联盟;在此基础上形成一个科研数据机构库群,分别采集各机构库/仓储中数据的元数据并将之存储到一个集中的元数据仓储中,通过统一的科研数据检索平台查找聚合后的元数据,实现对所有成员机构数据资源的一站式检索。采用混合式模式的机构科研数据知识库联盟在建设中同时采用了集中式模式与分布式模式。其管理与组织形式相对灵活多样,既可实行集中式统筹管理,也可采取自愿协议式管理。模式架构如图3所示。

图3 混合式建设模式架构图

3.2 优势与不足

混合式模式的最大优点在于不同规模、能力水平的成员可以选择适合自身状况的模式,较好地满足其科研数据管理与共享需求;也能在更大范围内实现联盟成员的资源共享,联盟的包容性和可扩展性较好。已建成的科研数据机构库也可得到保留,不致造成人、财、物等资源的不必要浪费。部分成员采用集中式模式共建共管科研数据机构库,有利于在数据采集和管理、数据服务、数据平台开发等领域积累协作经验,为优化联盟整体的管理及服务提供借鉴。不足之处是集中式机构科研数据知识库联盟与各分布式科研数据机构库所采用的政策、标准、规范与协议的差异增加了数据整合的难度。采用不同建设模式的联盟成员间的管理与协调也面临更多风险。当部分成员具备相应能力时,可能会单独创建自己的科研数据机构库而退出集中式联盟,由此可能影响联盟的稳定运行,这一点尤为值得注意。

3.3 适用情境

混合式模式可以在一定程度上兼顾不同规模的成员机构的需求。对于小型学术机构来说,加入已有的集中式机构科研数据知识库联盟能省去开发自身的科研数据管理系统和服务平台的开销,不失为节约数据管理成本的理想选择,并可从中学习和汲取关于数据管理与服务的知识、经验与技能。而对于大型学术机构而言,则可单独创建本机构的科研数据共享平台,形成科研数据资源节点,并与已有的集中式联盟签订科研数据共享协议,允许联盟对其科研数据的元数据进行采集收割。由此,可在满足其内部人员的个性化数据资源与服务需求,激发自主创新能力,宣扬自身学术成果和实力的同时,积极探索不同情境下科研数据机构库的最佳实施策略,推进科研数据机构库建设的推广普及。

建立较大范围(如全国或跨国范围)内的机构科研数据知识库联盟时,鉴于成员数量众多、来源广泛,在机构规模、研究领域、学术交流(数据共享)习惯及认知、科研数据资源现状与管理能力等方面差异大,对联盟的建设模式较难形成共识,如一部分成员已建立科研数据机构库/平台,宜选择混合式模式。这样可在尊重各成员的实情及意愿的基础上,保留已有的科研数据机构库/平台,加快实现联盟成员的数据资源共享。

4 结语

在数字化科研与数据密集型研究范式兴起的环境下,构建机构科研数据知识库联盟对促进科研数据管理与共享事业的意义无可置疑。通过对国外机构库联盟管理运行机制以及科研数据机构库建设要素的分析,笔者认为机构科研数据知识库联盟的建设可实行集中式模式、分布式模式与混合式模式。三种模式各有优势和不足,分别适用于一定的环境。总结各模式的适用情境可知,成员拥有科研数据的现状(数量、种类、分布)、思想观念(对科研数据开放共享的看法)、科研数据管理基础与能力、联盟的参与规模是确定机构科研数据知识库联盟建设模式的主要考量因素。有意于组建此类联盟的各类学术机构应在充分剖析、研判上述因素的基础上,秉承协商一致的原则,审慎选择符合实际的建设模式。

猜你喜欢
集中式知识库数据管理
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
汉语近义词辨析知识库构建研究
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
集中式小区广播在铁路客运车站中的运用研究
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
光伏:分布式新增装机规模首次超越集中式
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶
卫星状态智能诊断知识库设计方法