冯锐
【摘 要】从背景、技术实现与决定要素三个角度,论述了高校图书馆服务延伸工作的崭新领域——科研数据管理。提出开展该服务的几项可操作性技术保障,并从责任、运维、协作的角度客观评价了开展科研数据管理的决定因素,以期为实际建设此项服务提供有益的参考。
【关键词】高校图书馆 数据管理 知识服务
1 科研数据管理的背景
当前,数据管理(Digital Curation)已经进入数据库系统的发展阶段。随着高校图书馆数字化设施的全面普及,信息技术应用更加深入,在资源建设、平台再造服务提升、管理优化、协同创新等方面拾级而上,已成为支撑和保障高校科研的基础信息设施。国外一些研究型图书馆已经建立数据中心(Data Center),而国内这一工作是由大学科研产业处或者研究机构层面在做,图书馆参与的很少且过多的侧重于科研项目和科研环境的服务,在科研数据管理上成为了高校图书馆的服务盲区,造成许多正式或非正式出版但属于研究成果的资料,如在研究过程中产生的课件、报告、ppt、图像等科研数据[1],分散在研究者或科研部门手中,缺少集成化的组织和管理。实际上这些数据也具有价值,高校图书馆应该提高认识,依赖多年来图书馆积累下来的信息存储经验,将这些资料保存起来,加强对科研数据有效组织、合理开发。
2 科研数据管理的技术实现
高校图书馆将科研数据存储到磁盘或其他持久存储设备,其核心内容是元数据存储位置的映射,承载了数据对象本身归属、大小、校验值等元信息,用于记账、校对、修复和分析等辅助操作[2]。
2.1 数据运行平台
打造开放平台,既为科研人员提供丰富高质的服务内容,又让他们自身研究的科研成果在平台上得以呈现,进而更加乐于关注停留在平台。高校图书馆可以通过建立起类似腾讯CKV(Cloud KeyValue)海量分布式存储系统,打造特色的科研数据管理平台,对本校科研数据进行集中管理。
2.2 数据存储
科研数据可以采取批处理+实时数据传输两种方式进行存储,同时提供临时数据缓存功能,创建时指定保存时间。这样,过期的临时数据则由系统的管理中心自动进行删除,对于重复的数据进行及时清理,保证磁盘留有足够的存储空间。
2.3 数据压缩
利用轻量级的高效压缩技术如Delta Encoding[3],提高存储科研数据的压缩率,过滤一些无关数据从而减小所占内存空间,提升聚合查询的查询速度。
2.4 数据查询
科研数据查询系统主要包括存储层与查询层,为了满足数据查询的需求,需要为用户提供统一的元数据访问和管理接口,支持按照各种维度分层的元数据,并为异构数据源提供标准的查询访问接口。
2.5 数据再利用
通过科研数据存储注册服务,高校图书馆为社会企业生产部门、科研机构等提供数据挖掘、知识发现和知识推送服务链接,有效提高科研数据的再开发、再利用,使科研数据成为支撑知识服务的知识化资源。
3科研数据管理的决定要素
3.1 责任决定集中的效率
在开展科研数据管理延展服务前,高校图书馆管理者应该用更高程度的理性代替高昂的激情,集思广益,明晰科研数据集中管理涉及法律、技术和政策等多维度因素,及需要承担的相应责任,正所谓居安思危,有备无患。在开展服务时,注重加强知识产权保护意识,避免数据使用中的侵权风险。科研数据在一定程度上包含了科研人员的心血,必然有部分人员不舍得将科研数据放到平台,因此图书馆应该让他们有控制感,甚至设置私人定制密码,加以权限保护,给予信任和依赖者以足够的安全感,及向社会科研企业推送科研项目信息以提高合作的机率。
3.2 运维决定服务的品质
高校图书馆数据库长期不间断的运行,服务器突然掉电、磁盘的失效、磁道老化以及人为操作失误等,都可能造成数据存储对象的损坏甚至丢失,因此建立一套应急机制预案,及时应对宕机的出现,保障数据库运行的稳定性与可维护性,保证科研数据的安全性对整个服务延伸过程显得尤为重要。
3.3 协作决定延展的广度
高校图书馆开展科研数据管理首先需要跨越不同功能部门的藩篱,科研生产处负责学校科研立项、科研经费管理及科研成果鉴定等,各院系部负责科研人员考核、科研任务考核等,因而在学校统一协调下,加大高校图书馆与其他部门的协同服务机制,组织上各有侧重,功能上各具特色。不同部门之间相互合作,相互促进,共同推动高校科研工作数字化发展。
4结语
目前,我国高校图书馆科研数据管理不够成熟,目前尚在孵化阶段,但是正如大数据改变着世界一样,科研数据管理将推动新一轮高校图书馆服务的进化,只要图书馆凝心聚力,从细微处着眼,发现每一个知识化服务的节点,从海量数据中实时、高效地分析和挖掘出有价值的信息,前瞻未来,也许重要的变革机遇就蕴藏在科研数据管理与数据发现中。
参考文献:
[1] 吴建中.大学图书馆的昨天、今天和明天[J].图书馆杂志,2014(12).
[2] 莫华枫.云存储的黑暗面:元数据保障(上)[J].程序员,2014(4):92-95.
[3] 梁堰波,杨卓荦.基于Impala构建实时大数据查询系统实践[J].程序员,2014(2):52-56.