任亚忠
(渤海大学图书馆,辽宁 锦州121000)
大数据时代来临,数据资源已经影响到企业和社会发展,对数据资源的管理和利用得到更多的重视,同时数据资源的快速发展也带来了一些弊端,如数据异化、数据造假等,数据治理应运而生。在科学研究领域,数据治理还没有得到更多认可,更多人认为数据治理属于数据管理的分支,是数据管理的功能延续,笔者认为两者之间有本质上的区别,首先数据治理目标更为明确,数据治理可以针对某一层面的数据进行分析、整理、存储、转化利用,最大限度去除无用数据资源,其次参与数据治理的机构拥有更多的权限,不再仅限于数据资源的保存职能,可以根据用户的选择来制定详细的数据治理方案,交互式的数据处理方式可以提供的数据支撑,最后,数据治理在数据监督和科学评估方面可以起到更多作用。在科学研究和高端服务领域,数据治理已经得到应用和发展。
高校图书馆作为信息文献中心、科研服务中心,从数据获取、管理、利用上拥有资金和人力双重优势,具备了参与数据治理的基础。我国高等院校利用数据资源开展数据相关服务的图书馆相对较少,对数据治理的重视程度不够,数据馆员的缺失在一定程度上影响了数据服务的发展,数据治理需要图书馆和相关数据部门分工合作,而合作协调及后期管理却缺乏可操作性强的范式,这些都制约了数据治理服务的发展和研究。通过比对之后发现我国高校图书馆对数据服务的研究主要集中在以下3 个方面:数据资源的开放获取、数据管束、数据科学与数据服务,数据治理提及较少。笔者综合分析国内外图书馆数据治理现状、数据治理的优势以及存在的问题,借鉴经验提出高校图书馆参与数据治理可行性研究方案。
数据治理和数据管理拥有相同的特征,即对数据资源的整合利用,是对数据资源的区分和整合的过程,同时存在本质上的区别,因为语义上的曲解,导致我国图书馆界对数据治理研究相对较少,更多趋向于数据管理。高校图书馆参与数据治理的前提是拥有数据的主导权,可以对数据本身进行加工利用衍生新的价值,数据治理的影响集合变得更为广泛,不再局限于当前条件下拥有的可利用数据资源,形成交叉影响的新型服务模式。
国外图书馆界对数据资源服务相关内容的研究,最早提出数据馆员参与数据管理的是美国学者Liscouski Joe,其在《The data librarian:Introduc⁃ing The Data Librarian》一文中提出数据馆员的工作职能:“搜集数据资源、保障数据的安全性、可访问性和共享性,同时提出大数据来临图书馆馆员的职能向数据服务转变。[1]”2004 年,美国佐治亚理工学院开展学术资料研究工作,聘用数据馆员和档案员管理数据,这是高校图书馆馆员参与数据管理的雏形,经过5年的发展收集了25000个数据项目,50万条搜索记录、180万条下载记录,为后期学术研究提供数据保障。2006 年莫纳什大学(Monash University)建立研究数据管理平台,2007年哥伦比亚大学图书馆建立数据研究中心,设置数据馆员。2008年纽约大学图书馆建立数据服务工作室。其他高校如剑桥、牛津、耶鲁、斯坦福、爱丁堡等数十家大学图书馆相继成立以数据服务为中心的服务机构,国外高校图书馆对数据深层次服务较为重视,一些成功的案例表明,高校图书馆具备数据服务的能力。
我国图书馆界对数据服务研究起步相对较晚,随着大数据对社会发展和大众生活产生影响,相关学者陆续开展相关理论的研究。首先从基础层面,我国已经具备开展数据服务的能力,尤其是高校图书馆,数字图书馆建设发展迅猛,软硬件设施条件和国外相比没有明显差距,经过几十年的发展之后,图书馆从业者拥有比较成熟的数字图书馆服务管理经验;其次是信息资源方面,高校的信息化建设形成一定规模,区域性资源共享取得一定的成绩,数据开放存取以及相关制度研究取得很大进步;最后是理论层面,对数据管理、数据服务的研究逐渐深入,研究成果丰硕。在开展本次研究之前,笔者以中国学术期刊网为媒介,通过“图书馆”“数据”为主题进行检索,共检索到相关文献22433篇,从2004年开始呈现逐年递增趋势,2017 年达到2102 篇,以“图书馆”“数据管理”为主题精确检索,检索到相关文献605篇。对数据治理方面的研究相对较少,检索到14篇,相关理论已经成熟,遗憾的是在数据治理领域,理论研究和国外还有一定的差距,同时没有形成有影响力的学者群。
高校图书馆传统服务已经无法满足日益多样化的服务需求,图书馆的职能从为读者找书转化为有需要的读者提供服务,作为学校的科研数据中心,图书馆职能转变同样要符合科研发展趋势。高校图书馆参与数据治理符合未来发展趋势,保证科研数据真实,避免数据造假,同时能够提升图书馆自身的社会地位,产生多层面的社会效能。近年来,越来越多的高校图书馆建立了科学数据管理服务平台,提供科学数据管理服务,科学数据管理服务为高校图书馆拓展数据验证业务提供了良好的机遇和优势[2]。
关于科学数据管理,在我国一直没有形成统一的定义,更多是吸取国外的相关经验来提出。鄂丽君在《国外大学图书馆的科研数据管理教育》一文中指出:“科学数据管理(Research Data Man⁃agement)是指对在科学研究活动中产生的科学数据进行统筹协调、科学配置、整合管理,涉及对各类型科学数据进行采集、分类、标准化、发布及共享,以形成管理科学数据的理念、政策、规范、环境、措施与体系,发挥科学研究数据资源的最大效益[3]。”
高校图书馆参与科学数据管理,首先要控制元数据以及关联数据的获取方式,元数据的真实性和有效性决定了科学数据的最终价值,从国内外图书馆参与数据管理的相关经验可以看出,目前,元数据存在大量散佚、流失、异化现象,这就要求参与人员拥有一定的辨识和分析能力,可以从大量的元数据中找出可利用的数据资源,其次还要掌握知识产权等相关方面内容,避免在获取元数据过程中出现产权争端,高校图书馆工作人员在参与科学数据治理过程中应该加大与相关机构联合力度,分工协作,从科学数据的需求层面分析,未来高校图书馆对科学数据的获取、组织、分类、共享、后期管理等方面的工作职能将不断强化。
信息化服务是高校图书馆工作职能的一部分。据统计,百度拥有的信息总量超过1 000PB,相当于国家图书馆藏书数字化后数据量的5 万倍,每天增加的信息数据量10TB,相当于半个国家图书馆的藏书数字化后的数据量。百度技术委员会理事长陈尚义透露,“百度每天处理的数据量将近100 个PB,1PB 就等于100 万个G,相当于5000个国家图书馆的信息量的总和[4]。”
大数据影响下,高校图书馆现有数字图书馆资源已经无法满足读者需求,高校图书馆必须做出改变,及时建立数据信息服务中心,吸收和培养一批信息化人才,这是时代的要求,也是高校图书馆信息化服务职能的延伸。
很多高校建立校内决策管理系统,利用网络平台向全校师生开放,通过数据获取、集合、反馈,在进行相关内容决策时拥有详实可靠的数据支持,避免出现决策上的失误,这是利用数据资源进行决策管理的有效途径。高校图书馆面向全校师生服务,拥有更加便利的条件,借阅系统拥有强大的数据统计功能,包括读者借阅分类统计、文献借阅率、文献外借周期、读者成分分析、读者借阅量分析等等,这些数据功能可以真实反映出本校师生在借阅图书资源方面的需求和未来的变化趋势,为图书和电子资源购买提供依据,避免出现买而不用或者利用率低下的情况发生。
在我国,一些高校图书馆自建了书目征集系统,有效利用网络服务平台,建立读者QQ群、微信群,校内书香论坛推书等活动,取得一定的效果,加大了图书馆在校园文化建设方面的影响力,同时存在一定的不足,书目信息的反馈不及时,读者建库工作影响面较小,在宣传方面缺乏有效手段,后期数据内容挖掘有待提高等。
高校图书馆参与数据治理在国外已经拥有很多成功案例,早在2009 年康奈尔大学开始实施嵌入式科研数据管理服务,管理组包括图书馆、高级计算中心、信息中心和经济学研究所等。图书馆利用购买的数字资源进行数据匹配、推送,帮助科研人员第一时间获取最适合的知识源,同时通过分类标引达到对元数据的规范,数据馆员可以准确区分数据资源,提供正式的表述方式,实现不同数据的获取、组织、分类、存储、推送[5]。
数据治理必须由专业的人才来完成,在国外高校图书馆设立专业的数据管理人员,也称数据管理专家、数据管理咨询员,主要是完成数据相关内容服务与管理,在图书馆界更多界定为“数据馆员”。欧洲研究图书馆协会明确提出要设置数据馆员,欧美研究大学将数据馆员同其他机构联合,开展相关项目研究。
数据馆员的主要工作职能:(1)参与数据服务相关政策以及服务规范制定;(2)完善数据管理,包括数据获取、整理、关联数据研究、数据发布等;(3)数据资源服务;(4)数据管理过程中涉及到的其他问题;(5)后期反馈。从以上工作职能可以看出,数据馆员必须具备一定程度的数据治理能力,了解科学研究过程,同时拥有较好的团队合作意识。在国外,数据馆员的作用同科学研发人员相同,在我国,设立数据馆员开展相关数据服务的高校图书馆还相对较少,科学数据资源的强烈需求和服务不对等日益明显。
2012年,北京大学图书馆开展国际学术会议,数据管理和数据服务成为分主题,引起较大反响;中国图书馆学会开展了以数据管理为主题的培训活动。我国高校图书馆工作人员整体学历层次较高,具备开展数据相关服务的能力,加大力度培养数据馆员势在必行。
数据治理离不开数据平台支持,CALIS内部数据平台已经完善,除了自有的数据平台之外,高校图书馆应该积极和企业数据平台联合,形成校企、馆企数据共享平台建设,充分利用数据资源融合,数据治理不能单单依靠高校图书馆自身力量,任何需要数据支撑的机构都可以加入其中,形成共赢共建新局面,这是理想状态,相关行业还没有形成共识,对数据治理的意识相对淡薄,在数据完整性、共享性以及后期产生收益分配等层面还存在一定的分歧和法律空白。
康奈尔大学的嵌入式科研数据管理模式值得高校图书馆借鉴。利用数据治理交互性的特点,保证用户的数据需求,根据需要采集数据资源;数据人员进行数据控制,保证数据产权方面不出现问题,同时进行科研数据的共享,让更多的人利用数据资源。国外数据治理方面影响力较大的是DAMA、DGI。DAMA 框架强调数据治理是数据管理的核心功能,包括10个功能和7个要素,数据治理占据核心地位,DGI框架从组织、规则、过程3个方面提炼出数据治理的10 个基本组件,采用的是直线逻辑关系,形成一个可循环式的完整体系。我国图书馆学者包冬梅在两者基础上提出CALib框架,CALib框架全方位地描述了高校图书馆数据治理领域所包含的基本组件及其关系,从促成因素、范围、实施与评估3 个维度展现了高校图书馆数据治理的全貌,从数据架构、基础业务数据、信息资源体系、元数据、数据质量、数据的整合与发现、基于数据分析挖掘的图书馆统计与评估、数据安全、隐私与合格标准8个方面进行研究[6]。
我国已经将大数据提升到战略位置,习近平总书记发布实施国家大数据发展战略,加快建设数字中国,提出数据安全、数据治理、数据经济3大核心要素,提升数据能力符合时代的发展。高校图书馆开展大数据治理还存在一定的困境,如数据资源的非开放性导致的“信息孤岛”现象,数据商的权限限制等问题比较突出,这就要求高校图书馆必须充分利用自身资源优势、人才优势,大力开展数据服务,积累经验,同时加强和其他机构的合作力度,打破数据壁垒,形成图书馆与社会、图书馆与图书馆、图书馆与其他机构联合协作的多元化服务模式。