秦中云
摘 要 本文在对高校图书馆数据治理概念界定的基础上,系统梳理和总结了国内高校图书馆数据治理的研究情况,阐述了高校图书馆数据治理的重要意义,进而构建出高校图书馆数据治理成熟度评估模型,明确评估内容、方法和路径,以期为高校图书馆数据治理提供多维度、多层面的行动指南和评估体系。
关键词 大数据 高校图书馆 数据治理 成熟度模型
分类号 G250.7
DOI 10.16810/j.cnki.1672-514X.2019.11.011
Research on Data Governance and Maturity Model of University Library in Big Data Environment
Qin Zhongyun
Abstract Based on the definition of university library data governance concept, this paper systematically combs and summarizes the research situation of data management in domestic university libraries, expounds the significance of university library data governance, and then builds data governance maturity model, which clearly evaluates the content, methods and routes to provide a multi-dimensional and multifaceted action guide and assessment system for university library data governance.
Keywords Big data. University libraries. Data governance. Maturity model.
0 引言
大數据是新一轮信息技术革命与经济社会发展交汇融合的时代产物,深深地触及人类社会的每一个角落[1],正在日益深刻地影响人们的生产生活方式。大数据场景下,数据的价值日益凸显,数据作为重要的战略性基础资源的重要地位已形成社会共识。利用数据进行科学决策,亦已成为组织提高核心竞争力的新常态。
以数据为核心资产和业务的高校图书馆行业正在经历前所未有的机遇和挑战。一方面,大数据驱动下的数据科学研究为数据密集型高校图书馆的管理和决策提供了新的范式,使得管理视角、过程和方法发生了显著变化[2]129:从传统的以管理流程为主的线性范式逐渐向以数据为中心的扁平化范式转变,管理与决策中各相关利益者的角色和信息流向更趋于多元和交互[3]。另一方面,随着高校图书馆业务的快速增长,积累了海量的多源、异构、高价值的数据,对数据的管理、存储、计算和应用以及提升数据质量、提高数据处理能力、有效挖掘数据的价值等提出了新的要求[4];数据的高度开放共享与用户隐私数据保护的诉求之间形成天然的矛盾[5],引发新的数据安全需求。在此形势下,数据治理作为一种新兴的治理模式应运而生,并成为大数据环境下高校图书馆数据治理研究的新视角、新趋势和新热点。通过梳理国内高校图书馆数据治理的已有研究,笔者在阐述高校图书馆数据治理的重要意义基础上,探究了高校图书馆数据治理成熟度评估模型的构建,确立高校图书馆数据治理的评估体系、内容和方法,形成高校图书馆治理路线,实现高校图书馆数据治理战略目标,以期为高校图书馆数据治理的进一步研究提供参考和借鉴。
1 高校图书馆数据治理及研究现状
1.1 图书馆数据治理概念
国内外机构或学者对数据治理的定义并没有形成统一认识,但通常认为,数据治理是“围绕数据资产展开的系列工作,为实现组织决策目标,涉及数据资产管理的技术、过程、标准和政策的集合”[2]130。因此,笔者对图书馆数据治理作如下定义:它是在高校图书馆组织发展战略、政策制度的指导和监督下,依据国家和行业的标准和规范,采取一定的技术手段(如工具、方法和平台),对数据资产生命周期进行管理和利用的系列实践或活动,以确保高校图书馆数据资产价值最大化,促进科学决策的产生,提升高校图书馆的核心竞争力,并以提供高质量的数据服务、不断改善用户体验、提高用户满意度为最终目标。
1.2 图书馆数据治理研究现状
数据治理作为一个新兴的学科领域,近年来开始成为业界和学术界共同关注的热点,受到了国内外机构和学者的高度重视,相继在政府、电信、银行、医疗和高校等领域开展了广泛研究,并取得了大量的理论和应用成果。反观图情领域,作为“数据集中”“以数据为核心资产和业务”的图书情报机构理应在数据治理研究方面发挥先行作用和垂范作用,但遗憾的是,数据治理作为全新的理念和领域,国内外图书情报机构、图书馆界特别是高校图书馆对此领域的理论成果较少,实证研究和实践案例更为鲜见。文献梳理发现,国内现有的研究主要集中在以下几个方面:
(1) 数据治理是图书馆事业的新机遇。顾立平[6]基于开放获取的视角,聚焦图书馆的数据管理,从数据获取、数据科学、数据服务等方面,论证了数据治理是图书馆事业发展机遇的观点,由此拉开了图书馆数据治理研究的序幕。
(2) 数据治理框架研究。包冬梅[7]137-139等在比较分析国际权威机构DAMA和DGI框架的基础上,结合高校图书馆行业特点,创新性地提出了我国高校图书馆数据治理框架——CALib框架。该框架由促成因素、范围、实施与评估3个子框架组成,是国内首个致力于解决高校图书馆数据治理问题的理论模型和方法论,为指导、评估和监督高校图书馆的数据治理工作提供了理论参考和实践依据。
(3) 科研数据的治理研究。顾立平[6]44-51指出通过执行数据获取、数据共享、数据重用政策来构建图书馆科研数据治理生态体系,不断寻找和搜集最佳实践案例,实现科研数据的共享与加值;王舒波[8]探讨了高校图书馆科研数据治理的发展路径,指出科研数据治理正向安全智能化和决策科学化发展;司莉[9]等认为机构科研数据知识库联盟(IRDR)是实现科研数据价值最大化的有效途径,能够促进科研数据的管理与共享;孙仙阁[10]等提出高校图书馆应与出版社、科研部门、政府等机构合作组建数据治理共同体,提高高校图书馆科研数据质量和数据服务能力。以上研究将“数据”局限于“科研数据”,而非整个图书馆的数据,不能全面地反映图书馆数据治理的对象和内容。
(4) 高校图书馆联盟数据的治理研究。周婷[11]等以福建省高校数字图书馆联盟(FULink)为例,采用问卷调查法分析高校图书馆联盟成员馆的数据治理现状,指出数据治理可以实现高校图书馆联盟内的资源、文化、数据和服务等的共享,为高校图书馆数据治理的评估与决策提供了一个很好的实践范例。
(5) 知识管理中的数据治理研究。刘洁璇[12]认为高校圖书馆应在知识管理中发挥监督和决策职能,并在知识控制、知识发现、知识可视化、知识安全方面实施数据治理,实现高校图书馆知识资源合理布局,促进知识传播和共享,提高知识服务质量。
(6) 数据治理促进高校图书馆职能转变。任亚忠[13]认为数据治理使高校图书馆职能发生转变,具有一定的现实意义,指出数据治理服务应在高校图书馆的管理和监督下开展,同时注重培养数据服务馆员,以实现高校图书馆的社会价值。
总体而言,图书馆数据治理的理论体系和研究体系尚未形成,研究视野不宽,研究范围较窄,如仅局限在数据治理框架、科研数据治理、机构联盟数据治理等方面,今后还需要开展多维度、多层面、多角度的持续性的深入研究。
2 大数据环境下高校图书馆数据治理的重要意义
2.1 可实现多元主体协同决策的创新管理和服务
数据治理作为一种全新的管理理念和思维方式,能够革新图书馆的管理规则或组织形式,形成更加通畅的信息传递机制,帮助图书馆管理者做出更加精准的、智能化的管理决策。在数据治理的框架下,图书馆数据治理的参与主体多元,涉及图书馆领域内的数据专家、资源和服务提供商、系统集成商、数据开发人员、数据管理人员和普通用户等众多相关利益者,因此,数据治理有助于促进图书馆进行管理和服务创新,构建全新的、平等开放的、共享合作的生态服务模式,推动图书馆组织与企业、部门、个人等多方资源的协作,实现多主体、多部门、多要素的整合发展,建立分工更加明确、职责更加清晰、决策更加民主和透明的协同工作机制,从而实现图书馆的精细化管理、智能化决策和个性化服务。
2.2 可实现数据驱动下的知识发现,为用户提供精准的知识服务
数据驱动已成为高校图书馆知识服务创新的重要推动力[14]。从数据驱动的视角看,数据治理的过程就是知识重组、知识再造和知识发现的过程。数据治理不仅能够重新解构知识的组织形式,还能够重塑和再现知识的价值,盘活图书馆的数据资产,实现知识从静态到动态、从隐性到显性、从无序到关联的转变,为用户提供深层次的知识管理和知识服务。在大数据环境下,用户的知识需求呈现多样化、多元化发展态势,高校图书馆势必要进行知识服务创新,为用户提供更多个性化、精准化和智慧化的知识支持服务,如利用可视化工具为读者提供知识检索服务[15]、建立用户画像为读者提供知识推荐服务[16]等,以改善用户的知识体验效果,增强用户知识利用的满意度。
2.3 可实现闭环机制下的数据质量管理,提升数据服务水平
有效的数据治理必然是以提高数据质量作为衡量标准的。数据质量是高校图书馆数据治理工作的生命线,在图书馆数据管理过程中发挥着重要的作用。图书馆必须制定严格的数据质量标准、数量质量规范,把数据质量作为检验、评估和量度高校图书馆数据管理工作成效和数据服务水平的核心指标和关键要素。
数据质量贯穿于数据治理的全过程,在数据治理的过程中,需要不断加强数据质量管理。数据质量管理的最佳实践是采取闭环管理机制[17],即对未来数据进行事前预防(数据质量主动保证)、对当前数据进行事中监控(数据质量持续监控和优化)、对历史数据进行事后治理(数据清洗和整合)。从数据源端进行主动控制是数据质量得以保证的前提和基础,因此,数据采集是关键。在数据采集尤其是涉及人工采集时要注重减少大量的、重复的、无效的数据输入,确保数据的完整性、准确性、可用性和有效性,因此,在基础数据创建或采集阶段必须做好数据质量的监控和规范。
数据治理作为提升数据质量的重要手段,能够有效改变高校图书馆仅重视数据的“量”的积累,而忽视数据的“质”的无序管理状态。对于高校图书馆而言,数据治理的价值要义在于通过优化图书馆数据资源环境,为师生用户提供高质量、高价值的数据服务,如科研竞争力分析报告、阅读分析报告、学科资源利用报告等,发挥对教学、科研和学科建设的数据支撑作用。
2.4 可实现合规监管下的数据安全,保护用户隐私,降低安全风险
在大数据时代下,数据安全和用户隐私保护是高校图书馆在数据管理过程中不可忽视的重要内容。近年来不断频发的数据泄露、隐私滥用事件,如Facebook的5000万用户数据泄漏等表明,数据作为一种重要资产,合法合规的使用会创造数据价值,不当或违法的使用则会造成数据损失或受到惩罚。因此,强有力的数据治理政策和措施能够有效保障图书馆的数据安全和用户隐私。图书馆管理系统平台中包含各类数据,如数字资源数据、书目数据以及师生用户的敏感数据和隐私信息如身份证信息、手机号码和个人照片等,尤其需要将用户信息安全和隐私保护纳入数据安全治理体系中。只有通过规范的数据治理,才能实现对图书馆数据全生命周期全过程的使用情况进行全程监控、风险识别和溯源审计,防止数据在采集、挖掘和利用等过程中过度披露、越权访问或违规分析用户的敏感信息,造成新的数据泄露。
高校图书馆在数据治理过程中,可着重从政策法规、技术手段、数据管理制度和用户安全教育等方面努力,建立起严格的数据安全管理机制,强化数据安全观念,依法合规安全地使用数据,最大限度降低安全风险。如在政策法规方面,遵从国家制定的《国家安全法》 《个人信息安全规范》等安全标准,以及图书馆行业制定的相关数据保护政策如数字资源版权保护政策、读者数据采集许可权(如肖像许可);在技术手段方面,除了做好信息基础设施的安全防护外,还需要对数据进行脱敏、加密、去标识化等技术处理,对数据访问进行授权或合规性检查;在数据管理制度方面,对于涉及软件开发与系统维护的第三方公司或驻场工程师要求与图书馆签订数据安全保密协议,对于图书馆的数据管理专职人员则要求签订数据安全责任书,形成数据安全和隐私保护的问责机制;在用户安全教育方面,加强对普通员工及普通用户的数据安全意识的培育,开展数据安全培训,增强用户个人信息数据保护观念。
3 高校图书馆数据治理成熟度模型构建
数据治理成熟度模型作为一种对关注领域进行评估的工具和持续优化的方法,可以帮助高校图书馆厘清纷繁复杂或模糊混乱的概念及其关系,为高校图书馆的数据治理工作提供明晰直观的行动指南和指導方针,帮助高校图书馆做出科学的决策。当前,国内高校图书馆尚未建立数据治理成熟度模型。尽管包冬梅[7]140-141等在高校图书馆CALIB治理框架的实施与评估部分,谈到了构建高校图书馆成熟度模型的重要作用,但并未对成熟度模型进行深入研究,无法对具体实践产生指导意义。因此,非常有必要建立成熟度模型,来定位和评估高校图书馆数据治理状态与治理能力,识别差距和不足,以进行针对性地改进,提高数据管理水平。
数据治理具有明显的行业化特征,成熟度模型的构建需要结合具体的治理主体、治理对象、治理目标和文化环境进行具体分析。由于行业背景、研究动机、关注对象和目标期望存在差异,不同组织或机构提出的数据治理成熟度模型各有不同,互有优劣,不具有普适性,但依然能为高校图书馆数据治理成熟模型构建提供重要参考。因此,本文在借鉴国内外数据治理成熟度模型[18-20]及参考行业最佳实践的基础上,根据大数据环境下高校图书馆数据特点及业务需求,提出适用于我国高校图书馆领域的成熟度模型。该模型由三个维度构成,如图1所示。
图1 高校图书馆数据治理成熟度模型
(1) 数据治理能力。数据治理能力应从技术支撑、组织保障、政策战略、核心领域、标准规范和绩效评价6个方面来衡量和检验。其中,技术支撑是数据治理的关键和核心,包括数据架构、基础设施、共享平台、数据仓库和存储备份等;组织保障是数据治理的发展动力,包括组织机构、人员能力、角色与职责和环境与文化等;政策战略是推行数据治理的重要工具与基本保障,包括战略规划、使命与愿景、制度与流程等;核心领域是数据治理的关键要素,是数据质量得以提高的重要保证,包括主数据、元数据、数据标准、主数据管理等;标准规范是进行数据治理的基础前提和实施依据,由数据质量规范、数据安全规范、主数据管理规范、元数据管理规范和资产管理规范等组成;绩效评价是数据治理成效的考核和评估,包括绩效考核、安全审计和风险评估等。
(2)数据资产生命周期。有效的数据治理是一个持续的、长期的过程,需要采取渐进的、可实现、可衡量的步骤来实现治理目标。在大数据环境下,要遵循数据全生命周期对数据资产进行管理。数据治理贯穿于数据资产生命周期全过程,因此,围绕数据资产生命周期各阶段开展的业务活动构成了治理的过程域。
数据资产生命周期包含6个阶段:数据采集、数据传输、数据存储、数据处理、数据交换和数据销毁,各阶段的功能与作用如下。
在数据的采集阶段,对于不同来源、不同类型的数据需要按统一的数据标准、规范和流程进行采集,确保数据来源的稳定性、完整性和准确性,保证数据质量。
在数据传输阶段,需要考虑保密性和完整性的问题,对不同种类的数据分别采取不同的措施如数据加密、数据脱敏,防止数据泄漏或数据被篡改。
在数据存储阶段,要按照数据的特征选择妥善安全的存储机制和存储架构存储数据,防止数据丢失或遗漏,保证数据的可用性。
在数据处理阶段,对于数据清洗、抽取、关联和整合等处理工序,需要采取严格的数据质量控制策略对数据进行分析与处理。
在数据交换阶段,对于数据的开放共享,应根据治理控制策略进行适度开放,防止不合规开放。
在数据销毁阶段,对于失效的、确定无用的数据的销毁,应作完整的记录并可溯源追踪。
(3)成熟度模型等级。这一等级反映了数据治理的持续优化和不断改进的积累过程,可分成5个等级:初始级(1级),认知级(2级),发展级(3级),成熟级(4级)和优化级(5级),如表1所示。
表1 高校图书馆数据治理成熟度模型等级划分
成熟度模型等级 模型等级描述 模型等级特征
1级:初始级 对数据治理缺乏了解,未定义数据规范和业务流程等,数据管理混乱 零散、未定义
2级:认知级 对数据治理有初步的认知,制定了初步的管理制度、数据标准等,数据管理较为有序 初级、非正式
3级:发展级 对数据治理有充分的认识,制定了正式的数据管理制度和数据标准等,数据管理规范,但尚无完善的数据治理体系 正式、规范化
4级:成熟级 对数据治理有深刻的理解,建立了完善的数据治理体系。治理规划明确、治理流程清晰,数据管理处于可控状态 可控制、可管理、可审核
5级:优化级 根据现有数据治理体系进行持续改进和优化,数据管理处于可持续发展状态 可持续、可改进、可调整
4 高校图书馆数据治理成熟度模型评估方法
成熟度模型是一种经过验证的方法,有助于了解组织当前的数据管理能力,并达到与组织期望一致的目标和愿景。成熟度模型的构建为优化和改善高校图书馆数据治理能力提供了理论基础,成熟度模型评估方法则反映了高校图书馆数据治理过程中应遵循的一般方法和实践过程。一般的评估方法是:首先,采用资料收集、面对面访谈法或问卷调查法等方法来调研和了解高校图书馆数据治理的现状和水平;其次,根据调研结果,制定数据治理的路线图,明确高校图书馆近期、中期和长期的战略计划,并执行和实施数据治理过程。
4.1 现状调研并进行评分
一般的方法是,对高校图书馆数据治理现状进行调研并进行打分,例如,可以聘请数据管理专家针对图书馆的数据管理现状,分别从技术支撑、组织保障、核心领域、政策战略、标准规范和绩效评价等几个关键能力域进行打分,形成高校图书馆的数据治理能力路线图(图2),找出高校图书馆数据管理中的问题与不足,以制定相应的数据治理政策和改进措施。
图2 高校图书馆数据治理能力路线图
4.2 制定治理路线规划
为确保数据治理目标的实现,应根据数据治理的现状得分情况相应地制定适合高校图书馆的战略计划,包括近期、中期和长期的发展规划(图3)。具体策略如下:首先,了解高校图书馆近期以及中长期在业务和技术上的数据治理策略及发展目标;其次,通过书面访谈和现场调研等方式在图书馆内部营造数据治理的文化与环境氛围,促进利益相关者形成目标共识;最后,根据当前或现实的差距和不足制定实施计划,如高校图书馆未来3~5年的数据治理规划,并不断进行优化和调整,以确保战略目标的实现。
图3 高校图书馆数据治理规划路线
5 结语
国务院在《促进大数据发展行动纲要》[21]中指出:要建立“用数据说话、用数据决策、用数据管理、用数据创新”的管理机制,实现基于数据的科学决策,加快数据开放共享,推动资源整合,提升治理能力。有鉴于数据已被提升到了重要的战略地位,研究大数据环境下的数据治理具有重要的现实意义和社会意义。高校图书馆作为以数据为中心的知识密集型组织,其战略目标与发展规划的制定更应该站在数据治理的高度,从全局出发,树立创新发展、协同开放的治理理念和思维,完善数据治理理论体系,加快数据标准研究,增强技术开发能力,不断提升数据质量,提高数据服务能力,为用户提供高质量的精准化、智慧化和个性化的服务,提高用户满意度。
参考文献:
[1]翟云.中国大数据治理模式创新及其发展路径研究[J].电子政务,2018(8):12-26.
[2]张宁,袁勤俭.数据治理研究述评[J].情报杂志,2017,36(5):129-134.
[3]陈国青,吴刚,顾远东,等.管理决策情境下大数据驱动的研究和应用挑战:范式转变与研究方向[J].管理科学学报,2018,21(7):1-10.
[4]孙嘉睿.国内数据治理研究进展:体系、保障与实践[J].图书馆学研究,2018(16):2-8.
[5]张聪丛,郜颍颍,赵畅,等.开放政府数据共享与使用中的隐私保护问题研究:基于开放政府数据生命周期理论[J].电子政务,2018(9):24-36.
[6]顾立平.数据治理:图书馆事业的发展机遇[J].中国图书馆学报,2016,42(5):40-56.
[7]包冬梅,范颖捷,李鸣.高校图书馆数据治理及其框架[J].图书情报工作,2015,59(18):134-141.
[8]王舒波.开放科学视阈下高校图书馆科研数据治理路径研究[J].情报探索,2018(2):107-110.
[9]司莉,曾粵亮.机构科研数据知识库联盟数据治理框架研究[J].图书馆论坛,2018,38(8):61-67
[10]孙仙阁,弓箭.开放科学视域下高校图书馆科研数据治理研究[J].图书馆学刊,2017,39(9):25-28.
[11]周婷,詹庆东.高校图书馆联盟数据治理探讨:以FULink为例[J].情报探索,2018(2):34-42.
[12]刘洁璇.高校图书馆知识管理中的数据治理[J].情报科学,2018,36(1):108-112.
[13]任亚忠.从数据管理走向数据治理:大数据环境下图书馆职能的转变[J].四川图书馆学报,2017(4):6-9.
[14]李洁,毕强,张晗,等.数据驱动下数字图书馆知识发现的服务研究[J].情报资料工作,2018(4):6-14.
[15]黄永文,张智雄,吴振新,等.集成化可视化的知识检索服务平台建设[J].科研信息化技术与应用,2013,4(2):34-42.
[16]王颖纯,董雪敏,刘燕权.基于知识挖掘的图书馆智慧推荐服务模式[J].图书馆学研究,2018(9):37-43.
[17]覃炯聪.大数据背景下的数据治理模式[J].信息与电脑,2016(16):155-156.
[18]GREGORY A, HUNTER K. Data governance:protecting and unleashing the value of your customer data assets: stage 1: Understanding data governance and your current data management capability [J].Journal of Direct, Data and Digital Marketing Practice.2011,13(1):40-56.
[19]张宇杰,安小米,张国庆.政府大数据治理的成熟度评测指标体系构建[J].情报资料工作,2018(1):28-32.
[20]程广明.大数据治理模型与治理成熟度评估研究[J].科技与创新,2016(9):6-7.
[21]国务院(2015)50文件《促进大数据发展行动纲要》[EB/OL].[2019-01-10].http://www.miit.gov.cn/n1146290/n1146392/c3882451/content.html.