数据密集型科研活动的蓬勃发展推动机构科研数据知识库(Institutional Research Data Repository,IRDR)的产生与发展。IRDR是由科研机构建立,专门用于收集、存储、组织、管理和共享本机构研究人员产出的科研数据的知识库,它通过系统的质量审查、组织、监护和共享,促进机构内部科研数据的再利用和知识创新,充分发挥科研数据的价值。然而,大部分IRDR收录的数据资源数量小且类型单一,数据共享范围有限,部分处于“机构库孤岛”“科研数据孤岛”阶段。近年来,跨机构、跨系统、跨学科合作研究呈现不断发展的态势,IRDR的服务能力受到巨大的挑战。因此,由个体独立逐渐走向联盟是IRDR发展的必然趋势,也是科研数据共享的内在要求。IRDR联盟,即由两个以上的研究机构为了更好地共享科研数据资源,以签订合作协议为方式,以其原有科研数据知识库为基础,以集中存缴、元数据收割等为手段,实现对科研数据的统一监管和统一服务而构建的一种共享机制联合体[1]。毫无疑问,IRDR联盟打造了科研数据管理与共享的新型合作机制,不仅规避了科研数据资源的重复建设,还扩大了科研数据的共享和利用范围,不断发掘科研数据的潜在价值,推动学术交流和科学发展。然而,IRDR联盟在创建与发展中面临着一个贯穿全程的问题,即数据治理(Data Governance)问题。IRDR联盟牵涉到不同联盟成员的利益关系,需要构建一套科学的数据治理方案进行指导和维护,解决联盟中的数据质量、数据安全与隐私、数据知识产权等一系列问题。对IRDR联盟进行数据治理是实现联盟生态系统数据价值最大化和降低联盟风险的必要且有效的路径。因此,本文引入数据治理概念,剖析数据治理的内涵与外延、模型及要素,在此基础上针对IRDR联盟的具体特点,构建IRDR联盟数据治理框架,分析IRDR联盟开展数据治理实践的关键问题与应对策略,为IRDR联盟的科学管理与可持续发展提供思路。
1990年代公共服务供给中政府失败、市场失灵、社会力量发展及其处理公共事务能力提升等社会背景推动治理理论(Governance Theory)的诞生。治理理论提出政府、市场、社会等主体共同治理公共事务,以提高治理效率及维护公共利益[2]。此后该理论不断演化与拓展。联合国全球治理委员会将“治理”定义为“各种公共的或私人的机构管理其共同事务的诸多方式的总和,它是使相互冲突或不同的利益得以调和并且采取联合行动的持续的过程”[3]。近年随着各个领域数据暴增,数据治理应运而生并成为各行各业和学术界共同关注的议题。数据治理最初应用于企业管理,逐渐扩展到政府、医院和高校等领域。国际商业机器公司(IBM)提出,数据治理是指根据企业的数据管控政策,通过组织人员、流程和技术的相互协作,将数据作为企业核心资产来管理和应用[4]。国际数据管理协会(The Data Management Association,DAMA)认为,数据治理是指对数据资产管理行使权力和控制的活动集合,由计划、监督和执行等要素构成[5]。国际数据治理研究所(The Data Governance Institute,DGI)将数据治理定义为“针对信息相关过程的决策权和职责的体系”,遵循“在什么时间和情况下、用什么方式、由谁、对哪些数据采取哪些行动”的执行模式[6]。包冬梅等认为数据治理的内涵可从四个方面解读:数据治理目标;数据治理职能,即“评估、指导和监督”;数据治理核心,即决策权分配和职责分工;数据治理本质,即通过数据治理提供创新的数据服务并创造价值[7]。刘桂锋等认为,数据治理涉及人(数据管理员、数据用户、数据治理委员会等)、操作(包括技术、管理、政策法律等)和环境(资助、文化冲击、观念意识等)[8]。综合上述观点,笔者认为IRDR联盟数据治理应明确数据治理目标、环境(或前提条件)和核心领域,在此基础上制定行动框架。
国际上已有不少组织和研究机构立足于不同的价值视角和关注维度构建了数据治理模型,对数据治理核心要素及其逻辑关系进行组织和展示。笔者选取四个比较有影响力的数据治理模型,分别对模型及其要素进行分析。
(1)IBM数据治理模型。为有效地管理和监控企业数据,实现增加收入、降低成本、降低风险、增加数据可信度等目标,IBM组织55家企业,通过成熟的业务技术、合作方法和最佳实践构建IBM数据治理委员会成熟度模型(IBM Data Governance Council Maturity Model)。该模型将能力成熟度模型(Capability Maturity Model,CMM)和有效数据治理元素框架(Elements of Effective Data Governance,EEDG)相结合。CMM由美国卡内基梅隆大学软件工程研究所于1984年开发,包括初始级(Initial)、已管理级(Managed)、已定义级(Defined)、定量管理级(Quantitatively Managed)和优化级(Optimizing)五个级别。EEDG包括目标要素、促成要素、核心要素和支撑要素四类,每一类包括若干具体要素[9]。该模型主张对框架中的所有元素进行成熟度级别判定与提升,全面推动企业数据治理。
(2)DAMA数据治理模型。该模型由功能子框架和环境子框架构成,功能子框架包括十个方面:数据治理、数据架构管理、数据开发、数据库操作管理、数据安全管理、参考数据与主数据管理、数据仓库与商业智能管理、文档与内容管理、元数据管理、数据质量管理,功能要素之间相对独立;环境要素子框架包括七个方面:目标和原则、活动、主要交付物、角色与职能、实践与方法、技术、组织和文化[5]。模型的核心是解决数据治理功能与环境要素之间的匹配问题。
(3)DGI数据治理模型。该模型分为三个层面:人员与组织结构、规则与协同工作规范、过程,共包括十个基本组件[6]。图1展示十个基本组件之间的逻辑关系,回答了5W问题(Why,What,Who,When,How),形成了从数据治理理论、方法到实施的完整生态系统。该模型的特点是将治理流程融入模型,以流程箭头的形式标识治理顺序,清晰明了,易于理解和执行。
图1 DGI数据治理模型
(4)《数据治理白皮书》模型。2015年中国信息技术服务标准(ITSS)数据治理研究小组在SC40/WG1第三次工作组会议上提交《数据治理白皮书》国际标准研究报告,综合DAMA、DGI、IBM、Gartner等数据治理方法论和模型,结合中国企业在金融、移动通信、央企能源、互联网等领域数据治理的典型案例,构建了数据治理模型。该模型由三个框架组成:①原则框架,涉及四个原则:战略一致、风险可控、运营合规、绩效提升;②范围框架,包括三个层次:基础层包括数据运营、数据架构、数据整合和开发;中间层包括数据安全与隐私、数据质量、元数据;应用层包括数据仓库和商业智能、主数据、大数据;③实施和评估框架,包括促成因素、实施生命周期、成熟度评估、审计。该模型明确了数据治理的三个主要方面:数据治理准则、治理域和实施方法。该模型结构清晰,较为灵活,对企业组织和开展数据治理实践具有重要意义[10]。中国电子技术标准化研究院发布的《大数据标准化白皮书(2018版)》对重点标准进行描述,其中GB/T 36073-2018《数据管理能力成熟度评估模型》国家标准规定了组织进行数据管理、评价的能力成熟度模型,包含数据战略、数据治理、数据架构、数据应用、数据安全、数据质量管理、数据标准、数据生命周期管理等八个关键过程域,描述了每个过程域的建设目标和度量标准,可以作为组织进行数据管理工作的参考模型。
目前在数据治理理论探讨上缺乏定论,是因为数据治理具有明显的场景化特点,需要针对具体的治理主客体、目标和环境进行分析,如政府数据治理、企业数据治理、高校数据治理、图书馆数据治理。由于背景、动机、关注点和期望存在差异,不同组织提出的数据治理模型不同,现有数据治理框架或模型各有优劣,不具有广泛的适用性,但依然能为IRDR联盟数据治理提供参考。笔者根据IRDR联盟的特点、宗旨和需求,以IBM数据治理模型为基础,参考其他模型及要素,构建IRDR联盟数据治理框架,见图2。该框架涉及IRDR联盟数据治理的四个层面:IRDR联盟数据治理目标、前提条件、核心要素和支持要素。该框架还展示不同层面之间的关系:要实现IRDR联盟的目标,科研机构需要重点关注和处理数据质量、数据安全与隐私、数据知识产权等核心问题;数据架构、分类及元数据、审计与报告等对IRDR联盟数据治理的核心要素起支持作用;而联盟架构、权责分工和联盟政策等前提条件加强和促进了核心要素的实施。
图2 IRDR联盟数据治理框架
IRDR联盟数据治理需要强调以问题为导向和以目标为导向。数据治理的两大目标是“实现价值”“管控风险”,建立可持续的治理体系,这与IRDR联盟的目标契合。
2.1.1 实现联盟数据价值最大化
数据治理强调数据利用价值的最大化,并使数据充满活力。IRDR普遍存在的问题是数据数量和类型难以满足跨学科和跨机构的研究与交流:对专攻某一领域的研究机构而言,其IRDR有可能仅是单一学科数据知识库;对高校而言,其院系机构和学科体系相对成熟和稳固,反映出高校内部跨机构和跨系统的学术交流范围较为有限。IRDR联盟建立的宗旨就是从更大范围汇集不同科研机构的科研数据,构建相对完整的科研数据共享系统,实现科研数据资源的合理配置,促进系统内数据的相互关联、相互影响和紧密联系。对IRDR联盟进行数据治理,首先要求联盟成员对所在机构研究人员提交的数据的安全性、可用性和学术价值进行严格审核,此后联盟平台数据管理者需要对集成的科研数据进行再次审查,对数据质量、全面性以及有效使用情况进行监管和评估,将最优配置转化为最大效率,将数据的价值发挥到最大化。
2.1.2 保证联盟风险最小化
IRDR联盟具有众多优势,也面临各种风险。IRDR联盟涉及不同研究机构的利益,若缺少完善的数据治理计划、一致的数据治理规范、统一的数据治理过程,将面临数据架构混乱、数据管理水平较低、数据服务不到位、数据质量参差不齐等风险。因此,数据治理作为一种思维方式和管理方法,对IRDR联盟发展而言十分重要。IRDR联盟管理层需要分析联盟运行中的各种风险的实质与表现形式,对其进行客观衡量与归类,探讨风险产生的各种诱因,继而在管理数据资产的过程中,通过优化数据的架构、质量、标准、安全等技术指标,确保数据相关的决策始终是正确、及时、有效和有前瞻性的,确保数据治理活动始终处于规范、有序和可控的状态,最大限度地降低或规避IRDR联盟的风险。
2.2.1 联盟结构
组织结构是指组织内部之间相对稳定关系的一种模式,由组织的目标任务以及环境情况决定,包含组织成员在不同层次的责权系统中的地位和相互关系。构建合理的组织结构是维持IRDR联盟可持续运行、实现联盟目标的关键。IRDR联盟成员需要根据目标、宗旨和需求构建组织模式,强调分工的精细化,避免数据的重复构建和不必要的工作。根据课题组前期的研究,联邦结构比较符合IRDR联盟的需求,该模式于平行结构基础之上增加联盟协调组织(Alliance Steering Committee),在保障联盟稳定的同时也保持成员的独立自主,还能增强联盟的技术能力,优化联盟资源调度[11],如图3所示。
图3 联邦结构模式图
2.2.2 权责分工
IRDR联盟涉及不同的数据治理主体,包括研究机构、研究人员、数据管理与服务提供者、研究资助者、平台管理者等。根据各方资源、技术、管理等优势和利益差异,不同主体扮演不同角色,共同构成利益相关者链条。数据治理的作用在于分配各主体的角色与职责,确保IRDR联盟可持续发展。IRDR联盟需要明确各利益相关者的职责分工并承担其责任,可在领导层面设有数据治理指导委员会(负责数据治理规划与项目审批)、在管理层面设有数据治理协商委员会(加强不同部门间的沟通协调)以及员工层面的数据治理工作组(负责界定、管理、控制和保存部门数据资源的完整性等)[12]。re3data.org将IRDR联盟成员(决策、管理与执行层面)所承担的角色和责任主要划分为综合管理、技术支持和资金资助三大类。以4TU科研数据中心(4TU.Centre for Research Data)为例,该联盟由荷兰埃因霍芬理工大学、代尔伏特理工大学、特文特大学和瓦格宁根大学组成,其中代尔伏特理工大学图书馆负责联盟的整体运作,承担综合管理、技术支持和资助责任;埃因霍芬理工大学承担资助工作;特文特大学负责综合管理;瓦格宁根大学负责综合管理和资助[13]。从数据治理实践看,各联盟成员在设计好的联盟结构下各司其职,逐级细化,能够有效地保障联盟运转以及提高数据治理水平。
2.2.3 政策
政策是推行数据治理的重要工具与基本保障。IRDR联盟数据治理政策可分为外部政策和内部政策。外部政策是IRDR联盟开展数据治理工作的动因和指导方针。习近平总书记在中共中央政治局第二次集体学习时强调以数据集中和共享为途径,推动技术融合、业务融合、数据融合,打通信息壁垒,形成覆盖全国、统筹利用、统一接入的数据共享大平台,构建全国信息资源共享体系,实现跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务。这为IRDR联盟开展数据治理工作提供了政策依据和契机。内部政策是IRDR联盟根据成员的需求、联盟的特点、宗旨和运行模式而制定的一系列标准与规定,旨在协调各方利益,指导和约束联盟成员行为,涉及利益协同机制、决策机制、激励约束机制和监督机制等机制。各种机制的有效运行能够协调各方利益以及保障联盟的正常运行。
2.3.1 数据质量管理
在大数据时代,科学研究的价值很大程度上取决于数据质量。因此,对数据质量进行有效治理显得尤为重要。IRDR联盟支持大量科研数据的提交、维护和使用,而科研人员所提交的研究数据的质量往往是参差不齐的,这就需要进行数据质量管理。IRDR联盟需要建立数据质量检查规则并运用技术手段,对数据质量问题进行跟踪、检查、分析、评价、督促整改并定期进行数据质量通报评价,其中涉及两个关键要素:数据质量标准和数据质量管理流程。首先,科研人员所提交的数据需要符合一定的质量标准。Wang等提出从四个维度判定数据质量:内在数据质量(可信度、准确性、客观性、声誉);语境数据质量(增值性、相关性、时效性、完整性、适量性);可表现型数据质量(可解释、易于理解、一致性、表达简洁);可访问性数据质量(可访问性、安全性)[14]。其次,联盟平台需要遵循质量管理与监护流程。Owonibi等设计了半自动化的生物多样性数据知识库数据质量管理流程,包括标准规范制定、客户端和服务器端验证、数据归档、差错检测分析、报告和分析、数据增强和校正、评估和监控[15]。IRDR联盟可通过权威机构认证加强数据质量评估,目前应用广泛的是数据认可印章(Data Seal of Approval,DSA),DSA制定了数据知识库可信赖认证的16条核心要求并对达到要求的数据知识库授予认证标识[16]。
2.3.2 数据安全与隐私
在数据共享和开放的大趋势下,数据安全和个人隐私成为IRDR联盟需要重点关注的议题。首先,分布式数据存储可能导致单点故障引起整个系统出现问题;恶意攻击甚至会导致数据被剽窃、被篡改或被删除。其次,在传输过程中可能存在恶意数据盗取及数据服务商数据外泄等问题。为避免数据在访问和使用过程中受到恶意的破坏,IRDR联盟需要制定科学的安全策略和管理规程,设置权限和保护措施,确保数据在使用过程中有恰当的认证、授权、访问和升级等措施。例如,在数据管理与共享中,IRDR联盟需要根据数据的重要性,对数据划分安全等级,通过系统身份认证的方式将用户纳入到内部数据资源的使用对象中,为其提供开放获取服务;还可采用会员缴费制,向机构或联盟外的用户分享其资源。IRDR联盟需要对数据隐私进行准确描述和量化,采取措施对科研人员提交的数据进行脱敏处理,充分保护科研人员的个人隐私。
2.3.3 数据知识产权
科研数据作为特殊的资产,在传播和利用过程中存在很多知识产权问题。IRDR联盟需要在数据授权和数据引用等环节加强治理,保障科研数据的合理、合法共享和使用,避免不必要的纠纷。
(1)数据授权。科研数据的授权是指赋予使用人合法使用科研数据的权利。一般而言,经由作者授权正式出版但未转让版权或作者未公开出版的个人研究成果及原始数据,其版权归作者或其所在单位所有;作者授权正式出版并与出版单位签订版权转让协议的学术研究成果,则其版权归出版单位所有。对上述情况,联盟在数据征集工作开展前,应制定明确的著作权管理办法。
(2)数据引用。数据不引用是数据在利用过程中存在的严重问题。面对数据使用者故意不标注的行为,IRDR联盟需要进行引导或强制要求,规范数据使用者的数据引用行为,尊重著作权。《信息技术科学数据引用》(GB/T 35294-2017)于2018年7月1日起正式实施,对科学数据引用元素描述方法、引用元素详细说明、引用格式等进行规定,科学数据传播机构可根据该标准设计数据引用系统,并声明数据引用规则;数据使用者可根据该标准著录科学数据引用信息。
2.4.1 数据架构
数据架构是指数据系统和应用的技术实现、技术部署和技术环境,合理的数据架构能够为结构化和非结构化数据的应用正常运行提供技术支撑,确保数据的可用性。IRDR联盟需组建专业的技术部门和管理部门,构建合理的数据架构,包括数据存储模块、编程模块、数据分析模块、数据应用模块,重点关注数据表示和描述、数据存储、数据分析的方式及过程,以及数据交换机制、数据接口等内容,保证IRDR联盟数据平台中科研数据的易用性、便捷性、关联性,提高科研人员数据存取、分析和创新的速度与效率。
2.4.2 数据分类与元数据
IRDR联盟平台汇集了不同机构的科研数据,学科广泛、格式多样、结构各异,需要构建多维的数据分类体系。IRDR联盟数据管理部门需要全面分析联盟成员所提交的科研数据的学科体系、数据格式、数据结构等问题,在此基础上进行分类,从不同形式和不同层级创建多维分类体系,有效地对科研数据进行描述与分类,体现逻辑性与易用性,便于研究人员检索和浏览。元数据作为描述信息资源或数据本身特征和属性的数据,支持资源的存储、检索、评价、选择和利用,可以帮助用户发现与获取所需要的资源。IRDR联盟应在平台建立之初对元数据管理进行规划,由专业人员创建与完善元数据,使元数据的质量控制得到保障。平台还要致力于元数据的互操作,加强本体与关联数据等技术的应用,使不同来源的科研数据实现语义层面的整合,使异构、分散的数据资源形成相互联系的有机体,真正满足用户一站式信息查询需求。
2.4.3 审计、日志与报告
用户行为主要指用户为解决某种问题或实现某一特定信息需求,在外部条件刺激下对事实、数据、观点等信息及其获取方式表现出的获取、查询、交流、传播、吸收、加工和利用的行为。IRDR联盟平台在日常运行过程中会产生大量的用户行为数据,能够揭示科研人员提交、浏览、检索、下载、引用科研数据等行为。因此,IRDR联盟平台需要通过一定的技术手段对该类数据进行审计与分析,持续监控和衡量数据价值、风险和治理的有效性,并及时做出调整,不断提高平台的服务质量。
数据是数字化生存时代的新型战略资源,是驱动创新的重要因素。随着数据密集型科学研究和跨系统、跨机构、跨学科合作研究的发展,IRDR联盟将成为科研数据管理与共享的发展趋势。本文构建IRDR联盟数据治理框架,明确IRDR联盟数据治理的目标、前提条件、核心要素和支持要素,可帮助IRDR联盟科学有效地制定数据治理战略规划并付诸实践,以实现联盟内部数据价值最大化并最大限度地降低或规避联盟风险。其中,框架所涉及的要素并不是完全独立的,存在一定的交叉以及相互影响的关系。IRDR联盟需要重点关注七个方面的内容,分别是:明确机构科研数据知识库联盟数据治理目标、设计科学的联盟结构、合理分配联盟成员权责、制定联盟政策、保障数据质量、强调数据安全与隐私、注重数据知识产权保护,从而提升IRDR联盟的服务水平,推动IRDR联盟可持续发展,在更高层次上为科研人员提供良好的科研数据共享基础设施和环境,提高科研数据的价值,支持学术交流和推动科学创新。