顾立平,陈新兰,张潇月,刘金亚
数字经济时代,数据已成为创造和捕获价值的新经济资源[1]。在第十九届四中全会上,我国首次公开提出将数据作为一种生产要素按贡献参与分配[2],这表明数据可同传统生产要素一样,创造价值并产生收益。开放数据增加了数据透明度,人们利用开放数据资源创造新的产品和服务,从而增加经济价值[3]。英国《开放数据白皮书》[4]就曾讨论利用开放数据解锁经济潜力的方式。科研数据作为一种重要的数据资源也被认为能够创造更大的价值,让尽可能多的科研数据发挥尽可能大的价值有助于推进开放科学的发展[5]。
为实现科研数据透明公开、可发现、可获得和可使用[6],人们越来越多地将科研成果通过数据共享基础设施开放和传播,然而仍有许多科研数据因为环境、条件等原因严重流失。我国科研数据流失有3种主要情形:(1)大量科研数据因投稿和发表存储在国外数据平台[7-12],所有权和控制权流失,且在国内数据实体并未得到很好的管理,也未对国内研究人员第一时间共享。(2)过去我国很多科研大数据(如生物学和遗传医学领域)没有经过档案等级监管,或任人取用,或在合作之中无形泄露[13-14]。(3)许多国家先于我国颁布数据监管政策或建立数据监管机构[15-19]保障其数据隐私和安全,我国因数据获取不对等导致数据流失。目前我国已充分重视上述现象并出台若干法规政策应对(如《科学数据管理办法》[20]),这些问题正逐渐得到解决。
但是,目前我国最严重且还没能有效解决的科研数据流失问题是社会科学、自然科学,尤其是STEM(Science,Technology,Engineering,Mathematics)以及交叉科学领域里一些小科学中的暗数据、小数据、无数据问题。通过概念辨析有助于更好地理解这些数据流失现象(见表 1)。
表1 暗数据、小数据和无数据概念辨析
这些数据都没有明显的结构和规律、未被或无法被高效利用,且可能蕴含一定的潜在价值。发掘其价值需做到:确保数据处理和保护规范统一;以某种权责机构或法律法规可追溯的主体来要求、监督、实施和管理数据;让研究人员能在需要的时候较容易地发现和使用尽可能完整的数据。
缓解数据流失、促使数据价值显现的实质是使数据具有结构、可发现、可使用和可分析,而组织与管理工作需要一定的权责主体和特定的解决方案。图书馆可为妥善高效地组织和管理科学数据提供解决方案。第一,对馆藏资源进行组织与管理是其基本工作内容与业务特点之一。第二,图书馆可最大限度和范围地协助科研人员开展各项研究工作。第三,图书馆也亟待从实践调研中寻找可解决其治理体系和治理能力等发展瓶颈的方案。事实上,图书馆界也一直积极参与数据资产管理,欧盟[26]、美国[27]和我国[20]已出台相关政策,促进科学数据管理工作的落实。因此,本研究将从图书馆业务实践出发,构建科研数据的价值提升策略。数据价值研究的理论意义在于厘清数据价值不显现的原因,探索数据价值提升要素,为数据价值提升提供理论指导;现实意义在于缓解数据流失现象,促使数据价值提升、外溢和衍生,找寻可监管、追踪和实施的权责机构作为数据价值提升工作的主要执行者、推进者和宣传者,促进知识传播交流和科研生态体系的发展。
当前关于数据价值的研究较集中于大数据领域。Joao认为,利用云计算、移动服务等开放技术处理数据,可使开放数据创造更大的价值[28]。李旭晖等认为,大数据的价值源于其中蕴含的各种知识关联,发现大数据价值的核心在于对知识关联进行刻画、揭示和利用[29]。由此可见,数据管理与服务技术的进步,为数据价值的提升创造条件。当前科研人员主要从处理技术、组织方式层面关注大数据的价值开发,针对科研具体学科领域探讨数据价值提升的研究较少。也有学者讨论开放政府数据(OGD)的价值提升策略,Petr等认为提高可发现程度和提供高质量的描述性元数据,可提升数据价值[30]。Song等认为,可通过识别与聚合OGD在质量、完整性、要素分解、时效性、透明度与开放程度等多方面的特征,促进新兴公司实现在环境、经济、社会方面可持续发展的价值[31]。这表明通过聚合与关联数据的多维度特征,借助新兴数据处理技术,能够满足特定主体的价值创造活动。此外,医学领域[32-33]、多媒体领域[34]、交叉学科领域[35-36]也有研究涉及数据价值的提升策略。现有研究中的数据价值提升策略涉及几个重点:(1)高质量元数据。提供高质量元数据,可对数据做丰富的注释,从而找到数据之间的相互联系,为数据发现和重用提供保障。(2)知识关联 。 将 经 刻画、揭示和描绘的、可交互的数据关联起来,有望发现其潜在的深层的更具价值的信息。(3)智能化手段。利用计算机科学、软件科学领域的先进技术,可使数据以新的形式满足人们的需求。
结合现有文献中的数据价值提升重点与本研究的目的,本文对数据价值提升工作给出专门定义:通过著录和标引数据实体,深层揭示数据属性和数据结构,并使用统一受控词汇规范化描述数据,进而对数据建立各类知识关联并形成一系列新数据的过程。数据价值提升工作可使杂乱、未经组织管理、不可见的、未关联的、使用率过低的数据,变成被规范组织和管理的、可发现的、相互关联的和可重用的形态,可将其中隐含的更宏观、更完整、更有意义的信息发掘出来,为人们创造更大的科研价值。本文所讨论的数据价值(data value)与数据加值(data added value)和数据监管(data curation)不同。数据加值是指将原始数据或者原生数字资源经过一定程度的处理和加工,形成衍生数据或者数据产品的过程[37]。数据监管指在科学数据的整个生命周期内,通过主动的活动(如对数据标注、评价、选择、转换)使数据增值,最终目标在于使这些数据可以方便地被人们应用或重用[38]。三者虽有相似之处,却又各不相同(见图1)。数据价值提升后,被众多主体利用的可能性与传播能力增强了,当数据经过多次“流转”和再利用,它所能创造的价值也随之产生“乘数效应”。
图1 数据价值提升、数据加值和数据监管的异同
基于前述已有研究与概念辨析,本文以数据实体、元数据和数据描述3个观测要点,结合文献分析归纳的数据价值提升策略的重点,作为后续实证调查研究的线索,搜集数据价值提升解决方案。
(1)加工原料——数据实体。很多科研数据都具有重大科学价值,应当被妥善保留。某些科研数据由于缺乏组织和利用,正逐渐“失去价值”,而长期保存不断增长的科研数据会导致物质、人力及财力等成本逐年上升,这促使人们思考如何缓解双方的失衡。因此,在保留数据内容、性质和形式的基础上,使现有数据创造更多价值的思路是本文的调研重点之一。
(2)核心工具——元数据。元数据可以揭示数据的结构和规律、描述数据的属性和特点,而且,经过元数据著录的数据资源也更容易控制、组织和管理。因此,使用元数据作为数据价值提升主要工具的解决方案也是本文的重点调研对象。
(3)关键工作——数据描述。对数据进行标准化描述可使数据具有可控性和一致性。而通过标识符、属性描述、关系描述、引用数据、元数据等建立的知识关联和推荐,即一系列新数据(索引、摘要和模型等),有望提升数据价值。所以,以数据描述作为凸显数据价值工作重点的解决方案也是本研究的观测要点。
科研领域中对数据价值的提升尚乏较系统的方案,且针对科研数据价值提升的实例过少,不利于分析和归纳。而在对数据技术发展较为敏感的企业中,已开始根据自身业务发展需要,开展数据价值提升工作。大型科技机构能很好地将项目型的小、散、乱数据收集起来,且它们在从数据中推演意义并基于此采取行动方面取得的成果比较显现[41]。因此,对企业界已有经验的梳理,能够启发图书馆等机构的工作人员针对科研数据中暗数据、小数据、无数据等问题制定可行的服务方案。与本研究密切相关的是这些数据知识库为提升数据价值非常有可能考虑的几个重点:元数据提取和管理;统一数据格式,建立数据规范;建立数据关联。因此,本文选择国内外几大科技领先机构,从天地数据(卫星和地图)、社交数据、物流数据、办公数据、个人终端数据5个领域,找到它们通过处理数据实体、利用元数据和关联数据以创造更多价值的实例,并将这些案例分类整理,如表2所示。企业界确有不少方案与本文观测重点强相关,也与文献调研归纳的要点相符合。但是,它们对数据价值的讨论相对比较简单,实质上它们大多都采用少量指标来描述其数据产品的生产、管理和运营,且通常都借助计算机和软件领域的先进技术手段辅助其实现数据价值的提升。
表2 国内外数据价值提升方案
上述科技机构为提升数据价值所采取的策略和施行的工作各有侧重却也有相似之处,本文从现有解决方案中归纳出以下数据价值提升要素。
(1)建立数据目录。面对体量庞大、结构繁杂的数据,众多机构想到的最简单易操作的解决方案就是建立数据目录,如AWS Glue[43-44]、百度Dayu[48]。这类解决方案通过建立数据目录的方式对数据中包含的关键信息进行描述,让数据更易于被检索和发现,增加了数据的可见度和使用频率,加大了数据发挥价值的可能性。
(2)元数据驱动服务。日益累积起来的非结构化的数据资源杂乱无章,既不利于管理也不能体现利用价值。而元数据可帮助很多机构解开此难题。Facebook分析图像元数据并结合其他实践来进行真实性审查[42]、Amazon帮助人们发现非结构化数据的含义及关系并从媒体文件中提取有价值的元数据[45-46]、百度Dayu[48]通过管理元数据促进数据发现和使用等。
(3)聚集小数据建立关联。机构数据通常按工作模块独立保管,为提供更好的公众服务,部分机构从业务流程角度考虑,将各工作环节和业务往来机构的相关数据关联起来,让原本孤立的数据共同发挥出更大的价值,如基于谷歌地图建立的血库地图[52]、微软与Qualanex 合作以节省药物回收成本[47]、苹果为癫痫患者编写的EpiWatch 程序[56]、华为打造的区域人口健康信息平台[57]。此类方案的目的是将一些看似没有关联或还未关联的数据联系在一起,让它们共同发挥更大的作用、提供更优质的服务。而且,这些服务都比那些数据在未关联之前,各自独立提供的服务创造出更大的价值。
图2 数据平台常见结构
(4)建立数据平台。为集中组织与管理大量数据,并使它们创造更多价值,百度Dayu[48]、腾讯 Tbase[51]、 华 为 FusionInsight[50]和 微 软PowerApps[58]等数据平台,基于提取的元数据以及组织和关联后的数据,推出一系列数据服务,增加数据可见度与使用率,体现数据重要性与价值。这类平台的常见结构如图2所示。
上述要素再次印证,科技机构提升数据价值的重点离不开数据实体加工、元数据提取和管理、数据规范化与关联,这些要素都建立在大数据技术、人工智能、机器学习、移动服务和云计算等先进手段的基础之上。而我们无法回避的事实是,科研数据很难直接采用这种模式简单描述或封装为数据产品[59],且这些技术和方案不完全适用于我国当前的科研数据流失问题(如在心理学领域,科研数据存储类型多样且处理方式多元,数据还多为零散的小数据)。因此,本文通过提炼并借鉴它们的数据价值提升思路,结合图书馆业务实践,重新设计规划出更适用于科研数据的解决方案。
文献调研结果显示,高质量元数据、知识关联和智能化手段是提升数据价值的重要因素;案例调研结果显示,建立数据目录、提取关键元数据、聚集小数据和建立数据(监管)平台是数据价值提升方案的关键要素。因此,本文认为科研数据的价值提升策略重点应当集中在元数据提取、数据规范化和知识关联3个方面。首先,元数据和小数据可以让零散的数据具有结构和意义,它们还可以聚集类似的数据资产,人们可通过管理数据来增加其价值;其次,经过格式统一和规范处理的数据,更利于组织和管理;再者,零碎的数据经过组织变得可发现便有了价值,而存在领域间隔的数据只有进一步建立知识关联,才有望实现价值外溢。
从利用元数据标引数据实体、规范化描述数据和建立知识关联的实际操作来看,这几项工作与图书馆业务实践最为契合:作为重要存储机构,图书馆保存着大量科研数据;数据著录标引和数据描述两部分工作需要图书馆专家来完成;图书馆持续引进和融合新兴数据技术,可基于科研数据提供多元化产品与服务;图书馆可最大范围和限度地服务科研人员。有鉴于此,本文结合前述分析结果及图书馆基础业务工作,提出一种更加适用于科研数据的价值提升方案(见图3)。其工作流程包含4个步骤:(1)对各个独立的数据/数据集进行著录和标引,形成一系列元数据;(2)使用统一标准的受控词汇对数据/数据集加以规范化描述;(3)对经过著录标引和规范化描述的数据建立各种形式的关联,形成多种新数据(如索引数据、摘要数据、数据模型);(4)使用新数据提供新数据服务或新数据产品。
图3 数据价值提升方案理论框架
该理论框架更适用于科研数据的原因:(1)元数据强大的揭示功能。元数据增加了数据的可见度,某些特殊领域(如遗传医学和心理学)中不易传输的数据,可以通过元数据著录,只将对人类具有重大研究价值的信息揭示出来,隐去一些私密的个人数据。同时,元数据可揭示数据的结构和属性,有助于人们组织和控制数据。而且,无论是大数据还是小数据,元数据都可以将其著录。(2)数据描述让数据“可交流”。采用统一的数据描述体系,对所有科研数据进行规范化描述,使得各类数据涵盖在统一的标准体系中,可以帮助人们快速发现数据之间的异同与潜在的联系,各数据之间也可进行转化,从而增加了数据的可见度和利用率。(3)知识关联创造更大价值。经过元数据标引和数据描述,数据更易于组织和聚类,再结合专业知识和智能化技术将数据进行加工整理,建立多样化的知识关联便可形成各类新数据,进而创造全新的数据产品和数据服务。当数据经过多次“流转”和再利用,有望打破数据壁垒,跨越领域间隔,最大化释放其价值[59]。
完成上述数据价值提升工作后,数据就处于一种被精心管理的、可被发现的、相互关联的和可重复使用的状态。为检验数据价值提升效果,需要对数据价值进行评估——若无量化评估方式或者任意制造评估标准,就缺乏讨论价值含义与保存策略的现实意义。在商业领域,商品价值可用货币来估算,但数据价值在大多情形下是不能用金钱直接衡量的,需从其他角度入手:商品价值转化成货币,货币在流通中产生了价值;相似地,数据则在不断流转和被使用的过程中提升了价值。为此,笔者参考期望效用理论(Expected Utility Theory)[60],提出一个用以计算数据价值期望效用的公式。期望效用函数认为,如果某个随机变量X以概率Pi取值xi(i=1,2,…,n),而某人在确定得到xi时的效用为u(xi),那么,该随机变量给他的效用便是U(X)=E[u(X)]=P1u(x1)+P2u(x2)+…+Pnu(xn),其中,E[u(X)]表示关于随机变量X的期望效用。接着,引出本文中数据价值期望效用函数V(X)=(1+∑Pi·ki)T+et,式中各项指标说明如表3所示。
表3 科研数据价值期望效用函数指标说明
数据价值期望效用函数可以解释为:如果以某随机数据X在某时间节点的价值(包括科学价值、历史价值、社会经济价值等)为单位1,此时对其实施价值提升操作,并在经过时间t以后对其价值增量进行评估,周期t内该数据共流转T次,那么,该数据的价值增量就等于数据初始价值与数据价值提升工作量∑Pi·ki乘以T,再加上该数据的社会效益e与数据流转周期t的乘积。其中,数据著录标引工作可量化为元数据条目数量,数据描述工作可量化为由非规范描述调整为规范描述的数据属性、数据关系或引用数据等的数量,知识关联工作可量化为关联程度等级(如按分类分组、摘要大纲、层级划分、概念抽象化、可视化分为1~5的等级)。各项工作的权重可结合图书馆专家和数据所属领域专家的经验,以及工作量等来确定。
假设数据集X的价值提升工作量及各部分权重分别为:著录30条元数据且著录工作占整体工作的权重为0.3、规范化15条数据描述且描述工作权重为0.4、关联等级为4 且工作权重为0.3,10年后该数据集共流转100次,且它具有积极社会效益,效益等级为3,则10年后数据X的价值为V(X)=(1+30*0.3+15*0.4+4*0.3)*100+3*10=1750。
数据价值评估的目的与作用,除了实现最基础的数据分析和数据价值的衡量,以及对图书馆在科研数据价值提升方面的工作效果进行评估外,还可将有关信息提供给数据用户或管理者帮助其改善决策,以及辅助一些以数据价值为基础的管理工作(如创造更大收益、创造更多业绩、提升工作效率、提升用户满意度)的开展。
当前我国科研数据领域存在暗数据、小数据、无数据等严重数据流失问题,缓解数据流失现象的实质是凸显这些数据的价值。经文献与案例的调研分析,本文认为,提取元数据、数据规范化和建立知识关联是提升数据价值的关键。从业务实践角度看来,图书馆可作为权责主体为相关工作提供业务支持:经由图书馆专家著录标引数据、描述数据和建立知识关联,并由图书馆采用可供利用的工具和技术提供多元化产品与服务。这样,以尽可能低的人力和经济成本“变废为宝”,实现让“沉默的数据”显现价值、外溢价值,最终衍生价值的转变。面对不同类型的数据流失问题,应在上述数据价值提升理论模型的基础上,根据具体情况各有侧重。
(1)暗数据的价值提升工作,基本符合理论框架中的主要工作流程。由于暗数据无法直接用于分析或商业化产生利益,可以运用丰富的元数据将此类数据进行深层揭示和刻画,并采用同一描述框架规范数据。当数据量累积到一定程度时,就较容易发现其中隐藏的数据关系,通过分析这些数据关系存在的深层原因,也可能会有全新发现。
(2)除作为描述和管理数据的小数据(元数据)外,其他类型的小数据(如主体零散的、项目型的数据)的价值提升工作也基本符合理论框架,处理过程和暗数据相同。
(3)无数据是一种较为特殊的情形,虽然目前还无法解决数据不存在的问题,但是数据找不到和不可用的问题,还是有望通过该框架得以缓解。遵循上述暗数据和小数据的处理流程,对无数据建立关联,便可增加其可见度和可发现性,进而促进其使用和重用。
数据价值不同于商品价值,不易估量和定价,且受到多重因素的共同的影响。期望效用函数提供了一个思路,通过多个变量指标的运算来量化表达人们对数据价值的期望值,也可对数据资产长期保存工作和数据价值提升工作效果作评估。具体到科研数据的价值评估,可以将科研数据的价值折算为某科研人员或团队的学术影响力、学术贡献、科研信誉积分,可能也会有一部分可以转换为物质形式。
(1)元数据质量和标引适度。①确保元数据准确完整。准确性和完整性代表了元数据的高质量,而高质量的元数据可以让科研数据更具有价值潜力。②适度标引。元数据可以像都柏林核心集(Dublin Core,DC)一样简单,也可以像MARC21那么复杂。如果使用DC(15个字段)著录一份数据可能还不足以显示出它与其他众多数据之间有何种潜在的关联,因而需要对其更深层次地揭示。如若将这份数据用MARC21 逐字段著录(几百条),一定可以将数据的各种属性和性质非常细致地揭示出来,但所耗费的人力和时间成本可能已远远大于数据本身的价值,因此,需要根据实际情况在二者之间找到平衡。③希望通过众多科研管理机构、科研资助方等的共同努力,颁布相关激励政策,以促进科研人员向图书馆提交研究数据,并鼓励其提交较完整的元数据(可通过调研确定不同学科领域的元数据规范)。
(2)学科差异。上述数据价值提升理论框架中所涉及的各项具体业务工作均不可避免地存在学科差异问题。例如,不同学科中的科研数据由于格式、类型、研究方法的不同,在使用元数据著录标引时,应针对不同领域数据具体分析,适当扩充或删减元数据。
(3)“睡美人”数据集。在使用数据价值期望效用函数计算数据价值时,需注意一种例外情况,即“睡美人”数据集。这类特殊数据应根据它“睡醒”后的流转次数、社会效益等级等,灵活考虑是否有必要将其“沉睡时期”纳入流转周期。
(4)合理确定科研数据价值期望效用函数中涉及的加权项目及其比重。具体可参考国内外对数据价值内容的相关研究,而流转次数可通过Altmetrics等平台获取。
(5)数据获取途径。图书馆应积极宣传推广数据价值提升方案,调查访问并联系亟待解决数据流失问题的科研机构,与其签署合作与保密协议,获取相关数据并辅助其相关工作的开展。