小数据的大价值

2019-01-31 01:56李广乾
关键词:数据管理结构化

李广乾

(国务院发展研究中心 信息中心, 北京 100010)

一、 小数据:背景、概念

大数据是当下一个热得发烫的概念。自从2012年美国政府发布《大数据研究和发展计划》之后,大数据就开始受到世界各主要国家的高度重视,一些国家和地区都先后发布了有关大数据发展的战略和规划。例如,欧盟委员会先后于 2014年、2017年发布了《数据驱动经济战略》和《打造欧洲数据经济》报告,强调大数据是经济增长、就业和社会进步的重要资源。我国也加快了大数据的发展步伐,近年来中央、地方陆续出台了160多份大数据相关政策文件,20 个省级单位设立了大数据专门机构[注]相关数据引自工信部信息化与软件服务业司副司长李冠宇于2018 年6月27日在江苏省经济和信息化委员会主办的江苏省大数据和新一代软件产业发展推进会上的发言。资料来源:http://bigdata.huanqiu.com/information/2018-06/12356490.html。。近年来,我国大数据产业发展迅速、规模日益庞大,2015年、2016年、2017年分别达到 2 800、3 600、4 700亿元[1]。在这种情况下,人们自然就会问:那么,小数据又在哪里?小数据究竟又有什么价值?

遗憾的是,尽管人们这么好奇小数据,但却不知道小数据到底是什么,至今也没对小数据形成一个统一权威的定义。从现有的材料来看,人们对于小数据的说法是多种多样的:一是认为小数据泛指零星的弱信号,往往被当作没有规范、看似随机的偏差或噪音;二是认为结构化的采样数据就是小数据;三是认为小数据是指信息项目和数据规模较小的数据库[注]关于这种说法,网易科技2017年10月19日所刊登的一篇《“大数据”这词不火了是不是因为没当年说的那么好》的文章就认为,小数据是指简单到可以直接由人来分析和解读、不需要求助于超级计算机或者 Hadoop 作业的数据集。资料来源:http://tech.163.com/17/1019/07/D13GJPSS00097U7T.html。;等等。根据这些说法,我们发现人们对于小数据的属性界定是根本不同的:第一种说法将小数据看作是小概率事件的数据,第二种说法从数据结构类型去认识小数据,第三种说法则简单地从数据量的多少去界定,显然是太不着边际了。由此可见,目前人们对于小数据的认识和理解还是很混乱的。

不过,在正式厘清小数据的概念之前,有必要明确以下3个基本问题:

(1)人们采集、加工处理海量数据,通常都是某种具有特定目的的理性行为。因此,尽管大数据的容量很大、涉及的对象很多,但是人们通常会根据业务类型对这些海量数据进行分类处理。

(2)要体现出某种价值,“数据”本身必须能够表述一个完整的“信息”。无论是大数据中的“数据”还是小数据中的“数据”,都只是一个抽象的概念。单个的数据本身无法反映什么内容,必须是若干条“数据”综合在一起去反映某种“信息”[注]这分两种情况:一种是某数据与其他类型数据组合在一起表达某个具体含义(信息);另一种是众多的某类数据经过一定的算法处理后,可以揭示某种具体的问题。。而且,从逻辑上来看,通常存在着如图1所示的层次递进关系(图1也被称为 DIKW模型)。

资料来源:笔者根据相关材料整理图1 数据、信息、知识与智慧之间的关系

(3)一条完整的信息应该包含一个明确的主体、客体和行为。通常情况下,主体和客体一般都与具体的现实对象(实体)关联在一起。

上述3个基本问题为我们界定小数据的内涵提供了基本思路,我们可以据此去明确那些界定小数据的基本属性:

(1)小数据应该与数据容量无关。我们不应该说 20KB 的数据才是小数据,而20MB的则不是小数据。

(2)小数据自身应该包含特定意义。与大数据中的那些不能反映趋势性价值判断的零星数据不同,小数据应该是那些自身包含特定意义的数据,特别是能够反应大数据的某种基本属性。

(3)小数据应该是一种结构化数据。从前面两条原则可以确定小数据应该就是一种结构化数据,小数据的最大价值应该是既能够界定其他结构化数据的属性及结构,同时也应该能够被用于界定部分非结构化的数据。

(4)小数据应该是对于大数据(无论是结构化的还是非结构化的)的数据之间关系的宏观描述。“以小博大”(或者说“统筹大数据”)应该是小数据之于大数据的价值所在。这包含两个方面的内容:一是对于大数据的基本属性的描述,具体又包括两个方面,一方面是对于特定业务类型大数据的属性的描述,另一方面是大数据中的主体行为特征的描述。二是对于大数据中所包含的主体、客体的基本特征的管理数据。

(5)小数据与大数据形影相随。与大数据相比,小数据的4V(volume、 velocity、variety、value)发生了不少变化:小数据的数据容量(volume)肯定无法和大数据相比,数据类型(variety)以结构化数据为主;与大数据的时刻变化(velocity)相比,小数据的属性相对稳定;就等容量的数据而言,小数据的价值(value)要比大数据的大得多且明确得多。

上述五个方面初步概括了小数据的基本内涵及其与大数据的关系。根据这些界定,我们可以尝试为小数据进行一次具体的定义:所谓小数据就是描述并管理大数据的数据属性的数据。基于上述分析,我们可以根据这个定义划分3类小数据(如图2所示)。

图2 小数据的分类

第一类:关于特定类型的大数据的数据属性的数据。其中的“数据属性”的“属性”,是包含该数据库的定义、结构、类型、操作、管理等各个方面内容的一般化的描述。

第二类:描述大数据中所包含的主体、客体的基本特征的管理数据。这包括两个方面的内容,一是对于大数据中所包含的主体、客体的一般属性的规定,二是满足某类主(客)体属性的所有对象。

第三类:描述大数据中的行为、过程等的数据。这类数据主要是从海量数据中概括、分析、提取的某种“行业知识”、业务框架和发展模型。这是对于行业业务内容的描述分析。

二、小数据与元数据、主数据

根据上述有关小数据类型的分析,我们发现,小数据本身并不是什么新创的数据类型,而应该是对于大数据中一些特定数据的概括、总结和归类。而且,这些特定的小数据类型都可以运用现有的专业数据语言(例如元数据、主数据等)来表述。实际上,第一、三类小数据都可以被称为某种元数据;第二类的第一个方面也是一种元数据,而第二类的第二个方面则应该被称为某种主数据(如图3所示)。无论是元数据还是主数据管理,都是在数据库处理领域得到广泛应用的基础性技术。因此,认识和理解元数据和主数据,有助于我们正确地认识和深刻地理解小数据的科学内涵及其本质特征。

图3 小数据分类与元数据、小数据

(一)元数据与元数据管理

“元数据”最初是指网络资源的描述数据,后来逐步扩展到各种用于描述电子化信息资源属性的数据。目前,“元数据”这一术语广泛地应用于各类信息资源的描述记录。

元数据通常被定义为数据的数据,是用于描述某种数据资源的基本信息的结构化数据。具体地说,元数据是有关一个企业所使用的物理数据、技术和业务流程、数据规则和约束,以及数据的物理与逻辑结构的信息[2],其目的在于:识别资源,评价资源,追踪资源在使用过程中的变化,实现简单高效地管理大量网络化数据,实现信息资源的有效发现、查找、一体化组织与管理[3]。元数据主要包括以下 16 个潜在主题领域(如表1所示)和4种类型(如表2所示),几乎涵盖信息系统建设的各个方面。

表1 元数据可能包含的潜在主题领域

注:笔者根据参考文献[2]整理

表2 元数据类型、属性与内容

注:笔者根据参考文献[2]整理

面对种类繁多的元数据,需要实施有效的元数据管理。为此需要建立合理的元数据战略,并通过开展一系列的元数据管理活动贯彻实施该战略。这些元数据管理活动主要包括理解元数据需求、定义元数据架构、开发和维护元数据标准、构建合理的元数据评估标准等。此外,针对业务元数据构建各种本体,有利于加强元数据管理效能;构建合理的元数据管理成熟度模型,有利于促进元数据管理持续深入的展开[注]本文有关元数据管理的观点,综合参考了《DAMA 数据管理知识体系指南》[2]和 IBM 公司有关元数据产品的相关论述。。

(二)主数据[注]《DAMA 数据管理知识体系指南》[2]将参考数据与主数据放在一起讨论,限于篇幅本文主要讨论主数据。 与主数据管理

当前,主数据已经被越来越多的 IT 企业应用于其数据管理产品或解决方案中,但是尽管如此,人们对主数据仍然缺乏一个权威的定义。IBM公司发布的有关主数据管理的红皮书MasterDataManangement:RapidDeploymentPackageforMDM认为,所谓主数据是有关客户、供应商、产品和账户的企业关键信息;有人将主数据定义为“表示‘跟踪事物状态’的数据”;也有人认为,企业主数据是用来描述企业核心业务实体的数据,比如客户、合作伙伴、员工、产品、物料单、账户等,是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,并且存在于多个异构的应用系统中;等等。国际数据管理协会(DAMA)认为,主数据是关于关键业务实体的权威的、最准确的数据,可用于建立交易数据的关联环境[1]。

图4 主数据与其他数据之间的关系

这些定义分别从各自不同角度对主数据进行了界定,我们根据这些不同定义做一个比较全面的概括:所谓主数据是指满足跨部门业务协同需要的、反映核心业务实体状态属性的企业(组织机构)的基础信息。就企业数据管理来讲,主数据主要涉及四大主题领域:当事人主数据、财务主数据、产品主数据、位置主数据[1]。

综合主数据的各种概念,我们构建一个业务信息系统中有关主数据与其他各类数据之间的逻辑关系,如图4所示。在图4中,“业务数据”被分解为“主数据”和“交易数据”。在这里,所谓业务数据是指业务实体完成一项具体行为过程的完整的数据,所谓交易数据是业务实体基于业务行为规则而发生的具体行为过程数据。对于业务数据而言,主数据是相对不变的,而交易数据是每次都会变化的。

由于主数据涉及众多主数据的产生与应用部门,因此为了协调和管理与核心业务实体相关的系统记录和系统登录中的数据和元数据,需要加强主数据管理,为此需要构建一整套用于生成和维护企业主数据的规范、技术和方案,以保证主数据的完整性、一致性和准确性。

(三)大数据中的元数据、主数据

元数据和主数据之间有着密切的关系。从概念和逻辑上讲,主数据(结构)属于元数据的一个子集,是一种特定类型的元数据。但是,从产品上讲,主数据和元数据是两个完全不同的概念:元数据是指表示数据的经过抽象的相关信息,比如数据定义等;主数据是指实例数据,比如产品目录信息等。由于主数据对于业务系统建设具有独特地位,因而人们往往将其独立出来并单独建设、维护,例如客户关系管理系统(CRM)等。另外,无论是主数据还是元数据,都不是系统自行产生的数据,而是在规划建设信息系统时从加强业务系统管理角度出发所构建的数据(库)。

就常规的大数据信息系统建设而言,小数据(元数据、主数据)为我们认识大数据的核心属性提供了一种有效手段。虽然大数据容量可能很大,但经过初步分析,我们仍然可以从中挖掘、提炼出相关的小数据(元数据、主数据)来。 反过来说,小数据虽然数据容量较小,但人们却可以通过小数据去认识大数据系统中的海量数据的基本特征。

三、充分发挥小数据对于大数据产业发展的重要作用

当前,以元数据、主数据为主要内容的小数据仍然没有受到人们的重视,小数据对大数据产业发展所具有的积极作用没有得到应有的发挥、体现。为此,今后应该采取以下措施:

首先,加强研究,深化认识。

人们对于小数据尚缺乏深入研究和深刻认识,今后应该将小数据作为数据科学的重要内容,从数据属性、知识管理、数据架构等方面对小数据进行专题研究。从促进大数据产业发展来看,当前有必要基于元数据和主数据去深化对小数据的科学属性的认识。

其次,加强宣传普及,消除认识误区。

近年来,大数据产业的爆发式增长掩盖了人们对于传统数据库技术特别是结构化数据管理的关注,并给人造成一种假象,认为大数据技术本身就可以解决数据处理的一切问题。这种错误的假象也使得人们在认识小数据方面出现了上述诸多的混乱。实际上,尽管非结构化数据在大数据发展中占据日益重要的分量,但是作为结构化数据(的产物),元数据和主数据对于日益增长的大数据仍然发挥着重要的作用,在大数据系统建设中仍然占据重要地位。

元数据和主数据要远比其他所谓的大数据的属性(如小概率事件、随机偏差、噪音或小容量数据等)更加科学、合理,也有助于人们深刻认识大数据的基本特征。从技术上讲,从 ISO8000 以及DAMA 数据管理知识体系的构建来看,元数据和主数据都占据最重要的位置;而从有关大数据处理系统如 Hadoop 等的架构设计来看,建立数据来源的元数据、通过数据清洗等流程保障大数据质量,仍然是必不可少的[4]。

为此,为消除人们的认识假象,今后应该在有关大数据产业发展的政策文件、论坛活动等方面,突出小数据发展议题;在大数据产业发展政策、规划和重要的信息系统建设中设立小数据发展专项。

第三,基于小数据建立完善我国的数据管理体系,促进我国大数据产业健康发展。

近年来我国各级政府发布了大量促进大数据产业发展的政策文件。但是,这些政策文件着力解决的是如何促进大数据产业发展,而对如何构建数据管理体系着墨不多。由于没有建立完善的数据管理体系,我国大数据产业普遍存在着数据质量不高、价值无法得到高效发挥等诸多问题。随着我国大数据产业的深入发展,这些问题势必不断加剧并严重阻碍我国大数据产业的健康发展。因此,建立和完善国家数据管理体系迫在眉睫。

根据《DAMA 数据管理知识体系指南》,数据管理体系主要包括数据治理、数据架构管理、数据开发、数据操作管理、数据安全管理、参考数据和主数据管理、数据仓库和商务智能管理、文档和内容管理、元数据管理、数据质量管理等10个数据管理职能,其中元数据和主数据都各自成为一个独立的组成部分,可见小数据对于数据管理体系建设的极端重要性。

建立和完善数据管理体系,是保障我国大数据产业健康发展的基础条件,但这也是一项长期艰巨的任务。从工作需要出发,当前应该基于元数据和主数据管理的理论和方法,构建我国电子政务领域的小数据管理体系。具体工作包括:应用元数据(本体)管理的理论方法,从法律法规和我国行政管理实践出发,构建我国的(电子)政务管理知识体系;应用主数据管理的理论方法,构建我国的自然资源、微观与宏观经济运行管理的基础数据资源管理体系,特别是要以主数据管理理论和方法,规范和完善我国电子政务基础数据库建设。

猜你喜欢
数据管理结构化
企业级BOM数据管理概要
借助问题情境,让结构化教学真实发生
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
深度学习的单元结构化教学实践与思考
CTCS-2级报文数据管理需求分析和实现
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习