尹正 周圣文 张刚
(1.中国信息通信研究院云计算与大数据研究所,北京 100191;(2.民生科技有限责任公司,北京 101300)
随着人工智能技术、大数据技术以及5G等技术的不断发展,社会中每时每刻都在产生着海量的数据,产生的数据中不仅包含了结构化数据,同时也有大量的音视频、文本等非结构化数据。根据IDC在2021年的预测[1],在2020年以前人类产生的数据量每两年翻一倍,到2025年前后全球数据量将达到惊人的179.6 ZB,而其中大部分为非结构化数据,占据了全部数据量的80%~90%,并且非结构化数据增长的速度要比结构化数据增长的速度高出10~50倍之多。
如此海量的非结构化数据之中蕴含的价值不言而喻,如果将数据比作未来的新石油,那么在非结构化数据这口“油井”中所潜在的资源量则是惊人的。但是,由于非结构化数据中的信息含量和信息价值很难被界定,如何对其进行有效的管理,是一个棘手的问题。
根据IDC公司在2021年的分析及预测[1],2025年,全球将产生179.6 ZB的数据,而这一数字在2021年约为83 ZB,全球数据量正在以约23%的速度增加。值得注意的是,在179.6 ZB的数据中,有144.3 ZB为非结构化数据(占比80%),虽然结构化数据在以约42%的速度增长,大于非结构化数据的20%,但由于非结构化数据的基数巨大,导致在数据总量上非结构化数据仍然以压倒性的体量占据领先的优势地位[2]。从发展趋势来看,当前的数据产生于个人与企业的比例大致相同,但随着时间的推移,企业将以更快的年复合增长率(24.2%)产生数据,相较于个人14.6%的增长率,未来从企业中产生的数据或将占据主导地位[1]。
随着光纤网络的普及,存储成本的下降以及新冠肺炎疫情的发展等影响,相较于企业,个人用户产生了大量的娱乐与社交媒体数据,这些数据大部分是图片、视频、音频等非结构化数据。对于企业而言,大部分的数据仍是一些非娱乐性的图片及生产数据,例如常见的文档、音视频、幻灯片等非结构化数据。
值得注意的是,随着物联网的发展,物联网数据在未来激增,而物联网数据多为非结构化的信号数据,如何更好地存储、处理和管理好这些数据将是相关企业在未来发展中需要解决的一个难点。
(1)存储需求。全球数据正在以每隔几年翻倍增长的速度飞增,而其中非结构化数据占据了80%~90%的比例,IDC预测2025年将产生179.6 ZB的数据,而能够被存储下来的数据仅有约17 ZB[1]。受新冠肺炎疫情影响,全球数字化、线上化的进程加速演进,大量娱乐、社交、办公等场景的线下模式都要向线上进行一次“大迁徙”,5G、6G、光纤、云计算、物联网等技术的蓬勃发展使得数据的产生更为简单。如何更高效、廉价、安全地对数据进行存储,减少数据的流失是一个至关重要的关键性问题。
(2)管理需求。非结构化数据以多种结构的形式产生和展现,包括但不限于音视频、图片、文本等形式。企业面对大量的非结构化数据难以有效地进行管理,缺乏统一的标准,难以衡量数据的质量,传统的ETL技术难以应用在非结构化数据上。
(3)应用需求。非结构化数据量大、信息价值密度低,如何将占据了数据库中大量空间的非结构化数据灵活地运用起来并产生价值又是一大难题。
传统的数据分析方法和工具难以从非结构化数据中获取到信息。数据科学家可以结合NoSQL数据库对非结构化数据进行人工解析,但这样无疑为数据科学家增加了大量的工作。当前无论是AWS、Azure还是阿里云,对于非结构化数据的处理主要是提供基础设施,并没有针对数据本身提供解决方案。
与结构化数据相比,非结构化数据具有一些本质上的区别,首先非结构化数据的容量要远大于结构化数据,其次非结构化数据产生的速度也要快于结构化数据,最后非结构化数据的来源相较于结构化数据更为多样。相较于结构化数据,非结构化数据为技术带来了更大的冲击和挑战。一方面,由于非结构化数据产生速度快、体量大,传统的Scale-UP扩展方式会导致性能与容量无法灵活扩展的问题[2],存储下来的数据也很难灵活地使用;另一方面,非结构化数据的价值信息密度更低,如何高效地批量处理如此之多的结构化数据也引起了新的思考。
随着技术的发展,Hadoop的HDFS、对象存储等技术也相继发展成熟,这保证了非结构化数据能够更为高效地存储与查询。存储成本的降低也允许非结构化数据以更低的成本储存下来。随着云技术的发展,非结构化数据存储在安全性、扩展性以及对配套人员的管理成本上都产生了质的飞跃。此外,随着人工智能(Artificial Intelligence,AI)技术的发展,利用语音识别等技术可以更方便地对非结构化数据信息进行挖掘。
随着全球信息技术的飞速提升,数据量的暴增,数据管理、数据治理的话题又重回大众视野,如何更好地管理数据成为企事业单位、研究机构、专家学者关注的热点问题。仅从个别企业根据自身的数据管理经验出发来定义数据管理是不够严谨的,企业间有着行业、技术、人才等差异性,某个组织的经验难以拷贝泛化,如果不能形成全面的完善的理论体系,那么数据管理的建设成本是巨大的。所以,数据管理的理论研究是很有必要性。
2.1.1 现有数据管理理论
数据管理的概念在很早前就被提出。1980年,国际数据管理协会(DAMA International)[3]对数据管理问题进行研究讨论,并配以组织相关年会(EDW)、发表理论丛书(DM-BOK)、辅以考试认证(CDMP),为数据管理的理论建设提供了平台。
DMBOK[3]聚焦于研究数据架构、数据建模和设计、数据存储和操作、数据安全、数据集成和互操作、文档和内容管理、参考数据和主数据、数据仓库和商务智能、元数据以及数据质量的问题,从输入输出的角度来构建各模块的知识体系(见图1)。
图1 DMBOK车轮图
中国在2014年成立全国信息技术标准化技术委员会大数据标准工作组(简称“工作组”),专门从事国家大数据领域标准化工作,负责ISO/IEC JTC1/WG9国际标准归口工作。工作组成立当年便启动数据管理能力成熟度评估模型(Data Management Capability Maturity Assessment Model,DCMM)的立项工作。经过近4年的标准研制、试验验证,该模型于2018年3月15日正式发布。DCMM是中国首个数据管理领域国家标准,将组织的内部数据能力划分为八大重要组成部分(数据战略、数据治理、数据架构、数据标准、数据质量、数据安全、数据应用、数据生存周期),描述了每个组成部分的定义、功能、目标和标准。该标准适用于信息系统的建设单位、应用单位等进行数据管理时候的规划、设计和评估,也可以作为针对信息系统建设状况的指导、监督和检查的依据(见图2)。
图2 DCMM八大管理域
《数据资产管理实践白皮书》简称《白皮书》是中国信息通信研究院在数据资产管理领域的系列研究报告[4],从2017年开始已连续4年发布,成为国内数据资产管理的“风向标”。《白皮书》从数据要素宏观环境变化和企业数字化转型的微观发展出发,明确数据资产管理的核心逻辑是赋能业务创新与发展,推动数据资产的内外部高效合规流通,搭建数据资产管理的整体框架。《白皮书》每年进行更新发布,结合当年中国数据资产管理发展的最新理论与最佳实践,无偿向社会提供报告。
2.1.2 现有理论缺陷
目前,大部分数据管理理论框架主要还是针对结构化数据开展的研究。目前来看,有相对完善的对数据建模、参考数据与主数据的管理等方面的管理体系与管理经验。反观非结构化数据管理的理论大部分还是如何更好地进行存储,进一步能够涉及查询等操作。但结合非结构化数据的体量、增长速度以及价值含量来说,现有的数据管理理论是相对匮乏的。如何设计非结构化数据的模型,如何管理好非结构化数据的质量标准,现有的数据战略、管理制度能否包容非结构化数据等问题都需要进一步的探讨和论证。
对于数据管理,除了提纲挈领的理论知识,技术工具的支撑也是必不可少的。不论是结构化数据还是非结构化数据,首要解决的是存储问题,其次是管理与应用的问题。利用相应的工具和技术进行非结构化数据的管理,大致可以分为存储阶段、部分管理阶段以及智能管理阶段。
2.2.1 存储阶段
存储阶段是对数据进行存储。相较于结构化数据的存储,非结构化数据的体量更大,数据结构更多样复杂,传统的关系型数据库与单机存储难以满足需求。随着存储成本降低,分布式等技术的进步,越来越多的非结构化数据得以被储存下来。较为知名的是HBase数据库[5],不同于一般的关系型数据库,它是一个适合于非结构化数据存储的数据库。利用其列式存储与分布式存储的技术,对非结构化数据的存储产生了质的飞跃。这一阶段主要解决的是数据存储的问题。
2.2.2 部分管理阶段
部分管理阶段是对数据的基本管理阶段。这一阶段可以在一定程度上对企业中积攒的非结构化数据进行一定的管理,也是目前全球较为领先的非结构化数据管理阶段。其主要体现为企业内容管理(ECM)。
内容是指各类文档中包含的数据,其中以文本、图像、音频、视频等非结构化数据为主。企业内容管理是一种服务,包括内容协作平台(Content Collaboration Platform,CCP)、内容服务平台(Content Service Platform,CSP)和内容业务平台(Content Service Application,CSA)。具体表现为具有通用API接口和多储存库的平台型软件,服务于多分支组织机构和各种应用场景[6]。
在部分管理阶段企业可以利用较为成熟的技术工具,对企业中的非结构化数据进行管理,包括但不限于对非结构化数据的采集、存储以及部分应用。在这一阶段较多的是对文档类数据进行管理与应用,而对于音视频等内容的管理依然较为初级和被动。
2.2.3 智能管理阶段
在智能管理阶段,管理者需要借助更为成熟的AI技术针对非结构化数据的全生命周期进行管理和应用。目前,CV、NLP等技术已经可以在一定程度上实现对非结构化数据的处理,例如已经实现的对文本的分类、语义分析、文本情感识别甚至归纳概括,对图像视频的对象识别、运动预测等能力。但这仅仅是根据特定企业的特定需求进行训练开发,缺乏进一步的抽象与泛化能力。如何能够自动化智能化地对非结构化数据进行提炼,总结出一套适用于非结构化数据的模型、标准、质量等规则仍是一大考验。
非结构化数据在蕴含大量信息与价值的同时,也包含了大量的噪声信息。在智能管理阶段,利用AI技术结合数据仓库技术(Extract-Transform-Load,ETL)过程将非结构化数据进行结构化处理[7],从而凝练非结构化数据的价值、减少存储成本。智能管理阶段要加强识别数据质量,目前诸如利用生成对抗网络(Generative Adversarial Network,GAN)[8]等技术创造非结构化数据的恶性社会事件频发,在外部道德法律约束的同时,内部也要加强管理平台的识别能力。
目前,全球关于结构化数据管理的理论已经愈发成熟,专家学者结合社会发展情况对现有知识体系以及理论架构进行完善。但对于非结构化数据的管理,仍需要加强。一是敢于打破现有非结构化管理理论体系。虽然数据管理的理论发展已有多年,但如今的非结构化数据的数量与类型是远超彼时的,针对非结构化数据的管理要敢于突破;二是敢于投入。
在工具上需推进自动化管理的进程。随着中国人口结构的转型,人力资源成本愈发宝贵,要尽快将数据管理问题抽象出来并引入符合企业发展需求的工具,在保证数据安全、提升业务效率的同时推广自动化工具与平台的应用,加强数据管理知识普及,定期开展相关主题培训。
对于研究机构、相关专家学者以及领头企业等先驱群体,要在现有平台基础上深入思考,整合诸如云计算、AI等新的技术。推进现有管理平台向智能化管理平台发展,在满足自身经营的状态下,加大一部分研发投入。在研发过程中可能会遇到边际效益递减的经济学问题,但这也是突破瓶颈的关键阶段,要利用新的技术助力非结构化数据管理平台的智能化转型,同时也反过来促进新的技术加快成熟。
还要注意加强对产业中供给侧的引导,产业中往往能够第一之间反馈出市场的情绪和方向。一是政府要加强对供给侧的支持,为持续创新敢于突破的企业提供更开阔的空间,鼓励企业探索;二是学界要保持对产业的敏感度,善于发现和提炼产业中的问题,完善理论建设,帮助企业发展。
数据作为新的生产要素,其价值已经得到了社会的广泛认可。针对不断高速增长的非结构化数据,首先要加强对数据全貌的记录,加强数据存储技术水平,降低数据存储成本,提升数据存储效率;其次要推动非结构化数据管理的理论研究发展,夯实理论研究,抽象出具有泛化能力的管理理论,帮助社会管理好非结构化数据;最后要以智能化数据管理为目标,鼓励供给侧对非结构化智能管理工具技术的研发,鼓励企业结合先进的理论和工具进行探索实践,鼓励各行各业打破沟通屏障、打通数据共享渠道。