柴华 郑亮 翟云
(1.国家超级计算成都中心,成都610299;2.中国软件评测中心(工业和信息化部软件与集成电路促进中心),北京100048)
随着经济的高速发展,算力的需求和供给均大幅增长,数据中心是电力消耗的大户。据国网能源研究院预测,到2030年我国数据中心用电量将突破4 000亿千瓦时,占全社会用电量的比重将升至3.7%。随着碳达峰、碳排放目标的提出,“绿色计算”“低碳计算”[1]被频繁引用,如何实现“低碳计算”成为各项研究中炙手可热的话题。
算力、算法与数据被称为人工智能的三大要素,但并非所有数据都能直接和算法无缝结合产生价值。要满足算法的输入要求,数据需要经过筛选、清洗、加工、转换、标注等一系列流程,才能用于模型的训练。据不完全统计,企业中的算法工程师们80%的时间都在从事数据处理的工作,同时数据处理也需要大量的计算资源,但大部分团队对数据处理的需求基本相同,数据处理的人力和算力均造成了大量的重复工作和资源浪费,带来了不必要的能源消耗。不仅人工智能,大数据分析、科学计算等技术也需要对原始数据做大量前处理操作,很多工作是重复进行的。同时,数据存储格式混乱,各类数据未统一管理,孤岛林立,也造成了大量的冗余存储。
在近几年的生产实践中,不少企业通过数据中台、数据湖等技术将数据处理和存储的工作标准化,减少直接使用原始数据的频次,以减少对数据的重复操作。然而,数据中台和数据湖相对只适合在企业内部建设,跨企业的数据中台存在数据隐私等安全问题。数据脱敏和隐私计算技术可以从一定程度上解决原始数据不出域即可拿来计算的问题,基于同态加密等技术对原始数据处理之后,可以有效整合统一管理,实现加密数据的有效利用。预训练模型技术也是一种有效减少数据重复处理的方法,Google提出了word2vec为代表的词嵌入模型,开辟了预训练模型的发展之路[2]。随后自然语言处理、计算机视觉等领域的预训练模型层出不穷,大模型的概念随着OpenAI提出的超大模型GPT-3被推向高潮[3]。
Wilkinson等提出了FAIR数据原则[4],指出数据需满足可发现(Findability)、可访问(Accessibility)、可交互(Interoperability)以及可复用(Reusability)四大性质,以实现更好的数据管理机制。美国国家科学与技术委员会(NSTC)在对先进计算系统的描述中也引用了这一原则[5]。基于FAIR原则和上述方向的思考,我们重新定义了算据一词。算据介于原始数据和应用模型之间,从原始数据而来,能够直接作为计算的输入成分。通过建设标准化的算据资源库,便可达到减少数据的重复处理操作,进一步实现节能减排的目标。
算据是指原始数据通过清洗、加工、增强、泛化、预训练、知识抽取、脱敏、加密等操作后可直接用于计算输入的元素依据,包括清洗加工标注完善的标准化结构数据集、数据的嵌入表示(Embedding)、预训练模型、知识图谱、加密数据等。
基于FAIR原则,我们针对算据提出了FAIRDNS原则,除了FAIR定义的可发现、可访问、可交互、可复用之外,还需具备3个性质:直接性(Directness)、规范性(Normalization)、共享性(Sharedness)。直接性是指算据无需进行进一步的加工和转化就可以在算法中直接使用,无需再经过数据处理的过程;规范性是指针对不同类型的算据,必须制定若干相辅相成的规范,保证算据以一定标准化格式存在,从而达到无缝复用也无需格式转化的目的;共享性则表示算据本身已基本消除个人隐私信息,在一定程度上可与他人共享结合发挥大数据的真正价值。
与算据概念相关度最高的概念是数据和模型,随着科学的发展和技术的进步,数据和模型被赋予了不同的含义,其含义越来越模糊,亦没有明确的界限,本章将详细探讨三者的区别和联系。
根据维基百科的定义,数据(Data)是通过观测得到的数字性的特征或信息,是一组关于一个或多个人或对象的定性或定量变量。狭义条件下,我们通常所说的数据指未经过处理的,含有原始信息,存在信息泄露风险的观测量,即原始数据。稍广义的条件下数据的定义范围有一定的扩大,一些经过不同操作加工的原始数据、精标的数据集、甚至一些模型参数等都可以称为数据。随着技术的不断变革创新,数据一词表达的内容变得复杂冗余,概念范围边界模糊,且缺乏统一标准的定义和规范,更缺乏标准的分级制度。
模型一词在人工智能出现之前,指通过数学推导建立的变量与变量之间的关系。随着人工智能相关技术的迅速发展,模型在此领域又表示经过算法和数据训练得到的数学表达式或网络结构及参数集合。无论是传统的数学模型,还是新型的人工智能模型,本质上是一种抽象的形式化表达。而大部分广义提及的模型,代表在某一具体应用场景下,可以直接将输入转化为输出,帮助系统得出结论或做出决策。然而,有一部分模型以经验公式及预训练模型具的方式呈现,并不直接作用于具体的领域场景,这类模型具备很强的通用性,需要与通常偏应用的模型加以区分。
算据介于两者中间,有一定的重合度,其核心思想为对原始数据的高度提炼和规范化、抽象化、形式化。相比于数据,算据直接面向算法,不经过处理就能直接作为算法的输入部分;相比于模型,算据更偏向于算法的输入和中间环节,并非最终的成熟模型。通常所言的数据与算据中有一部分重合点,包括原始数据经过清洗、脱敏和精加工后的部分,及通过加密算法加密后的数据。对于无法直接输入算法进行计算和人工智能的训练推理的数据,不属于算据的范围。而通常所言的模型中,预训练模型和知识图谱、嵌入表示等能够直接作为算法的输入,用于迁移、二次训练生成场景应用的模型均可视为算据。
图1 数据、模型和算据之间的关系
通过算据概念的提出,进一步将数据、算据和模型三者的概念清晰化和标准化,可帮助法律法规的概念约束术语定义的标准。
数据的存储技术可谓五花八门,数据是偏向原始记录的概念,实现存储的技术目标也不尽相同,或为节省存储空间,或为读取和查询便利,或是原始采集方式决定了数据存储格式。面对复杂的数据使用需求,要找到标准统一的数据存储方案非常困难。阿里巴巴提出了数据中台的概念,后因标准化的巨大困难逐步放弃中台,有很大的原因就在于此。
同时,数据的不同存储方式也带来了较多不便。文件存储、数据库存储、对象存储等方式中,每一种存储方式有不同的技术方案。尤其是文件存储,不同的文件格式有成百上千种,数据格式转换几乎成为了各个数据分析软件和框架的必备功能,每次使用这些软件框架之前,都需要对数据格式做转换和清洗整理,带来了不少计算资源的浪费。
算据存储与数据存储有所不同,算据直接面向算法,最主要的目标就是高效读取和计算,而且基本上面向的算法是基本一致的,因此有很大的可能性达到标准化和统一格式。HDF5[6]是一种高效的跨平台数据存储文件格式,可实现图像、格式化数据的标准化存储,可支持多种语言灵活读写,也能支持大规模数据量的存储。由美国大学大气研究协会(University Corporation for Atmospheric Research,UCAR)针对科学数据的特点开发的NetCDF也广泛应用于大气科学、水文、海洋学、环境模拟、地球物理等领域[7]。基于算据的标准化特性和读写需求,HDF5、NetCDF及其他类似的格式均为较合适的选择。
算据分为数据集算据、知识算据、模型算据、加密算据等多种不同的形式。不同类型的算据拥有不同的性质和特点,其存储和使用的选择也不尽相同,针对4种主要的算据形态的解读如表1所示。
表1 算据分类及说明
通过对算据进行合理分类可以更好地指引算据标准化的进程,进一步推动行业的良性发展。算据也可以按照不同行业进行进一步的细分,以满足行业的使用需求。
2009年,英国联合信息系统委员会发布《低碳计算技术:2050年展望》,介绍了英国碳排放减少的战略和计划[8],为实现低碳计算提供了综合性的参考依据。算据作为通过软件生态的建设来达到低碳计算的重要措施,其最重要的价值在于其通过标准化和格式化之后,能够实现一定程度的高频复用,从而减少前期数据处理环节带来的重复计算和资源浪费。计算中心和数据中心是碳排放大户,若能够提高计算效率,减少资源浪费,则能够进一步减少碳排放,真正实现低碳计算。
随着各行各业的数字化与科技创新发展,形成了千差万别的数据存储格式和使用方式,统一化和标准化亟需进行。算据本身的概念和定义就是建立在标准化和统一化的前提上,针对某一类算据,提供若干主流的标准化格式,通过算据格式标准和FAIRDNS原则的推行,促进标准化生态的蓬勃发展。针对各个行业,推动算据发展生态的要点以融入行业为首要原则,首先需兼容当前行业的主流技术路线,然后通过整体算据的发展方向引导行业逐步规范化,缩短不同技术路线之间的距离,最终形成少数标准化的技术路线,并提供完善的格式转化工具。
算据与数据不同,针对数据的用法多种多样,包括存储、加工、计算等,但算据均可直接用于计算,因此从使用角度来说,提供标准化格式很有可能实现计算效率的优化。算据标准格式可适配主流算法框架及软件,提供格式可以高效使用为目标,加快算据读取和加载的速度,达到优化计算性能的目的。通过算据的定义范围收窄,有利于引导学界和产业界共同研究和实践,形成标准化、高性能的算据存储和加载方案,尽可能使计算性能达到最优。
实现算据生态建设的最关键一步是标准化。标准化指按照行业使用需求和使用习惯,分别对不同行业、不同用途的算据制定相应的标准,同时提供读写方式的不同方式,以达到规范生态建设的目的。
国际数据委员会(CODATA)、国际研究数据联盟(RDA)等机构在数据标准的推进和制定上做出了不少工作,RDA建立了约30个工作组和兴趣组,在数据引用、永久标识、元数据、数据分类编码、数据互操作等领域开展工作。我国在数据安全能力成熟度模型[9]、数据管理能力成熟度模型[10]等方面发布了相关的国家标准;各行业也针对行业生态现状编制发布了一系列国家标准,如生物特征样本质量[11]、智慧城市[12]、地理信息[13]等。
算据的标准化应按照国家标准体系构建原则和要求来建设[14]。首先基于对数据的采集、存储、使用等方面制定算据的标准框架体系,遵守FAIRDNS原则,提出符合要求的各个标准化方面,如算据的分类、算据的存储和算据的使用等。依据标准体系,针对不同行业分别制定算据的详细应用指南。在规范行业算据使用的同时,加大资源共享和复用的投入,进一步推动各行各业的规范化发展和低碳应用。
2017年,国务院办公厅发布了《政务信息系统整合共享实施方案》,提出了加快推进政务信息系统整合共享、促进国务院部门和地方政府信息系统互联互通的重点任务和实施路径[15]。然而大部分原始数据储存了大量个人隐私信息,对数据共享和二次分发形成了巨大的障碍。2021年9月1日,《中华人民共和国数据安全法》正式施行,发布初期给各行业的数据共享进程也带来了一定的约束。
算据与数据不同,算据的定义已经超出了原始数据的范畴,个人信息在算据中不会体现,这一特点为大力推进算据共享打下了良好的基础。针对算据本身具备的共享特性,建设算据共享资源库和平台成为关键任务之一。各个超算中心作为算力的汇聚点,为减少数据和算力的传输成本和跨组织管理成本,依托超算中心建设共享算据资源库是一种较优的方案。
真正发挥算据价值的核心在于算据的应用生态建设,无论何种算据,其应用的方向都是直接用于算法的输入,通过算法的加工转化产生可实际落地的模型,进一步提供应用价值。
正如算据分类所展示,不同类型的算据具有不同的应用场景。数据集算据主要用于特定场景模型的初始化训练和知识迁移,知识算据和模型算据均用于模型的二次训练和微调,加密算据则重点用于在保护原始数据安全性的前提下进行计算。
针对不同的应用方向,相关机构应依托标准化研究机构和行业领军企业制定相应的标准,号召中小企业积极参与标准践行,以标准为主线,持续深耕应用场景,通过进一步的实践反向完善和修订标准,形成良好的生态循环。
本文对算据这一概念做出了全新的定义和解读,同时引入了FAIRDNS原则,将算据与数据、模型加以区分,针对算据提出了符合低碳计算的生态发展思路,并就算据的标准化、资源库建设及应用生态提出了部分建议。希望能够进一步推动业界对算据的认知和采纳,帮助规范算据标准,减少资源浪费,为低碳计算提供一种有效而通用的路径。