【关键词】互联网基础技术 数据互操作 数据基础设施 数字经济
【中图分类号】TP39 【文献标识码】A
当前,全球互联网发展迎来战略机遇叠加的特殊窗口期,以价值互联网支撑知识交换为特征的第四次工业革命驱动全球数字经济发展进入新阶段。党的二十大报告提出加快建设“网络强国、数字中国”,《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》(简称“数据二十条”)、《数字中国建设整体布局规划》等顶层战略文件出台,配合组建国家数据局等行政机构体制改革,旨在破除数字经济发展的制度障碍。数字经济发展对其互联网底座提出了更高要求,互联网发展新阶段基础技术攻关的核心,应围绕支撑数字经济发展所需的更高知识密度和更小治理粒度的可信数据展开。
互联网诞生于信息化进程的数字化阶段,发展于网络化阶段,爆发于智能化阶段。随着网络规模的扩大和数据的累积,其核心需求从早期的数据交换、信息共享逐步演变为支撑经济社会发展的知识构建,推动互联网从数据互联网、信息互联网发展至价值互联网阶段。
数据互联网阶段(1974—1994年),核心需求是数据交换,关键问题是如何在不可靠的异构网络上实现可靠的数据传输。早期的阿帕网中,主机之间的连接和通信前提是同构网络,但随着网络数据传输需求的逐渐扩大和复杂化,出现了难以定位目标主机、传输错误率高、网络运行效率低等问题。因此,该阶段需要解决的关键问题是,如何规范数据包格式、统一通信协议的规范,实现主机互联,满足全球范围内、异构网络间的可靠数据传输的迫切需求。1974年,罗伯特·卡恩和温顿·瑟夫提出的传输控制技术(TCP/IP协议前身)实现了数据包的封装,以及在不可靠的网络中将数据包从一台设备可靠地传输到另一台设备,有效地减少了网络连接和传输过程中的错误,提升了网络运行效率。此阶段,电子邮件、文件传输服务是典型应用,主机、路由器、电缆等通信物理设施是关键数字基础设施。
信息互联网阶段(1994—2014年),核心需求是信息共享,关键问题是如何在非结构化的网络上结构化描述数据以形成信息。随着互联网接入规模的扩大,人们利用互联网完成信息交互的需求逐渐凸显。然而,由于缺乏信息获取入口和信息共享途径,多方之间高效的信息交互难以实现。因此,探索新的协议和规范,促进互联网中广泛的信息共享,成为互联网的新发展方向。HTTP/HTML(超文本传输协议/超文本标记语言)是解决信息交互问题的关键技术和标准,由蒂姆·伯纳斯·李提出,并于1994年成立万维网联盟来进行标准化和推广应用。信息用HTML进行结构化表述,遵循HTTP协议规范传输,实现了以结构化的信息描述方式来表述非结构化的网络数据,使得可独立于互联网主机之间的差异,在不同的硬件和操作系统上以相似的形式显示信息,促进了互联网中的跨域信息共享。随着网站数量的大规模增加,主要实现网站名称和主机地址映射的域名系统(Domain Name System,DNS)的重要性逐渐增强。域名系统通过对网站地址采用有语义的名字标识命名,实现了对网站的快速寻址,进一步推动了互联网中的信息共享。此阶段,门户网站、电子商务、社交媒体等是典型应用,域名系统是关键数字基础设施。
价值互联网阶段(2014年至今),核心需求是知识构建,关键问题是如何在不可信的网络上交换可信数据以形成知识。数字经济以数字化的数据作为关键生产要素,用以产生信息、知识和创造价值。然而,不可信网络中的数据交换存在以下问题:一是数据安全无法保障,数据侵权、数据泄露等现象频发,引发相关个体、企业对数据安全的担忧,导致数据的过度保护,阻碍数据的流通;二是数据真实性难以保证,伪造数据、劣质数据层出不穷,数据使用者难以依托互联网数据构建有价值的知识成果,导致无效的数据挖掘,阻碍数据应用的发展;三是数据价值分配缺乏合理性,互联网平台利用优质创作内容吸引非创作用户流量、实现快速变现,但用户无法通过自身产生的内容数据获得合法收益,导致用户的消极情绪,阻碍数据的持续产出。因此,探索新的规范和协议,保障数据安全、真实并实现数据价值的合理分配,达成数据的可信交换,是价值互联网阶段的主要任务。区块链技术是满足可信数据交换的关键技术之一,也是融合加密技术、共识机制及图灵完备的智能合约语言的可信计算平台,将通过维护不可篡改的分布式账本,支撑价值互联网中可信化要求的新的基础设施构建。同时,为解决上述数据安全、可信及价值分配等问题,区块链技术还需完善并融合承载数据治理规则和数据要素利用的数据互操作技术,在弥合网络碎片和连通数据孤岛的基础上,保障数据全生命周期的可信、可用、可管、可控。
数据价值的凸显和数据安全的加强迫使数据与应用解耦,逐渐成为可控可信的数据自治空间,形成众多的数据孤岛(简称数岛)。因此,实现数岛互联以完成数据互操作,成为价值互联网阶段的重要课题。互联网发展至今,颠覆性的技术创新难以打败兼容性的技术演进,数据互操作的技术实现必须以现有互联网基础技术为依托,逐步形成新的互联网协议标准。
第一,互联网发展新阶段数据互操作至关重要。互联网发展新阶段,数据与应用解耦成为关键特征。信息化进程从数字化、网络化发展到智能化阶段,数据与应用的关系随之发生变化。在数字化阶段,由于互联网技术还没有普及,数据和应用在用户本地,用户对数据具有完全的控制权。随着数据产生速率的持续提升和应用模式的不断创新,数据交换成为基本需求,直接推动了互联网的诞生。同时,数字化数据的传输容量和传输速度需求进一步推动了网络技术的发展。在网络化阶段,互联网服务的发展催生了数据和应用均在网络云端的新模式。互联网服务为人们生活带来极大便利,但也导致了用户数据完全由云服务提供者掌握,用户逐渐失去了数据的控制权。互联网平台作为数据的实际控制者和数据价值的直接受益者,承担起数據安全、可信、可控的全部责任。然而,互联网平台仅是数据全生命周期的一个参与者,目前数据收益分配机制不利于数据产业生态的健康可持续发展。在智能化阶段,数据和应用解耦成为必然趋势。在《数据安全法》和《个人信息保护法》等相关法律法规相继出台促使数据合规及治理要求越来越高的同时,终端计算能力也随着数字技术和网络技术的发展逐步提升,隐私数据和重要数据以相关方可选择的方式存储于安全、可信、可控的数据自治空间中,应用服务提供方在经过相关方许可的前提下,“按需使用”获取数据,以进一步提供服务。同时,建立数据价值分配机制,也可以使用户依靠生产数据获取持续收益。
数据与应用解耦促使互联网应用和数据之间交叉访问需求增加,使得数据互操作成为互联网发展新阶段的重要关切。互操作是指不同计算机系统、网络、操作系统和应用程序一起工作并共享信息的过程,存在于互联网诞生之初,并伴随着互联网发展而演进。数据互联网阶段,互操作技术专注于实现主机间的通信,完成异构网络间的数据交换;信息互联网阶段,互操作技术专注于实现网站间的統一规范,完成不同网站间的信息共享;价值互联网阶段,数据与应用解耦将推动互联网应用和数据之间交叉访问,应用与数据的一对一关系将演变为多对多关系,从而大幅提升互操作的复杂度,解决数岛间的数据互操作成为关键。
互联网数据互操作是用于解决数据跨域互联互通和交换共享的互联网基础技术,秉持“数据不离域,可用不可见”的基本原则,驱动数据应用从“数据中台”到“数据中枢”模式的转变。一方面,由TCP/IP、HTTP/ HTML、DNS等协议构成的传统互联网基础技术,作为连接互联网物理基础设施、支撑互联网多样化应用的关键技术,因未考虑数据权属和保护问题,造成数据访问受控于网站,难以满足数据与应用解耦模式下可信数据交换的要求,制约了数据要素的流动和价值释放;另一方面,传统以“数据中台”为基本模式的跨域数据交换,因存在一个收集原始数据的集中平台,导致数据需从本地可控存储流向集中的不可控第三方平台,同样造成数据安全可信保障的困难。因此,数据互操作技术需从保护数据安全及权属的角度出发,基于已有的互联网基础技术,构建应用与数据之间的“桥梁”;避免数据的离域,用“数据中枢”的新型模式替换“数据中台”的传统模式,用跨域数据索引与确权替代传统数据中心存储数据的方式,在归还数据管理与授权的基础上,实现对互联网数据资源的定位,在保障数据权属的前提下安全交换数据,为数据与应用解耦后的数据高效利用夯实基础。
第二,数据互操作技术支持数据跨域互联互通。数据互操作技术需贯穿数据采集、传输、存储、计算、应用、消亡的数据全生命周期,支持发现和定位数据资源,并在保障数据权属和促进数据可信的前提下实现数据资源安全交换。数据互操作需解决标识确权、认证授权和安全交换三大关键问题,并支撑数据标识体系、数据确权体系、身份认证体系、访问授权体系、分级分类体系、算法管理体系构建。其中,统一标准的标识体系为数据建立全球唯一标识索引,形成共享和交换数据信息的纽带,使得产生的数据能被发现、需要的数据能被找到;统一标准的确权体系,明确数据权属,保障数据持有者、加工者、经营者等各方的合法权益;统一标准的认证体系,确保身份的唯一性和不可伪造性,为数据的跨域使用提供分布式身份认证能力,打破因无法认证操作者而拒绝数据跨域使用的现状;统一标识的授权体系,仅允许经授权后的数据访问,以保障数据可控,保证数据互操作流程的安全性和合法性,减轻个人、企业等对数据侵权进一步引发的数据泄露等问题的担忧;统一标准的分类分级体系,以依据核心数据、重要数据、一般数据构成的分级框架和公共个人维度、公共管理维度、信息传播维度、行业领域维度的分类规则,形成具体可操作、可执行的数据分类分级标准,保障数据跨域互操作过程的合规性;统一标准的算法管理体系,对可信算法统一管理和认证,以结合现有的隐私保护技术,在不离域的前提下实现科学数据的价值释放。
数据互操作技术的“互操作”需要做到与现有技术向后兼容的数据互联互通。因此,以标识为基础,发挥已有互联网基础技术的能力和优势进一步推动技术演进,是数据互操作技术的主要实现思路。从最初以地址标识为基础的路由系统,到以名字标识为基础的域名系统,支撑数据交换、信息共享的历史要求虽已完成,但已难以适应当前知识构建和价值交换的要求,因而一种以泛在标识为基础的数据标识系统的产生成为必然。当前,域名及域名系统是互联网关键资源的核心连接点,它基于对IP地址等资源的关联和映射,不仅将全球的网站连接在一起,更是成为全球互联网的中枢神经系统。实现全球的数据连接,构建数字经济的中枢神经系统,要实现从DNS(域名系统)到DIS(数据互操作系统)的演进。需要强调的是,数据互操作技术要实现向后兼容,以符合互联网统一标准的方式发现和定位数据资源,并在保障数据权属和促进数据可信的前提下实现数据资源的安全交换,而不是自建体系。这既是互联网基础技术创新的趋势,也是数据治理落地实施的保障,更是数字经济发展对数据基础设施的要求。
数据互操作技术的“互操作”还需达成国际数据孤岛间的互操作,推动DIP/RDF(数据互操作协议/资源描述框架)国际统一标准的形成,实现全球范围的数据互联互通。在不同互联网发展阶段,互联网基础技术始终由资源描述规范及配套的传输协议构成。在价值互联网阶段,一种用于描述数据资源及可信数据资源传输的协议,对于实现数岛互联至关重要。RDF是一种描述数据资源元数据的规范模型,以<资源,属性,陈述>三元组为基本元素,用于描述数据资源的基本特性及关系,该技术是实现数据资源重用和数据交换的关键,更是互联网数据机器可读、进一步实现大规模数据应用的基础。数据互操作技术将以RDF作为数据资源描述的基本规范,推动跨域数据互联互通的数据资源传输协议——数据互操作协议DIP的标准化工作,在国际社区形成数据互操作共识,进一步促进数据价值流通,扩大数据应用范围。
数据互操作技术有助于保障数据内容可信、数据交易安全、收益分配公平,在未来,数据互操作技术将成为数据基础设施的核心技术,而数据基础设施的形成和发展,有助于推动在高质量数据互联互通基础上的应用生态蓬勃发展。
第一,数据互操作技术支撑数据基础设施构建。2023年2月,中共中央、国务院印发《数字中国建设整体布局规划》(以下简称《规划》)明确,数字中国建设要“夯实数字基础设施和数据资源体系‘两大基础”,并将数字基础设施划分为网络基础设施、算力基础设施和应用基础设施三类。支撑数据资源体系的数据基础设施某种意义上属于网络基础设施的范畴,并连接算力基础设施和支撑应用基础设施。推动数字经济高质量可持续发展是数字基础设施建设的最终目的,数据要素是数字经济发展的最活跃增长要素,数字基础设施应支撑数据全生命周期的高效流通。以畅通数据资源大循环为价值导向,必然促使数据基础设施从网络基础设施中分离出来。网络基础设施主要完成数据的采集和传输,算力基础设施主要完成数据的存储和计算,应用基础设施主要完成数据的分析和应用,数据基础设施则贯穿和连接网络基础设施、算力基础设施和应用基础设施,打通数据资源体系,促进数据循环畅通,从而释放数据要素价值。
类比于工业经济时代围绕资本流通建立的监管体系,数据基础设施帮助实现对数据要素的统筹管理与宏观调配。一方面,数据基础设施对内保障数据本身的安全可靠,对外促进数据全生命周期各环节之间的联动配合;另一方面,数据治理与安全保障能促使更多的高价值数据从封闭的系统平台中释放出来,并保障数据全生命周期的安全有序流通。
數据互操作技术是数据基础设施构建的核心技术。在本质上,数据互操作技术是一套实现数据交换的机制设计,包含标识确权、认证授权、安全交换三个核心步骤,其中标识确权和认证授权对应了数据交换确权和行权的过程,明确了数据提供方的权利和义务,即负有保证数据内容真实可靠、安全合规的义务,同时也享有根据数据的实际价值、需求程度、数据质量获得收益分配的权利;而安全交换则对应于数据交换过程的安全性。此外,数据互操作系统承载了基于此系统实现的每一笔数据交换的真实记录。就技术定位而言,数据互操作实现了对从采集传输到应用消亡的数据全生命周期的监管。数据互操作是数据基础设施的底层技术架构,数据基础设施应包含的其他功能,如数据内容审核、任务资源分配等,都能够基于这一底层机制和技术架构向上构建。在未来,数据基础设施的内涵与功能将随着现实数据需求与数据治理实践的变化而不断丰富,但围绕每一次数据交换的实现思路与方向是基本不变的。就具体功能而言,明确数据权属以及保障交换安全本身属于“控制”的具体内涵,其中,明确的数据权属配合真实的交换记录为数据治理提供依据。数据互操作系统能够与数据治理规则相容,从数据流通的底层架构中为数据治理留出操作窗口,对数据治理手段进行数字化赋能,使其不再独立于技术系统与平台之外。
第二,数据基础设施支撑数字化发展应用生态。一方面,互联网发展面临的新问题、新需求会助推数据基础设施的发展并形成相关产业;另一方面,数据基础设施的发展成熟,也将支撑上层应用不断取得新突破。
任何技术的推广与普及都必然以市场化的方式运作并形成相关产业,数据基础设施的发展将助推形成数据基础设施产业,并在纳入数字经济核心产业的统计范畴以及数字经济运行中发挥特定的作用、扮演固定的角色。当前,中国已建成世界规模领先的数字基础设施,其中,网络基础设施规模全球最大,算力规模位居全球第二。《数字中国发展报告(2021年)》指出,2017年到2021年,我国数据产量从2.3ZB增长至6.6ZB,全球占比9.9%,位居世界第二。随着中国产生的数据量呈指数级增长,数据基础设施产业也将发展至与其他数字基础设施相当的体量与规模,数据基础设施产业的发展蕴含着巨大的市场机会和广阔的想象空间。
数据基础设施助力数字技术迭代升级。大数据、云计算、区块链、物联网、人工智能等数字技术作用于数据生命周期的部分环节甚至全流程,数字技术的迭代升级与数据互联互通息息相关。以人工智能技术为例,机器学习中的神经网络是大型语言类模型出现之前,人工智能技术中应用最为广泛的门类,能够较好地解决图像识别、声音识别等问题,并应用于人脸识别门禁卡、无人驾驶汽车等领域。神经网络技术理念的提出最早可以追溯到McCulloch and Pitts(1943),上世纪六十年代曾经历了技术理论的繁荣发展期,但是神经网络技术直到2010年才开始大规模普及应用,算力基础设施不健全与数据资源匮乏是其中的主要限制因素。同样,算力基础设施与丰富的数据资源支撑了ChatGPT等大型语言类人工智能模型的构建。一方面,ChatGPT等大型语言类模型的发展高度依赖于高知识密度数据的积累,而“数据孤岛”问题的凸显,难以有效支撑人工智能技术及其应用的发展,这就需要数据基础设施为人工智能技术的发展提供丰富的高知识密度数据;另一方面,ChatGPT等大型语言类人工智能模型的发展隐含一定治理风险,呼唤数据基础设施在数据资源体系大循环中扮演总体控制的角色。
数据基础设施赋能相关产业发展壮大。从数据要素产生的逻辑来看,可将各类产业分为数据原生产业和数据次生产业,数据原生产业从产生之日起就依托于数据存在并发展,数据次生产业则指传统产业的数字化转型、数据基因的植入与产业数字作用机制的形成(江小涓和靳景,2022)。对于数据原生产业而言,数据基础设施促进高价值数据释放,直接推动了数据原生产业的发展。对于数据次生产业而言,数据基础设施赋能传统产业,使之向数据次生产业演进。制造业是发展实体经济的重点,数据基础设施支撑数据要素高效流通,帮助制造业生产直面消费市场,使生产制造方式从大规模、标准化、低成本的流水线生产向小规模、个性化、易调整的数字化生产方式转变,使按需生产、快速响应、各生产环节之间的紧密配合成为可能,衍生出增量制造、柔性制造等新模式。
面对价值互联网的发展浪潮,在网络强国战略实施过程中,引领互联网体系结构和基础技术方面的创新才是根本。为此,应加快搭建数据基础制度体系、制定有关技术标准,前瞻布局“数据中枢”模式沙盒试点,以积极作为的姿态把握第四次工业革命发展机遇,以网络强国和数字中国建设推动实现经济和社会发展数字化转型,以数字经济高质量快速发展推动实现中华民族伟大复兴的宏伟目标。
(作者为中国科学院计算技术研究所互联网基础技术实验室主任,清华大学互联网治理研究中心主任,伏羲智库创始人)
【参考文献】
①江小涓、靳景:《数字技术提升经济效率:服务分工、产业协同和数实孪生》,《管理世界》,2022年第12期。
②McCulloch W S, Pitts W. A logical calculus of the ideas immanent in nervous activity[J]. The bulletin of mathematical biophysics, 1943, 5: 115-133.
③李晓东、刘金河、付伟:《互联网发展新阶段与基础资源全球治理体系变革》,《汕头大学学报(人文社会科学版)》,2021年第8期。
责编/王妍卓 美编/宋扬