欧阳日辉
【关键词】新型基础设施 数据安全 数字流通 数据要素
【中图分类号】D252 【文献标识码】A
数据逐步融入生产生活和社会治理,成为推动数字经济发展的关键生产要素。同时,数据流通、存储、交易过程中所产生的安全问题已经成为国家及社會各领域关注的重点。当前,数据安全发展进入新阶段,党和国家高度重视推进基础设施建设对维护数据安全的重要作用。2017年12月,习近平总书记指出:“要切实保障国家数据安全。要加强关键信息基础设施安全保护,强化国家关键数据资源保护能力,增强数据安全预警和溯源能力。”2022年12月,《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》指出:“构建集约高效的数据流通基础设施,为场内集中交易和场外分散交易提供低成本、高效率、可信赖的流通环境。”基于统筹高质量发展和高水平安全的考虑,2023年12月,中央经济工作会议指出:“必须坚持高质量发展和高水平安全良性互动,以高质量发展促进高水平安全,以高水平安全保障高质量发展,发展和安全要动态平衡、相得益彰。”实现高水平数据安全需要建设数据基础设施。那么,支撑数据汇聚、流通、应用乃至安全保障的数据基础设施是什么?如何定位?如何建设和运营保障数据安全和促进高效流通的数据基础设施?这些都是社会各界亟待加强研究和积极探索的理论与实践问题。
近年来,我国数据的规模呈现爆发式增长,数据作为生产要素被利用、开发而产生的价值日益凸显,已经成为推动经济增长的新引擎。随着数据快速融入生产、分配、流通、消费和社会服务管理等各环节,数据安全问题凸显。数据安全与网络安全、信息安全、系统安全、内容安全和信息物理融合系统安全有着密不可分的关系。数据安全不同于网络安全,是在网络安全提供的安全防御基础之上,以数据安全使用为目标,有效地实现对核心数据的安全管控。近年来,随着数据流动场域和应用场景不断拓展,数据泄露、勒索、窃取、非法滥用和交易等安全事件时有发生,数据交易黑色产业链活动日益猖獗,全球数据安全态势依然严峻。数据安全已经成为全球性问题,当前数据安全问题主要表现在以下方面:
一是数据泄露。各种网络威胁可能会从网络端渗透蔓延至企业内网系统,使企业内网系统大范围存在恶意软件、高危木马等安全隐患。例如,2023年7月,IBM Security发布的《2023年数据泄露成本报告》,是对全球553家企业组织自2022年3月至2023年3月期间经历的真实数据泄露事件的深入调研分析,该报告显示,2020年数据泄露的全球平均总成本为386万美元,2023年这一数据达到445万美元,比2020年增加了15.3%。2023年,平均数据泄露成本最高的行业分别是:医疗(1093万美元)、金融(590万美元)、制药(482万美元)、能源(478万美元)和工业(473万美元)。造成数据泄露损失/成本最高的三种攻击方式是:网络钓鱼、被盗或被泄露以及恶意内部人员行为。
二是数据勒索。近几年,频繁曝出的针对大型企业的数据勒索攻击事件,对全球范围内的各行各业都构成了较大的风险。比如,2023年5月,勒索软件Clop组织利用Progress的MOVEit文件传输工具中的一个严重漏洞,开展了大规模的勒索软件攻击活动。网络安全事件响应公司Coveware估计,截至2023年年底,受MOVEit活动影响的组织总数或许已经接近3000家,已知受影响的个人总数接近8400万人。网络安全公司Crowdstrike Holdings数据显示,2023年针对大公司、银行、医院或政府机构的勒索攻击大幅增加。全球数据勒索攻击呈现新特点,由单纯经济牟利转向实施数据破坏、窃取战略机密、谋取政治诉求等多重企图,勒索意图愈加复杂化,勒索行为日益专业化,勒索手段趋于多样化。
三是窃取数据。在利益的驱动下,犯罪团伙和黑灰产团伙大肆窃取组织数据,外部攻击呈现出高频、高危害的特点,攻击手法日益复杂、多变,专业化、定制化程度不断上升。例如,2022年2月,北京奇安盘古实验室发现,隶属于美国国安局(NSA)的超一流黑客组织“方程式”“制造”了顶级后门“电幕行动”(Bvp47),用于窥视和入侵控制受害组织网络,已侵害全球45个国家和地区,涉及287个重要机构目标,被攻击的机构包括知名高校、科研机构、通信行业、政府部门等。
四是APP违规收集信息。2023年1月,奇安信病毒响应中心发布的《2022年度App收集个人信息检测报告》披露,检测到存在违规收集个人信息风险的APP类型分布中,生活休闲类型的APP违规占比最高,占比为43.5%,第二是网上购物类型的APP,占比为9.2%,第三是办公商务类型的APP,占比为8.4%。2022年度检测中,违规收集个人信息的APP中有24.7%还存在高频次收集个人信息的现象,其中最高一款APP在短短一百秒内对个人信息IMEI收集了715次。
五是数据非法交易。近年来,非法数据交易事件发生频率呈现上升趋势,出现了从之前小规模、低频次向大规模、高频次转变,从线下交易的上万条记录级别向网上交易的上亿条记录级别转变。非法交易的数据逐渐从之前联系电话、邮箱等联系方式信息逐步向个人网上购物、购房购车、教育医疗、卫生保健、金融资产、交通运输等高价值的个人重要信息拓展。网络黑产平台流转的数据主要来源于部分公司或信息拥有者的内部人员与不法分子勾结泄露数据和黑客攻击或渗透窃取数据两大方式。非法数据交易呈现出产业链作案特征,已经形成一条分工明确、网络协作、隐蔽性较强的从数据窃取、数据贩卖到数据挖掘使用的全黑色产业链,作案呈现团伙化趋势。
数据安全问题日趋严峻,不仅造成经济损失,而且对我国构建以数据为关键要素的数字经济和监管体系提出新挑战。一方面,数字经济具有跨界融合的特点,释放数据价值需要融合多源多方数据,对传统分业监管模式、属地监管模式提出挑战,亟待建立敏捷、高效的监管机制。另一方面,保障国家数据安全,积极探索跨境数据管理新模式,认真解决数据跨境流动问题,亟待主导建立协同、开放、合作的全球数据监管体系,强力捍卫数据主权。提升数据治理效能,实现数据高质量开发利用和高水平安全良性互动,成为做大做优做强我国数字经济的基础。
发展数字经济需要筑牢安全屏障,数字安全是重要的基础支撑能力,也是统筹发展和安全的重要内容。2023年2月,中共中央、国务院印发的《数字中国建设整体布局规划》部署夯实数字基础设施和数据资源体系“两大基礎”,打通数字基础设施大动脉,畅通数据资源大循环。激发数据要素潜能和保障安全,需要加快建设数据基础设施。只有把这“两大基础”夯实了,才能促进数字经济健康发展。
数据基础设施成为经济社会发展的新基座
新型基础设施并不能完全包含数据基础设施,也不能完全实现畅通数据资源大循环的功能。数据、算法和算力是驱动数字经济蓬勃发展的主要动力,国家部署的新型数字基础设施聚焦5G、千兆光纤网络、IPv6、移动物联网、卫星通信网络等新一代通信网络基础设施,以及数据中心、人工智能、区块链等数据和算力设施。然而,数据要素流通和开发利用是复杂的系统工程,涉及采集、连接、汇聚、处理、共享、安全、合规、存储、交易、交付等众多基础共性能力。因此,畅通数据资源大循环,充分释放数据要素价值,需要加快建设集约高效、安全可信的数据基础设施。
数据基础设施建设迫在眉睫。随着数字经济的快速发展,数据成为重要的生产要素,数据资源采集、传输、存储、管理、应用的需求快速增加,对存储、计算、网络、安全等的要求也越来越高,传统的基础设施已无法满足要求,新布局的三类新型基础设施(即信息基础设施、融合基础设施及创新基础设施)也不能完全支撑数据要素流通,数据基础设施建设已成为经济社会发展的必然要求。畅通数据资源大循环,强化数字中国关键能力,既需要推动公共数据汇聚利用,建设公共卫生、科技、教育等重要领域国家数据资源库,更需要释放商业数据价值潜能,加快建立数据产权制度,开展数据资产计价研究,建立数据要素按价值贡献参与分配机制,还需要增强数据安全保障能力,建立数据分类分级保护基础制度,健全网络数据监测预警和应急处置工作体系。
数据基础设施以支撑数字经济发展为重要方向。计算机和互联网技术是支撑数字经济发展的基础技术,2015年3月《政府工作报告》首次提出的“互联网+”行动计划,就是要把互联网作为推动数字经济发展重要的数字技术。数据是数字技术应用的副产品,在经济中的重要性越来越凸显。我国数字经济快速发展,数字基础设施规模和能级不断跃升,为更好发挥数据要素作用奠定了坚实基础。我国把数据界定为数字经济的“关键要素”,实际上数据要素刚开始进入经济系统,我们目前还没有达到把数据作为经济发展关键要素这一步。但是,我国发展数字经济正在加速由互联网等数字技术单方面推动,转变为数字技术和数据要素双轮驱动。2024年1月,国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》,顺应了经济发展规律,将推动数据要素在相关行业和领域的广泛应用。发挥数据要素的乘数作用,打造数据要素应用场景,需要数字基础设施和数据基础设施共同发力,提升数据供给水平,加强数据安全保障。
数据基础设施的内涵、功能与特征
当前,关于数据基础设施并没有统一的定义。国家数据局提出,数据基础设施是从数据要素价值释放的角度出发,在网络、算力等设施的支持下,面向社会提供一体化数据汇聚、处理、流通、应用、运营、安全保障服务的一类新型基础设施,是覆盖硬件、软件、开源协议、标准规范、机制设计等在内的有机整体。根据这个定义,数据基础设施包括四大类:第一类,网络基础设施,当前主要是5G、光纤、卫星互联网、工业互联网、物联网等;第二类,算力基础设施,包括数据中心、数据湖、通用算力、智算中心、超算中心、云计算等;第三类,数据流通设施,主要有数据空间、区块链平台、共享交换平台、高速数据网等;第四类,数据安全基础设施,包括数据合规平台、数据全生命周期的解决方案、数据安全管理体系、数据安全技术体系、数据安全运营体系等。
数据基础设施是让数据“供得出”“流得动”“用得好”的硬件设施、软件平台和制度安排。可以从两个层面来认识数据基础设施。从广义上讲,数据基础设施是以支撑经济社会数字化发展和实现国家治理现代化为目标,以推动数据要素高水平应用、释放数据要素价值为基本点,以实现数据要素的采集、汇聚、传输、存储、处理、开发、应用等为主要内容的制度体系、硬件设施和软件平台。从狭义上讲,数据基础设施是指支撑数据要素安全流通的各类硬件设施和软件平台。广义的数据基础设施才能畅通数据资源大循环。还可以从“硬”和“软”两个维度来定义数据基础设施,硬数据基础设施是数据全生命周期的技术和工具、硬件和软件;软数据基础设施包括法律法规、开源协议、标准规范、机制设计等促进数据基础资源优势转化为经济发展新优势的制度安排。
数据基础设施支撑数据全生命周期活动,实现数据要素产权确权、交易流通、收益分配、安全保障,激活数据要素潜能。
在数据确权方面,数据基础设施依托隐私计算技术领域中新兴的联邦学习、多方安全计算、智能合约、同态加密和差分隐私技术,可实现数据所有权与使用权分离,进行数据要素分类登记确权,如数据资源持有权登记、数据资源持有权转移登记、数据产品经营权转移登记、数据流通登记等。通过运用区块链建立版权业务的共享账本,多方透明共享,无法篡改。由于区块链上资产的所有权仅所有者可验证更改,数据基础设施基于区块链的智能合约技术可在无第三方的情形下进行版权确认,并自动记录数据资源的产权变更,从而为数据溯源提供方便。
在交易流通方面,数据基础设施通过开放应用程序接口、传感器、智能设备、爬虫技术等方式可实现自动数据采集,并且基于区块链的系统可以大大简化数据采集过程。AI标注、数据脱敏等技术应用,为机器训练和机器学习提供准确数据,保证了算法模型的有效性。大数据分析、机器学习和自然语言处理等先进技术,可帮助企业释放出宝贵的数据价值。利用云计算、分布式存储架构进行数据存储,并形成后续可供开发利用的数据资源,实现从数据到数据资源的转换。机器学习还能用来确定分析数据效用函数,进而确定数据价格、优化市场估值法。
在收益分配方面,数据基础设施基于区块链的数字化权益凭证可衡量各方贡献值以促进数据收益的公平分配。在初次分配中,借助区块链、人工智能、大数据、物联网等技术来测度企业和组织机构在数据生产和流转中的贡献,以及其他劳动者在数据价值创造中的贡献值,根据贡献度决定收入分配配比,锚定贡献价值进行收益分配,从而在保证分配效率的同时实现分配公平。进行数据收益二次分配时,可运用区块链与智能合约技术进行税收征管,进而由政府通过转移支付等手段补偿数据交易双方以调节数据收益分配,保证收益分配公平性。
在安全保障方面,数据基础设施通过数据空间、隐私计算、区块链、数据加密、数据沙箱等技术,构造安全融合技术体系,保护数据不会在未经授权的情况下被访问和利用,确保数据传输安全,实现数据在业务应用场景和交易场景、不同主体间“可用不可见”“可控可计量”。区块链与分布式系统IPFS结合,可确保存储数据的不可移动性和安全性,算法与加密技术可防止在跨境数据流通中泄露数据,区块链与环签名、群签名等密码学技术相结合可实现对跨境数据流的隐私保护。数据自动分类分级技术、数据资产安全分析技术、数据安全审计技术、人工智能技术等,可将跨境数据分级为轻监管数据与强监管数据,实现数据跨境安全传输。
数据基础设施具备融合、协同、智能、安全、开放五大特征。数据基础设施利用多方安全計算、区块链等技术,建立数据可信流通体系,使供给方有效管控数据使用目的、方式、流向,保障数据安全,解决泄露风险,实现数据可管可控,增强数据的可用、可信、可流通、可追溯水平。由此,数据基础设施呈现出上述五大特征:一是在存储、数据库、大数据等技术领域,打破存储内部系统墙、数据库与存储链路墙、数据与存储配置墙、数据库与大数据协同墙“四堵墙”,实现多源数据融合、存算融合、数存融合、协议融合、格式融合等,为数据复用增效提供支撑;二是在硬件、算力、数据等趋于融合的过程中,数据基础设施对异构异地数据源进行协同分析,包含软硬协同、分析协同和云边协同;三是融合大数据处理、区块链、机器学习、边缘计算、AI分析等多种技术,采集、汇聚、处理数据更加智能、高效,低成本地实现智能决策或自动执行任务;四是通过隐私保护、数据加密、数字身份等技术手段,构建制度规范、技术防护、运行管理三位一体的全方位数据安全保障体系,实现数据在全生命周期过程中不丢失、不泄露、不被篡改、业务永远在线、可追溯和隐私合规,确保数据的可信性、完整性和安全性;五是通过技术和产业的开放性来吸引更多的参与者以保持数据产业生态活力,实现数据、产品和服务间的紧密协同和融合创新。
当前数据基础设施的建设重点
实现数据的流通交易,激活数据要素潜能,挖掘数据价值,安全存储和高效计算是前提,也是当前数据基础设施建设的重点。数据存力指的是数据的存储能力,是以存储容量为核心,包含性能表现、可靠程度、绿色低碳在内的综合能力。以存力为支撑,协同算力“算得快”、网络“传得稳”,才能支撑数据存得下、流得动、用得好。2023年8月,2023中国算力大会发布的《中国存力白皮书(2023年)》显示,当前我国数据存力规模稳步发展,2022年存力总规模较2021年持续增长,增速达到25%,2022年存力总规模(5年计量)已达1000EB。国内数据存力发展呈现全场景闪存化、AI存储走向专业化、软硬节能技术成熟等趋势。2023年10月,工业和信息化部等6部门印发的《算力基础设施高质量发展行动计划》,从计算力、运载力、存储力以及应用赋能四个方面提出了明确目标,到2025年,算力规模超过300EFLOPS,重点应用场所光传送网(OTN)覆盖率达到80%,SRv6等创新技术使用占比达到40%,存储总量超过1800EB,围绕工业、金融、医疗、交通、能源、教育等重点领域,各打造30个以上应用标杆。
我国积极打造新型数据存储和管理设施。比如,中国电子数据产业集团研发推出数据要素金库产品,简称数据金库。数据金库由物理环境(机房)、数据金柜、数据金库管理系统三部分组成。数据金柜是数据金库的基本存算单元,可组成用于储存政府、组织、行业和大型企业核心、重要、敏感数据和数据元件的存算机群,具有自主可控、安全可靠的特点。数据金库可实现“数据资源进,数据元件出”,保障接入、存储、计算、出库环节的数据全生命周期安全。
数据基础设施从能力上要实现数据汇聚、处理、流通、应用、运营、安全保障等,从建设目标上要促进数据流通和保障数据安全,推动数据要素“供得出、流得动、用得好”。从以上功能定位来看,我国数据基础设施建设面临以下主要挑战。
其一,数据基础设施定位有待明确。对于数据基础设施,当前还没有明确其具体范畴。如何区别数据基础设施与正在建设的三类新型基础设施,数据基础设施与三类新型基础设施是什么关系,在理论上需进一步论证。
其二,我国已有的数据基础设施功能还有待完善。比如,2020年我国大中型企业综合灾备覆盖率和我国灾备投资在信息基础设施投资中占比分别仅为34%和2%,低于美国的87%和6%、欧洲的83%和5%。这使得数据基础设施安全保护能力还有待提升,说明数据安全灾备体系建设不够健全。再比如,全闪存储作为数据基础设施的引领者,对数字经济的发展发挥着重要的推动作用。存储领域闪存市场占比情况为:我国占比为20.3%,而全球平均水平为41.3%,美国占比为56.4%。
其三,数据基础设施的核心技术还没有完全掌握在自己手中,供应链存在断供风险。当前,我国比较基础的芯片、操作系统、数据库等技术,部分还面临瓶颈,还需要长时间的努力去破解。新一代半导体存储的固态硬盘(SSD),90%以上的全球市场份额也长期被美国、日本、韩国企业垄断,面临比较高的供应链断供风险。
其四,数据基础设施亟待顶层设计进行统筹规划。一方面,数据基础设施供给与需求存在结构性矛盾、各自为政、重复建设、盲目建设的现象;另一方面,数据流通设施建设不足,算力设施和网络设施的融合协同性不高。比如,我国正在推动建设的“东数西算”工程,需要进一步处理好政府引导和市场驱动的关系,遵循市场规律,强化需求牵引,更好地发挥市场在资源配置中的决定性作用,低成本地构建一个让算力高效适应数字经济发展需求的体系。数据基础设施的架构体系、核心技术、标准规范等不断演进迭代,缺乏顶层设计,不足以保障数据安全流通。
其五,培育数据基础设施产业生态。数据基础设施对新产业新业态新模式的支撑能力不够。比如,自动驾驶、人形机器人等新产业受制于数据基础设施的发展。数据基础设施既需要与数据服务、融合应用形成协同发展的产业生态,又需要高校、科研院所、产业界与政府部门共同努力,培育数据基础设施建设的协同研发生态。如何繁荣产业生态、促进产业技术创新与融合是亟待探索解决的问题。
其六,数据基础设施建设中的制度和规则尚待建立健全。数据流通和应用等制度安排和机制设计还不完善,深化数据要素市场化配置面临统筹力度弱、数据开发利用难、创新资源配置效率低、场外数据交易监管难、数据安全保障不够等挑战,亟待进一步细化政策法规和标准规范,完善数据基础制度。
数据基础设施建设是一项系统工程,需要从决策到技术、从制度到工具、从组织架构到安全技术进行通盘考虑,既需要注重“硬实力”的锻造,也需要聚焦“软实力”的提升。一方面,在技术设施领域,持续提升核心技术的自主创新能力,统筹协调好信息基础设施建設、创新基础设施建设、融合基础设施建设和数据基础设施建设的关系,构筑技术领先、自主可控的数据基础设施基座,确保数据基础设施安全可靠,充分发挥数据要素乘数效应,满足数字经济创新发展的需求。另一方面,建立健全数据资源开发利用的法律法规,在数据要素标准规范体系、数据基础设施建设统筹监管制度、数据基础设施市场准入制度、公平竞争审查制度、公平竞争监管制度等方面,既要发挥全社会的智慧和基层探索的积极性,又在顶层设计中把握数据要素开发利用和数字资产化发展的方向和节奏,推动顶层设计和基层探索良性互动、有机结合,形成自上而下与自下而上的合力。
围绕解决数据质量、数据流通、数据安全和数据融合等问题,促进数据安全流通、实现数据价值化,提出以下建议:
一是建议有关部门研制出台《关于数据基础设施建设的指导意见》,明确数据基础设施定位。统筹数据基础设施建设,优化数据基础设施建设布局,明确硬件数据基础设施建设的准入规则和建设标准,探索可持续的数据基础设施运营模式和收费机制。鼓励和支持平台企业、科技公司等民营经济主体积极参与建设和运营数据基础设施,在保障安全的前提下,形成建设和运营的有效竞争格局。
二是探索跨系统数据可信交换互操作的制度架构和技术架构。数据互操作是数据基础设施的基本功能,鼓励企业探索通过市场协议的方式实现数据可迁移性和数据互操作性。在技术上,实现数据在硬件和平台上互联互通;在制度上,通过协议或者标准规范统一实现数据应用场景与规则相融合。
三是高度重视标准规范等软数据基础设施的建设,支撑算力、系统等硬数据基础设施。根据市场需求,加快出台数据确权、流通交易、安全治理、收益分配的政策,确保数据在采集、汇聚、传输、存储、处理、开发、应用环节的安全保障、高效实用、智能绿色,为释放数据要素潜能、发展数字经济、实现高质量发展提供强劲动能。
四是鼓励探索建设可信数据空间等行业型数据基础设施,推动核心技术创新和融合应用。支持工业制造、商贸物流、金融服务、科技研发等行业领域,在确保利益相关方权益的前提下,建设可信、安全、透明的数据共享、交换、使用与处理的数据空间,解决数据要素提供方、使用方、服务方等主体间的安全与信任问题。支持数据空间研发包括联邦学习、多方安全计算等核心技术,满足数据使用中采集存证、身份实名认证、供需对接、数据质量等基础服务的需求。
五是围绕数据基础设施建设积极培育数据要素产业生态。围绕挖掘数据及数据所蕴含的价值,大力发展数据商、第三方专业机构,提供数据技术、数据产品、数据服务,形成创新力强、附加值高、自主可控的数据产业体系。将建设数据基础设施、支持数据产业发展、支撑数据融合应用有机结合起来,建立支持产业链和供应链高质量发展的数据利益共同体,形成完整的数据产业生态。
(作者为中央财经大学中国互联网经济研究院副院长、教授、博导)
【注:本文系国家哲学社会科学基金重大项目“数字经济高质量发展的创新与治理协同互促机制研究”(项目编号:22&ZD070)和国家自然科学基金项目“数据要素价值化对企业数字化转型的影响:机制、模式与对策”(项目编号:72373056)的研究成果】
【参考文献】
①陈维城:《信通院何宝宏:数据基础设施建设有望推动产业技术新一轮融合》,《新京报》,2023年11月24日。
②管晓宏、沈超、刘烃:《数据安全为何重要?应如何保障?》,《中国网信》,2022年第3期。
③张向宏:《国家数据基础设施(NDI)的守正与创新》,微信公众号“工业互联网产业联盟”,2024年1月8日。
④中国电子信息产业发展研究院:《新型数据基础设施发展研究报告》,通信产业网,2022年8月21日。
⑤中国信息通信研究院:《中国综合算力评价白皮书(2023年)》,中国信通院网,2023年9月6日。
⑥《重磅:刘烈宏首论数据基础设施(附全文)》,通信产业网,2023年11月23日。
责编/谢帅 美编/杨玲玲