高富平
“数据二十条”对数据基础制度具有很高的定位,它定位于整个中国发展和安全的高度,其基本思想是通过促进数据合规高效流通使用,赋能实体经济。数据经济是让全社会都能够使用数据,赋能实体经济,而不是个别主体的经济,更不是单纯强调数据交易,直接拿数据赚钱,是通过数据“挖掘”出智能赋能社会。“数据二十条”以数据产权、流通交易、收益分配、安全治理为重点,构建适应数据特征、符合数字经济发展规律、保障国家数据安全、彰显创新引领的数据基础制度。这四个方面也是对整个数据基础设计的基本要求和标准。
实际上,数据是社会认知的工具或媒介。进入大数据时代,形成了新的智能——机器智能,它输入数据原料,输出智能或知识,因而成为创新新引擎。数据作为生产要素就是对机器智能(又称“人工智能”)的回应。数据产权制度必须符合数据特征和数字经济的规律,在这方面“数据二十条”将数据的要素价值定位于三重价值,即经济价值、治理价值和人民分享由此带来的收益的价值。这是一个全面的定位,在充分发挥数据要素价值同时赋予每个人分享数字经济红利的机会。
我也参与《数据要素化100问:可控可计量与流通交易》审核,印象深刻的是关于数据要素的定义。为什么数据不等于数据要素,本书对第一个问题回答得非常好,这也破解了现在很多人对什么是数据,什么是数据要素的误解。为什么今天才提出数据是生产要素?我认为主要为解决大数据+人工智能时代的新生产力问题。如今,网络、传感器、智能设备形成了一个感知网络,把我们所有的活动都数字化记录下来,这些数据经过收集、组织、处理,可以发现见解、发现新知,这就是数据挖掘、机器学习、AI等带给人类的新希望。ChatGPT就是机器学习数据的结果,通过机器学习数据背后的模型,通过模型来学习数据,输出知识,将成为未来重要的知识生产方式。
然而,数据本身不是生产力,也不能直接作为生产要素!万物互联情况下生产的数据是没有多少用处的,这就是为什么说大数据的价值微小的原因。只有关联并组织起来,形成足够大的数据,才能试练算法模型,转化为机器智能,产生知识或智能,并通过人的学习或应用再转化为智慧行动,最终能够带来经济效应。我认为作为要素的数据是客观世界变化的事实记录,不是数字形式的知识,知识是对客观世界规律的总结,具有思想或方法价值,可以直接转化为生产力。但数据不行,数据转化为生产力的价值实现链条很长。我们把数据从不能用到能用、可用、好用这个过程称为数据治理。而数据治理,我认为就是生产活动。因为生产活动本质就是创造价值,而数据正在汇集治理中不断产生或改善它的价值。这也就是我们这本书对于数据转化为要素的定义。数据要素化就是让数据可用。
數据不仅要可用,而且还要可重用,在你能用、别人也能用、大家都能用的时候,数据就能够流通了。工业社会最重要的是标准化!工业产品都是标准化的,一个螺丝拧到哪个地方都可以。我们数据是在特定场景下产生的,到其他地方不能够识别语义或者读不了,那就麻烦了,所以数据需要清洗提炼,转换标注,组织汇集才能可机读,可重用,可流通,这就是数据的要素化的全部含义。
数据要素化也等于数据产品化、资产化,三者可以等同。资产是什么?能够给企业带来价值的。如果企业不能用,数据就没有价值,数据就不是资产。数据要素市场建设就是构建数据的生产、流通、使用秩序权,是服务于资源利用秩序的,为此我们提出了持有权来支撑我们的数据利用秩序。
我把大数据+人工智能看成认知革命,而整个社会的生产力就是认识和改造客观世界的能力,所以我们将数据定位于生产要素,建立数据要素市场,就是能够支撑机器智能,机器智能很可能产生智慧行动(如自动驾驶),也可能生产出新的信息或有用的知识,然后再传导到人,人学习之后再转化为智慧的决策行动,机器智能和人类智能相互作用支撑未来社会智能和知识生产。这就是数据成为生产要素,且成为经济新引擎的原因。
数据价值实现大致分两个阶段,在前半段是原始数据的生产、流通和使用,即知识或智能生产的原材料的生产和供给,训练出算法模型,形成智能工具;而到后半段,则是利用算法生产出知识或智能,写出来作品或能够做出分析报告。这个阶段可以看作是知识或智能的生产,输入数据即可以输出知识或洞见了。有价值的信息或知识可以看作是数据的最终产品,可以接入到现有法律制度,比如知识产权保护,通过许可或服务交易,赋能整个社会,产生社会生产力。
我们在座的每一个人、每一个组织、每一个单位都是数据的应用者,也是数据的生产者。我们怎么构建数据产权制度?在这方面,我认为社会主体都扮演三重角色。首先,每个人都是数据来源者。来源者是不是应该有什么样的权利?或者说你所在的企业对企业运营产生的数据有没有什么权利?这里的来源者是针对数字化事实数据而言(不是知识创作者或发明者)。我们在网络上留下的行为轨迹、汽车发动机记录数据,只具有计算或分价值,而用户个人或汽车车主就是数据描述的对象,被称为来源者。数据是描述客观世界某一个对象的某一个方面的特征或属性。关于某一个对象的属性归集到一起,就可以认知这个对象。这就是所谓的大数据分析干的事情。因而数据来源者只是被认知的对象,作为认识对象的个体不应该享有所谓的产权。我们每个人应该有阻止别人滥用关于自己的数据的权利,但不能决定数据的使用。不能非经我的同意就不能使用我的数据。大家会问,《个人信息保护法》不是给我们每个人那么多的权利吗?事先要同意,用后还可以主张删除或移转,其实《个人信息保护法》这些权利防范别人的滥用权,而没有建立非经同意不能使用规则。只是现在被人理解成来源者可以决定。大家想象假如每个人都能决定数据授权使用的话,那么所有的社会交往都先要去给个人做谈判,这个社会成本有多高?因而来源者不应该有数据的使用决定权。
与此同时,我们每个人也是数据使用者,因为我们要使用数据来认知我们的交往对象或客观世界。而在大数据时代,还存在将数据治理成为可用、好用的生产要素的数据生产者。生产者从来源者那里获得数据,加工成为可训练算法的数据集,供给我们使用。我们一定要把个人放在这三个角色里面思考数据权利配置。那么,生产者把不能用的数据变成有用的数据,形成数据集(半成品),供人们分析使用,就能够享有所有权?我觉得不应该,是因为我们还要保护每个数据使用人的权利,使用者有获取数据的权利。假如先收集并投入劳动就有所有权,那么我们使用数据就要与所有者交易,这不仅会妨碍我们每个人的认知自由或探索未知自由,而且是多大的交易成本呀。国外对于数据产权问题并不那么强调,反而更多地讲数据开放。ChatGPT是通过开放的数据环境下学习出来的,如果数据不开放,变成谁收集、谁治理,谁就有产权,那么其后果可以想象。所以我在参与“数据二十条”起草的时候,力主放弃数据所有权,强调流通利用,并为此提出数据持有者权(简称“持有权”)。
持有权是什么概念?就是谁获得了数据,而且是要合法获得,那么你就可以合法控制和使用数据,不仅自己可以用,也可以给人用。给人用就是流通利用。大致有两种方式,一种就是把最终数据产出物——信息、知识或智能工具——“输出”。比如,不输出原始数据,最终给你提供一个解决方案,或给你一份报告,这就是人们通常讲的数据产品交易和数据服务交易。但是,问题在于,如何产出更多的智能或知识?关键在于原始数据的流通利用,因为每个人能够收集的数据都是有限的,首先要解决原始数据的汇集、流通和利用。数据流通的方式分两类,一类是移转数据,使用者可以获得原始数据;另一类是这本书所提倡的“原始数据不出域,可用不可见”,仅仅许可使用,如允许在持有者控制的系统环境进行计算,获得结果。这两种方式均实现数据让他人使用的目的。显然,转移使用权或许可使用就能实现流通利用目的。
这里需要解释一下“数据二十条”的一个非常创新性的提法,叫作产权的结构性分置。目前对于这方面的解读五花八门,我本人也算是起草者,但理解可能也和其他的学者不一样。三权分别是数据资源持有权、加工使用权、产品经营权,其中,加工使用权包括刚才讲的数据治理,也包括挖掘分析、训练算法等,前者是数据本身的生产和流通利用,后者是前面讲的知识生产。这样,加工使用权就涵盖了不断形成和实现数据价值活动。数据资源持有者当然享有加工使用权,也享有加工使用形成的各种数据产品的经营权,同时,资源持有者亦可以授权他人加工使用并取得加工使用形成的数据产品经营权。由于数据是可为多人使用的可分享资源,因而在我看来,授权或转让数据使用权,加工使用者对数据进行加工形成的数据产品应当享有数据产品持有权,形成数据资源的持有权和数据产品持有权,两者都属于数据持有权范畴,但相互独立,更加有利数据产品的流通利用。这样,资源持有者和产品持有者都可以处分(流通)各自的数据,许可他人使用或创设数据产品经营权。数据产品经营权源自持有者的授权,相当于将持有者本享有数据产品化和市场经营的活交给了一个专业机构实施。例如,现在公共数据的授权运营就是为被授权人创设了数据产品经营权。由此“数据二十条”为公共数据授权运营打开了很好的路径。
数据转化为最终产品之后,才进入社会主体应用,赋能社会。这里也存在交易,比如算法模型、分析报告等知识产品。总之,“数据二十条”以数据资源持有者为起点,构建了包含初始数据、加工处理后的数据集到最终知识或智能产品的流通交易框架,通过所谓的“三权”分置,构建了灵活多样的数据要素市场,同时促进数字经济社会分工体系的形成,最终形成数字生产力。
数据要素市场就是如何让数据变现或者变成金钱,变成收入。我多年研究认为,数据的变现过程大致分三类,第一类是企业内部使用,是直接变现。对于企业来讲,即精准营销、个性服务、产品研发、智能制造、提升效率。还有一个是分享变现,通过一对一许可使用或互换交易,或者打造数据生态来实现数据的价值。数据生态是未来数据变现的非常重要的东西,通过协作共享打造一个产业的上下游链条,让大家都共享数据,分享各参与主体汇集形成的大数据价值。最后,数据还可以走向社会化交易,这就是我们现在想打造的国家级数据交易所。市场化交易对数据有一个要求就是必须标准化可重用,能够从自己私域拿出来给他人使用,这对数据产品化提出更高的要求。
数据确权是非常复杂的事情,我们传统认为产权就意味着合法,在市场上流通,買到了产权,这个产权就是合法的。在数据化环境下,持有数据,有持有权并不意味着是合法的,因为数据是非常复杂的存在,数据是多种利益,能不能交易,这个需要一个合规性的评估,要合法取得,控制产品化、要素化,要说清楚这么一套规则,所以数据持有权要通过法律、商业和管理这三者结合起来才能够实现,要向别人说清楚,别人也有一套规则能够判断你是特定数据的合法持有者。传统的产权已经通过权利公示和推定规则解决了交易安全和效率问题,交易的时候我只要看见你有这样一个东西在你面前我就可以买,但数据恐怕就没有这么简单,我们正在以数据持有权构建适合数据要素流通利用,同时又能够解决数据持有者判断、鉴别和评估问题的权利体系。这里的评估既包括价值评估,也包括合规性评估。在我看来,数据确权实际就是识别数据持有事实+合法性评估,形成一个合法交易标的。由于数据是持续生产、不断流通利用的,它处于不断变化过程中,因而,需要我们用新的思维去理解它、去管理它、去应用它,才能构建数据不断流通利用的秩序,最终实现数据的社会价值。
(作者为华东政法大学教授、法律研究中心主任)