付熙雯 王新泽
(西北大学公共管理学院 西安 710127)
数据交易作为数据要素流通的基本方式之一,是近几年的研究热点,学界已有部分数据交易相关主题的研究评述。如熊巧琴等人[1]从经济学、法学和计算机科学角度对国内外数据要素确权和定价的研究进展进行了综述。蔡莉等人[2]则专门对数据要素定价策略和定价模型进行了回顾。张小伟等人[3]则对数据博弈和拍卖定价方式的相关研究成果进行了总结。以上综述性文章为当前数据交易的研究提供了重要参考,然而这些文章均是从一个较为微观的视角切入,缺乏对国内数据交易研究现状的整体性评述。基于此,为全面了解我国数据交易研究现状,识别当前研究的薄弱环节,本文拟从基本内涵、交易范围、影响因素和发展路径四个方面对数据交易的国内研究进展和成果进行系统性回顾和总结。
本文采用系统性文献综述法,将研究流程设计为文献收集、文献筛选和文献综合。针对系统性文献综述法“文献综合”步骤主观性较强的不足之处,本文借助Nvivo12软件对文献内容进行编码,以梳理文献内容。
a.文献收集。本文在CNKI数据库以“数据交易”为关键词进行检索,文献类型选定为期刊,语言限定为中文,检索时间截止2022年5月25日,按研究主题初步筛选获得文献232篇。
b.文献筛选。与传统文献综述法不同,系统性文献综述法主要基于研究问题对相关文献进行进一步筛选。就本文而言,其研究问题是:数据交易是什么?什么数据可以交易?数据交易现状与影响因素有哪些?如何促进数据交易的发展?本文按照以下标准对相关性不强的文献进行过滤:首先,文献类型应为学术研究论文,书评、征稿启事等不纳入;其次,文献内容需与本文的研究问题相关,应涉及本文的一个或多个研究问题;最后,文献篇幅不宜过小,正文小于8 000字符的文献不纳入。按照上述标准,最终选定89篇文献作为研究对象。
c.文献综合。在文献综合阶段,本文借助Nvivo12软件对选定文献进行开放式编码、主轴编码和选择性编码,以梳理文献内容。在开放式编码阶段,本文对所选文献进行逐句阅读,将涉及研究问题的语句进行凝练概括,初步获得编码如“数据产品交易”“数据确权”“数据定价”“政府行政监管”等。在主轴编码阶段,本文在多次对比分析的基础上将开放式编码形成的编码结果进行了合并和归类,如将“数据确权”和“数据定价”合并为“数据商品化困难”;将“政府行政监管”“平台自律监管”“协会辅助监管”归类为“管理路径”。最终获得“产品交易论”“服务交易论”“类型视角”“特征视角”“数据商品化困难”“交易风险规避难”“市场规制不健全”“平台作用负面化”“社会准备度不足”“管理路径”“法律路径”“技术路径”12个主轴概念。在选择性编码阶段,本文将主轴编码阶段形成的主轴概念进一步合并,最终获得“基本内涵”“交易范围”“影响因素”和“发展路径”4个核心概念。
本文首先对选定文献的发表年份进行统计(见图1),可见其中最早的研究论文发表于2015年;文献发表数量整体呈现递增趋势,仅在2019年出现下滑;2020年后文献发表数量快速增长。本文同时借助中国政府网政策库整理数据交易相关国家层面政策文本的出台时间。如图1所示,最早的《促进大数据发展行动纲要》出台于2015年;政策文本数量整体也呈现递增趋势;2020年后密集发布。由图1可见,数据交易的国内研究和国家层面政策的发布呈现出一定程度的关联性。国家政策是社会科学研究的主要驱动力[4],我们推测数据交易相关政策对国内数据交易研究具有一定的推动和引导作用,如2020年后我国多项鼓励数据要素市场发展的政策相继出台,数据交易的国内研究数量也迅速攀升。
图1 各年份文献数量与国家政策文本分布
文献综合发现,国内学界对“数据交易”基本内涵的研究相对较少,形成了“产品交易论”和“服务交易论”两种主要观点。产品交易论认为数据交易是对数据及其衍生品的交易行为, 如梁继等人[5]认为数据交易是数据主体让渡数据使用价值的行为;郑磊[6]也指出数据交易是数据主体对数据商品的交易行为。服务交易论则认为以直接的数据买卖为形式的数据交易仅为少数,多数数据交易行为是围绕对数据的加工与服务展开的。如丁晓东[7]指出现实中数据交易并非将数据作为具有财产属性的商品进行交易,数据交易是一种基于数据的服务交易。在上述争论的基础上,亦有学者对两种观点进行整合,如李雄一[8]将数据交易定义为交易双方对原始数据、数据产品以及数据服务互通有无的行为和过程。数据交易区别于传统有形商品的交易,其交易情景、交易行为与交易方式更加复杂多变,现有文献对数据交易内涵的研究仍较为粗浅,尚需进一步深入。
文献回顾发现,当前国内学界对数据交易及其相近概念界定不清,出现了诸如“大数据交易”“信息交易”“数据要素交易”“数据资源交易”“数据产品交易”“数据商品交易”“数据资产交易”“数据资本交易”等数据交易的相关概念。上述概念的混用制约了相关理论研究的深入开展。本文认为,数据交易的对象不仅包括大数据,“小数据”也具有交易价值,因而“大数据交易”从属于“数据交易”这一概念。其次,数据是对客观事物的原始记录,信息则是对数据的加工和提取,数据的价值来源于其承载的信息,故而数据交易的本质是数据内部蕴含的信息和货币之间的交换[9]。最后,数据资源、数据产品、数据商品、数据资本以及数据资产均为数据价值实现过程中的不同表现形态[10],数据要素则是对数据生产价值的强调,故“数据要素交易”“数据资源交易”“数据产品交易”“数据资产交易”“数据商品交易”和“数据资本交易”本质上均隶属于数据交易的总体范畴。
数据交易范围指的是数据合法交易的界限,是对数据交易对象的合法性认定。国内学界对数据交易范围的探讨主要采用规范研究法。文献综合发现,当前研究对于数据交易范围的划定主要通过明确可交易数据的类型和阐述可交易数据的特征两种视角展开。
这部分研究者将数据按照来源主体和控制主体进行分类,分别探讨其可交易性,相关研究结论总结见表1。国内研究者将数据按照控制主体分为政府控制数据和企业控制数据,按照来源主体分为政府数据、企业数据和个人数据[11]。政府控制的数据,包括自生数据、企业数据和个人数据,来源于其职能的履行,具有公共性和公益性,不能进行交易流通[12],只能在政府系统内部进行共享和面向社会进行开放[6]。企业对其控制的自生数据享有财产权,应鼓励进入数据要素市场。企业控制的政府数据、其它企业数据则应受限交易,比如肖建华等人[13]认为企业对其合法收集的数据享有财产权,但经过匿名化处理才能进行交易。对于企业控制的个人数据是否可以被交易,国内学界尚存较大争议。例如王玉林等[14]认为企业控制的个人数据应禁止交易,而徐玖玖[15]认为匿名化处理后的个人数据应允许合法交易,但同时提出通过技术和法律工具防范风险。
表1 可交易数据的类型
另一部分学者认为较之探讨可交易数据的类型,明确可交易数据的特征更具有现实意义。国内研究者认为可交易数据的特征主要有合法性、产权明晰、匿名性以及非敏感性等。合法性包括来源合法和内容合法,前者指的是交易数据应合法取得[16],后者强调附着在数据上的信息应符合法律规定[17]。产权明晰是可交易数据的另一重要特征,如赵豫生[18]从产权明确性角度界定数据交易范围,认为具有完全产权的可视化数据可自由交易,具有相对产权的结构化数据受限交易,而产权难以界定的元数据严禁交易。匿名性,指的是交易数据应无法识别出个体属性,通过技术处理抹除个体属性的过程被称为匿名化[19]。非敏感性是针对数据内容而言的,敏感数据包括个人敏感数据、企业敏感数据和公共组织敏感数据,比如个人基因数据、商业秘密和国家秘密数据等,而敏感数据一旦泄露会暴露个人隐私,危害企业利益,乃至对国家安全产生消极影响[11]。
我国数据交易陷入额度低、质量低、层次低、风险高的发展困境,呈现出“冷热”相济的畸形发展态势[20]。一方面,我国“场内”数据交易发展遇冷。据不完全统计,2019年半数以上的数据交易平台年交易量低于50笔,场内数据交易额仅占总数据交易额的4%[21]。另一方面,“场外”数据交易旺盛。不同于数据场内交易的冷清,场外数据交易规模较大,其中侵害个人隐私和国家安全数据贩卖案件屡见不鲜[20]。
文献综合发现,影响我国数据交易的因素主要有数据商品化困难、交易风险规避难、市场规制不健全、平台作用负面化和社会准备度不足。上述影响因素可分为内生因素和非内生因素两大类,前者源自数据及数据交易自身的特性,后者则源自数据交易的外部环境。在此基础上,本文构建出一个数据交易影响因素框架,如图2所示。需要注意该框架仅是基于当前国内文献综合而来,有待于进一步实证研究检验。
图2 数据交易的影响因素框架
数据商品化是对数据要素进行确权和定价的行为和过程,是数据交易市场得以有效形成的基础,也是数据要素参与分配的条件。文献编码发现,数据商品化困难突出表现为数据权属界定难和价值评估与定价难。数据控制者和生产者的分离、人格和财产的双重属性以及数据的非排他性导致数据权属确定困难[22]。国内研究者在数据权利的类型上形成了物权[16]、知识产权[23]以及新型权利[21]三种观点;在数据权利的归属上则出现了来源者拥有[24]、控制者拥有[25]和共同拥有[26]三种论断。此外,汤奇峰等人[27]还曾对数据交易过程中各相关主体所需的权利进行了系统的研究。数据价格是数据价值的货币呈现,是数据交易的基础要素。但数据价值与数据的完整性、生产成本以及使用场景密切相关,数据价格具有相对性和不确定性[28]。此外,阿罗信息悖论,即数据价值验证过程和使用过程的重叠,进一步加剧了数据定价的困难程度[7]。
数据交易风险是数据交易过程中可能出现的意外及其产生的后果,数据交易风险的普遍存在制约了数据交易的有效达成。王卫等人[29]在对数据交易过程和交易平台业务流程研究后指出,交易风险贯穿数据交易全过程。国内研究者对数据交易风险的探讨主要集中在隐私泄露及数据转卖两方面。首先,数据交易存在隐私泄露风险。数据匿名化处理机制被国内学界认为是数据交易和数据人格权保护的平衡机制,但亦有研究指出通过反向识别技术个体隐私可能被恢复,数据匿名化处理存在技术漏洞[30]。其次,数据交易还存在交易数据被转卖的风险。数据的非排他使得数据权益主体难以独占产权,这意味着数据使用权购买者也有可能转卖其仅具有使用权的数据[31],数据交易平台等第三方数据经手主体有机会也完全有能力截留转卖交易数据[32]。
数据要素市场规制是规范约束数据交易行为的法律制度体系的总和,具有降低市场监督约束成本的作用,但文献综合发现国内研究者普遍认为法律建设滞后和政府监管缺失影响国内数据要素市场的建设。在数据交易立法上,国内相关工作比较谨慎,目前尚缺乏系统的数据交易法律框架和相关法规[33]。在数据交易监管上,我国至今仍未建立全国统一的数据及数据交易管理机构,数据交易监管处于事实缺位状态,监管的缺位导致数据黑市扩张[20]。为此,2021年通过的《中华人民共和国数据安全法》提出要尽快完善数据交易管理制度,健全数据要素市场规制。但也有学者指出数据交易的规制体系建设十分复杂,在数据要素市场建设初期过严、过早的规则制定和执行可能造成劣币驱逐良币的不良后果[24]。
数据交易平台是连接数据交易双方的纽带,但当前我国政府主导的数据交易平台尚未发挥出促进数据交易市场发展的作用,文献普遍指出我国数据交易平台盲目建设,加剧了数据交易市场的割裂与低效。2015年《促进大数据发展行动纲要》提出要开展数据交易市场试点后,国内数据交易平台短时间内大量成立,武汉市甚至新建了包括东湖大数据交易中心和长江大数据交易中心在内的多个数据交易平台。国内学者对上述数据交易平台研究后发现,这些交易平台大多缺乏明确定位,交易对象和客户群体同质化严重,数据标准和交易规范不清[34],这严重制约了数据交易的产业化和规模化。此外,在数据交易平台交易模式下,数据交易存在单点失败的可能,也就是数据交易平台作为数据交易双方的唯一连接点,其服务器一旦被攻击或出现其它意外,交易将无法继续进行[35]。
数据交易的社会准备度是数据交易相关社会配套的总和,当前研究发现以数据意识淡薄和数据人才缺乏为突出表现的社会准备度不足制约了数据交易的发展。数据意识是对数据生产和交易价值的认知,是数据交易行为的基础。然而当前绝大多数数据拥有者仍未意识到数据的资产属性,这导致大量高价值数据闲置[36];另一个方面,各类组织也没有意识到数据的生产要素属性,没有意识到数据在决策、创新和管理中的价值[37]。数据交易前的清洗脱敏、数据交易中的第三方确权定价以及数据交易后的接口维护都离不开专业人才,数据人才缺口已成为数据交易乃至数字经济发展的掣肘[38]。此外,数据知识技术的快速迭代和数据人才培养必要周期之间的矛盾以及数据交易区域发展和数据人才就业方向之间的结构性失衡进一步加剧了人才供需矛盾[30]。
开放式编码发现,国内文献对发展数据交易、培育数据交易市场的政策建议相对多样,如建立政府行政监管、立法明确数据权利归属及基于区块链技术建构数据交易方案等,提取上述政策建议的共性特征可见,绝大多数研究围绕外部监管、国家立法和技术手段提出解决数据交易困境和促进数据要素市场建设的行动路径,由此本文在主轴编码阶段将国内文献对数据交易发展路径的探讨归纳为管理路径、法律路径和技术路径。
部分学者主张通过灵活的管理促进数据交易发展,呼吁建立政府行政监管、交易平台自律监管和行业协会辅助监管三位一体的管理体系。国家应首先设立专门的数据交易监管部门,打击非法数据交易,指导数据交易标准的制定和实施[22]。目前来看,工信部下属的电信管理局可承担数据交易监管职责而不必建立新的监管机构[39]。其次,数据交易的技术性使得单纯依靠政府部门难以实现有效监管,只有建立政府行政监管和平台自律监管并行的监管体系,才能实现数据交易的有序进行[40]。国家应授予数据交易平台自律监管权,使其承担起交易主体资格审核和数据内容合法审查的职能[41]。最后,应充分发挥行业协会等社会主体的力量,政府可将对数据交易平台的监管权授予中国互联网协会,由其辅助行政部门对数据交易平台进行管理[13]。此外,针对数据交易平台的野蛮发展和部分交易平台无数据可交易的尴尬困境,应尽快建立国家数据交易平台[38]。
秉持法律路径的学者认为数据交易法律规范的缺失制约了数据交易的发展,主张通过立法明确数据权利归属和限定数据交易范围[42]。在数据权利归属方面,国内研究者呼吁应尽快实施数据权属立法,明确数据权益归属[43]。但有研究者指出数据要素市场的发展与数据确权之间并无直接关系,在数据要素市场初期不宜创设数据产权[44]。近年来国内学界逐渐开始反思“法律界权说”,指出当前立法界定数据权属的内外部条件均不满足,不宜贸然推动,应在现行法律基础上构建交易的规则秩序[45]。在数据交易范围方面,国内学界普遍认为立法限定交易范围有利于消解数据交易主体对交易行为引发法律纠纷的担忧[46],但在立法过程中应采取差异化和负面清单的限定方式划定数据交易范围[17]。此外,部分学者也意识到成文法规相较于数据交易实践具有滞后性和有限性,认为明确法律原则和价值导向既有利于为数据交易的发展预留空间,也可以为司法实践提供原则性指导[47]。
不同于社科背景的研究者,密码学和计算机科学学科的研究者主张通过区块链、智能合约和隐私计算等技术工具管控数据交易风险,促进数据交易发展。研究发现,区块链技术在数据交易领域的应用主要集中在数据确权和交易方案构建方面。比如,王海龙等人[48]就基于区块链技术提出了一种不可篡改的数据确权方案;张学旺等人[49]则基于区块链技术构建了一套去中心化的数据交易方案。智能合约是一段可以自动执行的代码,其自动执行机制可以保障数据交易的“原子性”,预防数据交易欺诈[50]。基于智能合约的自动触发特征,有学者就将其与数据审计技术结合设计出一种支持交易数据完整性验证的交易方案[51]。隐私计算技术是一种保密技术,其能保证数据流通的“可用而不可见”,实现数据交易的匿名性,隐私计算技术近年来不仅引发理论界关注,部分数据交易平台亦对该技术进行了实践[52]。
通过系统性的文献梳理发现,数据交易的国内研究主要集中在基本内涵、交易范围、影响因素以及发展路径方面。在基本内涵方面,既有研究对数据交易对象是数据商品还是数据服务存在较大争议。在交易范围方面,国内学者分别从类型学和特征学视角切入,前者按照控制主体和来源主体对数据进行分类,分别探讨其可交易性,但结论争议显著;后者聚焦抽象特征,将可交易数据的特征概括为匿名性、非敏感性、合法性以及产权明晰。在影响因素方面,国内学者主要从数据交易实践,尤其是数据交易平台实践出发宏观探讨制约数据交易发展的因素,文献中所识别的制约因素可归纳为数据商品化困难、交易风险规避难、市场规制不健全、平台作用负面化以及社会准备度不足。在发展路径方面,学界主要从管理、法律和技术角度为数据交易发展提供实践指导。
研究同时发现,国内数据交易研究存在不足,主要表现在以下几个方面:a.对数据交易基本内涵的关注相对不足,对数据交易相近概念存在混用,这使得国内研究者在看似共同的语境下实则在研究不同的事物。b.国内研究者的观测样本主要为政府主导建设的数据交易中心或数据交易所,然而对其有效性缺乏研究,同时也缺乏对其它数据交易模式的关注。c.对数据交易现状、影响因素及其作用机理的探讨大多为宏观判断或经验分析,缺乏对数据交易实践的观测与评估以及对影响因素模型的构建与检验。d.国内学者大多以科斯的产权理论为基础,认为数据确权可以通过市场的方式激励数据交易发展,因而重点探讨数据权利的类型和归属,但对于各数据确权方式的可行性缺乏实证研究。e.国内学者以规范研究和案例分析等质性研究为主,缺乏基于一手研究数据的量化研究;并且研究视角较为单一,欠缺对公共管理、公共安全等研究视角的关注。
扩展对数据交易内涵及其交易模式的研究。研究者未来可对数据交易内涵进行深入的探究,进一步明确数据交易对象及其相近概念差别,为数据交易研究奠定概念基础。其次,交易平台交易仅是数据交易的一种模式,除此之外还存在直接的数据交易、流式数据交易等不同的交易模式。国内学者未来应尝试对一些既有研究较少关注到的数据交易模式,比如创新联盟数据服务交易模式[53]等进行深入探讨。
加强对影响因素及其作用机理的实证分析。国内学界对数据交易影响因素的阐述大多泛泛而谈,结论大同小异且缺乏实证论据。未来学者可就各因素对数据交易的作用机理进行实证研究,明确各影响因素之间的实际关联。例如,可探究信任机制在数据交易意愿达成中的作用路径。其次,研究者们应该注意到数据交易阻碍因素的动态性,关注主要影响因素的时序演化。未来应进一步运用交易成本理论、成本-收益思想等探究影响数据交易行为的现实因素及其作用机理。
开展对数据确权必要性及实现方式的研究。近几年来学者们掀起了数据确权必要性的反思浪潮,研究者未来可就数据确权在数据要素市场建设初期的可行性展开探讨,就数据确权对数据交易发展的必要性进行深入的理论及实证分析。此外,学界对数据确权方式的研究虽取得了一定的成果,但仍不足以支撑数据交易实践的发展,未来可对现有的数据确权技术、方式和模式开展比较研究。
丰富数据交易的研究方法以及学科视角。未来学者可采取多样的研究方法,尤其是实证研究方法对数据交易进行深度研究。其次,数据交易作为“政府-市场-社会”关系在数字时代下演进的产物,尤其是在加快培育统一的数据要素市场的政策背景下,急需各类相关学科的参与,国内学界未来应丰富数据交易的研究视角,重视对数据交易进行交叉学科研究,尤其是自然科学和社会科学的交叉研究。