上海市经济和信息化委员会 上海 201800
当前,我国大数据产业继续保持强势增长态势,预计未来五年,大数据技术和服务产值年复合增长率仍将达到30%以上。对大数据的价值挖掘将快速渗透到产业的方方面面,成为中国经济转型升级的“新动能”。而数据资源是推动数据驱动型经济高速增长的基础战略资源。据Gartner预测,到2017年,约三分之二的大数据整合项目将是企业防火墙之外(外部数据)的整合[1]。工信部电信研究院《中国大数据发展调查报告(2015年)》显示,数据资源短缺仍是制约大数据发展的主要因素,企业迫切希望政府开放更多的公共信息资源(64.7%)和促进数据流通交易(63.6%)[2]。
国外数据交易市场始于2008年,得益于较为完善的法律制度、信用体系和数据开放环境,企业间数据交易较为活跃,涌现出Infochimps、Factual、DataSift、Datahub、Qlik Datamarket、Oracle BlueKai、Twitter Gnip、Windows Azure Marketplace、Acxiom、FUJITSU Data Plaza等一批知名数据服务商。根据美国参议院商务、科学与运输委员会发布的报告,全美数据经纪市场2012年的总规模达到1500亿美元,相当于当年美国情报总预算的两倍[3]。
从数据获取看,国外数据交易主要采用数据代理方式,通过政府数据公开、商业渠道合作等方式,从数据源机构获取各类信息,进而向用户交付数据产品或服务,数据交易由数据供方、数据中介和数据需方三方构成。从数据业务看,爬虫类数据交易平台占比较低,强调数据集之间的关联性,并以聚合方式向用户提供。从价值转化看,注重面向产业应用场景,密切与行业应用解决方案提供商的合作,推动数据在产业链各环节的传导和增值。近年来,国外大量数据中介企业被行业巨头收购,成为企业大数据闭环产业生态的组成部分,传统的专注于垂直领域数据经纪服务的企业面临着较大的转型压力。
国内数据交易市场起步于2010年,几乎与国际同步,建设了包括数据堂、中关村数海、京东万象、浪潮卓数、聚合数据等一批数据交易平台。从产业观察的角度看,国内数据交易平台年交易额在亿元附近时增长速度显著放缓,交易频次随用户量增多反而有所降低。
我国数据交易市场发展困顿主要面临以下四个方面的瓶颈制约。
1)行业应用场景少、需求牵引不足,数据使用价值未得到有效体现。根据经济学人信息部统计,包括制造业、IT技术、金融服务、专业服务、医疗保健、制药和生物技术以及消费品等19 个行业领域正在积极开展大数据技术应用[4]。我国大数据应用以互联网企业为主,场景局限在电子商务、精准营销等有限的领域,银行、医疗、教育、农业、工业等领域大数据应用还处于萌芽状态。尽管行业应用较少,但我国拥有海量和高价值数据的企业或机构,也为数据流通和价值转化提供了广阔的市场空间。
2)数据开放体系和信用体系缺失。与国外数据交易主要采用数据代理方式不同,国内数据交易企业数据获取主要有爬虫、众包以及行业联盟(代理模式)三种模式,如图1所示,其中爬虫类平台和众包自采集类平台占比较高,数据代理型平台较少,数据不能满足实时场景计算的需要,数据质量也存在一些差距。这主要是因为国内数据开放体系和信用体系缺失,政府开放数据供给不足,而像BAT等持有大量且商业价值很高数据的商业公司,更倾向于打造闭环产业生态,并不愿意为获得短期的利益而变现数据价值,而愿意做数据变现的公司掌握的数据体量可能满足不了数据使用者的需求。另一方面,市场缺乏信任机制,企业不按协议要求私自留存、复制甚至转卖数据的现象普遍存在,反过来又进一步抑制了数据供给意愿。
3)数据资产、隐私保护等法律法规缺失,没有明确的数据贸易纠纷处理和市场监管机构,企业级交易平台的临时规则难以获得全行业认同。
4)除政府数据资源外,我国还有规模庞大的水电煤油气等公用事业数据,民营企业较难推动这些领域的数据开放。
5)国内数据开放的渠道还不够通畅,市场力量难以推动跨区域的数据整合。
因此,业界普遍认为,我国大数据交易在寻求高效有序的发展路径时,必须要依托政府和市场的双重力量。由数据供方、数据中介、数据需方和监管机构四方参与的数据交易机构作为兼具“技术、信息安全和法律保障”的数据价值转化渠道,可以有效规范数据交易行为,实现商业价值、个人隐私和公共利益的平衡。2014年以来,各地纷纷成立混合所有制形式的数据交易机构,包括贵阳大数据交易所、华中大数据交易所(武汉)、长江大数据交易所(武汉)、东湖大数据交易中心(武汉)、上海数据交易中心、浙江大数据交易中心、钱塘大数据交易中心(杭州)、江苏大数据交易中心、沈阳大数据交易中心、广州大数据交易中心等,预计至2016年底,全国数据交易机构总数将超过20家。
图1 数据交易的三种模式
凯文·凯利说,数据不应该以它的存储而定义,应该由它的流转来定义。根据Teradata公司的统计,商业公司大约只存储15%的有关他们业务的数据,其余85%数据都存储在其它外部公司或网站上[1]。大数据时代的相关性分析技术,使得企业内部的大数据和外部数据的整合、交互变得更加重要。
数据价值,本质上是蕴含在数据背后的信息和知识。一般认为,无形财产的权属界定有一个特点,促使所有权与财产的生成及价值起源挂钩[5]。例如,文学艺术作品的版权首先属于作者,因为作品是通过作者的劳动才产生,并有了价值。跟文艺创作和技术发明不一样,数据的价值不是因记录者的制作而起的。数据价值的转化需要行业领域业务人员的参与,以及商业模式的配合,如图2所示,即所谓的“小知识撬动大数据”。
图2 数据价值转化
数据是一种可反复交易的数字内容产品。从理论上说,数据出售的边际成本接近零,数据的供给不是受到生产规模的约束,而是受到市场规模的约束。从而形成数据交易的悖论,即随着交易规模的增大,数据价格不断走低。
直到今天,全球仍然为基于互联网平台进行传播的数字产品版权保护问题头痛不已。数据作为特殊的数字内容产品,其权益保护难度远甚传统数字产品。首先,数据可以非常方便的被分割和复制,即不同颗粒度的数据片段同样具有价值。其次,数据可以通过网络流转,从一个格式变成另一个格式,数据知识提取或与内部数据聚合产生的衍生价值远高于数据产品本身。由于大数据的低价值密度特点,对跨业务系统、跨数据形态的数据片段进行追溯跟踪,不仅技术上不可行,在经济成本和系统安全上也无法接受。
数据价值具有相对性,同样一个数据集,在不同的应用场景会产生不同的价值,数据定价是数据交易的核心问题。一般而言,数据有三种定价策略:成本法、
价值法、市场法。成本法不适用于商业数据交易,一方面,数据使用价值是由需方确定的。另一方面,数据作为存在于特定软硬件系统乃至商业生态体系中的依附性产品,其成本也较难被计算和测量。根据场景增值进行定价的价值法事实上也无法实现。数据如同自来水,用自来水配合不同的食材、加工技巧以及品牌营销,可以生产出不同价格的食品,然而自来水的价格是相对稳定的,因此,数据交易的定价本质上是由需方提出,由市场来形成平衡价格。
个人数据由隐私数据和价值数据两部分构成。法定隐私数据包括姓名、身份证号码、手机号、地址、账号、密码等PII信息(个人可识别信息),这些信息不能被交易或交换。
上海数据交易中心并非是一个独立的项目,而是作为上海大数据发展“资源、技术、产业、应用、安全”五要素联动,大数据“交易机构+产业基金+创新基地+发展联盟+研究中心”五位一体协同推进的组成部分,强调数据流通与产业生态相融合,并以数据代理为主要业务模式。其业务职能为:促进商业数据的市场化交易;推动跨区域的机构合作和数据互联;促进政府数据与商业数据的融合应用。
上海数据交易中心是由上海市人民政府审议通过,上海市经济信息化委和上海市商务委联合批复成立的国资控股混合所有制企业。由上海市信息投资股份有限公司、中国联合网络通信集团有限公司、中国电子信息产业集团有限公司、申能(集团)有限公司、上海仪电控股(集团)公司、上海晶赞科技发展有限公司、上海万得信息技术股份有限公司、万达信息股份有限公司、上海联新投资管理有限公司等联合发起成立。
上海数据交易中心以国内领先的“技术+规则”双重架构,面向场景化产业需求,围绕“人/物/组织”等主体,通过完善的会员注册审核、元数据脱密脱敏、自主挂牌控制、用户标识匹配、元数据加密配送、统一结算与清算等平台功能,规范及聚合供应方的多元数据,实现商业数据衍生产品的在线连续交易。
在国内率先实现控制流与数据流分离,控制流采用区块链思想,以公钥方式实现居间见证和交易过程透明可见。数据流以私钥方式进行去中心化P2P传输,从技术上保证中心不触碰、不存留交易数据,如图3所示。
图3 去中心化数据流通(上海数据交易中心)
创新结合IKVLTP六要素数据约定和面向应用场景的交易规则,进行交易的“商业元数据”(原始数据衍生产品)必须具备主体标识(Id)、维度主键(Key)、标签赋值(Value)、供应限度(Limit)、供应频度(Time)和挂牌价格(Price)6个要素维度。通过虚拟ID实现对隐私数据字段的完全替代,对企业业务需求之外的超频次、超范围数据请求进行限制,有效遏制数据炒作和数据囤积。
2014年,全美农场联盟、大豆协会、玉米农户协会、农户工会等六个农会联手,与以迪尔和孟山都为首的六家巨无霸农业技术供给商(ATPs)就耕地数据采集达成《农场数据的隐私和保护原则》[5]。这些基本原则包括:1)农户拥有自家农场数据的产权和绝对控制权。2)农户允许农业技术供给商服务“直接利益相关者”分享数据。3)任何数据的采集使用都要以合同方式,事先获得农户明确的许可,包括数据如何采集和使用目的。4)农户享有选择参与或不参与数据采集和分享的自由。5)一旦农户选择退出并要求销毁数据,供给商必须销毁、返还数据。6)供给商不得用这些数据投机期货市场。这些原则体现了以下诉求:一是数据采集应以合同方式明确手段和目的,并获得用户许可。用户拥有对数据的绝对控制权,可自由选择进入和退出,提出数据删除和返还要求。二是允许服务提供商“直接利益相关者”分享数据。这是因为现代社会建立在专业化分工的基础上,用户服务往往由一批合作紧密的企业共同提供,必要的数据分享是获得协同服务的前提。三是数据的使用不能对农户产生潜在实质性损害(不得用于期货市场投机)。这些通过契约确认的诉求对数据流通实践具有典型的借鉴意义,提出了数据流通的三个核心问题。
从全球实践看,用户提供必要的个人数据是获取相关服务的前提,个人数据可以在企业服务业务范围内使用和流动,也可以在共同提供服务的企业间进行分享。但数据离开企业服务业务范围,在其它业务范围或业务场景被使用,即构成数据流通,包括数据共用、数据共享和数据交易等三种形式。数据共用主要存在于以资本为纽带的关联企业之间,数据的流动受企业内部规章制度约束。数据共享主要存在于合作企业之间,数据的流动受企业间合同契约约束。数据交易则是指供需双方通过第三方数据交易平台,按照共同遵守的交易规则和定价机制进行数据交换。例如,某集团将自有电商交易数据提供给某控股市场营销企业使用,与某第三方数据交易平台将运营商通信数据交易给某市场营销企业使用,并没有本质上的不同,只不过前者发生在关联企业之间、采用的是数据对价形式、后者发生在非关联企业之间、采用的是数据定价形式。
从维护市场公平性和统一性出发,主管部门应加强数据流通全范围监管,并根据数据流通的不同模式进行分级分类管理,在数据利用的各个环节(包括收集、加工、流通、应用等)都加入隐私安全分析和控制,使数据流动和使用的每个环节可查询、可控制。个人信息保护的风险,主要存在于采集、传输和使用三个环节,建议对关联使用模式、数据共享模式和数据交易模式采用跨场景使用披露、敏感数据授权共享、敏感数据禁止流通三种不同的监管策略。对关联企业模式,应关注关联企业数据跨场景使用用户授权与知情权保护、隐私数据存储与访问控制安全制度建设等问题。对伙伴共享模式,应关注数据不同企业间共享用户授权——一次授权、企业间数据共享合同披露、隐私数据加密传输用户授权——二次授权(或非授权禁止传输)等问题。对数据交易模式,应关注数据交易用户授权(非敏感数据多边共享授权)、交易规则披露、隐私数据禁止流通等问题。
一般认为,数据由个人隐私数据(PII可识别数据)和价值数据两部分构成,个人隐私数据对应用户的人格权,应受到法律法规的严格保护,不得被交换和交易[6]。价值数据可以被使用和商业开发,但要让用户有知情权和选择权,即所谓的“告知与同意”。但对存在较大争议的数据财产权归属方面,可以采用“效率优先、兼顾公平”的原则鼓励市场先行先试。因为,即使号称史上最严苛的数据保护规定的欧洲《统一数据保护条例》,也仅强调用户对数据的选择权和控制权,而避开数据产权这一棘手问题。这不仅是因为数据在产权的排他性方面不完备,产权主体履行排他性使用和处置权成本高到几乎不可能有效满足其独占性诉求[7]。同时,数据价值的有用性不能单纯依赖单个信息个体而存在,而有赖于不同提供者和数据使用者的数据聚合和知识提取,以及商业模式的结合。更进一步地讲,用户数据的存续依附于服务商的软硬件支持和系统运营,这使得用户数据产权问题变得更加混沌不清。
产权是商品交易的基础,数据产品的复杂性决定了其不适用实物产品的产权制度框架。本质上讲,数据产品是一种特殊的数字产品,从版权的角度来理解数据产品产权,将为我们提供一种全新的视野。从版权(copyright)的英文原词可以看出,版权的最初含义是“复制权”,是为了阻止他人未经许可复制作品、损害作者经济利益而由法律创设的权利。英美法系国家从未将版权看成所谓的“天赋人权”或“自然权利”,而是将它视作鼓励、刺激创作作品的公共政策的产物。与此相适应,版权的侧重点也在于保护作者的经济权利。人类社会数据管理具有悠久的历史,但直到大数据时代,个人数据的价值才得到全面体现。这一价值的实现,有赖于几个要素。一是新型记录设备的普及,如电脑、智能手机、智能家居等;二是信息系统的运营,数据存在于系统之中,没有服务商的运维数据将会自然泯灭;三是数据的互联与发现,个体数据的价值有赖于群体标签与企业业务关联关系的知识发现,以及数据的互联互通与加工处理,这也是传统BI无法有效创造数据价值的原因之一;四是商业模式的创新,将数据转化为知识只是数据价值实现的第一步,数据价值的最终实现有赖于创新商业模式并增进社会群体福利(需方买单);因此,个人数据忠实记录只是第一步,数据价值的实现还需要数据采集、系统运维、数据发现、数据流通、商业创新等多方的参与。数据的价值不是因记录者的制作而起的,其价值实现应考虑到各行业领域业务人员的劳动与贡献。作为一种特殊的数字产品,数据产权制度还有待进一步的探索与完善,但总体而言,在两个方面存在一些基础共识。一是可利用的个人数据仅限于经济权利数据,人格权(个人隐私数据)不得被商业开发;二是个人数据价值的创造始于个人行为记录,实现于多方参与,以及与其他个人数据的互动。
不利影响,是指从用户处采集的数据,经过数据流通到达数据使用者,数据使用者的分析结果可能被用于不利于用户的行为之中。最典型的如个人征信,运营商将用户个人行为数据售卖给征信机构,导致用户的授信额度被降低。对用户可能带来不利影响的数据流通,应告知并得到用户许可,用户的这一权利也应得到相关法律法规的保护。不同应用场景和不同标签体系的数据流通对用户的潜在影响是不同的,如在线推荐广告,由于潜在不利影响较小,被认为无需用户许可,但需提供用户可随时退出的权利(opt-out)[8]。政府应对可能侵犯个人隐私、商业秘密、国家安全等的流通数据进行风险评估,根据场景使用分类和数据敏感分级,建立完善包括可流通的应用场景与数据类型,一次授权(不可识别数据、非敏感数据)、二次授权(一般敏感数据)、书面授权(高度敏感数据)等个人授权要求组成的数据流通强制性法规标准体系,规范企业、数据交易平台等数据使用主体的数据流通行为[9]。同时,树立一批典型的面向应用场景的数据流通案例,作为全行业推广的典范。
数据流通存在企业内部跨场景共用、企业间交换和第三方平台交易等三种方式,监管部门应对不同的流通类型采取相同的监管标准,实现数据流通全范围、全过程可控。应建立面向不同应用场景的用户潜在不利影响评估,实施数据流通分级分类管理,合理设置用户采集授权、流通授权等用户权利。禁止侵犯个人隐私、商业秘密、国家安全等的数据流通,禁止数据使用过程中对个体的身份识别。与国外不同,国内数据交易由数据供方、数据中介、数据需方和监管机构四方组成,需发挥政府和市场的双重力量,国资控股的数据交易机构有望成为兼具“技术、信息安全和法律保障”的数据价值转化渠道。数据流通的本义是推动以数据为核心的产业价值链形成,需要推动数据开放(数据代理)、产业应用、行业自律等方面的协同发展。
参考文献
[1]杨琪,龚南宁.我国大数据交易的主要问题及建议[EB/OL].[2016-05-30].http://www.cbdio.com/BigData/2015-09/01/content_3754850.htm
[2]中国信息通信研究院.2015年中国大数据发展调查报告[EB/OL].[2016-05-30].http://www.jsssme.com/smenews/service/view/71200
[3]Committee on Commerce, Science, and Transportation.A review of the data broker industry: Collection, use,and sale of consumer data for marketing purposes[EB/OL].[2016-05-30].http://xueshu.baidu.com/s?wd=paper uri:(dae01369fe89d8aa48a6aaed50ba6c37)&filter=sc_long_sign&sc_ks_para=q%3DA+review+of+the+data+b roker+industry%3A+Collection%2C+use%2C+and+sale+of+consumer+data+for+marketing+purposes&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8
[4]Tech Target.管理大数据隐私:主动出击战略[EB/OL].[2016-05-30].http://www.doit.com.cn/article/2013-05-14/6496482.shtml
[5]利求同.大数据卖的就是隐私[EB/OL].(2015-7-19)[2016-05-30].http://www.cbdio.com/BigData/2015-07/27/content_3569850.htm
[6]谢楚鹏,温孚江.大数据背景下个人数据权与数据的商品化[J].电子商务, 2015(10):32-34
[7]刘晓忠.大数据的产权困惑:平台拥有信息产权吗?[EB/OL].[2016-05-30].http://money.163.com/14/0130/02/9JQ9A6P000253B0H.html
[8]曾新宇.大数据时代网络交易中的消费者个人信息保护[J].南华大学学报:社会科学版, 2014(6):81-84
[9]美国总统行政办公室.大数据:抓住机遇、保存价值[EB/OL].[2016-05-30].http://www.36dsj.com/archives/8299