◎张 栋
(责编 刘玉霞)
大数据及其应用正在对世界产生深刻的影响,既有经济效率的提升、治理方式的变革,也给社会带来潜在的风险。我们应如何面对大数据的机遇和风险?就此,我们采访了北京大学政府管理学院黄璜老师,请他分析探讨以飨读者。
记者:大数据是一种公共资源吗?
黄璜:大数据是不是公共资源,是从所有权的角度来讲的,不是经济学意义上的公共资源的概念。大数据是一个技术或者管理的概念,本身无所谓公共的还是私人的。比如计算机是公共资源吗?显然公共机房的计算机是公共资源,至少在一定范围内是公共的,而私人拥有的计算机就不是公共资源。同样对于大数据而言,一般来说,基于公共设施的运行产生的数据或者运用公共财政资金收集建立的数据,比如气象监测、科学考察、人口普查、经济社会运行统计数据、行政执法、公共服务等大数据资源是公共的。但是公共的未必都是必须公开的,因为这些数据可能还会涉及个人隐私,商业秘密,国家安全等问题,要具体问题具体分析。
企业的问题相对复杂。私人企业基于自身生产或经营产生的数据,或通过市场交易获得的数据,无论这些数据和消费者之间有没有关系,都不是公共资源 (不管属于企业还是消费者)。当然,因为市场监管、社会责任或者商业目的,私人企业可能会公开部分自己的数据,但不能说它们是公共数据。但是问题可能还没有那么简单。比如,国有企业或国有控股、参股企业怎样界定?企业从公共部门合法获得的数据,但是这些数据未必是公开的,怎样界定其公共性质?
现在比较受关注的是经由互联网服务形成的消费者行为数据和个人信息数据,这些数据产生于消费者及其行为,但同时保存在提供这些互联网服务的平台上。这些数据尤其是行为数据到底归谁所有,消费者还是平台?更细致的问题是,谁可以使用,谁可以交易,谁可以从中获利?目前,平台在对个人隐私进行处理后会使用甚至交易这些数据。关于个人信息保护,目前主要是从知识产权或者人格权方面来讨论的,但这对平台数据来说还不足,还有待创新性、突破性的研究和讨论。
现在关于数据是一种重要资源已经得到普遍认可,可以说“大数据是互联网时代的石油”。从长远看,产权是市场交易的基础,数据产业要得到健康、持续的发展,数据权属的界定是一个必须解决的问题。当前全社会对数据资源的认识已经初步建立起来,市场机制也在培育发展,一些地方比如贵阳和武汉等建立了专门的大数据交易所。同时问题也已经产生,比如国内也已经出现了不少涉及数据资源的侵权纠纷、不正当竞争等案件。所以我认为,应加快数据相关的法律研究和立法进程。不过就目前形势而言,在短时间内进展可能不会太大。
记者:您对我国数据开放的现状如何看?
黄璜:通常说的数据开放主要是指政府的数据开放。过去我们讲政府信息公开,都是要对社会公开、开放。那么数据开放和信息公开是什么关系?国际上的一些观点认为,信息公开是在信息层面,而数据开放面向的或者说建立在更加原生性的数据上,同时信息公开更强调知情权,数据开放更侧重于与社会分享公共数据资源,从而促进经济发展。我个人认为,两者之间其实并没有严格的界限。首先,国外政府推行数据开放,都是在信息公开的法律框架下,以打造透明政府为目的展开的。其次,两者诉求指向不同只是历史发展阶段的问题,不是说数据开放就不涉及知情权,信息公开就没有经济目的。再次,数据是信息的载体,无论信息公开还是数据开放,政府对外发布的都是 “数据”资源,而信息是数据资源中蕴含的内容或意义。两者虽逻辑关系清楚,但实践中常常难以区分。信息公开和数据开放在价值目标上是统一的,两者更多地是反映出了互联网时代前后不同技术条件下不同层次的要求。
还有一点需要补充,就是开放和保护之间存在着一种权衡。大数据的开放,存在一个悖论。大数据和小数据的区别,不仅在于数据规模,更在于处理方式。大数据更多需要运用算法,去发现单纯靠人工手段所不能发现的数据价值或者规律。问题在于,如果通过人工手段无法发现其中的价值,那么在开放中我们又如何保证通过人工手段 (比如脱敏)就能规避其中蕴含的风险呢?小数据的开放,尤其是涉及市场监管、社会管理、公共服务数据,可能不会有太大问题,但大数据的开放要谨慎。现在其实开放的大多数也都是小数据,一个excel表能装下的都是小数据,不要把数据开放和大数据混淆起来。
关于我国的数据开放现状,应该从两个层面来讨论。一个是开放了没有,开放的程度怎么样。现在国际、国内都有不少对政府数据开放水平的评估报告。虽然这些评估往往体现组织者的价值标准,但还是能够给出一个基本面的分析。现在不少地方政府已经建立了自己的数据开放平台,作为打造营商环境、促进经济发展的重要举措。尽管各有困难,发展还是比较快的。此外,关于政府数据开放所提供的数据量、数据准确度和质量,以及有没有更好的可利用的工具,比如提供数字化的、可机读的数据,这些属于技术性的问题,也很重要。总的来说,在社会各界推动下还是在不断发展。
第二个是关于数据开放的制度建设。相较上一个方面,我认为还处于比较初步的阶段。发达国家,如美国已经有比较完整、完善的政府信息资源相关的法律法规体系,比如说在信息公开领域有 《信息自由法》 (1967年)、《联邦咨询委员会法》 (1972年)和《阳光下的政府法》 (1976年),个人隐私领域最著名的1974的首部 《隐私法》,电子政务领域有 《电子政务法》,政府信息资源管理领域的 《文书削减法》、《联邦信息资源管理通告》等,此外信息安全方面也有一系列法律法规。在这些基础上颁布了 《开放政府指令》、《透明和开放政府备忘录》等行政规章条例。我国目前除了 《保密法》、《网络安全法》,还有 《政府信息公开条例》等行政法规,而有关个人隐私、信息资源的规定则分布在其他法律法规里面,还没有系统性的政府信息资源方面的法规。地方政府也在探索数据开放的具体办法,但是国家层面建立系统性的政府信息资源管理政策是至关重要的。
关于立法进程,我无法推测相关立法议题,比如隐私法、信息公开法,是否能够或者以何种方式进入立法程序。但是也不必悲观,矛盾和问题的产生会推动相关立法进程。现在,理论界对于政府信息公开、数据开放的研究、探讨在不断增加,市场对开放的要求也日益强烈。政府也认识到无论信息公开、数据开放都是建设透明型政府、服务型政府的必由之路。因此我们还是要拭目以待。
记者:“滴滴杀熟”事件在不久之前成为了一个舆论热点,这一事件是否展示了一种企业基于大数据技术实施价格歧视的可能性?
黄璜:“滴滴杀熟”事件,我看到过相关报道,但是否确实是杀熟,我没有做过实验。像滴滴这样的大型互联网平台企业,确实有通过分析消费大数据来针对不同消费者差别定价的能力。但是就我的判断,用户有多种市场选择,通过杀熟来破坏艰难建立的市场得不偿失,也不太可能。
差别定价一直存在。没有大数据技术,也同样会存在差别定价。现在披上了“大数据”的外衣,就更加引人注目。这个问题的重要性不是 “杀熟”,而是反映出一种现象,平台企业可以通过大数据技术获得过去所不能及的信息优势,直白讲就是这些企业太了解消费者了。以前企业可能要做市场调查来了解消费者,也可能根据交易数据来分析。但是这些方式一则是所能获得信息范围和信息量比较小,对消费者的了解有限;二则消费者一般是作为一个或若干个整体被了解的。现在大数据让市场信息变得更加精细。企业要识别消费者的消费习惯、价格敏感度等,不仅隐蔽、高效,而且关键是可以整合到很多和交易本身可能无关的第三方数据来给消费者画像,对更细分类型的甚至单个的消费者进行判断。我想,即使“杀熟”真的存在,换个角度,无非是对于“非熟客”有优惠而已。互联网经济有自己的特点,不能说和过去熟客有优惠的策略不同,就是错了。当然,如果涉及到用优势地位操控市场价格,这是另外一回事。但是从定制交通来说,市场上有很多选择,有其他的网约车,也有网约车之外的其他交通方式,并不存在垄断。
所以我认为,一方面,市场很大,出一些问题、纠纷也是正常的,不必过度敏感;另一方面,如果的确影响到经济社会秩序,影响社会公平正义,也要通过机制创新来解决。
首先当然是政府监管。但是监管成本很高,而且问题性质没有搞清楚,监管未必就有合法性。其次,市场的事情可能还是需要市场自己来解决,要鼓励更多的市场创新。比如,大众点评的出现,就是网络时代一项具有经典意义的发明。成千上万的餐馆、酒店,政府也在管,经常有各种整治和执法行动,但规制效果有限,而大众点评模式,可以说是一种人民群众共同参与社会治理的模式,在一定程度上消减了商家和消费者之间的信息不对称,虽然并非万无一失,但还是对商家形成了制约。再次,滴滴这样的平台企业,也要通过机制创新,进一步提高用户满意度,同时增进自身效益。比如说对于“熟客”,能否也采取电信企业的模式,采取包年、包月的机制,使整个市场都能受惠。
记者:如何防范大数据技术带来的社会风险?
黄璜:技术在增进社会福利的同时也会带来社会风险。事情总是有两面性,既不能只求发展,不顾风险,也不能因为有风险就固步不前。关键是通过什么样的机制来限制这些风险发生的可能性。
首先,对于企业来说,要建立共同的行业标准和技术原则。国际上关于隐私问题提出了一系列原则。比方说,主体同意和选择原则,也就是说,数据的收集必须基于被收集主体的知情、选择权和同意;数据收集、存储和利用也必须遵循信息最小化原则或称必要性原则,个人信息收集及后续利用应以实现特定目的、达成服务目标的最小必要为限,数据信息的储存也不应超过特定目的所必需期限并在目的达成后及时删除。
其次,对于政府来说,数据治理的规则很重要。我讲的数据治理,不仅是机构内部的数据的治理。政府不仅要治理自己的数据,也要治理市场的和社会的数据。一方面,政府要监管好市场,要保证数据资源在合法的框架下被利用、开发,坚决禁止非法的数据交易,要维护弱者的权利,要采取措施缩小数字鸿沟。另一方面,政府对于自身的数据开发、利用,除了建立基本规则,依法治理外,关键要有行动机制和监督机构。谁都不能保证不出问题,但是要有发现问题,解决问题的魄力、依据、手段和资源。
再次,社会各界也要建立数据安全的意识。现在讲开放讲的比较多,让我们的政府变得更加透明,这是好事,但是同时也必须关注数据安全。有人讲数据像矿产,这个比喻在安全问题上还不够。比如之前稀土大量贱卖,事情很严重但还没有到威胁整体国家安全的层面。数据不同。数据是信息的载体,一旦流失,也就是大量基础信息的流失。比如血液数据、基因数据、地理数据、水文数据、市场交易数据、气象数据等,这些数据里面的信息量和安全意义极大。
总之,数据治理的核心是在发展和风险之间求平衡。既不要把大数据炒上天,认为它无所不能;也不要把技术妖魔化,认为是洪水猛兽。数据虽然从来都有,但是数据治理还是新事物,不仅要技术、方法创新,更要有规则、机制创新。我想最重要的是,要调动政府、企业和社会的积极性,共同参与、共同治理。