石鲁夫
(东北财经大学 法学院,辽宁 大连 116025)
数字化正在迅速改变人们的生活,改变人们的社会关系,包括改变人们对人生的理解。互联网、移动设备、海量数据收集,以及应用于它们的分析与决策正在推动一场数字革命。信息技术无处不在,人类正在经历第四次工业革命。信息技术的影响不仅仅体现在知识的产生方式,而且体现在生活的方方面面,生动诠释了数字化产生的速度、范围和系统的影响。数字革命涉及许多相互关联的维度,但其核心在于增强了收集和存储数据的能力,以及运用这些数据解决问题、产生新知识的能力。“大数据”一词已被定义为新时代的“交流术语”,但通过阅读各类关于大数据的文章可以发现,大数据不是一个“新问题”“新现象”,而是数据科学、信息意识和思维方式经过长期演变过程而出现的必然结果,这就是大数据现象,而大数据现象将人类带入了大数据社会。本文从大数据的社会意义、法律认知以及有效利用和监督策略等方面进行论述。
大数据涉及的是数据,但仅仅根据一些文献而将大数据界定为海量与复杂的数据集是不确切的。实际上,传统数据是指应用到特定场合、表示某一种量的数(数是由数字组成的、以进制为基本点的一种特定符号)。数字时代的数据不是指狭义的数量值,而是可以对应于各种对象的、数字比特的结构化集合[1]。大数据的出现依赖于广义数据属性和分析工具的普及,涉及人们的日常生活、各种事务以及社会关系。现有的数据分析工具可以自如查询、量化与自己和他人行为相关的信息。因此,数据大不是指组成特定数据集中点的数量,也不在于哪些统计方法,更不是数据分析所依赖的计算能力。数据之所以庞大,是因为它已经渗透到人们的各种行为和事务以及彼此之间的关系中。
1.理论特征。“大数据”现象已经成为广泛领域理论研究的中心焦点,包括物理科学、社会科学、生物科学以及推理和计算科学[2]。大数据研究的基础是复杂性理论,以计算机理论为核心,将数学、统计学、管理学等多学科相互融合,其目的是为了解决大数据的推理和决策问题。例如,如何将大数据的计算思想整合到概率论和贝叶斯统计的推理理论中?如何从最优化、组合学、信号处理、信息理论和数值线性代数等方面寻求大数据模型?如何从大规模分布式计算,时间和空间效率与风险,以及样本复杂性的统计中,为大数据分析提供有价值的经验。有研究者认为,因素空间[3]是大数据研究的有效理论和方法,其基本思想是从对象的背景空间建立因素的坐标架,从而形成大数据的推理分析结构。尽管因素空间比较抽象,但它以现实问题为背景。正是理论的不断完善和创新,为大数据解决实际问题奠定了坚实的基础和可信度。
2.关系特征。大数据的关系特征来自于泽利泽①的《经济生活》[4]。泽利泽从市场如何构成到货币的发展,广泛地对经济生活的各个层面进行研究。其主要思想是:经济交换为人们构建了“人际关系”,通过交易活动创造和管理他们的人际关系。例如,为了区分社会关系,个人会改变他们交易的特征(为了在人际关系、交易和媒体之间寻找泽利泽所谓的“可行匹配”)。实际上,基于人际关系的社会活动是一种数据实践活动,应该像泽利泽所说的那样:“应该考虑人们使用数据来创建和定义彼此之间的关系。”[5]可见,一切数据实践反映了人们的关系特征。从数据这种关系特征引发出一个社会关系网络,定义了大数据是一种社会现象。但是,由于现有大数据关系理论研究的局限性,对大数据的讨论都简化为定位关系的数据点。大数据的关系特征之所以有价值,是因为它将人、行为和关系作为研究的对象放在数据分析的中心。由于大数据及其相关的数据实践是多种多样的,具有各种不确定性,因此需要扩展大数据的预测功能。
3.预测特征。大数据的核心价值是预测,有了预测才能进行有效的推理和决策。基于研究角度的不同,对大数据预测类型划分有一定的差异性,大体可归纳为如下三种基本类型。
(1)结果预测。一般来说,预测的本质是预期的,即预示着一个行为或事件的发生及在未来的结果。例如,当律师预测“法院实际上会做什么”时,是预测未来行为的法律结果(或后果),从而建议客户避免法律责任带来的风险。在此可以把预测一个人的行为可能产生结果的预测称为结果型预测。例如,医生、律师、会计师和其他专业顾问都很清楚,在一个越来越关注风险的社会中,做出可靠的结果预测是多么有价值。在这些领域中,预期算法的最新发展通常是以客户为中心。这些预测服务的目的是让个人通过选择最符合自身利益的未来行动来规避风险。
(2)偏好预测。许多大数据预测与人们的生活息息相关。当你允许大数据音乐推荐系统预测你喜欢哪首歌,或者允许亚马逊推荐系统预测你觉得有趣的书时,这些系统并没有预测你的行为或其可能的结果[6]。相反,它们试图迎合你的偏好,以便出售商品和服务。如今,许多大数据行业都专注于这类预测,称之为偏好预测。谷歌创建个性化搜索引擎是引发人们越来越依赖偏好预测的一个主要例子。该公司目前的界面已经使用预期算法,根据网站人气、位置和以前的搜索历史等数据组合,预测用户需要什么信息。
(3)先发制人预测。与结果型预测和偏好型预测不同,“先发制人预测”被故意用来减少一个人未来的选择范围。先发制人的预测评估允许或不允许一个人以某种方式行动的可能结果。与结果型或偏好型预测不同,先发制人的预测通常不考虑个人行为,大多是从国家、企业或任何涉及某些类型事件的人的立场做出的。先发制人的预测与个人的行为无关,而是与个人或群体是否应该被允许以某种方式行事有关。这种技术的例子包括设立禁飞名单,用于防止飞机上可能的恐怖活动,或者通过分析软件对未来行为进行预测,等等。
以上三种类型的预测—结果型、偏好型和先发制人型,并不代表所有可能的大数据预测。正如下面所要揭示的,理解不同的预测目的将有助于定位大数据对法律行业的意义和作用。
大数据对法律行业的意义在于改变了处理法律业务的模式和潜力,几乎在每项法律业务的处理中,都可以看到大数据在提高决策有效性方面的积极影响。例如,律师事务所改善业务、满足甚至超越客户期望并且提高信誉影响力。然而,目前大数据的价值在法律行业并未能得到充分体现。一家数据分析公司的调查认为:“虽然大多数律师事务所(近87%的样本)都承认大数据及其在决策中的作用很重要,但实际上只有18%的律师事务所已经利用大数据来改善他们的工作。”
实际上,法律行业是产生大量数据并利用大量数据的领域之一。那么,为什么在选择大数据方面如此不主动和不情愿?对此有人做过这样的解释:“由于受法律文化、律师处理业务的传统模式、法律新技术的引入,以及法律服务和实践条件等方面的限制,影响了大数据的推广应用。”[7]然而,客户(尤其是企业客户)还是越来越多地要求法律专业人士根据数据为他们提供法律支持和策略,而不仅仅是依靠法律知识或直觉[8]。
法律行业可以通过多种方式运用大数据来发挥自己的优势。首先,法律服务提供商需要重新考虑他们在技术、文化变革方面的策略选择,最重要的是,是否愿意重新考虑改变法律行业的传统观念。大数据可以使法律行业在内部组织事务和外部关联事务方面受益。在内部,大数据可以帮助律师事务所进行时间管理和计费,通过更细致地了解各种收入来源、哪些案件(任务)更有意义,以及哪些团队和个人更适合特定类型的案件(任务),从而更好地利用可用的人力资源。
在法律大数据的应用实践中,仅依靠大数据的收集是不够的,应该是大数据和各种技术的有机结合。例如合理选择产生最大影响的一些法律分析工具(如人工智能或区块链)。法律数据分析可分为预测性分析和描述性分析。预测性分析是使用法律数据分析工具来预测可能发生的事情,从而做出更有根据的决策,而描述性分析是通过对现有数据的计算来得出结论。
预测性分析可用于优化文件审查(例如,诉讼事项中的披露或发现、商业交易等法律信息的获取)和其他劳动密集型任务。这可能会导致更高的客户满意度(由于更快的周转)和增加利润(通过更好地利用人力资源)。举例说明,当一个律师团队对法律文档内容进行人力收集可能非常耗时的特定情况下,他们可以适当地利用大数据和法律分析工具来分类和提取法律信息,生成相关内容供人们分析。
这种预测分析也可以用于制定诉讼策略。通过使用先进的分析工具,法律专业人员能够得到“综合结果和前景”,也就是理想诉讼策略。大数据与这些分析工具相结合,还可用于不同级别的法律项目或合同的管理,允许法律专业人员有效监控所有相关信息。这种算法基本上将人为错误因素排除在外,从而减少任何此类违法或违规行为的发生。很明显,在法律行业中引入大数据和分析工具的目的不是试图取代(传统)法律专业人士,而是利用从其他来源获得的有价值的信息来提升法律专业人士的经验和直觉。
在明确法律工作的大数据应用基础上,关键的问题是基于法律认知的大数据监管与策略问题,这也是目前讨论较多的话题。我们生活在一个“大数据”时代,数据已成为生产的原材料,成为具有巨大经济和社会价值的资源。数据挖掘和分析技术的进步以及计算能力和数据存储容量的大幅增加,已将企业、政府和个人可用的信息范围扩大了几个数量级。越来越多的人、设备和传感器通过数字网络连接,彻底改变了生成、共享和访问数据的能力。数据为全球经济创造了巨大价值,推动了科技与管理创新以及经济增长。与此同时,“数据泛滥”带来的隐私问题可能引发监管反弹,对经济增长产生负面影响。为了在数据的有益使用和个人隐私保护之间取得平衡,政策制定者必须研究隐私法的相关问题,包括“个人身份信息”的定义、作用以及目的限制和数据最小化[9]。然而,尽管在这方面已经取得普遍共识,但各国在大数据的使用和监管方面具有不同认知。大数据在研究、利用与发展中存在着不同社会环境和政策倾向,如数据源质量、反垄断问题和消费者保护等,本文仅在具有最大挑战性的隐私问题方面进行论述。
大数据给隐私带来了很大的问题,它是由数据的关系特征引发的。广泛的数据收集产生了如何对民众的正当行为进行保护和如何保护个人数据安全问题。大数据涉及的隐私利益与不同的社会环境密切相关,没有任何一项立法或法院裁决能够证明是保护它们的有用工具。并且,大数据的关系特征涉及的一些隐私利益可能会被纳入管理个人关系的现有法律框架中(例如,各种侵犯隐私的索赔问题),或者在某些情况下,建立特定领域的规则。例如,在规范的法律程序下,医疗管理或遗传信息可以作为证据合法使用。但是,通过数据技术分析造成的侵犯个人隐私不在法律的范围内。因此,法律政策制定者和隐私保护研究者可以从具体的隐私保护实践中,探索符合现实需要的个人隐私索赔规则。无处不在的人际数据收集活动,使得人们认识到,人是大数据收集的主体和对象。当人们收集和使用数据来建立彼此之间的关系时,围绕责任、隐私、真实性和信任的社会规范可能会以复杂的方式演变。[10]
在大数据分析中引入人工智能扩展了大数据的功能和作用。例如,智能搜索从语义分析上预测人们感兴趣的内容,是基于人工智能大数据分析的典型实例。这种具有智能的大数据分析不是简单地使用搜索引擎来更好地理解信息,而是通过大数据的智能分析来更好地理解人。[11]智能搜索在用户意识到自己需要信息之前就向他们提供信息。随着人工智能技术的发展,社会在利用大数据的预测算法方面会更加人性化,即通过人机交互的自然语言来表示数据的意义,从消费者偏好、客户信誉到欺诈检测、健康风险和犯罪预防等一切事情。通过人机交互的预测能力,大数据为深度学习的算法提供了条件,可以增加需求预测和风险评估的可信度。大数据的预测工具在产生了许多重要的社会效益的同时,它的数据属性也导致出现了对个人隐私和正当行为的保护问题。实际上,人们对大数据预测的主要担忧不是数据本身,而是被称之为“先发制人预测”的伦理道德和随之带来的相关社会影响。
随着信息的倍增和在世界范围内更广泛的共享,大数据收集和分析使用中所涉及的隐私保护问题面临着挑战,确保数据安全和保护隐私的任务变得更加艰巨。有关个人健康、位置和在线活动的信息已经更加公开和透明,从而引发对歧视、排斥和失控的担忧。传统的做法是使用各种去标识化方法(匿名化、假名化、加密、密钥编码、数据分片)来将数据与真实身份分离。计算机科学家一再表明,即使是匿名数据也经常可以被识别到某个特定的个人,因此风险依然存在。
当乌尔里希•贝克②(Ulrich Beck)提出“风险社会”概念时,他并不是在暗示如今的社会比以前更有风险或更危险,而是认为,为了应对风险,社会正在自我重组。贝克认为,在现代社会中,“财富的社会生产系统地伴随着风险的社会生产”。[12]在他看来,预测和风险是相互关联的概念,因此他将规避风险描述为“预见和控制人类行为未来后果的方法。”规避风险的前提是预测风险,预测风险的前提是确定形成风险的因素,这就需要运用风险因素空间的研究方法来实现。
近些年的发展趋势表明,大数据对先发制人的预测越来越感兴趣,并成功地成为规避风险的手段。越来越多的政府、企业和个人将利用大数据来先发制人(或阻止)被认为会产生社会风险的活动。通常,这种先发制人的预测具有不确定条件下规避风险的作用[13]。例如,一些贷款公司开始使用算法,为几乎没有信用记录的客户确定利率,并确定谁有较高的违约风险。它们分析了数千项指标,从Facebook上有财务安全的朋友,到在各种数据设备上花费的时间。与此同时,各国政府正在多个领域使用这一技术,以确定稀缺资源的分配。
隐私和数据保护的基本策略是,要实现对个人数据收集合理化和相关信息的有效控制的平衡。在大数据时代,个人数据合理化收集始终是保护隐私的一种实用方法。隐私和数据保护策略必须与公共卫生、国家安全和执法、环境保护和经济效率等相适应、相平衡[14]。在大数据分析获得研究价值的同时,产生的多维数据会形成影响个人自主权和隐私的风险矩阵(各种数据关系的列表),通过这个风险矩阵能够挖掘出隐私和个人自主权方面潜在的风险因素。在达到数据处理目的的同时,需根据潜在风险因素设计隐私和个人自主权的保护策略。例如,网络分析—为了了解和优化网络使用而对互联网数据进行测量、收集、分析和报告,通过确保改进产品和服务以更好地为消费者服务。但在实际网络分析中,需要统计处理在线用户网络行为信息,网络用户为了防范身份识别从而降低隐私风险,会以有选择的方式参与,这样会影响网络分析的可信度。针对这种情况需要建立隐私和数据保护策略。
诚然,隐私与数据保护策略是一种合情合理的选择。也就是说,既要实现大数据分析的目的,又要最大程度地做好隐私保护和数据保护。一般来说,大多数的数据采集是在征得个人意愿的基础上进行的,但在实际运行过程中,许多人没有形成个人数据风险意识,需要“隐私政策”制定者的宣传和教育[15]。当消费者看到“隐私政策”的有关内容时,就会相信他们的个人信息会以特定的方式得到保护;特别是,他们认为宣传“隐私政策”的网站不会向外界分享他们的个人信息。[16]然而,“情况并非如此”,隐私政策通常更多地充当企业的免责条款而不是作为对消费者隐私的保证。因此,隐私政策的可实现性和隐私策略设计的有效性是大数据推广应用中亟待解决的问题。
总之,大数据不仅是一种新的方法论,还为人们做出行为选择提供帮助,并且对隐私、信任等人际行为关系的复杂性具有重要影响。另外,数据来源的多样性是大数据的显著特点,数字化时代的“数据化”远远超出了单纯数字概念,扩展到不同的领域,并依赖于多种分析工具。由“大数据”引发的“数据化”是将社会现象转变为可制表分析的量化形式过程。在“数据化”时代背景下,数据获取规范、数据处理标准、数据管理规则是能否发挥“大数据”价值与功能、降低风险的重要法律保障。
注 释:
①维维安娜•泽利泽(Viviana A.Zelizer),美国当代杰出的经济社会学家,古根汉奖学金社会科学类得主,曾任美国经济社会学学会主席,普林斯顿大学社会学教授。
②社会学家乌尔里希•贝克(Ulrich Beck)在20 世纪90年代提出“风险社会”(risk society)概念。