云存储、大数据分析、无损压缩等新兴互联网技术改变了传统商业社会无法记录、无法追踪的交易形式。现在只要连接到网络,就必然会留下“面包屑”,即用户行为信息。在如今的互联网2.0时代,人们的衣食住行都离不开网络。包括在线选购衣物、订购美食、预订酒店、预约出行等,从搜索到下单再到评价服务,每一步操作都可以线上完成。事实证明,天下没有免费的午餐,在用户行为信息的商业价值已然凸显的大背景下,用户在利用网络享受便捷生活的同时,代价正是其行为痕迹不断地被采集、保存,继而被整合、分析,甚至可能因数据中间商的加入而流入市场。各大互联网企业倾向于开发利用其掌握的用户行为信息,以最大化实现用户行为信息的商业价值。在此过程中,难免引发侵犯用户个人隐私、滥用用户行为信息、自动化决策不公正等现实问题。由此可见,用户行为信息的商业化运用,在具有提高企业服务能力和价值收益上的正外部性的同时,还带有信息安全上的负外部性,可能引发企业泄露用户信息、滥用用户信息的风险。如何在大数据时代背景下对互联网企业实施的用户行为信息的商业化运用行为进行规制,以最大程度避免其可能带来的负外部性,已然成为互联网用户和企业等多方主体共同的利益诉求。
提到个人数据信息,人们首先想到的通常是姓名、联系方式、身份证号码、居住地址等可以直接识别特定自然人身份的数据信息。这些信息可以直接关联到特定自然人,因此能够轻易识别其身份。[1]此类数据信息,可谓信息社会中的个人数字代号,只要掌握这个数字代号,任何人都可以找到其对应的个体,故其对于维持个体人格独立、保障私人空间不受侵犯具有重要意义。然而,在互联网时代,除了此类可识别的个人数据信息,由个体的网络行为而产生的另一类数据信息也逐渐开始备受关注。这些信息包括浏览网页而生成的历史记录,注册网站或手机应用而生成的账号和密码,使用购物网站进行消费而生成的消费记录,使用手机地图或旅游应用而生成的位置和行踪信息,以及安装智能家电时提供的电器配备信息和生活起居信息等多方面的内容。毫无疑问,这些信息对应的是独立的个体,但此时的个体不仅是具有一般民事主体身份的自然人,同时还是网络活动的参与者,是使用企业提供的商品和服务的用户。本文将记录了用户网络行为轨迹的信息统称为用户行为信息,在概念层面与可直接识别特定自然人身份的个人信息以作区分。
用户行为信息,可以被定义为用户在使用互联网产品或者接受互联网服务的过程中,因检索、浏览、下载网络信息资源等行为而产生的一系列信息。该信息能够直接或者间接地反映用户的知识需求度,包括知识关注度和价值度两个层面的内容,从而为互联网企业刻画用户数据画像提供直接且重要的数据支持。例如,互联网企业可以利用云计算等信息技术统计分析用户对相关知识的评论、收藏、问答等隐性行为,了解用户的关注重点和偏好,从而建立用户需求的个性化模型,并为用户提供个性化的服务,如直接过滤与用户需求无关的信息,为其推送与其需求相符的特定化信息;又如,依据用户需求程度的高低,对推荐给用户的各类信息予以综合排序,以提高用户接收信息的有效性。大体而言,用户行为信息可以被划分为访问数据、检索数据、下载数据、评分数据等几类,其来源渠道主要包括两种,即由用户主动提供和在用户无意识状态下由企业的自动信息抓取工具采集生成。[2]所谓由用户主动提供,强调用户行为信息直接根据其线上行为生成,譬如用户注册会员时填写的用户名、密码、感兴趣的内容等,又如用户使用社交服务时主动发布的个人简介和地理定位,亦包括用户使用媒体服务时发表的时事评论等。至于另一来源渠道则侧重于依靠企业通过cookie等工具,跟踪、采集用户的线上行为而获取用户行为信息,如用户输入的关键词和历史记录,又如用户使用运动手环时被记录下的运动轨迹、作息时间、健康状况等信息。
用户行为信息的核心内容亦须围绕用户行为轨迹衍生,实践中,用户通过鼠标、键盘、手机、智能手环、语音识别设备、智能化触控设备等信息输入设备访问网页或其他界面,或者通过诸如点击链接、滑动浏览、输入信息、搜索关键词、发表评论、上传图片、提供定位、在线交易、下达指令、个性化设置等具体行为,均可生成用户行为信息。与个人信息相较而言,用户行为信息具有动态性、集聚性和敏感性三大特征,具体如下:
第一,用户行为信息具有动态性。用户行为信息不同于姓名、证件号码等一成不变的个人信息,具有较强的动态性的物理特征。这是因为,随着时间推移,人们的内心思想在不断变化,其表现出来的外部行为也随之产生变化。可见,用户行为信息的价值具有一定的时效,即用户行为信息的更新速度直接关系到其商业价值,由于人们每时每刻都在进行活动,使用网络的过程中也必然如此,互联网企业只有持续收集用户行为信息,方能实现商业用途。
第二,用户行为信息具有集聚性。用户行为信息的数量非常可观,完全可以称为“大数据”。即使单条行为信息仅能反映部分行为片段,但当海量的用户行为信息聚集起来,借助云存储、大数据计算等新兴技术,就可以有效挖掘出特定用户与相应用户群体的诸多行为特征,其具有的商业价值也随之大幅提升。用户行为信息商业价值的实现并非一劳永逸,历史信息具有比对分析的重要意义,互联网企业往往会长期保存用户的初期行为轨迹,不断累积信息的商业价值。
第三,用户行为信息具有敏感性。用户行为信息对于自然人的人格而言,具有特殊的敏感性。互联网企业可以利用其掌握的用户行为信息绘制出一个反映用户行为偏好、性格特征甚至心理特质的“内在人格”。事实上,对用户进行数据造像,正是复刻用户的内在人格。无论用户行为信息能否准确识别用户的真实身份,这些行为信息已足以感知用户的内心想法。[3]因此,即使单一的用户行为信息并不与宗教、民族等个人信息具有同等敏感度,但基于此绘制出的个体“内在人格”画像,已经足以反映出用户并不想表露于外的敏感信息,因此具有特殊的敏感性特征。
互联网浪潮下各大互联网企业的竞争愈演愈烈,用户行为信息的巨大商业价值也开始备受关注。为充分挖掘用户行为信息的商业价值,各大互联网企业力求详细地记录用户的行为细节,并以数据化的形式使其具象化。用户行为信息在互联网商业活动中的普遍化运用,正是大数据时代下高新技术改造商业形态的一大例证。对于互联网企业而言,虽然采集、储存和处理用户行为信息增加了额外的成本,但推进商业化运用所带来的收益亦蔚为可观。在巨额收益的驱使下,建立用户行为信息档案库①已经成为各大互联网企业秘而不宣的通用规则。在实践中,用户行为信息的商业化运用主要通过以下几种方式实现。
第一,沉淀用户行为信息,优化用户体验。用户行为信息的沉淀主要体现为互联网企业总是能够自动记忆用户的历史消费选择,并为所有用户保留其个性化的设置。例如,再次登录同一网站或打开同一手机APP时,用户不再需要重复输入复杂的账户名和密码;浏览网页时点击查看交易过的历史订单,甚至是浏览过、收藏过或放入购物车预备交易的商品,不会因为退出登陆而无法得见;点餐平台上所购买的餐品或提交的评价,可以在事后再次查看等。可以作出这样一个大胆的推论,即用户行为信息的点滴积累使得网络的记忆远远强过了用户的记忆,且此种网络记忆还会伴随用户行为信息的持续累积而不断更新,充分掌握用户行为信息的互联网企业甚至可能要比用户更了解自己。在此推论上,互联网企业可以有针对性地优化自身提供的产品和服务质量,提升商务运营效益,以获取行业竞争优势地位;用户则能够拥有更优质的互联网服务体验,避免不必要的时间消耗,提升交易效率。
第二,进行用户行为化定位,提供定制化的互联网产品或服务。互联网企业在累积了足量的用户行为信息后,即能够利用人工智能等数据挖掘工具,提取并汇总涉及用户的价值观、生活方式、行为模式、生活需求、选择偏好等各项特征,以构建一个崭新且完整的消费者数据画像。这一画像的终极目标,是以类似360度全方位镜像反射的方式,对用户性格和生命进行数据塑像。[4]掌握着这样的用户数据画像,互联网企业就可以将用户按照需求、偏好、购买力等消费特征进行分类,从而向不同类别的用户提供区别化、定制化的产品或服务。由此,用户所浏览的网页终端或手机客户端,将逐渐仅显示互联网企业基于对用户行为信息的分析,认为用户会感兴趣或是希望接收到的内容。例如,电商网站根据用户搜索、浏览、点击、交易等相关行为信息不断调整客户端首页推荐的产品类目和搜索结果的排序方式;餐饮类APP通过用户的定位、订餐时间、订单内容等历史行为信息,在不同就餐时段向用户展示符合其口味且处于其经济承受能力范围内的餐厅;新媒体网站根据用户的定位、可阅览的时间和兴趣领域,就推荐内容做出相应的安排与调整;社交网络服务提供商则基于其对用户行为信息的分析结果,为用户推荐其可能认识的人、感兴趣的人或相关公众号。
第三,开展个性化广告推荐,提升经营效益。如何将广告推送给真正具有消费需求,且拥有购买能力的客户,从而以最小的成本促成交易,是广告学上有待解决的核心命题之一。由于缺失对个体消费者的全面了解,传统的广告投送模式往往只能以数量取胜,即通过漫无目的的“广而告之”模式,提升交易成功率。但此种广告投送模式存在成本高、准确率低等弊端,投放广告的效益难以得到保障。用户行为信息定位广告的出现,将广告向消费的转化率提升到了新的层次。企业能够利用算法技术对海量的用户行为信息进行深入挖掘分析,判断用户的消费需求、选择偏好甚至购买力,进而基于产品特性向潜在的客户投送符合其需求、偏好和能力的定向广告。[5]精准的广告投送,能够完美消除产品和服务从生产者到消费者之间的信息壁垒,由此大幅减少生产商、经销商的销售成本,提升经营效益;对于用户而言,接收符合其行为爱好分析结果的广告,亦提高了获得所需产品或服务的可能性,降低了用户的选择成本。
在用户行为信息商业化运用的过程中,须警惕人工智能技术运用和互联网企业不当行为所带来的系列风险。具体而言,用户行为信息商业化运用的风险可以大致概括为以下三点,未来法规规制的思维亦应当由此切入。
首先,用户隐私空间遭受侵犯的风险。人工智能技术运用下的用户行为信息挖掘,已经使得用户行为信息与隐私之间的界限越发模糊。正如美国佛罗里达国际大学法学院的Andrew J.McClurg教授所言,数据挖掘所取得的成果已经等同于对人们的生活进行完整的相片式记录,这与有人整天拿着相机随时摄录你的生活简直别无二致[6]。海量集聚的用户行为信息在经充分挖掘后刻画出的立体数据人像与自然人具有极其类似的性格特质,即使互联网企业只能将该数据人像连接到特定智能设备,从而针对用户偏好进行个性化推荐,也会使用户感受到隐私被窥探,并引发不安。因为用户行为信息与自然人真实身份之间由可识别性构筑的界限并不具有绝对性,在用户行为信息充足,或者有其他的外部可识别性信息加以辅助的情形下,可以准确识别自然人的真实身份。正是由于用户行为信息与自然人真实身份间的连接具有现实可行性,所以互联网企业通过用户行为信息侵蚀用户隐私空间成为可能。因此,有必要对互联网企业采集、处理、共享用户行为信息的行为进行有效规制,以保障用户隐私空间的安全性。
其次,用户行为信息遭到滥用的风险。在运用领域上,滥用用户行为信息主要指互联网企业将用户行为信息用于政治、舆论引导等非商业领域,背离了其采集用户行为信息的初衷。以2016年的美国大选为例,一家英国数据分析公司不当利用从Facebook获取的近8700万用户的个人资料以提升政治性广告投放的精准度,有针对性地向用户推荐候选人的相关信息,从而影响选举结果。②在运用方式上,滥用用户行为信息主要表现为互联网企业直接买卖用户信息以实现营利目标。通过直接买卖用户行为信息获利的行为,与在知情同意原则下合法采集用户行为信息的原则不符,必将造成用户信息的广泛泄露,从而扰乱信息商业化运用的市场秩序。在运用目的上,滥用用户行为信息,常指互联网企业依据用户行为信息对用户进行区别对待以获取超额利润。典型者为“大数据杀熟”行为,即互联网企业依据用户的消费能力、消费偏好、消费意愿等内容对其进行标签化处理,同时使用协同过滤等分类算法计算用户购买概率并将其进行分类,以便预测出不同用户所能接受的商品价格,并据此对新老用户进行区别化定价。[7]
再次,自动化决策结果不公正的风险。自动化决策是人工智能的本质,旨在通过人工智能算法,结合用户大数据进行打分、评价或者推荐,从而在商业领域提高用户点击率、增加企业交易利润率。一般来说,产生不公正的自动化决策结果的原因,可以从算法程序设计、算法数据输入和算法黑箱当中寻找。互联网企业的自动化决策依赖算法程序,若程序本身是不公平的,必然直接影响决策结果,而算法程序的形成过程必然带有主观色彩,即程序设计者的主观价值潜移默化地融入算法程序的设置之中。此外,用户行为信息的采集大多以注册账户或特定的客户端为中心,而注册账户、客户端背后的自然人并不具有唯一对应性,在多人使用同一账户或同一客户端的情形下,互联网企业输入的数据将会不可避免地出现错误,由此导致自动化决策结果的背离。与此同时,由于自动化决策本身具有高度的复杂性,即使决策程序的设计者客观上也难以完全掌控决策过程中每一个逻辑数据的来源,算法中的技术壁垒亦使得用户客观上无法全面了解决策的全过程,故算法黑箱不可避免,决策结果可能因此出现偏差。
正如上文所述,当前互联网企业所掌握的用户行为信息涵盖了用户生活的方方面面,如兴趣爱好、政治倾向、健康状况、起居作息、交易习惯等,具有数量大、范围广、程度深之特点。互联网企业能够利用丰富的用户行为信息复刻出一个在价值观念、思维模式和行为倾向上都与自然人别无二致的虚拟形象,若其对用户行为信息的采集、利用不当,将直接侵害用户的人格、财产上的利益,或者使用户陷于诸多难以预知的窘迫、不便或者不公平的情境中。为此,必须在推进用户行为信息商业化运用的过程中,通过法律规制手段来消解商业化运用所伴生的风险,注重保护用户的隐私空间、防止用户行为信息滥用,并尽量保障自动化决策的公平性。
第一,积极落实知情同意原则。用户的知情同意是互联网企业采集用户行为信息应遵守的一项原则,亦是信息采集的合法性基础。[8]实践中,大多互联网企业的用户行为信息采集协议存在篇幅长、专业术语多、重点不突出等问题,使得该原则流于形式。为了切实满足知情同意原则的两个构成要素“知情”和“同意”,一方面须明确互联网企业的告知义务,即将用户“知情”的权利转化为互联网企业的义务,另一方面应推进用户“同意”方式的规范化。当前,大多以用户点击“同意协议”按键的方式表明其对互联网企业采集自身行为信息的有效承诺,然而此种承诺方式的规范性不足,带有一定的随意色彩。为此,建议使用电子签名作为用户明示同意的外在表现形式。如此一来,不仅能够进一步实现“同意”方式的规范化,而且可以在一定程度上提升用户对于行为信息采集协议内容的关注度。
第二,赋予企业信息财产权。考虑到用户行为信息的单个原始数据的价值极低,并不具有商业化运用的可能性,因此,只有经由互联网企业通过技术性手段对海量原始数据进行整合、分析、加工后,所形成的数据分析结果才具有商业化运用的价值。正如学者所言,算法技术实现了低价值的原始数据向高价值衍生数据的转化。[9]因而有必要明确企业对用户行为信息的权属,赋予互联网企业对用户行为信息的财产权。如此一来,一方面能够避免出现因权属分散于自然人个体而导致用户行为信息的商业化运用难以实现的问题,调动企业开发信息的商业价值的积极性,另一方面可以在特定情形下为用户提供相应的请求权基础,促使互联网企业合法、合理地开发、运用用户行为信息。
第三,推行数据匿名化处理技术。推行用户行为信息匿名化处理技术,可以最大限度地模糊用户行为信息与自然人之间的联系,降低可能对自然人权益造成的损害,并促进用户行为信息的市场流转。2017年6月1日开始实施的《中华人民共和国网络安全法》第四十二条指出匿名信息应满足“无法识别特定个人”且“不能复原”两个基本特征。在未来,有必要为用户行为信息的匿名化处理确立统一的技术标准,包括明确用户行为信息匿名化处理的适格主体、信息内容、技术手段、基本方法等内容,以增强用户行为信息匿名化建设的规范性、标准性和有效性。需要注意的是,匿名化信息并非意味着绝对无法识别出特定主体,随着相关技术的发展,在数据库存储数据充足的情形下,有可能实现对于信息主体的反向追踪。因此,企业不能将匿名化技术作为用户行为信息商业化运用的挡箭牌,而应不断对相关技术进行优化,以保护用户隐私空间免受侵蚀。
第一,强化互联网企业的信息披露义务。增强互联网企业应履行的信息披露义务,提高用户行为信息处理过程的公开透明程度,是推动企业这一信息控制者形成有效的内生治理机制的重要条件。[10]互联网企业对用户行为信息的披露应当遵循真实性、完整性、及时性原则,即信息内容符合“真实”情况、披露环节契合“完整”程序,且披露时间满足“及时”要求。互联网企业应当披露的信息内容需与用户行为信息的处理密切相关,主要涉及信息采集、存储和利用环节。互联网企业信息披露的重点在于涉及信息交易、信息共享等会引发用户行为信息流转的相关内容,对该内容的充分披露将成为防止企业滥用用户行为信息的有力枷锁。
第二,保障用户的监督权。从用户视角而言,企业披露的相关信息是其行使监督权的直接且重要的依据。用户作为互联网企业所提供产品、服务的接受者,由其负责监督互联网企业的行为最为直接、高效。在监督过程中,企业应当为用户提供畅通的监督渠道,如在其信息披露的官方页面增设用户专栏,供用户提出疑问或者发表意见,并在企业内部设置专员负责处理用户专栏内的反馈信息。又如,企业专设用户热线,由内部专员负责与来电用户对接。当然,用户的监督渠道开放期限应当由企业在法律规范范围内,结合自身经营状况或者人员安排等因素进行灵活设置,不能由法律进行“一刀切”,但是一经确定即应当借助信息披露途径向社会公开。
第三,完善用户的损害赔偿请求权。互联网企业与用户间信息不对称现象较为严重,相较于用户而言,互联网企业处于信息优势地位,控制着作为关键证据的定价算法与数据信息。此时,若遵循以双方主体平等条件为基础而构建起的一般举证规则,则对用户明显不公。因此,应采取举证责任倒置,即由该企业负责证明其并未存在信息滥用行为。赋予互联网企业这一义务并不会对其造成过重负担,因为其本就应当履行在一定期限内保存相关数据的法定义务,且已具备相应的数据保存技术条件。此外,由于仅依靠用户信息采集协议的约定,可能很难使用户获得合理的赔偿数额,有必要通过强制性立法引入惩罚性赔偿制度。惩罚性赔偿制度的适用条件可以设定为:企业实行了违约行为;用户一方有损害事实;行为和损害间存在因果关系;企业主观恶意严重,即基于故意或者恶意倾向而泄露、传播、使用用户行为信息。惩罚性赔偿的基本标准,则须结合互联网企业的主观恶意程度、行为的情节严重程度、用户所受的损害程度等因素进行个案判断。
第一,规范算法设计者的行为。算法程序作为人为设计的工具,其运行结果虽然由技术自动生成,但是必然留有设计者的主观印记。因此,为了保障算法自动化决策的公正性,在算法程序被投入应用之前,应当尽量减轻设计者给算法程序带来的不当价值取向。为此,法律规范应当增强对算法程序设计者的约束,促使其在设计算法程序时尽量秉持中立、无歧视的态度。若算法设计者在算法程序设计过程中存在利益冲突,其应主动回避;若算法程序存在价值取向上的歧视或不公平,应当依据法定程序进行人工干预、改正。在算法程序投入应用后,亦须持续进行维护、优化,积极开发可以预防、纠正算法偏见的有效工具。如谷歌即已经研发了“阈值分类器”,以改进机器学习系统来避免算法歧视的出现。[11]
第二,提高算法运行机制的透明度。在算法运行过程中,可以通过提升算法运行机制透明度,以增强自动化决策的公正性。透明化的算法运行机制是破除算法黑箱的重要武器。虽然,自动化决策信息可能会涉及商业秘密,但是在特定情形下,互联网企业仍应当承担相应的信息披露义务,即在用户对决策公平性具有合理怀疑时,可以要求企业依据法定程序披露与其利益相关的自动化决策信息,以实现互联网企业和用户之间的利益平衡。在未来,我国还可以借助相关法律规范推动具有算法研制的企业共享算法技术,以尽可能地降低算法设计中的技术壁垒,有效限缩算法独裁的空间,保障自动化决策的公正性。
第三,明确算法解释请求权。当用户认为互联网企业的算法决策不公正时,应当行使算法解释请求权,要求企业以用户能够理解的方式对相关事实予以解释。此时,互联网企业不得以事前已经提供详尽的说明、解释或者向用户提示了可预见的相关风险为由,排除其向相对人的解释义务。互联网企业的解释内容应当包括两项:一是决策系统的运行原理、一般功能等;二是决策产生的原因、直接导致决策结果的数据信息等。在解释的过程中,若互联网企业囿于自身知识、技术能力而无法对相关事项予以说明,则应当寻求算法设计者的帮助,后者有义务协助其向用户进行解释。若发现不公正的决策系由算法本身错误引起,用户可以要求互联网企业对自动化决策系统进行修正,而后重新决策;若发现该决策系因数据使用错误导致,则可以要求互联网企业更新数据或者修正数据,以便进行重新决策。
注释
① 譬如,淘宝网的个人“成就清单”能显示出用户首次使用该APP的时间、自初次使用至今的总消费金额、浏览购买比率以及购物车的物品类别。网易云音乐APP的年度总结能够全面展示用户收藏、播放的歌曲、聆听次数甚至具体的听歌时点。互联网企业试图通过实时搜集和挖掘信息,为每位用户构建起详细的网络行为信息档案,完整地记录其网络活动轨迹。通过分析上述档案,企业能够更加了解每位用户需求,并预测其行为倾向,以便为其提供更为个性化的服务,最终实现产品、服务生产端与消费端的精准对接。
② Alvin Chang, The Facebook and Cambridge Analytica scandal,explained with a simple diagram, May 2, 2018, https://www.vox.com/policy-and-politics/2018/3/23/17151916/facebookcambridge-analytica-trump-diagram.