陆梦成,王海亮
(安徽大学法学院,安徽 合肥 230601)
Alan Copper 在其《交互设计之路》一书中首次提出用户画像概念,并将其定义为“基于用户真实数据的虚拟代表”[1]。用户画像最初是应用在计算机、电子商务领域,而后又扩大到图书情报、新媒体等领域[2]。图书情报学界大多将图书馆用户画像定义为,基于用户真实积累的用户信息行为数据并结合具体的服务场景或者应用目标产生一系列用户数据标签,形成特定用户的真实描述[3]15。
通过对文献的梳理发现,图书馆领域对用户画像的研究主要涉及模型构建、用户服务、实践应用等方面。在模型建构方面,主要是按照以应用目标为基准来进行用户数据标签分类的思路构建特定用户画像模型。如:吴智勤等基于大学生社交网络数据和社交网络分析方法,构建一种社交化网络用户画像模型[4];冯龄萱和魏群义在S-O-R 理论的指导下,运用扎根理论的分析方法,将用户数据标签分为用户流失因素、用户变化、用户行为、用户基本属性四个方面,构建移动公共图书馆流失用户画像模型[3]14-24。在用户服务方面,主要涉及个性化推荐、提高用户体验等。如:Spenser Thompson 提出通过“看电影”建立人物角色,并将这些角色到“销售周期”的各个阶段联系起来,这样可以设计出更有创意、更有效、更适合观众的市场营销体验[5];李丹和高建忠基于读者入馆行为数据,运用用户画像技术提取读者的行为特征,从而实现针对用户个性化推荐[6]。在实践应用方面,主要围绕为公共图书馆资源设置、用户精准服务提供数据支撑来展开。如尹相权等基于用户画像的基本原理,将搜集的数据分为用户预约数据、用户基础数据等四种数据类型,在对数据进行探索性分析之后,得出研究间用户行为特征规律,有助于为图书馆研究间设施的改善以及精准服务的提高,提供数据上的支撑[7]。
综上所述,当前学界对用户画像在公共图书馆领域的研究大多集中在应用的范畴。少部分学者虽然对用户画像在公共图书馆应用过程中产生的数据风险提出过规制措施,但大多集中在管理、技术等宏观层面。鲜有学者基于用户画像在公共图书馆应用的基本原理,从微观层面识别其中潜在的数据安全风险并进行法律规制。法律作为社会治理的重要手段,对个人数据信息的保护能起到强制力引领、划定底线的作用。因此,针对用户画像在公共图书馆应用过程中产生的具体的数据安全风险提出相应的法律规制路径,具有现实意义。
用户画像按照目标用户→数据→物联网、大数据等数字化技术→标签聚类→建立用户画像模型→模型可视化的思路流程构建[8]。与此相对应,通过用户画像在公共图书馆应用的关键步骤,多元数据的获取、数据的处理与存储、数据标签化与建模、数据模型可视化等,对用户画像在公共图书馆应用过程的基本原理进行梳理和阐释。
用户画像的基础是数据。按照数据存续状态以及获取方式上的不同,公共图书馆用户的数据可分为静态数据和动态数据[9]16。静态数据是指比较固定的用户基本属性数据,主要包括用户的姓名、年龄、性别、身份证号、联系方式、联系地址等;动态数据是指用户在使用公共图书馆系统中产生的行为数据[10],主要包括用户的检索记录数据、相关网站的浏览痕迹数据、在特定页面停留的时间数据、对数据库进行操作的数据以及交互数据等。静态数据可以通过用户注册信息系统进行采集,而动态数据可以通过网络爬虫技术以及日志挖掘技术进行提取[11]。
获取的用户数据包括结构化数据、半结构化数据以及非结构性数据[9]17。结构化数据具有易获取、易处理的特点,而半结构化以及非结构化数据由于往往表现为公共图书馆用户的动态数据,相较于结构化数据,这两类数据具有难获得、难分析的特点。实践上,常常把这两类数据转换为结构性数据。具体步骤是利用大数据技术对收集的数据进行数据辨析、数据抽取、数据清洗、数据集成、数据规约、数据转换等操作,并将处理得到数据进行存储[12]21。
标签是一个对采集的用户数据进行挖掘与过滤,提取目标用户群的特征,用高度精练词语对这些特征进行标识的过程,具有语义化、短文本化、专一性等特点[12]22。用户数据的标签化是用户画像在公共图书馆应用的核心步骤。用户数据标签化的方式是对上述处理过的数据进行分析,提取其信息的关键点。将该关键点与用户典型、鲜明的特征词库进行匹配,形成用户标签特征词表,然后运用数据挖掘技术对获取的用户标签数据进行整合、聚类、归纳,得到聚合标签库[13]。在此之后,根据公共图书馆用户的多维标签特征,运用大数据相关技术从多个维度构建公共图书馆用户的信息模型数据库。
完成构建的用户多维信息模型数据库虽然实质上能够较为全面地反映用户的特征,但其毕竟是抽象的数据模型,无法直接地使公共图书馆或者用户感知数据背后所体现的用户特征、内部规律。基于此,一般情况下还须将构建完成的用户模型可视化。信息可视化技术是实现用户模型可视化的关键。它通过信息获取、知识信息多维显示、知识信息分析与挖掘等步骤[14],可以将抽象的数据以一种直观、生动、形象的方式展现出来。借助该技术,还能够实现用户动态数据在用户可视化模型上的动态更新,并能够挖掘用户信息数据的内在逻辑与关联性,从而预测用户的行为,为用户提供精准服务。
厘清用户画像在公共图书馆应用要素间的具体动态关系,是了解其运行、发展的重要途径。用户画像应用的源头——数据获取量与用户数据存储量正相关。数据存储量又直接影响多维标签数据库与动态可视化模型,后两者通过提高公共图书馆的服务质量来增加用户人数,而公共图书馆用户人数反过来又会直接决定数据的获取量。在这个过程中,大数据相关技术以及公共图书馆资金投入能够对“基本循环”起到积极促进作用(图1)。
图1 用户画像在公共图书馆应用动态流图
基于上述用户画像在公共图书馆应用的基本原理,对数据的获取、存储、利用三个阶段分别识别其中潜在的数据安全风险。
按照用户数据风险确认、用户数据风险分析、用户数据风险反馈的逻辑构建了一套用户数据风险的评估体系(详细流程见图2)。用户数据风险确认是指基于用户画像的原理将用户画像在公共图书馆的应用过程进行阶段划分;用户数据风险分析是指在划分完成的阶段框架内进行数据风险的衡量;用户数据风险反馈是指对确认的数据风险进行实质区分,如果可以区分则输出风险。反之,则视风险能否再挖掘而采取不同的措施。
图2 用户数据风险评估流程图
3.2.1 未经用户授权收集信息
用户画像的应用建立在海量数据的基础之上。在数据收集阶段,公共图书馆希望尽可能地获取用户的各种信息数据。公共图书馆基于这种心理极易造成数据获取与用户隐私保护的失衡。笔者对国内包括港、澳、台在内的34 个省级公共图书馆以及27 个省会公共图书馆网站首页进行搜索。结果显示,绝大多数公共图书馆在收集用户信息数据时,不会征求用户的同意。只有山西省公共图书馆、浙江省公共图书馆、广东省公共图书馆、云南省公共图书馆、兰州公共图书馆、台湾公共图书馆、香港公共图书馆和澳门公共图书馆在其网站首页有隐私声明。这种未经用户同意搜集用户个人信息的行为本质上是一种缺乏监管的权利滥用行为。《中华人民共和国民法典》(以下简称《民法典》)承认了自然人的个人信息权,规定任何组织和个人应当依法取得他人个人信息。《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》)规定了信息收集者取得用户个人信息应当得到用户的同意。因此,公共图书馆作为社会公益事业单位在收集用户数据信息时,理应征得用户的同意。
3.2.2 公共图书馆过度收集用户数据信息
一般而言,公共图书馆会利用用户注册登录时填写的信息创建数据库,并根据用户后续的浏览、查询、咨询、借阅过程中留下的记录,进行收集与追踪,对该用户数据进行管理,为后续进行用户画像的应用做好数据储备。然而,数字时代的公共图书馆虽然在物理空间上与传统图书馆并无二致,但其对用户数据的使用需求尤为突出,数据收集的范围也愈发广泛,常常超出用户的合理预期。用户在使用公共图书馆数字资源时,其设备信息如MAC地址、IMEI、SSAID可能在不知情的状态下被收集;在移动端访问公共图书馆时,手机的定位、录音状态等信息也会被自动获取。此外,公共图书馆在物理空间上装置的传感器设备、监控设备都让过度收集用户信息更为便捷,也更加隐蔽,致使用户难以把控个人信息的收集范围与收集方式。
3.3.1 用户数据泄露
在数据存储过程中,数据有泄露的风险。数据泄露分为内部泄露和外部泄露。内部泄露主要指公共图书馆或者其工作人员泄露用户数据信息。如公共图书馆可能因为本身的技术不足而与一些商业机构合作开发公共图书馆服务系统,从而与他们共享用户的数据[15]。公共图书馆可能因为缺少资金丰富馆藏,而将收集的用户数据卖给商业机构或者个人,从而使外部人员获得用户的数据。外部泄露主要指公共图书馆以外的人非法泄露用户数据信息。如公共图书馆囿于技术的原因,会把收集的用户数据交给外包方来存储[16]102。由于外包方的正规性参差不齐,不排除某些不正规外包方擅自将代为存储的用户数据出售给商业机构或者第三人,从而导致用户数据的泄露。黑客等不法分子出于用户数据直接或者间接的经济利益,也有可能侵入公共图书馆数据系统,盗取用户数据,从而导致用户数据泄露。
3.3.2 用户数据非法化利用
用户数据的非法化利用主要指公共图书馆违背数据使用的目的正当性和必要性原则,非法利用数据。公共图书馆的非法化利用既包括公共图书馆将搜集的用户数据卖给商业机构或者与商业机构共享,还包括公共图书馆利用搜集的用户数据进行商业化宣传。判断用户数据是否被非法化利用的标准即为公共图书馆利用用户数据的目的:是为了公共利益,还是为了特定第三人的利益。如果公共图书馆在举办一些市民文化竞赛、读书节等公益性活动时,通过群发短信等方式通知市民用户踊跃参加这种行为就不算是对用户数据非法化利用。如果公共图书馆利用用户数据对在公共图书馆内部入驻的咖啡店、蛋糕店等私人店铺进行商业化宣传,那么这种行为可能就会构成数据非法利用的行为,因为公共图书馆违背了数据使用的目的正当性原则。
3.4.1 数据歧视
标签化的原材料是海量的用户数据,而用户数据来源群体存在着身份以及社会地位的差异。这种原始差异本身就会使用户在享受公共图书馆服务上存在着不平等,而用户数据标签化的过程以及随后的数据挖掘技术的运用就会使这种不平等进一步放大。如中国国家数字图书馆标签化的过程中将读者分为“读者卡读者”“实名认证读者”以及“虚拟读者”[16]103。这种带有身份性质标签划分可能存在数据歧视的风险。此外,公共图书馆用户的不良记录也可能导致数据歧视的发生。如用户如果存在借书超时不还的不良记录,而这种不良记录恰好被形成特征标签,那么在用户画像的应用过程中,带有不良记录的用户所受到服务与无不良记录的用户相比,可能就会衰减[17]。虽然这种区别对待是由不良用户自己的先前行为造成的,但在方式上有粗暴、欠妥之嫌。满足用户对公共图书馆数据服务的需要是公共图书馆的重要目的,如果仅通过限制用户数据服务来惩罚其不良行为,难免会陷入本末倒置的误区,也有违公共图书馆设立的初衷。
3.4.2 用户数据的过度挖掘
用户画像在公共图书馆的其中一个应用场景就是通过构建好的用户多维标签数据库,并借助数据挖掘技术来对用户的各个特征标签进行深度分析,以发现用户特征标签背后的内在逻辑,从而预测用户的行为并提供个性化服务。在这个过程中,要实现对用户标签数据的深度分析必须要借助数据挖掘技术。数据挖掘技术与一般的大数据技术相比,其最突出的优势就是不仅能发现数据之间的相关性,而且还能够发现数据背后的内部逻辑,从而能预测用户的行为趋势[18]。适当地对用户标签数据进行分析,有利于公共图书馆借助用户画像更好地为读者提供精准服务。但是,如果过度地对用户数据进行深度分析,就有可能导致用户的个人隐私被挖掘出来,在此种情况之下,一旦与个人隐私相关特征标签被可视化之后,用户个人隐私泄露的风险也会随之加大。
公共图书馆现代化的变革迫使法律制度做出新的安排和建构,以便对用户画像应用中的数据安全风险进行更优规制。围绕公共图书馆数据安全风险这一核心主题,在原则性规制方面,必要性、非歧视性、排他性等三大原则指引从数据获取到数据利用的全过程。在实体规制方面,保护用户的知情权、决定权以及被遗忘权以实现公共图书馆数据使用权与用户信息控制权之间的平衡。在程序规制方面,行政机关的外部监管与行业协会的内部监管互相配合,共同防范数据使用过程中的不当行为。在救济方面,反馈—处理机制、明确维权途径、检察机关信息侵权公益诉讼等三大举措共同应对风险发生后用户数据权益保护问题(表1)。
表1 数据风险-法律规制表
4.1.1 必要性原则
注册信息可被视为显性层面的信息获取,用户知道自己哪些信息被系统纳入。而用户在访问公共图书馆网站或数字资源时的浏览痕迹、阅读历史以及公众号、App 等移动端的数据信息收集则处于隐形层面,超出用户的知情范围,用户信息也就面临着过度收集、过度挖掘风险。《个人信息保护法》第十三条规定,个人信息的处理应当为履行合同义务所必需。个人信息收集应当遵循必要原则,在不影响公共图书馆提供资源服务的情况下对用户信息最小限度的获取。公共图书馆应当明示用户信息的范围和种类,收集的用户信息不应超出用户的合理预期。我国公共图书馆可以效仿英国图书馆在用户隐私保护方面的有关规定,赋予用户查看已收集的个人信息的权利。如英国的Barnsley 图书馆规定用户有权要求图书馆更正其所保存的任何不正确的信息,有权要求图书馆协助屏蔽促销和销售信息等,有权要求图书馆提前通知自己有关信息被共享或利用的任何第三方的信息[19]。
4.1.2 排他性原则
公共图书馆得到用户的授权对数据进行处理,以更好地开展各项数字资源服务,那么公共图书馆作为处理者有义务排除他人对该数据资源的利用。公共图书馆在进行数据的深度挖掘、分析过程中,受限于自身技术水平不足,通常选择与专业第三方合作。上文已经指出,第三方平台接触海量的用户数据,增加了数据泄露的风险,公共图书馆有义务防范此种风险。基于数据排他性使用原则,公共图书馆与第三方签署合作开发协议时,需要明确第三方只是技术的提供者,无权擅自持有、使用、访问该数据资源并享有支配性利益。用户基于需求与信任与公共图书馆建立数据使用上的密切联系,让渡了部分个人数据信息权益,但不意味着公共图书馆的数据合作者可以利用用户数据的经济价值。
4.1.3 非歧视性原则
公共图书馆在构建用户画像过程中,歧视性数据标签的出现将会侵害部分用户群体的合法权益,用户信息应当像其他私权利一样受到法律平等的保护。公共图书馆用户信息保护立法明确规定,数据处理者应当遵循平等性原则,并在使用过程主动排除可能会为用户带来歧视的数据。如美国法律的有关规定,应用大数据分析和算法自动化决策需要遵照宪法第十四修正案的平等保护条款的要求。《中华人民共和国电子商务法》第十八条也对电子商务经营者提出尊重和平等保护消费者合法权益的要求。根据该条规定,商务经营者在精准推送的过程中,根据消费者的个人爱好、消费倾向等特征向其提供商品或者服务的搜索结果的,应当同时向消费者提供其他不针对其个人特征的选项。对公共图书馆用户而言,在使用文化资源服务时也应得到类似保护。公共图书馆运用用户画像提供个性服务时,也应当提供不针对个人选项,尊重和平等保护用户合法权益。
4.2.1 数据处理过程中保护用户的知情权与决定权
公共图书馆作为平台方在数据获取上往往呈现出不经授权即收集的随意性。公共图书馆用户拥有个人信息的所有权,同时承担着监管个人信息使用行为和保护个人信息权益的责任[20]。公共图书馆在个人信息收集阶段应依照法律规定充分尊重用户的知情权和决定权,需要事先告知用户,并取得用户同意。《个人信息保护法》第十三条、第十四条规定,信息处理者收集信息要充分告知并且取得明确同意,在已经收集的信息变更处理时,要通知信息所有人并取得授权。对于不满十四周岁的未成年人,《个人信息保护法》规定信息处理者应当取得其监护人的同意。公共图书馆用户信息保护立法可以参考《个人信息保护法》以及《民法典》对有关个人隐私、个人信息方面的规定,对用户信息收集做出更加细化的规定,让保护用户知情权、决定权不停留于口头宣示,而是真正落实到公共图书馆的用户管理当中。
4.2.2 数据处理过程中保护用户的被遗忘权
在使用公共图书馆数字资源的过程中,用户常常会选择以“权利”换“便利”,让渡一部分个人信息权益。基于此,用户应当有权在其不再使用该馆资源或拒绝使用有关个性化服务时,选择清除自己留存的数据信息。2012 年初,欧盟提出的遗忘权旨在赋予人们删除那些不再具有关联性、内容已经发生变化、已经过时的数字信息的权利,帮助人们摆脱过去的信息可能带来的困扰[21]。公共图书馆用户信息保护立法可以借鉴这一规定,给予用户以权利申请删除公共图书馆持有的个人数据,以及规定图书馆作为数据处理者的协助删除义务。也可规定用户数据在公共图书馆的存储期限,到一定期限后,公共图书馆有义务清除用户不愿意留存的数据,最大程度尊重用户对个人数据的控制权。在数据挖掘利用过程中,用户数据系列处理远远超出用户对个人数据的掌控范围,公共图书馆应当给予用户选择自由。对于拒绝公共图书馆对数据进行该种处理的用户,即使其数据已处于处理系统中,也应尊重用户意愿,允许其退出。
4.3.1 外部行政监管
《中华人民共和国公共图书馆法》(以下简称《公共图书馆法》)规定,文化管理部门对图书馆处理用户信息方面的监管职责。但数字时代数据资源大规模流动、聚合和分析带来全新的风险挑战[22],文化管理部门在这一专业层面上难以充分发挥监管作用。《中华人民共和国数据安全法》规定,国家网信部门依照本法和有关法律、行政法规的规定,负责统筹协调网络数据安全和相关监管工作。有关部门应当在国家建立的数据安全协同治理体系下,共同参与、互相配合,共同维护数据安全,促进良好发展。监管部门应设立一套客观统一的评估标准,根据数据的私密性程度进行安全分类监管,对于涉及用户敏感信息数据重点监控,这样既可加强监督力度又可提高执法效率、降低管理成本。这种监管模式相当于在海量数据流动的过程中设置无数道滤网,每一道滤网都有针对性地筛选。针对公共图书馆对用户数据的不法利用,经济惩罚、行政处分等措施应当发挥应有的震慑力。
4.3.2 内部行业自律
行政监管的同时,行业自律的重要性也不言而喻。公共图书馆作为图书馆行业的监管主体,应依法依规充分履行监督人的职责。图书馆可以创新自身管理机制,如公共图书馆可设立数据馆员。北京大学图书馆和复旦大学图书馆都设有数据馆员,培养出大数据环境下图书馆用户个人信息保护的一支高素质专业服务队伍[23]。公共图书馆可增加对数据安全的投入,建立专门的数据馆员制度,培养专门的数据管理人才来进行数据的专门管理,更加有效地应对数据处理带来的挑战。图书馆行业组织应根据有关法律制定更加细化的数据使用规范。如在公共图书馆与第三方平台合作处理用户数据问题上,图书馆行业组织应明确规范公共图书馆方对第三方的审查义务,设置第三方平台的资质门槛、数据使用权限等事项。同时,需要适应智慧型公共图书馆建设过程中用户数据资源带来的变化,配备更加专业化的监管队伍,制定更有针对性的监管流程,完善监管体制机制。
4.4.1 引入反馈—处理机制
公共图书馆除了规范如何处理用户数据外,还应当完善事后救济等方面的管理制度。公共图书馆设立专业的数据馆员,一方面可以有效处理用户数据,提升公共图书馆服务水平;另一方面还可以处理用户对个人数据不当使用的投诉、反馈并及时做出相应处理。公共图书馆应当在网页导航、隐私政策说明等页面公布有关负责人及联系方式、数据风险反馈的流程、用户权益受损的处理办法、维权途径等。当用户有证据证明诸如公共图书馆精准宣传、个性化推送等服务可能侵犯个人隐私并予以反馈,公共图书馆应当及时进行审查、纠正不当处理、协助用户消除负面影响。对于公共图书馆与第三方平台合作过程中出现的诸如敏感信息泄露等风险,一旦收到反馈,应当协助用户与第三方进行沟通处理,纠正错误做法,弥补用户损失。
4.4.2 明确用户维权途径
《公共图书馆法》设有图书馆违法处理用户信息由主管部门责令改正、没收违法所得等规定,但缺乏对用户权益受损如何维权的相关规定,导致用户侵权救济陷入维权无门、成本过高等困境。有关立法需要明确赋予用户请求救济的权利,明确维权的途径,降低维权的成本,将事后救济落到实处,切实保护用户利益。公共图书馆用户信息立法应当作为对刑法、民法有关个人信息规制的补充。严重侵害用户信息构成犯罪标准的行为由刑法规制,侵犯个人隐私和个人信息的行为可以由《民法典》有关规定调整的,应纳入民法规制范畴,其他难以适用以上法律规制的数据安全不法行为可以由专门立法做出规定,投诉、调解、仲裁、诉讼等可以作为维权途径予以明确。对公共图书馆不合法、不合规的数据处理行为,应当依法依规进行问责,充分发挥法律规制的效力。
4.4.3 启动检察机关提起的信息侵权公益诉讼
相较于公共图书馆,用户处于弱势地位,法律知识欠缺、维权成本过高、证据收集困难等因素都可能成为用户提起司法诉讼的障碍,而检察院作为法定的监督机关,在调查取证、起诉应诉等方面具有先天优势,可以弥补用户个人诉讼存在的不足。检察公益诉讼在环境污染、食品药品安全领域等发挥了显著作用,有效地救济了受损公益。将检察机关启动民事、行政公益诉讼制度引入数据安全保护领域,是制度优势得以体现的有效路径。公共图书馆海量用户资源在大规模收集、聚合、分析的过程中产生数据安全风险,会损害社会公共利益,基于这一公益属性的考量,引入行政公益诉讼制度模式保障信息安全恰恰符合公益诉讼的诉讼标的理论要求[24]。在具体实践中,对于行业失范、行政监管不力的情况,检察机关的检察建议,可以对行政机关起到督促警醒的作用。在检察建议落实不到位、风险救济尚未履行的情况下,检察机关提起诉讼也比用户个人通过诉讼途径维权更加有效。
用户数据作为用户画像应用的基石,在用户画像构建过程中扮演着极为重要的角色,但数据的大规模运用加剧了用户的数据安全风险,让公共图书馆行业面临着数据治理的严峻挑战。数据的规模化运用与用户个人信息保护之间产生了博弈,缓和两者之间的张力亟须法律规制的介入。公共图书馆数据安全风险法律层面的规制需要立法者、执法者、司法者及图书馆行业组织等各方的协同共治,既要遵循相关法律法规对个人信息的规范保护,也要注重完善公共图书馆对数据安全风险的规制体系。从原则指引、规范数据使用的权利义务分配、强化过程监管以完善风险救济等多个方面发力,可达到更好的规制效果。