徐孝娟 赵泽瑞 贾海洋 史如菊
(安徽大学管理学院,安徽 合肥 230039)
数字人文作为近几年兴起的交叉研究领域,因其研究工作量巨大、涉及内容较为分散、经费支持有限及要求研究人员学科背景多元等特点,结合众包所具有的开放式创新和群体智慧理念,可有效帮助项目管理者从外部获取更有效、更经济、更优质的问题解决方案,使得众包在数字人文环境下迅速发展,不断涌现理论及实践研究成果,主题已延伸到美术、图书馆、档案、博物馆和教育机构等领域[1-3]。如美国国会图书馆利用Flickr,邀请用户对照片进行标签和评论等;英国维多利亚和阿尔伯特博物馆要求公众评选最优照片;国内CADAL利用用户定位描述不佳的图书、修订图书的描述信息以及修订期刊目次页等;上海图书馆历史文献众包平台作为文本抄录及元数据深度标引的平台。然而,众包用户在参与过程中会留下大量的个人信息被众包项目平台及第三方采集等,尤其是数字人文众包这一非商业情境下,存在诸如密码泄露、位置跟踪、会话窃取、用户权利不明确等隐私侵权问题[4-5];同时,我国学者也指出,志愿者隐私泄露是数字人文众包中个人信息风险的重要问题[6],且公众隐私保障会显著正向影响志愿者对公众科学项目的信任[7]。
目前,有关众包个人信息保护研究主要集中在个人数据保护、个人隐私和信息安全等主题[8-9],例如学者Yr A等和Meftah L等分别基于强化学习(PICRL)和软件库,在不影响数据集质量的情况下加强移动众包应用程序对用户信息的保护力度[10-11];Xia H等基于索洛夫的隐私分类法,对众包中个人隐私的保护策略加以探讨[12];Xiong P等和Lan Z等分别基于优化奖励分配策略框架和购买数据集框架来保护用户隐私[13-14]。不难看出,上述研究多侧重于从计算机方法技术的角度对众包用户个人信息的保护进行探索。然而,对于众包中隐私政策内容设置的规范性及系统性等方面的研究尚需要进一步完善。此外,隐私政策作为保障用户个人信息权益和法律权益的重要一环[15-16],可以有效缓解用户个人信息担忧,优化隐私保护框架[17-18]。目前国内外学者已基于隐私政策在图书馆[19-21]、社交媒体APP[22-24]及移动健康[25-26]等领域对个人信息保护展开探索,结果发现,从隐私政策的角度可以帮助推进个人信息保护政策的研究及实践开展。与此同时,从数字人文众包情境开展个人信息保护方面的探索,可有效弥补非商业情境众包理论及实践应用的不足,增加用户对数字人文众包项目的信任度,进而提高参与度及忠诚度。综上所述,本研究将以“隐私政策”为视角,对数字人文众包平台中个人信息保护展开探索。
美国是最早开展众包项目的国家并取得了阶段成果,自此澳大利亚、英国、新西兰等国都相继开展了数字人文众包工作,并积累了丰富的理论及实践经验。与国外相比,国内数字人文众包平台的数量和质量仍存差距[27]。基于此,本研究将聚焦于国外代表性的数字人文众包平台,对各平台中隐私政策文本内容进行深入剖析,归纳总结其可供借鉴的相关研究成果,以期为我国数字人文众包个人信息保护相关实践的发展提供借鉴。
笔者利用网络调查法并结合数据的可获得性,依据各国(地区)数字人文众包项目的充实度和丰富性,从众包项目影响力、资源类型的多样性、地域分布的均衡性及公众的完成度等层面进行比较和筛选,最终选取美国、英国、澳大利亚、新西兰4个国家的典型性数字人文众包项目共47个,按照图书馆、博物馆、档案馆、第三方及其他类别进行分类[28],其中图书馆平台发起的项目共计14项,博物馆12项,档案馆10项,第三方及其他(如维基百科、麻省理工学院、书目研究中心及盈利性公司组织等)共计11项,具体如表1所示。数据收集截止时间为2021年10月15日,资料均来源于其官方网页。与此同时,数字人文众包因不同的项目类型的信息需求不同,在特定的任务信息需求下,对参与者个人隐私内容的要求存在差异。为此,本研究基于Oomen和Aroyo的数字人文类众包分类体系,按照转录型、修订型、分类型及补充收集型进行分类[29-30]。其中,转录型共计20项(图书馆4项、博物馆5项、档案馆2项、第三方及其他9项);修订型共计6项(图书馆4项、博物馆1项、档案馆1项);分类型1项(档案馆1项);补充收集型20项(图书馆6项、博物馆6项、档案馆6项、第三方及其他2项)。
表1 国外数字人文众包项目概况
为了更好地探索国外数字人文众包项目中隐私政策文本的内容及规律,提炼分析个人信息隐私政策的特征指标,从而指导个人信息保护的开展。本研究主要从以下4个方面开展:
1)首先对原始隐私政策资料进行可视化主题词聚类分析,生成高频词云图;其次采用LDA算法挖掘相关主题,一方面有助于快速了解隐私政策文本背后隐藏的主题思想;另一方面可为步骤2中主范畴的凝练、命名等提供客观证据指导。
2)为保证研究的精准度和深度,采用扎根理论这一探索性研究方法,借助Nvivo12文本分析工具,对数字人文众包项目中隐私保护政策的具体内容进行提炼和编码,对关键节点进行梳理和总结,最终形成个人信息隐私政策的类目体系。
3)在计量统计和分析的基础上,挖掘不同国家、不同项目平台及不同项目类型对各特征维度的关注程度,比较分析其个人隐私政策建设状况的共性建设经验及个性差异化特征。
4)结合我国当前数字人文众包项目隐私政策的制定现状,为我国数字人文众包个人信息保护提出意见与建议。
2.1.1 主题可视化
为探究国外数字人文众包项目隐私政策的主题特征,本研究利用高频关键词云图挖掘文本数据内容,并基于LDA算法中文本困惑度进行主题鉴别和主题词抽取,其中困惑度越小则其泛化能力越强[31]。其中高频关键词字体越大、越靠近中心位置的词汇被提及的频率越高,且本研究主题数目为3时困惑度最低,因此最终抽取的主题数目为3,具体主题可视化分布如图1所示。
主题主题词特征Topic1信息 数据 提供 服务 个人信息 网站 收集 隐私 访问 政策 第三方 电子邮件 用户媒体 地址 共享图书馆 CookieTopic2个人信息 国家档案馆 信息 隐私 网站 记录 访问 收集 提供 图书馆 披露 投诉 政策 目的 用于 澳大利亚 App 数据Topic3网站 数据 信息 Cookie 研究 电子邮件 收集 访问 页面 用户 选择 隐私 注册 地址 功能 项目 浏览器 政策主题—词汇分布
由高频关键词和主题—词汇分布可知:Topic 1的关键词可将其归纳为“信息收集”,如收集渠道、机构等;Topic 2的关键词可将其归纳为“信息安全”,如隐私、法律、保护及披露等;Topic 3的关键词可将其归纳为用户个人“信息内容”,如个人信息、身份、地址、国家(地区)及浏览器等。
2.1.2 国外数字人文众包项目隐私政策框架
为进一步构建国外数字人文众包项目个人信息隐私政策的范畴并形成类目体系,本文借助Nvivo12质性分析软件对47个数字人文众包项目网站所对应的隐私政策文本,按照扎根理论的流程,首先将初始资料标签化、概念化,并将类似的概念聚类分析形成初始范畴;其次,对编码所形成的初始范畴归纳分析,梳理隐私政策文本内容初始范畴之间的关系,形成主范畴[32]。为了确保研究结果的可信度,生成更多的新概念和范畴,本文邀请两位研究者分别对文本内容进行独立编码,并对两位工作人员的编码结果进行一致性信度分析,其中相互度K=2M/(N1+N2)、信度R=n*K/(1+(n-1)*K),抽取结果一致性为0.89,大于0.8则说明研究可信[33],信度检验通过。与此同时,结合2.1.1得到的关键词云图和主题分布客观证据,最终提炼出84个初始范畴,经过进一步的整合和凝练,本文将其归纳为7个主要类别,分别是:信息内容、信息安全、信息存储、信息共享、信息使用、信息收集、用户权利。基于此,国外数字人文众包项目隐私政策框架具体如表2所示。
表2 国外数字人文众包项目类目体系及其范畴
1)信息内容层面,主要指隐私政策中明确向参与者收集的信息。主要包括用户姓名、出生日期、地址、电子邮件地址、电话号码和性别等个人数据信息;使用项目服务或设施过程中以及与项目通信过程中提供的信息。
2)信息安全层面,主要指隐私政策中规定的对参与者个人信息的保护措施或手段以及对数字人文众包项目中未成年参与者个人信息的处理规范。主要分为信息使用与披露和保护措施两方面。信息使用与披露即如何采取合理措施保护个人信息免遭滥用、干扰、丢失、未经授权的访问、修改或披露,以及对于未成年访问措施等特殊信息的处理;保护措施即以实现信息安全为目的,具体使用某种特殊的软件程序和技术去识别未经授权的上传或更改信息的尝试,以及对工作人员的培训和相关工作准则的制定。
3)信息存储层面,主要指隐私政策中明确对参与者的个人信息存储保留,主要包括存储方式、存储时长及存储位置。具体为:根据保留时间表对用户的个人数据进行保留,规定个人信息按照物理格式保存在纸质文件中或是以电子形式保存在电子数据库中,以及对无须再予以保留的个人信息数据将以何种方式安全删除做出解释。
4)信息共享层面,主要指隐私政策中明确参与者的个人信息在何种情况下会对外或对第三方转让、共享、公开披露、提供或传输。规定用户共享信息的范围、具体内容,依据法律要求或用户授权所规定的共享条件,选择内部团队、外部合作伙伴或政府部门等具体的共享对象,以及共享个人信息时所采用的具体方式。
5)信息使用层面,主要指隐私政策中明确对参与者信息进行使用或加工的目的或方式。明确所处理收集的个人信息是何种用途,以及对为了达到某种目的所需的具体信息做出说明,同时阐明所收集的某项具体信息的合法依据。
6)信息收集层面,主要指隐私政策中明确信息收集的渠道、条件以及所采用的收集方式。具体包含收集方式、收集渠道、收集技术,即平台通过何种方式来达到收集个人信息的目的。如平台通过Cookie交互功能等技术或在用户自动提供相关数据、记录个人信息时收集。
7)用户权利层面,主要指隐私政策中参与者对自己信息处置的权利。明确用户在参与数字人文众包项目过程中所享有的具体合法权益。笔者通过对上述47个众包项目的分析,共提取出享受服务权、更正权、限制权、建议权、投诉权、知情权、咨询权、访问权、使用权、撤回同意权、反对权、删除权及数据转移权13个权利。
为了更好地探究不同发起平台、国家(地区)、项目类型在数字人文众包个人信息保护方面的差异,笔者基于所提取的7个指标,对47个数字人文众包项目网站对应的隐私政策文本进行统计,如图2所示。
2.2.1 整体性差异
指标上,“信息收集”“信息安全”“信息内容”3个指标的关注度都比较高,相对来说内容完备性较好,再次验证了基本概况中主题可视化的“宏观”结果。无论是不同发起平台、不同国家(地区)还是不同项目类型,上述3个指标占比均达100%,其次分别为“信息共享”“信息使用”和“信息存储”,在不同发起平台层面平均占比分别为96.13%、93.18%和91.40%,国家(地区)层面平均占比分别为93.25%、93%和89.25%,不同项目类型平均占比分别为93.33%、96.25%和95%,分别有44、44和43个项目提及;对用户权利的整体关注度较低,不同发起平台对“用户权利”的平均关注度仅有67.85%,不同国家的平均关注度为69.5%,不同项目类型的平均关注度为81.25%,仅有32个数字人文众包项目提及,可以看出各国隐私政策对于“用户权利”这一维度的关注度相对较低。
2.2.2 发起平台的政策内容差异
不同发起平台上,由档案馆、博物馆所发起的指标完整度相对较高。档案馆除“用户权利”,其他指标较为完备;图书馆更为关注“信息存储”“信息共享”;博物馆的“信息存储”“信息共享”“用户权利”3个指标关注度高于平均水平;第三方及其他发起的项目中,仅有“信息使用”占比高于平均水平。
进一步结合隐私政策文本,不同发起平台所属维度内容上的特征:①信息内容维度,各发起方均对所需收集的“个人信息数据”进行说明。此外,“访问链接”“访问日期”也是各发起方关注的重点。但档案馆与“第三方及其他”机构较重视对参与者“设备信息”的搜集,而图书馆、博物馆更多提及参与者的“敏感信息”及“位置”,档案馆则关注参与者的“隶属组织”;②信息存储维度,博物馆更侧重于强调“存储时长”,档案馆、图书馆则强调“存储位置”;③信息共享维度,博物馆侧重说明“所需共享的内容”,图书馆、档案馆侧重说明“共享对象”,第三方及其他更侧重于说明“共享条件”;④信息使用维度,图书馆、档案馆及“第三方及其他”机构侧重于网站内部的优化,如“产品与服务的改善”和“数据分析”。博物馆则更侧重于业务的拓展,如“营销推广”;⑤信息收集维度,各发起方均对所采用的“收集技术”进行说明,此外博物馆的“收集方式”更具多样性;⑥用户权利维度,各发起平台均较为关注“更正权”与“删除权”,此外,图书馆会进一步关注“撤销权”,档案馆进一步关注“知情权”;⑦信息安全维度,各发起平台均对其平台所采取的安全保护措施进行说明,图书馆和博物馆开始关注未成年人信息安全。此外,仅有少部分博物馆对信息安全用户自身责任做出说明。
2.2.3 发起国家的政策内容差异
不同发起国家中,英国和新西兰指标完整度较高,英国平均占比高达97.71%,新西兰高达94.86%,澳大利亚和美国相对较低。除去“信息收集”“信息安全”和“信息内容”3个关注度较高的指标,新西兰对于其余4个指标的关注程度均高于平均水平,英国对于“信息存储”“信息共享”“用户权利”3个指标的关注度较高,美国更侧重于“信息使用”这一指标,澳大利亚仅有“用户权利”这一指标高于平均水平。
基于隐私政策文本,所属维度内容上特征:①信息内容维度,各发起国家均重视对“个人信息数据”的收集。此外,“浏览信息”也是美国关注的重点;②信息存储维度,美国和英国较为关注“存储时长”,澳大利亚和新西兰更关注“存储位置”;③信息共享维度,各国对“共享对象”的关注程度都比较高,然而对“共享条件”的关注程度比较低,值得注意的是,英国隐私政策还单独提到了“疫情追踪”,将共享条件与疫情防控联系起来;④信息使用维度,各国均侧重于网站内部的优化,其中英国这一指标的整体完整度较高。“网站数据统计”“记录保存”“提供服务”这3项指标的提及次数较高;⑤信息收集维度,4个国家项目除了采用“Cookies”对用户信息进行收集外,还会采用“Google Analytics”技术进行辅助收集。在“收集方式”这一维度,美国与英国占比较高,澳大利亚的收集方式更丰富多样;⑥用户权利维度,英国对用户权利的重视程度较高,还单独提出了“数据转移权”。美国和英国所提及的用户权利较为多样;⑦信息安全维度,美国的指标完整度较高,各国均提及“访问权限”和“安全措施审查”,说明这两项措施更受隐私政策制定者青睐。
2.2.4 项目类型的政策内容差异
不同项目类型中,修订型、补充收集型、分类型项目完整度较高,平均占比分别为97.62%、94.29%以及100%;转录型指标完整度相对较低,为88.57%。除去“信息收集”“信息安全”和“信息内容”3个关注度较高的指标,分类型指标覆盖率均为100%;修订型除“信息共享”这一指标,其余指标覆盖率均为100%;补充收集型更关注“信息共享”;转录型其余4个指标均低于平均水平。
内容进一步细粒度挖掘如下:①信息内容维度,转录型侧重于对“设备信息”的收集,修订型、补充收集型更侧重于对“个人信息数据”的收集;②信息存储维度,转录型和修订型更侧重于强调“存储位置”,补充收集型更侧重于强调“存储时长”;③信息共享维度,“共享对象”是各类型项目隐私政策关注的重点,补充收集型还进一步强调“共享内容”;④信息使用维度,各类型项目主要用于网站内部的优化,其中修订型项目这一指标的整体完善度更高;⑤信息收集维度,“收集技术”是各个项目关注的重点,此外,转录型、补充收集型、分类型还侧重于强调“收集时间”,修订型还侧重于强调“收集方式”;⑥用户权利维度,修订型与分类型所有项目隐私政策均对用户权利进行说明。然而,转录型的20项中仅有11项对用户权利进行说明。除关注度较高的“更正权”和“删除权”,修订型还进一步关注“访问权”和“知情权”;⑦信息安全维度,各类型项目多聚焦于说明平台所采取的保护措施。此外,对14岁以下青少年群体以及用户自身责任的关注度提升。
3.1.1 国内数字人文众包项目
目前,我国积极开展数字人文众包项目,并取得了探索性的实践成果,如上海数字人文众包系列、Cadal众包项目及北京记忆项目等,主要开设平台聚焦为图书馆、博物馆、档案馆以及其他第三方平台(如高校、人文研究中心等联合)。本文基于数据可获得性选取代表性项目,具体发起方及工作内容如表3所示。截至2021年10月7日,“盛宣怀档案抄录项目”已发布75项共计656个任务,已完成431个[34];“古籍整理工作平台”目前主要参与者有3 389位,整理成果4本,整理任务5 090个[35];“北京记忆项目”目前已添加2 271条记录,1 041篇文集,8 683张图片,444个视频[36];“社会档案人项目”目前已完成词条编辑10个[37]。
表3 国内代表性数字人文众包项目
3.1.2 国内数字人文众包项目隐私政策
目前,我国所开展的数字人文众包项目隐私政策如下:“北京记忆项目”在互动网站“我的北京记忆”中设置了隐私声明[38];“盛宣怀档案抄录项目”在《上海图书馆网上注册服务协议》中提到了隐私制度及保护措施[39];“古籍整理工作平台”在《用户注册协议》中设置了隐私保护内容[40]。“盛宣怀档案抄录”“古籍整理工作平台”与“社会档案人”目前还没有制订具体的隐私政策。笔者借助Nvivo12质性分析软件对国内数字人文众包项目隐私政策的具体内容进行提炼和编码研究,共得到“信息收集”“信息共享”和“信息安全”3个主范畴。具体内容如表4所示。
表4 我国数字人文众包项目隐私文本内容
笔者通过对我国数字人文众包项目指标体系的比较分析可知:第一,目前我国数字人文众包项目平台隐私政策在形式上仍处于摸索阶段,具体表现为制订缺失、无统一标准且尚未形成完整的政策体系。如“北京记忆项目”平台制定了特定的《隐私声明》,而“盛宣怀档案抄录”与“古籍整理工作平台”两者隐私保护内容位于“注册协议”中。第二,文本内容覆盖面相对较窄。隐私文本仅涉及“信息收集”“信息共享”“信息安全”3个指标。相较于国外形成的“信息内容”“信息安全”“信息存储”“信息共享”“信息使用”“信息收集”“用户权利”7个指标体系尚有不足之处。因此,研究国外数字人文众包项目隐私政策的成功经验,对我国探索与制定隐私政策具有较高的参考价值。
本研究以47个国外数字人文众包项目为研究对象,整体上挖掘了隐私政策高频关键词图谱、主题分布以及个人信息隐私保护政策的类目体系,并进一步剖析了发起平台、国家(地区)及众包项目类型间的差异,本研究在具有理论价值的同时,也具有较强的针对性和现实意义。
第一,本研究构建了国外数字人文众包项目隐私政策框架,涉及信息内容、信息安全、信息存储、信息共享、信息使用、信息收集及用户权利7个维度,并明确了各指标具体内容,可以为我国个人信息保护隐私政策的设置提供框架及内容上的理论指导。虽然我国已从国家层面制定了《个人信息保护法》《网络安全法》等保护个人信息的法律法规,但目前数字人文众包类项目尚未制定统一的行业标准,因此,应在国家相关个人信息政策法规的基础上,结合我国数字人文众包项目个人信息的特点以及国外现有成果,明确众包项目隐私政策中应包含的基本内容和关键条款,制定统一的、有实际执行意义的行业标准,加强行业自律。
第二,剖析发现不同发起平台、不同国家(地区)及不同项目类型隐私政策文本侧重点存在差异,如在信息存储这一维度,博物馆、美国和英国、补充收集型更侧重于强调“存储时长”,档案馆、澳大利亚和新西兰、图书馆以及转录型、修订型则强调“存储位置”。由此,我国数字人文众包项目应在充分结合我国个人信息保护法规的基础上,有针对性地制定条款细则,可以根据发起平台、任务类型的差异,“有的放矢”地参鉴上述研究成果。
第三,各机构、各国(地区)在“用户权利”这一维度的关注度均相对较低,随着我国网民对用户权利的重视增加,特别是《个人信息保护法》中明确规定了个人信息权利包括知情权、决定权、查阅权、更正权、删除权等,可见未来强化数字人文众包项目中个人信息主体权利变得尤为重要。国外数字人文众包隐私政策在更正权、删除权、撤销权、知情权、访问权和知情权等进行的探索,可供我国参考。
第四,对于青少年群体的关注,已得到了国外的重视,应优化与完善我国数字人文众包项目未成年人隐私保护政策。隐私政策的制定须权衡青少年个人信息保护,提升隐私政策的针对性,对未满18周岁,特别是14周岁这个界定,重点突出对其个人信息的个性化保护条款,并采取有针对性的具体保护措施:如对所有14周岁以下青少年采用更低的同意年龄阈值;提供“家长控制”功能,在收集和利用未成年人个人信息时应做出明确的提示或征询其父母(监护人)的同意等。