张 敏 沈嘉裕 刘华玮 严炜炜*
(1.武汉大学信息资源研究中心,湖北 武汉 430072;2.武汉大学信息管理学院,湖北 武汉 430072)
互联网医院是通过互联网的技术和手段,远程为患者提供导诊、预约挂号、常见病以及慢性病诊疗并开具处方和配送药物的医疗服务平台[1]。当前互联网医院有政府主导型、大型实体医院自建型、互联网企业主导型3种主要类型[2]。国家卫生健康委明文规定,互联网医院必须依托于实体医院,因此互联网医院也被认为是实体公立医疗机构增设的第二名称[3]。2018年,国务院办公厅出台了《关于促进“互联网+医疗健康”发展的意见》,随后我国互联网医疗服务业务量增长显著。统计数据显示,截至2021年6月,我国互联网医院数量已超过1 600家[4]。
移动互联技术的不断发展使得互联网医院应用程序(以下简称APP)应用场景不断丰富。相较于传统PC端的医疗信息系统,互联网医院APP可向患者提供实时信息服务,有效解决了传统医院挂号难、排队难的沉疴,凸显出方便、快捷、高效等优势。但值得注意的是,患者在就诊中产生的海量生物识别、医疗健康等敏感的个人信息[5],可能会因商业数据共享不当、遭受黑客攻击等原因而导致个人健康信息的泄露[6-8]。因此,互联网医院APP收集、处理、使用患者隐私数据的过程是否规范合法,不仅关系到患者的个人隐私安全,更影响并制约其本身乃至整个产业的健康发展。
应用程序隐私政策内容反映了服务商对个人隐私保护的承诺,是研究移动应用程序隐私保护情况的极佳材料。本研究选择互联网医院APP的隐私政策内容为研究样本,在构建互联网医院移动应用程序隐私政策评价体系的基础上,分析我国互联网医院APP隐私政策的实施现状,研究结论有助于完善互联网医院移动应用程序隐私安全保护机制。
近年来,学者们在移动应用程序隐私保护方面进行了丰富的研究,如表1所示:①在研究场景方面,医疗健康、电子商务、社交媒体、移动图书馆等是关注的重要领域[9-13];②在研究方法方面,内容分析法是较为常用的研究方法,也包括比较分析法、层次分析法、问卷调查法等社会科学研究常用研究方法。刘娇等[14]采用比较分析法,对中外应用程序隐私保护文本进行了比较研究。张晓娟等[15]采用专家访谈与层次分析法,构建了隐私政策评价指标体系。秦克飞[16]采用中文可读性公式法,通过隐私政策文本的每句平均字数和难字百分比计算隐私政策文本的可读性。姚胜译等[17]借助问卷调查法与层次分析法,构建了应用程序隐私政策友好程度评价框架。此外,国外有学者将基于政策文本自动分类的方法引入隐私政策合规性研究[18-19]。赵杨等[20]运用CNN、RNN、LSTM这3种机器学习算法,构建了隐私政策合规性自动检测模型,对隐私政策文本进行自动化标注,进而进行合规性评价;③在研究规则方面,法律法规[9,11,15,20]、专家意见[15]、数据生命周期[12]以及用户体验[21]是制定隐私政策评价体系与评价指标的主要依据。
表1 移动应用程序隐私政策评价相关研究
表1(续)
文献综述发现,我国应用程序隐私政策研究的逻辑主线已经厘清,并形成了初步的理论知识体系,但同时也存在以下局限:①在研究场景方面,针对互联网医院APP隐私政策展开系统实证调研的相对较少;②在研究视角方面,内容合规性[12-14]视角和用户体验[16-17]单独采用较多,特别是内容合规维度,近年来已有学者[20]将机器学习方法引入隐私政策的内容合规评价研究中,而将内容合规维度与认知负荷维度系统结合起来的研究较少;③在研究方法方面,根据专家的先验知识进行AHP主观权重设置的研究较多[17],但同时结合主客观因素设置权重的研究较少;④在研究规则方面,基于用户体验的评价指标设置缺乏统一的理论依据,致使不同研究对隐私政策的用户体验维度的设置较为零散。如对于隐私政策的可读性这一评价指标,秦克飞[16]采取定量的中文可读性公式法衡量隐私政策文本的可读性,而徐雷等[21]从隐私政策的文本字数、目录与重点标注、专业术语3个方面评价应用程序隐私政策的可读性。姚胜译等[17]则从内容角度出发设置可读性评价指标体系来考察隐私政策的内容是否完整、规范、合规。指标设置理念的差异造成了认知上的分歧,不利于隐私政策评价研究的理论与实践发展,而认知负荷理论适用于用户阅读应用程序隐私政策的场景,可有效解决学者们在用户体验评价指标设置上的分歧。因此,本研究拟基于认知负荷理论和内容合规的角度,构建互联网医院APP的隐私政策评价体系。
认知负荷理论[24]由Sweller J于1988年提出,认知负荷是指个体在完成任务过程中进行信息加工所需要的认知资源的总量,可细分为内在认知负荷、外在认知负荷以及关联认知负荷。其中,内在认知负荷是指在具体任务中必须理解的任务信息、材料的复杂性与个人知识水平的交互作用所引起的难度。外在认知负荷是指由信息呈现方式产生的,个体将投入多余的信息或与目标无关的过程中的精力是外在认知负荷的来源。关联认知负荷是指个体致力于构建图式而投入的精力[25],又称“相关认知资源”。由于个体工作记忆资源的总量是有限的,当认知资源被投入与任务无关的外在认知负荷时,被投入到与任务相关的内在负荷的相关认知资源会相应减少。查先进等[26]指出,降低学习者的认知负荷并提升学习效果的途径包括两种:一是降低内在认知负荷,即改变学习材料或任务本身的认知难度;二是降低外在认知负荷,即对学习材料或任务的组织和呈现方式进行改进。
认知负荷理论扎根于认知心理,并通过大量实践不断扩充其内涵,近年来影响力和解释力在教育心理学[27-28]、信息系统[29]、用户行为[30]、文本阅读体验[31]等研究领域中不断增强。Wang Q等[32]借助眼动追踪方法,证实了电商网站设计的复杂性与用户的外在认知负荷有关。王伟伟等[30]基于认知负荷理论,构建了基于用户情绪的感知体验服务模型,对某汗糖检测APP的信息元素进行认知结构的调整,从而推进产品优化。在文本理解领域,牛丽慧等[31]发现,将科学论文的论证结构外显化可以降低科研人员的外部认知负荷,促进科研人员理解论文主旨大意的效率。此外,张玥等[33]将认知心理学中的认知负荷理论引入医疗健康APP隐私政策阅读效果研究。上述研究验证了认知负荷理论在在线文本阅读理解领域的适用性,因此认为,认知负荷理论适用于用户阅读应用程序隐私政策的研究场景。
基于上述分析,本研究从认知负荷与隐私政策内容合规的双重研究视域出发,结合《个人隐私保护法》构建我国互联网医院APP隐私政策评价体系,利用AHP-EWM耦合赋权方法对评价指标进行赋权。由于机器学习等自动标注方法无法对认知负荷维度的交互友好性等指标(如隐私政策的出现时机与隐私政策的阅读窗口是否能够全屏显示)进行标注,因此本研究通过人工标注的方式,结合内容合规与认知负荷双重视角,对国内现有的互联网医院APP隐私政策进行实证研究,丰富了隐私政策的研究范畴,为完善互联网医院移动应用程序隐私安全保护机制提供合理的依据。
认知负荷理论认为,应降低外在认知负荷,提高相关认知资源,并且将内在认知负荷控制在适量的程度,使个体能进行最有效的认知加工[34]。鉴于此,本研究将影响用户阅读互联网医院APP隐私政策的认知负荷分为外在认知负荷和内在认知负荷。其中,外在认知负荷涉及隐私政策的可获得性以及交互友好性;内在认知负荷指隐私政策的易读性。图1显示了认知负荷维的评价结构,各指标含义以及依据如表2所示。认知负荷维度的指标大多为0~1变量,由人工进行标注,例如,对于指标C2(内容摘要),如果某互联网医院APP的隐私政策正文中有内容摘要,则该指标取值为1,如果没有内容摘要,则该指标取值为0。此外,指标C6可读性分数为连续型变量,由Python程序计算;指标C8(出现时机)是指从下载安装后第一次打开APP到查看隐私政策所需的点击数,该指标由人工进行下载、统计和标注。
表2 互联网隐私政策评价体系指标设置
对于内在认知负荷而言,降低与阅读材料相关的内在认知负荷的方式[35]主要包括使用部分—整体顺序、简化总任务[36]、模块化呈现、考虑受众的先验知识等。本研究主要通过提供内容摘要、目录索引、教育说明、重点标注,以及降低文本内容的复杂程度等方式来达到降低内在认知负荷的目的。可读性是快速量化文本易读程度的有效指标[16]。在20世纪20年代,教育家们发现了一种利用词汇难度和句子长度来预测文章难度的方法——即可读性公式法,这些公式被广泛应用于新闻、研究、医疗、法律、保险和工业等领域的研究,证明了可读性公式强大的理论和统计有效性[37]。秦琴等[38]以中文可读性公式中最为权威的荆溪昱公式为基础,结合李萍融合专业术语的可读性计算方法[39],提出了较为科学的可读性计算公式,因此,本文的可读性分数指标(C6)的设置借鉴了秦琴等[38]的研究,采用式(1)进行计算。可读性分数属于逆向指标,即可读性分数越高代表文本越复杂,式(1)中的Y表示可读性分数,TC表示隐私政策文本的总字数,AS表示平均句长可通过式(2)中的总字数(TC)除以总句数(TS)得到,PK表示专业词汇字数在文本中的占比可通过式(3)中的专业词汇的字数(TK)除以总字数(TC)得到。
Y=17.5255+0.0024·TC+0.04415·AS-18.3344·(1-PK)
(1)
(2)
(3)
对于外在认知负荷而言,降低外在认知负荷主要是要减少冗余信息,最大限度地呈现直接达到学习目的的内容[35]。一般降低外在负荷的方式包括避免注意力分散、图表使用、提供操作支持等方式。已有研究表明,隐私政策的内部可获得特征、阅读窗口界面全屏会对用户阅读隐私政策的体验产生正向影响[17]。也有学者[21]通过统计用户在APP内获取隐私政策的点击次数来衡量隐私政策获取途径的便捷性。本研究主要通过让用户直接在APP内部查看、主动弹出隐私政策(指标C7)、减少用户寻找隐私政策的步骤[21](指标C8)、提供全屏阅读窗口(指标C9)等方式来达到降低外在认知负荷的目的。
表2(续)
内容合规维度的关注重点是隐私政策文本是否依照相关法规要求,体现了个人信息处理方对于用户个人隐私保护的承诺。本研究参考了《信息安全技术 个人信息安全规范》(本文中简称《规范》)和《中华人民共和国个人信息保护法》(本文简称《个人信息保护法》)选择内容合规维度的指标。根据《规范》要求,APP服务商需要向用户提供信息的收集、存储、使用、共享、安全保障的相关说明和具体承诺,对于未成年人的隐私信息保护需要有特别的声明。《个人信息保护法》对APP过度收集个人信息、大数据杀熟以及非法买卖、泄露个人信息等做出针对性规范。此外,本研究在政策内容合规维度添加了《个人信息保护法》中提出的跨境数据处理和死者信息处理的相关法规,如图2所示。各指标含义以及设置依据如表2所示。
图2 政策内容维度评价结构
在信息收集方面,《规范》确立了选择同意原则,《个人隐私保护法》指出了个人信息处理明确合理、个人权益影响最小等具体要求。因此,本研究在设置信息收集维度的评价指标时,将信息收集范围与信息收集授权纳入考虑范围。
在信息存储方面,《个人隐私保护法》指出,个人信息处理者应当向用户告知个人信息的保存期限、个人信息的保存期限应当为实现处理目的所必要的最短时间、当用户个人信息保存期限届满时个人信息处理者应当主动删除个人信息。互联网医院APP存储的个人信息涉及到医疗信息等比较敏感的个人信息,为了平衡隐私保护与数据利用之间的关系,通常需要采用数据脱敏等操作方法。因此,本研究将存储期限以及脱敏处理纳入考虑范围。
在信息安全保障方面,《规范》明确指出,个人信息保护者在制定个人信息保护政策时,需要告知用户提供个人信息后可能存在的安全风险以及个人信息安全保护措施,必要时可公开数据安全和个人信息保护相关的合规证明。《个人隐私保护法》指出,个人信息处理者应对其个人信息处理活动负责,采取必要措施保障所处理的个人信息的安全。因此,本研究将责任承担、风险告知、保护措施、外部认证、安全事件处置纳入考虑范围。
在信息使用方面,《规范》明确指出,个人信息控制者在使用个人信息时,不应超出与收集个人信息时所声称的目的具有直接或合理关联的范围。因此,本文将信息使用目的告知纳入考虑范围。
在信息共享方面,《规范》明确指出,个人信息控制者共享、转让个人信息时,应充分重视风险,向个人信息主体告知共享、转让个人信息的目的、数据接收方的类型以及可能产生的后果,并事先征得个人信息主体的授权同意。因此,本研究将信息共享对象告知与目的告知纳入信息共享维度。此外,互联网医院APP的数据流中,涉及到我国居民的个人身份信息、健康状况信息、疾病与用药信息、就医信息等与国家总体安全有相关关系的敏感信息。《个人隐私保护法》明确指出,个人信息处理者如果需要向境外提供个人信息,应向用户告知境外接收方的名称、联系方式、处理目的、处理方式、个人信息的种类,并取得个人的单独同意。因此,本研究将跨境信息说明纳入考虑范围。
在信息更新方面,根据《规范》附录中提供的个人信息保护政策模板,隐私政策文本需要说明该隐私政策的适用范围以及更新日期。在个人信息保护政策发生重大变化时,个人信息处理方需要及时更新个人信息保护政策并通知个人信息主体。此外,当个人信息控制者发生收购、兼并、重组、破产等变更时,个人信息处理方需要向个人信息主体告知有关情况,如破产且无承接方,个人信息处理方需要对数据做删除处理。因此,本研究将信息更新说明、控制权变更说明作为信息更新维度的评价指标。
在个人信息权利方面,《规范》明确指出,个人信息权利包括个人信息查询、个人信息更正、个人信息删除、撤回授权同意、获取个人信息副本、投诉管理等,对于未成年人的隐私信息保护需要有特别的声明。《个人隐私保护法》强调,如果遇到自然人死亡的情况,其近亲属为了自身的合法、正当利益,可以对死者的相关个人信息行使查阅、复制、更正、删除等权利,死者生前另有安排的除外。因此,本研究在设置个人信息权利评价指标时,将信息访问与修改、个人信息删除、授权同意范围更改、副本获取、申诉反馈、死者个人信息保护、未成年保护纳入具体考虑范围。
AHP-EWM耦合赋权主要包括主观权重计算、客观权重计算、耦合3个步骤。
在主观权重计算部分,本研究使用层次分析法(Analytic Hierarchy Process,AHP)[41]。基于2.2部分构建的指标体系生成调查问卷,参考已有研究的专家人数设置[17],邀请5位隐私保护研究领域的专家对指标进行比较打分,并将打分结果输入Yaahp10.2生成判断矩阵进行一致性检验。在一致性检验全部通过后,通过Yaahp10.2计算AHP权重Wj,如表3所示。
在客观权重计算部分,本研究使用熵权法(Entropy Weight Method,EWM),即通过指标的无序程度来反映指标对评价对象的区分程度[41]。首先,根据标注结果对指标对应的数值利用极值法进行预处理。对于正向指标,按照式(4)进行预处理。其中,Mj是指标Cj对应的标注结果Xij中的最大值,mj是指标Cj对应的标注结果中的最小值。对于逆向指标(如可读性分数和出现时机),按照式(5)进行处理。然后,对数据进行无量纲化处理,按照式(6)计算指标Cj下第i个隐私政策样本的特征比重Pij。第三,将特征比重Pij代入式(7)计算熵值得到指标Cj对应的熵值ej,并采用式(8)计算差异性系数gj。最后,通过式(9)得到EWM指标权重如表3所示。
(4)
(5)
(6)
(7)
gj=1-ej
(8)
(9)
在耦合部分,采用式(10)对AHP权重和EWM权重进行耦合,得到指标的主客观综合权重W″j。
(10)
由于EWM指标中存在指标权重为0的情况,将AHP权重和EWM权重相乘后,整体向右平移0.0001再进行归一化处理。表3为指标体系与赋权结果,对应的指标名称如图1、图2所示。
表3 指标体系与赋权结果
本研究结合动脉网发布的互联网医院行业报告、丁香医生提供的注册医院名单以及点点数据发布的医疗类APP名单等,从平台下载相关数据,并根据APP名称、开发者、实际功用等进行人工筛选,最终获得64款互联网医院APP样本。其中,42款由公立医院开发,12款由地方卫生健康机构开发,5款由事业单位开发,3款由民营医院开发,2款由民营企业开发。下载上述64款研究样本所涉及的隐私政策,对文本进行人工标注,对应用程序基于设置的认知负荷维的指标项进行标注。之后根据权重以及标注结果计算样本得分,并将其转化为百分制。表4列举了部分研究样本的评价结果。
表4 部分样本评价结果
将样本得分进行K-Means聚类,令K值为3,将得分划分为高、中、低3类,如图3所示。对聚类结果进行卡方检验,所得皮尔逊卡方值为21.663,自由度为8。假设开发者类型与隐私政策评价得分聚类结果无关,由于计算所得卡方值21.663大于在0.01显著水平上拒绝假设所需的卡方值20.09,因此拒绝原假设,即开发者类型与隐私政策评价得分聚类结果是相关的。图3展示了不同的开发者类型对应的得分聚类情况的差异。不难看出,地方卫生健康机构样本得分分布相对均衡,公立医院样本得分相对集中于中间层次,民营企业与民营医院样本结果中均无较高得分情况出现,事业单位样本大部分落在得分较高的类别,说明民营企业与民营医院样本相较于其他开发者类别而言存在较大的改进空间。
图3 样本得分聚类结果
将样本标注数据进行标准化处理,并对内在认知负荷维度的5项指标依据开发者类别求均值,结果如图4所示。不难看出,事业单位样本在内容摘要和目录索引方面相对完善,文本内容的复杂程度也相对较低,但在教育说明方面有待改善。因此,开发者可在隐私政策中添加对于专业术语的解释链接,并考虑不同受众的先验知识来降低内在认知负荷。公立医院以及地方卫生健康机构样本隐私政策在内容摘要、目录索引、教育说明方面有所欠缺。民营医院样本在内容摘要、目录索引、可读性方面存在欠缺。民营企业样本在重点标注上相对完善,但在另外4个方面均存在欠缺。
图4 内在认知负荷均值分布情况
对外在认知负荷维度的4项指标依据样本类别求均值,结果如图5所示。在隐私政策的出现时机方面,按照所需平均步骤由少及多的顺序依次为民营企业、事业单位和公立医院、地方卫生健康机构、民营医院。阅读窗口界面全屏会对用户阅读隐私政策的体验产生正向影响[17]。图5表明,民营企业、地方卫生健康机构以及部分公立医院并没有为用户提供全屏的阅读环境。同时,主动弹出隐私政策的样本相对较少,尤其是民营医院样本在主动弹出方面比较欠缺。此外,部分事业单位和公立医院并未提供直接内部查看隐私政策的途径,用户需要跳转到浏览器才能查看隐私政策,这无疑增加了用户在阅读隐私政策时的外在认知负荷。
图5 外在认知负荷均值图
本研究对样本内容合规性的各指标所对应的值进行标准化处理,并针对不同样本类别求均值。如图6展示了分析结果,主要呈现出如下3个特点。
图6 合规性评价结果
首先,部分互联网医院APP的安全认证和责任明确方面存在诸多漏洞。主要表现为,用户隐私安全的责任承担部门尚未得到清晰的界定,通过权威机构认证的安全措施说明也较少,在民营企业和民营医院样本中甚至出现没有任何权威机构认证说明的情况。也有部分APP表现优异,如“厦门大学附属第一医院”根据《信息系统安全等级保护基本要求》通过了三级等保评审,同时与监管机构、第三方测评机构建立了良好的协调沟通机制,及时抵御并处置各类信息安全威胁,为用户信息安全提供全方位保障。
其次,部分互联网医院APP在信息共享目的告知、跨境信息说明方面存在不足。主要表现为,样本中明确说明信息共享或公开的类型与目的的样本数占总样本数的60.9%,样本中明确说明用户个人信息跨境传输情况的仅占比46.9%。
最后,我国大部分互联网医院APP在副本获取以及死者个人信息保护方面表现不佳。主要表现为,仅有6.25%的隐私政策样本明确表明,用户能获取其存储在应用的个人信息副本,所有样本对于死者个人信息保护均无相关说明。随着《个人信息保护法》的实施,未来上述现象有望得到改善。
本研究基于认知负荷与内容合规性双重分析视角,构建了互联网医院APP隐私政策评价指标体系,对我国主流互联网医院APP隐私政策展开实证分析,并依据评价结果提出可供参考的意见和建议。主要研究结论如下:
首先,我国互联网医院APP应优化内容设计和功能设计。互联网医院APP开发者可通过提供内容摘要、目录索引、教育说明、重点标注,降低文本内容的复杂程度来降低内在认知负荷,通过让用户直接在应用程序内部查看隐私政策、主动弹出隐私政策、减少用户寻找隐私政策的步骤、提供全屏阅读窗口来降低外在认知负荷。此外,可针对特殊人群(如老年用户等)开发隐私政策的音频版本、大字版本等。
其次,我国互联网医院APP应强化安全责任管理。监管部门可针对互联网医院建立相应的隐私安全保护技术安全认证机制,强制要求互联网医院APP在正式上线之前通过技术安全认证,并要求其隐私政策中需明确注明安全认证情况。互联网医院APP开发方应在隐私政策说明中将责任明确落实到具体的部门与相应负责人,避免发生隐私安全事故后出现不同部门“踢皮球”的情况。此外,互联网医院APP开发方应与监管机构、第三方测评机构定期协调沟通,在技术、制度上形成用户隐私保护的良性机制。
第三,我国互联网医院APP应健全跨境数据流动监管制度。监管部门应定期调研评估互联网医院,梳理数据跨境的业务场景和评估数据跨境的安全系数,对于不合理的跨境数据传输情况应及时予以制止。互联网医院APP开发方对于合理的业务流程中的跨境数据可进行脱敏处理以保障信息安全。
最后,我国互联网医院APP应加强死者个人信息保护。互联网医院APP开发方在设置隐私政策时应充分考虑死者个人信息保护,在用户下载应用程序时让其自主选择如果发生意外情况,亲属对其在互联网医院APP中生成的个人信息的查阅、复制、更正、删除等管理权限。
本研究运用认知负荷理论对APP隐私政策的用户阅读体验评价维度进行了完善,可有效解决学者们在用户体验评价指标设置上的分歧,具有一定的理论价值。认知负荷理论起源于心理学,经过30年的发展,该理论已日趋成熟,并在信息系统用户行为等领域得到很好的发展。但遗憾的是,该理论目前在APP隐私政策评价领域的应用较少。本文以认知负荷理论为视角,不仅丰富了认知负荷理论的内涵,也拓宽了隐私政策评价研究的视角,为今后的研究提供了新的思路。
在实践方面,本研究的实证分析结果验证了所构建的互联网医院APP评价指标体系的实用性。研究结论不仅有助于信息监管部门对互联网医院移动应用程序进行监管,也有助于互联网医院应用程序的开发方对其隐私保护条款进行自查调整。受制于数据可获得性和平台监管等客观因素,本研究存在一定的研究局限。未来的研究将拓展样本范畴,采集更多APP的隐私政策并进行对比研究。在评价指标设置方面,随着我国个人信息保护领域法律法规的不断完善,未来研究将拓宽APP隐私政策评价的指标维度设置。