大数据时代的患者隐私*

2018-01-28 23:01KayaalpM著编译
中国医学伦理学 2018年4期
关键词:基因组文本人员

Kayaalp M著,袁 杨 编译

隐私在1948年联合国大会的“世界人权宣言”中被定义为基本人权。然而,关于什么是隐私仍然没有达成共识。HIPAA法案的隐私法则对监管框架进行了界定,并在保护措施和获得用于研究的健康信息的权限之间达成平衡,规定了健康信息受法律保护的条件以及受保护的健康信息如何被去除标识以供二次使用。随着人工智能和计算语言学的发展,文本去标识算法产生的结果几乎与人类得出的去标识结果一样好,但速度更快更一致且基本上免费。但是,临床文本去标识过程仍然有瑕疵。为了最大限度地保护患者隐私并从电子医疗保健系统中获取临床和科研信息,所有利益相关者必须密切合作,包括患者、医疗机构和审查委员会、科学家以及监管和执法机构。一方面,公共卫生法律和隐私法规定了原则,例如请求和授予科学研究所需的健康信息量。另一方面,去除身份标识系统的开发者提供了不同操作模式的指导方针,最大限度地提高工具的有效性和去除身份标识的成功率。为了保护好患者隐私,拥有临床储存库的机构要严格遵守这些准则。

1 保护包含患者标识符的健康信息

随着数字通信革命的到来,社交媒体变得无处不在。现在隐私被定义为维护对个人信息的控制权,包括财产、通信、行为和其他事务的信息。健康信息(HI)是指与个人过去、现在和未来的健康状况有关或卫生保健支付相关的信息。可识别的健康信息是HI的一个子集,包含可用于识别健康信息主体的标识符或其他此类信息。大多数个人可识别的健康信息都是受保护的健康信息(PHI),过去50年内死亡者的健康信息被认为是PHI。个人身份标识信息PII经常与个人可识别的健康信息混淆。某些PII元素(如个人姓名和联系号码)可以在医疗记录中找到,但它们不是健康信息,因此不是PHI。我们将PHI视为健康信息和PII重合部分的集合。

2 HIPAA隐私法则

1996年,美国国会制定了“健康保险流通与责任法案”(HIPAA),并要求卫生与公众服务部门(HHS)颁布以下处理标准:①个人可识别HI信息的主体应该具有的权利;②为行使这些权利应该制定的程序;③应当授权或请求的信息使用和公开。1999年,HHS提出隐私规则的初始版本作为处理和传输个人HI的一套隐私保护标准。该规则的最新版本包含了2008年经济和临床健康卫生信息技术法(HITECH)和2008年遗传信息非歧视法(GINA)修正案。

隐私法则禁止出售PHI或将其用于市场营销目的,除非获得个人的书面授权。个人有权在公开PHI信息之前得到知晓并限制信息公开。个人死亡后,提供者可以向家庭成员或指定人员公开PHI,除非个人对此类公开提出要求。PHI也可以在特定的情况下使用或公开二次利用。

研究人员如果从PHI的主体获得授权,则可以使用PHI。没有这种授权,也称为知情同意,研究人员必须向机构审查委员会申请放弃授权,获批后可向研究人员公布必要的最少PHI。在两种情况下,医疗机构可以授予研究人员无须IRB批准即可获取PHI的权利:(a)PHI数据属于已故个人。(b)该请求仅限于查看PHI来筹备研究,不从研究机构获取PHI信息。此外,研究人员必须证明:①研究涉及的对象风险最小化;②放弃或变更不会对受试者的权利和福利造成不利影响;③在没有放弃或变更的情况下进行研究并不切实可行;④在适当的时候,将为受试者提供更多的相关信息。

3 去标识

从PHI中去除PII元素的过程称为去标识。隐私法则提供了两种不同的去标识方法。第一种方法是专家确定,专家解除PHI标识,记录方法,并使用公认的统计和科学方法量化重新识别的最小风险。第二种称为安全港方法,需要从数据中删除18种类型的标识符(PII元素)。18个PII元素中不包括人口统计信息,这些信息在临床研究中最常用,如年龄、性别、民族和职业等。

数据类型有四种:表格、图像/视频、信号和文本数据。如果确定了字段的标准,则清除表格结构化数据非常简单,基因组数据本质上也是表格。大多数信号数据,如心电图和脑电图是不需要去标识的。需要去除标识的唯一信号数据是语音,通过数学分析,从声纹可以重新识别个人。每个人的基因组数据都是独一无二的,在大量基因组序列中可以检测出(个体的)特定基因组序列,但是基因序列本身不能识别个体。通过从基因组数据库中删除所有不必要的人口统计数据、日期和位置信息,并最小化基本人口统计信息(例如年龄),可以大大降低隐私泄露的风险。

文本数据的去标识比表格数据要复杂得多,同一词语(例如“可能”)在不同情况下可以具有多种含义。因此,将健康信息与PII区分开来是比较困难的。如果文本数量有限且有经验的身份标识专业人员训练有素,可以手动对临床报告去标识。但在大数据时代,第一个前提几乎不适用。随着依靠临床报告的研究数量的增加,手动去标识对机构而言可能非常昂贵且不可行。

4 去除身份标识的模式

从临床数据科学家的角度来看,只要临床文本自动去标识应用程序产生所需的输出,去标识的基本机制并不重要。以下三种去标识系统的模式涉及不同的利益相关者,可以结合使用,最大限度地保护患者的隐私和去标识数据的完整性。

存储库范围的批量去标识是大多数现有系统采用的默认操作模式,对整个存储库去除标识,并在需要时向研究人员提供去标识数据,无须额外的操作开销。但是,这些数据可能不完整或不正确。按需要特定的去标识模式需要将去标识系统集成到EHR系统中,查询结果在向研究人员显示之前即时去除标识,结果的准确性显著提高。科学家参与的去标识模式会产生更好的结果,增加系统识别PII元素的灵敏度,可以更好地保护患者的隐私,并提供具有更高科学价值和数据完整性的去标识数据。

保护患者隐私需要各种技术工具,涉及分享、去除标识、安全存储、传输和处理PHI的规定,涉及隐私法律和协议,需要建立监测隐私泄露的规则。在这套隐私工具中,去除身份标识是不可或缺的工具。

保护患者隐私需要所有利益相关者之间的合作,包括患者、PHI机构、HI用户、自动去除身份标识工具的开发者以及监管和执法机构,都有不同的角色和责任。持有PHI的较小机构可能会因运营和财务管理费用而不堪重负,应该建立激励机制来支持这些机构,并为推动科学发展作出贡献。

总之,大数据使得患者隐私保护问题变得更突出,难度也更大。去标识方法能够最大限度地降低患者隐私风险,从而获取大量健康数据。在大数据时代,开发监管和隐私保护工具方面取得的进展值得肯定,但是,这项工作需要持续进行关注。

猜你喜欢
基因组文本人员
文本联读学概括 细致观察促写作
牛参考基因组中发现被忽视基因
科学家找到母爱改变基因组的证据
血清HBV前基因组RNA的研究进展
作为“文本链”的元电影
在808DA上文本显示的改善
让刑满释放人员找到家的感觉
基于doc2vec和TF-IDF的相似文本识别
紫花白及基因组DNA提取方法的比较
不得与工会组织任职期内人员解除劳动合同