差分隐私DNA模体识别安全共享平台的设计与实现

2019-01-07 11:57,,,
计算机测量与控制 2018年12期
关键词:精确度差分客户端

, , ,

(徐州医科大学 医学信息学院,江苏 徐州 221006)

0 引言

DNA模体识别(motif finding)作为生物序列分析的基础研究方法之一,对研究基因的表达调控机制、发现DNA功能位点有着重要意义[1-2]。但是,DNA数据蕴含丰富的隐私信息,这些隐私信息的泄露问题成为了DNA序列分析发展的瓶颈之一[3-5]。与此同时,Homer等人也通过实验证实:基因序列分析研究中确实存在极高的隐私泄露风险[6]。该结论导致多个知名生物数据平台暂停DNA数据共享服务,严重阻碍DNA序列分析研究的发展,隐私泄露已经成为了 DNA序列分析技术发展中亟待解决的关键性问题。

目前,国外学者对DNA序列分析的隐私保护研究主要集中在差分隐私保护技术上,并取得了一些成果[7-11]。差分隐私技术设定了一个严格的攻击模型,能够对隐私泄露风险进行严谨、定量化的推导与证明。而差分隐私模型的特性是能够在攻击者已掌握除某一条 DNA 序列之外的所有数据信息时,仍然保证该 DNA 序列隐私信息的安全性。但是,由于DNA数据的高度敏感性,往往容易造成差分隐私对DNA序列分析结果的过度加噪,从而导致分析结果失去应有价值。因此,在进行差分隐私DNA序列分析研究时,分析方法既要保证结果安全性又要保证结果的高可用性。

对此,Uhler等人[7]将差分隐私加噪融入到DNA序列分析过程中,并提出差分隐私MAFs(Minor allele frequencies)、差分隐私卡方检验、差分隐私p-values等数据发布方法,且从理论和实验两个方面证明了这些方法的可行性。其后,Simmons等人[11]对已有研究成果进行改进,并针对人口分层因素影响差分隐私DNA序列分析方法精确度的问题,提出了PrivSTRAT算法和PrivLMM算法,该研究成果引起国内外学术界广泛关注。

而在模体识别领域,Chen等人[12]指出利用差分隐私可以有效地解决DNA模体识别的隐私泄露问题,并成功提出了一种基于n-gram的差分隐私保护方法(以下简称N-gram算法),该方法一种单纯追求效率的识别方法,在处理较大数据集时需要消耗较多隐私预算,无法保证识别结果的精确度。对此,作者在文献[13]提出一种高精度的方法DP-CFMF (differential privacy-closed frequent motif finding),该方法在利用闭频繁模式的概念对识别模体中的冗余度进行约减,并减少了隐私预算分配过程,从而在保证DNA隐私安全的同时提高了模体识别的精确度。但是,国内外尚未有数据共享平台支撑DNA模体的安全识别和研究工作。因而,建立一个DNA模体识别安全共享平台成为了模体识别研究领域中亟待解决的问题。

基于以上研究,本文设计并实现了一种差分隐私DNA模体识别安全共享平台。该平台通过客户端实现数据源选择、算法选择、隐私预算设置、结果评估及图形化结果等功能,并利用多种差分隐私模体识别方法实现不同需求的DNA模体安全识别任务。此外,该平台允许用户自主上传、共享DNA数据集,并对上传的数据集进行差分隐私模体识别,在实现DNA数据安全共享的同时,为DNA模体识别领域研究人员的科研工作提供了有力支撑。

1 平台总体设计

差分隐私模体识别平台主要由平台运行端、DNA数据库服务器端及客户端三部分组成(图1所示为平台总体结构图)。用户通过客户端对模体识别过程中的DNA数据库连接、隐私预算配置、算法参数配置及结果显示方式等相关信息进行配置,信息配置包含任务开启、结果显示、DNA数据导入导出和DNA数据上传及共享等指令,并通过多元网络将指令传输给平台运行端;平台运行端在收到任务执行指令后,读取隐私预算配置信息、数据源选择信息、数据规约信息,并执行DNA模体识别操作;最后,平台运行端将处理完成后的结果通过多元网络呈现给客户端,并提供结果集展示、本地存储、结果质量评估及图形化展示等功能。

图1 平台总体结构图

2 平台软件设计

差分隐私模体识别平台主要由平台运行端、DNA数据库服务器端及客户端三部分组成(图1所示为平台总体结构图)。用户通过客户端对模体识别过程中的DNA数据库连接、隐私预算配置、算法参数配置及结果显示方式等相关信息进行配置,信息配置包含任务开启、结果显示、DNA数据导入导出和DNA数据上传及共享等指令,并通过多元网络将指令传输给平台运行端;平台运行端在收到任务执行指令后,读取隐私预算配置信息、数据源选择信息、数据规约信息,并执行DNA模体识别操作;最后,平台运行端将处理完成后的结果通过多元网络呈现给客户端,并提供结果集展示、本地存储、结果质量评估及图形化展示等功能。平台各子程序具备的功能见表1。

表1 各程序具备功能

主程序进行平台初始化和各子程序的调用,多元网络通信子程序负责客户端的配置信息及数据库的上传。而平台端在收到客户端的任务开始指令后,将调用服务器内置DNA数据库或者用户上传的数据库,并对其进行差分隐私模体识别,最后将识别结果和数据可用性评估通过客户端图形化界面显示给用户。平台软件流程图如图2所示。

图2 平台软件流程图

3 平台DNA模体识别算法设计

3.1 差分隐私基本概念

差分隐私是一种基于数据失真的隐私保护模型,该模型通过向查询结果中添加适当噪音实现数据分析与共享的隐私保护。差分隐私模型建立在严格的数学推导之上,能够在攻击者拥有最大背景知识情况下保护数据中的个人隐私信息。该模型的原理为:在任一数据集中添加或删除一条数据,这一操作不会影响数据分析的结果。差分隐私模型的具体定义如下:

定义1:给定两个数据集D和D',这两个数据集之间最多相差一条数据,即兄弟数据集。同时,给定一个具有隐私保护的算法A,range(A)是算法A分析结果的取值范围,若算法A在给定的两个数据集D和D'上的任一分析结果O(其中O∈range(A))满足下列不等式,则算法A满足ε-差分隐私。

|Pr[A(D)=O]|≤eε×|Pr[A(D')=O]|

上述不等式中,查询结果的概率Pr[·]取决于算法A的随机性,也代表着数据集中个人隐私泄露的风险。而隐私预算参数ε表示对数据集的隐私保护程度。一般来说,ε越小,数据集的隐私保护程度越高。

为实现差分隐私模型,一般方法是向算法分析的结果中添加噪声,噪声添加技术主要分为拉普拉斯机制和指数机制,而基于不同噪声机制且满足差分隐私的数据分析算法所需噪音大小与算法的全局敏感性密切相关。

定义2:对于任意函数f:D→Rd,该函数f的全局敏感性Δf可以表示为:

由定义1可知,两个数据集D和D'为兄弟数据集,即两个数据集最多相差一条数据。R表示通过函数f,数据集D能够映射的实数空间,d表示映射结果的维度,p表示全局敏感度Δf是利用Lp进行度量距离,而本文涉及到的算法均使用L1度量距离。

为使DNA模体识别方法满足差分隐私模型,本文使用的噪音机制均为拉普拉斯机制,该机制主要通过拉普拉斯分布产生的随机算子扰动真实DNA模体识别频率来实现差分隐私保护。

定义3:对于任一函数f:D→d,如果算法A的分析结果满足以下等式,则可以认为算法A满足ε-差分隐私。

A(D)=f(D)+

在定义3中,任一拉普拉斯变量Lapi(Δf/ε)(1≤i≤d)相互独立。由等式可知,拉普拉斯机制添加的噪音量与Δf成正比,与ε成反比。换而言之,算法A全局敏感性越大,需要添加的噪音量越大。

3.2 差分隐私DNA模体识别算法

在平台运行端内置多种差分隐私模体识别方法,除了经典的N-gram算法、Simple算法外,还包括自主设计的基于差分隐私保护模型的DNA闭频繁模体识别算法——DP-CFMF,其原理通过构建闭频繁扰动探索树,利用闭频繁模体模型对扰动探索树进行剪枝,该步骤能够减少模体结果集冗余的同时,减少隐私预算的消耗;而且,利用探索树结构能够提高内存使用和模体搜索的效率,并能够快速有效地分配隐私预算;此外,该方法采用最优线性无偏估计对加噪支持度计数进行一致性约束处理,提高数据的可用性。该方法主要包括模式分解单元、构建闭频繁扰动树单元、识别模体单元和一致性约束后置处理单元,其具体流程如下:

1)模式分解单元:利用nmax参数对DNA原始数据集进行模式分解,获得数据集中长度为nmax-1和nmax模体及其支持度计数;

2)构建闭频繁扰动树单元:利用长度为nmax-1和nmax模体构建探索树,利用闭频繁模体等价关系进行剪枝,然后对每一个模体的支持度计数添加相应的拉普拉斯噪声,获得由剪枝后nmax-1模体和nmax模体组成的闭频繁扰动探索树;

3)一致性约束后置处理单元:利用最优线性无偏估计方法对扰动探索树的每一个节点的支持度计数进行一致性约束后置处理,获得满足树的一致性约束的支持度计数;

4)识别模体单元:在N-gram模型的基础上利用马尔可夫假设方法进行预测所有nmax+1模体的支持度计数,不断迭代获取长度在[nmax,Lu]之间的模体,求解每个模体的联合支持度计数,获得长度在[nmax,Lu]之间的频繁模体。

相比于N-gram方法来说,DP-CFMF具有较高的精确度,且其需要使用到的隐私预算较少,可以满足多数情况下的隐私保护;而N-gram算法具有较高的效率,但其处理较大数据集时需要消耗大量的隐私预算,甚至可能超出隐私预算上限,从而导致识别过程异常,因此N-gram适用于较小DNA数据集的安全识别。在使用该平台时,用户可以根据自己不同的情况做出相应的选择。

4 平台测试与分析

4.1 差分隐私模体识别算法测试

本文将真实数据集Upstream数据作为内置数据源对平台算法性能进行测试,该数据集包含487760条DNA序列。测试时,在客户端配置差分隐私保护预算、模体识别参数、图像化显示等信息。实验所使用的软硬件环境为:4G内存,平台端运行环境为Linux,算法开发语言为Python,客户端运行环境为Window10,客户端开发语言为C#,数据库为SQL sever 2008。图3是在不同隐私预算下对Upstream数据集执行平台算法测试,其他参数默认值见文献[13]。由图可知,两种方法均可以完成在Upstream数据集上的差分隐私模体识别,且具有良好的精确度。此外DP-CFMF精确度要高于N-gram方法,更适合于高精度要求的任务,而N-gram方法相对来说精确度略低,比较适合处理效率要求较高的任务。

图3 Upstream数据集在不同epsilon下的精确度对比

为测试研究人员在共享DNA数据库场景下的算法运行效果,本文在客户端中将真实数据集Washington数据设置为待共享数据集,该数据集共包含14126条数据。实验中,客户端通过互联网将Washington数据集传输到服务器端。数据共享到服务器端后,本文对Washington集进行了不同隐私预算的模体识别测试,测试结果如图4所示,DP-CFMF和N-gram算法的精确度均可达到70%以上。由此可知,通过该平台可以较好地实验DNA数据的安全共享。

图4 Washington数据集在不同epsilon下的精确度对比

4.2 客户端总体功能测试

在客户端总体功能测试中,本文主要对安全共享平台进行了参数设置、数据共享、模体识别质量评估等功能的测试。通过测试可知,客户端能够实现内置DNA数据进行选择、规约数据大小、描述共享数据集、设置差分隐私模体识别参数、选择结果反馈方式等操作,并将相关指令发送给平台端。平台端对于客户端的请求均做出了响应,并进行了相应操作后将结果反馈给客户端。测试结果表明:平台端和客户端各子程序模块均能成功运行,能满足设计需求。

5 结论

本文描述了差分隐私DNA模体识别安全共享平台设计与实现,该平台利用C/S架构,允许用户在客户端进行隐私预算及算法参数配置、选择DNA数据库、上传及共享DNA数据集、结果保存方式等操作,并通过多元网络将指令传入平台端。平台端接收到客户端端指令后,读取、导入用户所选择的数据源,利用差分隐私DNA模体识别方法对DNA数据进行识别,然后将结果通过客户端的客户端图形化展示给用户。测试结果证明,该平台提供的差分隐私模体识别方法能够有效实现DNA数据的安全识别,并能满足用户多种需求。同时,平台提供的自主上传数据和隐私预算配置等功能帮助生物学研究人员开展定制化研究工作,为生物序列的安全共享与研究提供有力支撑。

猜你喜欢
精确度差分客户端
RLW-KdV方程的紧致有限差分格式
你的手机安装了多少个客户端
“人民网+客户端”推出数据新闻
——稳就业、惠民生,“数”读十年成绩单
符合差分隐私的流数据统计直方图发布
CVD 预测模型精确度优化措施探究
放缩法在递推数列中的再探究
基于差分隐私的数据匿名化隐私保护方法
媒体客户端的发展策略与推广模式
新华社推出新版客户端 打造移动互联新闻旗舰
相对差分单项测距△DOR