基于差分隐私的轨迹隐私保护方案

2021-09-28 11:04陈思付安民苏铓孙怀江

通信学报 2021年9期

陈思，付安民，苏铓，孙怀江

（1.南京理工大学计算机科学与工程学院，江苏南京 210094；2.南京理工大学后勤服务中心，江苏南京 210094；3.中国科学院信息工程研究所，北京 100093）

1 引言

随着物联网、智能穿戴设备和全球定位系统（GPS,global positioning system）定位技术的快速发展，基于位置服务技术得到广泛应用，如移动用户通过终端来租借共享单车、查询周边的美食、享受外卖与线上打车服务等，这些基于位置的服务能够使用户获取周边的实时信息，并为其提供高质量的生活方式。然而，轨迹数据具有隐私含义，因为它足够精确，敌手可能由此得到用户的住址、工作信息和个人生活习惯等隐私数据[1]。例如，一旦公共卫生机构公开发布用于流行病跟踪的轨迹统计数据，这些敏感数据可能会在用户不知情的情况下被保留或被攻击者用于其他目的[2]；公共卫生机构利用软件应用获取的位置数据进行病毒传播的追踪，有利于预防和阻止疾病大流行，但是轨迹数据的公开发布和使用却伴随着一系列伦理和隐私问题，难以预防一些网络攻击者重复利用并窃取用户隐私的事件发生[3]。因此，如何在保护用户隐私的情况下使用轨迹数据是一个关键挑战[4-5]。

目前，轨迹隐私保护的研究已经具有一定的积累，其中k-匿名和差分隐私技术等被广泛应用在位置隐私保护领域[6]。k-匿名是最早被用于保护轨迹隐私的技术，操作简单。智能移动设备与用户绑定，例如，某些移动应用程序直接获取用户位置信息，而k-匿名方法要求某一用户的位置记录至少与其他k-1 个位置记录不可区分，采用匿名方法进行隐私保护，但是其需要基于一些特殊的攻击假设，会增加服务器的负载和网络传输开销，影响位置服务质量[7-8]。即使使用唯一标识符而不是名称，大多数用户行为仍可被轻而易举地追溯，因此差分隐私技术应运而生。差分隐私由Dwork 等[9-10]提出，通过严格的数学定义对发布数据进行随机扰动，使在统计意义上攻击者即使拥有一定的背景知识（如用户的性别、邮政编码等），也无法识别一条记录（如ID、姓名等）是否在原数据表中，从而达到隐私保护目的。该技术优点在于不需要特殊的攻击假设、不关心攻击者拥有的背景知识，同时给出了量化的分析来定义隐私泄露风险[11-13]。许多学者对差分隐私技术进行了大量的研究与探讨，根据不同场景下轨迹隐私保护需求提出众多隐私保护方法[14-21]。

然而，现有轨迹隐私保护工作存在以下困难。1) 个人用户精确的位置数据被利用在法律上是敏感的，那么机构如何构建高效采样机制来收集用户轨迹数据。2) 即使是群体聚合的轨迹数据也会有暴露隐私的风险，采用什么样的轨迹数据扰动混淆机制，可以有效抵抗具有背景知识的敌手攻击。3) 如何高效地提高轨迹数据发布的统计精度，增强公开发布的轨迹数据的可用性。总之，目前并没有克服上述所有困难的轨迹隐私保护方案。

因此，本文通过建立时间泛化和空间分割的轨迹数据处理模型，设计了一种基于差分隐私的轨迹隐私保护（TPPDP,trajectory privacy protection based on differential privacy）方案，不仅能够增强轨迹数据的可用性，量化轨迹数据的隐私保护程度，还能有效抵抗基于一定背景知识的攻击者的攻击。本文的主要贡献如下。

1) 现有轨迹隐私保护方案都是单独采用一种差分隐私机制，TPPDP 使用差分隐私的指数机制和Laplace 机制进行双重数据随机扰动，适用于空间分割、轨迹发布的不同阶段，不仅可以量化隐私泄露的风险程度，在抵御具有一定背景知识的敌手攻击的同时，安全性也比单独使用一种机制大大提升。

2) 为了提高轨迹数据发布的查询精度，响应查询范围的误差边界，设计了一个有效的预判机制，减少异常轨迹数据发布的风险，在提高数据安全性的前提下，进一步保证发布的公共卫生轨迹数据的可用性。

3) 结合轨迹数据的敏感特征，充分考虑采样数据真正代表整个区域人口的可行性，设计了一个新的时间泛化和空间分割的高效采样模型，使用k-means 聚类算法进行抽样数据处理，进而提高算法执行效率。

4) 理论上分析了TPPDP 方案满足差分隐私，并使用微软公司发布的真实轨迹数据进行仿真测试。测试结果表明，TPPDP 方案在满足隐私保护的同时具有较高的数据效用，并表现出良好的性能。

2 相关工作

为了解决用户轨迹数据的泄露问题，学者们已进行了大量的研究与探讨。Chen 等[14]根据蒙特利尔地区公共交通机构发布的数据，在差分隐私模型下，提出了一种有效的数据依赖的隐私保护算法，在数据处理中利用前缀树的固有约束来进行约束推理，从而产生更好的效果，这是第一个差分隐私模型应用于发布大量轨迹数据的解决方案，缺点是该算法依赖于严格的轨迹场景进行实现，在实施过程中有较大局限性。

随后，越来越多的学者着手设计轨迹隐私保护的框架模型。He 等[15]针对GPS 设备可能导致的大量个人和人口流动的数据泄露，提出了一种基于个人原始GPS 轨迹合成移动数据的框架，以差分隐私技术得到理想的隐私保护的效果，还提供了具体的建模方案，使用分层参考系统对原始轨迹进行离散化处理，使用方向加权抽样来提高效用。Cao 等[16]提出了一种灵活的“l-轨迹隐私保护”的安全模型，以确保每一段长度轨迹都受到隐私保护，利用分层设计思想来满足轨迹隐私，并基于4 个真实数据集进行仿真实验，证明该算法是高效的。上述研究工作偏重于差分隐私的框架模型设计，主要是针对历史轨迹数据集进行处理，不能很好地适应轨迹数据的动态特征。

随着应用程序的发展，针对轨迹隐私的研究开始注重隐私保护系统的设计。Gursoy 等[17]将隐私保护和完整的位置跟踪进行合成，提供了一种综合隐私保护系统Ada Trace。这是一个可扩展的系统，针对差分隐私和弹性位置攻击提供了一个效用感知的功能，Ada Trace 在4 个阶段中执行特征提取、噪声注入和特征合成，部署在真实环境进行使用。Drakonakis 等[18]开发了LPAuditor 系统，该系统是一个检查位置公开，衡量用户面临隐私风险信息的系统，并利用Twitter 数据和公共应用程序接口（API,application programming interface）进行测试。LPAuditor 除了实现更高的粒度，还引入了一种集群方法，可以解决GPS 读数或用户移动引起的空间位移问题。Yang 等[19]将位置隐私保护和区块链结合，确定了传统人群感知系统中可以披露的3 种方式，并提出了一种新颖的区块链式隐私保护人群感应系统，该系统需要基于奖励的任务分配过程，使用区块链技术的匿名特征来隐藏用户的身份信息。上述隐私保护系统可以达到一定的隐私保护作用，但是在进行大量的位置泛化或匿名处理后再进行轨迹发布，会降低位置服务的有效性。

在基于差分隐私技术的轨迹隐私保护中，比较经典的方案是Hua 等[20]和Li 等[21]提出的方案。Hua等[20]假设原始轨迹数据具有相同的时间戳，通过概率性统计合并相似节点形成新轨迹数据集，结合Laplace 机制设计新轨迹发布算法 TSTDA（time-serial trajectory data algorithm），该算法既保持了比较高的数据效用，又可以应用到大规模轨迹隐私保护场景。Li 等[21]针对现有隐私保护算法使用随机和无限制的噪声导致用户隐私泄露的问题，提出了一种包含有界噪声约束和差分隐私技术结合的算法 NGTMA（noise generation and trajectory merging algorithm），实现了较高的数据可用性。但这些研究工作未考虑时间属性，且不允许所有用户在同一时间移动，没有建立时间和空间的关联性，不能很好地适应流行病环境下的轨迹隐私保护场景。

因此，针对上述问题，本文通过建立基于差分隐私的时间泛化和空间分割采样模型，借助差分隐私保护的思想，设计了一种新的轨迹隐私保护方案，在增强公共卫生数据的可用性的同时，能够高效抵抗基于背景知识的攻击者的攻击。

3 方案设计

本文提出的TPPDP 方案适用于物联网背景下移动用户的轨迹隐私保护场景，核心思想是在保证用户隐私的同时，提高轨迹发布数据的有效性，同时具有较高的执行效率。

本文先给出TPPDP 模型及流程设计，然后重点阐述TPPDP 方案的2 个核心子算法：轨迹处理子算法和数据发布子算法。表1 给出了系统参数及其含义。

表1 系统参数及其含义

3.1 模型及流程设计

为保护用户的动态轨迹隐私，TPPDP 进行时间属性处理，并建立时间和位置属性之间的关联模型。

TPPDP 模型如图1 所示，包括时间泛化、空间分割、轨迹优化和轨迹发布4 个步骤，其中时间泛化和空间分割构成轨迹处理子算法TraPro，轨迹优化和轨迹发布构成轨迹发布子算法TraRel。

图1 TPPDP 模型

首先，对原始轨迹数据集进行时间属性的泛化，相近时间节点的用户合并在同一区域，形成采样轨迹数据集。然后，在同一时间戳的用户通过聚类方法进行分组，利用差分隐私的指数机制计算该组的核心位置，该组内移动用户坐标被泛化成核心位置，对移动用户的轨迹有一定的隐私保护。接着，合并记录并删除异常轨迹数据。最后，在统计结果加入差分隐私的Laplace 噪声，混淆统计数目的真实性进行发布。

3.2 轨迹处理子算法

轨迹处理子算法TraPro 负责处理动态轨迹数据，联合时间和空间，有效消除连续的轨迹数据带来的隐私泄露风险。TraPro 由时间泛化和空间分割2 个步骤组成。

3.2.1 时间泛化

与传统采集固定时间戳的静态轨迹数据不同，TraPro 通过对时间属性的泛化操作，处理动态轨迹数据集，并完成采样轨迹数据集的准备工作，具体实现过程如下。

1) k-means 聚类算法通过预先设定的k值及每个类别的初始质心对相似的数据点进行划分，将一天分成k个时间段，初始k个点是根据不同实验轨迹数据集特性进行选择的。为保证轨迹数据发布的精度，若用户的移动速度较快，较短时间内行动在不同区域，k就需要取较大数值，反之亦然。通过划分后的均值迭代优化获得最优的聚类结果，选定k个中心的初值，针对不同时刻的i和j，对应时间t之间的欧氏距离为

2) 将每个数据点归类到离它最近的那个中心点所代表的簇（cluster）中，计算时间t的质心为

3) 计算每个cluster 的新中心点，把距离质心最近的那些数据点分配给它，移动重心的位置到所有属于它的数据点的平均位置上。迭代直到最大的步数或者前后的距离值之差小于阈值为止，最终cluster 质心会靠近目的地并停止移动，得到最接近的时间cluster 集合，选取其质心作为该cluster 的所有轨迹用户的时间戳。

4) 采用k-means 聚类算法对时间属性进行泛化，将比较接近的时间合并为同一个时间段，即划分在一个固定的时间区域内。通过对时间属性泛化，将其分成n个固定的时间段 Δti(i=1,2,…,n)，假设每条轨迹等长，同一时间段被认为具有相同的时间点。经时间泛化后的轨迹如图2 所示。

图2 时间泛化后的轨迹

3.2.2 空间分割

目前，常见的空间划分的方法有网格单元法、二叉数、八叉树等空间分割方法[22]。

TPPDP 采用经典的指数机制和k-means 聚类算法对采样数据集进行空间分割处理，使用满足特定分布的随机抽样来实现隐私保护，包括空间划分和分区选择两部分。

首先，在空间划分中，将相同时间戳t的位置数据进行分割，采用k-means 聚类算法将该区域分成k个子区域，通过预先设定的k值及每个类别的初始质心对相似的数据点进行划分，初始k值根据不同实验轨迹数据集特性进行选择。然后，利用k-means 聚类算法的处理结果，对具有更接近位置数据进行合并。最后，通过差分隐私的指数机制定义一个效用函数U，U对每一种输出方案计算出一个分值，选择分值最高的分区，也是最优分区方案。具体过程如下。

1) 使用经典的k-means 方法对位置进行划分，在每个时间戳上根据它们的成对欧氏距离将原始位置数据划分为N组，而k-means 的分区为P～。如果N的数目比较大，代表分配到很多区域，轨迹的精度损失也更少，计算代价会随之增加。

2) 在ti时刻，所有的移动用户都被集中在区域L里，这时区域L可以被分割成g个候选分区簇，候选分区可以形成一个集合τ。

3) TraPro 定义一个效用函数U，对每一个候选的分区P τ∈都赋予一个效用值，选择效用值越高的分区。模型中，=1,2,…,g)表示第i个分组的位置质点，其效用函数为

其中，

4) 针对第i个候选分区Pi∈τ，效用函数满足ε-差分隐私的指数机制。根据分值选择分区方法，同时得到该分区的中心位置。

经过TraPro 处理后，形成m个子簇，计算出每个子簇的簇心，最佳划分可以使轨迹数据点效用损失最小。TraPro 如算法1 所示。

算法1TraPro

输入D

输出DG

在已知的广义区域里，存在m个互不相关的移动用户，原始轨迹出现杂乱无章的状态。对原始轨迹数据集进行TraPro 处理后，每个子簇都有对应的中心，如图3 所示。

图3 TraPro 处理后的轨迹

3.3 数据发布子算法

数据发布子算法TraRel 负责提供轨迹数据发布前的优化操作，简单差分隐私处理会导致发布数据的可用性降低，而TraRel 包含2 个步骤：轨迹优化和轨迹发布，有效保证较高的可发布的轨迹数据效用。

3.3.1 轨迹优化

轨迹优化重点检查原始轨迹数据集在哪类新产生的数据集里存在，并运行预判机制，删除异常轨迹，降低发布空轨迹的风险性，增加轨迹发布的有效性。

假设Ω为广义的区域，针对同一Δti，模型中假设cluster 中所有移动用户的位置坐标被泛化为这个位置，在该时刻的所有位置数据点，都可以被认为是32 个位置质点，那么，在64 个固定的时间戳，会产生3264条可能的轨迹数，这个数据覆盖了所有的轨迹发布的可能性，通过泛化的方法，保护了移动用户隐私，不过也会带来大量的资源消耗。

由于产生一些并不存在的异常假轨迹数据会降低LBS 的可用性，轨迹优化算法将每个进行处理后的轨迹数据与真实轨迹数据进行对比，统计合并后的真实轨迹的记录数Real，当发现Real=0 时，认为该条轨迹为异常流行病轨迹数据并删除，进一步减少发布空轨迹的风险性，增加轨迹发布的有效性。轨迹优化步骤增强了轨迹数据发布的可用性，1) 对原始数据集和产生的新的轨迹数据集进行对比合并，列举出真实存在流行病的轨迹的记录数；2) 如果监测到记录数为0，说明新的轨迹数据为空轨迹，判断该条轨迹为异常数据，不进行发布，提高轨迹数据可用性，进一步加强公共卫生数据的服务质量。轨迹优化过程如表2 所示。

表2 轨迹优化过程

3.3.2 轨迹发布

在轨迹优化处理后，考虑到如果直接发布这个统计数据，虽然已经达到一定隐私保护的目的，但是特别针对如某些统计数为1 的轨迹，如果攻击方有一定的背景知识，很容易猜到用户归属从而造成隐私泄露。因此，在进行轨迹发布操作时，首先统计原始轨迹的数目，引入差分隐私的Laplace 机制，添加Laplace 噪声到每个真实数据中，可以抵制具有背景知识的攻击者由对数据发动的攻击。表示噪声计数排序的轨迹；

iC表示的噪声数，C1＞C2＞ …＞Ci，具体过程如下。

1) 从集合(C2,C1)开始，根据Laplace 机制计算Ω-轨迹内噪声量位于(Ci+1,Ci)的期望值Numi。f(x,ε)表示Laplace 分布的概率密度函数。Ω-内每条轨迹的真实计数为 0。加上后，的一条轨迹含噪声量在区间内的概率为，可得

2) TPPDP 从Ω-中随机选取不同轨迹的噪声量并将它们和一起包含在最终输出集中，噪声计数是这个区间内的随机值，当总计数达到原始数据集D的大小时，上述过程停止，并输出统计记录。

对记录数进行Laplace 机制加噪后，形成的数据集包括轨迹数据集、加噪后记录数，这时只需将处理后的轨迹数据集发布。表3 展示了轨迹发布过程。

表3 轨迹发布过程

数据发布子算法TraRel 如算法2 所示。

算法2TraRel

输入DG

输出nc

3.4 算法理论分析

TPPDP包含2个子算法，在轨迹处理的过程中，子算法TraPro 处理时间和空间数据，使用了聚类算法k-means，选取适当的k，将数据进行分类，时间复杂度为Ο(n2)，空间复杂度为Ο(n)；子算法TraRel的时间复杂度为Ο(n)，空间复杂度为Ο(n)。本节将TPPDP 与目前经典的 2 个算法 TSTDA[20]和NGTMA[21]进行对比，如表4 所示。

表4 时空复杂度分析

如表4 所示，TPPDP 时间复杂度比TSTDA 低，体现了本文算法的性能优势。此外，TPPDP 与NGTMA 时间复杂度相同，但是在数据发布前，TPPDP 在轨迹优化中增加了异常数据去除的步骤，后期不再进行异常数据处理，对比NGTMA，TPPDP在提高算法精度的同时，可以进一步节省算法实际运行时所消耗的时间。

4 隐私保护度分析

本节首先证明TPPDP 各阶段满足ε-差分隐私，进而根据差分隐私组合特性，证明方案满足差分隐私。

定理1TPPDP 在轨迹处理环节的子算法TraPro 满足ɛ-差分隐私。由于TraPro 在进行原始轨迹处理时，在k-means 聚类算法的处理结果上，采用效用函数进行空间划分的选择，对每一种分区方案计算实用性分值，设q是查询函数，u是实用性效用函数，分值高的输出方案具有更大的概率进行发布。下面证明当使用查询函数q对子算法TraPro进行数据查询时，输出结果满足差分隐私。

证明对任意的查询函数q和效用函数u，定义表示与exp(εq(T,r))u(r)成比例的概率选择r。由的定义可知，是有界的。根据定义，的概率密度为

本文定义Δq为查询函数中最大可能的差异值。数据集T中单条记录变化最多可带来变化Δq，有

因为一般选择Δq≤1 的查询函数为q，满足(2ε)-差分隐私，所以满足ɛ-差分隐私。

由此得证，子算法TraPro 满足ɛ-差分隐私。

定理2TPPDP 在数据发布环节的子算法TraRel 满足ɛ-差分隐私。假设函数集F具有S(F)的敏感度，且K是将独立噪声添加到F中每个函数f的输出的算法，如果噪声服从参数值并且采用的Laplace 分布，则算法K满足ɛ-差分隐私，由于噪声在发布前进行添加，对于同一个查询，差分隐私算法输出结果必定相同，从而保证轨迹发布数据的安全性。

证明在TPPDP 中，利用条件概率函数，定义ti为查询的数值，针对兄弟数据集T1和T2，有

同时，根据条件分布算法可得

使用边界完成证明

因此，子算法TraRel 满足ɛ-差分隐私。

定理3TPPDP 满足ɛ-差分隐私。

证明由于差分隐私的组合特性，TPPDP 包含的2 个子算法分别满足ɛ-差分隐私。假设TraPro满足ɛ1-差分隐私，TraRel 满足ɛ2-差分隐私，则可推断TPPDP 满足ɛ-差分隐私，此时ε=ε1+ε2。

5 性能分析

为验证所提TPPDP 的有效性和数据可用性，本文基于微软的Research’s T-Drive 预研项目数据进行了相关实验[23-24]，其中包含10 357 辆小车一周的轨迹数据，在这个数据库中的点的总数约为1 500 万，轨迹的总距离达9×106km。本节通过TPPDP 与TSTDA[20]和NGTMA[21]的实验对比展示TPPDP 的高效性。

5.1 算法执行时间

本节将从隐私保护参数ɛ和轨迹数据集大小两方面来分析TPPDP 的性能表现。将TPPDP 执行时间与TSTDA 和NGTMA 进行对比，实验结果如图4 所示。

图4 随ε 和轨迹数据集变化3 种方案执行时间对比

由图4 可以看出，一方面，当用户数量大小一定时，随着ε的增加，隐私保护能力逐渐降低，计算量降低，3 种算法的执行时间呈线性减少。另一方面，随着轨迹数据集的增大，计算量明显升高，算法执行时间呈线性增加。同时，由图4(d)可知，TSTDA 和NGTMA 的运算开销大于TPPDP，时间代价高昂，导致运行速度较低，TPPDP 在执行效率上具有明显的优势。

5.2 轨迹合并时间

为了评估TPPDP 在轨迹处理阶段的表现，在ɛ=0.1 和ɛ=0.5 这2 种情况下进行仿真实验，分析随着用户数量的增加，平均轨迹合并时间的变化，实验结果如图5 所示。

图5 轨迹合并时间对比

从图5 可以看出，随着用户数量的增加，3 种隐私保护方案的轨迹合并时间都呈上升趋势，轨迹合并阶段处理操作与隐私参数的选择并没有直接关系，与TSTDA 和NGTMA 相比，TPPDP 的轨迹合并时间较小，性能较优。

5.3 噪声产生时间

为了评估TPPDP 在轨迹发布阶段的表现，取隐私参数ɛ=0.1 和ɛ=0.5，测试平均轨迹噪声产生时间随着用户数量的增加而产生的变化，对比结果如图6 所示。实验结果表明，与TSTDA 和NGTMA相比，TPPDP 的轨迹噪声产生时间较少，执行效率较高。

图6 轨迹噪声产生时间对比

5.4 隐私保护强度

根据差分隐私模型定义，隐私参数ɛ用于衡量隐私保护强度，较小的ɛ提供较高的隐私保护强度。第4 节从理论上证明了TPPDP 满足ɛ-差分隐私，说明算法可以满足用户轨迹隐私保护需求。本节进一步利用互信息（MI,mutual information）[25]来测试TPPDP 的隐私保护强度。MI是信息论里一种有用的信息度量，隐私作为一种信息，可以用信息熵进行量化，MI 用来测量2 个集合之间的相互依赖关系，表现为猜中某特定用户的概率。

为了评估TPPDP 在安全性能上的表现，实验取不同的隐私参数ɛ=0.1 和ɛ=0.5，分析3 种方案互信息随着用户数量的变化情况，对比结果如图7 所示。实验结果表明，与TSTDA 和NGTMA 相比，TPPDP 算法的互信息值较低，隐私损失度较低，安全性能较好。

图7 隐私保护强度对比

5.5 发布数据效用

TPPDP 采用差分隐私机制进行轨迹数据的隐私保护，会不可避免地影响轨迹数据效用。为了测试轨迹发布的数据效用，实验利用豪斯多夫距离（HD,Hausdorff distance）来评估TPPDP 的轨迹数据效用[20]。HD 用来衡量2 个点集间的距离，被广泛用于测量2 个数据集的相似性。通过测试发布数据集和原始数据集之间的HD 判断数据效用，距离值越小，代表2 个数据越相似，数据可用性越高，反之亦然。

为了评估TPPDP 方法在轨迹发布时的数据效用，计算合并轨迹前原始轨迹数据集的真实计数和Laplace 加噪后计数之间的HD。实验测量随着用户数量的增加，3 种方案HD 的变化，实验结果如图8所示。实验结果表明，一方面，3 种方案随着ɛ的增加，HD 逐渐变小，隐私保护算法的数据效用增加。这是因为，隐私参数ɛ用于衡量隐私保护程度，ɛ越大意味着发布数据集和原始数据集的概率密度函数相似度越低，隐私保护强度越弱，数据可用性越高。另一方面，与TSTDA和NGTMA相比，TPPDP的HD 更小，和原始数据集更相似，具有更高的数据效用。

图8 数据效用对比分析

从上述实验结果可以看出，与 TSTDA 和NGTMA 相比，TPPDP 算法执行时间较少，隐私损失度较低，数据可用性较高，性能表现整体趋向平稳。

6 结束语

随着智能移动设备、无线通信及定位技术的发展，基于位置服务的技术得到了广泛的应用，给人们生活带来了巨大的便利，服务器根据用户的位置信息和服务需求，为其提供解决方案，因此用户提供位置信息越精确，服务器提供解决方案越理想。本文针对物联网背景下的智能移动设备场景，提出了一种时间泛化和空间分割相结合的差分隐私轨迹数据发布方案，不同于现有的方案，本文方案建立了精准高效的轨迹数据采样模型，通过k-means 对轨迹数据进行聚合抽样，并且能够提供更强的隐私保护能力，同时引入提前预判机制，减少发布空轨迹的风险性，增加轨迹发布的有效性，保证更好的数据可用性。实验结果证明了TPPDP 在隐私保护强度、轨迹数据效用和执行效率上具有较大的优势。