杨丽丽
(广西警察学院,南宁 530000)
信息化社会使我们的生活更加便捷,数据通信与资源共享更加方便,但互联网中数据的传输与共享也会造成隐私的泄漏,使个人信息被泄露的风险大大提升。目前,尽管研究者们都在不断努力去预防信息泄露问题,但个人信息仍然以各种意想不到的方式被泄露。
当下的隐私数据发布技术大多是针对单敏感属性数据,而在实际应用中,很多数据之间往往存在着某些特定的联系,在发布一些信息时,就相当于间接发布了另外一些信息,像这种相关联系的信息属性就叫做相关敏感属性。由于单敏感属性隐私数据的发布方法与多敏感属性方法完全不同,所以,对于这样的关联信息敏感数据,利用单敏感属性发布方法就很有可能会出现信息泄露问题。
数据泛化是指对数据表中的原始属性值按照某种规则转换,使转换后的数据比原始数据包含的信息更多,以防范推理性攻击。这种方法能够保留原始数据的一些重要特性,所以能够保证数据的可用性。
数据抑制是指通过采用从数据表的记录中删除某些或者部分属性,来避免数据表的隐私泄露问题。数据抑制方法通常不会单独使用,而是与数据泛化方法配合使用。
微聚合是指将原始数据中相似的记录组合在一起,形成一个等价组。为保证隐私安全,降低隐私泄露的风险,数据发布时只发布等价组中最具代表性的元祖。但用何种方式进行微聚合,其相应的数值应该如何计算是我们需要研究的课题。
数据交换是指将原始数据表中各个数据记录的相应属性值进行随机交换,然后将交换后的数据用来发布以满足信息不被泄露的目的。但是,数据交换的前提是,需要保证原始数据表中的一些重要统计特性得到保持。通过使交换后的数据与原始数据无法对应的方式来使数据增加一些不确定性,从而增加数据分析的难度,以降低数据泄露的风险。但是,需要研究如何在数据交换过程中使原始信息尽可能地保留,而保持原始数据保留统计属性也是信息交换技术研究的目标。
子采样是指在数据发布时不将全部的原始数据对外发布,而是抽取具有代表性的小部分数据记录进行分析研究。这样不仅可减少发布数据记录的数量,而且因大部分记录没有发布而减少了隐私泄露的风险。但是,由于减少样本容量,就需要对数据进行更细致的分析。这样不仅增加了分析的工作量,还会使数据发布的准确性降低。为了提升数据的可用性,子采样方法需要尽可能地保留原始数据中的有用信息。这种方法比较适用于发布推理攻击性行为数据,但也不是全部都适用。
去标识是指将原始数据表中惟一准确标识记录的显示标识符去除,比如去除姓名数据。但由于这种方法操作过于简单、容易失效,并且还可以通过对个体进行再标识后再进行攻击,所以一般仅用于作为匿名数据预处理的第一个环节或是非常简单数据的发布情况。
插入噪音是指通过在原始数据中添加一些与原始数据吻合的干扰信息,来对原始数据进行一些扰动,通过扰动使新数据与原始数据之间产生一些差异,从而减少隐私泄露的风险。插入噪音数据的核心操作是保持原始数据相关性的统计属性不改变,仅仅使某一条具体信息的准确性降低,来减少隐私推理攻击。因此,插入噪音数据的强度是我们需要把握的,也是我们在该技术研究过程中的研究重点。
国外对隐私保护的意识比较早,所以理论也较为先进,吸引了各方面学者对该领域的重视。我国在该方面的研究也慢慢地引起了学者的重视,在学者们的不断的努力下也取得了显著的成果。例如,多维桶分组技术就是针对多敏感属性的隐私发布而提供的一种很好的方式。但是这种方法不是都适用,比如对于数值型敏感属性的数据发布就不可以,还有一些延伸性的情况。虽然现在已经对数据泄露问题有很高的重视,但是我们的解决方案还可以更加完善,精益求精。有很多问题可以研究得更细致,解决方案也可以变得更详细。
可以通过设计匿名模型来解决数据发布中的隐私安全性问题,以防止对数据的攻击和泄露。也可以根据模型,结合所需要的情境进行数据发布。对数据发布和渠道之间可能出现的问题做出相应的假设,在潜在攻击的可能性上提出相应隐私保护的模型。
在多敏感属性上容易出现联合推理性攻击,这需要我们多加防范。很多匿名模型只是单个敏感性属性攻击,这种攻击方式较为单一,也相对容易预防。但当其衍生或者多个单个敏感属性叠加时,就容易出现问题。多个单属性的投影及多个敏感属性就会使简单问题复杂化。虽然很多问题是简化产生的,但多敏感属性联合的推理攻击还是我们需要大力防范的问题。
虽然匿名化方法有很多,但是在选择上还需要慎重。因为在执行中可能会出现各种各样的因素影响数据分析,影响数据可以操控的可能性,虽然现在的匿名研究也对这种可能性进行了研究,但是我们可以拓展思路,对其他方法进行探究。比如我们可以采用更合理的匿名方法,当然也可以对这些方法进行分解。
在统计匿名发布中,对匿名数据的有效性进行测算,对可用性也要进行度量,这样才能知道匿名处理效果的影响。通过查询准确度来判断匿名处理的情况,这是判断匿名处理的重要标准。数据查询的准确率通过查询的准确度来判定,在统计查询中,查询准确率越高,其可用性就越好。原始数据损失的部分叫做匿名代价,匿名代价越小,即说明匿名数据集可用度就越高。现在常见的匿名代价的测量是在匿名属性层次化以及对比化进行的。根据不同的情况,比如不同的度量方式,要使匿名度量变得准确而又具有现实性就需要综合因素进行考量。
信息泄露风险意味着恶意用户通过已知信息来推断自己想要信息的可能。比如很多信息通过攻击者以获取的发布数据,推测出想要的数据。数据发布前进行预先处理,以降低数据被泄露的风险也是隐私保护的要求。而隐私保护的基础是信息度量。
隐私保护不仅需要保护数据的可用性,还要减少数据被泄漏的风险。所以在对原始数据进行分类处理时,不能使信息造成损失而减少了数据的可用性。信息损失主要是因为修改后的数据和原数据相差太多,或者已经削减了有效信息。其次是在原始数据处理时加入的噪声强度过大,降低了数据的有效性。所以一定要避免将一些错误信息输入到结果数据中,保证数据的可用性。
信息损失度量的方法非常多,但都需要在经典信息损失度量方法的基础上进行完善。对不同的情境和需求进行不同的信息损失度量方法的改变,因为每种方法都存在于它的适用情况,每种方法都具有各自的优缺点,因此在选择信息损失度计量方法时要考量其应用的环境。
目前,大多数针对数据发布的隐私保护方法是面向单维敏感数据,但在实际应用中,数据中却更多的是多维敏感属性数据。如果将已有的针对单维敏感数据属性数据的处理方法,直接应用到多敏感属性数据的处理中,就可能引起信息被泄露的风险。因此,研究多维敏感属性数据的隐私保护,具有相当重要的实际意义。