机器学习的安全问题及隐私保护

2022-11-16 03:43曾青云
中国科技纵横 2022年16期
关键词:扰动加密机器

曾青云

(湖南云麓高新材料有限公司,湖南长沙 410000)

0.引言

大数据、人工智能技术、信息技术的快速发展之下,机器学习的应用领域正在不断延伸,对人类的各种日常行为从技术上进行了深入的影响。但在信息技术有效使用的同时,技术搜集的大量信息如何合理地利用和使用成为当前信息技术发展必须面临的主要问题。例如在医疗过程中,人的生理特征、医疗记录甚至收入状况等敏感的数据均可以在机器学习的过程中进行全面的收集,若不对其进行有效的监管和规制,该数据的恶用会导致相关社会问题的频发。不但对企业的信用、经济利益造成不良的影响,甚至对社会的稳定、国家的安全产生安全隐患。例如在舆论操作的过程中,Facebook通过分析用户的行为,并对其进行精准的舆论、广告投放,从而对其的社会行为进行直接影响,最终导致社会舆论走向的扭曲。特别是在数据、信息大爆炸的网络时代,大数据、机器学习等技术可以从个人隐私中分析得出的关键信息非常惊人。虽然从2017年起,我国制定了网络安全法,要求对个人隐私信息进行有效的保护,但在执行的过程中依然面临技术、制度等多方面的原因,使相关的条例无法得到有效的落实。不少企业也会利用该隐私问题非法获取巨额的利润。例如某外卖平台在使用大数据和机器学习分析用户消费习惯的过程中,采取严重的价格欺诈行为对不同的用户标定不同的价格,以榨取巨额的经济利润。这种行为极其严重地影响了正常的市场消费行为,从最终的结果上来看,这种行为会极大地打击消费者的消费积极性,从而对市场的发展造成极其不利的影响。

1.机器学习安全问题与隐私保护的主要方向

1.1 多方安全计算

多方安全计算主要采用动态加密的方式对机器学习技术应用过程中的数据进行编码加密,仅允许具有访问权限的人员、设备进行解码,以保障传输过程中的数据隐秘性[1]。同时可以借助软硬件的安全协议对密文进行有效的加密和解密。由于在加密和解密的过程中会伴随着大量的数据计算,导致极大的计算资源负担。在实际应用的过程中,会因为硬件计算能力以及计算设备的开销而受到一定程度的制约。

1.2 差分安全计算

差分隐私则是建立在数学理论基础上的加密方式,与传统的加密方式相比,该加密方式主要通过向数据添加噪声,在信息泄露或者受到攻击的情况下,由于噪声的添加而无法精确得出相关的数据,从而对敏感信息进行有效加密[2]。这种方式虽然不需要大量的计算资源,但同时也会对数据的精准性和预测的可靠性造成不良的影响,在其应用的过程中,最主要的挑战是如何合理地添加噪声,在增加数据扰动的同时确保数据可以得到有效保存和精准解密,以提升其实用价值。

2.机器学习面临的安全及隐私保护问题

2.1 机器学习面临的隐私保护问题

现阶段机器学习面临的隐私保护问题主要有:大范围地收集数据致使相关隐私数据直接泄露,以及对数据模型的泛化能力不足从而导致隐私间接泄露的问题两部分组成。前者是指机器学习的过程中需要采用大量的数据样本以保证机器学习、计算的效率,在采集数据的过程中,没有经过用户的许可私自采集数据并进行共享的行为会导致数据安全与隐私问题的直接产生。后者则是因为在机器学习的过程中,不可靠的数据分析过程并没有对隐私数据进行有效加密,导致在逆向推理的过程中,对机器学习采用的数据样本进行逆向推测,从而间接导致安全与隐私问题的产生[3]。由于机器学习的过程中,越大的数据样本、越复杂的数据模型会直接影响机器学习技术的性能和应用效果,因此在隐私保护的过程中,训练数据的逆向推理也很容易导致隐私保护问题的产生。

2.2 机器学习面临的数据安全问题

从机器学习安全问题的角度上来讲,隐私保护问题属于内部数据的安全问题,另一部分则是针对机器学习所发起的外部隐私攻击。由于攻击者无法直接访问机器学习过程中的数据模型和训练数据,所以只能通过外部攻击对机器学习的数据库进行攻击,从其中泄漏的部分来进行逆向推理。有可能攻击者对机器学习的模型和数据具有一定的认识,也有可能完全不知道当前机器学习的模型和数据内容,因此隐私攻击的方式也被分为重构攻击和成员推断攻击。

2.2.1 重构攻击

重构攻击是一种有针对性的隐私攻击方式,主要针对机器学习的特定隐私数据进行攻击:一方面可以被分为模型反演攻击,该攻击方式主要针对数据结构相对简单的机器学习模型,对其在训练过程中采用的数据进行查询和对比,通过找出相关的信息对机器学习模型采用的数据进行隐私数据、敏感数据的分析,从而找到自身想要获取的隐私数据[4]。这种攻击方式通常只能用于数据样本较少,数据模型不够完善的机器学习模型中。当数据样本较大时,会增加其对比和分析的计算量,从而取得的攻击效果有限。另一方面则是模型窃取攻击,主要通过对决策模型进行自适应算法的攻击,例如通过记住机器学习模型的训练数据、训练方式将其应用到替代模型的运算过程中,从而窃取机器学习模型,并将机器学习模型记录的所有数据进行全面的掌握。这种方式对于企业的危害程度较大,同时也需要具备一定的专业技术能力才能展开模型窃取攻击,既是企业安全防护的重点,也是未来机器学习安全与隐私问题研究的重要方向。

2.2.2 成员推断攻击

该攻击方式是将一个攻击的数据加入机器学习模型的训练过程中,使攻击数据成为机器学习模型的“成员”,这种攻击方式在特定情况下会对机器学习的有效应用造成巨大的影响。例如在传染病防治的过程中,错误的训练数据会致使传染病的判断、诊疗存在巨大的误差,进而导致传染病防治工作受到阻碍。

但总体上来说,现阶段针对机器学习的隐私攻击数量相对较少,只有在特定的情况下才会产生严重后果。机器学习在各个行业中不断深入会加剧该问题的产生数量,这些攻击不但会对机器学习模型造成不良的影响,也会对机器学习模型应用的领域产生巨大的震动。一方面需要通过法律和社会的制约、监管,使信息数据的收集、处理和传播行为得到有效的规范,从而避免隐私数据的泄露问题;另一方面还需要加强对机器学习模型在训练和应用过程中的安全问题的重视,采取数据加密、噪声干扰、外部防护等方式来避免外部攻击导致的安全及隐私问题。

3.机器学习的安全以及隐私防护策略

3.1 模型训练的有效完善

由于机器学习的过程中,模型本身会附带巨量的训练数据,其中的个体信息和隐私数据是导致隐私泄露的主要问题。这就需要从模型训练的模式和方式上进行有效完善。而现阶段主要采用集中和联邦两种学习类型,集中学习主要将训练数据存储在集中的服务器、单机或者云端,对相关隐私数据的管理、部署以及训练都相对比较方便,具有更好的可控性。同时也是现阶段主要采用的机器训练学习模式,由于该模式下数据在收集后,数据的控制权将归管理者所有,具体其用于何处、怎么使用都无法得到公众的有效监管。而在机器学习发展的过程中,应当对其进行查封隐私的保护。基于深度学习的方法,在各个数据参数域中搜索如何将隐私数据泄露的风险进行最小化的控制,一方面可以采用经验风险最小化的数据模型来求解隐私数据保护的主要方式,另一方面还需要在决策边界进行训练样本的有效控制,以实现良好的隐私保护[5]。

联邦模型的学习过程中,其主要采用分布式的机器学习来提升机器学习的训练效率,多个节点同时展开机器学习,并构建中心模型,展开独立训练。这种训练模式可以有效提升训练效率,由于多数的模型训练数据保存在各个节点服务器,因此隐私泄露的风险得到有效的降低。但由于这种学习训练模式尚处于发展的过程中,面临的问题较多。现阶段主要采用深度学习的隐私保护对其进行有效处理,一方面,需要加强深层网络模型的参数优化,使机器学习模型能够满足大量训练数据下的隐私保护,还需要根据有效的隐私预算,梯度式地用在隐私保护以及机器学习成本的平衡过程中;另一方面还需要采用宽松差分隐私的保护方式降低隐私保护的要求,使其采用更加宽松的差分隐私定义,合理控制隐私泄露的概率。

3.2 隐私数据的保护技术

现阶段针对机器学习所采用的隐私保护技术多为加密和扰动,这2种方式各有各的特点,但在实际应用的过程中,需要根据具体的情况进行有效选择。

3.2.1 加密

加密作为隐私保护技术应用的历史十分悠久,通过将数据信息进行特定的编码加密,使敏感数据在存储和传输的过程中,不会因为攻击、泄漏等问题而出现数据被解析的现象。这种方式具有较高的保密性,同时也仅限定于掌握编码方式的人员才能够获取对应的信息,但在机器学习的过程中,由于攻击者可以根据机器学习模型对已经加密的数据进行反向推测,因此在数据的加密和解密方式的应用和计算过程中需要加强其机密性。在此基础上,机器学习采用同态加密的方式来处理加密的数据,同态加密方式不需要访问数据本身,在不公开的情况下对真实数据进行任意形式的加密。由于这种加密形式可以在互不信任的环境中进行数据的协同处理,因此可以确保参与协同计算各方不公开自身数据的基础上确保最终计算结果的正确性和准确性,因此可以适用在各种多方参与的隐私加密环境中[6]。机器学习模型的过程中,联邦学习的模式通常可以采用同态加密方法,使其能够面对各种分析和学习任务。总体上来说,对隐私数据进行加密的方式可以有效保证数据在传输与保存过程中的安全性,也依赖于加密函数的复杂程度,在采用非线性计算的深度学习模型中,加密算法的费用和开发成本较高也导致该技术在应用的过程中面临较多的阻碍。

3.2.2 扰动

该技术在数据中加入随机性的噪声,使最终输出的数据结果与真实结果具有较大的差异,防止数据在攻击以及泄露后被攻击者进行恶意推理。现阶段最主要的扰动方式是采用差分扰动机制,该技术最早应用于数据库开发和保存过程中存在的隐私泄露问题。差分扰动的加密方式可以增加数据输出结果的不规律性,也不会因为数据的增加或减少而带来计算量的变化。保证了在采用差分扰动时,攻击者不太可能利用记录差异而进行敏感数据的属性值推算。这种机制也是当前机器学习中隐私保护所最常用的保护方法。一方面在机器学习的过程中会重复多次访问敏感数据,若使用传统预处理等方式的情况下,很容易导致隐私、敏感数据的泄露。另一方面,在简单机器学习模型的发展过程中,添加扰动并不会对数据处理的效率造成较大的影响,并提升隐私保护的效果,而在数据量较大、数据结构较为复杂的深度学习模型中,扰动的增加会进一步加大数据计算的总量,使学习模型的有效性与隐私保护的效果无法得到可靠的保障,这一问题也是导致差分扰动技术无法得到有效发展的主要原因。

4.结语

现阶段机器学习技术的发展过程中,安全问题与隐私保护成为该技术广泛应用的阻碍,因此需要对其加强研究,使其成为社会真正信任的技术,使其能够长久造福人类的社会发展。

猜你喜欢
扰动加密机器
Bernoulli泛函上典则酉对合的扰动
机器狗
机器狗
(h)性质及其扰动
一种基于熵的混沌加密小波变换水印算法
未来机器城
小噪声扰动的二维扩散的极大似然估计
认证加密的研究进展
用于光伏MPPT中的模糊控制占空比扰动法
基于ECC加密的电子商务系统