5G与人工智能的结合,让数据资源成为维持相关产业的基础原料,而海量数据的处理能力成为制约产业发展重要因素,不然,我们对于计算能力的渴求也不会如此强烈。不过,这里面有一个众所周知的问题不得不长期地面对,那就是数据安全问题。业内都很清楚,数据在各个行业甚至公司的内部以“数据孤岛”的形式存在,随着数据隐私安全问题突出,国家管控越来越严格,先后发布《网络安全法》等法律法规,在社会层面上,用户对个人隐私数据越发重视。以往科技巨头它们通过提供基于云的AI解决方案以及API,獲取大量高质量的业务和个人数据模式,在未来发展中可能受到极大的限制。为此,研究如何在保护隐私和安全的前提下,解决数据孤岛问题实现数据共享需求越来越突出,隐私计算受到极大重视。
何为隐私计算
隐私计算涉及多方技术主要包括机器学习,分布式机器学习,密码学(同态加密,差分隐私等),安全多方计算,以及联邦学习等多种不同的技术。我们知道,机器学习是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。分布式机器学习是一个由参数服务器将数据存储在分布式工作节点上,通过中央调度节点分配数据和计算资源的机器学习框架,较集中式机器学习框架运算效率提高,更加适合大批数据建模。多方安全计算是一个满足没有信任第三方情况下,互不信任参与方在保护各自隐私信息前提下协同建模的机器学习框架。这个框架能够同时确保输入的隐私性安全性和计算的正确性。
同态加密是一类具有特殊属性的加密方法,与一般加密算法相比,同态加密除了能实现基本的加密操作之外,还能实现密文间的多种计算功能,即先计算后解密可等价于先解密后计算。
差分隐私是密码学中的一种手段,简单地说,就是通过添加噪音在保留统计学特征的前提下去除个体特征以保护用户隐私。
目前来说,更广泛的安卓手机终端用户在本地更新输入法中的频繁词模型,是涉及安全的一个巨大隐患。隐私计算的设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习.主要解决的问题就是,数据拥有方不出本地前提下,构建共有模型。当然,业内也普遍认为,隐私计算与“联邦学习”概念密不可分。
根据联邦学习的应用领域及面向服务的受众对象,行业将联邦学习的典型应用场景分为面向个人用户和面向行业用户。面向个人用户主要是基于个人终端隐私数据保护情况下的数据共享和协同的应用场景,比如Google输入法所采用的分布式建模应用。我们常说的面向行业用户,主要是围绕企业内部以及跨公司跨行业的数据联合建模应用场景。
运营商的必然举措
在强化隐私计算的背景下,中国移动主导并参与了《电信运营商互联互通标准框架协议》《电信网和互联网数据合作安全管理实施指南》等一系列隐私计算行业标准的制定,并积极布局多方安全计算、联邦学习等新技术,规划建设中国移动梧桐大数据隐私计算系统,实现了数据安全融合、匿踪安全查询、多方安全计算及联合安全建模等功能。
中国移动联合其他运营商通过匿踪查询和联邦学习技术,共同建设诈骗电话识别模型,在保证数据“可用不可见”的前提下进行黑名单共享,解决了运营商数据覆盖面不全的问题,有效支撑了工信部、公安部等部门实施电信网络诈骗治理,降低了网络犯罪风险。在跨行业合作方面,中国移动深入政府、金融、医疗等行业,利用隐私计算技术,在“数据不出库、数据不落库”情况下实现跨行业数据融合,确保数据要素的安全流动,促进各行业实现数智化转型。
在金融领域,中国移动梧桐大数据积极探索隐私监管新常态下的数据跨界合作新模式,利用联邦学习、同态加密技术在运营商与金融机构之间进行数据交互并开展联合建模。在无须交互敏感数据的前提下,双方数据安全流通,扩展了风控模型的参考维度,对于在反洗钱业务中识别涉赌涉骗人群效果显著。
在医疗领域,积极配合卫健委在双方数据“可用不可见”的前提下,进行横向联邦学习建模,在数据安全流通的前提下,识别潜在的健康问诊目标用户,进行问诊挂号精准推荐。梧桐大数据的隐私计算技术在为用户提供隐私保护的同时,解决了用户的挂号问诊难题,对提高医院问诊效率起到了助推作用。
此外,中国移动主动对接文旅产业,深入参与产业数据场景的构建,与航旅、银联大数据开展深入合作,以增强数据安全服务为前提,贯通数据链路,利用隐私计算技术实现移动数据与交通出行类数据的安全流通,解决了对航旅用户出行诉求判断不准确、文旅服务无法形成闭环的问题,大大改善了用户的服务体验。
同时,中国联通也有动作。比如,其联通数科于2020年便率先布局投入了隐私计算的算法研究与平台开发。基于传统联合建模经验的积累,聚焦金融客户,在银行反诈、风控、营销以及保险行业进行创新和探索。同时充分发挥自身数据技术优势,在积极向合作伙伴输出算法技术的同时,还将海量的数据以“可用不可见”的形式融入金融行业的C端场景中。在对金主、窝点、平台、资金链等问题的信息研判支撑和抓捕线索获取中,公安机关同运营商和金融机构通过可信方式进行数据共享和联合建模,综合利用运营商数据和金融数据,形成包括人机识别、窝点(猫池)识别、资金链溯源等一系列的信息研判和抓捕线索支撑,有效提升了电信网络诈骗犯罪打防管控的精准度和时效性。围绕电信网络诈骗,公安和金融机构根据自身业务此前都已经建立各自的黑名单。各部门和机构间合理共享黑名单,可以有效降低犯罪风险发生,形成系统管控和预防能力。但在实际业务中,黑名单属于各机构私有财产,直接明文共享会导致数据库泄露,同时也有用户隐私的法律风险。
后记
不同细分领域的安全厂商,在各自专精的技术领域攻坚突破,勇于比肩世界前列。在对标国际顶级技术的同时,对内赋能,形成合力。在坚持自主可控的大前提下,还要关注那些隐私计算涉及的底层安全技术发展。目前中国网络安全市场重应用、轻技术的传统格局亟须重塑,促使市场转型进入技术驱动型市场,让关键核心技术实现重大突破,进入创新型国家前列。同时,我们也认识到隐私计算是一个至关重要的基础技术,拥有丰富的应用场景。最后需要强调的是,隐私计算服务于网络安全产业,而后者在发展网络安全技术的同时,要有家国情怀,要有国家利益高于一切的格局。