赵东明 刘静 徐晨兴 杨爱东 孔令鲁
(1.中国移动通信集团天津有限公司人工智能实验室 天津市 300020)
(2.亚信科技PRD 研发中心&CMC 客服产品部 北京市 584625)
中国 2017年起实施的《中华人民共和国网络安全法》和《中华人民共和国民法总则》中也指出 “网络运营者不得泄露、篡改、毁坏其收集的个人信息,并且与第三方进行数据交易时需确保拟定的合同明确约定拟交易数据的范围和数据保护义务。”2018年5月,欧盟在全体成员国推广首个关于数据隐私保护的法案《通用数据保护条例》。数据隐私保护已刻不容缓,还需要做很多工作。
企业间数据孤岛效应明显,机构之间的数据无法互通,少数巨头公司垄断大量数据,小公司很难获得数据,形成大大小小的“数据孤岛”。对于很多企业,部门不会把数据与其他部门做简单的聚合,导致同一个公司内数据也往往以孤岛形式出现,从而限制企业的创新能力和运营效率。
联邦学习(Federated Learning)是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算节点之间开展高效率的机器学习的一种新兴人工智能基础技术,可以保障数据安全和交换、训练效率前提下进行有效的机器学习。区块链是一种去中心化、数据加密、不可篡改的分布式共享数据库,可以为联邦学习的数据交换提供数据保密,保证各参与方之间的数据安全和模型训练的数据一致性。区块链的价值驱动激励机制也能够增加各参与方之间提供数据、更新网络模型参数的积极性。
天津移动打造了“联邦学习+区块链”多方安全计算系统,通过引入先进的联邦学习技术,充分发挥联邦学习的跨行业模型共享能力,并将AI 模型上链,结合联盟链去中心化、开放、防篡改、匿名、可追溯的关键特性,打造构思奇巧又智慧共赢的共享智能引擎系统,在运营商、本地生活、视频内容、交通出行等多行业数据的支撑下,实现精确的营销识别,并推荐最佳产品权益,让区块链+联邦学习成为智慧零售的引擎、智脑。
2.1.1 打造联邦学习的模型共享训练引擎,实现更精准的推荐
基于联邦学习模型实现中国移动和互联网合作伙伴间的共享、共贏,在保护各企业的数据安全的基础上,协调多方资源,实现企业间的联合建模,提升数据挖掘和推荐的准确率。联邦学习模型具有合理的激励机制,参与方提供的数据越多,其模型的学习效果越好。本系统采用纵向联邦学习机制,取出合作方针对相同用户而特征不同的那部分数据进行共享训练。
2.1.2 打破数据壁垒,实现多方安全计算的新机制
本系统打破坚固的数据壁垒,其联邦学习模型可以很好的解决数据不可出数据库的壁垒问题,企业数据不需要出仓,不存在原始数据被复制,以及传输过程中的安全隐患,即可完成多方联合建模,取得比单独企业数据更好的预测效果,联邦学习框架,也支持获取更全面的客户特征,打造共享又可信的合作生态机制。
2.1.3 结合区块链优势解决联邦学习的安全问题,筑牢多方合作的信任基础
联邦学习模型涉及到多方数据的共享训练,由联邦中心负责秘钥管理和模型梯度管理,需要定期对联邦中心进行审计,存在信任的问题。本系统采用区块链这种“可信媒介”技术解决共识和可信问题,所记录的交易不可篡改,模型的训练、推理、角色对齐均上链,通过智能合约、共识计算等实现多方合作的可信网络,且能在多方联邦情况下以区块代替中心节点的作用,降本增效。如图1所示。
“联邦学习+区块链”多方安全计算系统具有优异的技术价值,创新性的将联邦学习和区块链结合起来,解决运营商实际问题,其架构如图2所示。
企业数据层:中国移动及合作伙伴的用户隐私数据依然只存储于各自内网系统中,训练及推理请求均由内网应用发起。
联邦参与方服务层:中国移动及合作伙伴分别构建一套本地AI 模型,将模型特征及参数,以及数据标识,提供给区块服务层进行数据上链,并接收其他参与方的模型等数据进行数据共享的模型迭代更新。
区块服务层:作为AI 模型与区块链CMBaas 平台的中间服务节点,提供定制化数据上链及数据消费的服务。
共享数据区块平台层:即为中国移动区块链服务CMBaaS 平台,通过智能合约及共识机制为整个系统提供去中心化、不可逆、互信的模型共享训练平台。
本系统主要有数据对齐、模型训练、模型推理三个数据流:
(1)数据对齐,在模型开始训练之前,各参与方需要共享加密后的用户id 数据,同步给其他参与方进行id 对齐。
(2)模型训练,联邦参与方进行数据特征提取和本地模型训练,模型参数通过区块链上链服务进行数据上链,经过CMBaas 的智能合约判断,并通过区块链共识算法后,生成新的区块。其他参与方的区块消费服务检测发现新区块的生成,获取到区块数据后进行自己模型的参数迭代优化,更新参数,直到所有联邦参与方均达到模型预设收敛条件。
(3)模型推理,中国移动及合作伙伴发起模型推理请求,区块服务进行数据上链,智能合约及共识算法进行数据验证并生成区块,其他参与方监测新区块生成,判断推理请求是否与自身相关,进行共同推理解密,请求方获得最终模型推理结果,返回业务系统。
图1:系统功能流程示意图
产品和区块链技术结合紧密,真正用区块链解决了AI 建模的难题,实现“联邦学习+区块链”的新模式、新应用。
在多方共同参与模型训练后,如何对多方数据进行统一管理,就成为一个重要课题,珍珑通过引入区块链智能合约技术解决这个难题。
多参与方在进行数据上链时,均会在区块链平台生成一个永久不可逆的数据区块,以此计算当前参与方本次上链对整体模型的贡献度,在模型收敛后,可以对全部参与方对最终模型的贡献度进行量化判断,为联邦参与方的合作提供谈判依据。
在平台运营过程中,通过智能合约及共识算法对各参与方的训练及推理请求进行统一规则的判定,如发现非法上链请求,将会拒绝在区块链中生成区块,从而规避风险,控制流量,保障优质合作方的请求。
智慧零售的目的,就是要用AI 和大数据技术为客户带来个性化的营销服务。成功的营销方案必须合理搭配产品特征、客户购买能力和购买偏好等三大要素。互联网内容商拥有大量的产品信息、银行或保险公司有客户购买能力的数据,中国移动有用户的购买偏好信息。出于隐私保护是无法实现数据共享的,本系统可以打破这种坚固的数据壁垒,基于联邦学习模型,各个参与企业的数据停留在本地数据库,即可完成多方安全计算和联合建模,取得比单独企业数据进更好的分析效果,获取更全面的客户特征,推荐更精准,挖掘更多的商机。
如图3所示,本系统利用联邦学习技术搭建中国移动和银行之间的联邦和信用评分模型,双方在不共享数据的基础上实现了联合建模,从技术上打破数据孤岛,实现更准确高效的信用评估,同时,区块链也确保了去中心化架构,多家运营商和银行可以打造信用评分共享机制,结果可追溯且不可篡改,形成模型共享训练生态。
当前,“联邦学习+区块链”多方安全计算系统整体架构开发已完成,并在中国移动CMBaaS 区块链平台完成部署、验证工作,第一阶段先将B 域大数据用户标签数据与O 域家宽数据进行联合共享训练,实现用户资费满意度的预测模型,下一步将持续提升系统功能:
图2:“联邦学习+区块链”多方安全计算系统架构图
图3:系统应用场景示意图
在整体平台架构中涉及内网应用主动访问互联网应用的需求,CMBaaS 区块平台及服务需要部署公网,以吸引更多域外企业加入生态,联邦学习需要获取企业内网用户数据实现多方数据联合训练,因此,需要打通内外网网络,通过防火墙管控内外网联通端口。
构建一套参与方管理平台,通过页面可视化方式,一方面实现参与方的自助注册、数据上传、模型申请、推理服务等业务能力,另一方面为平台提供参与方入驻审核、状态管理、贡献度查询、异常参与方判断等管理能力。
目前已完成基于决策树模型的资费满意度预测模型构建,后续可以预置其他高级智能模型,如CNN/RNN,预训练模型等,实现各参与方入驻后直接选择相关模型进行业务场景构建。
天津移动将积极推进平台推广及生态运营,持续优化“联邦学习+区块链”多方安全计算系统功能,吸引运营商领域以外的企业入驻,通过多方数据的可控共享,实现多方的业务共赢。