魏国富 石英村
1(上海观安信息技术股份有限公司 上海 201800) 2(上海赛博网络安全产业创新研究院 上海 200030)
(weigf@idss-cn.com)
当前,随着以“数字新基建、数据新要素、在线新经济”为特征的新一轮数字经济浪潮全面来临,全球人工智能发展逐步从“探索期”向“成长期”过渡,在技术和产业上均进入重要的转型阶段.在此背景下,数据的重要价值进一步凸显,同时,数据安全风险也进一步加剧,对用户隐私、公民权益、商业秘密、知识产权的保护、社会的公平公正以及国家安全等各个方面带来挑战.人工智能数据安全是一个覆盖多主体、多维度的全球性安全挑战和治理议题,本文从宏观战略、法律法规、标准规范等维度,梳理当前人工智能数据安全治理现状,并对可有效降低人工智能数据安全风险的技术发展进行概述,以期为我国人工智能数据安全治理提供参考.
目前,世界主要国家均高度重视人工智能中的数据安全和隐私保护问题,多国均在人工智能发展战略中明确提出要重视数据安全.集中表现为:
1) 美国.2016年10月,美国白宫科技政策办公室(OSTP)连续发布《为人工智能的未来做好准备》《国家人工智能研究与发展战略计划》《人工智能、自动化与经济》 3份重磅报告,提出实施“人工智能开放数据”项目,要确保联邦数据、模型和计算资源的高质量、完全可追溯和可访问性,支持人工智能的技术开发、模型训练和安全测试,同时应确保AI系统的网络安全,包括隐私和数据保护.2019年6月,美国发布新版《国家人工智能研究与发展战略计划》(The National Artificial Intelligence Research and Development Strategic Plan)[1],要求所有联邦机构的负责人要负责审查各自部门控制的联邦数据和模型,并要求其确保数据安全、隐私和机密性.
2) 欧盟.2018年3月,欧洲政治战略中心(EPSC)发布《人工智能时代:迈向以人类为中心的机器的欧洲战略》(The Age of Artificial Intelligence: Towards a European Strategy for Human-Centric Machine)[2],报告提出:当下欧洲人工智能发展主要面临着数据短缺、竞争激烈、固有偏差、隐私保护等问题,因此,欧洲必须要扩大人工智能发展所需的数据源和数据规模,增强对数据的有效访问和获取,同时,监管方案的设计应有利于整个欧洲数据的收集、使用和共享,确保人工智能数据应用达到《一般数据保护条例》(GDPR)所规定的最高个人数据保护标准.2018年4月,欧盟委员会(EC)发布《欧盟人工智能》(Artificial Intelligence for Europe)政策文件,表示欧盟委员会将尽快推动公共部门信息开放指令的修订,来支持人工智能发展获得必须的数据资源,并要求公共部门应当遵守欧盟关于个人数据保护的法律政策,加快出台私营部门数据分享指南来确保数据安全.2020年4月,欧盟委员会(EC)发布人工智能白皮书——《面向卓越和信任的欧洲人工智能发展之道》(White Paper on Artificial Intelligence—A European Approach to Excellence and Trust)[3],报告提出基于人工智能对社会产生重大影响以及建立信任的需要,欧洲人工智能必须以欧洲的价值观和包含人类尊严和隐私保护等在内的基本权利为基础,同时在“信任的生态系统”的人工智能监管框架中,强调要从技术伦理、网络和数据安全、消费者权益和公民基本权利的角度出发,对高风险的人工智能应用进行识别和加强监管.
3) 中国.2017年7月,国务院发布《新一代人工智能发展规划》,在人工智能数据安全治理方面提出了多项要求,包括“强化数据安全与隐私保护,为人工智能研发和广泛应用提供海量数据支撑”“开展与人工智能应用相关的民事与刑事责任确认、隐私和产权保护等法律问题研究,建立追溯和问责制度”“加大对数据滥用、侵犯个人隐私、违背道德伦理等行为的惩戒力度”“打造人工智能基础数据与安全检测平台,建设面向人工智能的公共数据资源库、标准测试数据集、云服务平台”.
4) 英国.2018年4月,英国商务、能源与产业战略部(BEIS)和数字化、文化、媒体与体育部(DCMS)联合发布《产业战略:人工智能行业行动》[4],提出:①增强英国的数据基础设施.政府致力于以可重用和易于访问的方式开放更多的数据.②建立公平、公正和安全的数据共享框架.与业界合作,开创数据共享机制,例如数据信任;探讨如何通过共享框架和对数据可移植性的考虑来改善数据共享.
5) 日本.2018年4月,日本发布《下一代人工智能和机器人核心技术开发计划》,该计划是自2015年5月第1版发布以来,日本政府面对人工智能技术发展及应用需求的快速变化所进行的第5次修订.最新版本的计划明确提出要加强数据驱动与知识驱动融合型人工智能的基础理论研究,加快下一代人工智能框架与核心模型的研究,包括可实现数据安全与隐私保护的数据获取模型和技术等.同时,要强化与美国的合作,在数据安全、隐私保护等方向联合培养下一代研究人员.
6) 印度.2018年6月,印度国家转型委员会(NITI Aayog)发布了《人工智能国家战略》(National Strategy for Artificial Intelligence)[5](简称《战略》),《战略》以“为所有人开发人工智能”(AI for all)为主题,认为“随着人工智能的发展和应用,必将带来诸多隐私、安全、道德、公平、透明和问责制的问题”,因此政府必须要在这些方面采取行动.《战略》认为数据偏见将会导致算法决策丧失原有的中立性,因此必须要“识别人工智能的内置偏见并评估其影响,以及反向寻找减少偏见的方法,以确保人工智能所使用数据的中立性”.同时,《战略》认为数据安全和隐私问题来源于人工智能系统的滥用、歧视性和过度的数据采集以及数据的不恰当使用,因此要构建数据保护框架和部门监管框架,建立一个新的数据伦理与创新中心,旨在实现和确保包括人工智能在内的数据道德、安全和创新使用,包括“采用国际高标准的隐私保护规范;与业界合作,探索建立数据信任的可能性,以促进轻松、安全的数据共享”等.
1.2.1 美国:通过场景化立法规制人工智能数据安全
目前,虽然美国有多部联邦层级的数据安全草案在国会审议,但其短期内较难进入实质性立法程序,因此美国当前依旧缺乏一部统一的、具备最高效力的国家数据安全保护法律.在数据安全法律体系上,美国主要通过公民隐私保护、计算机通信安全、知识产权、金融商贸、医疗教育等不同法律部门法的相关条款和修正案对数据安全进行规制,同时依托州层面的地方立法和行业自律公约进行补充.在人工智能数据安全方面,美国主要通过具体的场景化立法和州立法,对人脸识别、自动驾驶、隐私保护、精准推送、工业互联网等一系列人工智能行业应用进行数据安全监管.
在人脸识别应用场景方面,美国近年来立法动作频频,规制日趋严格.2020年2月,美国加利福尼亚州众议院通过了《加州人脸识别技术法》[6],强调原则上不禁止私营主体与公共主体运用人脸识别技术,但要在保障公民隐私及自由与发挥人脸识别技术的公共服务优势方面寻求平衡.2020年3月,美国华盛顿州议会通过了《人脸识别服务法》[7],法案旨在以造福社会的方式促进人脸识别服务的使用,同时禁止相关应用威胁公民自由.由于华盛顿拥有微软和亚马逊2家全美最大的人脸识别软件开发公司总部,而加州则是美国谷歌、苹果等互联网巨头总部最重要的聚集地,因此这2部地方性州立法将在事实上对美国人脸识别应用起到极大的规制作用.此外,自2019年5月旧金山颁布全球首个禁止政府机构购买和使用人脸识别技术的法令以来,奥克兰、萨默维尔和波士顿等市议会也纷纷通过禁止政府使用人脸识别技术进行监控的相关法案.2020年6月,美国参议院议员Ed Markey和Jeff Merkley共同向参议院提交了《2020年人脸识别和生物特征识别技术禁令法案》,旨在禁止使用美国联邦资金采购联邦政府官员使用的人脸识别系统或“任何生物特征识别监控系统”.
在自动驾驶应用场景方面,自美国内达华州在2011年出台了全美第1部地方性自动驾驶安全法案以来,截至2018年底全美共有36个州通过州议会法案或是州长行政命令的方式对自动驾驶的认证、测试、部署和安全进行规制.2017年7月,美国参众两院一致通过了《自动驾驶法案》[8],明确联邦政府和州政府在确保自动驾驶汽车安全方面的职责,并要求自动驾驶汽车生产商或者系统提供商向监管部门提交安全评估证明,以证明其自动驾驶汽车在数据、产品、功能等方面采取了足够的安全措施.同时要求自动驾驶汽车制造商必须制定隐私保护计划,明确对车主和乘客信息的收集、使用、分享和存储的相关做法,包括在收集方式、数据最小化、去识别化以及数据留存等方面的做法.
在隐私保护方面,截至2019年底,美国50个州都有不同完备程度的法律规制,通过规定在线互联网企业、电信增值业务企业的数据安全保护义务,来防止数据泄露、滥用和保护公民隐私.最具影响力的州隐私法案是加州2020年1月生效的《加利福尼亚消费者隐私法》(CCPA)[9],因其能直接规制监管到像谷歌、脸书、易趣和推特等总部在加州的美国著名互联网平台企业,因此在美国数据安全和隐私保护方面的影响巨大.法案将可以联系到个体的生物信息、能力智商、行为偏好和情感心理偏好等纳入个人信息范畴,并重点关注个人信息收集、买卖和共享3种活动,强调企业在进行个人信息处理分析和第三方共享利用的“opt-out”模式.
1.2.2 欧盟:基于统一数据安全立法下的场景化监管
欧盟通过2018年4月生效的《一般数据保护条例》(GDPR)框架,构建了一整套统一完备的数据安全治理体系,对于全球各国数据规则制定都有着极大影响.GDPR通过对用户数据权利全面系统地梳理,对欧盟人工智能数据安全起到了基础性规制作用,比如GDPR要求人工智能算法具有一定的可解释性,同时第22条对自动化决策作了明确规定,提出当自动化决策产生的法律效力涉及数据主体或对其产生重大影响时,数据主体有权随时反对企业使用其个人数据对其进行画像等自动化决策.未来,欧盟将在GDPR框架下继续加快自动驾驶、人脸识别、精准推送和智能制造等人工智能重要应用场景的数据安全立法.
在此基础上,2020年4月,欧盟委员会发布《欧洲数据战略》[10],提出将就影响数据敏捷型经济体系中各主体关系议题探讨立法行动的必要性,解决包括企业间共生数据的共享(物联网数据)和建立数据池(用于数据分析和机器学习)的安全和信任问题.2020年6月,欧盟委员会向欧洲议会和欧盟理事会提交《数据保护是增强公民赋权和欧盟实现数字化转型的基础——GDPR实施2周年》报告,指出GDPR能够确保新技术的开发符合基本权利,尤其是在大型数字企业的在线广告和精准推送方面,GDPR的有效实施是保护个人的重要要素.未来的挑战将在于阐明如何将行之有效的原则应用于需要持续监控的特定技术,包括人工智能、区块链、物联网和人脸识别等.2020年6月,欧洲数据保护监管机构(EDPS)发布《EDPS战略计划(2020—2024)——塑造更安全的数字未来》[11],在愿景中表示EDPS将积极关注可能对隐私和数据保护产生影响的数据处理实践和技术的发展,加强对特定新兴技术发展前沿的研究,包括生物识别技术、自动识别系统、量子计算、边缘计算和区块链等.同时,EDPS需持续开发强大的技术工具和监督、审计、评估机制,提供自动决策系统和人工智能处理个人数据的操作指南.最后,计划表示支持欧盟境内的公共场所暂停使用生物识别技术,并对此开展民主讨论.
各个成员国政府也不断推出针对人工智能具体应用场景的数据安全法律和政策.在自动驾驶应用场景方面,2017年5月,德国联邦议会和联邦参议院共同通过了《道路交通法》修正案,允许“按规定使用”自动驾驶功能,同时明确了驾驶员使用该功能的权利义务以及驾驶数据的采集、存储、使用及删除规则.2017年8月,英国政府发布《网联汽车和自动驾驶汽车的网络安全关键原则》[12],对数据和个人信息的安全存储、传输、处理和删除提出了明确要求.2019年2月,欧盟成员国达成共识,共同签订自动驾驶指导文件,确定了包括行驶数据记录、网络安全及安全评估测试等在内的8项原则.在人脸识别应用场景方面,2018年7月,比利时政府出台相关规定,禁止非授权的公共部门和私营部门使用人脸识别或其他基于生物特征的视频分析摄像机,主要针对非警方的私营企业和公共部门使用人脸识别摄像机带来的侵害公民隐私问题.
1.2.3 中国:加快数据安全统一立法和人工智能场景化立法
2020年以来,我国开始加快国家层面数据安全统一立法的速度.5月28日,第13届全国人民代表大会第3次会议通过《中华人民共和国民法典》(简称《民法典》),确立了数据和虚拟财产依法受到保护、公民个人信息和隐私权保护的基本原则.比如在《民法典》第4编“人格权”的第6章“隐私权和个人信息保护”中,对自然人的隐私权,侵犯隐私的行为方式,自然人的个人信息定义,收集、处理自然人个人信息的原则、方式和限制,自然人的个人信息权利,信息收集、控制者的责任、义务和豁免等进行了明确规定.同时,针对人脸识别技术的应用,《民法典》第1019条明令禁止“利用信息技术伪造侵害他人肖像权”,第1023条首次将声音作为人格权的肖像权保护客体.
2020年7月3日,全国人大正式对外公布《中华人民共和国数据安全法(草案)》(简称《数据安全法(草案)》)并征求意见,《数据安全法(草案)》作为我国数据安全领域的顶层立法,将数据安全明确纳入到国家整体安全观中,对国家数据安全制度和主体数据安全保护义务进行了全面规定,将为我国人工智能数据安全治理奠定坚实的上位法基础.2020年10月21日,全国人大正式对外公布《中华人民共和国个人信息保护法(草案)》(简称《个人信息保护法(草案)》),对个人信息处理者的安全责任和合规义务作出了全面规定,并在第25条明确规定“利用个人信息进行自动化决策,应当保证决策的透明度和处理结果的公平合理”.
同时,我国还高度关注人工智能重点应用场景的数据安全立法.在2017年7月国务院发布的《新一代人工智能发展规划》中,明确提出要“制定促进人工智能发展的法律法规和伦理规范,加快研究制定相关安全管理法规”.
在国家人工智能发展战略的指引下,我国相关部门在金融科技、智慧城市、自动驾驶等应用领域纷纷出台了相应的规范性文件,强调要加强人工智能的相关数据安全研究和管控.如在金融科技场景,2018年4月,中国人民银行、中国银监会、中国证监会和国家外汇管理局共同发布了《关于规范金融机构资产管理业务的指导意见》,在第23条对运用人工智能技术开展投资业务进行了相应规定,要求金融机构应当向金融监督管理部门报备人工智能模型的主要参数以及资产配置的主要逻辑,并向投资者充分提示人工智能算法的固有缺陷和使用风险.2019年8月,中国人民银行发布《金融科技(FinTech)发展规划(2019—2021年)》,提出要“加强金融领域人工智能应用潜在风险研判和防范,确保把人工智能金融应用规制在安全可控范围内”.
整体来看,我国目前尚未形成体系完善的人工智能数据安全法律法规.虽然《数据安全法(草案)》和《个人信息保护法(草案)》已发布,但其落实尚需要一系列配套法规、部门规章和规范性文件提供支撑.同时由于上位法尚未出台,人工智能场景化立法的步伐也相对滞后,数据安全并未在相关人工智能应用行业的规范性文件中得到足够的重视和明确的规制要求.未来,我国还需要在《网络安全法》《数据安全法(草案)》和《个人信息保护法(草案)》的体系框架下,加快生物特征识别、工业互联网、智能网联汽车、数字内容精准推送等人工智能重点应用领域的场景化立法,构建完备的人工智能数据安全法律体系.
1.3.1 国际标准组织:加快推动国际人工智能数据安全标准建设
1) ISO/IEC JTCI:2017年10月,ISO/IEC JTC1(联合技术委员会)成立人工智能分委会(即JTC1 SC42),负责人工智能技术相关的标准制定.目前,SC42已经成立了包括基础标准(WG1)、数据(WG2)、可信(WG3)、用例与应用(WG4)、计算方法和计算特征(WG5)在内的5个工作小组.
ISO/IEC主导的相关系列标准有:①ISO/IEC TR 24027《信息技术-人工智能-人工智能系统和人工智能辅助决策中的偏见》,该标准将系统梳理人工智能系统和自动化决策中可能引起算法偏见的要点,并提出解决方案.②ISO/IEC TR 24028:2020《信息技术-人工智能-人工智能可信度概述》,提出通过透明度、可解释性、可控性等方式建立对人工智能系统的信任,人工智能系统的工程缺陷和典型的相关威胁和风险,以及可能的缓解技术和方法.③ISO/IEC CD 23894《信息技术-人工智能风险管理》,将系统梳理人工智能多维度的风险,包括数据安全、隐私保护、数据质量等,并提出人工智能风险管理的流程方法.
2) IEEE:IEEE标准协会设立了相关工作小组开展一系列人工智能数据安全标准制定工作,如IEEE P3652.1联邦学习基础框架与应用工作组负责联邦学习的相关安全标准化工作.
IEEE主导的系列标准包括:①IEEE P7002《数据隐私处理》.该标准将对涉及个人信息处理的产品、服务、系统和软件工程过程中的隐私保护提出明确要求,包含从策略到开发、质量保证和价值实现的整个生命周期,并为企业提供隐私影响评估工具.②IEEE P7003《算法偏见注意事项》.该标准将提出并帮助用户保证他们在创建算法时如何处理和消除负面偏见的具体方法.③IEEE P7006《人工智能代理个人数据标准》.人工智能的发展带来了一种风险,即机器对机器的决策可能在没有输入和不透明的情况下做出.为了避免这种情况,并确保人工智能在道德上得到发展,个人需要能够影响和决定价值观、规则和输入,这些价值观、规则和输入指导与他们的身份直接相关的个性化算法的发展.标准IEEE P7006将描述创建和授予个性化人工智能(AI)访问权限所需的技术要素,包括由个人控制的输入、学习、伦理、规则和价值观.该标准将帮助开发AI代理,提供数据库和算法,允许个人访问和控制个人信息.
1.3.2 美国:强调通过标准制定来确保其全球人工智能领导地位
2019年2月,美国总统特朗普发布13859号行政令,指示联邦机构应确保美国保持在人工智能中的领导地位,提出确保技术标准能够反映联邦在创新和公众对使用AI技术的信任方面的优先事项,并提出制定国际标准以促进和保护这些优先事项.2019年8月,美国国家标准与技术研究院(NIST)发布了《美国如何领导人工智能:联邦参与制定技术标准及相关工具的计划》[13](简称《计划》),旨在落实总统行政令的要求.《计划》认为美国在人工智能领域的全球领导地位取决于联邦政府在人工智能标准制定中发挥的推动作用,并确定了人工智能标准的9个重点领域,包括概念和术语、数据和知识、人机互动、指标、网络、性能测试和报告方法、安全、风险管理和可信赖.因此,美国积极参与ISO/IEC等国际标准组织的人工智能、大数据等工作组的相关标准研究、制定和推广工作,主导和召集了一系列涉及人工智能数据安全标准的工作.
2020年1月,NIST发布《隐私框架1.0版:通过企业风险管理来提升隐私的工具》[14],旨在为相关组织对隐私风险进行评估管理,提升自身个人数据保护能力提供支撑.隐私框架由NIST召集的众多利益相关者共同开发,包括:1)核心层,帮助组织确定隐私保护的预期目标和各行动的优先级;2)概况层,帮助组织识别并管理隐私风险,满足组织的隐私保护目标和业务风险防范的需求;3)实施层,帮助组织通过对资源和流程的协调管理,实现隐私保护.基于NIST在全美标准届的权威地位,《隐私框架1.0》将成为美国各大互联网企业开展隐私保护工作的主要参考,为美国人工智能数据安全治理提供基础性的标准支撑.
1.3.3 欧盟:欧盟和成员国共同参与人工智能数据安全标准制定
目前,欧盟的人工智能数据安全标准包括欧盟层面的指南参考和各成员国具体制定的国家标准.2017年12月,欧盟网络与信息安全局(ENISA)发布了《移动应用中的隐私和数据保护——应用开发生态系统与GDPR技术实施研究》[15],基于移动应用程序中的数据安全和隐私目标提出了在移动APP中实施“设计即隐私”理念的建议,其中涉及众多用户画像和自动化决策场景.2018年12月,欧盟网络与信息安全局(ENISA)发布了《自动代理中的安全和隐私——为网络安全政策制定形成框架》[16],提出了人工智能和自动代理系统中存在的数据和隐私安全问题,包括未经授权的自主系统、劫持和滥用、透明度和问责制、数据保留和不透明的处理,并为欧洲形成相关政策框架提供了一系列对策建议.2019年6月,欧盟基本权利局(FRA)发布了《数据质量和人工智能——减轻偏见和错误,以保护基本权利》[17],为评估数据质量提供了指导.
同时,2020年2月,欧盟理事会发布人工智能白皮书《面向卓越和信任的欧洲人工智能发展之道》,强调欧洲人工智能治理结构必须是和成员国国家的主管部门开展合作,从而避免责任的碎片化,提升成员国能力,包括识别新兴趋势、标准化和认证活动等.以德国为例,2018年7月,德国联邦政府通过了《联邦政府人工智能战略要点》文件,在10项目标的第8点中明确提出要“在国际标准化委员会中强有力地代表欧洲共同利益;致力于国际标准的制定.”2019年8月,德国标准协会(DIN)表示已成立一个领导小组,目前正加紧研制人工智能标准路线图.该标准路线图将包括对AI方面现有规范和标准的概述,以及对未来AI标准制定的建议,旨在提高德国在国际标准制定方面的影响力.
1.3.4 中国:高度重视人工智能行业场景化的数据安全标准建设
目前,我国工信部、全国信息安全标准化技术委员会(SAC/TC260)、中国通信标准化协会(CCSA)等国家部委和标准化组织,高度重视人工智能数据安全的相关标准制定工作.2018年1月,国家标准化管理委员会正式成立国家人工智能标准化总体组,承担人工智能标准化工作的统筹协调和规划布局.
2020年3月,国家工信部发布《网络数据安全标准体系建设指南(意见征求稿)》,明确将人工智能列为数据安全标准体系建设的重点内容.2020年3月,全国信息安全标准化技术委员会发布《全国信息安全标准化技术委员会2020年度工作要点》,明确提出要“积极应对新技术新应用带来的国家网络安全挑战,研制5G安全、人工智能安全、物联网安全、区块链安全等领域新技术标准.”同时在人工智能具体应用场景上,2019年5月,国家工信部发布《2019年智能网联汽车标准化工作要点》,在重点内容的第3项中明确提出要“有序推进汽车信息安全标准制定,完成汽车信息安全通用技术等基础通用及行业急需标准的制定”.
目前,我国涉及人工智能数据安全的在研或已发布标准大致有3类:一是基于数据安全、隐私保护视域下的数据安全标准,能够对人工智能数据安全治理提供基础性技术参考;二是基于人工智能技术开发和工程应用视域下的安全标准,针对终端、环境、平台和算法等不同工程环节提出数据安全要求;三是针对生物特征识别、自动驾驶、工业互联网、物联网、智能家居等人工智能各种应用场景的行业性标准规范.
数据安全和隐私保护技术的研究突破和落地应用,能够极大地提高政府和企业人工智能应用中的数据安全能力.目前国际上致力于此类技术研究的主体主要有2类:一是以谷歌、微软等为代表的全球互联网巨头,投入建设了大量人工智能实验室和研究所,如Microsoft Research,Google Brain,Intel AI,Visa Research等.二是以伯克利大学、斯坦福大学、麻省理工学院等为代表的学术机构.其中,基于隐私保护的机器学习技术可以大大解决人工智能发展中的数据和隐私担忧,主要包括同态加密、差分隐私、安全多方计算、联邦学习等多种技术方向.
同态加密是一种加密形式,允许对加密的数据执行计算而无需先解密.计算的结果是加密的,当解密输出时,就像对未加密的数据执行了操作一样.在同态映射下,先运算后加密和先加密后运算,得到的结果相同.Intel在2018年发布的开源工具HE-Transformer,就是利用同态加密,使得机器学习算法能够处理加密的隐私数据.
同态加密可用于基于隐私保护的数据外包存储和计算.它允许对数据进行加密,并将数据外包到商业云环境进行处理,同时进行加密.对于受到高度监管的行业来说,安全地将数据外包给云环境或数据共享伙伴进行研究和分析一直是一个挑战.同态加密可以改变这种情况,因为它可以在不损害隐私的情况下对数据进行分析.这将影响许多行业,包括金融服务、信息技术、医疗保健等.在这些领域,同态加密可以通过消除限制数据共享的隐私障碍来利用数据产生新的服务.
与其他加密形式一样,同态加密使用公钥对数据进行加密.但不同的是,它使用一个代数系统来允许在数据仍然加密时对其执行函数.完成功能和操作后,只有具有匹配私钥的个人才能访问未加密的数据.这样即使有人在使用数据,数据也可以保持安全和隐私.
同态加密有3种主要类型:1)部分同态加密(partially homomorphic encryption),通过只允许对加密数据执行选定的数学函数来确保敏感数据的安全;2)某种同态加密(somewhat homomorphic encryption),支持只能执行一定次数的有限操作;3)全同态加密(fully homomorphic encryption),这是同态加密的黄金标准,可以保证信息的安全和可访问性.
美国计算机专家Craig Gentry将同态加密描述为一个手套箱,任何人都可以把手伸进手套箱,操纵里面的东西,但他们被禁止从手套箱中提取任何东西.他们只能使用原材料(数据)在盒子里创造一些东西.当操作完成时,只有拥有密钥的人才可以删除原材料(处理过的数据).
目前,同态加密被广泛应用的最大障碍是它的计算速度仍然非常慢,以致于在许多应用程序中还不能实际应用.不过,IBM和微软等科技公司和一些研究人员正在努力通过减少同态加密所需的计算开销来加快这一进程.
在许多人工智能应用中,机器学习需要基于敏感数据开展训练,例如照片等.在理想情况下,机器学习模型参数代表的应该是通用模式,而不是关于特定个人数据主体的信息.在这种情况下,差分隐私作为一种隐私保护技术可以提供有效的隐私保护.差分隐私是在统计和机器学习分析的背景下对隐私的一个强有力的数学定义.当基于隐私数据进行训练时,差分隐私能够保证模型不会学习或记住任何特定数据主体的细节信息[18].
“一般信息”(general information)是指不特定于任何单个数据主体的任何信息,可理解为“一般信息”是指数据中所包含的全部人口的信息(而不仅仅是1个人或1组数据主体).对应“一般信息”的是“私人信息”(private information),是指可具体到任何个人数据主体的信息.私人信息可导致在选择去除某个数据主体之前和之后,数据中的信息将发生变化,这就是“差分”的含义.差分隐私在数学上可以保证,无论一个数据主体的隐私信息是否包含在数据分析的输入数据中,都可对任何个人的隐私信息作出相同的推断.换言之,差分隐私对每个为数据分析贡献数据的个人主体提供了以下保证:差异隐私分析的输出将大致相同,无论该个体是否贡献数据.差分隐私为隐私保护提供了一个数学上可证明的保证,可以抵抗各种各样的隐私攻击,包括差分攻击、链接攻击和重构攻击等.
安全多方计算(MPC)是一种加密协议,它将计算分布在多方之间,其中任何一方都不能看到其他方的数据.因此,安全多方计算能够支持非公开的分布式计算,解决互不信任的参与方之间在协同计算时的隐私保护问题.安全多方计算协议可以使数据分析人员在不公开或移动分布式数据的情况下,遵从性和安全性地开展多方计算.在这些计算中,为达到维护安全性的目的,需要每个参与者只获得自己的目标输出,而不获得其他输出.
安全多方计算可用于解决各种各样的问题,使数据在利用的同时不侵犯隐私.例如,在将1个人的DNA与癌症患者的DNA数据库进行比较,以发现这个人是否属于某种癌症的高危人群时,由于个人的DNA数据是高度敏感的,因此不应泄露给任何私人组织.这种情况可以通过运行安全多方计算协议来解决,协议中的“隐私需求”确保只透露癌症的类别,而不透露任何人的DNA(既包括被检查人的DNA,也包括数据库中患者的DNA),此外,协议中的“正确性需求”保证恶意的一方不能改变结果(例如,使被检测人认为他们有患某种癌症的风险,因此需要额外的筛查).
联邦学习(federated learning)是一种机器学习技术,指在不交换数据样本的情况下,训练算法跨越多个分散的边缘设备或服务器.这种方法与传统的集中式机器学习技术(所有的本地数据集中上传到1台服务器上)形成对比.其核心是,在本地进行AI模型训练,然后仅将模型更新的部分加密上传到数据交换区域,并与其他各方数据进行整合.联邦学习允许多个参与者在不共享数据的情况下构建一个通用的、健壮的机器学习模型,从而能够解决数据被集中所带来的数据隐私问题[19].
联邦学习的主要适用场景是AI联合训练.通过利用联邦学习的特征,为多方构建机器学习模型而无需导出本地数据,不仅可以充分保护数据隐私和数据安全,还可以获得更好的训练模型,从而实现互惠互利.典型应用案例是谷歌将联邦学习应用在智能手机上,AI模型可以持续迭代,而训练数据仅安全保存在用户的移动设备中.
联邦学习的优势在于:1)使移动手机等设备能够协作学习共享的预测模型,同时将训练数据保存在设备上,而不需要将数据上传并存储在中央服务器上.2)将模型训练推向了边缘,即智能手机、平板电脑、物联网等设备,甚至是医院等需要在严格隐私限制下运营的“组织”.将个人数据保存在本地是一个强大的安全优势.3)使得实时预测成为可能,因为预测发生在设备本身.联邦学习减少了由于将原始数据传输回中央服务器,然后将结果发送回设备而产生的时间延迟.4)由于模型驻留在设备上,即使没有互联网连接,预测过程也能工作.5)联邦学习减少了所需的硬件基础设施数量,移动设备中的硬件即可满足联邦学习模型的运行.
人工智能数据安全挑战会随着人工智能技术的发展突破、应用行业的不断深入扩大等因素加快演变,其对于人类现实社会的外溢和威胁将是一个复杂的长期过程.因此,我国必须要在人工智能的动态发展中实现对数据安全风险整体的可知可控,确保人工智能数据在采集、标注、处理、存储、流动、共享和场景应用的全生命周期安全,不断提高人工智能企业的数据安全能力,增强人工智能数据安全供给链的连续性和可用性.
同时,我国要充分发挥“安全”对“发展”的赋能作用,通过完备的安全治理降低数据流动中的技术和法律壁垒,实现数据安全、便捷、低成本的互通和利用,赋能人工智能技术和产业的全面新发展,总结具有中国特色的人工智能数据安全治理范式,提高我国在人工智能数据安全领域的国际话语权和影响力,引领全球人工智能和数据安全规则制定.