◆王劭方
信息时代的数据安全研究与分析
◆王劭方
(国家计算机网络应急技术处理协调中心甘肃分中心 甘肃 730030)
由于近些年来的科学技术,电子信息技术已经将人类文明推进到了信息化新时代。现阶段社会的高速智慧城市建设、工业化的人工智能化生产以及人们的日常生活娱乐都已经与信息数据紧密相连,在体验到信息化数据提供的便捷、高效、精准服务的同时,也需要做好各方面的信息数据安全防范工作。本文通过对人工智能信息化平台进行调研评估,分析人工智能信息数据中可能出现的安全隐患,研究针对这些隐患所提出的合理化建议,有效地提高了人工智能信息数据的安全性和可靠性。
电子信息技术;人工智能;数据;安全防范
人工智能系统是以IaaS系统平台为基础开发,在其上搭建如docker、Kubernetes等的各类容器,且具备机器学习模型、算法、功能以及TensorFlow、MXNet等接口,能够根据机器学习模型产生应用,然后通过从处理数据、搭建模型、对模型分别进行训练与评估等相关的系统功能为客户提供开发设计的全流程服务。
人工智能系统平台一般按技术和应用两个方面进行划分。技术系统方面可分为:视觉与语音的功能识别技术、机器学习技术、语言处理技术以及知识图谱等。在应用技术方面又可以分为:自主无人控制技术、人工智能交通技术、人工智能教育技术、人工智能医疗技术、人工智能工业化生产技术以及人工智能互联网技术等。
人工智能系统平台通过基于分布式计算云系统IaaS平台,将包括人工智能的学习、算法、接口等功能通过云端,为客户提供信息数据存储、分析及软件应用等服务。加快了客户通信息数据的处理分析能力,并计算出更加精准的结果,便于客户对信息数据的判断与决策。
信息数据中毒一般是指人工智能信息数据被非法修改或者篡改,导致人工智能决策层对数据信息的判断出现问题,并给出了错误的决策方案指令。其工作原理是通过在给人工智能训练数据中添加进去恶意样本或者是虚假伪造数据,然后对原有的数据信息进行攻击破坏,造成完整性缺失,使训练算法模型运算判断出错,导致决策层的决策出现偏离。一般导致信息数据中毒的方式有如下两种:
第一、信息数据中毒的攻击方式是偏斜方式,主要是通过对训练数据的原始数据进行篡改,修改分类模块的范围值,达到使训练数据的运算分析方向出现偏移的目的;
第二、使用反馈信息的误导牵引模式,主要是把人工智能的自身机器学习模型作为攻击对象,将篡改好的信息数据反馈至需要接受客户反馈信息的机器学习模型,利用修改后的数据信息对人工智能的运算进行误导,使其决策层给出错误的决策。
信息数据中毒具有较大的安全风险,比如,现在比较火热的自动驾驶汽车领域,当自动驾驶控制接收到的信息数据是被污染后的信息数据,其就是根据这些错误的信息做出相应的判断,轻者会造成自动驾驶车辆对路况信息误判,做出违反道路交通规则的行为,重者就有可能使自动驾驶车辆发生严重的交通安全事故。
数据异常会出现致使人工智能系统在运算过程中,识别判断运算出现偏差或错误,也会将自身模型暴露出来,遭受黑客的恶意攻击。另外,因开源学习框架本身存在一定的安全风险,其数据异常也表现出在开源学习框架的人工智能系统出现了数据泄漏的情况。
人工智能技术已经成功地应用到了很多领域中,就会出现数据信息收集过剩的现象,导致这些过剩的数据信息存在泄漏的风险。比如,现在比较流行的人工智能手环等智能设备,以及医疗智能系统或生物识别系统等,这些智能设备或智能系统就会对个人信息进行全方面的收集,如个人的脸部特征、心跳、虹膜以及指纹等个人信息数据,而这些个人信息都是具有唯一性和不变形的,当这些个人信息数据没有得到很好的保护时,出现泄漏或被收集个人信息的企业误用,就会给这些信息的所属者造成严重的后果。
随着人工智能技术的提升,也变相提升了黑客对智能化的网络攻击能力,导致出现信息数据被智能化窃取行为的出现。通过使用人工智能系统就可以自动锁定需求目标,并开始对数据进攻击和盗取,而且因为人工智能可以通过机器学习的方式,进行扫描和发现系统的漏洞,并有效地提高了对关键目标的识别能力,从而提升了对关键目标的攻击效率。然后,人工智能可以自动编辑或生产海量的虚假威胁信息,来迷惑和攻击系统;人工智能因其具有机器学习技术、自然语言处理技术以及数据挖掘技术等能力,可以在有效且安全的大数据中,对其自动生产各种虚假、错误以及威胁的信息,使系统无法正常判别信息的真伪。人工智能现在还具有自动识别图像和验证码功能的能力,使其窃取系统数据信息更加容易。
由于人工智能技术的快速普及发展,人工智能人脸识别等新技术也带来的新风险,如出现了人脸“隔空盗刷”等个人信息数据安全隐患,因为人的脸是长时间裸露在外,现在人工智能技术就可以通过在三公里之外对人脸进行识别,用户根本没有表达出主观意愿去刷脸,就可以将个人账户的现金进行转移,带来了巨大的风险。
现在众多人工智能技术软件平台都没有相关的技术数据备案信息,并且平台内部对个人的相关身份数据信息也没有做好安全防护工作,出现客户可以任意替换、合成、生成新的信息数据,就会严重影响了个人信息数据安全,并为个人信息安全埋下隐患,也为不法分子带来可乘之机。
2018年上半年,国外就有媒体报道出美国的脸书公司,私自将脸书的近五千多万的个人用户信息交给第三方公司,用作大数据信息分析这些客户的潜在利用价值,如通过对这些客户个人信息中的兴趣爱好等特点进行分析,根据其爱好准确投放相应的广告或资讯内容等,报道上称其有可能利用大数据进行预测客户的政治意向,造成可能影响美国总统大选的不利因素。已经严重损害了网络领域消费者的合法权益,针对上述事件,如何规范人工智能信息数据的使用,保护个人信息数据安全,成为社会所关注的重点。
由于人工智能系统的开发和利用,其产生的数据安全已经覆盖方方面面,小到个人信息安全、企业信息、企业秘密以及大到国家信息安全等。所以,人工智能领域中的数据安全保护问题需要涵盖整个环节,这些环节就包括了对信息数据的收集、存储、传输和使用等方面。
数据收集风险:主要是体现在数据采集的安全风险是否合规管控方面。如数据传输环节是否存在数据泄露、数据篡改等安全隐患。
数据存储风险:数据存储又可以分为本地现场前端存储、后端数据存储和云存储等三个方面。其中在前端和后端的设备存储,有较大的安全风险,具有数据存储的安全隐患。由于云数据库的硬件技术能力不一,数据存储具有不小的泄漏可能。
数据使用风险:在人工智能的开发和应用中对数据预处理、数据标注、模型训练、模型测试、实际数据处理都涉及到数据的使用中,也会存在诸多安全问题。
数据传输风险:数据收集和标注是人工智能模型训练前的重要步骤。在数据采集和标注环节,数据链中出现对数据保护能力不一致。当涉及敏感数据的处理和多方之间的数据流动时,会面临数据泄露等安全风险。
首先,要加强加快立法,细化法律规范,进一步落实到企业责任、个人行为等社会化日常行为当中。主要是针对当前人工智能数据信息安全使用和保护问题进行操作。
第二,组织形成网络安全新技术新应用的评估队伍,对企业、个人凡是要在平台上发布应用程序的,均需通过评估、整改、再评估后,符合信息安全各项要求后再上线。
第三,针对各领域的企业,需要控制企业收集个人信息数据的界限,并规定企业对个人信息数据的使用范围,行政部门定期对其收集的信息进行规范性核查。
第四,进行内容安全标注工作,将内容进行分级、分类,尤其是使用AI合成技术创造的内容,要严格进行审核、标注,对于侵犯隐私、违反著作权、肖像权、隐私权、专利权的行为进行打击。
第五,加强对个人信息数据安全保护的技术能力,如对个人信息数据进行隐私的同步状态加密保护技术、机器学习、差分隐私的个人隐私保护技术等技术能力的开发或能力的提升,并利用数据偏移监督监测技术来防止人工智能系统在训练数据中出现的偏差或偏移现象。
第六,开发新的模型,减少数据需求,使用迁移学习、小数据等优化各类算法。
第七,大力开发数据投毒的防御技术。
数据污染防范训练技术主要有两种,分别是抗训练数据污染和抗对抗样本攻击。
抗训练数据污染主要是通过监测和过滤来防止数据的污染或被植入恶性数据作为预防措施。抗对抗样本攻击主要是通过提高人工智能模型的对抗防御能力,利用监测模型对其进行提升自身防御能力或消除对抗样本的不良影响。
本文从人工智能信息数据安全方面进行了研究,针对人工智能平台数据管理中,可能出现或者会面临的安全隐患进行了分析,如数据中毒、数据异常、数据泄漏以及网络攻击等几个方面深入化的分析。就上述的安全隐患风险进行安全风险分析其可能或将造成的严重后果,提出相应的合理化建议,如加强法律方面保障效应以及开发信息数据安全防范技术等,从法律和技术双方面进行保护信息化的数据安全。
[1]何文君.影响数据通信网络稳定性和安全性的因素研究[J].山西青年,2017(20):10-11.
[2]袁鹏达.数据加密技术在计算机网络通信安全中的应用[J].中国管理信息化,2017,20(3):129-130.
[3]李观发.试论计算机网络通信安全中数据加密技术的应用[J].信息记录材料,2019(7):25-26.
[4]孙洪玉,牛保疆.数据通信网络维护与网络安全问题的探讨[J].数字通信世界,2019(2):14-15.
[5]龚德旭.大数据背景下信息通信网络安全管理策略研究[J].数字通信世界,2018(1):13-14.