潘奕扬,许静文
(中国刑事警察学院,辽宁 沈阳 110035)
2022 年11 月,OpenAI 公司①OpenAI是一家成立于美国的人工智能研究公司,其主要目标是致力于研究和实现安全可控的通用人工智能(AGI)技术,以确保人工智能的发展和应用符合人类的利益和福祉。正式推出了旗下的新型人工智能聊天模型ChatGPT。这款生成式AI 模型②生成式AI 是一种使用机器学习算法来生成新的、原始的、自然的数据的AI 模型。生成式AI模型不仅可以分析和理解现有数据,还可以使用这些数据生成新的、类似于原始数据的内容。以其出色的语言理解和生成能力,在推出后迅速在社交网络上走红——仅仅五天内,Chat-GPT 的用户数量就突破了100 万,而在两个月内,这个数字更是轻松过亿,一场人工智能技术革命开始在全球范围内席卷而来。
受新型生成式AI模型带来的巨大市场潜力刺激,一些国内外的互联网公司纷纷调整发展战略,致力于开发与之类似的产品或者促进已有的产品与ChatGPT 模型进行融合。2023 年3 月16 日,微软宣布将OpenAI 公司的GPT-4 模型接入旗下的Office 产品,推出了一个具有全新AI 办公协助功能的Copilot;2023 年3 月29 日,360 集团创始人周鸿祎在“2023 数字安全与发展高峰论坛”中,发布了360 版的ChatGPT;2023 年4 月11 日,阿里正式推出自研大语言模型“通义千问”,并邀请用户参与测试……可以说,ChatGPT 模型的问世与使用,在全球范围内引发了一场新的AI 技术大爆炸。
虽然ChatGPT 模型在网络空间中得到了广泛应用与迅速发展,然而我国的相关部门尚未对其迅速蔓延之势做出切实有效的反馈,对于ChatGPT 模型在应用过程中出现的风险以及如何对其进行规制尚未形成明确的治理路线。因此,我们有必要从技术层面以及国家层面作为两个切入点,深入研判治理的可行性,这有助于摸索出一条行之有效的网络空间治理路径。
随着ChatGPT 模型的广泛推广和使用,大众对这种新型人工智能模型的好奇心愈发强烈。经过初步使用后人们惊奇地发现,ChatGPT 模型的能力并不局限于简单的聊天服务,凭借着高效的灵活性和适应性,它能够在不同的领域和场景中发挥专业性和优秀的人机交互性。例如,在旅游规划领域,ChatGPT 可以根据用户提供的信息和偏好,智能地推荐旅游线路和景点;在编写代码领域,ChatGPT 可以生成代码片段或提供代码调试的建议。简而言之,作为一种具有强大自主学习能力的人工智能,ChatGPT 模型的应用领域和发展潜力在不断扩展和深化。
新一代人工智能技术的出现俨然成为了一种发展趋势。然而,在前沿科技更新迭代的同时,我们也有必要关注ChatGPT 模型在应用过程中对网络空间环境的安全带来冲击的风险,以便及时探讨对其进行规制的可行性。一项新技术取得变革性突破,并不必然带来变革性的社会影响,尤其伴随技术本身及其应用存在的隐患,如果处理不当势必影响技术的发展与应用。[1]本文主要从ChatGPT模型应用于互联网环境中可能产生的一系列安全隐患这个角度开展详细论述。
在使用ChatGPT 模型过程中,一个很少被人们所讨论、也容易被忽视的问题就是ChatGPT 模型带给每个人的隐私风险。根据《民法典》第一千零三十二条的规定:“隐私是自然人的私人生活安宁和不愿为他人知晓的私密空间、私密活动、私密信息。”由此可见,我们在互联网上所产生的数据隐私也从属于我国民法界定的隐私的范畴。
近日,国外互联网公司谷歌正式推出了自己的对话式人工智能Bard 作为与ChatGPT 对抗的产品。不难窥见,各互联网公司在未来一段时间内将会掀起跟风狂潮,致力于人工智能研发的科技公司陷入了一场“军备竞赛”。
但是一个值得关注的问题是,这些科技公司的竞争正是由我们的个人数据推动的。换而言之,我们在互联网上持续不断产生的个人数据为ChatGPT 等新型人工智能模型的发展提供了活力。随着互联网的普及和社交媒体的盛行,人们在日常生活中不断产生和留存包括搜索记录、社交媒体信息在内的大量个人信息。这些数据成为了科技公司在开发人工智能技术时的重要资源,进而用以进行模型训练与优化,提高精确度和效率。然而,它们的获取和利用方式也引发了大众对于人工智能时代下个人数据隐私和数据安全的担忧和反思。任何人,只要在互联网上发表过自己的观点或者文章,都很有可能在不知情的情况下被ChatGPT 拿来使用,作为对某个问题的回答输出。
另一个风险则是在人机交互问答过程中,我们要求ChatGPT回答问题或执行任务时,当用户无意间输入个人信息或商业秘密时,ChatGPT 会瞬间捕捉并收纳入库,并可能在他人的诱导性提问下全盘托出。[2]也就是说,用户包含个人数据隐私信息的问答,很可能会被ChatGPT 收入囊中,变为自己预训练语料库中的一员,作为日后对他人提问的响应。
一些犯罪分子也可能会看重ChatGPT 模型高效的自然语言处理能力,从而用以实施违法犯罪活动。例如,通过利用ChatGPT 模型,可以找出采集到的个人信息间的关联性与潜在价值。比如从一个人的购物习惯、兴趣爱好与交际圈,就能推测出其经济情况、职业和生活方式等等。ChatGPT 等人工智能模型的出现与普及,将我们原本已经岌岌可危的数据隐私安全推入到更深的风暴之中。
尽管能生成高质量的输出,但由于ChatGPT模型进行的是无监督式预训练,学习过程不受人类监督,事先获取的信息也难以得到过滤与筛选,数据在源头上就已有产生问题的风险。这就会导致基于ChatGPT 模型生成的文章、回答会嵌入各种虚假信息,包括明显不真实的事实、被误导性描述的事实以及完全杜撰的明显事实,这些虚假的信息通常被称为AI幻觉。据OpenAI公司称,ChatGPT模型的知识截止于2021 年9 月,这就意味着发生在这个时间点以后的信息都很有可能无法被该模型精确地反映出来,所以也会带来输出信息时效性的问题,这在用户使用ChatGPT模型询问法律法规以及查询最新新闻时尤为明显。而作为开发公司的OpenAI似乎并不回避这问题,它在官网写道:“ChatGPT 有时会写出看似合理但不正确或荒谬的答案。”正如一些科学家所说,这种虚实相生的“幻觉”,在涉及法律以及医疗方面等问题时格外危险。
2016 年,Christian Szegedy 等人提出了对抗样本的概念。他们指出,由于深度学习模型对输入数据高度敏感,利用故意设计的、难以察觉的对抗噪声,可以任意欺骗深度学习模型并影响最终预测结果。[3]Nature 杂志更是在2019 年发表的文章中指出了对抗样本的普遍存在以及深度学习模型的脆弱性。基于此,一旦对抗样本被用于ChatGPT 模型中,便会从人为的角度导致虚假结果的输出,严重威胁模型的可靠性和稳定性。对抗样本的概念演示如图1 所示。
图1 对抗样本概念演示图
根据图1,可以将对抗样本定义为如下公式①式中:为神经网络;x 为原始数据样本adv 为含有对抗噪声的对抗样本;y 为x 的类别标签;为x 与adv 之间的差别距离足够小,但是ƒ 对adv 进行了错误分类;为一个极小的衡量噪声大小的数值。:
近日,特斯拉创始人埃隆·马斯克以及数千名计算机科学家联名呼吁暂停有关ChatGPT 模型的开发至少六个月以上。他们警告说,在近几个月,人工智能研发者们为了开发和部署更强大的AI模型,陷入了一场失控的竞赛。[4]这些模型已经变得无法被包括它们的创造者在内的任何人所理解、预测或控制,生成的虚假信息极有可能给网络生态环境带来深远的灾难。
现如今,我们已正式跨入新媒体时代,新媒体的出现不仅打破了传统媒体的信息传播模式,而且还形成了独特的信息生产与传播范式。新媒体时代除了专业媒体的信息生产外,更多的海量“微信息”产生在微博、微信、微视频等网络平台,并以几何速度向外发酵扩散。[5]这些信息凭借自身优秀的灵活性可以方便地进行发布,再加上各个平台之间自由的评论、转发和分享机制,进一步推动了信息的分化、传播和社会影响。在此背景下,一旦犯罪分子将ChatGPT 模型用于虚假信息的生成,那么影响将是空前的。众多具有针对性的虚假信息在短时间内能在互联网上进行快速扩散,顷刻间便能充斥整个网络。虚假信息带有很强的操纵性和误导性,可以轻易撼动公众的主观判断与决策。当不知情的网民看到那些符合他们主观意愿的虚假信息后,加上个人情感的渲染与二次加工,会在不经意间成为其传播的帮凶,极易造成舆情异化,产生次生舆情。次生舆情在传播的过程中,通常会将自己进行“包装”,再加上在二次传播过程中,伴随着信息失真的现象,很容易让网络谣言滋生、蔓延。[6]
因而,使用ChatGPT 模型等新型生成式AI 模型时,我们需要谨慎对待结果,进行适当的校验,以确保生成内容的准确性和可靠性。亿万富翁马克·库班在接受媒体采访时表示,我们在使用Chat-GPT 等人工智能工具时要格外小心,并警告说很少有“护栏”可以帮助我们判断事实与虚构。[7]所以说,对使用类似于ChatGPT 的生成式AI 的用户而言,始终保持对所生成内容的怀疑心态将是每个人最好的财富。这样做旨在帮助使用者以一种更加审慎的态度对待AI 生成的内容,从而更好地规避可能出现的误解或误导。
国外著名网络安全公司黑莓公司(Blackberry)于2 月初发布了一项针对1500 名信息技术专家的问卷调查,其中74%的人表示他们担心ChatGPT 会助长网络犯罪。[8]这种担忧并不是空穴来潮。ChatGPT 模型因其出色的语言处理与文字生成能力,暴露出被不法分子滥用进而用于从事网络犯罪的风险,例如编写钓鱼邮件和恶意程序。相较于传统的犯罪活动,这种新型互联网犯罪的犯罪工具得到了显著提升,使得犯罪活动更加隐匿,为未来互联网的治理与监管带来前所未有的挑战。
作为生成式AI,ChatGPT 可以利用其强大的文字生成能力,根据犯罪嫌疑人提供的关键字,在短时间内生成具有指向性的恶意程序或者钓鱼邮件,进而实施网络攻击。钓鱼邮件是一种典型的社会工程学攻击手段,区别于其他的网络安全攻击事件和手段,它通过伪造亲朋好友、合作伙伴、同事领导等身份,向被攻击方发送恶意邮件,诱导被攻击方点击邮件链接或者下载运行附件,从而完成病毒木马的传播或者进行间接网络诈骗。[9]恶意程序通常指使用不正规攻击法访问计算设备入口,窃取个人信息或机密数据的程序,常常引发严重的网络安全危机。[10]虽然这两种传统犯罪手段一直存在,但是ChatGPT 模型的出现无疑为它们提供了升级渠道。
以传统的钓鱼邮件为例,不难发现,大部分钓鱼邮件都存在着语法以及用词不当的缺陷,这极有可能是犯罪组织从事境外运作所造成的,组织中的犯罪分子不一定使用母语编写电子邮件,因而导致了语句的生疏与不连贯性。但是随着ChatGPT 模型的出现,很可能意味着钓鱼邮件的成功概率得到了提升。ChatGPT 能够根据用户的输入提示生成高度真实的文本,犯罪分子与受害人之间的语言隔阂被成功打破,犯罪效率大大提升。例如,一些钓鱼网站以及应用程序利用ChatGPT 作为诱饵,模拟OpenAI 的官网,仿造ChatGPT 推出免费的聊天机器人服务,引诱用户点击链接或下载文件。这样就可能会给使用者的个人信息、信用卡资料,甚至是手机的安全性带来危险。更为关键的一点是,钓鱼邮件的背景可以根据犯罪分子的不同需求进行轻松调整,从账户验证到银行通知再到商业机密泄露等等。这种多变的特性让钓鱼邮件成为了一种极具威胁的网络安全攻击方式。
有些犯罪分子可能会以一种绕过ChatGPT 限制的方式,生成恶意程序。比如能够接受英文命令的反向shell①反向shell是一种常见的网络攻击技术,用于通过远程控制方式接管受攻击计算机的控制权,从而在未经授权的情况下执行恶意操作。或者能够窃取用户数据的信息窃取器。这些恶意程序可能会通过伪装成合法的电子邮件、网站或者文件来传播给目标用户。国外一家名为Check Point 的软件公司的研究人员发现,与同样由OpenAI 开发的自然语言转代码系统Codex 结合起来,ChatGPT 模型就可以用来开发和注入恶意代码。该公司的科研团队已经构建出了一条由钓鱼邮件到包含有恶意代码的Excel 文件的完整链条,并且他们也可以将所有的恶意程序都编入成一个可执行文件,最后在计算机上运行。[11]为了侵入用户的在线账户,犯罪分子也可以利用ChatGPT,输入事先获得的用户个人信息,进而生成众多用户名和密码的组合,以此进行“撞库”攻击,这会给网络空间安全带来极大的安全隐患。
在现实生活中,以ChatGPT 模型为代表的新型生成式AI 日益兴起,相关行业的发展正如火如荼。这是当前人工智能技术发展的必然趋势,也代表着新的生产力和发展方向。通过对ChatGPT模型底层逻辑的深入解析,我们不难发现,该模型的功能实现离不开深度合成技术②深度合成技术是指利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术。的支持。在实际应用中ChatGPT 所暴露出的问题,某种程度上可以归因于该项技术的存在。因此,对深度合成技术进行深入了解并及时采取规制措施,有助于提前规避相关风险,推动网络生态环境向着绿色、健康的方向发展。
数据安全是保护数字信息在其整个生命周期内不受未经授权的访问、损坏或盗窃的安全保护行为,包含信息安全的各个方面。[12]如何在数字化时代保证数据的安全成为了一个极具挑战性的任务。这就有必要建立数据规范,制定相关标准,并采取相应的措施来保障数据的安全与可靠。同时还要根据数据类型及应用场景,进行数据等级分类,确保敏感数据得到更为严格的保护。每当一项新技术诞生之时,风险与规制相生相随,唯有建立一个涵盖数据规范、责任导向、权利保障以及技术培育的完整体系,ChatGPT 的技术应用才能被纳入到一个安全可控的范围之内。[13]
当前,随着数据安全上升到国家主权安全层面,数据分类分级制度已经成为国家数据治理的必然选择。[14]数据分级分类制度是指将数据按照一定的标准进行分类、分级管理从而更好地保护数据安全,与此同时依照数据的敏感程度和价值程度,对不同等级的数据实施不同的管理和保护措施。究其本质,ChatGPT 模型作为一款基于深度合成技术的聊天机器人,它所处理的数据源自于各种不同的网络平台和应用程序。这些数据在被用于ChatGPT 模型训练和文本生成时,可能产生诸多安全隐患。因此,通过建立数据分类分级制度可以有效规范ChatGPT 模型的应用,从源头上保障数据安全。
我国于2021 年颁布的《中华人民共和国数据安全法》(以下简称《数据安全法》)中已明确提出建立国家数据分类分级保护制度的初步构想。根据第二十一条的相关规定,国家将根据数据的重要性和敏感程度,制定相应的分级分类标准。因此为规避基于ChatGPT 模型的数据处理带来的风险,未来应以《数据安全法》为指导准则,以数据的类型、价值、敏感程度为依据,在国家的宏观指导之下对数据进行分级分类。在中央层面,应该建立国家数据安全工作协调机制,将数据的安全保护与分级分类列为重点工作。在此基础上,结合相关部门与专家的研究论证,形成一套完整的数据分类与分类的总体框架与目录,并根据国家发展战略与长期利益,保证协调机制的科学性与可操作性。与此同时,依据法律法规的规定以及技术的发展,强化对各级政府主管部门的指导与监督,由地方各级政府对分级分类工作的具体实施加以细化与落实,确保工作的高效实施。
具体而言,可以将数据归类为公开数据、内部数据和敏感数据三个级别。公开数据是指可以公开发布和传播的信息,如政府公开的文件、统计数据等;内部数据是指企业或组织内部使用的数据,如人事信息、财务数据等;敏感数据是指具有商业、科技或国家安全价值的数据,如商业秘密、技术资料等。首先,就公开数据而言,由于不涉及到个人隐私及国家安全,各级政府应当公开透明地进行管理,并加强数据质量控制,也可以将数据交由ChatGPT 模型用于预训练,从而更好地发挥ChatGPT模型在各个领域的效能,为社会提供更精确、更智能的服务。其次对于内部数据,应当强化数据保护措施,加强外部访问权限控制,防止数据泄露。在确保数据安全的前提下,政府可以经过与数据所有者的协商和同意,向ChatGPT 模型开放适当的数据。在行业内部数据的支持下,ChatGPT 模型可以更加专业地回答专业领域的问题,提高应答的效率和准确性。最后,对于涉及到公民个人隐私与国家安全的敏感信息,需要采取更为严格的安全保护措施。我国于2022 年颁布的《互联网信息服务深度合成管理规定》中指出在深度合成技术背景下需对数据与技术进行管理。其中,第十四条指明:“深度合成服务提供者和技术支持者应当加强训练数据管理,采取必要措施保障训练数据安全;训练数据包含个人信息的,应当遵守个人信息保护的有关规定。”据此,我们应指明类似于ChatGPT的新型生成式AI 模型无权干涉敏感数据,政府可以通过采取诸如加密传输、限制访问、实行数据备份等安全措施保障此类数据的绝对安全。通过建立安全审查机制,对申请使用敏感数据的机构和个人进行审查,确保其使用的正当性和保密措施的有效性。
需要注意的是,无论数据的等级和类别如何,ChatGPT 模型在数据采集、处理和应用的各个阶段,必须始终遵循相关法律法规,这也是保障数据安全和使用合法性的必要条件。
网络空间安全治理呼吁国家在场,网络虚假信息已成为影响国家安全尤其是政治安全的重要因素。[15]深度合成技术的出现使得网络虚假信息的制作达到了新的高度,在ChatGPT 模型的背景下,人们可以轻松生成虚假的文字、图片、视频等内容,这些内容往往带有强烈的误导性。习近平总书记在关于《中共中央关于全面深化改革若干重大问题的决定》说明中指出:“网络和信息安全牵涉到国家安全和社会稳定,是我们面临的综合性挑战。”[16]因此如何对ChatGPT 模型的生成内容进行管制,已成为摆在我国面前亟待解决的重要问题。
据2023 年4 月11 日国家互联网信息办公室关于《生成式人工智能服务管理办法(征求意见稿)》中第七条的相关规定,生成式人工智能产品的服务者应对其数据来源的合法性负责。据此,可以采取的一项措施是强化虚假内容检测技术。传统的虚假信息检测技术通常采取关键词匹配和人工标注等方式,但由于自身固有的局限性,很难对虚假信息进行精准判定。相比之下,基于深度学习的虚假内容检测技术具有更高的准确性和可靠性。第一种方法就是利用ChatGPT 模型的生成能力,生成一些虚假内容,再将这些内容与真实内容进行对比,进而训练出更加准确的虚假内容检测模型。这种方法既可以有效地检测虚假内容,同时还可以增加训练数据的多样性,从而提高检测模型的鲁棒性。①鲁棒性(Robustness)是指系统或算法在各种情况下都能够保持良好的性能表现,不受异常或意外情况的影响。在机器学习和人工智能领域,鲁棒性通常用来描述模型或算法对于数据偏移、模型泛化、攻击和噪声等方面的稳定性和健壮性。具体流程如下:首先准备一个包含真实内容与虚假内容的数据集,此数据集可通过网络爬虫的方式从社交媒体等互联网平台获取,并且人工标注数据的真伪性;其次使用BERT②BERT(Bidirectional Encoder Representations from Transformers)是一种基于Transformers 的预训练语言模型,由Google 团队在2018 年提出。BERT 通过训练大规模的无标注文本数据,可以学习到词语之间的语义关系,从而能够在各种NLP 任务中表现出色。、GPT③GPT (Generative Pre-trained Transformer) 模型是一种基于Transformer 的预训练语言模型,由OpenAI 团队在2018 年提出。与BERT 模型不同,GPT 模型仅采用了单向Transformer,即只能根据前文生成后文,而不能考虑后文对前文的影响。等预训练模型对获取到的数据集进行预训练,得到一个基础的虚假内容检测模型;接下来,使用得到的模型对部分虚假内容进行提取并添加到数据集中,扩大数据集的样本容量;在此基础上,利用已有的包含真实和虚假内容的扩展数据集,对预训练模型进行二次训练,以提高该检测模型的准确性和可信性;再次,通过交叉验证等方式评估虚假内容检测模型的准确率、召回率等指标,以确保模型的性能;最后就是将训练好的模型投入到实际场景进行应用。如图2 所示。第二种方法是利用多模态学习的方法来识别虚假的信息。当前,大量的虚假信息以图片、视频等多媒体的形式被广泛传播,利用多模态学习方法能够对虚假信息进行更为全面的识别。多模态学习是指利用多种不同的信息来源来学习一个模型。在虚假内容的检测过程中,我们可以使用大量的文本、图像、视频作为信息源用于模型的训练。比如,文字描述可以和图像或者视频内容进行关联,从而更好地检测虚假内容。
图2 虚假内容检测模型实现概念图
在深度合成技术的支持下,网络舆情的形成和传播也面临着新的挑战。深度合成技术可以生成高质量的虚假信息,从而干扰公众对事件的判断和评价。这直接威胁到了网络生态环境的公正和健康发展。因此,对于深度合成技术的规制还应当从限制虚假内容的传播入手,在社交平台建立虚假内容检测机制和处罚制度,对网络舆情的形成和传播进行严格的限制。在技术规制方面,可以通过技术手段如水印、数字签名、可追溯性等方式,对深度合成技术生成的信息进行标识和溯源,以增强信息的真实性和可信度。以具有高度敏感性与社会影响力的涉警舆情为例,警方宣发部门可以通过升级出稿机器,实现人机协同,根据涉警舆情事件的性质、复杂程度、涉及领域等因素进行综合判断,对于简单的涉警舆情信息由出稿机器完成即可。[17]对于机器产生的复杂舆情信息,需交由专人进行校对、修改后,方可发布。只有这样,才能保证官方发布的信息既有价值判断与人性化,同时又有真实性和有效性。
因此,规范ChatGPT 模型的生成内容,有助于防止不实信息及不当内容的扩散,对保障社会及个体的合法权益具有重要意义。同时也有助于维护ChatGPT 模型自身的信誉,提高在社会中的应用价值。
网络犯罪已成为当今网络生态环境的一大难题。通过对深度学习模型的训练,深度合成技术可以实现对视觉、听觉等信息的有效处理,从而构建出具有真实感的虚拟世界。这项技术的出现,使得诸如网络诈骗、恶意代码攻击等网络犯罪行为变得更为隐秘,这些行为都为网络生态环境带来了极大的危害。可以说,基于深度合成技术下的ChatGPT 模型的兴起,为网络生态环境的治理带来了全新挑战。
要想有效地应对上述问题,公安机关就必须对网络犯罪进行及时甄别,尽早地识别出可能存在的网络犯罪,并采取适当措施来防范和遏制犯罪行为。其中一个重要的方法是建立网络犯罪行为识别系统。该系统利用机器学习、深度学习等技术,在海量数据的基础上,可以实现对网络犯罪活动的有效识别与定位。此系统的建立需要经过以下步骤:首先是收集包括钓鱼邮件、木马病毒、恶意程序在内的大量网络犯罪行为数据作为数据集;其次对采集到的数据进行清洗和标注,从而确保数据的质量与可用性;然后则是将收集到的数据转化为可供机器识别的形式,提取出特征值;接下来使用深度学习算法对提取出的特征值进行训练和学习,生成对应的模型,用于网络犯罪行为的识别与定位;最后将模型嵌入到网络环境中,进而可以实现对网络犯罪行为的实时识别与定位,提高网络的安全性。(如图3)此犯罪识别系统的构建可以通过多种技术实现,例如,使用TensorFlow①TensorFlow 是一个由Google 开源的深度学习框架,它支持各种机器学习算法,并提供了灵活的数据处理和模型构建工具。通过TensorFlow,用户可以轻松地搭建神经网络、训练模型、进行推理以及进行模型优化等操作。、PyTorch②PyTorch 是一个基于Python 的开源机器学习库,它提供了丰富的工具和接口,支持深度学习模型的构建、训练和部署,广泛应用于学术界和工业界。之类的深度学习框架实现模型的训练和实现;使用Spark③Spark 是一种开源分布式计算系统,主要用于大数据处理和分析。它支持多种编程语言和数据源,并提供了快速、可扩展的数据处理能力。、Hadoop④Hadoop 是一个由Apache 基金会所开发的开源分布式计算平台。等大数据处理技术实现数据的清洗、特征提取工作。同时,要注重对该系统的隐私性和安全性进行保护,以保证不被黑客攻击或滥用。
图3 网络犯罪行为识别系统实现概念图
在升级技术反制措施的同时,公安机关还可以对网络犯罪的侦查模式、侦查手段进行创新升级并加以应用,这有益于线索获取和证据固定。在深度合成技术背景下,网络犯罪案件的线索发现、深入挖掘和取证分析都面临着较大的困难。因此有必要对线索进行全面研判,创新使用技战法,如“按图索骥”法,查找侦查线索和固定犯罪证据,“围点打援”法,扩大数据碰撞范围、甄别犯罪可疑;“火力覆盖”法,穷尽一切手段进行分析研判和摸底排队。[18]
为有效应对基于ChatGPT 模型的网络犯罪,公安机关可以基于网络开源信息提高警情预测能力。依靠网络开源信息全面性、实时性的特点,通过大数据技术对各种信息进行关联、碰撞分析就有可能发现潜在警情,从而及时布置警力主动出击消除危险。[19]同时还可加强执法人员的培训与能力提升。执法办案人员应当具备相关的技能和知识,能够熟练掌握数字取证、网络溯源等多种调查和取证技术。与此同时,还需掌握一定的深度合成技术的基本原理以及应用场景,这样才能更好地应对和打击网络犯罪行为。
在信息全球化时代,人工智能的发展已经成为推动社会经济提升的重要因素。在这种情况下,传统的国家安全内涵已不再适用,而国家安全也由军事安全等单一领域,上升到了包括经济安全、社会安全等多个领域在内的总体安全。所以,我们必须秉持总体国家安全观的理念,用前瞻性和整体性的眼光来应对科技发展带来的挑战。
总体国家安全观提出了“国家安全是安邦定国的重要基石”这一基本原则,旨在保障国家安全和长期稳定发展。同时强调了对包括科技安全、网络安全在内的非传统安全的重视。因此,在探索ChatGPT模型治理路径的过程中,我们需要从宏观层面出发,将总体国家安全观与ChatGPT模型治理相结合,这有助于我们更好地理解ChatGPT 模型治理的重要性和必要性,从而为ChatGPT 模型的治理提供未来的展望。党的二十大报告指出,必须更好地发挥法治固根本、稳预期、利长远的保障作用,加强重点领域、新兴领域、涉外领域立法,加强重点行业、重点领域安全监管。[20]针对ChatGPT模型带来的已知或未知的各种现实问题,我们需要在国家安全观的整体视野下,提前预判并制定相应的规制措施,摸索出一条符合中国国情的治理路径。
针对网络安全问题,我们需要对现有相关的法律法规进行修订和完善,以保障模型在开发、部署和维护等各个环节的安全性。这样才能有效地预防黑客攻击、数据泄露以及滥用等风险。目前已经颁布实施的《网络安全法》、《国务院关于印发新一代人工智能发展规划的通知》、《互联网信息服务算法推荐管理规定》等法律法规尽管可以扩展至ChatGPT模型,但是仍然不够清晰,也不够有针对性,在时间方面也存在着滞后性的问题。因此,有必要对现有的法律法规进行修订与完善,增加相应的条款与司法解释,延伸制定有关网络安全问题的特别条款,进一步明确规定ChatGPT模型为代表的新型生成式AI 模型从开发到应用再到维护过程中相关参与者应当遵守的网络安全责任,以及国家在此类模型中各项活动方面的法律管辖权。
其次是个人信息保护方面的问题。在2021 年,我国成功颁布并实施了《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》),这项法律明确了个人信息的定义和范围,以及侵犯个人信息的具体情形等内容,在法律层面上为中国公民的个人信息提供了保护。但是从现实的角度来看,《个人信息保护法》仍以Web2.0 为基础,已不满足当下的Web3.0 时代,应根据Web3.0 与ChatGPT等同类技术的发展特点对该法予以修订,明确保护个人信息与隐私的基本原则。比如,要求AI 模型在收集、处理和存储用户的个人信息时,要对用户的隐私进行严密的保护,并对AI 模型的数据处理作出明确的规定;对于涉及用户隐私的处理过程的AI 模型,需要有充分的透明性和可解释性,向用户说明数据的收集、处理和使用方式;也可以通过增加与加强个人信息的脱敏和加密有关的规定,要求AI 模型在处理个人信息时使用先进的脱敏和加密技术,降低数据泄露的风险;此外,我国还可以积极吸收与学习一些国外涉及到的相关法律,例如,欧盟发布《人工智能法》,宣布对ChatGPT 等新型智能系统实施“前瞻性”治理条款,我国应在此方面加快相关工作进度。
在社会生活中,道德起着举足轻重的作用,道德作为基石,对于维护社会秩序、促进和谐共处和实现可持续发展具有深远影响。ChatGPT 模型在道德上主要考虑的因素是训练数据中的偏见,由于此模型是基于大量的文本数据集,因此在数据集中存在的任何偏见与歧视最终都会在模型的输出中呈现,这样就很有可能会导致结果的不公平性与不精确性。
在社会分工日趋细密的时代背景下,社会大众对高新技术的认识与评价严重滞后,难于发挥有效的社会监督职能。[21]而作为开发者,他们可以说是第一个意识到ChatGPT 技术的作用、风险以及负面影响的人,在道德上、法律上、历史上都应当是第一责任人。因此,应该积极倡导行业自律以及负责任研究与创新(Responsible Research and Innovation,简称RRI)理念,[22]通过发挥研发者的道德自律精神,为其提供基础支撑并引导价值观,从而实现研发产品的最大化效益。中共中央国务院于2017 年印发的《新一代人工智能发展规划》也指出,“在大力发展人工智能的同时,必须高度重视其可能带来的安全风险挑战,加强前瞻预防与约束引导,最大限度降低风险,确保人工智能安全、可靠、可控发展。”
在目前的法律法规体系并不完善的情况下,研发人员的责任意识、道德意识和行业自律就显得尤为重要,他们是ChatGPT 模型诞生之初,推动该类技术进步的核心力量,也是人类对抗技术风险和负面影响,以及排除许多潜在危险的“第一道”道德防线。一门新技术产生时,出现一段时间的“灰色地带”是在所难免的,在这个时候就需要研发机构坚持行业自律与承担道德责任,加强行业自律机制建设,不断提升自身的道德素养,规范行业的发展与运营,确保科研活动的合法性、正当性与安全性,为科研行业的健康有序发展和社会进步贡献力量。
ChatGPT 模型要实现持续发展与健康运行,技术才是第一生产力。中共中央总书记习近平在主持学习时强调,人工智能是新一轮科技革命和产业变革的重要驱动力量,加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题。[23]因此,为了提高我国人工智能行业在国际上的话语权和竞争力,既要大力发展相关技术,不断突破技术瓶颈,持续为用户带来更好的数字化生存体验,又要秉承“技术向善”原则,坚持统筹规划,科学布局,确保技术的发展用之于民,[24]在遵守法律法规与秉持行业自律的精神下,将相关技术引导朝着维护人民安全的正确方向发展,以确保给社会带来积极作用和贡献,为实现高质量发展提供有力支撑。
具体而言,作为语言模型,ChatGPT 模型的技术突破是通过对背后的深度学习算法进行不断改进与优化来实现的,以下是一些可能的技术突破路径。首先,可以通过改善现有的模型体系结构,提高其精确度、效率和扩展性,例如,增加层数、改进正则化技术、优化梯度下降算法等;其次,可以采用联邦学习进行算法改进。这是一种分布式机器学习技术,通过在多个设备或者机器间进行分布式模型训练,将本地的局部模型参数上载到中心服务器,对其进行聚合,以实现对整个模型的优化。该方法可以最大限度地提高数据的安全性与隐私保护,并且能够更好地应对设备数量庞大、数据分散,且具有地理位置分布的情况;此外,还可以进行多模态学习,通过将不同类型的数据(如图像、语音、文本等)融合起来,使模型对复杂的真实世界有更好的了解,增加其适用范围和准确度。
ChatGPT 模型的诞生,正式开启了新型人工智能时代的大门,作为一种自然语言处理模型,它具有极其广泛的应用前景,为我们的工作与生活带来了便利。但与此同时,ChatGPT 模型在应用过程中对社会造成了一些潜在的负面影响,暗中冲击着现有的法律法规。针对可能会产生的一系列现实问题,我们应积极采取规制措施,也要支持鼓励技术进步,秉持包容的态度与“技术中立”原则,不能因为技术可能会带来潜在风险,就一味否定该项技术,而是要让技术在监管下健康发展。
总而言之,作为一项新兴的人工智能技术,ChatGPT 模型在给人类社会提供诸多便利的同时,也伴随着不少挑战。为了保证该技术的可持续和健康发展,需要在各个层面上强化管制,建设一个更为安全、公正和透明的数字世界。在人工智能技术日益普及的今天,我们期待一个更加成熟、稳定的发展态势,为未来的创新和进步铺平道路。