生成式人工智能的阶段性数据风险和治理

2024-06-28 15:37:26陈煊

九江学院学报(社会科学版) 2024年2期

摘要：以ChatGPT4为代表的生成式人工智能，预示了强人工智能时代的到来。该技术的多功能性和强大的智能性引发了广泛关注，然而，其潜在风险亦不容忽视。鉴于生成式人工智能在不同运行阶段的使用主体和所采用的算法有所差异，故对其进行分阶段风险分析显得尤为重要。针对生成式人工智能的数据风险，文章从其运行逻辑入手，深入剖析数据收集、模型训练和输出阶段的运行机制，并在此基础上，对各阶段的风险进行了详尽分析。针对每一阶段的特点，文章提出了治理路径：在数据收集阶段，以开发者为主导，多方主体协同参与治理；在模型训练阶段，需要开发者与政府采取软硬并施的策略；在输出阶段，构建以用户为中心的内容治理体系。

关键词：ChatGPT4;生成式人工智能;大语言模型;算法治理;法律规制

中图分类号：TP18;D922.17 文献标识码：A 文章编号：1673-4580（2024）02-0121-（08）

DOI：10.19717/j.cnki.jjus.2024.02.021

随着生成式人工智能的不断壮大，其潜在的法律风险以及对社会的巨大影响也引起了人们的关注。生成式人工智能带来的风险是多方面的，对于算法而言，有算法风险。不公开的算法可能会引起算法黑箱、算法歧视等风险；对于数据而言，生成式人工智能处理的数据量极为庞大，开发过程中的训练数据和用户使用产生的数据等等数据如果不加以规范，容易产生数据泄露、数据被动出境等数据风险。除此之外，生成式人工智能作为新一代人工智能的代表，其迅速发展也引发了人们对科技伦理、人类主体性、失业等风险的担忧。

联合国促请所有国家立即执行《人工智能全球伦理框架》［1］。意大利第一个发布了封杀 Chat-GPT的公告，紧接着加拿大隐私委员会网站公布了对 OpenAI的调查，越来越多的国家对ChatGPT提出数据安全方面的质疑［2］。可以说， ChatGPT这一大规模生成式人工智能，是科技发展进程中的一种重要的范式转换，其风险治理是各方共同关注和探讨的热点问题。2023年7月10日，国家网信办等七个部门联合公布了《生成式人工智能服务管理暂行办法》。各部门的高度重视意味着我国密切关注了生成式人工智能的新发展并且尝试构建新的监管体系。与深度综合监管相比，这一生成型人工智能监管理念的确反映了监管逻辑的更新与系统的迭代。但也要注意到，《办法》只是提出了一般的监管思想和监管原则，还没有对监管措施进行细化，且大型生成式人工智能与以往的人工智能有不同的运行过程和特有的革新技术，应该结合大型生成式人工智能模型的特点进行监管。

生成式人工智能带来的风险是多方面的，从本身来讲，有数据风险和算法风险；从外部来讲，有社会安全风险和伦理风险。生成式人工智能作为新型人工智能与传统人工智能运行的逻辑不同，每一运行阶段的使用主体和所采用的算法都不尽相同。基于此，本文主要是针对生成式人工智能的数据风险，深入剖析生成式人工智能的运行逻辑，再分析每个阶段的数据风险并提出针对性的治理路径。

一、生成式人工智能的革新特点和运行逻辑

人工智能可从不同的维度进行划分。如果按其模型来划分，可以分为决策式AI和生成式AI［3］。决策式AI（也被称作判别式AI）学习数据中的条件概率分布（即一个样本归属于特定类别的概率），再对新的场景进行判断、分析和预测。生成式AI则学习数据中的联合概率分布（即数据中多个变量组成的向量的概率分布），对已有的数据进行总结归纳，并在此基础上使用深度学习技术等，创作模仿式、缝合式的内容，相当于自动生成全新的内容［4］。

（一）生成式人工智能的革新特点

相比于传统的人工智能，生成式人工智能主要有两方面革新性的特点。一方面，生成性人工智能是从弱人工智能向强人工智能迈进。弱人工智能是指传统的人工智能，比如计算机深蓝、人形机器人Asimo、AlphaGo、人工智能Watson、微软小冰等人工智能迭代产品。弱人工智能无法创造出具有智慧、能够思考、能够解决问题的智能机器人，它们空有一副智能的外表，却没有任何的智慧，更没有任何的自我意识。而强人工智能，即通用人工智能（Artificial General Intelligence，AGI），是一种能够自主认知、自主学习新知识、提升自身能力的机器智能［5］。在强人工智能时期，智能机器、算法或系统会拥有类似于人的学习和理解知识的能力，可以像人那样进行思考，可以分析复杂的概念，可以进行思考、规划、自我学习，并根据以往的经验进行总结学习。ChatGPT4目前已经初步具有强人工智能的基本特征，即使有部分观点认为ChatGPT仍然只能作为工具使用，达不到强人工智能的标准，但不可否认的是ChatGPT已经超越了弱人工智能，在向强人工智能迈进。

另一方面，生成式人工智能与传统的搜索引擎有本质区别。ChatGPT4能够根据使用者的指令，直接生成文字内容，因此能够满足使用者的需求，而且每次查询仅生成一个答案，即ChatGPT4会将其他的过度信息过滤出去，为用户提供唯一的答案，这样使用者就不用再去挑选其他的信息。另外，ChatGPT4拥有很强的学习能力，不仅能够与人进行连续的对话，而且能够在此过程中不断地学习，能够发现自身的缺陷，能够发现简单的诱导问题，这是其与传统搜索引擎最大的区别［6］。

（二）生成式人工智能的运行逻辑

第一阶段是数据收集阶段。首先，是数据源选择，在构建对话系统时，选择适合的数据源是关键步骤。可以从多个渠道收集对话数据，包括聊天记录、客户支持对话、论坛或社交媒体上的对话等。最关键的是选择与目标对话领域和用户群体相关的数据源。其次，是数据清洗和预处理，收集到的对话数据通常需要进行清洗和预处理，以提高数据的质量和可用性。这包括去除无关信息、过滤敏感数据、处理重复对话、修复拼写错误等。数据清洗可以帮助消除噪声和错误，确保对话数据的一致性和准确性。再次，是标注数据，为对话数据添加适当的标注是训练ChatGPT模型的关键。标注可以包括对话的角色标签、对话情感标签、对话意图标签等。通过标注数据，模型可以更好地理解对话结构和含义，并更好地适应不同的对话场景。最后，是数据归类，就是将数据的集合细分为用于模型训练的集合、用于验证模型参数的集合和用于测试模型性能的集合。

第二阶段是模型训练阶段。这一阶段分为预训练和优化训练。这两个步骤是自然语言处理领域中训练大型语言模型的关键环节。预训练是模型训练的第一阶段，目的是让模型学习语言的基本知识和规律。在这个阶段，模型会基于大量的通用语料库进行训练，这些语料库通常包括各种类型的文本，如新闻、社交媒体、维基百科、书籍等。优化阶段是模型训练的第二个步骤，它是在预训练模型的基础上，使用特定任务的数据集进行二次训练，目的是让模型能够适应特定任务或领域［7］。

第三阶段是输出阶段。生成式人工智能实质上是一种基于“借鉴与拼接”而形成的“生成性”，也就是说它可以依据一定的规则、规律或数据，产生与众不同的具有创新性的结果（如文字、图片、音乐等）［8］。以ChatGPT4等生成式人工智能为代表的人工智能，会在大量的文本数据中进行概率分析，并从中挑选出最有可能的匹配项，将其重新挑选和组织后作为回答。文本的输出过程就是文本与使用者的交互创造。举例来说，其产出的品质主要依赖于使用者是否有能力提出问题。提问的语言越是明确、准确或者富有创意，那么 ChatGPT的答案就会更加明确、更加有创意。

二、生成式人工智能的阶段性数据风险

如前所述，以ChatGPT为例，生成式人工智能的工作流程可以划分为三个阶段，在每个阶段会产生不同的数据风险。

（一）数据收集阶段的数据来源风险

虽然ChatGPT目前还未公开学习语料的具体来源，但从官方网站上可以得知ChatGPT的训练数据主要分为四种，第一种是由OpenAI自己采集的数据，部分是用户在使用ChatGPT时产生的数据，部分是专门的志愿者或人工智能训练师在训练时产生的数据。第二种是开发者从网络上使用爬取技术获得的各类数据，包括网络上的文本数据、社交媒体数据、问答网站数据、新闻网站数据、文学作品数据等。第三种是开发者购买的第三方平台的数据集。第四种是开发者获取的向全社会公开的公共数据。

第一种来源中，自行采集的数据存在侵犯用户权利以及违反最小必要原则的风险。在数据的收集和抓取阶段，开发者在使用用户的信息时虽然形式上遵循了知情同意规则，但实际上却架空了用户的知情同意权。比如ChatGPT4的服务条款中明确了 OpenAI有权利用用户输入与输出的数据，并把这些数据整合到数据库中来改善ChatGPT4。当ChatGPT4的用户第一次登录账户时，会从系统中接收到一个关于个人信息的提示，当用户单击窗口底部的“下一步”时，就表示他已经同意了系统对其个人信息的采集。然而，因其核心技术与算法的保密性，用户不能完全掌握其处理过程、用途、保存期限等重要信息，因此不能对其进行合理的使用与保护［9］。最小必要原则要求信息处理者在处理个人信息时，必须有明确、合理的处理目的，并且该目的必须与个人信息的处理直接相关，同时采用对个人权益影响最小的方式进行处理［10］。在构建语料库时，生成式人工智能有时候会收集用户的浏览记录、所用的设备信息、通信信息，用户的所在地、时区、国家和具体登录的时间等。但是这些信息的收集与最终的文本生成服务之间没有必然的联系，那么收集和处理这些信息的目的不明确，违背了个人信息保护的最小必要原则。

第二种来源中，开发者利用爬取技术获得的网络数据存在侵犯目标网站用户的隐私权、商业秘密、国家的数据主权等风险。以爬虫方式来爬取用户资料，会对目标企业和网站产生不良的后果，这也违背了国家网络安全法27条中关于禁止个人非法获得个人资料的条款［11］；若 ChatGPT所采集的数据来源于明确禁止第三方爬取数据条款的网站，将会被视为企业的竞争产权利益，未经授权的情况下，此类数据有可能触犯反垄断法，引发合规风险。与此同时，研究成果表明，非法爬取获取的数据很有可能是具有高度机密性、高密集性、高防护性等特点的数据，如果开发者利用这种非法手段爬取到此种类型的数据，那这种行为不仅侵犯了个体对信息享有的权利，还威胁到了国家安全与数据主权。

第三种来源中，开发商通过购买第三方平台的数据来获得数据，不能为第三方平台提供合法的保护。由于人工智能的训练需要的数据量是巨大的，购买第三方平台提供的数据集成了很多开发商的选择，但是通过信息服务企业购买训练数据是存在风险的，购买途径的合法不等于数据来源合法。第三方平台提供的数据集也包含一些个人信息和需要授权才能处理的信息，无法确定第三方平台出卖的数据使用权是否完整合法，是否含有敏感个人信息和民事侵权内容。即使在买卖合同中可以约定该义务，也仅能作为侵权纠纷中的抗辩理由，实际上对侵权风险所起的作用并不明显。

第四种来源中，开发者获取的公共数据存在可用性不高，敏感易变的特点。公开数据的获得就是从公共资料库中下载数据，充实和补充数据。公共数据集是指在不同的公共平台上，或在不同的行政管理机构中发布的、对公众开放的数据资源。公共数据的获取是四种方式中较为安全的，但仍然存在一些问题。目前世界各国很多地区数据开放平台尚未完全覆盖，部分地区仍未建立数据开放平台，例如公共数据开放起步最早的美国，50个州中仅有18个州建设了统一的公共数据开放平台［12］。而且公共数据较为庞杂，具体数据的正确性没有相关义务人负责核验。公共数据的开放分为不予开放、有条件开放、无条件开放，但是由于数据的变化性，有可能出现从无条件开放的数据转变为有条件开放的情况，这无疑将增加开发者利用数据的风险。

（二）预训练和优化训练阶段的数据使用风险

在预训练和优化训练阶段，生成式人工智能会与外界进行更多的交互，数据流动性大大增强，用户在使用生成式人工智能过程中会产生大量的数据，这些数据同样存在风险。

1.数据泄露的风险

在训练过程中，用户可以将个人信息、商业信息乃至商业机密等信息透露给大数据。从生成式人工智能的工作机制不难看出，用户在使用过程中的输入与互动信息也将被用来进行不断的迭代训练。因此，如何保证该信息的安全性就存在着巨大的风险。尽管生成式人工智能的开发者宣称会采用匿名、加密等安全保护手段来提升数据安全，但有报告指出，潜在的数据泄漏风险依然存在。根据硅谷媒体的报导，亚马逊公司的法律顾问表示，他们在ChatGPT所产生的内容中，找到了与公司秘密“非常相似”的文字。这或许是因为亚马逊的某些雇员在利用 ChatGPT产生的代码和文字时，将公司的内部资料输入了进去，这位律师害怕这些资料会被用来作为 ChatGPT的循环训练资料。

2.数据跨境流动的风险

在境内用户通过 ChatGPT认证后，相关资料将会被传送到海外数据处理中心，并得到相应的反馈。在这个互动过程中，如果用户向国外的数据处理机构发送了敏感的个人信息，那么这时，对于该机构的收集和存储是否要作出特定的事先告知同意，就成为了一个值得思考的问题。此外，如果国内某主体出于数据分析或信息统计等目的，将其收集的一定规模的个人信息传输至OpenAI境外数据处理中心，就很可能构成事实上的数据出境行为，如果未经审批许可，将导致极大的合规隐患。当生成式人工智能在操作中获得了国内的数据时，就相当于把这一部分的国内数据传送到了国外，这个时候，我们已经丧失了对这些数据的管理利益，也失去了对国外数据的自主权，这显然是对国家数据主权的挑战。

3.侵害用户的删除权风险

我们在讨论训练阶段生成式人工智能所构成的风险时，先假定在数据的收集和抓取阶段生成式人工智能所使用的数据已经取得了志愿者和用户的同意，志愿者和用户在提供信息时，按照一般人的理解，应该是提供给生成式人工智能作为基础模型的构建和训练的数据来源。但是实际上他们将信息提供给生成式人工智能后，可能在每一次迭代更新后都会重新输入模型加以利用，数次迭代更新之后的生成式人工智能可能与之前的有很大变化。例如ChatGPT4与ChatGPT1从功能上、算力上都有了翻天覆地的变化，ChatGPT作为生成式人工智能成长了五年就已经有了如此大的进化，由此可以想见生成式人工智能的迭代更新速度非常快。那么志愿者和用户对数据使用的同意如果直接适用于新版本的训练中，将存在侵权风险。且用户一旦同意ChatGPT使用自己的交互信息进行训练，实际上用户的删除权将会丧失，用户的信息和数据将储存在ChatGPT的数据库中。与传统型人工智能不同的一点是，生成式人工智能不存在真正意义上的删除数据，用于训练的数据即使从数据库中删除，生成式人工智能对此已经有了“记忆”，即已经被生成式人工智能“记住”的信息无法被删除［13］。

（三）输出阶段的数据准确性风险

在输出端，生成式人工智能能够产生多种内容，如新闻、文章、评论、代码、图画等等。但是，生成式人工智能极易被恶意用户利用，产生虚假信息以误导大众或者进行诈骗，甚至引发知识产权侵权。

第一，生成错误信息容易误导公众。在信息生成的过程中，生成的人工智能模型可能会制造出误导信息，导致人们对某些事实和概念的误解。如生成式人工智能因其“一本正经地瞎扯”而受到批评。更糟糕的是，这样的误会在某些专业领域造成的风险会大大增加，比如不当的法律意见或者不当的医学咨询建议。恶意用户利用人工智能产生虚假的新闻、文章或评论，达到混淆视听、引导舆论、进行欺诈等目的。这种虚假的内容往往经过精心装扮，很难分辨真假，因而极易误导大众。

第二，假冒身份信息实施欺诈。生成式人工智能可以被用来制造一个假的社交媒体账号或者是一个线上的个体ID。这会引起身份欺诈、欺诈或其他让人难以辨别真假的恶意行为。例如，生成式人工智能能够被用来产生假的语音，它可以模拟某人的语音，也可以模仿某些语音特点。2021年10月，安徽合肥警方成功抓获了一个在合肥、青岛等地非法利用AI人工智能技术伪造他人人脸动态视频，为黑灰产业链提供注册的虚拟手机卡等技术支撑的犯罪团伙。可以看出，这样的犯罪团伙对社会危害不小。

第三，涉及知识产权侵权。生成式人工智能在文本生成过程中，利用数据挖掘技术对人类以往创造的文本进行大量的借鉴、学习和模仿，并对其进行一定程度的重构与再创造。如果是非商业用途，则不会有争议；若用于商业用途，可能会侵犯到《中华人民共和国著作权法》第10条中规定的作者的复制权和改编权［14］。若生成和他人受著作权法保护的作品混淆的文本内容，引起公众误认，还会产生不正当竞争的风险。

三、生成式人工智能数据风险的阶段性治理

根据上述的分析，生成式人工智能在每一阶段的算法逻辑和操作主体不同，所造成的数据风险也不同，相应的，在针对这些数据风险进行治理的时候要考虑到每一阶段的特点。本文将尝试提出每一阶段的治理原则和具体方法以防范生成式人工智能的数据风险。

（一）数据收集和抓取阶段：以开发者为主的多主体协同共治

在这一阶段，数据风险主要来源于开发者的数据收集过程和抓取过程，所以应该以开发者为主体来防范风险，同时国家法律、用户以及行业组织从中起辅助作用。对于生成式人工智能的开发者而言，可以构建以数据为中心的数据安全治理平台，这样能够有效实现数据风险感知、数据共享并使数据质量可靠［15］。以机器学习为核心的生成式人工智能，数据质量是其成功运行的关键。为减少“脏数据”，即那些错误的、残缺的或有侵权风险的数据，所带来的错误数据和编码误差，在数据预处理阶段进行数据清洗是一种有效的方法。数据安全治理平台可以包含数据清洗这一关键步骤，包括清洗重复数据、清洗缺失数据、清洗不合理数据［16］。例如，ChatGPT的开发者就试图通过使用“检测和删除不适当内容的技术组合”来解决这个问题。这一过程包括预审核，即一组人工审核员在内容公开之前审查和批准内容［17］。除此之外，数据安全治理平台可以监测数据是否具有合理来源，也可以与其他开发者共享被检测出的数据风险漏洞。

但构建以数据为中心的数据安全治理平台需要花费开发者不少的资源，开发者在衡量支出和收益后有可能会怠于构建该数据安全治理平台，所以需要多方协同共治。各个国家可以通过发布规范性文件的方式指导和督促生成式人工智能的开发者构建该种数据安全治理平台。

（二）预训练和优化训练阶段：开发者与政府软硬并施

数据泄露、数据跨境流动、侵害用户删除权的风险主要来源于生成式人工智能的运行阶段，在这一阶段模型基本已经形成，只依赖开发者不能防范这一阶段的风险，主要原因是开发者的义务如果没有强制力保障实施，将会流于形式。

首先，开发者与政府联合起来加强数据被动出境治理。作为数据业务的直接参与方，开发人员在操作层面上更能及时地发现数据安全的风险［18］。作为公权力的行使者，政府能利用强制力量防控数据的被动出境。具体来说，可以从以下两方面落实：一是可以借鉴美国的“受控非密信息”的数据标识制度，采用电子标记的方式来实现数据泄露后的可追溯性［19］。有了这种可追溯性的标识，国内相关的开发者在与国外相关的研发组织进行对接时，进行的一系列数据流通或者交易行为，只要涉及到“受控非密信息”就会立刻被察觉并且及时阻止，从而保护国家安全。二是可以鼓励生成式人工智能开发者公开对数据安全有威胁的信息。目前，我国对于数据的安全监管仍通过单个主体进行监督，单个主体监督面对越来越复杂化的数据流通形式，在防范数据安全威胁上也会显得力不从心。针对这一问题，可以参考美国的网络安全信息共享法中的有关条款，在法定条件下，允许企业主动分享信息，鼓励企业主动加入到数据跨境安全的建设和共享中来。

其次，政府应该督促开发者建立数据销毁制度以保护用户的删除权。即使用户同意将信息用于初步训练阶段，并不代表开发者可以将用户的信息用于每个阶段的训练中，用户应该享有合理的删除权。我国《个人信息保护法》对删除权利有明文规定，但对删除方式却没有具体规定，欧盟第29条数据保护工作组在对云计算问题的评论中指出，删除个人数据的意思是不管个人数据是储存在硬盘或其它储存媒体上都应该被删除。因为个人数据可能会在多个地方备份，所以，必须保证所有的数据都能以无法复原的方式被删除。如果只是不能在线存取或删除回收站中的东西，并不能算是删除，因为处理者可以轻松地重新获取并利用这些个人信息。所以，删除的法律后果应当是完全消除［20］。但不是所有的数据都能通过行使删除权彻底删除，否则势必对个人信息合理利用造成一定的阻碍，这与我国“加快构建数据基础制度，充分发挥我国海量数据规模和丰富应用场景优势，激活数据要素潜能，做强做优做大数字经济”的大政方针不符［21］。因此，对于开发者的数据销毁制度，应当附加一定的条件，即限缩在“可能侵害个人权益”的情形下。

（三）输出阶段：以用户为主的内容治理体系

目前的生成式人工智能虽然已经有了许多令人震惊的功能，但是人工智能的“奇点”尚未到来，这意味着人工智能只能模拟思维，却不拥有思维、不能思维。因而，人工智能不可能成为主体，它只能是工具［22］。在输出阶段的大部分风险是用户操作生成式人工智能这个工具时所产生的，所以这一阶段的风险防范应该以用户为主，应该规范用户承担的义务并提升用户的甄别能力。同时开发者的技术进步也能辅助降低输出内容的风险。

首先，使用者要加强信息素养，提高辨识信息真伪的能力。虽然生成式人工智能技术在计算能力、算法以及海量语料等方面增加了用户识别文本真实性的困难，但是，培养良好的信息素养可以帮助提升用户的辨别能力。使用者可以通过三种方式提升自己的信息素养。一是提高使用者的批判性思考能力，批判思维有助于人们在利用 ChatGPT等生成式人工智能的过程中对所产生的内容进行适当的甄别，而不是完全认同。二是使用者要对所产生的信息进行核对与核实，以减少不正确数据与信息的使用频率。使用者可以在其它人工智能系统的帮助下，搜索出相同的问题，然后再进行对比。三是用户要形成一种习惯，即从权威来源获取信息或回答。

其次，针对假冒身份信息实施的欺诈行为，要加强对法律法规的宣传，提高人民群众的反诈意识，指导广大网友依法、合理地使用法律规定的软件，并对“仿冒”链接进行正确鉴别，防止个人信息外泄。在此基础上，加快新技术标准的制定，研究算法推荐等相关技术管理体系的具体实施途径，明晰搜集信息的界限，提升应用程序研发与应用的透明性，保证其在安全、伦理、尊重公民权利与隐私的前提下进行。

最后，为了避免生成的内容涉及知识产权侵权，用户应该尽到注意义务和标注义务。一方面，当用户通过 ChatGPT进行创作时，除了要主动地标记“作品”是如何产生的，还需要明确该作品的著作权人是谁。这一点很重要，是为了便于平台及其它使用者对这些内容进行监管。如果用户所使用的数据属于未授权或越权（除法定公布的数据外，如政府公布的数据内容等），则可向平台或 ChatGPT申请删除。另一方面，使用者在使用过程中所负的谨慎责任也不尽相同。由于不同的使用者在使用 ChatGPT的技术逻辑、使用模式和可能产生的风险等方面都有不同的理解，因此，在设定上也应该有所不同。使用者可以被划分为职业使用者与非专业使用者。按照欧盟消费法律的规定，职业使用者是指将人工智能产品用于职业用途的一个实体。这些例子包括营利或非营利的公司、非政府组织、行政机关、法庭和立法机关等等。同理，非专业用户是指将AI输出用于非专业目的的实体。

四、结语

生成式人工智能依靠的是算法，而数据则是其生长所需的养料，因此其重要性不言而喻。只有在海量高质量数据的不断学习和重复中，算法才能不断地得到优化，并展现良好的性能。本文从三个阶段探讨了生成式人工智能可能会存在的风险，并尝试提出每一阶段的治理重心。在对未来风险的防范观念上，我们的观念应该从绝对安全向相对安全转变。社会学家乌尔里希贝克认为，在现代化过程中，由于科学技术的不断发展、经济的全球化，产生了各种各样的风险，这是很难预料和计量的。这种危险是超越时间、超越社会、超越一切的，是不可能被彻底消灭的，具有绝对性是必然的［23］。本文所提到的风险或许能通过多种途径降低，但是从根本上来说无法做到完全消除，人类的未来是与AI风险共存的未来。

参考文献：

［1］李宏策.教科文组织号召实施全球AI伦理规范［N］.科技日报，2023-04-04，（004）.

［2］万玉航.意大利封禁、加拿大宣布调查……ChatGPT屡屡撞上数据安全质疑［EB/OL］.（2023-04-06）［2023-12-23］.https：//tech.cnr.cn/ycbd/20230406/t2023 0406_526208979.shtml.

［3］丁磊.生成式人工智能： AIGC的逻辑与应用［M］.北京：中信出版社，2023：59-87.

［4］［7］苏江.ChatGPT使用指南：人人都应该掌握的AI最强工具［M］.北京：北京理工大学出版社，2023：116-118.

［5］罗艺，潘璐.ChatGPT4：现状、风险与法律回应［C］//上海市法学会.上海法学研究集刊2023年第6卷（2023年世界人工智能大会青年论坛论文集）.上海：［出版者不详］，2023：9.

［6］朱光辉，王喜文.ChatGPT的运行模式、关键技术及未来图景［J］.新疆师范大学学报（哲学社会科学版），2023（4）：113-122.

［8］邓建国.概率与反馈：ChatGPT的智能原理与人机内容共创［J］.南京社会科学，2023（3）：86-94.

［9］郭小东.生成式人工智能的风险及其包容性法律治理［J］.北京理工大学学报（社会科学版），2023（6）：93-105.

［10］钭晓东.风险与控制：论生成式人工智能应用的个人信息保护［J］.政法论丛，2023（4）：59-68.

［11］毕文轩.生成式人工智能的风险规制困境及其化解：以ChatGPT的规制为视角［J］.比较法研究，2023（3）：155-172.

［12］刘语，曾燕.论有偿使用制度推动公共数据开放发展［J］.西安交通大学学报（社会科学版），2023（4）：90-99.

［13］商建刚.论生成式人工智能时代的被遗忘权［J］.时代法学，2023（3）：1-10.

［14］王晓丽，严驰.生成式AI大模型的风险问题与规制进路：以GPT-4为例［J/OL］.北京航空航天大学学报（社会科学版），2024（3）：1-11［2024-02-01］.http：//gfffgd97c66c3752f4337sfbwpb95bvvfo6k0w.fgfy.jxjjxy.cwkeji.cn/kcms2/article/abstrac t？v=C_qHzaiysLVgflyoXPRXO3C-JH92 LFOWEcoH3qxkr-zAphFAKGj298yv7Rx2 2NNGDjocY972EqDBo3YBS9KT48a9c3HN5 wFGMiT_xieB5ADZF4UooO0D0YD1Cqax JgBxELsWSIaazFM=&uniplatform=NZK PT&language=CHS.

［15］林伟.人工智能数据安全风险及应对［J］.情报杂志，2022（10）：105-111.

［16］詹晓林，张笑宇，曾晶，等.数字政府一体化建设中数据预处理技术的研究［J］.互联网周刊，2023（20）：37-39.

［17］蔡士林，杨磊.ChatGPT智能机器人应用的风险与协同治理研究［J］.情报理论与实践，2023（5）：14-22.

［18］马其家，刘飞虎.数据出境中的国家安全治理探讨［J］.理论探索，2022（2）：105-113.

［19］周亚超，左晓栋.美国受控非密信息分类与安全控制解析［J］.网络空间安全，2020（3）：12-17.

［20］程啸.个人信息保护法理解与适用［M］.北京：中国法制出版社，2021：85-92.

［21］王苑.中国语境下被遗忘权的内涵、价值及其实现［J］.武汉大学学报（哲学社会科学版），2023（5）：162-172.

［22］程承坪.人工智能：工具或主体？：兼论人工智能奇点［J］.上海师范大学学报（哲学社会科学版），2021（6）：5-12.

［23］薛晓源，刘国良.全球风险世界：现在与未来：德国著名社会学家、风险社会理论创始人乌尔里希·贝克教授访谈录［J］.马克思主义与现实，2005（1）：44-55.

（责任编辑程荣荣）

*基金项目：西南政法大学2023年度学生科研创新项目“类ChatGPT人工智能嵌入数字政府建设的价值与风险防控研究”（编号2023XZXS-168）。

收稿日期：2024-03-19

作者简介：陈煊（2000—），女，重庆万州人，西南政法大学行政法学院硕士研究生，研究方向为法理学。