祝洛斌
青岛科技大学,山东 青岛 266061
2023 年由OpenAI 发布的ChatGPT 在互联网中大火,将生成式人工智能一时间推上风口浪尖,ChatGPT 在2022 年推出之初,并未如此引人关注。同时期的生成式人工智能软件还有Midjourney,该两款软件为当下生成式人工智能的代表作品,一款为语言对话类软件,另一款为画图类软件。令人惊讶的是无论对话类还是画图类软件,生成式人工智能的发展远超乎我们想象。
OpenAI 对ChatGPT 的研究发展实则早已于2018 年开始,彼时的人工智能软件多数处于大数据训练阶段,从ChatGPT3.0 版本面世后,才开始真正引发大家关注。该语言对话模型的智能程度虽然未能和人类相似,但也远超于之前所有的对话类人工智能软件。用户不仅仅可以与其正常对话,也可以纠正其错误,并且引导其学习,最终获得更为智能的问答。例如,可以让其模仿写作、撰写代码等。之后发布的ChatGPT4.0 版本中,其智能程度愈加先进,在与其对话时,其所展现的不再是之前大多数对话模型所产生的割裂感,而是向世人展示出相当于人类的对话思路、答案。
生成式人工智能的发展速度是让人惊讶的,每一次的模型迭代升级,都会默默改变我们未来的生活,但同时其带来的风险也不容小觑。2023 年3 月,包括特斯拉创始人埃隆·马斯克在内的千名专家公开呼吁暂停训练ChatGPT4.0 后续数据模型至少6个月并签署公开信,其后,同年4 月11 日我国国家互联网信息办公室公开发布《生成式人工智能服务管理办法(征求意见稿)》。我国各大科技公司在ChatGPT 爆火后,陆续公布自身旗下的生成式人工智能产品,但是该类型产品未来会发展到何种程度,我们不得而知,不过其已对目前已有的法律体系造成了重大的影响。本文将从生成式人工智能的工作原理简要剖析,进一步分析可能产生的法律风险,并提出应对措施。
生成式人工智能采用深度合成技术,其基于机器学习方法从海量的数据库中学习,同时进行纠错训练,再从数据库中选择并生成相对应的内容。根据OpenAI 公司官网介绍,ChatGPT 是一个大型的语言训练模型产生的内容生成器,工作时首先通过其核心算法模拟人类语言规则,其次便是在该算法的基础上进行神经网络深度学习,在学习的过程之中利用海量的数据输入进行训练,最终达到当下可以在人类语言规则基础上输出内容的目的。通过与用户对话的方式可以纠正其错误,最终用户便可得到其想要的相关答案,使用ChatGPT 时输入的资料可以是语言文本、图片图像、计算机代码等。自ChatGPT 爆火以来,国内外互联网公司的很多软件都宣传接入其端口,大量学者盛赞其足以改变世界,但在其飞速发展的背后,存在的风险被提及的少之又少。众所周知,法律的现实问题之一就是具有滞后性,目前科技所带来的挑战正在浮现,各国已经陆续开始针对生成式人工智能进行一定的规制,因此,以下将针对生成式人工智能的主要工作原理对其风险进行简要分析。
1.侵犯个人网络数据及商业秘密安全
规避生成式人工智能所带来的风险可以从生成式人工智能的工作原理下手。首先从其输入信息开始,ChatGPT 的对话水平能达到现在的拟人程度,其需要海量的数据进行训练,对于该训练数据以及使用时其作出的多数回答,都需要引用现成的网络数据,但该训练数据OpenAI 公司并没有披露其来源。在当下的互联网时代,我国对于个人网络数据的保护,主要依靠于《网络安全法》、《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》),其中《个人信息保护法》第十三条规定,处理个人信息需要取得本人同意。而目前生成式人工智能的特点便是前期需要海量数据训练,如果其在网络数据中搜集个人信息进行训练,则不可能获得每个人的同意,若训练所用的数据为公共网络平台的开放数据,其也可能侵犯《个人信息保护法》中第二十七条、第三十五条等规定,原因在于,其对于公开个人信息的训练使用是否在合理范围内、是否会对个人权益造成重大影响等均是不可知的,因为生成式人工智能存在算法黑箱,无法得知其所搜集的数据来源,包括我国已经公布的生成式人工智能平台也未对训练数据的出处做出详细说明[1]。
除去关乎个人隐私的数据之外,还有多数公司的商业秘密同样可能受到侵犯。用户在使用ChatGPT 时,通常是通过对话交互的方式来进行,而与其交流时用户所提供的信息同样会变成其学习的资源。之后其他用户再使用ChatGPT 时,其可能会借助于以往用户所输入的信息进行回答,同时根据OpenAI 中ChatGPT 使用协议第3(c)条“为了帮助OpenAI 提供和维护服务,您同意并指示我们可以使用内容来开发和改进服务。您可以在这里阅读更多内容,了解如何使用内容来提高模型性能”,表明了OpenAI 对用户所输入的信息会进行训练利用。若用户在使用ChatGPT时输入相关公司商业秘密,便有可能出现泄露的风险。例如,2023 年4 月某星电子公司在引入ChatGPT 不到20 天便发生了3 起相关的商业秘密泄露事件,其中包括半导体相关代码以及会议记录。该次事件体现了目前生成式人工智能对数据使用的规范存在漏洞。当此类应用开始大规模推广,更多公司机构开始接入ChatGPT 时,必然出现更多的商业秘密或是国家机密泄露的风险。
2.侵犯他人知识产权风险
根据《中华人民共和国著作权法》中的相关规定,著作权的创作主体为自然人,因此,依据现有法律规定,ChatGPT 等生成式人工智能无法取得著作权[2]。但是,在学界中针对这一问题尚存在相当的争议。同时在实务当中,以广东省深圳市南山区人民法院(2019)粤0305 民初14010 号判决书为例,2019 年某讯诉上海某盈科技有限公司,法院认定某讯旗下D 软件所生成的文章具有独创性,即在独立创作及外在表现上是否与已有作品存在一定程度的差异或具备最低程度的创造性上进行分析判断,该文章具有独创性,故承认其受到相应的著作权保护。对于生成式人工智能是否能取得著作权,实践中存在较多争议,本文便不做讨论,此处仅从其使用过程中可能造成的对著作权等知识产权的侵犯风险进行分析。
按照生成式人工智能的工作原理,整个运行流程由三方共同参与,即软件方平台方、训练该软件者或者是提供生成特殊图像文字作品的代码提供者以及最终的使用方。若最终的作品存在侵权,则很难对这三方进行责任划分。在训练与使用生成式人工智能软件之时,通常我们会使用大量现成的图像或者是文字作品;对于已经发行的作品,若人工智能自行索取或是被人恶意进行投放训练,这是否会侵犯该作品作者的著作权、其产生的作品又是否与其用于训练的作品版权相关等问题都值得深思。
3.生成内容虚假、违法风险
自从互联网时代蓬勃发展开始,网络谣言、网络暴力等不良现象层出不穷。生成式人工智能所产出的作品,因其特点所产生的虚假违法信息的传播风险更大。依然从ChatGPT 的运行机制来看,使用大量数据进行训练时,若对数据信息没有强有力的监管,输入进行训练的数据存在违法违规,那所得出的内容也常常存在着虚假违法的风险。虽然OpenAI 在宣传ChatGPT 时特别说明了其核心算法处于中立,并且屏蔽了色情、暴力、歧视等内容[3]。但在实际使用之中,使用者依然可以通过诱导等手段,使ChatGPT 输出不良信息,突破本身算法所约束的规定。同时,ChatGPT 在遇到部分问题时,可能会直接编造答案,让人真假难辨,该类信息若经过传播极有可能造成大规模虚假信息蔓延。随着生成式人工智能的不断发展进步,类似的风险若没有及时得到规避,可能会让网络环境愈发糟糕。
若国外生成式人工智能全面进入我国开展经营活动,或是我国同类软件可以达到相近的智能程度,其产生的各类风险是不可避免的。因此,现阶段应当依据生成式人工智能的特点,作出针对性的规定,对相关法律解释进行详尽的规制。下文将对可能存在的问题提出相应的解决思路。
对于生成式人工智能所带来的挑战,我们应当积极应对。由于法律具有滞后性,这导致当下多数生成式人工智能都缺乏法律的规制,因此我们应当从立法入手。2023 年4 月,国家互联网信息办公室发布了《生成式人工智能服务管理办法(征求意见稿)》,这是我国首部针对生成式人工智能制定的法律法规,但其中多数细则是引用当下现成的法律,这对于复杂新颖的生成式人工智能是远远不够的。例如其中第二条提到,“本办法所称生成式人工智能,是指基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术”。根据该条我们不难看出,是对于几乎所有类型的生成式人工智能类型统一进行规制,但文本图片与代码的生成逻辑、技术等具有非常大的差别,因此对生成式人工智能的规制需要分类进行。从技术角度出发,针对每类不同的特点进行更加细致的规定,以保障生成式人工智能的平稳发展;也可以从整个产业链进行分区治理,生成式人工智能主体为内容生成者、内容服务平台、内容服务使用者,对于生成式人工智能的立法规制,绝不是一部法律就可以完成的。对于产业链中的各个环节,应当详尽分类考究。法律规制是对其发展的保驾护航,同时也需要掌握好限度,过于严格的规制反而会限制其正常发展。
生成式人工智能能够达到目前的智能化、拟人化程度,有一点不可忽略,那便是其通过大量数据进行训练。为保证训练数据的精准度,目前甚至催生出相对应的人工智能训练师岗位,主要职责是精准训练生成式人工智能大模型。无论是文本图像还是代码生成,生成式人工智能在经过数据训练后依然可能出现错误,此时就需要纠正其错误并进行相对应的专项数据指导。我国目前生成式人工智能行业仍处在大模型进行数据训练的环节,对于其训练使用的数据则是整个生成式人工智能发展的重中之重。对于该部分法律保护通常依托于《个人信息保护法》,再者便是还处于征求意见阶段的《生成式人工智能服务管理办法(征求意见稿)》,其中第七条规定,平台训练生成式人工智能的数据中涉及个人信息的应当取得信息主体同意。但从实际情况来看,该规定很难被遵守。
利用海量数据训练人工智能是当下共识,若每一次涉及个人信息都需要完全许可,便如同天方夜谭。因此,对于当下需要的训练数据和使用时所需要投入的数据,首先,应当明晰其特殊属性,在保证个人信息安全的前提下,让其保持在类似于“沙盒”(是一种安全机制,能够为运行中的程序提供隔离环境)的特定分区中进行单独训练;其次,在使用软件中用户投入数据进行对话操作,该步骤有强烈的主观性,故应当详细说明并告知使用者风险;最后,平台服务商应当在程序中提高数据敏感度,防止违法违规数据被运用到训练中。
生成式人工智能与之前各类新技术不同,具有更强的专业性、自我学习能力,这使得监管难度提高。首先,应当确定监管主体范围,目前法律法规中监管主体庞杂,涉及部门众多,反而可能无法有效进行管理[4]。对于新技术的态度应当更加宽容,对生成式人工智能发展状况进行全程的监督,尤其是核心算法部分,应当及时在国家备案,必要时对其进行跟踪研究,以备不时之需;其次,监管机构应当与业界保持联动,从专业角度评估风险,并以更全面的方式指导实施;最后,监管部门应引导该行业制定其行业标准,形成行业内部制约,进一步规范行业行为。
生成式人工智能的发展是大势所趋,科技的发展无法完全被掌控。针对这一问题,我们可以做好准备迎接其挑战。从目前主要的生成式人工智能工作原理来看,生成式人工智能依然处于“野蛮发展”阶段,主要存在训练数据来源不清晰、算法“黑箱”难以明晰、缺乏体系的整体监管等问题,全球各国对其都处于一个监管的起步期,对于其可能存在的风险,我们应当积极应对,从源头入手,具有针对性地进行逐一破解。总之,生成式人工智能的发展壮大是一个必然趋势,我们需要积极应对其中的挑战和风险,同时也要充分挖掘其潜力和优势,促进生产力的不断提升和社会的发展进步。