文/胡静 张钰坤 编辑/王亚亚
ChatGPT(Chat Generative Pre-trained Transformer)本身并非一个外显的前端产品,而是使用Transformer神经网络架构、基于大量预训练自然语言处理模型,在多种任务类型上对自然语言进行微调,从而生成高质量自然语言文本的聊天机器人或技术应用。该产品由美国OpenAI公司于2022年11月30日发布,随后引起全球关注。ChatGPT在问答、客户服务、教育辅导、娱乐、自动化任务、文书翻译等各个方面的优异表现引起了全球范围内对其技术、伦理、合规性的大范围讨论。
2022年12月,为加快构建数据基础制度,充分发挥我国海量数据规模和丰富应用场景优势,激活数据要素潜能,做强做优做大数字经济,《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》正式发布。作为当下我国市场经济发展进程中的新型生产要素,数据要素是数字化、网络化、智能化的基础,它不仅快速融入生产、分配、流通、消费和社会服务管理等各环节当中,而且深刻改变着生产方式、生活方式和社会治理方式。ChatGPT是近年来影响范围最大的标志性技术,作为分析“数据要素”与“合规”之间关系的切入点,笔者拟探讨以数据作为生产要素的新兴技术在我国现行法律体系下的合规风险以及相关启示。
作为信息载体,数据具有流动性,并在其流动过程中进一步发挥价值。数据全生命周期的流程同样适用于ChatGPT对数据的处理。从法律角度,还原ChatGPT工作原理,有助于判断其合规风险。
ChatGPT工作原理如下:一是在预先训练阶段,ChatGPT通过学习大量的文本语料来构建语言模型。这些语料包括各种文本,如新闻、小说、博客等。通过对语料的学习,ChatGPT可以捕捉语言的语法、语义和惯用法。二是预处理,ChatGPT的输入是自然语言文本,因此需要进行一些预处理,例如分词、词干提取、停用词去除等,以便模型可以更好地理解文本的含义。三是建立模型,ChatGPT是一种基于深度学习的预训练语言模型,它使用了多层的Transformer网络,并在大规模文本数据上进行了预训练。模型的输入是一个文本序列,输出是一个概率分布,表示在当前上下文中下一个词的出现概率。四是微调模型,开发者需要提供一个特定领域的文本数据集,例如对话数据、问答数据等,在此基础上对ChatGPT模型进行微调。微调的目的是让模型更好地适应特定的任务和领域,如回答特定问题、支持客户服务等。五是生成文本,在得到微调后的ChatGPT模型之后,可以使用其来生成自然语言文本。输入一个上下文序列,模型会输出一个概率分布,表示在此上下文中下一个词的出现概率,开发者可以根据需求选择概率最高的词作为下一个词,不断生成文本,直到达到预定的长度或满足特定条件。
所有互联网信息服务产品都有其预设的使用场景及使用功能。基于ChatGPT技术所设计的服务提供形式为对话(Chat),目前ChatGPT主要应用场景及功能如下:
一是问答系统。ChatGPT可以用于构建智能问答系统,如智能客服、智能助手等。用户可以通过输入问题来获取答案,ChatGPT会根据问题进行推理,给出最相关的答案。
二是文本生成。ChatGPT可以用于生成各种类型的文本,如文章、摘要、标题等。开发者可以通过微调ChatGPT模型来控制生成的文本风格和内容。
三是机器翻译。ChatGPT可以用于机器翻译,例如将一种语言的文本翻译成另一种语言的文本。机器翻译需要大量的语言模型和语料库,ChatGPT可以通过微调来适应不同的语言和领域。
四是语音识别。ChatGPT可以用于语音识别,如将音频文件转换成文本。语音识别需要对语音信号进行预处理和特征提取,ChatGPT可以通过微调来适应不同的语音信号和语音场景。
五是情感分析。ChatGPT可以用于情感分析,如自动判断一段文本的情感倾向。情感分析需要对文本语义进行理解和分析,ChatGPT可以通过微调来适应不同的情感表达和语境。
由此可见,目前ChatGPT适用的应用场景,主要是通过文本内容输出的形式提供服务。通常来说,人工智能是指能够在有限的或没有人类干预的情况下,自行执行被认为需要人类智慧的任务的机器和系统。而与之对应的,人工智能生成内容(Artificial Intelligence Generated Content,AIGC),泛指运用人工智能技术生成的内容,包括人工智能技术直接生成的内容,以及在人工智能技术直接生成的内容的基础上,后期经过人为修改后最终形成的内容。ChatGPT生成的内容属于AIGC。
一是算法合规。近年来,推荐算法逐渐成为数据合规领域的一个重要问题,呈现于各类法律实践以及社会实践当中。2021年12月,国家互联网信息办公室联合工业和信息化部、公安部、市场监管总局发布《互联网信息服务算法推荐管理规定》(下称《算法推荐管理规定》)。根据《算法推荐管理规定》第二条第二款规定,“应用算法推荐技术,是指利用生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类等算法技术向用户提供信息。”基于对上述规定的文理解释,ChatGPT所应用的生成合成类算法技术无疑属于算法推荐技术之一,根据《算法推荐管理规定》的要求,ChatGPT及同质产品需满足算法审核评估、显著标识、算法可解释、内容审查、确保用户自主决定权、备案及安全评估等方面的合规要求。
根据《算法推荐管理规定》的要求,ChatGPT及同质产品需满足算法审核评估、显著标识、算法可解释等方面的合规要求。
根据我国2023年1月10日正式实施的《互联网信息服务深度合成管理规定》(下称《深度合成规定》)第二十三条第一款规定,“深度合成技术,是指利用深度学习、虚拟现实等生成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术。”ChatGPT通过大量训练数据开展算法训练,采用深度神经网络来学习语言的结构和规则,从而能够生成自然流畅的文本和语句,这一工作原理与上述规定相吻合。依据《深度合成规定》,企业在通过ChatGPT及同质产品直接或间接提供服务时,应当履行算法合规义务。目前,《深度合成规定》中所规定的合规义务包括但不限于信息安全主体责任、个人信息保护义务、内容审核义务、训练数据管理义务、算法定期评估义务等。
二是个人信息保护。《个人信息保护法》是我国关于个人信息主体及其个人信息权益保障的首要法律。从个人信息保护合规的角度来看,ChatGPT的主要合规风险包括个人信息权益响应风险以及数据来源风险。ChatGPT基本功能是聊天及对话,这一强大功能来自算法训练,在训练过程中将不可避免地涉及对用户聊天信息等隐私个人信息的收集,也难以避免使用用户聊天记录进行算法训练。结合“算法黑箱”的特性,用户在使用ChatGPT过程中所提供的个人信息上附着的个人信息法定权益,如撤回、修改、删除的权利等,将难以得到保障。在ChatGPT对于用户个人信息的收集与处理的场景下,这些个人信息不仅作为单次服务本身的基础要素,也会被用于对算法的训练。这些个人信息的权益响应、响应模式以及消散在网络空间中的个人信息所附着的权益,现阶段都难以通过有实质性帮助的便捷方式得到保障。
此外,ChatGPT还面临着数据来源的合规性风险。ChatGPT中所内生的算法需要通过大量的训练数据“滋养”从而达到最终效果,其训练数据中涉及的“个人信息”的处理和使用也存在违反我国《个人信息保护法》中的“最小必要”原则要求的风险。
三是著作权保护。著作权的归属问题是ChatGPT问世之后,首先进入视野并受到大范围讨论的问题。我国《著作权法实施条例(2013修订)》第二条规定:“著作权法所称作品,是指文学、艺术和科学领域内具有独创性并能以某种有形形式复制的智力成果。”根据该条款,AIGC是否属于著作权法意义上的作品,还是需要从其本质出发进行分析。对此,学界以及实践中众说纷纭,就基本判断标准而言,AIGC只有在满足独创性、有形性、可复制性与智力成果四个要件的情况下才能构成著作权法所保护的作品。目前AIGC的构成要件争议主要围绕在“创作主体是否满足关于作者的主体要求”以及“内容本身是否满足独创性要素”两者上。在我国著作权法中,作品必须满足人类为创作主体的要求,在AIGC场景下,人类参与创作的成分越少,则越难以被定义为作品,反之,则越容易被界定为是作品。
此外,就训练数据的合规性而言,训练数据库还需要避免侵害第三方著作权。因为此类算法训练难以避免地涉及使用大量受到著作权法保护的作品,该等训练数据合规性所造成的著作权侵权风险,包括但不限于:(1)生成物的复制权、改编权、署名权风险。目前我国对合理使用仍采取封闭模式规制,并未承认文本挖掘构成合理使用,因此文本挖掘可能侵犯文字作品的复制权、改编权、署名权等著作权。(2)数据来源的训练素材侵害第三方著作权之风险。著作权侵权、改编权、汇编权等二次创作许可都是ChatGPT运用场景下对于公开数据抓取的潜在风险。(3)著作权归属风险。目前,对于AIGC的著作权归属尚未出现明确的定论,大批量或者专业使用ChatGPT或同类技术生成“作品”可能面临权属不明的合规风险。
AIGC只有在满足独创性、有形性、可复制性与智力成果四个要件的情况下才能构成著作权法所保护的作品。
四是反垄断风险。目前,根据学界以及实务界的讨论,以ChatGPT为代表的算法技术应用所可能涉及的潜在反垄断风险主要有两类。一是算法价格歧视造成的超级平台垄断,用消费者数据进行消费习惯分析,其目的在于对交易相对方(消费者)采取有针对性的算法垄断定价。二是人工智能达成垄断协议,即价格算法合谋。这种价格算法合谋主要包括明示价格算法合谋、默示价格算法合谋、虚拟合谋三种主要类型,明示价格算法合谋是指经营者通过明示的协商沟通,就价格算法达成合谋以期实现价格垄断,价格算法是实现与维持合谋之工具;默示价格算法合谋是指经营者之间不存在明示的意思联络,而通过认可相互之间的依赖性以实现和维持合谋,价格算法则是经营者认可相互依赖性的关键工具;虚拟合谋是指即便经营者并无合谋意图,其采用的价格算法会在无需人为干预的状态下进行高效的反复试验,最终达成经营者之间的合作性均衡,实现合谋的效果而损害消费者利益。
五是其他风险。ChatGPT还可能涉及到内容合规风险,即ChatGPT生成的内容可能包含违法信息的答复,这将对内容审核提出较高要求。同时,未成年人保护问题也不可忽视,未成年人保护义务是国际环境中公认的重点事项。从个人信息处理到内容产出,我国现行有效立法对于未成年人的相关保护亦具有较高要求的合规义务。此外,也可能存在反不正当方面的合规风险。目前,数据背后所代表的企业合法利益以及商业价值正逐渐被法律界认可。《反不正当竞争法》的最新修订草案征求意见稿中指出,经营者不得以不正当的方式获取或者使用经营者的商业数据。因此,围绕爬虫技术以及机器人流程自动化技术为基础的数据来源合规性,势必成为大量训练数据的主要合规风险点之一。
包括ChatGPT在内的人工智能产品合规之路任重道远。尽管我国目前尚无国家层面上的人工智能产业立法,但地方已经有相关的立法尝试,如《深圳经济特区人工智能产业促进条例》《上海市促进人工智能产业发展条例》。随着人工智能技术的不断发展,我国相关法律规定也将逐步完善。
结合上文所述的以ChatGPT为代表的人工智能技术在应用层面的潜在法律风险,笔者对市场主体开展类ChatGPT业务有以下合规指导建议:
一是在人工智能项目开展前期就进行风险控制。人工智能技术使用者可以通过定向邀请、局部试点的方式,采取“用户体验计划”等灵活形式开展相关项目,以确保使用的人工智能技术/服务能够得到充分测试,帮助企业发现可能涉及的合规/技术问题,并做到一定程度的成本控制。根据《算法推荐管理规定》,开展算法进行动态自评估是我国现行规范下的合规要求。在算法递进升级或者业务方向调整的过程中,公司宜设立相关的算法定期评估机制,以保证对于合规风险的及时识别以及有效处理。
二是针对外部供应商,公司可采取协议控制措施以及开展技术检测,以有效防范合规风险。在各类业务或者服务采购当中,对于数据合规或上述显著合规风险的协议控制都将是直观有效的风险控制手段。此外,技术层面的网络安全或者数据安全检测,也可以很好地从实践层面保证公司在人工智能业务开展过程中不会因供应商的服务、质量问题而导致项目合规风险敞口明显扩大。
三是对于用户端,企业关于人工智能技术应用的风险提示以及隐私提示必不可少。在特定的功能场景以及页面下,显著、明确、合法、有效的风险提示以及隐私提示,也是《算法推荐管理规定》明确规定的合规举措。
四是企业可对数据来源的合规性予以把控,并定期开展合规性评估。为满足特定业务开展所需的训练数据,公司可对数据来源设置控制机制以及合规评审制度,并从多个角度出发,对于数据类型、数据来源主体、数据获取方式、数据获取频率、数据获取量级进行综合评估,从而避免该等风险敞口的不合理扩大。
五是若涉及境外人工智能业务的开展,公司需要充分考虑境外特定业务覆盖区域的法规、风俗、道德与国内的差异,包括在特定数据处理方面的规定。此外,在人工智能技术服务提供过程中,企业需要充分考虑境外关于性别、年龄、地域、学历、种族等多样性因素,并配套个人信息保护、数据安全、网络安全的制度搭建。