加拿大拟对人工智能语料来源立法

2025-02-13 00:00:00刘秉军

检察风云 2025年3期

为促进生成式人工智能的发展，应当豁免模型训练阶段所获语料的版权责任，但也应审慎考量版权方保护问题。

对于人工智能科技公司来说，当前一种通行的运营方式是从网络上抓取现成的信息数据作为语料，用于生成式人工智能模型的训练及内容输出。随着人工智能技术应用的不断发展和普及，内容生产者的反应日益强烈。近日，加拿大各主要新闻机构就此对美国开放人工智能研究中心（OpenAI）提起诉讼。加拿大国会众议院酝酿推动立法，规制人工智能科技公司获取数据作为语料的行为。

人工智能公司频遇诉讼

2024年11月底，加拿大多家主要新闻机构指控OpenAI未经许可抓取媒体发表的文章，用于聊天生成预训练转换器（ChatGPT）。参与起诉的原告方包括《多伦多星报》及该集团旗下的大都会媒体公司、《环球邮报》媒体集团和加拿大广播公司等具有广泛影响的加拿大传媒巨头。这些新闻机构指控OpenAI侵犯著作权，在网络上抓取大量由媒体生产出的内容，并利用这些内容获利。

《环球邮报》刊发的相关声明称：“新闻报道服务于公共利益。OpenAI利用已成文的新闻报道获取商业利益的行为不符合公共利益，属于非法行为。”《多伦多星报》集团首席执行官尼尔·奥利弗在发送给全体员工的备忘录中写道：“科技公司窃取我们生产的内容，我们不会坐视不理。虽然我们要拥抱技术创新带来的机遇，但所有参与者都必须遵守法律。我们的知识产权必须得到合理使用。”

据英国《卫报》报道，一系列诉讼可能让OpenAI付出巨大代价。《多伦多星报》等新闻机构要求OpenAI为每一篇其非法抓取用于训练ChatGPT的文章支付2万加拿大元（约合1.47万美元）。相关诉讼的索赔总额高达数十亿美元。

这不是人工智能科技公司首次面对有关新闻著作权的诉讼。近来，内容版权方针对人工智能科技公司发起多起诉讼。2024年10月21日，媒体大亨默多克旗下新闻集团的子公司道琼斯和《纽约邮报》对Perplexity公司提起诉讼，指控这家人工智能初创公司非法复制大量版权作品。

成立两年多的Perplexity公司为用户提供人工智能聊天机器人，它可以总结搜索结果，列出答案的引用来源，并帮助用户优化查询到的信息，以得出最佳答案。鉴于Perplexity公司在搜索领域的亮眼表现，外界认为该公司或将冲击由谷歌主导的搜索引擎市场。

道琼斯和《纽约邮报》指控称，为了抢占市场，Perplexity公司非法利用出版商生产的内容获取利益，该公司必须为此进行赔偿。

在此之前，美国《纽约时报》曾以侵犯版权为由对OpenAI提起诉讼，要求其停止使用《纽约时报》刊发的内容（主要为在线内容）训练人工智能模型，删除已收集到的语料数据，并作出赔偿。

对“合理使用”有不同理解

面对接踵而至的诉讼，OpenAI否认相关指控，并针对美国和加拿大新闻机构发表声明称：“我们的模型以公开数据为基础，以公平使用原则和相关国际版权原则为依据。我们对创作者是公平的，而且这是支持创新的举措。”OpenAI还表示，对遭遇诉讼感到“惊讶和失望”，公司可以就版权问题与新闻机构进行“建设性谈判”。

Perplexity公司对新闻机构和出版商示好，表示愿意开展合作。该公司为此推出了“出版商收入共享计划”。根据该计划，当新闻媒体和出版商生产的内容被人工智能生成的答案引用时，Perplexity公司将分享一定比例的广告收益。

英国《卫报》指出，人工智能科技公司让出小部分利益，难以满足内容生产方的版权诉求——一些生成式人工智能业内人士也是这样认为的。人工智能公司Stability AI的高管埃德·雷克斯在接受采访时就指出，人工智能科技公司建立并运营生成式人工智能模型，依赖三种关键资源——人员、计算系统和语料数据。很多公司在前两者上投入巨资，有些工程师年薪超过100万美元，一些计算系统的成本超过10亿美元。然而，人工智能科技公司普遍没有针对语料数据进行大规模投资，甚至希望一直免费获取语料。

人工智能科技公司忽略了创作语料的机构和个人。公司通常解释说，其做法受到版权法“合理使用”条款的保护。但是，作为内容生产者，新闻机构和出版商对“合理使用”的理解与科技公司不同。随着人工智能技术应用的不断发展和普及，内容生产者倾向于发起反击。

加拿大国会酝酿相关立法

据加拿大《多伦多星报》报道，加拿大国会众议院下属的工业、自然资源和科学技术委员会，近日发布了讨论立法规制生成式人工智能语料来源的报告。

该委员会认为，生成式人工智能模型训练阶段的版权责任问题，涉及版权保护、激励创作及技术创新、产业发展等多重价值目标，无疑需要科学合理的制度设计。从国际竞争的角度看，为了促进生成式人工智能的产业和技术发展，应当豁免模型训练阶段所获语料数据的版权责任。但是，也应审慎考量如何设计搭建具有实操性的版权方保护机制。

目前针对“生成式人工智能模型训练语料来源”存在成文法规定的国家和地区，具有代表性的是日本、美国和欧盟。三者原则上都豁免模型厂商事前获得著作权人授权的义务，即不必得到著作权人的明确授权。但是，对著作权人给予一定的保护也是相关法律法规的必备条款。报告认为，加拿大应避免采用日本的“宽松模式”和欧盟的“从紧模式”，而应倾向于采用与美国类似的模式。

日本2018年修订著作权法，加入“非欣赏性利用”条款。该条款不区分商业利用和非商业利用情形，豁免了生成式人工智能模型获取语料的责任，规定了“但书条款”——不得对版权人的利益造成不当损害。日本文化审议会著作权分会的相关解释指出，如果版权人主动采取技术保护措施，以防止自身作品被用于生成式人工智能，而人工智能科技公司规避这类技术措施获取语料，即属违法。

2024年3月13日，欧洲议会批准施行新版人工智能法案，其中关于生成式人工智能模型所用语料版权责任的规定有三项：一是模型所获语料的版权责任豁免，前提是厂商合法获取相关作品；二是对于以商业利用为目的语料获取行为，版权方享有事前获知权；三是厂商须制定相应的规则，以识别以商业利用为目的语料获取行为，从而确保第二项规定的执行。

欧盟的上述规定对于人工智能科技公司来说较为严格。2024年3月，谷歌公司就因在训练Gemini产品时违反相关规定，被法国竞争管理局处以2.5亿欧元罚款。

加拿大倾向于采用类似美国的规制模式，即重点关注人工智能模型获取语料是否符合“合理使用”原则。2023年9月25日，美国特拉华州地方法院审结了美国首起人工智能版权侵权案。法院倾向于支持“复制版权作品用于训练人工智能模型”构成“合理使用”，即符合“转换性使用”中的“中间复制”标准。但其前提是：相关模型仅是学习现成作品中的自然语言模式及相关性等，然后根据用户提问，输出不同于原语料作品的新内容。如果相关模型只将原作品复制并存储，然后以类似检索工具的方式根据用户提问输出与原作品相同的内容，则不属于“合理使用”的范畴。

编辑：姚志刚" " winter-yao@163.com