为促进生成式人工智能的发展,应当豁免模型训练阶段所获语料的版权责任,但也应审慎考量版权方保护问题。
对于人工智能科技公司来说,当前一种通行的运营方式是从网络上抓取现成的信息数据作为语料,用于生成式人工智能模型的训练及内容输出。随着人工智能技术应用的不断发展和普及,内容生产者的反应日益强烈。近日,加拿大各主要新闻机构就此对美国开放人工智能研究中心(OpenAI)提起诉讼。加拿大国会众议院酝酿推动立法,规制人工智能科技公司获取数据作为语料的行为。
2024年11月底,加拿大多家主要新闻机构指控OpenAI未经许可抓取媒体发表的文章,用于聊天生成预训练转换器(ChatGPT)。参与起诉的原告方包括《多伦多星报》及该集团旗下的大都会媒体公司、《环球邮报》媒体集团和加拿大广播公司等具有广泛影响的加拿大传媒巨头。这些新闻机构指控OpenAI侵犯著作权,在网络上抓取大量由媒体生产出的内容,并利用这些内容获利。
《环球邮报》刊发的相关声明称:“新闻报道服务于公共利益。OpenAI利用已成文的新闻报道获取商业利益的行为不符合公共利益,属于非法行为。”《多伦多星报》集团首席执行官尼尔·奥利弗在发送给全体员工的备忘录中写道:“科技公司窃取我们生产的内容,我们不会坐视不理。虽然我们要拥抱技术创新带来的机遇,但所有参与者都必须遵守法律。我们的知识产权必须得到合理使用。”
据英国《卫报》报道,一系列诉讼可能让OpenAI付出巨大代价。《多伦多星报》等新闻机构要求OpenAI为每一篇其非法抓取用于训练ChatGPT的文章支付2万加拿大元(约合1.47万美元)。相关诉讼的索赔总额高达数十亿美元。
这不是人工智能科技公司首次面对有关新闻著作权的诉讼。近来,内容版权方针对人工智能科技公司发起多起诉讼。2024年10月21日,媒体大亨默多克旗下新闻集团的子公司道琼斯和《纽约邮报》对Perplexity公司提起诉讼,指控这家人工智能初创公司非法复制大量版权作品。
成立两年多的Perplexity公司为用户提供人工智能聊天机器人,它可以总结搜索结果,列出答案的引用来源,并帮助用户优化查询到的信息,以得出最佳答案。鉴于Perplexity公司在搜索领域的亮眼表现,外界认为该公司或将冲击由谷歌主导的搜索引擎市场。
道琼斯和《纽约邮报》指控称,为了抢占市场,Perplexity公司非法利用出版商生产的内容获取利益,该公司必须为此进行赔偿。
在此之前,美国《纽约时报》曾以侵犯版权为由对OpenAI提起诉讼,要求其停止使用《纽约时报》刊发的内容(主要为在线内容)训练人工智能模型,删除已收集到的语料数据,并作出赔偿。
面对接踵而至的诉讼,OpenAI否认相关指控,并针对美国和加拿大新闻机构发表声明称:“我们的模型以公开数据为基础,以公平使用原则和相关国际版权原则为依据。我们对创作者是公平的,而且这是支持创新的举措。”OpenAI还表示,对遭遇诉讼感到“惊讶和失望”,公司可以就版权问题与新闻机构进行“建设性谈判”。
Perplexity公司对新闻机构和出版商示好,表示愿意开展合作。该公司为此推出了“出版商收入共享计划”。根据该计划,当新闻媒体和出版商生产的内容被人工智能生成的答案引用时,Perplexity公司将分享一定比例的广告收益。
英国《卫报》指出,人工智能科技公司让出小部分利益,难以满足内容生产方的版权诉求——一些生成式人工智能业内人士也是这样认为的。人工智能公司Stability AI的高管埃德·雷克斯在接受采访时就指出,人工智能科技公司建立并运营生成式人工智能模型,依赖三种关键资源——人员、计算系统和语料数据。很多公司在前两者上投入巨资,有些工程师年薪超过100万美元,一些计算系统的成本超过10亿美元。然而,人工智能科技公司普遍没有针对语料数据进行大规模投资,甚至希望一直免费获取语料。
人工智能科技公司忽略了创作语料的机构和个人。公司通常解释说,其做法受到版权法“合理使用”条款的保护。但是,作为内容生产者,新闻机构和出版商对“合理使用”的理解与科技公司不同。随着人工智能技术应用的不断发展和普及,内容生产者倾向于发起反击。
据加拿大《多伦多星报》报道,加拿大国会众议院下属的工业、自然资源和科学技术委员会,近日发布了讨论立法规制生成式人工智能语料来源的报告。
该委员会认为,生成式人工智能模型训练阶段的版权责任问题,涉及版权保护、激励创作及技术创新、产业发展等多重价值目标,无疑需要科学合理的制度设计。从国际竞争的角度看,为了促进生成式人工智能的产业和技术发展,应当豁免模型训练阶段所获语料数据的版权责任。但是,也应审慎考量如何设计搭建具有实操性的版权方保护机制。
目前针对“生成式人工智能模型训练语料来源”存在成文法规定的国家和地区,具有代表性的是日本、美国和欧盟。三者原则上都豁免模型厂商事前获得著作权人授权的义务,即不必得到著作权人的明确授权。但是,对著作权人给予一定的保护也是相关法律法规的必备条款。报告认为,加拿大应避免采用日本的“宽松模式”和欧盟的“从紧模式”,而应倾向于采用与美国类似的模式。
日本2018年修订著作权法,加入“非欣赏性利用”条款。该条款不区分商业利用和非商业利用情形,豁免了生成式人工智能模型获取语料的责任,规定了“但书条款”——不得对版权人的利益造成不当损害。日本文化审议会著作权分会的相关解释指出,如果版权人主动采取技术保护措施,以防止自身作品被用于生成式人工智能,而人工智能科技公司规避这类技术措施获取语料,即属违法。
2024年3月13日,欧洲议会批准施行新版人工智能法案,其中关于生成式人工智能模型所用语料版权责任的规定有三项:一是模型所获语料的版权责任豁免,前提是厂商合法获取相关作品;二是对于以商业利用为目的语料获取行为,版权方享有事前获知权;三是厂商须制定相应的规则,以识别以商业利用为目的语料获取行为,从而确保第二项规定的执行。
欧盟的上述规定对于人工智能科技公司来说较为严格。2024年3月,谷歌公司就因在训练Gemini产品时违反相关规定,被法国竞争管理局处以2.5亿欧元罚款。
加拿大倾向于采用类似美国的规制模式,即重点关注人工智能模型获取语料是否符合“合理使用”原则。2023年9月25日,美国特拉华州地方法院审结了美国首起人工智能版权侵权案。法院倾向于支持“复制版权作品用于训练人工智能模型”构成“合理使用”,即符合“转换性使用”中的“中间复制”标准。但其前提是:相关模型仅是学习现成作品中的自然语言模式及相关性等,然后根据用户提问,输出不同于原语料作品的新内容。如果相关模型只将原作品复制并存储,然后以类似检索工具的方式根据用户提问输出与原作品相同的内容,则不属于“合理使用”的范畴。
编辑:姚志刚" " winter-yao@163.com