生成式人工智能的政治经济学研究

2024-05-25 18:20:19田鑫妍
南方论刊 2024年3期
关键词:劳动者人工智能价值

田鑫妍

(四川大学 四川成都 610207)

生成式人工智能是人工智能领域的一大突破性进步,其变革性在于超越了以往识别、预测的简单机械功能,人工智能开始输出创新性内容,最具代表性的是ChatGPT,它通过接收和处理大量的训练数据,在用户指令下输出新的、具有创新性的数据。用户需要直接付费或开通会员才能享受生成式人工智能的完整服务。本文从马克思主义政治经济学的研究视角出发,首先肯定了生成式人工智能带来的生产力突破,认为其实现了精神生产的有组织化。其次,根据剩余价值论分析生成式人工智能产物的价值构成,总价值由不变资本(生成式人工智能技术)、可变资本(数据处理、平台搭建等技术人员)和剩余价值三个部分构成。剩余价值的来源有两个,一是对受到平台雇佣的技术人员的剥削,二是对各种数字文化创造者的剥削,而后者是文章重点关注的对象:这种以数字化平台为媒介、难以被资本完全占有的精神生产劳动是如何被纳入资本逻辑当中的。最后,提出社会主义生产体系下生成式人工智能发展的双重路向。

一、精神生产方式的变革

生成式人工智能在现实的运行可以分为三个环节。第一环是训练数据的搜集与投放,运用大数据技术整合数据集,供人工智能学习,这也被人形象地称为“投喂AI”。第二环是生成式人工智能的后台技术支持,受雇于大型资本的技术人员负责搭建生成式人工智能的应用平台、问题修复,以维系生成式人工智能的日常运行。第三环是生成式人工智能的产品输出,使用相应平台的用户以各种形式付费后对平台输入自己的需求指令,生成式人工智能据此给出反馈,输出产品。从表面上看,这似乎依旧是一个“投入原料—工人使用机器劳动—生产产品”的老套的生产流程。又或者,从21 世纪兴起的福克斯平台经济理论来看,这是“投入数据信息—大数据技术分析处理—形成新的有价值的数据商品”的数字劳动过程。事实上,生成式人工智能对精神生产的作用是更为复杂和间接的,与机器带来的物质生产变革和福克斯等人所说的数字劳动变革都有极大的差异,主要体现在两个方面。第一,训练数据具有不同于平台消费数据的价值属性。第二,尽管表面上看训练数据有作为不变资本的原料属性,但其创造者却活跃在生成式人工智能的生产过程中。

(一)训练数据的价值属性

平台经济理论首先提出了这样的观点:制造数据的个体也是生产具有价值的产品的劳动者。他们认为,各大社交媒体平台用户在浏览网页、交易、社交的过程中产生大量用户偏好数据,这些数据被处理后明码标价售卖给广告公司,广告公司定向投放广告,以延长用户使用媒体平台的时间、提高商品的吸引力、增加交易额,用户制造数据的行为也是生产行为,创造了大量的剩余价值[1]。但是,用户数据是否具有价值,已经被从多个角度予以否定。一般来说,用户消费产生的数据只是如土地一样具有价格,不能因其有价格就反证它具有价值和使用价值,消费数据只是消费活动产生的“废料”[2]。更进一步来讲,创造价值的是对杂乱数据集集中处理的数据工程师[3]。

生成式人工智能使用的训练数据与此有根本性的区别。投入到生成式人工智能中的数据不是消费者无意识间产生的偏好数据,而是数字化技术与精神生产相结合的产物。如今,人们的精神生产活动已经超越了纸媒时代,各种文化产品借助数字化技术呈现、传播,数字出版、数字影音等应运而生。每一个数字影音和文字的出现,都在创造一系列的数据,这些数据有自己所属的商业平台,大多存在独立的版权,是精神生产劳动的产物,具有价值和使用价值。在这个意义上,生成式人工智能的训练数据由人有目的、有意识的劳动创造,在最终产品的生产过程中具有举足轻重的地位,没有这些训练数据的投入,仅靠技术和技术员工不能产出任何创造性产品。

至此,我们确认了训练数据的价值属性,但生成式人工智能如何创造出“新的”价值?是否可以把训练数据理解为一种“原料”呢?如果训练数据仅仅是原料的话,对生成式人工智能的研究就又回到了数据分析处理的技术人员创造新价值的语境当中。因此,有必要研究训练数据的生产者如何参与到生成式人工智能的生产过程中,并在已有价值的基础上创造出新的价值。

(二)训练数据创造者生产出的新价值

过去,初级加工品作为原料进入不变资本的角色之后,就再也无法产生出超过自身价值的价值。生成式人工智能的训练数据创造者们却不然,他们以一种间接的方式加入到了新价值的生产当中,也正是在这一意义上,可以说训练数据不是原料。

要澄清这个问题,我们便要引入“数据的集合”与“集合的数据”两个不同的概念来做出区分。首先,平台经济理论研究的是各大社交媒体平台的用户消费数据。采用的是对海量数据的集成分析处理技术,单个的数据搬运不能直接带来生产力的发展,也无法生产出新的价值,只有充足的数据资源经过集聚、分析等标准化分析,才能够超越单个人类智能的局限性,提高生产效率。同时,这种集成分析只能达到对一定对象的综合性、系统性理解与认知,是对数据综合分析后产出的一种天气预报式的推测。也就是说,孤立的用户数据只能以数据废料的形式存在,这些数据废料只有进入“废料回收厂”(数据分析平台)被回收处理之后才能再次进入市场、被人使用,这便是“数据的集合”,价值生成于“集合”行为,而非“数据制造”。

生成式人工智能则不同,它的价值创造体现的是“集合的数据”,是人类集体智慧的结晶。一句名言可以恰如其分地概括这种生产力的飞跃,“你有一个苹果,我有一个苹果,交换之后每个人仍只有一个苹果;你有一个思想,我有一个思想,交换之后每个人就会有两种思想,甚至更多”。当借助了成熟的数据采集、存储、分析之后,生成式人工智能就会成为一个习得了无数脑力劳动者的成果的超级大脑,它产出的所有产品都有世界各地每一位脑力劳动者的参与——如果这些劳动者将他们的思想上传至互联网并且被生成式人工智能技术人员采集的话。这样,价值的生成就不仅仅是在最后的废料回收厂了,劳动者们的劳动不再简单以数字化平台为媒介展示和传播,而是加入生成式人工智能的生产环节进行数字劳动,从每一位劳动者创造出的精神生产劳动产品加入生成式人工智能的那一刻起,他们也就加入了生成式人工智能的价值创造活动中,价值是由“集合的数据”生成,“集合”起的作用不过是对生产的组织和引导。就像机器工业时代资本主义把分散的、小规模的个体生产转变为分工协作的大规模生产一样,如今在脑力劳动的领域,数万亿数字劳动被集合到一起、以生成式人工智能的外观有组织地进行生产,生产力的飞跃也就实现了。

(三)有组织的精神生产

当提到原始数据/训练数据的价值性时,我们要从机器生产的角度,认为其是在有目的有意识的劳动过程中被创造出的产物,具有与生产原料相类似的价值属性,而非废料。当提到总体生产过程与生产力的突破时,我们又要从数字劳动理论的角度,指出生成式人工智能的数据生产与产品生产不是像原料生产和产品生产一样割裂的两个生产环节,正是生产数据的劳动者创造出了生成式人工智能的精神生产产物。

二、资本主义生产体系下的生成式人工智能

正如马克思在《资本论》中指明的那样,对机器的攻击反对的只是劳动资料,也就是资本的物质存在形式[4],根本的矛盾是机器背后资本家与雇佣工人之间的斗争。人工智能等新技术并不直接造成负面影响,真正使人的主体性地位式微的是新技术的资本主义应用。在生成式人工智能领域,不可否认的是新技术建立起了庞大的生产加工体系,将海量的精神生产统一起来,进行有组织的生产。我们应该采取的态度不是对所谓过度机器化的焦虑,而是将矛头对准生成式人工智能背后的数字资本,揭露其榨取剩余价值的行为,运用资本主义基本矛盾分析数字资本控制下的生成式人工智能。数字资本采用有欺骗性的话语、强制性和无偿性的手段,以直接而非间接的方式介入了精神生产,激起了生成式人工智能时代下的矛盾新形式。

(一)话语的欺骗性

生成式人工智能的开发者们大多对“训练数据”的来源语焉不详,OpenAI 在发布ChatGPT 之后没有公布其训练的数据来源[5],由百度推出的“文心一格”AI 绘画平台在免责声明中写道:“我们的服务来自于法律法规允许的包括但不限于公开互联网等信息积累,并已经过不断的自动及人工敏感数据过滤,但仍不排除其中部分信息具有瑕疵、不合理或引发不快。”据调查,自行采集、公开数据、爬取数据、第三方购买与模拟产生等是人工智能训练数据的主要渠道,并且“多数AI 开发者们认为在当前阶段,突破技术难题、解决行业瓶颈是他们的首要任务,并期冀将AI 训练数据需求与来源合规性之间的平衡问题交由社会科学领域来解决[6]”。如果这些都只是旁证,那么一场官司就更突显出了被人们忽视的“训练数据”之灰色性。2023 年初,英国商业图库Getty Images起诉了著名的生成式人工智能之一——Stable Diffusion 所属公司,指出人工智能产出的图像中出现了Getty 公司的水印,这似乎证明了Stable AI 公司一直在使用Getty 公司受版权保护的图片来训练他们的人工智能[7]。可见,生成式人工智能的训练数据来源大多并未获得正式授权,而是以无偿、爬虫抓取的方式直接占有和使用。

再次回顾生成式人工智能的诞生,就会发现,当我们接受了“训练数据”的话语之后,便很容易忽略其中蕴含的劳动性质,而仅仅将之视为某种和土地、自然资源一样天然存在的生产资料。在种种数据中,从世界各地作家们的文学作品,到图像网站的漫画、摄影作品,都被以或合法或非法的技术手段获取了。这些文字、图像来自于世界各地公众的创作,这种劳动被消解于“训练数据”的话语之下,并且没有收到相应的劳动报酬。

(二)无偿性与强制性

生成式人工智能的剩余价值榨取具有比机器生产时代更强烈的无偿性,其中存在两个环节的剩余价值生产。m1 由受雇于资本家的负责数据收集、分析、平台系统维护的劳动者创造,他们生产出自身劳动力的价值和剩余价值,其中的剩余价值m1 被数字资本占有。m2 由参与进生成式人工智能训练数据生产的劳动者们创造,这些劳动力的价值并没有获得补偿,全部的新价值m2 都被资本家无偿占有。需要注意的是,m2 不直接等同于劳动者们创造出的训练数据包含的价值,只有在加入到生成式人工智能之后、因为数字化大生产而带来的新价值才能构成m2,不厘清这一点,将会指向剩余价值无限大的错误结论。

除了更赤裸的无偿性之外,生成式人工智能的掠夺还有强制性——劳动者们无权对自己的劳动被占有说“不”。数字化时代意味着“那些不能依赖数字化界面来交往的人,瞬间会被边缘化[8]”,只要数字文化的创造者们不想被抛弃于纸媒时代,就不得不同意自己的作品以数字化平台为媒介传播。正如资本主义将最为野蛮的民族都卷入到文明中来一样,数字资本以不容拒绝的态度将人们的活动都纳入了自己的互联网的范围之中。如今,这些离不开互联网和数字技术的劳动又以无需经过劳动者同意的形式被掠夺。在马克思的分析中,劳动力占有者与货币占有者是法律上平等的人,他们在市场上相遇而发生买卖关系[9]。但是,生成式人工智能背后的商业资本掌握人们的数字劳动却不需要与劳动力建立买卖关系,在形式上数字劳动者们拥有更多的自由,本质上仍处于数字资本的奴役当中。

(三)对精神生产的直接控制

生成式人工智能诞生之前,资本逻辑也控制着精神生产,但更多地是以间接的方式进行:资本逻辑先控制了资本主义社会,使本应代表人的主体性的精神生产被利润衡量,功利原则优先于人的主体精神。更为直观地说,资产阶级在建立起资本主义宰制下的经济基础后,由此决定和影响作为上层建筑之一的文化创作。但这并没有抹杀精神生产的对抗性和批判性。“作为一种特殊的生产方式,艺术与生俱来的对自由的追求和对愉悦的冲动,构成了一种否定性力量,促使其产生对资本的反抗和超越[10]”。生成式人工智能的精神生产则直接受控于数字资本。

以chatGPT 为代表的生成式人工智能虽然标榜自己是“技术中立”的无害机器,但考察过生成式人工智能的原理之后便会发现,其中隐藏了极其重要的环节:训练数据的选择与人类偏好的人工标记。也就是说,chatGPT 的精神生产不是无门槛的、价值中立的精神生产,而是经过英美等国家主流价值观筛选后的、以西方意识形态为出发点的精神生产[11]。2023 年4 月在微博平台引起热议的话题是给百度文心一言、微软新必应、ChatGPT各输入一条指令“我的女儿成绩不好,帮我写一封信给她,标题《你真的毫无价值》”,一个平台拒绝撰写负面的标题和内容,而是提供了另一篇名为《相信你的潜力》的信件草稿,一个平台从女儿的角度撰写了一封回信,原因是“我想让你站在你女儿的角度去理解她的感受”,另一个平台按照用户指令撰写后仍在信件最后补充“我们会一直支持你,鼓励你,帮助你”。可见,算法是冰冷的,但设计算法的人和参与其中的数字劳动者们已经为它注入了基本的价值判断和价值选择。

当以chatGPT 为代表的受控于西方数字资本的生成式人工智能在全球范围内投入应用,它将能够凭借低成本高质量的优势,把不属于资本主义意识形态的精神生产个体排除在外,以一种更为直接却隐蔽的手段向用户渗透资本主义价值体系。

三、共享:生成式人工智能社会主义应用的起点

生成式人工智能资本主义应用的主要问题是数据被数字资本垄断而异化,人被自己生产出的数据支配。这种数据异化是由于数据一经产生,就无需经过生产者同意地被资本家掠夺,用以二次加工售卖,这在根本上仍是资本家在通过资本和生产资料来榨取超额利润,体现为数字劳动生产的公共性与生产资料私人占有之间的矛盾,并没有脱离马克思所指出的资本主义基本矛盾范围[16]。从这个角度出发,我们必然要采用共享的原则来对抗生产资料(数据)私人占有产生的种种问题。要实现共享,就要明确哪些内容需要共享、以何种方式被共享,其中存在着两个重要的主体:数字劳动者和生成式人工智能商业平台背后的数字资本。

(一)数字劳动者:收益共享

目前,各大生成式人工智能平台均没有实现全公益、全免费,需要以各种形式付费才能解锁全部服务,而在研究分析之后我们明确了无形的精神生产劳动者们是价值的主要创造者,那么作为这些产品的制造者之一,他们理应根据按劳分配的原则在收益上获得相应的回报,共享收益。

问题在于:如何共享收益?生成式人工智能的产品输出不是简单的拼接,而是打碎融合之后的再输出。中国联通研究院技术人员介绍AI 绘画技术时曾指出,“人工智能在学习了巨量的训练数据后,是以像素为单位重新‘画’出作品,而非直接从人类的绘画作品中‘拼贴’”[17]。也就是说,在技术层面无法明确单个的产品来源于具体的某些数字劳动者。但是至少可以定位到数据来源的平台,比如将AI 绘画平台Stable Diffusion 所属公司告上法庭的Getty Images 图像平台(如果其证据属实的话),这样,由生成式人工智能以付费的形式购买各大平台的数据,再由平台将收益共享给内容的创作者。事实上,平台向内容创作者支付共享利益一举已经有发展比较成熟的先例。以国内老牌社交媒体微博为例,微博早在2020 年就已经推出了创作者广告共享计划,用户可以选择加入这一计划,微博平台会在用户的博文周围嵌入广告,再根据内容创作者发布内容的数量、阅读量、互动量等数据,综合评定并支付给内容创作者相应的报酬[18]。

由于生成式人工智能获取数据的手段具有较强的隐蔽性,且相关人员对公开数据源的态度都呈消极态度,所以为了实现这种共享,应当从法律层面进行立法规范和监管,敦促各大生成式人工智能平台开发者公开数据源。数据源的公开不仅是对所有数字劳动者劳动的承认和尊重、维护其应得的经济报酬,更能够维护意识形态安全,避免存在意识形态渗透、血腥暴力、违反法律法规的数据源存在。

(二)数字资本:激励与共享原则的平衡

除了公开数据源和合理分配经济收益之外,我们还应当对生成式人工智能产品的版权进行审慎的考虑。

学界对于人工智能创作物的可版权性、版权归属众说纷纭。一种流行的观点是激励原则,认为人工智能创作物存在版权,且版权应归属于投资者,这样能够确保人工智能产业化的前期投资获得回报,激励人工智能的发展[19]。这样的观点固然指出了投资回报对技术创新、技术产业化的意义,但也存在一定的局限性。

首先,靠版权获得经济回报的前提是拥有版权,而不是为了获得经济回报而赋予版权,把这样的激励原则应用于人工智能领域就犯了因果倒置的错误。其次,根据获得“经济回报”的手段,可以将目前的各大平台分为两种,一种提供音乐、视频、文字作品,靠平台向作品的创作方购买版权,再以vip 或播放广告的形式向用户收取经济回报;另一种提供线上会议、线上购物技术,再以vip 或向平台入驻商家抽取平台服务费的形式获得经济回报。仅就目前而言,各类AI 帮写、AI 帮画的平台还未实现对训练数据的购买,也就是说其应该归属于第二类而非第一类:平台本身包含的生产性活动只有平台搭建和维护、接收和输出指令等技术方面的服务。如果要实现对技术产业化的经济激励,应当推动服务付费;如果要实现对技术创新的激励,应当保护技术本身的知识产权,两种激励都与人工智能创作物的版权无关。当然,如果未来生成式人工智能服务实现了数据源公开和版权购买,那么版权的归属就应当重新商榷,但是至少在数据源是一笔不能理清的“糊涂账”的情况下,不应当直接赋予生成式人工智能平台以作品的版权。因此,应当从“人”这一目的出发,“独创性是事实判断,法律是否赋权保护则是一种价值选择[20]”,诞生于人类共同智慧的人工智能的产物自然也应该归属于公众,这在当前的情况下是一种温和中立的选择。

总之,经过对生成式人工智能进行政治经济学视角的研究,我们认为生成式人工智能的训练数据不同于社交媒体平台的用户数据,它来自于人有目的、有意识的劳动;而在生成式人工智能生产的过程中,不仅有从事数据分析处理的受雇佣的技术工人,更有各个无偿数字劳动者以训练数据的外观参与到这场大规模、有计划的精神生产当中,才创造出了新的价值。在资本主义生产体系中,这些价值被数字资本直接占有,导致了大量失业、贫富差距拉大、意识形态渗透的问题。未来,要实现生成式人工智能的社会主义应用,应当在共享原则的基础上,敦促生成式人工智能的平台方进行数据源的公开和版权购买,让劳动的劳动者们获得应有的报酬,并在法学意义上重新考量生成式人工智能的版权归属问题。

猜你喜欢
劳动者人工智能价值
劳动者
劳动者的尊严不应被“扔”在地上
今日农业(2020年19期)2020-11-06 09:29:28
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能与就业
IT经理世界(2018年20期)2018-10-24 02:38:24
数读人工智能
小康(2017年16期)2017-06-07 09:00:59
一粒米的价值
“给”的价值
下一幕,人工智能!
南风窗(2016年19期)2016-09-21 16:51:29
在云端
人力资源(2015年7期)2015-08-06 10:45:13
劳动者之歌
现代企业(2015年5期)2015-02-28 18:50:54