[摘 要]随着人工智能技术在绘画、作曲、视频生成等多个领域取得突破性进展,人工智能艺术正成为艺术产业和艺术理论研究的新焦点。相比于传统的艺术,人工智能艺术以数据化的创作土壤、数字化的艺术媒介和动态交互的艺术效果,呈现出迥异的艺术图景。人工智能艺术是使用算法驱动、基于多模态融合技术、由人工智能自主生成的艺术作品。预计在“选择和协作”阶段之后,到未来的通用人工智能时代,受自主行为和自主价值驱动的人工智能将可能在人类过去的艺术系统之外创造另一种崭新的系统,扩展人类对艺术的认知。
[关键词]人工智能艺术 算法 多模态 生成作品 通用人工智能
2024年2月,OpenAI推出人工智能视频生成模型Sora,其生成的若干则长度为60秒的视频不仅展现出清晰自然的人物和几近乱真的世界,还有多角度的镜头运用,颇显品质感。5月,OpenAI又发布GPT-4o语言模型,该模型相比起几个月前的语言模型也大幅度提升了速度和质量,不但可以读取人的情绪,向自然的人机交互更近一步,还可以接受文本、视频和图像的组合输入,并生成三者的组合输出,而且还对所有用户免费开放。人工智能在飞速迭代的同时,使用门槛也快速降低,这让它在传媒产业和艺术创作领域中的应用日益广泛,也使得由它所产生的艺术迅速成为当代大众文化中的“显眼包”。我们也由此真正认识到,人工智能艺术虽是一种技术应用的产物,但也具有深刻的文化内涵和创造意味。它不仅会对艺术产业产生颠覆性影响,也给当今的艺术理论研究提出了不少挑战:什么是人工智能艺术?它具有什么样的艺术特征?它将走向何方?
一、从传统艺术到人工智能艺术
“人工智能”(AI)的概念于1956年在美国达特茅斯学院召开的“如何用机器模拟人的智能”研讨会上首次被正式提出。1973年,哈罗德·科恩(Harold Cohen)在威尼斯双年展上展示了他与自己的计算机程序“艾伦”(AARON)联合创作的一幅绘画,这通常被认为标志着人工智能艺术的正式诞生。 参见马立新:《AI艺术的前世今生》,《光明日报》2023年4月6日第13版。
越来越多全新类型的艺术创作,给艺术理论提出了新的挑战:如何判断一件物品是否属于人工智能艺术作品?对这个问题,通常可以参照1950年阿伦·图灵(Alan Turing)提出的“图灵测试”概念:他在经典论文《计算机器与智能》(Computing Machinery and Intelligence)中说明,请人在5分钟交互时间内去判断交流对象是不是人类,如果有超过30%的测试者不能确定对方是人还是机器(实际上确实是机器),那么该机器就通过了测试。 A.M.Turing,“Computing Machinery and Intelligence,”Mind 59(1950):433-460.
受此启发,玛格丽特·博登(Margaret A.Boden)在2010年提出了艺术品的“图灵测试标准”:一个程序的作品必须“与人类制作的作品无法区分且/或被视为与人类的作品具有同等美学价值”。Margaret A.Boden,“The Turing Test and Artistic Creativity,”Kybernetes 39,no.3(2010):409-413.沿着这条道路,2014年,伊恩·古德费洛(Ian Goodfellow)及其合作者提出了生成对抗网络(Generative Adversarial Networks,GAN),极大推进了人工智能艺术的发展。2017年,由罗格斯大学艺术与人工智能实验室发明的创造性对抗网络(Creative Adversarial Networks,CAN)生成的现代派抽象绘画被53%的艺术专业学生误认为人类作品 A.Elgammal,Bingchen Liu,Mohamed Elhoseiny and Marian Mazzone,“CAN:Creative Adversarial Networks,Generating ‘Art’ by Learning About Styles and Deviating from Style Norms”(paper published on the eighth International Conference on Computational Creativity [ICCC],Atlanta,GA,June 20-22,2017).——这似乎意味着人工智能艺术通过了“图灵测试”。
但这是否昭示着传统的艺术已经被人工智能艺术所超越,艺术的创作者范围已经从人类扩展到了机器?其实,人工智能艺术的创作过程可能涉及由众多科学家和工程师参与的算法和程序的编写,还需要基于对大量的数据(包括但不限于前人的艺术作品)的学习。这种方式无法由个人独立实现,而是涉及众多技术专家和艺术家的合作:前者共同开发算法、设定参数和解释结果,后者则提出要求并选择作品——在这种情况下,“程序员也可以被定义为艺术家” Margaret A.Boden and Ernest A.Edmonds,From Fingers to Digits:An Artificial Aesthetic(Cambridge:MIT Press,2019),p.67.。从历史角度来看,人工智能的创作方式仿佛在某种意义上复归到了石器时代的集体创作。
现阶段的人工智能艺术的创作“流程”可以归结为四个环节:艺术家自行编写AI或利用已有的AI;艺术家向AI下达指令;AI根据指令来编辑数据库中的信息;生成内容。 李天成:《人工智能艺术的哲学追问》,《社会科学战线》2024年第1期。 在这四个步骤中,AI并没有思考,它只是按照指令生成符合要求的内容,而它的质量和指令的质量决定了所生成作品的艺术深度与表达效果,因此它本身并不是艺术家。虽然博登认为现有的人工智能甚至可以不依赖人类的输入而自主生成艺术作品,即“人工智能艺术在某种意义上也能够产生创意和想法” Margaret A.Boden,“The Turing Test and Artistic Creativity,”Kybernetes 39,no.3(2010):409-413.,但应该注意,这种“创意”和“想法”并不是出于AI表达自我的欲望,只是一种基于代码和数据库而表现出来的探索型、组合型的创造力——现阶段的AI本身还无法颠覆此前的艺术框架,创造出完全属于新阶段的艺术作品。
尽管如此,也会有人进一步发问:人工智能是否可以生产出更好/更昂贵的艺术呢?2018年10月的佳士得拍卖会上,一张人工智能的画作《爱德蒙·德·贝拉米肖像》(Edmond de Belamy)以高达432500美元的价格售出——它看上去像是一位18世纪绅士的肖像画,但其实是由生成对抗网络创作的;一个名为“Obvious”的团队为了创作这幅画,将大约15000幅14世纪至20世纪的画作输入给已经设计好的人工智能系统,然后任由系统自动生成之。毫无疑问,这幅画是以人工智能为核心创作的艺术作品,它令众多艺术家感到吃惊和恐惧,担心人工智能会对人类的艺术创作主体性造成本质上的冲击。但也有人批评这幅作品只是从已有的人类艺术作品中提取元素再根据概率进行组合,并没有创造出新的艺术风格,因此,这幅作品具有深刻的保守性,本身没有太大的意义,其价格仅是市场和资本炒作的结果。 参见王青亦:《数字艺术导论》,中国传媒大学出版社2024年版,第33-34页。 国内也有学者表示,人工智能创作只是“类人性”意义上的“平庸之作”,当前的人工智能艺术生产活动尚无法超越“属人性”意义上的自由创作。 王琦:《人工智能艺术是艺术吗?——以艺术生产为视角》,《社会科学辑刊》2024年第2期。
总体来说,如表1所示,传统艺术一般是由人类自身通过对现实世界直接经验和人工世界间接经验的学习,再去以绘画、雕塑、音乐等形式创作而成的,其艺术媒介是传统的、固化的,而且往往是物质性的,表现出本雅明意义上的“灵韵”、震惊和教化作用;人工智能艺术则一般由人类和AI共同驱动,它基于人工世界所创造的海量数据,通过算法,以数字的方式在本质上不具物质性的媒介当中自主生成,具有动态交互和娱乐等功能。人工智能艺术的产生必然与当前人工智能技术的发展水平密不可分,它未来也还将因为人工智能技术的迭代而发生持续的乃至革命性的变化。
二、人工智能艺术的特征:多模态
融合、算法驱动和自主生成
随着多模态大模型和通用人工智能的快速发展,当下的人工智能艺术已具有多模态融合、算法依赖和自主生成的特点,这使得它区别于其他艺术,逐渐建构起自身作为新的艺术形式的独特性。
(一)多模态融合:艺术边界的破裂和重组
多模态融合的生产方式或许可以说是人工智能艺术最为明显的特征。多模态融合技术(multimodality fusion technology,MFT)能够支持AI分析和处理不同形式的数据,在减少各种模态间的异质性的同时保持其各自特定语义的完整性。 何俊、张彩庆、李小珍等:《面向深度学习的多模态融合技术研究综述》,《计算机工程》2020年第5期。它消除了不同媒介间的壁垒,使艺术创作能在文本、声音、图像和视频之间随意自如地转换,并贯穿了人工智能艺术的创意、生产和消费等阶段。
2022年,在美国科罗拉多州博览会的美术比赛中,由AI绘画工具Midjourney生成的《太空歌剧院》(Théatre D′opéra Spatial)打败人类选手获得一等奖,但该作品的创作者(或说提交者)杰森·艾伦(Jason Allen)并不是一位传统意义上的艺术家,而是游戏设计师。他通过在Midjourney中输入关键词(涉及光源、构图、氛围等方面),生成了符合要求的参赛作品。同年,借助“对比式语言-图像预训练”(Contrastive LanguageImage Pretraining,CLIP)模型生成的视频作品《乌鸦》(The Crow)赢得了戛纳电影节短片竞赛单元的评审团奖,其创作者格伦·马歇尔(Glenn Marshall)将舞蹈短片Painted输入CLIP中,再通过图像处理模块中的“风格迁移”(style transfer)功能生成了这部视频作品。
由此可见,人工智能艺术打破了自然语言处理、计算机视觉和语音识别等技术领域间的界线,能够最大限度地利用文本、图像、音频、视频等多种数据形态——这种多模态特性畅行于不同媒介之间,带来“边界的破裂与对象的重组和重生” 石涎蔚:《技术时代的“内爆”:从麦克卢汉、鲍德里亚到哈拉维》,《现代传播(中国传媒大学学报)》2023年第5期。。这不仅使得人工智能艺术的创作行为更加丰富和多样,而且也能让人类通过这类方式去探索更多未知的艺术领域和表现手法。
(二)算法驱动:创造力和艺术风格的建立
算法作为AI的“大脑”,包含了一系列定义数据处理和应用的指令与规则,可以通过分析和学习大量的艺术数据集,提取特定的艺术风格特征和技巧元素。例如,卷积神经网络(Convolutional Neural Networks,CNN)可以用来识别和提取图像中的特征,对理解和复制艺术风格至关重要;生成对抗网络和“变分自编码器”(Variational Autoencoder,VAE)可以生成新的艺术作品。前述“Obvious”团队之所以因创作《爱德蒙·德·贝拉米肖像》而陷入关于抄袭的争议,正是由于其使用的算法代码大部分都来自程序员罗比·巴莱特(Robbie Barret)。另一位人工智能艺术家汤姆·怀特(Tom White)下载了巴莱特的代码,并直接运行它以输出作品,结果最终的实验作品与《爱德蒙·德·贝拉米肖像》非常相似。 James Vincent,“How Three French Students Used Borrowed Code to Put the First AI Portrait in Christie’s,”The Verge,October 23,2018,accessed May 22,2024,https://www.theverge.com/2018/10/23/18013190/aiartportraitauctionchristiesbelamyobviousrobbiebarratgans.
在实际应用中,不同的算法模型往往会被组合起来,形成“算法架构”,确保整个系统的运作效率和可维护性。而在不同的算法架构下,同样的提示词生成的人工智能艺术作品虽然内容都符合提示词的要求,但是风格构图一定会有所不同。这是因为,每种算法都有自己的特点和学习方式,它们的工作原理和优化目标并不一致,因此会对相同的输入作出不同的响应。Anjana Samindra Perera,“DALL·E2 vs Midjourney vs Stable Diffusion:Comparison between Most Popular AI Art Generation Tools,”accessed May 22,2024,https://readmedium.com/dalle2vsmidjourneyvsstablediffusion8eb9eb7d20be.如神经风格迁移算法(Neural Style Transfer,NST)可以将不同艺术家的风格应用到任意图像上,从而生成具有独特风貌的艺术作品;生成对抗网络则可以通过对抗训练生成高度逼真的图像,展现出惊人的“创造力”和“想象力”。因此说,在人工智能艺术中,艺术品的风格取决于算法及其组合。
正是由于人工智能艺术的创作高度依赖算法,算法和算法架构的不断进步才会直接增强人工智能艺术风格的多样性和创新性。一种新算法或一种新的算法架构,往往就意味着一种新的韵味。
(三)自主生成:创作主体的博弈
以人工智能艺术为代表的人工智能生成内容(AI generated content,AIGC)其实早已存在——以AI作为辅助工具生成固定模板的内容即是。当然,随着ChatGPT、Midjourney、Sora、Suno等多种人工智能模型的诞生,AI变得能够自动生成人类想要的文本、图像、视频和音乐,AIGC也由此有了新的含义——PGC(专业生成内容)和UGC(用户生产内容)中默认的“前缀”P和U变成了AI,AI成了内容的直接生产者。这一爆发性的技术跃进打破了“创作”这一概念原有的边界,对人类的“创作主体性”造成了冲击。比如2023年9月OpenAI发布的文生图模型DALL·E3可以根据ChatGPT生成的提示直接生成4幅图像,人类可以从中选择,并再次使用ChatGPT指导它修改原图,直至得到符合要求的图片。使用DALL·E3生成图片,连后续的修图环节也不需要人类亲自动手了。
简言之,如今在人工智能艺术的创作过程中,人类只需要负责发布最初的创作指令,以及评判和选择,AI便会作为艺术创作的“工匠”包揽其他的任务。由此,从事艺术创作变得越来越简单,甚至应该说只要有了AI的使用权,人人都可以是艺术家。对那些真正具有思想深度的艺术家而言,已经可以将更多的精力放在那些最需要创造力、想象力和情感投入的部分,然后借用AI“使不可见成为可见”。
三、对人工智能艺术定义的再思考
人和AI到底谁才是未来人工智能艺术创作的主体?未来的人工智能艺术作品是否会超出我们如今对艺术的认知?还有,我们怎么定义人工智能艺术?在现阶段,我们暂时还可以讲AI只是人类创作的辅助工具,它尚无法完全脱离人类的指令去从事创作,其自主生成的作品也是依据代码要求,基于数据库进行融合创作的结果。但不可否认的是,人工智能艺术的横空出世,已经挑战了“人类是艺术的唯一创作主体”的观念。对上面这些核心问题,理论界也还在争论。限于篇幅,本文仅以其中第三个(但又是笔者认为最具“基础性”的一个)问题为切入点展开下面的论述。
许多人认为人工智能艺术就是以人工智能作为创作主体的艺术。比如乔恩·麦克马克(Jon McCormack)等认为人工智能艺术“是指任何使用人工智能技术制作的艺术”。 Jon McCormack,Toby Gifford and Patrick Hutchings,“Autonomy,Authenticity,Authorship and Intention in Computer Generated Art,” in Proceedings of the Computational Intelligence in Music,Sound,Art and Design(Cham:Springer International Publishing,2019),pp.35-50.但是,这样的界定显然过于宽泛,导致我们无法明确区分计算机艺术与人工智能艺术——有学者认为,自20世纪50年代以来,在计算机艺术中发展出来的所有方法实例都是与人工智能艺术等效的,判定是否为“人工智能”的依据也不是方法,而是我们对算法过程施加的控制的数量和类型。 参见 [俄]列夫·马诺维奇、[意]埃马努埃莱·阿列利:《列夫·马诺维奇:人工智能(AI)艺术与美学》,陈卓轩译,《世界电影》2023年第3期。玛格丽特·博登定义的AI则是让计算机完成人类心智(mind)能做的事情。 [英]玛格丽特·博登:《AI:人工智能的本质与未来》,孙诗惠译,中国人民大学出版社2017年版,第3页。由此看来,在人工智能艺术的创作过程中,最重要的就是通过复杂的算法模型使得计算机能够模仿人类的“心智”,仿佛具备如同人类般的行动和思考能力——这样才可以说AI“创作”了而非“制造”了艺术作品。计算机在计算机艺术创作过程中主要起辅助作用,即“更多是参与者或合作伙伴”; Margaret A.Boden,[WTBX][STBX]Creativity and Art:Three Roads to Surprise[STBZ](Oxford:Oxford University Press,2010),p.137而人工智能艺术是计算机发展到高度自动化阶段的产物,它若能够结合机器的智能化和艺术创作的主动性, 陶锋:《人工智能视觉艺术研究》,《文艺争鸣》2019年第7期。便可成为艺术创作的主体之一。
列夫·马诺维奇曾提到一种定义“人工智能艺术”的方案,他认为人工智能艺术指那些由人工智能生成的、能被专业人士认定为属于当代艺术或者某一历史时期的艺术的作品。 [俄]列夫·马诺维奇、[意]埃马努埃莱·阿列利:《列夫·马诺维奇:人工智能(AI)艺术与美学》,陈卓轩译,《世界电影》2023年第3期。也就是说,如果计算机经过训练后生成的艺术作品能够成功通过“图灵测试”,那么就可以被理解为人工智能艺术。当前的AI通过不断展现技术高峰,不断模仿人类的风格,其作品在效果上已能无限接近人类作品。 参见段吉方、阎恺祺:《AI生成艺术与后人类技术的美学意义》,《厦门大学学报(哲学社会科学版)》2023年第6期。事实上,如前文所述,现有的众多人工智能艺术作品早已有能力通过图灵测试。
不断进化的AI,似乎已经逐渐超出了人类原本可以把握和理解的范畴。那些大型AI模型即便对专业技术人员而言,也越发呈现为一个难解的“黑箱”。本杰明·博加尔(Benjamin Bogar)认为,人类创造出的AI已经形成了相对于人类主体而言的“机器主体性”。 参见[俄]列夫·马诺维奇、[意]埃马努埃莱·阿列利:《列夫·马诺维奇:人工智能(AI)艺术与美学》,陈卓轩译,《世界电影》2023年第3期。现有的AI已能构建大规模的人工神经网络(Artificial Neural Network,ANN)来模拟人脑的神经元和突触,并通过持续的“自我”学习和调整,逐渐提高在特定任务上的性能:未来随着人工智能技术继续演化,人工智能艺术可能会变成一种人类因受身心能力和其他因素限制而无法“插手”的艺术类型。 同上。
当然,人工智能艺术可能始终无法彻底断开与人类的关系,因为它归根结底是属于人的——具体来说,其理由在于:第一,人类创造了原初的算法架构;第二,人工智能艺术的创作基于过去人类艺术的数据库;第三,对人工智能艺术的确认还在于人类艺术界的选择和评判。我们认为,AI创作者并不具备人类拥有的审美“意向性”、经验意识以及非常态的思维性等“情性”特征。 张伟:《物性、智性与情性——人工智能与艺术生产的技术向度》,《中州学刊》2021年第10期。比如AI的绘画尽管可以展现出高度的技术复杂性和视觉吸引力(正属性),但会因为并无情感也无目的而缺少个人情感和创作意图(负属性)——这种毫无情感和意图的“数据融合”理性,正是AI创作的艺术与以人类为绝对主体创作的艺术之间的不同之处。至于对这些崭新艺术因素的收编,则需要阿瑟·丹托(Arthur C.Danto)所说的“艺术世界”(the art world)的认定——那无关乎艺术作品本身的属性,而是被由人类构成的艺术界(包括艺术家、批评家、策展人、收藏家等)内部的规则和实践所决定的。
基于此,笔者认为,人工智能艺术是使用算法驱动的、基于多模态融合技术的、由AI自主生成的艺术作品。这种描述性定义主要指向两个层次:首先是作为大众文化的人工智能艺术,它由文化市场所决定,着眼于大众的快感,未来将更多地由观众个性化定制并由市场来评判和选择;其次是作为经典艺术的人工智能艺术,其“艺术”的身份是由艺术界授予的,它必然产生在以AI为背景的艺术理论、艺术史和艺术机构等缔造的艺术氛围之中。在严格意义上说,艺术只有对于人才有意义,它的“灵韵”只能在人类的历史、概念和象征维度里获得。
由此,人工智能艺术的发展会呈现三个阶段:我们把第一阶段称为选择阶段,它由人类设计神经网络架构和算法,经过大量相同或不同风格的数据训练之后,生成许多风格彼此相同或相似的艺术文本,再由成熟的艺术家来选择其中最成功的作品;第二阶段是协作阶段,通过建立多类型的生成对抗网络,由其中的生成网络根据数据库创建新作品,由其中的判别网络尝试将新作品与原始数据库区分开,再由人类和人工智能协作完成单靠人类完不成的作品;第三阶段是自主创新阶段,即在人工智能技术充分发展之后,通用人工智能将实现自主行为和自主价值驱动,并可以完成“无限”的任务。在进入第三阶段后,人工智能艺术可望在人类自身的艺术系统之外创造出另一种系统,从而扩展人类对艺术的认知。
结 语
随着人工智能技术在绘画、作曲、视频生成等多个领域取得突破性进展,人工智能艺术正成为艺术产业和艺术理论研究的一个新焦点。相比起过去的艺术,人工智能艺术在数据化的创作土壤、数字化的艺术媒介和动态交互的艺术效果上都表现出迥异的特征:它基于多模态融合技术,可以集合多种数据形态,带来更加丰富和多样化的艺术作品;它使用算法驱动,可以建立定制化的海量数据库,生成个性化的模型;它甚至终将自主生成具有“自我价值”的艺术创意,从而真正获得艺术上的独立性。因此本文才提出,使用算法驱动、基于多模态融合技术,以及由AI自主生成,是人工智能艺术作品的三个要件。
当然,现阶段的人工智能艺术创作依旧离不开由人类搭建的算法框架和由人类生产并制作的数据库,其本质尚不是创作,而是选择和协作。假如人类艺术历史数据库被完整搭建并完整读取,这种档次的人工智能艺术就会面临创作力的衰竭。但即便如此,当今AI技术的发展也正在提升艺术创作的效率,并在一定程度上丰富了艺术样式。
而未来通用人工智能的发展,有可能让人工智能受自主价值驱动,运用主动行为去开拓实现无限的任务的可能性。那时的人工智能也许能够像人类一样,从现实的物质世界中汲取信息,从而创造出超越人类历史框架的艺术形式。因此,在AI只能依靠数据库和算法框架创造“类人”艺术的现阶段,人类有必要对AI进行规范和引导,从而对AI的未来和自身的未来负起责任:不管是“从上到下”的算法建构还是“从下到上”的数据库搭建,都需要注入“科技为人文服务”的思想,促进人工智能艺术尚美、求真、向善。
(中国传媒大学文化产业管理学院博士研究生李写真对此文亦有贡献。)
本文系国家社科基金后期资助项目“网络文艺的现状及发展研究”(编号:21FYSB055)的阶段性成果。
作者简介:王青亦,中国传媒大学文化产业管理学院副院长,副教授、博士生导师,文学博士,主要研究方向为数字艺术理论、影视经纪、影视评论。
What Is AI Art?
Wang Qingyi
Abstract:With the breakthrough progress of artificial intelligence technology in various fields such as painting,composition,and video generation,AI art is becoming a new focus of the art industry and art theory research.Compared to traditional art,AI art presents a vastly different artistic landscape through datadriven creative soil,digital art media,and dynamic interactive artistic effects.AI art refers to art works that are driven by algorithms,based on multimodal fusion technology,and generated independently by artificial intelligence.It is expected that in the future era of general artificial intelligence,driven by autonomous behavior and autonomous values,after the “selection and collaboration” stage,artificial intelligence may create a new system beyond the past art system of humans,expanding human understanding of art.
Keywords:AI art;algorithm;multimodal;generated works;general artificial intelligence