【摘要】从使用者的角度,采用实证研究的方法,通过春节文生图实验案例效果评估,发现提示词在使用AIGC语料库进行人机共创过程中的核心作用,提出在AIGC时代,继承与创新我国传统民族节日的基础路径,即从我国传统民族节日语言资源中,提取便于生成式AI易于理解的提示词,建设我国传统民族节日提示词语料库,意义重大。
【关键词】春节文生图实验;我国传统民族节日;提示词语料库建设
我国传统民族节日是中华民族灿烂文化中极其绚丽多彩的部分,是继承与创新我国传统文化最有生命力和最具稳定性、历史性、广泛性的基础部分。口语和书面语是我国传统民族节日长久流传的言语传播形式。每次新技术、新媒介的出现,都将我国传统民族节日的继承与创新发展推向新的高度,并涌现出展现和表达我国传统民族节日的新媒介话语形态与新媒介阐释方式。例如,2024年中央广播电视总台龙年春晚,许多节目都巧妙地与AI(人工智能)技术相结合,呈现了丰富多元的舞台效果,通过新技术手段演绎、诠释我国传统民族节日春节的文化符号元素,产生令人震撼的视觉艺术效果和沉浸式体验。在春晚节目《山河诗长安》中,大诗人李白“复活”,穿越西安大唐不夜城,与数万人一同对诗《将进酒》,留给观众宝贵的龙年春晚的集体记忆。2023年河南春晚《祥瑞福远》,巧妙地使用AIGC(生成式人工智能)绘画技术,让虚拟场景与现实舞台相结合,创造出了一个充满“祥瑞”的虚拟世界,演绎出中国吉祥文化的独特魅力,传递新春吉祥与祝福。AIGC作为一种新的人工智能技术的应用,是人工智能1.0时代进入2.0时代的重要标志。AIGC使用大量的文本数据来学习语言模式和生成自然语言的响应,学习模仿人类的创造力,通过算法来理解和创造生成文本、图像、音乐、视频等具有一定意义和价值的信息,开创了机器学习和自然语言处理技术创造式生成内容的新范式,展现了人机创意共生的魅力。人类需要AIGC输出什么取决于人类输入了什么,因此,基于大语言模型应用的语料库构建是关键。全国政协委员、中央广播电视总台新闻中心副召集人张勤在2024年全国“两会”期间,提出了《关于推动人工智能赋能中华优秀传统文化传播的提案》,指出目前对于国内大语言模型而言,对中国优秀传统文化的学习还是严重不足。当前全球通用(国内也在使用)的大模型数据训练集里,中文语料仅占1.3%。以OpenAI的ChatGPT为例,它对于中国文化的理解非常有限。在全球新的技术变革中,如果不加以引导,中华优秀传统文化容易被人工智能抛下甚至抹去。①基于此,本文从AIGC语料库使用分析入手,采用实证研究的方法,通过春节文生图实验案例的评估与分析,研究我国传统民族节日在AIGC时代如何继承与创新,以期抛砖引玉。
一、基于大数据思维的语料库分析
语料库即语言材料数据库,它具有存储、分析、高效查询和灵活扩展海量数据能力的特点。在计算机技术出现之前,语料库的创建和存储主要依赖于纸质文档或卡片索引。计算机技术的发展,数字化技术的进步,使语料库可以以电子形式存在。计算机技术和互联网的结合,提升了语料库关键词搜索、自然语言处理的技术能力,使用户可以从海量语料库中筛选出相关信息,并且,计算机通过机器学习,可以辅助进行语言特征的统计和分析,例如词频分析、共现分析等,完成人工难以完成的复杂任务。Web1.0时代,海量文本语料、行业语料的输入,以及BBS在线社区聊天信息,成为语料库语料来源的部分。Web2.0时代,通过加关注、加好友构建的社交网络平台的兴起,使用户通过社交互动产生的文本数据量激增,促进了语料库规模的扩大和多样性的增加,加速了知识分享和创新与传播。Web3.0时代,信息聚合和推荐算法技术的应用,提升了语料库数据挖掘、数据分析能力,为新技术的创新应用奠定了基础。2022年11月,以ChatGPT为代表的现象级AI应用掀起技术革命的浪潮,使生成式人工智能AIGC成为引领内容产业变革的关键变量和实现内容产业创新发展的增量。但AIGC模型训练的生成内容高度依赖源头数据。语料库是AIGC模型训练的基础。目前,AIGC数据内容生产链“采集—存储—运算—解构—生成”基本形成,AIGC文生文、文生图技术日趋成熟,部分AIGC创作工具已能够实现高效率的“文本输入—图像生成”转换,AIGC进入多模态发展阶段。
AIGC的应用将会使更多的人做提示工程师(Prompt Engineer)的工作,为AIGC撰写文本提示,以保证AIGC能够生成人们预期的输出成果,可见,人类使用AIGC的本质,仍然是语言传播的问题,是人类通过人机交互及其应用场景来进行人际交往活动。在当前文生图的操作实践中,发现存在普遍性的问题,即模型对输入指令的理解能力存在局限,不能够完全理解复杂或抽象的文本描述,导致生成的图像与预期不符,并且输出的图片时有模糊或失真。这说明一是提示文本内容,包括画面元素、风格、色彩特征描述欠缺标注性语言词汇;二是在训练过程中,模型需要理解更广泛的信息,而不仅仅是简单的类别标签。所以,文本提示词和提取特征的分辨率对模型的预测能力有很大影响,一方面会促进语料库语言研究和发展,另一方面也促使付费使用的提示词语料库涌现。
用大数据思维分析语料库,即是强调借助计算机技术和统计学方法,通过对研究对象的本然状态的实证研究,获取直接的经验,对语言数据进行定性定量的描写和概括,从而多方位、多角度地揭示语料库语言语法和语义应用规律,用可实现的方法挖掘语言数据价值。
二、春节文生图效果评估
AIGC在图像生成领域取得了显著进展,能够根据文本描述生成高质量的图像。但如何准确捕捉和表达特定文化背景下的节日氛围,仍然是一个挑战。本文聚焦于我国重要的传统民族节日春节,通过对比分析不同AIGC产品生成的图像,研究它们在理解和再现中国春节文化元素方面的表现力。
(一)研究对象的选择
本文选取了MidJourney、文心一言、奇域和WHEE四款具有代表性的AIGC产品,以老舍先生的经典文学作品《北京的春节》为提示文本的蓝本,将提示文本以指令的方式输入四款AIGC产品生成相应的图像,并通过分析生成图像的文化元素、整体风格、图像准确性等方面,总结四款AIGC产品在处理复杂文化主题时的差异与优势,探索利用AIGC继承与创新我国传统民族节日文化的有效路径。
MidJourney是一个位于美国加州旧金山的同名研究实验室开发的文生图人工智能产品,其特点在于生成图像质量高,以及可选风格多样。与其他类似的AI图像生成工具相比,MidJourney以其独特的算法和用户体验在市场中脱颖而出。
文心一言是百度公司推出的一款基于人工智能技术的自然语言处理产品,它具备文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成五大能力。它在搜索问答、内容创作生成、智能办公等多个领域都有广泛的应用前景。
奇域是由小红书推出的专注于新中式美学的AIGC创作绘画平台,其主要特点在于新中式的图像风格,其数据模型包括水墨、水彩等。整体而言,奇域并不在人工智能行业中占据头部地位,但它在行业中以其新中式美学风格,展现出了用户喜爱的独特性。
WHEE是美图秀秀出品的一个AIGC绘画创作工具平台,它的特点在于风格模型训练和词库创作。用户可以查看和搜索中英文提示词,这些提示词都是经过精心挑选和分类的,帮助用户快速地找到适合自己想要画出的主题和风格的标注词语。
(二)实验流程
实验按以下步骤展开。
1.数据准备
首先,选择用于图像生成的文本,要包含丰富的描述春节的语言信息。本次实验选择老舍先生《北京的春节》作为研究文本,一方面,《北京的春节》生动描绘了中国北方春节期间的传统习俗和节日氛围,尤其是北京这个历史悠久的城市在春节期间的独特风情;另一方面,《北京的春节》中有大量的细节描写,从春节期间的家庭布置到街市景象,从食物准备到人们的穿着打扮,这些细节描写既为AIGC产品提供了丰富的创作素材,也构成了评估生成图像质量的重要标准,并且能够帮助研究者更全面地考察AIGC产品在处理复杂场景和文化元素时的理解力和表现力。
其次,需要在原始文本内容中提取作为文生图关键语料的提示词。本次实验选取了《北京的春节》腊八、小年、除夕、元宵这四个具有显著民俗特点的中国春节组成部分,并进一步挑选出含有丰富视觉元素的描述性语句作为提示文本。例如小年部分,文中“腊月二十三过小年,差不多就是过新年的彩排。这一天是要吃糖的,街上早有好多卖麦芽糖与江米糖的,糖形或为长方块儿,或为瓜形,又甜又黏”,其中有明显的“糖”元素,是较为合适用来指导画面生成的文本指令。
2.图像预生成
对MidJourney、文心一言、奇域和WHEE输入相同的形式为文本内容的指令,并对四款AIGC产品进行图像参数的调整,包括分辨率、风格偏好等,以便控制图像的质量和样式。但在图像预生成过程中,发现四款AIGC产品对于抽象的文本内容均理解有限。再次通过优化提示词,去掉其中的修饰部分,提炼出其中的关键词和核心描述语言,进行图像生成。
3.图像生成
经过图像预生成阶段的优化后,正式生成了一系列结合文本描述和参数调整的图片。在这一过程中,对内容生成均进行了多次调试,并基于调试结果对关键词和参数进行反复微调,以优化图像质量,使其更接近文本描述的预期画面。
4.生成图像结果汇总
图像生成完成后,进行结果汇总。采用量化统计分析的方法,统一制成对比表格,并从多个方面评估生成图像的结果,分析图像是否准确反映了春节的文化特征和情感内涵,是否符合大众对春节的认知。
(三)效果评估与分析
从生成图像结果中可以看到,四款AIGC产品生成的画面,在还原文章的描述上,其表现是有所不同的,具体体现在以下三个方面。
1.文化元素的表现效果
在文化元素的表现方面,四款AIGC产品均能捕捉并呈现春节传统文化的元素,但在效果上存在一些差异。
Midjourney的表现最为准确,能够基本还原文字内容,包括灯笼、春联、年夜饭等元素,对糖瓜的理解也相对其他模型更准确。但在提示词中有部分内容未能呈现,例如“鞭炮”。由此可见,Midjourney在图像生成过程中存在规避,对于中国传统民族节日文化理解不够,仅保持了整体画面的和谐统一。
文心一言在文化元素的表现方面也较为优秀,不仅能表现灯笼、春联、年夜饭等文化元素,对“腊八粥”的理解与呈现也较其他模型更准确,可以推测其中文模型对相关内容进行了训练和处理。
奇域生成的图像也捕捉了春节的核心特征,如红色基调、灯笼、春联以及家庭团聚的场景氛围。相较而言,“奇域”对“鞭炮”的理解和呈现要优于其他产品,可以明显看出图中有符合传统印象的爆竹画面,但从生成的图像中看出对“糖瓜”有明显的误读,仅仅用西瓜的形式来表现。
WHEE能够精确描绘特定元素,例如烟花和春联的细节,“腊八粥”中各种谷物呈现,这一点优于其他产品。但WHEE在整体氛围的构建上显得不足,未能有效融入典型的春节场景,例如在对“张灯结彩”部分的图像描绘中,仅仅展现各种灯笼,但不能将其置于街市场景中,缺乏生动的节日气息,体现了WHEE模型在理解特定文化语境方面需要提升的空间较大。
2.图像整体风格
由生成的画面可以看出,Midjourney生成的风格较为多样,可以生成写实图片,也可以生成绘画风格,画面风格的可控性较强。
文心一言同样可以生成多种风格的画面,生成的写实照片和插图绘画都较符合国内一致的审美。
奇域倾向于采用艺术化的视觉风格,其生成的图像更像是绘画作品,色彩饱满,构图讲究,侧重于展示中国古典美学的魅力。这种风格特别适合追求传统韵味和艺术感的用户。
WHEE的画风则更加偏向写实,它试图捕捉现实场景画面的真实面貌,通过类似照片或海报的形式展现中国春节场景。这种风格适合展现《北京的春节》原文中的场景。
3.画面准确性
在画面准确性方面,Midjourney表现较为出色。经过多次模型修正后,画面的逻辑性和空间感已经较为准确,AI生图较为困难的手部、物理规律等,Midjourney都能较为正确地表示。
文心一言的画面准确度也较高,已经较少出现人物手部绘制错误的问题,但其对于物理空间的处理尚存在问题。例如在描绘小年的图片中,文心一言试图表现糖果在前、街景在后的场景,却对空间关系处理不当,在物体体积近大远小的画面表现中也存在问题。
奇域的数据模型过于侧重古风元素,这导致其在呈现现代春节场景时显得力不从心,将“中国风”过度简化为“古风”,忽略了贴合文本指令要求的春节文化元素。
WHEE在追求写实风格的同时,也显露出技术上的局限,如人物的手部和形态描绘经常出现明显错误。这影响了图像的整体质量,尤其是当用户期望看到更高度逼真的画面时,这样逻辑性的错误更为明显。
综上所述,四款AIGC产品在构图和场景选择上大致准确,但具体细节的处理仍有瑕疵。例如,春联和灯笼上的文字每个产品都有呈现上的问题,反映出数据集和算法的局限性。四款AIGC产品在展现“春节”相关内容方面各有特色和局限,在应用时需要通过多次修改描述去纠偏它们对抽象文字内容的理解。本次实验从一些侧面提示了图像生成技术在未来发展中需要改进的方向,特别是在细节处理、文化敏感性和风格多样性方面仍需努力。
三、使用AIGC继承与创新我国传统民族节日的基础路径
从春节文生图实验过程中发现,优化提示词是生成图像获得预期的关键点。AIGC是语料库语言研究成果的一项应用,语料库语言来源于真实的自然语言。口语、书面语是AIGC语料库的语料,也是记录和传承我国传统民族节日的言语媒介。因此,在AIGC时代,继承与创新我国传统民族节日的基础路径,即是从语料库语言的使用和人机交互言语传播质量提升的角度,增强对我国传统民族节日口语、书面语和术语语言资源的建设,增加语言资源的丰富多样性。同时,树立向生成式AI学习的观念,具有机器学习思维,拓宽语言资源的应用空间,突破语言资源应用边界,从我国传统民族节日丰富的语言资源中,提取便于生成式AI易于理解的提示词,建设我国传统民族节日提示词语料库,利用新技术、新应用,继承和创新我国传统民族节日,在生成式AI的世界里,展现中国传统民族节日文化的独特性和丰富性。
建设我国传统民族节日提示词语料库,是使用AIGC应用场景继承与创新我国传统民族节日的基础路径,是AIGC文生文、文生图、文生视频等内容的依据。使用抖音旗下AI智能助手“豆包”的“帮我写作”功能,输入指令“如何构建我国传统民族节日提示词语料库”,生成的文案内容为“构建我国传统民族节日提示词语料库可以从以下几个步骤入手。(1)收集资料:广泛收集各传统民族节日的相关信息,包括历史背景、文化内涵、庆祝方式等。(2)确定分类:按照节日类型、地域、民族等进行分类,便于管理和检索。(3)提取提示词:从收集的资料中提取具有代表性的关键词、短语作为提示词。(4)补充解释:为每个提示词添加简要的解释,帮助理解其含义和用途。(5)验证准确性:请专业人士或相关领域的专家对提示词进行验证,确保准确性。(6)建立关联:将相关的提示词建立关联,展示它们之间的联系和逻辑。(7)不断更新:随着对传统民族节日研究的深入、及时更新和完善提示词语料库。(8)推广应用:将提示词语料库推广到相关领域,如文化教育、旅游等,发挥其价值”。由此可以看到,“豆包”生成的构建我国传统民族节日提示词语料库的几个步骤,逻辑性强,并具有情感分析特征,内容导向正确,和之前的单一回答问题相比,生成文案越来越具有人类思维的个性化特征,甚至在快速思考问题的全面性上超越人类思维,成为人类工作和生活的智能助手。从春节文生图实验中还发现,目前AIGC语料库的语料质量参差不齐,部分文本数据存在准确性问题、局限性问题和时效性问题。因此,建设我国传统民族节日提示词语料库,在AIGC应用场景中,准确、完整、多样性地呈现我国传统民族节日的样貌是当务之急。
在增强我国传统民族节日语言资源建设的过程中,要深刻认识到我国传统民族节日是民俗文化的一部分,是通过口头传承延续下来的。我国传统民族节日的口头传承,不仅是我国传统民族节日的重要组成部分,也是我国传统文化的重要内容。如何通过科技文化形式,将没有经过书面记录和出版发行环节的我国传统民族节日的口头传承保留下来,作为我国传统民族节日继承与创新的基础,是一项具有历史文化价值的工作。对我国传统民族节日口头传承的整理从收集开始。使用“豆包”智能助手,输入指令“如何确保我国传统民族节日口头传承收集的真实性和可靠性”,生成的方法文案涵盖八个方面,即严谨的田野调查法、多次求证与对比、记录详细的背景信息、运用现代技术手段、培养专业的收集人员、建立严格的审核机制、尊重当地文化和传统、长期跟踪和持续研究。由此可见,生成式AI还能够在具体工作方法指导方面提供帮助,开阔工作思路,其工作效率和思路严谨已经可以与人类比肩。我国传统民族节日的口头传承,以言语、歌谣或格言的方式代代相传,使我国传统民族节日的文化传承以鲜活、直接的口语形式延续下来,丰富了节日文化的多样性,同时也塑造了我们中华民族的精神特质。对我国传统民族节日口头传承的收集整理,将为我国传统民族节日提示词语料库提供高质量的语料,为日益增长的AIGC用户提供生成内容的准确性、可靠性提供基础性的支持,使我国传统民族节日以源头语料的方式,源源不断地在AIGC应用场景里以创新的形态、崭新的面貌复现,创造我国传统民族节日记录、继承与创新的传播新形态。
要进一步推进我国传统民族节日术语的准确性表述工作。我国知名的传统民族节日达数十个,每个节日都具有其独特的文化内涵、习俗和意义。例如,春节吃年夜饭、贴春联、放鞭炮;元宵节吃元宵、赏花灯、猜灯谜;清明节扫墓祭祖,追思先人;端午节吃粽子、赛龙舟;中秋节赏月、吃月饼、寓意团圆等。每个节日都有其起源和发展的历史文化脉络,承载着中华民族文化的传承。因此,在AIGC的应用场景中,提升我国传统民族节日人机交互的言语质量,即用精准、恰当的术语,传达节日的内涵和特点。使用“豆包”智能助手,输入指令“如何优化我国传统民族节日术语表达”,给出的具体建议是:深入了解,挖掘每个节日的独特之处,以便更准确地表达;统一规范,制定统一的术语标准,避免混乱和误解;简单明了,避免过于复杂的表达,让人一目了然;尊重文化:体现各民族文化的特色和价值观;结合现代元素,让术语更具时代感,易于被年轻人理解和接受;广泛征求意见,集思广益,吸收各方面的建议。从“豆包”给出的优化我国传统民族节日术语表达的具体建议中,可以阅读出机器思维及其对术语表达的诉求,为我国传统民族节日术语表述的准确性提供了思路。
同时,亦应看到,在我们使用生成式AI产品的过程中,由于数据问题、训练过程及推理方面的问题,会导致“AI幻觉”的产生,在使用时需保持谨慎,对于生成内容的重要信息要进行交叉核实或验证,但随着对“AI幻觉”问题的研究不断深入,模型的可靠性和安全性将会不断提高。
AIGC不仅创造了以“提示词”为标注特征的人机言语交流的表达方式,而且还创造了新的文体风格。例如,使用“豆包”智能助手,输入指令后,首先会呈现一段文字,让用户选择生成内容的文体风格,是总结摘要、文案润色、知乎体、小红书文案创作、抖音文案创作,还是Tik Tok文案创作(通常是英文)、朋友圈文案创作、视频脚本创作、歌词诗歌创作等。AIGC语言表达方式、文体呈现方式以及其应用场景的传播方法、方式的改变,使我国传统民族节日继承与创新呈现出人机共创的AI风格的新表达、新创意、新传播。
(本文为2024年中国传媒大学校级科研项目“基于AIGC应用的我国传统民族节日传承与创新研究”前期研究成果,项目批准号:CUC24TZ07)
注 释:
①《关于推动人工智能赋能中华文化传播的提案》,百度百家号.观察者网2024年3月5日发布。
作者简介:陈斯华,中国传媒大学国家重点实验室新媒体研究院教授、硕士生导师(北京 100024);徐婧荣、张洋、苏晗,中国传媒大学国家重点实验室新媒体研究院硕士生(北京 100024)。
编校:王 谦