【摘 要】 结合国内外出版业对AIGC的应用实践,以“金波别集”为研究对象,阐述AIGC在童书生产过程中的应用价值,提出人机协同机制的有效路径:综合各项信息将文献集制作成文本数据,将文本数据转化为机器可以理解的关键词,通过关键词对个性化风格进行测试与训练,制定标准化要求对插图图片进行批量审核或个性化审核。在面临编辑人员迭代问题、AIGC模型优化和训练问题、版权纠纷问题时,编辑与模型训练技术人员应将工作阶段一分为二,编辑负责提供详尽的文本数据与关键词,技术人员负责将关键词录入AI模型并训练AI,以此避免各种风险,更好地实现人机协同。
【关 键 词】人工智能;童书出版;人机协同;AIGC
【作者单位】李默耘,东方出版中心。
【中图分类号】G230.7 【文献标识码】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2024.20.011
在出版领域,不同的出版机构对AIGC的认知与应用水平存在显著差异,导致其在实践中的表现呈现不一致性。特别是在中国,出版机构主要在童书生产领域探索AIGC的潜力。基于对AIGC优势与劣势的共识,更深入的研究揭示了其在创造力、稳定性、真实性以及出版审核方面的局限性,这些问题均强调在出版行业中应用AIGC时人机协同工作模式的重要性。
一、 AIGC在童书生产中的应用现状
国内的出版机构在童书生产领域率先采用AIGC技术,这一趋势主要是由市场需求驱动的。当前,童书的销售渠道主要集中在短视频电商平台,某一本童书的热销往往会在短期内引发大量同类产品的跟风上市,迫使出版方加速产品迭代以适应竞争激烈的市场环境。同时,由于童书的目标读者较为特殊,这使得出版机构在童书生产领域应用AIGC时,不能单纯地依靠AIGC,而是需要使用人机协同模式。这种协同工作模式需要充分发挥人类智慧,将人类智慧与人工智能紧密结合,以确保生成的内容既符合出版质量标准,又能满足市场对创新和多样性的需求。“金波别集”已出版的25册图书为新时代童书生产中AIGC的应用提供了一个示范性案例。
1.AIGC在童书生产中的应用价值
童书最耗时的生产环节是插画绘制,AIGC可辅助插图师完成插图绘画工作,从而显著减少童书生产的时间损耗。在传统童书生产环节,如插画师工作量满额,绘制1张32开的满版插图需要5—7天,绘制1张16开的满版插图需要7—10天,绘制1张8开的插图需要15—20天。如果一本儿童文学读物需要插画师绘制20张插图,工期最少需要3个月。但AIGC可以在半分钟内一次性生成4张图,无限次生成备选图,直至编辑满意为止。以“金波别集”为例,AIGC1个月可以生成12000张图,这1个月不仅包含生成时间,还包含训练时间。同比,AIGC为1本儿童文学读物绘制20张插图可以在几小时内完成。
AIGC使得图片选择更加多样化。与传统人工绘制插图相比,AIGC能够有效规避一旦着色便难以修改的问题,通过1次训练即可产出多张风格迥异的备选图片。这种技术使得编辑工作从做问答题转变为做选择题,从而更高效地从众多备选图片中筛选出符合要求的1张。以“金波别集”为例,经过训练的AIGC技术解决了风格形成的难题,能够提供包括宫崎骏风格、水彩风格、吉卜力风格、新海诚风格、迪士尼风格等近百种风格选项。同时,AIGC还提供详尽的图片生成需求明细,包括图片质感、灯光、色调、视角、氛围等,编辑可以根据不同的需求对AIGC进行有针对性的训练,以实现更加精细化的图片生成。这种技术的发展不仅提高了图片生成的效率,也为编辑提供了更大的选择空间,使得生成的图像更加多样化和个性化。
经过训练,AIGC生成的图片能够符合大众审美。AIGC通过分析大量文本数据来学习如何根据文本描述生成相应的图片。在这种训练模式下,模型会学习文本中的关键词、短语和整体语境,理解如何将这些文本元素转化为视觉元素。AIGC能够有效识别和理解文本中出现频率较高的语境,即那些在大众文化中广泛流行的语境。随着全球更多用户的参与、调整和训练,AIGC将不断进步,其生成的风格将更加符合大众的审美标准,能够实时对审美趋势进行调整和优化。这一过程不仅体现了AIGC在文化适应性上的进步,也展示了其在审美动态性上的灵活性。
2.AIGC在童书生产的应用场景
使用AI生成童书插图,既是生产方式的迭代,也是生产力、生产关系的深刻变革。基于大模型训练的AIGC不仅部分替代了原生产者(插画师)的功能,且通过精密的算法引导生产者的思维,人与人的沟通转至人与算法的博弈。
AIGC作为生成式新生产力工具,其关键技术在于机器学习,训练路径分为3种类型:一是基于文本数据训练得到的分类模型;二是基于用户行为数据训练得到的推荐模型;三是基于用户反馈数据训练得到的推荐模型[1]。在正式应用AIGC之前,编辑需要准备大量的文本数据。以“金波别集”为研究对象,编辑团队为该文献集中的每一幅图片提供相应的文本数据,随后技术团队对这些文本数据进行深入分析,以识别和提取关键词。基于这些关键词,技术人员将进行语言模型的转换和适配,进而启动训练过程。在此过程中,编辑将对AIGC生成的图片进行细致评估并在后续流程中持续对其进行反馈与修正。通过这种迭代的反馈机制,AIGC将逐渐学习并优化其算法,最终形成针对“金波别集”特有风格和内容的推荐图像模型。该模型不仅能够反映文献集的视觉特征,还能够根据编辑团队的反馈进行自我调整,以提高生成图片的准确性和相关性。
从目前来看,AIGC适用于生成短篇、彼此之间没有关联性的作品的插图。在AIGC大模型训练的初始阶段,针对同一文本内容和固定关键词集,若在不同时间点对AIGC进行训练,AIGC可能会输出截然不同的图片。这种现象揭示了AIGC技术的独特魅力,即其生成结果的多样性和不可预测性,同时也暴露其潜在的局限性,尤其是在需要保持人物形象一致性的儿童长篇小说领域。由于人物形象连贯性对叙事完整性和读者阅读体验至关重要,因此AIGC在生成一致性人物形象方面的不稳定性值得注意。随着技术的不断发展,AIGC在保持人物形象一致性方面的表现有望得到提升,从而更好地满足出版行业的需求。
AIGC在处理单一元素的场景时表现较为理想,但在涉及多元素组合的场景中,可能会遇到风格和形象混乱的问题。发生这种情况的原因通常是数据集不充分,导致人工智能难以准确理解和处理指定风格中的多个关键词,从而无法生成风格一致或与内容匹配的图片。以“金波别集”为例,当任务要求生成1张包含“大树下有兔子、狗、熊3个动物,且它们在互相交谈”的宫崎骏风格的图片时,AIGC将面临挑战。如果将宫崎骏风格设为优先,可能无法在画面中生成所有指定的动物。如果强调3个动物同时出现,生成的图片可能会倾向于写实风格,从而偏离宫崎骏的插图风格。此外,在指定风格优先的情况下,多人或多物件的场景还可能导致元素变形的问题。
AIGC在处理基于已知事物的场景时表现较高的适用性,但在处理需想象的场景时往往超出用户预期,更倾向于魔幻或奇幻的风格。以“金波别集”为例,基于“1只不开心的小蜜蜂在田间飞舞”的文案数据生成图片时,AIGC可能会生成1个挥舞着大针鳌、具有人脸和蜜蜂身体、张牙舞爪的蜜蜂大王形象,这种暗黑而惊悚的解读与原文本的意图相去甚远。为了避免AIGC的理解偏差,训练过程中对关键词的增删至关重要。即便如此,AIGC对修改后关键词的理解仍具有随意性,导致生成的图片呈现千变万化的“智能”特征。
3.AIGC在童书生产的应用难点
随着AI对图文声像处理能力和学习能力的不断增强,其可根据用户需求在短时间内生成文章、诗歌、音乐、视频、动画等内容形式,在使用者的引导下完成多样化的内容创作[2]。因此,AIGC在持续创造力、活跃度和稳定性方面的性能被寄予厚望,这些也是其在实际应用中需要克服的关键难点。
AIGC在风格融合方面展现显著的能力,但其在满足个性化需求方面需要进行有针对性的训练。如果AIGC系统对相似模式或数据集过度依赖,可能会造成生成内容的原创性和新颖性不足,这一现象有时被称为内容饱和或创意枯竭。特别是在童书出版领域,AIGC的训练若完全由算法主导,初期形成的独特风格可能会逐渐与其他风格融合,导致小众特质被淡化,这对出版方而言并非利好消息。以“金波别集”为例,该系列在人物形象塑造上一贯采用宫崎骏风格,经过持续训练,AIGC生成的人物形象已趋于成熟,但也出现脸谱化、精致化和趋同化的问题。AI系统可能认为其生成的图像趋向完美,但完美的外观并不一定具有特色和辨识度。因此,为了保持AI的创造性,出版机构需定期更新AIGC算法,不断为AI投喂多样化的数据集并引入随机性。这些措施有助于克服AIGC在内容生成上的局限性,优化其在个性化和创新性方面的表现。
AIGC在生成人物面部特征和四肢细节方面面临显著挑战,这些问题被认为是当前技术发展中的主要难题。尽管AIGC在风格把握上可能表现一定的稳定性,但在面部五官的完整性、手指和脚趾数量的准确性以及四肢的完整性方面,AIGC的输出结果常常出现偏差。例如,人物面部可能缺失必要的五官,或者四肢出现不完整的情况。在处理昆虫等非人物图片时,也可能出现多腿、多足或多翅膀等异常情况。因此,AIGC未来的优化和发展需要特别关注这些问题,以提高生成图片的准确性和真实性。
二、人机协同在童书生产领域的应用模式
虽然AIGC能够在一定程度上节约过程资源并提高生产的质量和效率,但AIGC在童书生产的图片生成与审核两个方面尚无法做到一次性完成任务且完全符合出版标准。在生成内容的过程中,AI对现实世界的理解基于数据的表面层次,缺乏对现实世界的理解和洞察,这使得目前其对知识的结构化呈现只能停留在“平庸的专业主义”阶段[3],使得其文本数据的表达处于浅层。同时,在审核过程中,多模态生成式人工智能技术将虚假信息的范围从文本扩展到代码、图片和视频,虚假信息的多样性、欺骗性显著增强,导致出版内容面临真实性下降的风险[4]。这凸显了人机协同机制在童书生产中的重要性和不可或缺性。
1.人机协同机制的前提和路径
AIGC在童书出版领域的应用虽然部分替代了传统插画师的角色,但对那些具备高级审美能力的编辑的需求有所增加。在传统手工绘制插图的过程中,插图的质量主要取决于插画师对文本内容的理解和艺术表达能力,在此过程中,编辑可以通过简洁明了的语言与插画师进行有效沟通。然而,随着AIGC的应用,机器学习的核心对象转变为文本数据,编辑的角色转变为文本数据的制作者,他们需要具备高级的审美能力,以确保提供的文本数据能够引导AIGC生成具有独特风格和创新性的图片。这要求编辑不仅精通文本内容,还对艺术审美有深刻的理解和掌握,以便在人机协同中发挥关键作用,提升AIGC生成内容的艺术价值和原创性。
从目前来看,AIGC人机协同的路径有以下几个方面:综合政策规定、出版标准、市场需求、读者反馈,将文献集制作成文本数据;将文本数据转化为机器可以理解的关键词;通过关键词对个性化风格进行测试与训练;确定关键词与风格之间的优先关系;制定标准化要求,对插图图片进行批量审核或个性化审核。
2.人机协同机制的应用场景
人机协同机制在生成与审核两个环节都具有非常复杂的应用场景,本文主要对常见场景进行概述。
第一,在生成环节对风格的界定与把握。虽然采用人工绘制的童书插图已形成丰富多样的风格,但市场需要更多的创意图片。因此在使用AIGC绘制插图之前,编辑需要对每种插图风格的特色、代表画家、代表作进行深入学习和研究,储备关于童书插图的专业知识,在此基础上有所创新。以“金波别集”为例,该文献集的文本风格普遍呈现温暖和向善的特质。在视觉化设计的初期阶段,编辑团队选定宫崎骏风格、水彩风格、中式水墨风格以及迪士尼风格进行实验性应用。通过对比测试数据,编辑团队发现:中式水墨风格在人物形象的表现上存在明显的模糊不清、难以辨认的问题,不能满足质量审查的标准;迪士尼风格因其场景和人物形象的高度模式化,导致表情和动作过于遵循迪士尼的既定范式,可能引发读者的审美疲劳;宫崎骏风格在树木、花草的细节描绘以及动物表情的捕捉上表现不佳;水彩风格在人物形象的生成方面未能达到预期效果。基于这些测试结果,编辑团队决定采用宫崎骏风格与水彩风格相结合的艺术手法,以期在保留各自风格优势的同时,弥补单一风格在视觉表现上的不足,实现更加和谐与丰富的视觉效果。
第二,在生成环节对关键词的训练与优化。优化关键词是提高AIGC系统性能的关键技能。要生成贴合文本、对文本理解深刻、表达卓越的图片,需要在训练环节不停地优化关键词。例如,生成1张“月光下的父子冰上游玩图”的基础关键词如下——地点:公园。背景:冬天,湖面,结冰。人物:父与子。动作:父亲推着儿子的小冰车。如果仅将这些关键词输入AIGC,得到一张距离父子2—3米远的普通平视视角图片,这张图片并没有瑕疵,但在接下来生成图片时,如果对“地点”“背景”“人物”“动作”进行同逻辑的提示,所得图片视角会同质化且缺乏美感。为了得到1张与众不同的图片,编辑需要优化关键词。视角:从小孩子的视角进行平视。人物位置:父亲在孩子身后,被孩子挡住半个身体。画面细节:天空正飘下细雪,生成六边形的形状;一片雪花落在孩子的手上。表情:又好奇又惊喜。天气:雾蒙蒙的下雪天,太阳朦朦胧胧。通过这些关键词的丰富,AIGC才可以生成1张不同视角、不同体验的图片。由此可见,AIGC在插画创作领域具有显著的时间节约优势,然而,这一技术的应用也要求编辑在准备文本数据、关键词转化及关键词的持续优化方面投入更多的时间和精力。此外,技术人员在训练AIGC模型的过程中也需要花费额外的时间来调整和优化模型参数,以确保生成内容的质量和风格符合预期。
第三,在审核环节对政策规定、出版标准的把握。AIGC在图像生成过程中面临对政策规定和出版标准的准确把握难题。例如:在中式建筑图像中,可能错误地包含日式建筑元素;在描绘儿童时,可能未能适当处理服装的适宜性以及人物五官和面部表情的准确性。因此,编辑团队需要通过人机协同工作机制来完成审核闭环,确保生成图片内容符合出版相关要求。
第四,在审核环节对读者反馈的把握。AIGC在审核环节的运用依赖于其对新文本数据的持续学习,然而其预测能力和对复杂语境问题的辨识能力存在局限性。如果仅按照AIGC的初始数据进行输出,可能在形式上符合出版标准,但由于读者反馈的多样性,实际上可能并不符合预期的表达效果。因此,编辑团队需要以人机协同的工作模式,在审核环节对图片进行细致的把控并进行适当修改,以确保内容的准确性和适宜性。
3.人机协同机制的应用应对
在生成与审核环节对AIGC生成图片通过人机协同机制进行把关,从流程上完成了童书生产应用AIGC的闭环,但仍面临编辑人员迭代、AIGC模型优化训练、版权纠纷等问题。
新质生产力的使用离不开生产者对新式生产工具的掌握。在童书生产环节,编辑团队尝试过将编辑与技术合二为一的方式,但具备高级审美能力的编辑与熟练掌握AIGC模型训练及使用关键词的技术人员各自有其擅长的专业领域,不能简单粗暴地合并工作流程。合理的流程是将工作阶段一分为二,编辑负责提供详尽的文本数据与关键词,技术人员负责将关键词录入AI模型并训练AI,编辑授权技术人员适当增删关键词的权利。一方面,编辑需要对文献集和图片有深刻的体味与领悟,拥有熟练的文本数据制作能力,与技术人员熟练配合,才可以充分发挥AIGC的优势,否则生成的图片可能不能使用。另一方面,出版机构需要寻找适当的技术人员,这些技术人员需完全掌握和理解文本数据和关键词,在适当的时候可对关键词进行调整,能熟练训练AI模型。由此可见,AIGC目前仍处于人工智能的过渡阶段,严重依赖人的参与及引导。
AIGC的版权问题一直都是人们关注的焦点。在人机协同机制得以顺利开展的前提下,AIGC所生成的童书图片在某种程度上有了人的智慧投喂,具有独一无二性。然而,当人机协同机制执行不顺畅时,编辑可能难以制作符合要求的文本数据,或者AIGC无法准确理解关键词,导致编辑转而寻找相关图片直接投喂给AIGC。在这种情况下,AIGC从文生图的生成模式转变为图生图的生成模式,可能引发版权问题。图生图模式直接模仿已有图片完成生成任务,而非通过关键词训练完成任务,这可能会引发较为严重的侵权行为。因此,AIGC所产生的版权纠纷更多是由生产者导致的。
三、结语
当下童书出版的市场竞争进入白热化,在童书生产领域深耕的出版机构迎接技术革命浪潮,积极运用AIGC,是形势所迫也是大势所趋。出版机构在童书插图生产环节可积极应用与实践AIGC,但其在童书生产的其他环节的赋能仍需谨慎研究。笔者通过“金波别集”的具体实践得出,童书出版机构需要做好AIGC应用的顶层设计,研究AIGC的应用场景,通过实践规避AIGC的应用难点和痛点并实时关注AIGC的优化迭代,以调整应用节奏。在AIGC应用过程中,出版机构应引进与培养优质编辑与技术人员,制定好人机协同的相关管理机制和流程,充分发挥人机协同机制的优势,为AIGC的应用守好审核关与出版关。
|参考文献|
[1]索伟. 生成式智能出版的技术原理、应用挑战及优化路径[J]. 传播与版权,2024(8):59-61.
[2]王飚,魏婧.“人—技”关系视域下AI在出版行业的创新应用[J]. 出版广角,2024(13):16-20.
[3]喻国明,林昱彤,李昀玥. 作为新型内容生产力的生成式AI:发展局限与未来进路[J]. 出版广角,2024(14):22-30.
[4]赵礼寿,丑越豪,王梦颖. 人工智能在出版业的风险应对及应用前景[J]. 出版广角,2024(13):21-26.