当创意遇上AI：人工智能赋能网络文学多模态叙事的可能与限度

2025-02-13 00:00:00陆朦朦

编辑之友 2025年1期

【摘要】人工智能技术正以前所未有的速度渗透到网络文学的各个领域，带来革命性的变革。从数据库生产与多模态再现，到效率化叙事与容错性创新，再到个性化交互与定制化体验，人工智能不仅能帮助创作者构思情节、生成文本，还能结合图像、音频、视频等多媒体元素，创造出更加立体、丰富的叙事体验。但人工智能赋能网络文学多模态叙事有其限度，包括模态广度扩张下原作品故事意义与价值观念的粗粒化呈现与有损压缩，造成意义深度的稀释；基于存量人类世界多模态数据预训练而生成的多模态内容存在有限想象、价值偏见与价值对齐问题；人工智能缺乏身体肉身体验的非意向性创作往往造成情感体验与人性价值可沟通性的匮乏。由于多元主体利益博弈的存在，未来如何实现人工智能与人文精神的深度融合，仍是需要我们进行长期探索的问题。

【关键词】人工智能多模态叙事网络文学人工智能生成内容

【中图分类号】G230 【文献标识码】Ａ【文章编号】1003-6687（2025）1-035-06

【DOI】 10.13786/j.cnki.cn14-1066/g2.2025.1.005

基金项目：国家社会科学基金青年项目“网络文学海外传播中华文化的多模态叙事与认同引导研究”（24CXW002）

作者信息：陆朦朦（1991— ），女，浙江慈溪人，博士，浙江传媒学院出版学院副教授，主要研究方向：网络文学、数字文化产业。

一、人工智能赋能网络文学多模态叙事的“技术基因”

人工智能（Artificial Intelligence，AI）工具利用自然语言处理和计算机视觉等先进技术增强内容创意产业的创造性，其核心能力之一是实现跨模态生成，能够深入解析并学习来自文字、声音、图像乃至视频等多种模态的输入数据，从中提炼出丰富的语义信息和结构特征，进而实现跨模态的创意转换与生产。多模态概念具有浓重的跨学科色彩，在主流概念定义中有三个理解角度：一是将其视为感官及相应的神经系统；二是将其视为在社会文化中形成的创造意义的符号资源；三是将其定义为人机交互中的信息呈现方式。[1]总的来说，多模态是指通过多种感知通道（如听觉、视觉、触觉），借助多种符号系统（如语言、技术、图像、颜色、音乐）共同编码来传递信息的方式。[2]人类的交流本质上是多模式的，人类用语言、手势、面部表情和语调来传达意思，通过模仿人类的交流模式，多模态AI拓宽了创意表达的边界，展现出更多的灵活性和创新性。

目前，全球多模态AI大模型正处于蓬勃发展的阶段。在2023年之前，大模型的预训练主要聚焦于单模态，着力于文本模式的输入和输出。进入2023年，大模型技术逐渐从单一的文本或图像处理扩展到支持多模态的多任务处理。这一转变使得大模型公司的竞争重点转向多模态信息的整合与深度数据挖掘，力求精确捕捉和关联不同模态的信息。如OpenAI于2023年9月推出的多模态大模型GPT-4V显著提升了视觉提示功能，在处理复杂的多模态信息时表现突出。[3]Google于2023年12月推出的多模态大模型Gemini，OpenAI于2024年2月发布的文生视频模型Sora等凸显了多模态大模型的高歌猛进，为网络文学的多模态叙事提供了诸多技术层面的可供性。

在学术研究领域，网络文学研究专家欧阳友权认为，人工智能对网络文学的赋能之一体现在基于人工智能的多媒体叙事创生新的网络文学形态。[4]人工智能生成内容（Artificial Intelligence Generated Content，AIGC）能够有效增强网络文学在不同媒介语言中的强文本间性，并通过较低的资金成本和时间成本实现文本的意义流动，[5]实现了网络文学作品从文学景观到文化景观的具象表达。[6]在实践应用领域，2023年6月，阅文集团围绕“升级AIGC赋能原创的多模态多品类内容大平台，构建新的IP上下游一体化生态体系”的目标，成立包括“智能与平台研发事业部”在内的四大事业部，推动IP孵化和生态链构建的提效增速，通过贯通“多模态内容—大产品平台”运营链，构建多模态内容与产品的一体化运作模式。文字、声音、漫画、动画等内容生产体系将与用户体系进一步匹配融合，满足用户对于同一故事的图文音视等不同体验的需求，生成IP体验新形态和新的消费场景。无独有偶，网络文学领域的头部公司中文在线也在AI大模型、AI多模态方面加快技术建设并推动商业化落地，其2023年10月发布的AI大模型“中文逍遥”，具有“一张图写出一部小说”的功能，即可根据图片内容撰写优质小说，展现出其多模态能力。

对于网络文学产业而言，其本身孕育于网络世界高歌猛进的进程中，从诞生之初就深深烙印着技术基因。从网络文学的生发史来看，网络空间不仅仅是网络文化对传统文学进行简单渗透或复制的场域，其更以独有的生产性和创造力，赋予网络文学独有的形态，远非作为物质性的承载容器那么简单。同时，网络空间是形塑文学创作逻辑与作品形态的动态性裁剪器，其塑造了一套独特的空间制度，改变了文学的存在方式和传播方式，深刻地影响了人们的阅读习惯和审美观念。对于人工智能赋能的网络文学创作而言，多模态叙事形成的复合文本也同样深刻影响着用户的阅读体验与理解深度，不仅革新了叙事符号的组装方式，更开创性地构建了一个全方位、立体化、情境化、交互性的文本世界，极大地拓宽了文本表达的边界与影响力。基于多模态数据输入—融合—输出路径的多模态AI，如何影响与形塑未来网络文学的文本形态、产业路径与消费场景，值得深入探讨。

二、人工智能赋能网络文学多模态叙事的可能面向

1. 人工智能赋能网络文学数据库生产与多模态再现

网络文学的创作日益依赖于数据库方式，即将已出现的创作元素和符号当作可共享的数据，模拟数据库的采集、存储、提取和更新方式来进行写作。这种方式提高了创作的效率，重塑了文体结构模式。有学者认为创作资源的共享性、结构性与再生产性形塑了网络文学的数据库生产特质，而这一创作方式已经在网络文学产业中从工具论的存在跃升为本体论的存在。[7]人工智能技术的介入无疑提高了数据库生产方式的效率，例如阅文集团旗下的AIGC产品“阅文妙笔”，可以通过对输入的作品类型、角色性别、标签等细节进行分析，结合对角色的大概设想，获得人工智能生成的角色称号、外貌、性格、经历等信息。以都市小说为例，人工智能可以按照创作者的大概设想，生成人物名称、人物关系、性格特点等信息，对于部分场景，还可以生成数百字的详细描写。[8]多模态AI同时利用各种类型（或模式）数据形成见解、做出预测、生成内容，围绕网络文学文本的多种形态媒介内容都可以成为输入源头，经由多模态AI输出内容。从某种程度上说，人工智能赋能的网络文学多模态叙事是数据库生产模式的加强版，其可资利用的数据库元素形态更为多元，可以形成网络文学多模态转化的概念描述、故事塑造、风格界定、形态定义。这种通过强大算力处理海量数据，使多模态文学信息模块与模块之间的拆装组合可以精准、瞬间完成的过程，被研究者称为审美数字编程。[9]在实际应用的多模态AI项目中，其应用操作情境也建立在数据库式的使用逻辑上，例如由Charima.ai公司研发的Web Comics项目提供内置的头像生成器，并设置了图像、GIF、音乐和音效管理器、免费背景图像库、高级AI语音资源等供用户进行选择、调试、实验、创作，方便用户拼贴缝合到故事中以增强用户的参与度与沉浸感。[10]同样，一款致力于人工智能艺术作品生成的工具Maze Guru，拥有囊括了超过2000个AI模型风格的庞大资源库，用户可通过输入文本、图像等方式生成图像、视频等结果，探索无限的创作可能性。[11]

2. 人工智能赋能网络文学效率化叙事与容错性创新

传统的网络文学文本仅仅由单一的文字符号构成，文字符号构成的文本欣赏空间是扁平化的，允许单一的视觉感官进入网络文学作品的体验场景，构成了传统的网络文学“静观式”的审美方式。尽管随着网络文学IP产业链的延伸，原始文本的创作逐渐转向多模态符号共同叙事，但是，不同媒介产业的不同生产机制导致文本的多模态叙事存在产业间隔，相应的开发成本也较高，这些固有的掣肘因素导致网络文学复合符号文本创作难以高效率展开。同时，由于影视创作技术存在一定的应用门槛，网络文学多模态叙事需要依靠成熟的影视化工业体系才能成型。随着文生图、文生视频等大模型技术的应用，网络文学多模态叙事的创作门槛进一步降低，普惠性、去中心化的多模态叙事创作成为可能。尽管在技术层面，能够实现多模态数据的融合与呈现、不同模态数据之间的关系理解，以及有效处理多种类型数据的模型架构还不成熟，但就现有技术应用情况来看，人工智能在赋能网络文学多模态叙事的工具性使用与辅助性工作上已经显现出巨大的想象空间。同时，文本内容的即时性多模态转化与创意想法的高效率效果验证，为网络文学文本的多模态叙事转化提供了巨大的创新容错，使得多模态叙事可以通过不断地微调、迭代与优化达到预期的审美要求。在此基础上，人工智能既能以“生产者”身份调用人类已有的以数据化形式存储的数据库并将其作为生产对象，又能被人类用作“生产工具”对数据生产资料进行自动化加工，通过人机协作提升文艺生产的速度和效率。[12]不过，与多模态AI的其他应用方式相比，网络文学的多模态AI叙事更具创意性和体验性，其提升创作效率与实现容错创新的效果需要通过读者的阅读体验与审美感受来评判。相较而言，评判其他任务导向性应用的效果较为简单直接，例如在智能客服情境中，智能客服只需提供精准的个性化服务，能够相对快速、准确地回答用户问题并提供相应的解决问题的方案，即可较好地满足用户需求。因此，在作为创意性内容生产的网络文学多模态叙事方面，多模态AI的完善仍然有很长的路要走。

3. 人工智能赋能网络文学个性化交互与定制化体验

多模态AI通过文本、图像和视频数据等来学习、理解和分析用户习惯和偏好，从而为用户推荐符合其喜好的网络文学作品、实时创建用户喜爱的定制故事和叙述，为每个人提供完全独特的内容体验。通过对多模态数据进行组合分析，人工智能可以揭示不同媒介之间的内在联系和潜在规律，为网络文学提供新的创作灵感和叙事手法，这种赋能不限于对文字内容，还包括对语言风格、情感色彩与多媒体内容等的赋能。有研究者曾在研究网络文学IP跨媒介内容产品的受众迁徙行为时，提出跨媒介消费的概念，认为跨媒介消费是受众以拓展内容消费体验为目的，基于一定的需求和动机，在同一IP延伸的多种媒介内容产品间流动、迁移、转化、参与、互动、创作的心理反应与行为变化过程。[13]相应地，网络文学IP价值开发应关注不同媒介内容的一致性，始终保持其标志性的世界观设定、角色设计、叙事风格，通过文本间相互的启示和隐喻，产生多文本、多媒介互文叙事体验。[14]在多模态AI的技术加持下，对跨媒介消费行为的追踪可以有效整合用户围绕网络文学产生的一系列多模态行为数据，通过分析用户的阅读数据和行为模式，能够创建用户画像，生成符合用户特定需求的文学作品或媒介内容，包括定制化的故事情节、角色设定或视听效果等。例如，在描述一个奇幻场景时，人工智能不仅可以自动生成与场景相匹配的视觉画面和背景音乐，而且能够为不同的人提供不同的配置，做到“千人千面”，带给用户身临其境且极致个性化的体验。同时，多模态AI可以检测和理解人类的情绪，通过分析语音语调、文本情感和面部表情，判断具体情境下用户的情绪状态与心理需求，给予针对性、定制化的响应与反馈，使多模态故事世界的交互体验显著增强。例如人工智能算法通过塑造动态游戏环境，可以根据玩家个体行为定制游戏玩法，并创造适应玩家行为的响应性非玩家角色（Non-player Character，NPC）。由Charima.ai公司提供技术支持的全球第一款对话驱动的3D视频游戏The Kraken Wakes，改编自约翰·温德姆的科幻恐怖小说。在游戏中，玩家扮演一名记者，在一次可疑的外星人袭击事件后，采访目击者并与政府谈判以揭露真相。游戏玩法围绕对话展开，玩家可以用自然语言回答游戏角色的提问，无须如传统游戏那样在多个选项中进行选择。由人工智能驱动的能够进行语音互动且具备情感能力的智能NPC，以非常自然的反应和深度互动能力与人类玩家进行交流，玩家可以借此塑造故事的走向，影响角色的行动、决定和关系。[15]

三、人工智能赋能网络文学多模态叙事的限度反思

1. 人工智能赋能网络文学多模态叙事的意义深度与模态广度

尽管网络文学研究中不乏批评其类型化、同质化的声音，但网络文学创作仍然建立在人类个人性与社会性感知、体验的基础上，需要融合诸多文化创意元素与社会背景知识，且要设计多种修辞手法与语境转换方式。人工智能在处理这些复杂的语言和逻辑时往往采用简化的方式，导致作品的意义被压缩或扭曲。例如，人工智能可能无法准确理解隐喻、象征等修辞手法背后的深层含义，也无法在作品中灵活地运用这些手法来传达复杂的思想和情感。而在网络文学的多模态转化方面，其多模态叙事作品的价值往往在于对画面、声音等细节和微妙之处的处理。这些细节和微妙之处可能是作者情感表达与故事起承转合的精髓所在，也可能是作品主题和价值的深刻体现。人工智能在多模态内容生成过程中往往忽略这些细节和微妙之处，表现为所生成图像或视频的“精致的空洞”。加之多模态AI模型的性能及其泛化到新任务或新领域的能力可能受到训练标记数据可用性的限制，导致多模态AI工具可能出现对某些特定历史文化元素的误解或扭曲，生成在智能机器理解上“自成一体”而在人类主体感知上“四不像”的内容。网络文学作品故事意义与价值观念的粗粒化呈现与有损压缩，最终将造成意义深度的稀释。

此外，就当前的多模态叙事技术而言，尽管可支持多模态叙事的工具已经在应用层面如雨后春笋般涌现，但应用级的所谓多模态工具往往仍然在某一单模态或双模态领域进行垂直研发和深耕，例如文生图、文生视频等，而一部完整的多模态叙事作品要想实现无缝融合的效果，有赖于人类主体整合各类AIGC工具，为多模态叙事项目配齐最佳技术栈。例如，如果要为科幻类网络小说制作多模态的故事短片，可能要先用Midjourney生成概念图片，定义整体艺术风格；再用Runway视频工具制作三维空间场景，渲染能让读者身临其境的未来感；最后用Mubert等AI配乐工具进行氛围与节奏的烘托。这个过程中需要对多模态资源进行整合优化，创作者必须熟谙不同类型多模态AI工具的调教和使用技巧，在算法参数值中找到“黄金交叉点”。因此，具有完整叙事表达、意义传递与故事世界的多模态作品仍然需要大量的人工介入，对多模态提示文本进行输入、微调、再输入、再微调。

2. 人工智能赋能网络文学多模态叙事的有限想象与价值对齐

在内容生成阶段，由于模型训练语料库的不可控，可能导致偏见、“观点霸权”、刻板印象、文化片面性等问题，[16]这在多模态内容生成中依然存在，并不会因为模态的转变而消除，甚至会因视听模态叙事内容的广泛传播性与渗透性，导致偏见性、片面性观点更加容易潜移默化地嵌入社会文化中。这些主观认知通过貌似技术中立的大模型予以客观化，会进一步强化在社会现实中抽取的大模型底层预训练数据所带有的现实偏见与文化霸权，使其成为普遍性的默认惯例与规则。不仅如此，任何一种单一模态中的偏见都有可能在整个多模态叙事中扩散传播，造成更大的偏差。尽管文生图工具能够复制视觉形式，但它们并不“了解”或“熟悉”它们产生的图像中的参照物，即它们没有“体验”过输出图像中描绘的物理对象、人物或地点，[17]因此，单纯依靠人工智能的多模态叙事事实上难以还原由真实个体所创作的网络文学文本中人性的体验部分。此外，应用在网络文学多模态叙事实践中的多模态大模型往往是全球主要科技公司研发的产物，其对模型应用的目标必然遵循数字资本主义的逻辑，使得嵌入其中的知识价值体系、符号象征系统、文化多样性架构等预设被放置于全球性技术扩张的普遍性生产范式中，这种生产范式在本质上以消弭地区、种族、文化等任何不能被资本一体化运作框架所涵盖的差异性因素为首要原则。[18]针对上述可能的人工智能伦理风险，有研究者提出了人工智能价值观对齐的观点，简而言之，就是让人工智能的价值观与人类的价值观保持一致，以确保人工智能在对人类和社会无害的前提下运行，避免对人类的权利造成干扰和伤害。多模态AI系统涉及多种感知模态的融合与交互，技术实现上更为复杂，增加了价值观对齐的难度。有研究者通过引入社会学和人类学中提出的基本价值观来尝试解决大模型的对齐问题，指出理想的大模型价值观对齐体系应该具备准确性、适配性和透明性三大特性。[19]具体到多模态AI价值观对齐，要确保其在模型开发的不同阶段都符合人类的价值观，并具备上述三大特性，例如在数据选择与预处理上确保训练数据涵盖广泛的文化背景、社会群体和思想观点，以减少偏见与歧视，从而更全面地反映现实世界的复杂性；移除或修改包含有害、歧视性内容的数据，对数据进行敏感性分析，识别并减轻潜在的偏见和歧视。在模型设计与训练阶段，引入价值观约束手段，如正则化项或惩罚函数，以鼓励模型生成符合人类价值观的输出内容；使用基于人类反馈的强化学习（RLHF）等技术，根据人类评价调整模型行为。[20]设计有效的多模态融合机制，确保不同模态之间的信息能够相互补充和增强，从而更准确地反映人类价值观。利用注意力机制等技术，关注对价值观影响较大的模态特征。在模型训练过程中进行跨模态一致性检查，确保不同模态的输出内容在价值观上保持一致。通过对比不同模态的输出结果，识别并纠正潜在的价值观冲突。不过在实践中，上述举措的落实面临多方掣肘。就国内网络文学产业界的多模态大模型训练与实践来看，由于不同平台维护自身商业利益的需要，在数据选择与预处理阶段就难以实现多元数据的跨平台融合与覆盖，使得平台各自所研发的大模型服膺于平台资本主义的价值观之下。

3. 人工智能赋能网络文学多模态叙事的情感体验与人性价值

虽然人工智能为网络文学的多模态叙事与跨媒介融合提供了生产力工具与创意可能性，但其缺乏人类创作者独有的情感深度、生活经验和主观意识。从认识论角度看，主体（人类）通过感官和思维活动来认识和理解客体（如网络文学作品）。然而，人工智能作为一种非生物智能体，其“认识”过程更多是基于算法和数据处理，而非主观体验。人类主体的创意生成与审美体验往往建立在独有的对社会生活的触感之上——深刻的情感理解、同理心、敏感性和感受文化细微差别的能力——这在内容创作与生产中是区别于人工智能技术的至关重要的因素。这种主体性的缺失，使得人工智能与人类在审美体验上难以形成共通感，无法体验人类世界的情感、意境和象征意义。因此，人工智能赋能网络文学多模态叙事可能在模态的丰富性与视觉性上有一定的冲击力，但在形式层面和深层内涵层面具有明显的限制。在形式层面，人工智能生成的多模态作品往往呈现出某种程式化和同质化特征，缺乏生命力与艺术张力。在内涵层面，人工智能作为没有肉身性体验的机器，其创作缺乏人性深度，难以形成对现实世界的经验性主观感受与洞察。此外，意识具有意向性，即意识总是指向某个对象或内容。在网络文学创作与阅读的过程中，人类的意识活动具有明确的意向性。作者通过创作来表达自己的情感和思想，读者则通过感知、想象、情感等心理活动与作品产生共鸣。这种意向性体验使得人类能够与作品建立深厚的情感联系。人工智能作为非生物智能体，其“意识”活动并不具备真正的意向性。从某种程度上说，纯粹的人工智能多模态叙事是一种“无病呻吟”式的创作，更多体现的是多模态文本的技术性拼贴与增殖，而不是建立在人类主体意向性的交流与表达欲望上。有研究指出，人工智能参与内容生产会引发基础文本与扩展文本的间性问题，基础文本中包含人类创作者的真情实感，是有着情感、心态、经验等感性思维的感性创作，而人工智能生成内容更多基于语义关系及概率计算。[21]如果完全依赖人类世界创造的存量文本进行模型训练，而将训练后的模型生成内容作为仅有的增量文本、不经识别把关放入基础文本，可能出现“人类生成存量文本+人工智能生成增量文本”稀释后生成的内容质量不断递减的传导效应。

结语

人工智能正以前所未有的速度渗透至网络文学的各个领域，带来前所未有的可能性和变革。从数据库生产与多模态再现，到效率化叙事与容错性创新，再到个性化交互与定制化体验，人工智能不仅可以帮助创作者构思情节、生成文本，还能结合图像、音频、视频等多媒体元素，创造出更加立体、丰富的叙事体验。基于人工智能的多媒体叙事不仅增强了作品的表现力，还拓宽了读者的感知维度，使网络文学在形式和内容上实现了前所未有的飞跃。然而，人工智能赋能网络文学多模态叙事也存在一定的限度。首先，尽管人工智能能够模拟人类情感与逻辑，但在生命体验方面仍存在本质上的差距。网络文学创作及其衍生的多模态叙事作品的深度往往源自真实体验和情感投射，而人工智能缺乏这种源自自我意识的生命体验，可能导致作品在情感共鸣和人性探索上有所欠缺。其次，人工智能的创作过程基于预设的算法和模板，可能导致作品机械化与同质化。最后，基于人工智能的多模态叙事作品创作仍依赖于人机的交互与配合，高质量的作品往往需要进行人工润色和优化，因此创作质量的最终保障仍取决于人类的创作能力。当然更重要的是，在人工智能介入后网络文学创作机制的变革过程中，诸多利益相关主体存在博弈情况，如在国内首例内容创作者联合反对人工智能写作的案例“番茄小说AI协议事件”中，可以看到传统网络文学作者、网络文学平台、人工智能“作者”、网络文学阅读者等多元相关主体的利益纠葛与立场分野。当网络文学踏上多模态叙事的道路，加入角逐场的利益主体将更加丰富多元。不同读者的不同阅读体验需求也会促使更加多元的网络文学多模态叙事路径逐渐出现，类似于番茄小说那样，采取“免费、量大、管饱”策略的免费小说平台可能通过下沉市场的策略，从占领细分市场的角度，实现网络文学多模态叙事的成功。然而面向未来，大浪淘沙后的经典网络文学多模态叙事要保持进一步发展和成熟，势必需要人类主体、人工智能“拟主体”、人机交互主体共同采取行动，推动人工智能与人文精神的深度融合。

参考文献：

[1] 黄立鹤，张德禄. 多核并行架构：多模态研究的范式、路径及领域问题之辨[J]. 外语教学，2019，40（1）：21-26.

[2] 张德禄. 多模态话语分析综合理论框架探索[J]. 中国外语，2009，6（1）：24-30.

[3] 2024多模态AI大模型行业深度梳理[EB/OL].[2024-03-02].https：//www.sohu.com/a/761401865_121709768.

[4] 欧阳友权. 网络文学的AI赋能及其边界[EB/OL].[2023-11-01].https：//cssn.cn/skgz/bwyc/202311/t20231101_5694109.shtml.

[5] 禹建湘，张浩翔. 人工智能文本生成对网络文艺发展的赋能[J].江西社会科学，2024，44（6）：64-71，207.

[6] 宋俊锋，安仲禹. 基于人工智能生成内容（AIGC）的网络文学人机协同生产影响动因与生态演替[J]. 昆明理工大学学报（社会科学版），2024，24（3）：142-154.

[7] 贺予飞. 从符号、装置到生产机制：网络文学数据库写作的变革及限度[J]. 中国现代文学研究丛刊，2023（7）：242-260.

[8] 押注大模型，阅文前路几何？[EB/OL].[2024-08-05].https：//www.163.com/dy/article/J8RIUN5D0511D2LM.html.

[9] 单小曦. 人工智能写作与网络文学重大变革[EB/OL].[2024-06-22].https：//www.chinawriter.com.cn/n1/2024/0622/c404023-40261937.html.

[10] Web Comics[EB/OL].[2024-06-24].https：//charisma.ai/showcase/webcomics.

[11] Maze Guru[EB/OL].[2024-06-24].https：//library.phygital.plus/details/maze-guru/r/recQDVz80psAvNg0P.

[12] 别君华. 人工智能文艺生产方式新变与人机关系省思[J]. 中国文学批评，2024（2）：178-185.

[13] 陆朦朦. 跨媒介消费：融合情境下基于IP连接的受众迁移研究[J]. 出版发行研究，2021（2）：42-48.

[14] 陆朦朦. 面向跨媒介消费的网络文学IP价值开发优化策略[J]. 编辑之友，2022（10）：52-57.

[15] The Kraken Wakes[EB/OL].[2024-06-24].https：//charisma.ai/showcase/the-kraken-wakes.

[16] 陈昌凤，张梦. 由数据决定？AIGC的价值观和伦理问题[J]. 新闻与写作，2023（4）：15-23.

[17] Wasielewski A. \"Midjourney Can't Count\"： Questions of Representation and Meaning for Text-to-Image Generators[J]. The Interdisciplinary Journal of Image Sciences， 2023（1）： 71-82.

[18] 吴静.“世界模拟”的拟像迷思——基于通用视觉大模型技术的哲学反思[J]. 南通大学学报（社会科学版），2024，40（3）：20-30，159.

[19] 价值观罗盘：如何让大模型与人类价值观对齐？[EB/OL].[2024-04-11].https：//www.msra.cn/zh-cn/news/features/value-compass.

[20] 郭全中，张金熠. AI向善：AI大模型价值观对齐的内容与实践[J]. 新闻爱好者，2023（11）：19-24.

[21] 周荣庭，周慎. AIGC+Web 3.0：面向未来的出版多模态融合[J]. 中国出版，2023（10）：3-9.

When Creativity Meets AI： The Possibilities and Limitations of

Artificial Intelligence Empowering Multimodal Narrative in Online Literature

LU Meng-meng（School of Publishing， Communication University of Zhejiang， Hangzhou 310018， China）

Abstract： Artificial intelligence technology is infiltrating various fields of online literature at an unprecedented rate， bringing revolutionary changes. From database production and multimodal reproduction to efficient narrative and fault-tolerant innovation， and further to personalized interaction and customized experiences， artificial intelligence not only assists creators in plotting and generating text but also integrates multimedia elements such as images， audio， and video to create a more three-dimensional and enriched narrative experience. However， the empowerment of multimodal narrative in online literature by artificial intelligence has its limitations. These include the coarse-grained presentation and lossy compression of the story's meaning and values in the original work due to the expansion of modal breadth， resulting in the dilution of meaning depth. Multimodal content generated through pre-training based on existing multimodal data from the human world faces issues such as limited imagination， value biases， and value alignment. Moreover， the non-intentional creation lacking embodied experiences often leads to a scarcity of emotional experiences and communicability of human values. In the future， the game of interests among multiple entities will necessitate a long-term exploration for the deep integration of artificial intelligence and humanistic spirit.

Key words： artificial intelligence; multimodal narrative; online literature; AIGC

（责任编辑：张茂）