2024生成式AI图像模型年报

2025-02-20 00:00:00罗霄赵伯祚

艺术学研究 2025年1期

生成式AI在2023年呈现井喷式发展态势，而在2024年，其发展的最显著特征则在于实现了跨领域的广泛应用。商业AI工具的高质量与便捷性，结合开源AI模型在各类复杂工作流程中的深度整合，使AI技术从专业人员的研究对象转变为各行各业不可或缺的日常工具。另一个显著特征是国产AI模型的崛起。2023年，行业关注度主要集中在国际巨头身上，以Midjourney、DALL·E（OpenAI）、Stable Diffusion为代表的图像生成工具及专注于视频生成的Runway都表现出色，在大语言模型领域则以ChatGPT和Claude最令人瞩目。而2024年，国产AI绘画工具呈现百花齐放之势，在视频领域，可灵、Vidu、海螺、豆包PixelDance等新兴产品与老牌Runway形成竞争之势；更值得关注的是，豆包、元宝、Kimi等大语言模型展现出更为广阔的发展前景。

本文将聚焦视觉艺术与设计领域，系统梳理2024年生成式AI图像模型及相关工具的发展历程。

1月

Midjourney在2023年12月发布V6 Alpha版后，在2024年持续优化，提升了图像的美观度、连贯性和放大质量。同期，Midjourney针对动漫类图像优化的Niji-Journey也发布了V6版本（图1）。

Google发布的视频生成模型Lumiere采用创新的空间—时间架构（Space-Time U-Net architecture），能够一次性生成整个视频，Lumiere在时间连贯性和物理场景一致性方面表现出色，能支持文生视频、图生视频等多种模式。

InstantX团队（来自小红书）开发的InstantID模型实现了一项技术突破：仅需输入单张面部图片，即可生成多样化的风格图像，同时还能保持较高的身份特征保真度（图2）。这一成果显著简化了传统工作流程。在此之前，类似功能的实现通常依赖于Textural Inversion、DreamBooth或LoRA等模型训练方法，需要收集充足的数据集并经过较长时间的训练过程，才能获得经微调的模型以生成风格化图像。InstantID通过创新性地设计IdentityNet架构，采用强语义约束与弱空间约束相结合的方式，将面部特征图像与地标信息及文本提示有机整合，从而指导图像生成过程。这种方法省略了繁琐的模型训练环节，在性能和效率方面展现出显著优势。

在工具生态方面，Stable Diffusion的两大主要图形界面WebUI和ComfyUI分别代表传统软件风格和节点式风格，持续为创作者提供便捷的创作环境。

在国内，大部分Stable Diffusion WebUI用户使用的是由秋叶（秋葉aaaki）定制的WebUI整合包，它打包了Stable Diffusion WebUI运行所需的软件环境，开箱即可使用，降低了手动安装带来的复杂度，适合新手使用。2024年1月，秋叶首次发布了ComfyUI整合包。

2月

本月，Stability AI相继发布了两款重要模型。首先是Stable Cascade模型，它采用创新的三阶段级联架构，有别于传统的Stable Diffusion系列。该模型专注于高质量、高分辨率图像的生成，尽管算力消耗较高，但在高精度、高细节图像创作方面表现卓越。紧随其后，公司发布了Stable Diffusion 3的早期预览版，这是该系列功能最强大的文生图模型，在多主题提示词理解、图像质量和文本拼写能力方面均实现了显著提升。在视频生成领域，Stability AI还开启了Stable Video Diffusion网站的公测。

2月最引人瞩目的事件是OpenAI发布了Sora模型。该模型致力于通过人工智能理解并模拟物理世界的动态特性，由此生成时长达1分钟的高质量视频内容，并能准确响应用户的文本提示（图3）。尽管本月仅发布了演示视频系列，但Sora在图像质量、时序连贯性、动作幅度和稳定性等方面的卓越表现，显著超越了同期同类模型，有效解决了AI视频生成领域的诸多技术难题。这一突破性进展与ChatGPT首次发布时的影响力相似，迅速引发全球关注，甚至促使学界探讨其作为“世界模拟器”的潜在意义。

在AI图像工具领域，ControlNet的开发者lllyasviel（张吕敏）基于现有版本开发并发布了新一代Stable Diffusion WebUI，并将其命名为Stable Diffusion WebUI Forge。该版本在资源管理方面实现了显著优化，不仅大幅提升了运行性能，还简化了Stable Diffusion生态系统中各类模型算法的实现过程。这些优化为后续的技术发展奠定了基础，使得2024年新推出的更为先进的Flux模型能够率先在WebUI Forge平台上得到支持和实现。

Deforum是早期首个基于Stable Diffusion模型的视频生成工具，也有在WebUI中的扩展版本。2月Deforum推出了无需安装便可以在线直接使用的Deforum Studio。2024年上半年国内AI视频初火，一些具有所谓“AI瞬息全宇宙”效果、尤其在央视频和各地方融媒体上出现的一系列AI文旅宣传片，很多镜头都是用Deforum制作的。

3月

Midjourney在本月推出角色一致性（Character Reference）功能，实现了同一角色在不同图像中的固定表现（图4）。这一功能虽然在Stable Diffusion生态中早已存在（通过模型训练、IPAdapter或InstantID等方式实现），但Midjourney的实现方式更加便捷，提升了用户体验。

Stability AI本月发布了多项重要更新：首先推出了TripoSR，这是一种快速的三维物体重建模型，能由单张图片生成高质量的三维模型；其次公开了Stable Diffusion 3的研究论文，揭示了其采用MMDiT（多模态扩散Transformer）架构的技术细节，该架构使用独立权重分别处理图像和语言，并结合三个文本编码器，在视觉美学、提示词遵循和排版方面均有显著提升；最后发布了Stable Video 3D，这是一种基于Stable Video Diffusion的三维生成模型，相比2023年12月发布的Stable Zero123，在生成效果的一致性和泛化性方面表现更优。

OpenAI继续深化对Sora的应用探索，与视觉艺术家、设计师、创意总监和电影制作人密切合作，推出了名为“第一印象”（First Impressions）的作品系列，再次展示了其卓越的技术实力。

4月

Adobe在2024美国国际广播电视展（NAB Show）上展示了Premiere Pro的重要更新，通过集成Runway和OpenAI Sora等第三方视频生成模型，大幅拓展了媒体创作的可能性。这一集成使得创作者能够在Premiere Pro中直接使用AI视频生成功能，为专业视频制作带来了革命性的变化。

国产视频大模型领域迎来重要突破，生数科技联合清华大学发布了中国首个高性能视频大模型 Vidu。该模型具备视频时间长、画面一致性好、高动态性等特点，能够模拟真实的物理世界，支持多镜头生成，是继Sora发布后迅速跟进的重要国产成果。

字节跳动在4月提出了Hyper-SD，这是一种创新的轨迹分段一致性模型。该模型最大特点是能够快速生成高质量图像，在SDXL和SD1.5两种架构下，仅需1至8步就能生成顶级质量的图像（图5）。由于生成速率极快，该技术甚至可以用于接近实时的绘画创作，为交互式AI艺术创作提供了新的可能性。

5月

Google在2024 I / O大会上发布了两款重磅产品：图像生成模型Imagen 3和视频生成模型Veo。Imagen 3作为Google最高质量的文本转图像模型，能够生成具有更精细细节、更丰富光线和更少干扰伪影的图像。Veo则是针对OpenAI Sora的竞争产品，支持生成高质量、1080p分辨率、时长超过一分钟的视频，并具有多种电影和视觉风格。

近两年在“AI绘画”领域，Stable Diffusion（1.5与XL版）几乎是开源图像模型里的唯一选择。5月，腾讯开源了他们的混元DiT文生图大模型（图6），该模型是一种高性能细粒度中文理解多分辨率扩散Transformer模型，基于全新的DiT架构，与Sora、Stable Diffusion 3相同。开源后的混元DiT模型甚至可以在以前由Stable Diffusion模型专属的WebUI、ComfyUI等工具中使用。这一举措不仅丰富了开源生态，也为中文环境下的AI创作提供了新的选择。

6月

Stability AI在本月正式发布了Stable Diffusion 3 Medium版模型（此前仅发布过相关论文）。该模型能生成具有出色细节、色彩和光照效果的图像，不仅实现了照片级的真实感，还支持多种灵活风格的高质量输出。模型成功解决了以往版本的常见缺陷，特别是在手部和面部的真实感呈现方面表现出色。在理解力方面，模型能够准确理解涉及空间推理、构图元素、动作和风格的长篇复杂提示词。通过采用DiT架构，模型实现了前所未有的图文质量，显著减少了图像中文字的拼写、字距调整、字母形成和间距方面的错误。此外，模型的整体性能得到提升，更加适合定制化微调训练。

6月，在AI视频领域也有重要突破。国产AI视频大模型继续发力，快手发布了对标Sora的视频生成模型“可灵”（Kling）。该模型采用与Sora类似的DiT架构，并结合多项自研创新，在运动幅度、一致性、物理世界模拟以及多种尺寸比例等方面均实现了大幅提升。可灵发布后在国内外均获得了广泛关注，继首次发布文生视频功能后，本月又推出了图生视频功能。

Luma AI发布的视频模型Dream Machine同样支持文本提示和图像提示，能够生成高分辨率的、符合美学风格和物理运动规律的视频。

视频生成领域的领军企业Runway也在本月发布了Gen-3 Alpha版。作为Runway下一代基础模型中的首个版本，它在全新构建的大规模、多模态训练基础设施上进行训练。与Gen-2相比，新版本在保真度、一致性和运动表现方面都有了显著改进（图7），向构建通用世界模型迈出了重要一步。值得注意的是，Runway Gen-3在训练过程中特别组建了由工程师、科学家和艺术家组成的跨学科协作团队，旨在更好地诠释电影术语及各种艺术风格。

7月

Stability AI的聊天机器人产品Stable Assistant本月推出新功能。基于Stable Diffusion 3的最新图像生成技术Stable Image Ultra，该产品提供了多样化的图像编辑工具，包括图像分辨率提升和基于图像的视频生成功能。该产品的核心功能包括：（1）搜索和替换：允许用户在上传的图像中指定对象并无缝替换（图8），这对需要在保持整体构图的同时修改视觉效果的创意专业人士尤为实用。（2）保持构图：在保持输入图像结构的同时支持高级内容创建，如场景重建或模型角色渲染，确保生成图像严格遵循预设结构参数。（3）草图转图像：将手绘草图转化为精致图像，实现对最终效果的精确控制；对非草图图像，可通过轮廓线和边缘进行细节操作。

同时，Stability AI推出了用于动态多角度视频生成的Stable Video 4D。该技术能将单一对象视频转换为8个不同角度的多视图视频，仅需一次推理即可在约40秒内生成8个视图的5帧内容。用户可自定义摄像机角度以满足特定创意需求。该模型目前仍处于研究阶段，未来有望应用于游戏开发、视频编辑和虚拟现实领域。

Midjourney在7月底发布6.1版模型。新版本在多个方面实现突破：图像内容连贯性显著提升，特别是在手臂、腿、手、身体、植物、动物等细节表现方面；图像质量大幅提升，减少像素伪影，增强纹理和皮肤效果；小型图像特征更加精确细致；图像放大器质量提升；整体性能改进；文字准确性进一步提高。

快手除了备受关注的视频生成模型“可灵”，本月还开源了图像生成大模型“可图”（Kolors）。该模型基于数十亿图文对数据集训练，在视觉质量、复杂语义理解和图像文字生成等方面表现优异，并支持中英双语，对中文语境和中国文化创作更加友好。“可灵”模型本月更新增加了多项控制参数：可调节视频内容与提示词的符合程度，增加运镜控制功能，支持负提示词设置，并在图生视频环节加入首尾帧控制功能，这项功能尤其实用，可用于实现多段视频内容的连接（图9）。此外，快手发布了LivePortrait技术，这是一种基于拼接和重定向控制的高效率肖像动画技术。通过输入面部表情视频和肖像照片（含绘画），可实现视频驱动肖像动画，甚至支持人类表情驱动动物肖像的创新应用。

8月

本月最引人注目的是开源图像大模型生态的重大更新—Flux的发布。由前Stability AI核心成员Robin Rombach创立的黑森林实验室（Black Forest Labs）开发的Flux，其图像生成效果已达到可与Midjourney媲美的水平。本月发布的FLUX.1文生图模型套件在图像细节、提示词遵循、风格多样性和场景复杂性等方面展现了领先水平。为平衡可用性与功能性，FLUX.1推出3个版本，FLUX.1 [pro]：作为最优版本，在提示词遵循、视觉质量、图像细节和输出多样性方面表现卓越；FLUX.1 [dev]：面向非商业应用的开放权重导向蒸馏模型，直接从pro版本提炼，保持相似质量，可在24G显存显卡（3090、4090）上稳定运行；FLUX.1 [schnell]：遵循Apache 2.0许可协议，专为本地开发和个人使用优化的高速版本。Flux在图像精细度方面表现突出，支持复杂提示词，能灵活定制图像细节。虽未能实现完全精确，但相比此前的Stable Diffusion XL等开源模型，提示词遵循性有显著提升。

尽管核心人员离职并发布了Flux，Stability AI仍保持创新势头，推出了Stable Fast 3D。该技术仅需0.5秒即可从单幅图像生成高质量3D图像。基于TripoSR架构改进，该模型特别适用于游戏、虚拟现实开发以及零售、建筑、设计等图形密集型行业。

Ideogram AI发布的Ideogram 2.0展现了业界领先的文生图能力，其在生成逼真图像、图形设计和排版方面表现优异。新版本支持灵活的图像样式控制和任意纵横比，显著提升了真实感和文本准确性，尤其适合贺卡、印刷品、海报等设计需求。

智谱开源了CogVideoX系列视频生成模型，支持文生视频、图生视频和视频转绘等功能，丰富了开源视频模型生态。

阿里云发布新一代视觉语言模型Qwen2-VL，基于千问Qwen2打造而成。该模型在视觉内容理解方面表现突出，可处理不同分辨率和长宽比的图片，支持20分钟以上长视频的理解，并具备多语言图像理解能力。

8月末，MiniMax公司在其海螺AI平台推出视频生成模型abab-video-1，支持文生视频功能，特点是实现2K高分辨率和25fps高帧率输出。

9月

Runway Gen-3 Alpha推出视频生成视频（又称视频风格化、视频转绘、Video to Video）功能。虽然该功能在2023年Runway Gen-1就已推出，但当时效果欠佳，市场上的视频转绘方案主要依赖开源的ComfyUI结合AnimateDiff模型实现。此次Runway Gen-3 Alpha作为领先的商业视频模型，显著提升了视频转绘质量。用户只需上传源视频，提供美学方向的提示词或从预设样式中选择，即可获得优质的转绘效果。

Adobe发布了Firefly Video模型预览，展示的样例视频效果出众，该模型将于近期正式发布。

阿里云推出通义万相视频生成模型，具备文生视频、图生视频功能。该模型在概念理解与组合生成方面表现突出，特别优化了中式元素的表现，并支持多语言输入和可变分辨率输出。

字节跳动发布两款豆包视频生成模型：PixelDance和Seaweed（图10）。其中，PixelDance以精准的提示词响应见长，支持在单个视频中生成多个镜头，适合复杂剧情叙事创作；Seaweed则在动效合理性和运镜自然度方面表现优异，更注重视觉表现力。

快手“可灵”发布1.5版模型，实现1080P高清视频直接输出，在画面美感、运动合理度和文本响应度等方面均有提升。

10月

Pika在沉寂多时后发布PIKA 1.5版本。作为2023年曾与Runway并驾齐驱的视频模型厂商，其此次更新的特点是实现了更逼真的动作表现、大屏幕镜头效果，以及一系列突破物理定律的特效，其中“充气”特效一度引发热议（图11）。

Meta发布Meta Movie Gen系列模型，集成了文生图、文生视频、图生视频、个性化视频、视频编辑等功能。该模型视频编辑功能支持通过提示词直接修改视频中的具体元素，如外观或背景；个性化视频功能则允许用户通过提示词和单张照片生成个性化视频内容。

Adobe在全球创意大会Adobe MAX 2024上正式发布Firefly Video Model，并将其集成至旗下视频剪辑工具Premiere Pro中。

Runway推出表情驱动功能Act-One。虽然类似功能在业界并不罕见，但Runway凭借顶级的效果质量和独特视角脱颖而出。该功能允许用户自主表演来驱动目标角色，结合Runway Gen-3 Alpha强大的视频转换能力，特别适合制作需要复杂分镜、丰富表情和多角色互动的叙事型短剧。用户甚至可以实现一人分饰多角，通过单个演员和摄像机设置生成多机位对话场景（图12）。

爱诗科技发布PixVerse V3版本视频生成大模型，在底层模型能力、提示词遵循度和视频质量方面均有显著提升，并提供创意模板支持多模态视频生成。

静态图像领域，Midjourney推出在线图像编辑器和纹理重构（retexturing）功能。编辑器支持图像上传、扩展、裁剪、重绘及场景内容修改，实现设计与艺术创作的深度融合。纹理重构功能可估计场景形状并重新渲染纹理，效果类似Stable Diffusion的ControlNet。

Black Forest Labs发布FLUX 1.1[pro]版，生成速度较前代提升六倍，同时改进了图像质量、及时性和多样性。

Stability AI在经历公司高管变动、核心成员出走并推出强力竞争对手模型Flux后，本月强势归来，发布了Stable Diffusion 3.5。该开放版本包含3个可定制模型变体，Stable Diffusion 3.5Large：81亿参数的顶级基础模型，适合百万像素级专业应用；Stable Diffusion 3.5 Large Turbo：Large 版本的精简版，4步即可生成高质量图像；Stable Diffusion 3.5 Medium：25亿参数的平衡版本，采用 MMDiT-X 架构，适合消费级显卡使用。这些模型的大小可进行高度定制，可在消费级显卡上运行，并且在宽松的 Stability AI 社区许可下可免费用于商业和非商业用途。可从Hugging Face下载所有 Stable Diffusion 3.5模型，并在GitHub上下载推理代码。

ControlNet作者lllyasviel（张吕敏）推出基于Flux的IC-Light V2光照模型，支持保留输入图像细节的同时进行光照、阴影修改，并实现原生高分辨率输出。

开源图像模型生态的创作软件ComfyUI本月推出了有史以来最重磅的版本更新V1版。该版本发布了完整桌面安装包，跨平台支持Windows/macOS/Linux，具备自动更新功能，以及更多细节功能，直接解决新手最大的痛点：环境安装与部署。用户界面也做了全新的设计，还提供Comfy节点注册表（CNR），类似Web开发生态中的软件包管理器NPM，目标是创建更安全、更稳定的ComfyUI自定义节点用户体验。

11月

Runway持续为影像创作者提供更多创作想象力，在视频生成功能的基础上推出了更高级的镜头控制功能。同时，Runway新增视频扩展功能，支持将小幅画面扩展为更高分辨率和不同尺寸比例的画面。此外，11月下旬，Runway推出了Frames图像生成模型。这是一种提供前所未有风格控制的模型，在风格控制和视觉保真度方面取得了显著进步，帮助创作者构建更具审美特征和细腻细节的静态图像内容。

2024年早些时候刷屏的Sora又在11月引发关注，但引发关注的问题并非来自OpenAI官方，而是起因于民间“泄露”事件。一封公开信显示，参与Sora早期测试活动的一批受邀艺术家和创意合作伙伴认为，OpenAI通过该测试活动将特邀艺术家视为“无偿免费漏洞测试员、公关傀儡和训练数据来源”。数百名艺术家参与了测试计划，免费贡献作品和实验测试，但仅有少数人的作品通过竞赛形式得以公开展示。对此，一些艺术家将Sora的测试API（接口）公开至huggingface网站，向所有人开放使用。然而，公开信发表后，API很快失效，无法继续使用，但仍有部分通过API制作的视频Demo流出。无论事件本身的真实性如何，这一案例确实反映了当前AI模型厂商的主流运营方式。包括国内厂商在内，几乎每家在发布新版本时，都会召集创作者社群，开展模型试用和创作奖励活动，以快速收集一手使用反馈并积累种子用户。各厂商的奖励机制和实际运营策略有所不同，而从创作者的角度来看，更期待这种合作能成为双赢的良性循环。

可灵1.5版本新增了运动笔刷、运镜控制和图生视频首尾帧功能。同时推出的人脸模型功能可确保视频中人脸ID的一致性。根据创作者社群的测试反馈，可灵在国产视频模型中的综合能力处于领先地位。在静态图像生成领域，可灵推出了AI试衣功能，并能结合视频模型生成试衣效果的动态展示。

3D图形生成方面，腾讯混元开源了Hun-yuan3D-1.0模型。作为首个同时支持文生和图生的3D开源模型，进一步丰富了国内开源生态。

字节跳动发布的新模型SeedEdit支持通过提示词直接编辑图像，用户只需一句话即可实现内容替换、风格变换等操作。值得注意的是，类似功能此前已在Stable Diffusion开源生态的ControlNet 1.1 Instruct Pix2Pix中出现。

作为图像模型第一梯队的Flux，在11月推出了FLUX.1 Tools工具集。在已具备顶级图像生成质量的基础上，这套工具集的功能类似于Stable Diffusion的ControlNet扩展，使Flux能够在复杂设计场景中实现更广泛的应用。FLUX.1 Tools包含以下组件，FLUX.1 Fill：基于Inpaint技术，提供局部重绘和扩图功能；FLUX.1 Depth：Flux官方版本的ControlNet深度模型；FLUX.1 Canny：边缘检测模型；FLUX.1 Redux：支持通过提示词改变图像风格。

面对Flux的强劲攻势，Stability AI迅速做出回应，为Stable Diffusion 3.5 Large推出了ControlNet模型，同样致力于图像深度定制场景的应用。

12月

12月初，斯坦福大学教授李飞飞公布了她的空间智能项目，通过单张图片和一句提示词就能生成可交互的3D空间（图13）。

腾讯混元系列继续开源，这次是视频生成模型HunyuanVideo，其能够基于文本描述自动生成高质量的视频内容。该模型采用了深度学习与大规模数据训练，支持多种风格和场景的创作，使得视频制作更加便捷与智能化。

字节跳动的“即梦”AI全新绘图模型V2.1更新了中文海报生成工具，旨在通过AI技术简化视觉创作过程。该模型基于深度学习，能够根据用户提供的文本描述，自动生成精美的中文海报设计。V2.1版本在细节处理和视觉效果上进行了优化，提升了图像的艺术性与表现力，特别适合广告、活动推广和品牌宣传等场景。即梦AI继而更新了视频生成中的对口型功能，只要准备一张照片和一段语音，就能用语音去驱动视频说话。也可以打字选择不同的音色来生成语音控制图片嘴形。

OpenAI的Sora正式上线，核心功能包括文生视频、图生视频、视频生视频等，支持多种视频风格设定，可满足不同需求。高级功能包括故事板功能、混音与编辑、视频混合等。Sora的费用包含在现有OpenAI Plus或Pro订阅中，无需额外付费。

Google发布AI视频模型Veo 2和AI绘图模型Imagen 3改进版本，标志着其在多模态生成技术上的进一步突破。Veo 2是一款先进的视频生成模型，能够根据文本描述自动生成高质量的视频内容。与前一版本相比，Veo 2在生成速度和视频细节上都有显著提升，支持更复杂的场景转换与动态内容生成，能够处理更长时间的视频输出，并在视觉效果上做到了更加真实与流畅。Imagen 3则是Google推出的AI绘图模型的改进版本，专注于提升图像生成的精度与艺术表现力。该版本在生成质量、细节处理和风格适应性方面进行了多项优化，支持更加复杂的创作需求，尤其是在细致图像生成和人物表情描绘方面表现突出。Imagen 3可以更好地理解自然语言，根据用户指令创作出更具个性化与创意的图像。

Midjourney新推出的情绪板功能（Mood-boards）为用户提供了一个创新的工具，帮助他们通过聚合多个图像、颜色、风格和元素，快速构建一个情绪板，从而更直观地表达创作的情感基调和视觉风格。该功能简化了创意过程，使设计师和艺术家能够高效地整理灵感并确保创作方向的一致性，突破了单纯依赖文字描述的局限。用户可以上传自己的图片或选择 Midjourney 生成的图像，整合成统一的视觉概念，这也更便于团队成员之间的协作与反馈。Moodboards 还提供多元化的模板选择，适用于不同的创作需求，为设计和灵感的整合提供更多便利，相当于用户也可以通过简单的操作完成模型的训练。

快手“可灵”上线的1.6版本模型对生成视频和动画的质量进行了提升，特别是在物理规律和人物动作的表现上。此次更新增强了模型对自然物理法则的理解，使得生成的视频更加符合现实世界的重力、惯性等物理规律，提升了画面真实感。此外，人物动作的流畅度和细腻度也得到了改善，能够更加准确地模拟复杂的人体动作和表情变化，使得生成的内容更加生动和自然。在语意理解方面也有所增强，这种语义增强使得用户在进行创作时，可以更加精确地表达意图，生成的动画和视频场景能够更好地捕捉语言中的细节和情感变化，提升了创作的自由度和内容的个性化程度。这些改进使得可灵模型在短视频创作、动画制作以及虚拟角色互动等领域的应用更加广泛。可灵还上线了AI模特功能，为用户提供了一个创新的虚拟模特创作工具，能够根据用户的需求自动生成和定制虚拟人物模型。这个功能可以通过简单的文本描述或模板选择，快速生成符合要求的虚拟模特，并且模特的姿势、动作、服装等都可以根据创作需要进行调整（图14）。

12月底，PixVerse更新了3.5版本，引入一系列重要功能，增强了其在图像生成、编辑和创作领域的能力。关键功能亮点包括极速视频生成、动漫生成效果提升、首尾帧功能等。PixVerse V3.5为全球用户带来了更加丰富的创作体验。

2024年被视为大语言模型和生成式AI图像模型真正开始大范围落地的关键节点。随着算力、算法和数据规模的持续增长，这些前沿技术的应用领域已从实验室和艺术家创作逐步扩大到更广泛的产业和日常工作场景。它们不再仅仅停留于专业技术人员的实验或艺术爱好者的探索，而是已经切实地融入营销设计、内容创作、客户服务、智能办公等多种商业环节，显著提升了生产效率。展望2025年，AI图像模型将在各个垂直行业中被进一步深化应用。伴随行业知识与AI算法的结合加深，从零售、制造业到医疗、教育等领域，都会出现更加丰富多样且能解决实际问题的工作流方案。最终，这些深度融合的技术与场景会让AI发挥出更稳定、更高效的价值，为产业数字化转型注入新动力，也为人们带来更便利、更具创造力的工作和生活方式。

责任编辑：杨梦娇