AI图像生成：种植还是狩猎

2023-12-31 14:34郝大鹏

摄影之友 2023年12期

郝大鹏

什么是人工智能中的 AIGC

当我们去讨论 AI“ 创造” 的画面时，其实已将 AI 理解得过于庞大。对于AI 的“创作”，更贴切的理解应该是AI对于内容的生成。它可以文字生成（AIText Generation）、图像生成（AI ImageGeneration）、语音生成（AI AudioGeneration）、视频生成（AI VideoGeneration）。我们使用的AI软件或AI在线服务，即是在使用生成式人工智能AIGC（Artificial Intelligence GeneratedContent）。它可以创造画面和视频，但它已并非摄影行为。

Runway 的 GEN-1 界面

很多人在質疑这类 AIGC 内容是否可以做展览，也在寻找 AIGC 和摄影之间的关联证据，离间切口，或者对立现象。其实大可不必，图形图像包含的种类很多，摄影只是其中的一部分，如今我们看到的现象，更多的是身份之争，摄影师身份和摄影艺术评论家的身份并不限制他们制作任何的图像，也并不只有摄影作品才能“上墙”，至于摄影节展览进行 AIGC 单元的设置，也许更多的是一种迎接未来的姿态，因为不管你是否接纳这件事情，它已经到来，与其这样，不如先在行动上把它们拢在艺术范畴和艺术空间里。

使用 AI 是“种植”还是“狩猎”

卡帕说，你拍得不够好，是因为你不够近。小川绅介导演用“种植电影”的执念来进行创作。总之，在影像创作的过程中，我们有途径来规定、矫正和触达内容以及呈现方式。艺术家如同农民，可以规定自留地中生产小麦还是玉米，花生还是高粱，可以养鸡种菜，可以杀猪宰羊，可以决定今晚吃番茄鸡蛋还是手抓羊肉。创作的方法论可以丰衣足食。

可在 AI 的沃野上，这些自留地已经“元宇宙”化，它们虚拟，它们动态，它们庞大。在数据和灵感的动态平衡中，农业般的创作方式已经回归到狩猎状态。艺术创作没有了“节气”和“种子”，更多的是碰见什么就吃什么，不可控成为 AI 图像现有的魅力所在。如同不断地烧窑，窑变看似有规律，却又是门玄学。AI 图像的创作不来源于画面的直接信息传达，而来源于自洽、辩解和传说。

这种过程如同读海明威的小说，得到猎物并不是故事本身，得到和失去猎物的过程才更有艺术性和艺术价值。可创作者是在狩猎，他们是渔民或猎人，他们不一定是精彩的演说家。把这个逻辑移植过来，在AI图像创作的过程中，画面好像并不重要了，而是那些关键词、关键词方法显得更加重要，可关键词却又不一定可以被验证。

于是创作回归到“原始”状态，然后我们可以理解原始部落中为什么会有“巫师”。

电影《芭比》和《奥本海默》联名预告片，使用 AI 工作流制作的《芭比海默》

AI如何融入视频工作流

AIGC 有明确的工作流。这里以动态影像创作电影的工作流对比举例，电影的制作是从剧本到画面的转化，从文本模式到图像模式，要经历剧本创作、美术创建、画面拍摄、剪辑组接、调色输出、银幕放映这几个环节。导演、摄影师、美术指导、声音指导、特效师、剪辑师、调色师等作为艺术家参与其中。AIGC的工作流也符合这个规律，摄影还是摄像，只不过是创作者选择静态图片输出，还是选择动态影像输出而已。

文本创作（AI Text Generation）可以使用 ChatGPT（ OpenAI 公司），它更加理性和精准；Claude（ Anthropic 公司）对剧本创作来说更有情感的共鸣，或是 Dramatron（ Anthropic 公司旗下DeepMind 公司），它是一个标准的剧本生成工具，可以明确提供出分镜头设计和对话写作，符合编剧的工作思维和写作流程。

图像生成（AI Image Generation）主流方式使用 Midjourney（搭载在Discord 社区上使用），它是快速生成 AI制图并开放给大众申请使用的平台，我们可以理解为它提供 AI 制图服务。StableDiffusion（Stability AI 公司）是一款AI绘图软件，通过不断的迭代，它已经可以从图片绘制升级生成视频片段。

在 Runwayml 网站上可以看到大量 AI生成的视频内容

笔者使用 Claude 来进行原创科幻短片《冥王星时刻》的脚本和分镜创作

视频生成（AI Video Generation）可以使用直观的在线软件Runway（Runway ML公司），对于视频创作，它的很多AI功能都非常快速有效。其中Gen-2 可以完成文字和图片生成视频（Text/Image to Video），通过文字描述和图片实例来进行动态画面的生成，例如使用 Midjourney 中得到的画面来生成随机运动效果，不过这样的操作随机性很大，Runway 也在不断地升级，让创作者详细控制运动节点和关键帧。除此之外，Runway 还可以通过起始帧来添加关键帧，从而把图片转化为视频，以及直接进行画面分层抠像等，通过 AI 的强大算力来完成之前复杂的视频特效效果。

现阶段的 AIGC 制作中还存在帧画面连续性不高（表现为画面抖动），以及画面分辨率过低等问题，这就需要一些辅助类软件来弥补工作流。可以使用EBSynth 这款自动动画插帧的工具，指定关键帧来补全中间流畅的过渡帧。以及使用 DaVinci Resolve（BlackmagicDesign 公司）来降低画面抖动，并对影片进行调色。另外，Topaz 软件对于摄影师并不陌生，它是一款图像处理和视频增强软件，可以提升画面的分辨率，从而满足展览和放映的需求。

使用达芬奇软件完成科幻概念短片《冥王星时刻》的剪辑制作

使用达芬奇软件对镜头进行调色

在Runway页面中使用 GEN-2完成图片转化为视频的工作

Curiousrefuge 公司使用 AI 工作流制作的韋斯安德森风格的《星球大战》

摄影早已AI

现在的相机工作原理通过神经网络的深度学习，令摄影师已经不知不觉在使用到 AI 智能方式创作，只是这些功能在相机术语表达中被去“AI”化了。这些相机和摄像机的人脸识别功能、眼部对焦功能，都是相机芯片通过大量 AI 深度学习才可以达到的技术功能。有 AI 芯片的无反相机，在拍摄人像时，即使人物处于复杂环境下或脸部被遮挡时，人体姿态识别技术也可高精度地捕捉和跟踪主体。

佳能的 EOS R6 MarkII 和索尼Alpha 7CR 等相机还可以识别鸟类、昆虫、汽车、火车和飞机等主体，并且能同时追踪对焦多个物体，而曝光补偿、降噪、去马赛克等功能更是不在话下，这些其实就是AI模型带给摄影师的礼物，可摄影师却还在担心AI正在毁掉摄影。

除了硬件的 AI 技术提升，现在相机厂商也在推出基于神经网络算法的 AI 软件工具，例如佳能推出的“ RAW 显像”软件插件 Digital Photo Professional。它能通过基于深度学习得到的数据，对使用兼容相机、镜头拍摄的 RAW 图像做出优化。不只简单地应对之前提到的拍摄问题，还可以针对衍射、高光溢出、色晕等镜头进行画面优化。

摄影类 AI 软件还可以进行类似Topaz 软件的操作，它支持 JPEG 和TIFF 文件，可以将长、宽分别扩大 2 倍，最终得到一张 4 倍像素的照片。相比常见的插值放大方式，可以恢复更多图像细节，得到更精细的画面。既适合鸟类、野生动物、运动等依赖裁切放大的题材，也有利于需要大尺寸打印输出的用户。这类软件和Adobe Lightroom / CameraRAW上的类似功能相比，也不会存在其他优化（降噪、镜头优化、去马赛克）与提升分辨率只能二选一的情况。以鸟类拍摄为例，我们可以先裁切出包含鸟类主题的画面局部，再做扩大处理。

其实摄影早已 AI，只是比较低调而已。这些基于芯片提升的功能是大量技术累积造成的结果。而相比于以上提到的工作流，AIGC 艺术家还在不断地探索，AI图像生成也只是这些 AIGC 的片段而已，存在即合理，这样的创作方式也是特定环境下的一次图像爆发。面对 AIGC 的工作流，各个 AI 公司的迭代都很快速，现在需要多步完成或者尚有操控瑕疵的功能，可能在软件升级之后就会得到解决，而且这样的升级越来越快，基本是以周为单位的。

正视AI善用工作流

AIGC 最终还是要回归到创意和创意的落地上，回归到艺术家的表达和选择上。至于技术，只会愈加地完善；至于技术的学习，在 AI 环境下，也许称之为得到技术服务才更能为贴切。摄影和摄影艺术并不会因为AI图像的出现而逊色，相反这种根植在真实环境，被生活所包裹的艺术行为会更加珍贵。毕竟我们应作为 AI 的获益者，用 AI 来提升摄影，这样才更为贴切。