“有图有真相”已成过去式，AI制图到底有多强？

2023-04-11 01:38:04黎坤

电脑报 2023年13期

黎坤

曾几何时，“有图有真相”这句话架起了互联网用户之间岌岌可危的信任桥梁，但在人工智能时代，这句话也已经濒临失效的边缘，因为人工智能画的图，虽然细节上如果非常认真地甄别依然可以找到瑕疵，但精度已经达到了照片级别。为了验证它的真实性，我就将人工智能生成的风景、街景和人像照片，和真实拍摄的照片放在一起，在电脑报编辑部做了一次“黑盒测试”，事实证明所有人都无法准确判断真伪，虽然样本不大，但也足够说明人工智能在绘画领域的“天赋”。

Midjourney和StableDiffusion孰优孰劣

虽然人工智能画图并不是特别新鲜的产物，在2022年就已经有大量的人工智能艺术作品以匿名的形式参加了各类比赛和展览，但毕竟当时只是少数人的玩具，而现在就不一样了，基本上只要你有台可以上网的电脑，就能玩到最新的人工智能画图软件，比如最近十分火爆的Midjourney，它的出圈程度丝毫不亚于今年初的ChatGPT，因为可以生成以假乱真的图片，甚至还出现了某国前总统的一系列连续剧式的“新闻照片”，成功“引爆”了全球互联网玩家的关注。

事实上Midjourney的本质就是一个用文本生成图像的人工智能算法，在今年3月升级到V5版本后，无论画质、细节、准确性等各个关键要素的性能都得到了质的飞跃。Midjourney最大的优势就是完全在线操作，只需要在聊天工具里为它提供提示词，就能按它所理解的文本意图来生成图片内容。根据我们的测试来看，它可以在一分钟之内就提供四张图片，你可以选择全部重新生成，或者选择其中一张做微调或放大，图像生成的效果直接取决于提示词的精准度，而且英文的准确性远高于中文，所以大多数人都会使用GPT-4，比如新必应浏览器自带的版本来生成详细的英文提示词。

不过，Midjourney最大的问题是基本无法按用户的需求去进行精修，更多是倾向于“一次性操作”。除此之外，它为所有用户提供了25张图像的试用额度，超额后就需要购买订阅才能继续使用，而订阅又按算力、版权许可等分为10/30/60美元每月这三个不同的价位，试用用户的授权许可是CCBY-NC4.0，也就是发布需要署名（BY）且只能非商业性使用（NC），三个付费订阅则可以无限制使用。

作为对比，另外一个人工智能画图“高手”StableDiffusion就不一样了，打个不恰当的比方：Midjourney就像是手机的一键美颜，任何人都是开箱即用，而StableDiffusion就是Photoshop，需要一定的技术基础，但功能更强大。它虽然也有线上免费版本，但如果想要使用全部功能就需要安装本地应用，而且安装过程比较复杂，这也就排除掉了大多只是想尝试玩玩的用户。但在熟悉使用之后，StableDiffusion的优势就很突出了，比如它有上千个现成的模型可以调用，你也可以自己利用训练器训练自己想要的模型，画面风格远多于Midjourney，而且可以重新生成图像的某一个部分，甚至还可以进行画面扩展，与此同时，你可以给它投喂参考图片，去模拟构图和人物姿势。最重要的是StableDiffusion完全开源，既不需要付费订阅就可以任意生成，也可以拥有图像的商用许可。当然，因为是本地运行，所以StableDiffusion对电脑性能是有一定要求的，尤其是显卡显存，会直接影响到输出分辨率的高低。

国产人工智能画图应用：尚有追赶空间

虽然Midjourney和StableDiffusion都是全球范围内的“当红炸子鸡”，但它们对于国内用户来说却有着一定的使用鸿沟，比如全英文界面就足以劝退大多想凑个热闹的玩家。那如果你也想玩人工智能绘画，有相应的国产软件选择么？答案当然是肯定的，比如百度的文心大模型和万兴科技的万兴爱画。

百度文心大模型下的文心一格是目前国内最具代表性的人工智能画图平台，生成图片就需要消耗“电量”，“电量”可以通过完成任务来领取，也可以直接按数量进行购买。从生成效果来看，虽然主页上通过精心筛选的优秀作品看起来都还不错，但自己生成时还是要摸索一下，比如图像尺寸和生成数量的不同会产生不同的“电量”消耗，默认的1024×1024分辨率单张要2个“电量”，最高2048×2048单张则需要6个“电量”，12个不同的画图风格也会给出不一样的图像……从我们消耗了六个账号近300个“电量”的体验来看，文心一格目前并不太擅长写实类的图片生成，综合效果和Midjourney等平臺还是有一定的差距。

至于万兴爱画，它可以任意次数地免费生成随机图像，但从生成速度来看其实就是调用了其他用户或系统预设的图像而已，而每个账号每天只免费提供2次自定义提示词的创作机会，想要更多的创作就只能掏腰包按次数购买了，这个数量明显连试错都不够用，再加上它生成的图像分辨率只有1024×576或768×768，同时还无法回溯自己创作过的图像，所以总体来说依然处于非常初级的阶段。