郭全中 张金熠
【摘要】2022年,AI绘画工具MidJourney、Stable Diffusion、DALL-E2等与生成式对话模型ChatGPT成功引爆AIGC,千万级用户的参与使AI模型快速迭代,同时也加速了潜在问题的出现。从发展进程来看,AIGC正处于高速发展期,其演进路径可以划分为辅助阶段、协助阶段与自主阶段。从产业应用来看,AIGC在传媒、影视、游戏、电商、音乐等场景的应用已较为成熟。从发展趋势看,AIGC将成为元宇宙时代的内容生产基础设施,“AI+人文”则是AIGC的主要发展趋势,而AIGC的发展关键点在于技术要素与商业要素的共同进步。
【关键词】AIGC;生成式AI;元宇宙;“AI+人文”
一、引语
2022年,文本与图像交互内容生成平台DALL-E2、新一代对话式NLP模型ChatGPT等生成式AI面向广大网络用户开放并获得强烈反响,使得生成式AI成为当前人工智能领域的热点话题,2022年也被称为“生成式AI元年”。其中细分领域AIGC在技术升级过程中也迎来了新的突破。在不到两个月时间内,ChatGPT日活跃用户已突破千万,由此产生的内容数量则更为庞大。此次AIGC的技术突破不仅有赖于生成式AI的初步成熟,还得益于广大网络用户的参与和反馈,可以说,“AI+人文”是AIGC的关键驱动力。因此,在这场“全民狂欢”中,既需要向前看,把握AIGC的应用场景、发展趋势与关键点,又要向后看,梳理AIGC的演进路径,厘清AI技术与内容生成的关系变迁,从而把握AIGC的来龙去脉,更好地思考AIGC在未来的位置与作用。
二、AIGC的发展演进
(一)何为AIGC?
AIGC全称为AI Generated Content(人工智能生成内容),指基于生成对抗网络GAN、大型预训练模型等人工智能技术,通过已有数据寻找规律,并通过适当的泛化能力生成相关内容的技术。[1]从广义上看,一切运用AI技术生成的内容都可视为AIGC。而从概念源流来说,根据监督学习的方法差异,机器学习领域具有判别式和生成式两种典型模型[2]:判别式模型是对条件概率进行建模,根据已有数据进行分析、判断、预测,从而完成任务;生成式模型则对联合概率进行建模,学习归纳已有数据后基于历史进行内容生成。在GAN模型出现后,传统机器学习算法转向深度神经网络,同时,生成式机器学习模型被用于文本、图像、语音等内容的智能生成,学术界将其定义为“生成式AI”[3],判别式机器学习模型则被称为“决策式AI”。随着生成式AI的快速发展,AIGC以其高通量、低门槛、高自由度的生成能力在内容市场中占据一席之地,并促使内容生成领域大步迈进人工智能时代。
相较于其他学者提出的操作性概念,上述定义从技术角度对AIGC进行界定,一定程度上忽视了其内容特征。中国信通院和京东探索研究院于2022年9月发布的《人工智能生成内容(AIGC)白皮书》中,将AIGC定义为“既是从内容生产者视角进行分类的一类内容,又是一种内容生产方式,还是用于内容自动化生成的一类技术集合”[4],体现出AIGC兼具技术属性与内容属性的特点。此外,AI模型开发者承认,由于训练数据与模型架构的差异,AIGC目前可能存在暴力、性别歧视、种族主义等偏见,这意味着在大规模数据预训练之后,仍需引入人工标记数据对模型进行调整。目前惯用的开源模式正是技术开发者借助广大用户的互动与反馈数据进行模型训练与调整。因此,AIGC不仅仅是技术集合与技术生成内容,还需要依靠人文力量来促进技术向善,减少伦理隐患。
综上,本文将AIGC界定为基于人工智能技术生产数字信息内容,具有AI能力强、内容生产效率高、内容生成质量稳定、成本相对低等特点。
(二)AI能力扩展:AIGC的演进路径
AIGC的出现最早可追溯到1950年艾伦·图灵提出的著名实验“图灵实验”,即判定机器是否具有“智能”的实验方法。但在GAN模型提出之前,AIGC乃至整个AI领域都处在沉淀积累阶段,尚未实现大规模商业化应用。而2014年,Goodfellow等人[5]提出的GAN模型突破了传统机器学习的数据局限,以博弈论中二人零和博弈为思想基石,搭建起由生成器和判别器不断互动迭代优化并最终达到纳什均衡状态的生成模型。这一突破使得机器学习中大规模无监督学习成为可能,推动学习范式与网络结构的技术迭代以及AIGC技术大模型与多模态发展,也使得AIGC进入高速发展时期。因此,本文重点梳理2014年GAN模型提出后的AIGC演进路径,以AI技术与内容生成的关系变迁为线索,将AIGC的演进路径划分为辅助阶段、协助阶段与自主阶段。
1.辅助阶段:AI辅助内容创作
早期AIGC技术主要依据事先指定的模板或者规则,进行简单的内容制作与输出,与灵活且真实的内容生成具有较大差距。[6]该阶段AI技术在内容生成过程中处于辅助位置,属于工具性存在,AIGC往往是基于现实世界信息的物理属性与社会属性的数字化呈现,可视作数字孪生内容。以文本生成领域为例,AIGC技术能够很好地完成具有规范模板的内容生成,例如结构性报道、智能客服等。早在2014年美联社就推出了智能写作平台Wordsmith,用于生产财报类新闻;2016年3月阿里巴巴推出人工智能服務产品“阿里小蜜”,为消费者提供体验服务、导购、咨询和智能助手等功能。
在AI技术的辅助下,AIGC实现了内容的高速量产,自然语言生成公司Automated Insights仅在2014年就产生了10亿篇新闻文章,每秒可撰写多达2000篇新闻报道。然而该阶段AI模型数据规模较小、架构层级较少,数据学习能力有限,尽管可解释性较强,内容生成的自主性与生成内容的真实性都有不足,AIGC普遍存在内容空洞、刻板、题文不符等问题,尚不具备自主数据学习与内容创作能力。例如在与智能客服对话过程中,智能客服无法回应程序设置外的提问表述,回复内容也经常出现文不对题的情况。因此,该阶段AIGC中AI技术与内容生成的关系维持在AI技术辅助专业人士进行内容生成的状态,AI技术并不能取代人工独立完成多样化的内容生成任务。
2.协助阶段:AI协助内容创作
随着深度学习算法的不断迭代,Transformer模型、基于流的生成模型、扩散模型、CLIP模型等学习范式的进一步发展为AI模型提供了更丰富前沿的算法技术,全球互联网数据的激增为AI模型的深度学习提供了更大规模数据,计算机、芯片等技术的升级迭代为AI模型提供了更强大的算力,算法、算据、算力三要素的共同突破催生了AIGC的爆发。该阶段AIGC技术不再止步于辅助性工具,而是能够在大规模数据深度学习模型训练的基础上,根据输入指令生成内容并不断强化学习,从而实现初级的自主内容输出,协助人类完成各项任务。2022年底惊艳全球的ChatGPT正是这一阶段AIGC技术的典型案例。正如Meta首席人工智能科学家Lann LeCun所说,“它很好地(把各项技术)放在一起,做得很棒”,ChatGPT将Transformer架构、大型语言模型、RLHF技术等有机结合,实现“1+1>2”的最终效果,并推动NLP领域进一步发展。在这一阶段,AIGC拥有了更流畅、更仿真的内容生成能力以及人机互动能力,从简单辅助转为智能协助,在内容生成中的工具性地位得到提升,呈现出大数据训练、跨模态生成、高效率生产等技术特征。自2017年谷歌推出Transformer模型,人工智能进入大规模数据预训练模型时代。在AIGC领域,预训练模型在多任务、多模态、多语言方面表现出极强适应性,在内容生成中扮演重要角色。目前生成式AI模型中,大规模数据预训练成为常态,主流预训练模型的参数量均破亿,而在NLP领域千亿级的参数量也不足为奇,OpenAI公司的GPT-3参数量达1750亿,谷歌公司的PaLM模型与英伟达公司的MT-NLG模型参数量甚至突破5000亿。
除此之外,AIGC在跨模态生成上也表现不俗。模态是指每一种信息的来源或形式,以信息媒介类型划分,包括文本、音频、图像、视频、3D等。跨模态生成是指用户输入某一模态的指令,AI模型能够生成另一种模态的内容。2021年OpenAI公司推出跨模态深度学习模型CLIP,该模型实现了文本与图像的跨模态关联与匹配,是MidJourney、Stable Diffusion、DALL-E2等一众文生图AI绘画工具的重要基石。而毫无绘画基础的内容创作者使用MidJourney创作的AIGC绘画作品《太空歌剧院》获得美国新兴数字艺术家竞赛“数字艺术/数字修饰照片”类别一等奖,则充分体现出当前AIGC技术在跨模态生成所取得的突破性成果,也意味着AI技术已突破辅助工具的限制,成为协助人类进行内容创作的技术力量。
AIGC技术的升级,不仅改变了生产关系中技术要素与生产者的互动关系,也带来了更高效的内容生产力。据中信建投预测,2025年,生成式AI产生的数据将占到所有数据的10%,而2021年生成式AI产生的数据不到所有数据的1%。AIGC技术目前正处于该阶段,AI的内容生成能力有了惊人进展,协助编辑能力逐渐稳定、准确且合乎逻辑,但仍未实现自主性突破,也时常出现在某些领域生成看似合理但并不正确甚至荒谬的内容,同时AIGC技术在伦理方面暴露出的弊端与隐患仍需社会各界持续探讨。
3.自主阶段:AI自主内容创作
基于实时自主创作的AIGC位于演进路径的更高阶段,目前仍在探索。在该阶段,AIGC能够实现实时感知、精准认知以及自主创作,AI技术与内容生成的关系从工具性的辅助或协助,上升为以虚拟个体进行内容创作与交互,从而再次提升内容生产力。目前AIGC技术在算法、算据与算力上都尚不能达到这一水平,需要在超大规模、超多参数量的多模态大模型以及软硬件算力方面进一步突破。
视觉与语言是日常生活中最常见的两种模态,通过视觉大模型能够提升AIGC的环境感知能力,通过语言大模型能够增强AIGC的抽象概念理解与认知能力,而单一模态不能满足多样化场景下的内容生成需求,因此需要借助多模态大模型拓展AIGC的实时创作能力。当前,基于视觉Transformer完成多种感知任务的联合学习、高效绿色节能的自然语言处理模型训练框架以及多模态数據的对齐、转换与生成是未来AIGC的重要突破点。
伴随着AIGC技术的不断迭代升级,作为技术—社会体系的元宇宙也将逐渐成为触手可及的AIGC应用场景,因此该阶段AIGC将不仅服务于现实世界中的多样化场景,如通用式与定制化人形机器人,还能够在元宇宙场景中以虚拟形象提供更真实可感的实时内容生成与交互服务,在“虚实共生”的应用场景下发挥更大作用。
三、AIGC的场景应用
现阶段AIGC技术的发展已经呈现出在生产方式上的变革性力量,AI技术将从根本上改变各行各业的内容生成与关系连接,尤其是需要大规模高质量内容的元宇宙时代,“技术+专家”有机融合将成为新主流。正如云游戏是元宇宙演进的初级形态,游戏是数字化生活的典型场景,且游戏玩家被视为元宇宙的种子用户[7],数字化程度高、内容需求旺盛的产业也正是AIGC的典型应用场景。目前,AIGC在传媒、影视、游戏、音乐、电商等场景的应用已较为成熟,技术突破也将在这些领域率先取得创新性应用。此外,AIGC技术在医疗、金融、工业等领域的商业化应用也在快速发展中。
(一)AIGC+传媒:人机协同推动媒体融合提质增效
基于NLP技术的文本生成在AIGC领域发展较早,其在结构性报道中的出色表现也受到普遍认可并实现全球广泛应用。而ChatGPT的出现,进一步提升了NLP技术前沿,其表现出的文本续写、文学创作、多轮对话能力都将使AIGC在新闻报道领域进行更为深入的应用探索。Narrative Science创始人曾预测,到2030年,90%以上的新闻将由机器人完成。除此之外,AIGC在音频、视频模态的技术升级,也促使传媒产业走向人机协同的媒体深度融合道路,并依赖于AIGC的高产高效,为媒体融合发展提质增效。
在内容生产流程中,AIGC技术在信息采编、内容制播、产品创新等多个环节发挥了出色的协助作用。在采编环节,借助语音识别技术对语音内容进行文字转写,能够有效压缩稿件撰写前的录音整理工作,提升新闻时效性。例如2022年冬奥会期间,科大讯飞的智能录音笔通过跨语种的语音转写助力记者2分钟快速出稿。在制播環节,自动生成字幕、视频拆条、任务追踪等智能化剪辑工具不仅节约了时间与人力成本,还能够最大限度挖掘内容版权价值,在中华人民共和国成立七十周年国庆阅兵活动报道中,央视频使用智能剪辑平台对关键事件视频进行处理、剪辑与推送,其生成的短视频内容快速火爆网络。在产品创新环节,近年来传媒业大量使用的虚拟主播,也离不开AIGC技术的支持。虚拟主播本质上是基于AI合成技术的虚拟数字人,通过底层算法、实时语音与人物动画的技术合成,最终交付的虚拟主播能够对输入的文本进行自动播报,并且语音、表情与唇动始终保持同步,在新闻播报、节目主持等方面都表现不俗。
AIGC技术对传媒业的影响不仅体现于对传媒机构的内容生产流程进行智能升级,推动媒体融合进程,还进一步释放了传媒工作者的内容生产力,使其转向更具深度、广度与人文关怀的内容创作,同时为传媒用户提供了更丰富多元、更快速便捷的内容服务以及参与到内容生产中来的机会。
在上述AIGC应用中,AI技术更多作为辅助性工具发挥作用,部分AI协作内容生产时并不涉及内容创作本身,而是对现有内容的简单拆分或有序整合。这受制于早期AI算法水平,随着NLP技术前沿的提升,AI模型将具有更强的认知能力,更强大的AIGC技术将投入行业应用。数字媒体公司BuzzFeed在2023年1月27日表示,该公司将依靠ChatGPT背后的OpenAI公司来加强部分内容创作,为观众提供个性化内容,并计划今年让人工智能在公司的编辑和业务运营中发挥更大的作用,是推进传媒业人机协同进一步发展的新开始。
(二)AIGC+影视:技术加持拓展影视作品创作空间
影视业的产业链条与制作周期都较长,这使得资本投入后,需要较长资金周转周期,也滋生出从剧本创作、现场拍摄到后期制作的过程性问题,如高质量剧本欠缺、制作成本较高、作品质量一般等。而AIGC技术的应用,一定程度上能够激发剧本创作活力,降低拍摄成本,提升后期制作质量,从而拓展影视作品的创作空间。
在剧本创作上,AIGC技术能够通过对海量剧本数据的分析归纳,快速生成完整故事剧本,协助编剧进行内容创作。早在2020年,一位美国学生就利用GPT-3创作剧本并制成短片《律师》,目前OpenAI的ChatGPT、百度文心的ERNIE3.0等模型在文学创作领域也都获得较好反馈。此外,AIGC技术还能使其他文本类型转为剧本形式,从而减轻剧本改写的工作压力,如海马轻帆在2021年对外推出“小说转剧本”智能写作功能,业内超80%的影视剧本通过海马轻帆的系统进行评测和修改,包括热门影视剧《你好,李焕英》《流浪地球》等。
在场景创作上,AIGC技术通过合成虚拟场景,节约场景搭建成本,同时能够通过实时渲染等技术在拍摄现场实现后期成果预览,缩短后期制作时间。例如待播电视剧《狐妖小红娘月红篇》中部分内容采用虚拟拍摄技术,通过实时追踪、实时抠像、实时渲染技术,将实景拍摄与CG元素实时合成,并把空间、透视、光影等多种场景要素以及真实人物在拍摄现场进行数字合成,为导演提供实时的画面预览。基于现实增强技术,AIGC虚拟人物能够与真人同台互动,如湖南卫视《你好星期六》节目中主持人与嘉宾同虚拟主播小漾的实时互动以及北京台2023年春晚中虚拟邓丽君与王心凌、韩雪同台合唱,为观众带来耳目一新的视听体验。
在后期制作上,AIGC技术应用不仅包括图像的修复与还原,还能够合成人脸从而对特定人物进行替换。前者重点应用于历史影像的修复与还原,如通过智能分析检测噪音、编码失真、运动以及画面复杂度等情况,运用AI修复算法去除破坏性因素并进行多维度画质增强,使得张国荣《热·情》演唱会最终以高清品质呈现在观众面前;后者则可用于“数字复活”已故演员、替换劣迹演员等,如演员保罗·沃克在拍摄《速度与激情7》期间去世,剧组采用AI换脸的方式使其“完成了”剧情拍摄,而近年来国内多位艺人失德乃至违法,为保证影视作品能够成功播出,部分剧组也会选择对劣迹演员进行AI换脸。
AIGC技术在影视业的应用较为广泛且常见,但并未触及内容创作核心,工具属性更强,同时AI换脸、抠图技术的滥用也在业内存在一定争议。但毫无疑问,AIGC技术为影像作品提供了更多创作空间与创作灵感,核心创意的产出仍由专业影视从业者完成。
(三)AIGC+游戏:AI技术提升产业生产力,解放游戏创造力
游戏业存在一个经典的“不可能三角”论断,即“你只能在时间、成本与质量之间三选二”。但AIGC技术的成熟有望打破这一“不可能三角”,提升游戏产业生产力。首先,AIGC具有高效率生产的技术特征,在重复性、机械化内容生产上具有绝对优势;其次,AIGC的大模型趋势使其前期成本较高,但AIGC技术发展依旧符合摩尔定律,随着技术的成熟迭代与软硬件设备的价格下降,最终能够实现降本增效的目标;最后,AIGC在内容生成,尤其是在图像生成领域的表现已经达到人类平均水平,能够满足游戏业大量重复且琐碎的美术需求。
AIGC在游戏领域的价值还体现在场景、角色制作方面的效能提升,从而解放游戏创造力。目前,许多游戏开发者已在使用AIGC技术进行游戏场景开发,例如美国戏剧动画《瑞克和莫蒂》的创作者Justin
Roiland在2022年底发布了一款内含Midjourney生成的艺术作品的游戏,为玩家探索外星世界增添风味。但主流的游戏内容生产方式仍是由AI驱动的游戏开发生态系统进行程序生成,其效能与可控性介于纯手工与AIGC之间,例如2022年推出的交互内容游戏《黑客帝国:觉醒》采用该技术,在最新引擎加持下创建了包含700万实例化资产的虚拟城市。此外,NPC角色作为游戏的另一重要组成部分,不仅需要特定语音,还需具备差异化的行为特征,传统制作方式耗时费力,如2018年发售的游戏《荒野大镖客2》为打造约60平方公里的虚拟场景,先后由600余名美术师历时8年完成。但与之相比,生成式AI能够在角色开发过程中承担大量低价值工作且生产效率较高,从而节省更多资源,使游戏美术师们投入到内容创作当中,当前元宇宙虚拟化身创建公司Inworld AI正尝试在虚拟NPC创建过程中引入生成式AI技术。
除此之外,借助生成式AI,游戏本身也能够获得更具创意的交互方式。如游戏公司Cyber Manufacture Co.近日发布的最新AIGC技术预览Quantum Engine,用户可使用自然语言与NPC随意互动,AI会根据用户表达,实时生成剧情互动。这一应用突破了AI技术服務于游戏开发的生产关系,将生成式AI作为游戏核心,向用户提供真正私人化、个性化的游戏体验。
(四)AIGC+音乐:智能生成促进音乐产业智能升级
音频生成作为早期AIGC领域,目前的商业化应用已较为成熟,主要包括语音识别与歌曲生成两大应用场景。在音乐领域,AIGC技术在作词、作曲、编曲等方面的应用较为广泛,已经支持基于开头旋律、图片或文字描述、音乐类型、情绪类型等生成特定乐曲,可应用于音乐欣赏、游戏音效、实体场景配乐等多个领域。2022年,昆仑万维推出商业级作曲AI模型天工乐府SkyMusic,该模型支持31种语种的歌词生成、多曲风旋律生成、多轨道编曲、VOCAL生成和智能缩混等,已在全球多个音视频平台发行近20首AI生成歌曲。
此外,“技术+专家”模式在音乐产业表现突出,AI与专家合作能够基于现有乐谱进行智能生成,续写著名音乐家作品,如PlayformAI与音乐专家合作使用AI续写贝多芬《第十交响乐》、中国音乐学院“AI释谱”项目利用人工智能生成古琴曲《烛》。而且AIGC技术还能够降低普通用户的音乐创作门槛,快速生成歌曲,如网易2022年推出AI音乐创作平台天音,能够10秒搞定词曲编唱,为用户定制拜年曲。
AI技术的引入不仅为音乐产业提供了音乐创作的智能工具,而且以技术赋能用户,丰富了用户的音乐消费行为,实现产业的智能升级。但AIGC技术带来的歌曲生成低成本,一定程度上也会使得大量从事低水平编曲的音乐创作者受到冲击,从而改变音乐产业的人员结构。
(五)AIGC+电商:虚拟人货场营造沉浸式消费体验
随着各项数字技术的成熟与商业化应用,沉浸式消费成为电子商务的主流发展趋势,虚拟主播、在线3D预览、数字展览等形式也极大丰富了消费者的消费体验。而在AIGC技术的加持下,虚拟人货场将迎来更加真实、沉浸式的数字再现,从而为消费者营造沉浸式的消费体验。
首先是虚拟主播的打造填补了人力空白,能够实现24小时不间断地商品展示与介绍,随着NLP技术的进步,虚拟主播或将为消费者提供更加生动的互动体验。其次是商品3D模型的在线展示,为用户提供全方位的商品呈现,甚至能够提供虚拟的使用场景搭建,如宜家2022年推出虚拟设计工具,让用户能够扫描自家房间或使用其虚拟展厅进行家具摆放,为消费者提供更为沉浸式的购物体验。最后是购物场景数字化再现,通过在二维空间构建三维场景,AIGC技术能够实现虚拟购物场景的低成本、大批量构建,从而降低商家搭建3D场景的成本,并为消费者提供线上线下融合的消费体验。但目前智能购物场景搭建呈现两种极端趋势:一端是技术水平有限、仿真度较低的常态化场景,另一端是技术水平较高、仿真度较好但持续性欠佳的秀场式场景。未来随着生成式AI以及AI技术的感知与认知能力提升,AIGC在电商领域的应用将更为真实持久。
四、AIGC的发展趋势与关键点
以2022年为节点,AIGC领域发展势如破竹,AIGC技术带来的生产力升级将会为各行各业提供新的发展契机,但从商业化进程来看,AIGC实现多产业大规模应用仍需一定时间。未来,AIGC的发展需要把握以下三个方面。
(一)AIGC将成为元宇宙时代的内容生产基础设施
目前内容生产方式主要包括PGC(专业生成内容)、UGC(用户生成内容)与AIGC(人工智能生成内容),其中AIGC正处于AI辅助生成内容阶段,尚未达到AI自主生成内容阶段,AI生产力还有待释放。在元宇宙时代,元宇宙信息生态有赖于高效的内容生产机制,而AIGC能够通过算法训练做到根据用户行为与反馈进行实时生产信息内容,极大提升内容生产效率,且通过大量优质信息的生产维护元宇宙的信息生态。[8]与此同时,由于元宇宙时代内容需求的增大,PGC与UGC生产效率不足以满足这一需求,能够低成本、高效率进行多样化内容生产的AIGC将会成为主流生产方式,而AIGC技术与数字孪生的高度适配也会使得AIGC成为元宇宙信息生态的主要组成。因此,AIGC将会成为元宇宙时代内容生产的关键底层技术。
从用户角度看,基于元宇宙内容生态的数量高饱和、信息低密度特征,用户更加追求多样化、定制化的信息服务,并且出于对数字身份认同的高度需要,更希望获得自由表达的空间与能力。AIGC技术不仅能作为底层技术为元宇宙生态提供自动化内容生成,丰富元宇宙内容生态,而且能赋权用户对AIGC进行个性化微调,从而提供定制化信息服务,还能辅助用户进行内容创作,降低内容创作门槛,帮助更多普通用户进行自我表达,扩大内容规模的同时促进用户身份转型。
不论面向元宇宙生态需求还是用户需求,AIGC都将是元宇宙场景下内容生产的主流,核心在于AI技术对生产力的大幅提升与创造,而元宇宙时代正是AIGC作为内容生产基础设施的时代。
(二)“AI+人文”将成为AIGC的主要发展趋势
AIGC的演进路径是从辅助、协助再到自主,但社会信息内容完全依赖AI自主生成将会导致人的主体性缺失。德国社会学家马克斯·韦伯将人类的理性分为工具理性与价值理性,前者追求工具的效能与技术的先进,后者关怀人的命运与尊严。如果将AI技术、人文精神与之对应起来,那么AI技术可以纳入工具理性范畴,人文精神可以纳入价值理性范畴,二者是对立又统一的关系。因此“AI+人文”将成为AIGC的主要发展趋势。
“AI+人文”是将人文精神贯穿于技术应用当中,在AI生成内容的前、中、后始终保持人文关怀与人文主义思考。技术本身是中立的,但在技术的发展与应用过程中,政治、经济因素不可避免地会影响技术应用的走向,甚至隐身于技术之中形成看似公平公正、自然合理的内容生态。与此同时,英国媒介学者戴维·莫利也提醒人们不要夸大新媒体对于人文传统的冲击力和影响力,不要迷失在技术的神话中,他认为“最新的技术也可被用于最传统的目的”。[9]人文精神是走出技术神话的灯塔,在AIGC领域,人文精神也将是引领技术向善的关键力量。
在AIGC的应用过程中,内容安全与伦理问题是技术应用无法避免的现实问题,例如ChatGPT被用户用来进行课程考试与论文写作、Podcast.ai“复活”已故的史蒂夫·乔布斯并用AI生成对话等。除此之外,AIGC技术模型本身由于训练数据的不可控,存在内生性的算法歧视。尽管有人认为预训练模型使用更多、更多元全面的数据量与参数进行模型训练,能够避免算法歧视,但即便是使用了1750亿参数、45TB预训练数据的GPT-3仍存在明显的基于宗教的偏见与性别歧视。因此,人文精神与人工力量的介入是AIGC避免算法歧视的必然路径。例如OpenAI 2021年通过向外包公司购买人工数据标记服务来提升模型对有关暴力、仇恨言论以及性别歧视的认识,ChatGPT中也采用了RLHF技术来提高模型回答的质量。
未来,AIGC技术的发展将更加惊人,在不断提升技术水平以为人类提供更智能内容生成服务的同时,保持人文精神与人文关怀将是AIGC技术向善的关键,“AI+人文”正契合了这一趋势。
(三)AIGC的发展关键点在于技术要素与商业要素的共同进步
AIGC未来发展关键点在于两个要素,即由数据、技术、资本构成的技术要素和由用户与应用场景组成的商业要素,二者共同进步才能形成AIGC领域的繁荣生态。
在技术要素中,数据是AIGC发展的“燃料”。目前多模态大模型是AI模型发展的主要趋势,多模态与大模型都需要巨量数据用以模型训练,ChatGPT模型参数已达万亿级,AI绘画工具Midjourney收集和训练了数百万个互联网文本、图像数据。由此可见,大数据语料与训练集是AIGC技术发展的数据保障。技术是AIGC发展的核心动力,GAN模型对小规模数据的高效运用缓解了数据不足的窘境,Transformer预训练模型对大规模数据的有效处理为AI大模型提供了可行路径,多模态认知计算提升了AIGC的感知力与交互性。因此,算法技术的进步推动着AIGC的不断升级。资本是AIGC发展的坚实后盾。巨量数据、多种模态带来的是AIGC对软硬件设备的更大需求,GPT-3的总训练费用约1200万美元,此外,AIGC的实时生成也离不开本地与云端算力的支持,这都需要殷实的资本加以保障。
在商业要素中,用户正在成为模型发展与应用的主力。开源模式正在成为AIGC发展的“催化剂”,深度学习模型CLIP、对话式NLP模型ChatGPT、AI绘画工具DALL-E2都采取了开源模式,从而加速其广泛应用。而开源模式的核心在于撬动用户力量,通过与真实用户的交互为AI模型提供训练数据,并借助用户反馈对模型进行优化与微调,同时也满足了用户的信息交流与内容创作需求,实现研发与应用的双赢。根据用户需求的差异性与应用市场的细分化,未来AIGC的应用场景将会更加分众化,基于特定群体提供定制化的AIGC服务,同时也为部分群体开放模型微调功能,以激发广大用户的想象力与创造力,进一步丰富现有应用场景。此外,更多元的应用场景也能够提升AIGC的商业价值,从而形成完整的“研发-变现-研发”商业闭环。
技术要素决定了技术水平,而商业要素关系着技术变现。当前AIGC领域基础技术层已获得突破性成果,未来几年在应用场景上的技术落地则为AIGC增添了更大的市场价值,从而形成可持续的产研互促,推动AIGC发展蒸蒸日上。
五、结语
可以预见,未来AIGC将会更为火爆,甚至成为全社会的热点话题。在AIGC掀起的技术变革风暴中,AIGC在内容生产力的提升与创造上发挥了巨大作用,但知识产权、内容安全、使用伦理等领域正处于风暴眼中,需要人们始终保持警惕,坚守原则,保持思考,拉紧底线,始终明确AIGC技术从来都不是目的,更美好的生活才是核心。
[本文为北京市社会科学基金规划重点项目“首都互联网平台企业社会责任与协同治理体系研究”的阶段性成果,项目批准号(22XCA002)]
参考文献:
[1]量子位.Diffusion的火,只是AIGC的缩影|量子位智库报告(附下载)[EB/OL].(2022-09-22)[2023-01-05].https://www.qbitai.com/2022/09/38066.html.
[2]李白杨,白云,詹希旎,李纲.人工智能生成内容(AIGC)的技术特征与形态演进[J/OL].图书情报知识:1-9[2023-01-31].
[3]Wang Y H, Herron L, Tiwary P. From Data to Noise to Data for Mixing Physics across Temperatures with Generative Artificial Intelligence[J].Proceedings of the National Academy of Sciencesof the United States of America,2022,119(32):e2203656119.
[4]人工智能生成内容(AIGC)白皮书(2022年)[EB/OL].(2022-09-04)[2023-01-31].http://www.cbdio.com/BigData/2022-09/04/content_6170457.htm.
[5]Goodfellow I J, Pouget-Abadie J,Mirza M,et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems,Montreal,Dec 8-13,2014.Cambridge:MIT Press,2014:2672-2680.
[6]人工智能生成内容(AIGC)白皮书(2022年)[EB/OL].(2022-09-04)[2023-01-31].http://www.cbdio.com/BigData/2022-09/04/content_6170457.htm.
[7]郭全中.元宇宙的緣起、现状与未来[J].新闻爱好者,2022(1):26-31.
[8]吴江,曹喆,陈佩,贺超城,柯丹.元宇宙视域下的用户信息行为:框架与展望[J].信息资源管理学报,2022,12(01):4-20.
[9]戴维·莫利.媒介理论、文化消费与技术变化[J].张道建,译.文艺研究,2011(4).
(郭全中为中央民族大学新闻与传播学院教授,江苏紫金传媒智库高级研究员;张金熠为中央民族大学新闻与传播学院硕士生)
编校:郑 艳