许雪晨 田侃 李文军
关键词:AIGC;新一代人工智能技术;ChatGPT;产业发展;数字经济
DOI:10.19313/j.cnki.cn10-1223/f.20230705.001
一、引言
习近平总书记指出,“把新一代人工智能作为推动科技跨越发展、产业优化升级、生产力整体跃升的驱动力量,努力实现高质量发展。”经过60 多年的发展,人工智能发展进入新的阶段,相比于传统人工智能,新一代人工智能呈现出深度学习、跨界融合、人机协同、群智开放、自主操控等新特征。大数据驱动知识学习、跨媒体协同处理等也成为人工智能的发展重点。近年来,通过无监督学习条件下的“大数据+大模型”方式,自然语言处理、语音识别、计算机视觉等任务的性能均显著提升,新一代人工智能的重要分支——人工智能生成内容(Artificial Intelligence GeneratedContent,AIGC)迎来加速发展,正在催生全新的产业体系。
代表AIGC 最新进展的是OpenAI 开发的聊天机器人——ChatGPT(Long 等,2022),通过大规模预训练模型,ChatGPT 具备理解自然语言和文本生成的能力,可以执行文本翻译、摘要生成、情感分析等任务。ChatGPT 以其强大的功能和广泛的应用场景,在推出仅两个月后,就迅速发展壮大,月活用户数量已超过1 亿。如果说“阿尔法狗”刷新了普通大众对人工智能技术的看法,那么ChatGPT 则使人工智能技术“飞入寻常百姓家”。这引起了业界和学界的广泛关注。
2023 年2 月,微软宣布在Bing 搜索引擎中引入ChatGPT,自集成ChatGPT 后,Bing 的日活量也首次突破1 亿。作为人工智能领域的现象级应用,ChatGPT 也开启了中国人工智能行业新赛道,引发国内科技巨头竞相涌入。在众多互联网公司中,百度最早官宣将在今年3 月上线百度版ChatGPT——“文心一言”。腾讯则表示,专项研究正在有序推进,针对类ChatGPT 对话式产品已成立“混元助手”项目组。此外,京东宣布将推出产业版ChatGPT—ChatJD。网易有道则对AIGC在教育场景的落地进行布局。360 也对外公布,计划推出类ChatGPT 的demo 版产品。
ChatGPT 是近年来人工智能领域的一项重大突破,但其突然火爆并非横空出世,非一日之功,而是人工智能大模型从量变到质变的一个华丽蜕变。
在过去几十年里,由于机器学习算法、计算机处理能力、移动互联网等方面的进步,计算和人工智能相关的方法取得了长足进展并引发了一系列突破,ChatGPT 的成功基于大模型、大算力、大训练数据。几十年间,人工智能已成为包括中国在内的许多国家经济发展的重要引擎。
2017 年7 月,国务院印发《新一代人工智能发展规划》(以下简称《规划》)①,这是本世纪以来中国发布的第一个人工智能系统性战略规划,这一规划提出了面向2030 年中国新一代人工智能发展的指导思想、战略目标、重点任务和保障措施。《规划》指出,要重点突破跨媒体统一表征、关联理解与知识挖掘、知识图谱构建与学习、知识演化与推理、智能描述与生成等技术,实现跨媒体知识表征、分析、挖掘、推理、演化和利用,构建分析推理引擎。AIGC 技术能力升级将为这一目标的实现提供强力支撑。2023 年2 月13 日,北京市经济和信息化局发布《2022 年北京人工智能产业发展白皮书》,该白皮书提到,今年北京市将引导企业、高校、科研院所、新型研发机构、开源社区等,围绕人工智能关键核心技术创新协同攻关,持续推动建设具有全球影响力的人工智能创新策源地。同时,支持头部企业打造对标ChatGPT 的大模型,构建开源框架和通用大模型的应用生态,形成人工智能产业发展新突破;加强人工智能算力基础设施布局,加速人工智能基础数据供给②。上海市经信委表示,在全球科技竞争日趋白热化的情况下,积极发展AIGC,加快构筑活跃的产业生态,将是上海人工智能发展的重要着力点。
目前,随着政策面利好,叠加科技巨头陆续入场,AIGC 的应用场景不再单纯局限于聊天机器人、文本生成等方面,更将为数字经济、产业发展甚至社会变革注入强大动力。由于AIGC 兴起时间较短,对该领域相关内容的梳理和综述相对匮乏,因此,本文旨在全面、系统地对AIGC 相关的概念、技术和国内外主要科技公司前瞻布局进行系统梳理分析,并从产业视角深度剖析AIGC 产业本身及其与相关产业的融合。关注新一代人工智能技术AIGC 对产业和社会发展的影响,迫切且关键。
本文剩余内容结构是:首先对AIGC 概念和发展历程进行梳理,全面了解AIGC 发展状况;然后探讨AIGC 带来的产业机遇,分析其应用场景及其可能带来的风险;最后在上述分析基础上,提出中国针对AIGC 发展和治理的政策建议。
二、AIGC 概念梳理与发展历程
(一)AIGC概念与内涵
1950年,艾伦·图灵在《计算机器与智能》中提出了著名的“图灵测试”——判定机器是否“智能”的试验方法(Turing,2009),即机器是否能够模仿人类的思维方式来“生成”内容,实现人机交互。因此,人工智能从图灵开始就被寄予了用于内容创造的期许。经过半个多世纪发展,数据快速积累、算力性能提升和算法效力增强,如今人工智能不仅实现了人机互动,还能够进行写作、编曲、绘画、视频制作等创意工作。2018 年,由人工智能创作的肖像画《埃德蒙·贝拉米画像》拍卖43.25 万美元,成为人类歷史上首次拍卖的AI 艺术品,引发各界关注。随着人工智能越来越多地被应用于内容创作,AIGC 概念悄然兴起。
目前,对AIGC 的定义尚无统一规范的界定。国内产学研各界对于AIGC 的理解是“继专业生成内容(Professional Generated Content,PGC)和用户生成内容(User Generated Content,UGC)之后(Nosita 和Lestari,2019;Lobato 等,2011),利用人工智能技术自动生成内容的新型生产方式”。在国际上对应的术语是“人工智能合成媒体(AI-generated Media 或Synthetic Media)”(Pataranutaporn 等,2023),其定义是“通过人工智能算法对数据或媒体进行生产、操控和修改的统称”。因此,AIGC 是指从内容生产者的角度对内容进行分类的一种内容类型,同时也是一种自动化生成内容的技术。
(二)AIGC 发展历程
梳理人工智能的发展演进,AIGC 的发展基本可以划分为三个时期:酝酿萌芽阶段(20 世纪50年代至20 世纪90 年代中期)、稳步推进阶段(20 世纪90 年代中期至21 世纪10 年代中期)以及迅猛发展阶段(21 世紀10 年代中期至今)(三阶段的相关总结见表1)。
1. 酝酿萌芽阶段
20 世纪50 年代至20 世纪90 年代中期,受限于技术水平,AIGC 仅局限于小范围实验。1950年,图灵提出“图灵测试”能够判定机器是否“智能”;1957 年,计算机首次创作完成弦乐四重奏《依利亚克组曲》;1966 年,世界上第一款可人机对话的机器人“伊莉莎(Eliza)”问世,主要通过关键字扫描与重组完成交互任务。20 世纪80 年代中期,国际商业机器公司(International BusinessMachines Corporation,IBM)创造了语音控制打字机“坦戈拉(Tangora)”,约能处理20 000 个单词。
20 世纪80 年代末至90 年代中期,由于高昂的研发投入没有实现预期的商业变现,世界各国开始减少人工智能领域的投入,AIGC 没有实现重大突破。但在此期间,图灵测试、对话机器人以及语控打字机已经孕育了AIGC 的雏形。
2. 稳步推进阶段
20 世纪90 年代中期至21 世纪10 年代中期,AIGC 逐渐进入稳步推进阶段。2006 年起,一方面,图形处理器和张量处理器等算力设备性能大幅提升,深度学习算力增强,深度学习算法取得重大突破;另一方面,互联网的推广普及使得数据规模剧增,这为各类人工智能算法提供了海量训练数据。虽然算力的提升与数据的膨胀使人工智能取得了长足发展,但AIGC 仍受限于算法约束,创作任务依然没有取得重大突破,应用场景有限,应用效果有待提升。2007 年,纽约大学的人工智能系统撰写小说《1 The Road》——世界第一部完全由人工智能创作的小说,虽然小说可读性不强、存在拼写错误、逻辑混乱,但从AIGC 整个发展历程来看,其突破性意义远高于文学价值。2012 年,微软推出全自动同声传译系统,计算机能够自动完成语音识别、英中机器翻译,以及中文语音合成,效果非常流畅,这标志着深度神经网络模型在语音识别和音频生成领域获得了巨大的成功,为AIGC 进一步发展带来希望。
在进入21 世纪后,AIGC 从前期的技术实验性向商业实用性转变,但受限于算法瓶颈,其往往只能根据算法提供的模板生成内容,开放性、包容性还有待提升,无法较好地完成创作。
3. 迅猛发展阶段
21 世纪10 年代中期至今,AIGC 迎来新发展,生成内容更加多元,生成效果更加逼真。自2014 年起,Goodfellow 等(2020)提出以生成式对抗网络(Generative Adversarial Network,GAN)为代表的深度学习算法,并不断迭代更新,为AIGC 提供了强大的技术支撑。此后,2017 年,微软人工智能少女“小冰”完成了世界首部完全由人工智能创作的诗集——《阳光失了玻璃窗》。2018年,英伟达发布可以实现自动生成图片的模型——StyleGAN(Karras 等,2020),该模型目前已升级到第四代——StyleGAN-XL(Sauer 等,2022),其生成图片的分辨率极高,人眼难以分辨真假。2019 年,DeepMind 发布DVD-GAN 模型(Clark 等,2019)可以生成高度逼真且连贯的视频,该模型能够通过学习和理解人类的语言,进行对话、聊天互动。2021 年,OpenAI 推出DALL-E(Ramesh等,2021),主要用于文本与图像的交互生成内容,并于一年后推出升级版本DALL-E-2(Marcus等,2022)。 DALL-E-2 基于对主题、风格、调色板和所需概念意义的“理解”,可以生成相应的图像,同时该模型还能够根据原图像进行二次创作。至此,AIGC 技术基本成熟,有望成为改变商业模式和产业发展范式的重要驱动力。
总的来说,该阶段深度学习算法快速发展,AIGC 生成效果逐渐逼真直至人类难以分辨。与此同时,市场受到较高关注,虽然距离大规模证明和体系化发展仍有差距,但从资本的加码到应用场景的探索,距离的缝隙有望逐步填补。
三、国内外主要科技公司AIGC 布局现状
2022 年下半年起,“AIGC”接棒“元宇宙”成为全球瞩目的焦点和热议话题,各个行业都在积极探寻AIGC 助力下的新方向,抢占新赛道。国内外各大科技企业纷纷在AIGC 领域抢先布局,新兴科技创业公司悄然兴起。本节将对国内外主要科技公司AIGC 布局进行梳理,并以中美两国为例,分析比较两国AIGC 发展异同,明确中国AIGC 发展难点痛点与瓶颈环节。
(一)国外AIGC 发展现状
国外AIGC 领域的相关企业既有谷歌、META、微软等科技巨头,也不乏Stability AI、Jasper、OpenAI 等新晋独角兽企业。上述科技公司的项目不仅可以生成图片,还能够进行视频生成。例如,META 推出Make-A-Video 系统(Singer 等,2022),实现了由文本到视频的飞跃;谷歌推出ImagenVideo(Saharia 等,2022)和Phenaki(Villegas 等,2022),可以从简单的文本提示中生成高清视频。AIGC 在海外市场发展迅速,目前具有参照意义的国外公司主要有:
1. 微软
2019 年,微软向OpenAI 投资10 亿美元,试图实现AI 的弯道超车。在关注技术研发的同时,微软积极筹备OpenAI 的商业化落地,将OpenAI 的技术与自有产品进行集成。2020 年,微软将GPT-3 模型(Brown 等,2020)用于Office、Bing 和Microsoft design 等产品中;2021 年,在Azure中集中部署OpenAI 开发的GPT、DALLE、Codex 等各类工具,这也成为OpenAI 最早的收入来源。2023 年1 月,微软向OpenAI 追加数十亿美元的投资。2 月2 日,微软宣布旗下所有产品均将整合ChatGPT,包括搜索引擎Bing、办公全家桶Office。目前,微软已发布4 款基于ChatGPT 的融合应用,包括视频会议Teams 智能概述功能,销售应用Viva Sales 生成邮件回复,搜索引擎Bing 通过聊天获取答案,浏览器Edge 聊天和编写功能。微软CEO 纳德拉宣布将在云计算平台Azure 中整合ChatGPT,宣告Azure OpenAI 服务全面上市,通过该服务可以访问OpenAI 开发的AI 模型,届时微软的每个产品都将具备相同的AI 能力。
2. 谷歌
2021 年,谷歌推出大语言模型LaMDA(Thoppilan 等,2022),并在此基础上开发了Bard,可以将信息知识和大语言模型的智能相结合,提供新鲜高质量的回复。这意味着与ChatGPT 不同,Bard 可以基于實时网络数据,而ChatGPT 的信息获取来源只局限于2021 年以前的数据。谷歌目前在文本、源代码、音频、图像和视频四个领域均开展了生成式模型研究。Wordcraft Writers Workshop可以帮助作家从大型语言模型中获得写作上的帮助。AudioLM(Borsos 等,2022)是音频生成模型,该模型将音频样本输入并继续进行创作,用以生成音乐和语音。此外,谷歌研究院还发布了AIGC工具Stable Diffusion(Rombach 等,2022)和Dreambooth(Ruiz 等,2022),借助上述工具,只需输入几张指定物体的照片和相应的类名,即可通过文字描述让被指定物体出现在用户想要生成的场景中。
3. META
Meta 在AIGC 领域也有战略安排。2022 年11 月,Meta 的人工智能实验室Meta AI 发布了AI系统“Make-A-Video”,能够根据输入的自然语言文本生成一段5 秒钟左右的短视频。并且在语言生成视频的基础上,拓展到从图像生成视频以及从视频生成视频。此外,Meta 在AIGC 的其他方向也有布局。Meta A 提出了一个全新的文本到四维生成系统MAV3D(MakeA-Video3D),将自然语言描述作为输入,并输出一个动态的三维场景表示,可以从任意的视角进行渲染。
4. 独角兽企业
除了上述这三家企业之外,还包括Zyro、NVIDIA、OpenAI、Gliacloud 等人工智能企业与独角兽企业同样具备对标AIGC 的技术能力(见表2 所示)。
(1)Zyro:一方面围绕垂直业务场景,结合业务knowhow 组织相关 AIGC 能力;另一方面,围绕电商场景,通过AIGC 生成网站搭建过程中所需的各类素材,具体业务包括针对性生成公司介绍、企业价值、Slogan、自动提升图片清晰度、自动生成logo 等。
(2)NVIDIA:通过构建技术矩阵,使其最终服务于创作型工具平台在视觉生成研究领域始终处于前沿,代表作品包括CycleGAN(Zhu 等,2017)、GauGAN(Park 等,2019)、EditGAN(Ling等,2021 等)、GANverse3D(Zhang 等,2020)、Instant NeRF(Müller 等,2022)等。
(3)OpenAI:通过客户端付费订阅模式,对外提供GPT 和ChatGPT 等模型能力,实现商业化盈利。
(二)国内AIGC发展现状
相比于国际先进科技公司,虽然中国AIGC 产业尚处于起步阶段,底层技术和商业化落地较国外仍有一定距离,但众多国内知名企业如百度、阿里巴巴、京东在AIGC 领域也进行了布局,并尝试将相关技术应用于自身业务。代表性公司包括:
1. 百度
2022 年8 月,基于自主研发的产业级大模型ERNIE(Sun 等,2019),百度推出AI 艺术创意辅助平台——文心一格。通过文心大模型准确的语义理解和图片生成能力,文心一格可以为用户提供丰富多样的创意,帮助创作者打破创作瓶颈。同年9 月,百度发布多款AIGC 应用内容生产领域的技术和产品,包括“创作者AI 助理”和“百度APP 数字人”等。值得一提的是,由百度推出的AI 数字人度晓晓,作答2022 年高考语文作文得分达到48 分,得分超过了75%的考生,这表明AIGC 创造的内容具有较高的可读性和创造性。
2. 阿里巴巴
2019 年初,阿里巴巴达摩院启动通用性人工智能大模型M6 项目(Lin 等,2021),并于2021年3 月首次发布,参数量达到千亿级,成为世界上最大的中文多模态模型。同年11 月,M6 成为全球首个突破10 万亿参数的AI 模型。M6 主打多模态、多任务能力,擅长写作、对话等任务,已在超40 个场景中实现商业化落地。目前,M6 模型已经成为阿里重要的科技基础设施,在电商领域的服装设计和工业级文案生成以及支付宝的搜索推荐等业务中实现了产业化应用。此外,阿里巴巴计划在钉钉APP 中引入类ChatGPT 的对话机器人。
3. 京东
京东在AIGC赛道上的布局更加聚焦文本、数字人生成和通用型Chat AI 等技术。在文本生成领域,京东发布了商品文案生成模型K-PLUG(Xu 等,2021),帮助商家自动生成商品标题、商品卖点文案、商品直播文案,人工审核通过率超过95%。在数字人生成领域,京东利用AI 虚拟数字人代替人工客服,数字人主播在6.18 场景中试播,改变了传统的营销模式。在2023 年2 月,京东宣布将推出ChatGPT 产业版——ChatJD,旨在打造高频、刚需的产业版通用ChatGPT 类产品。
4. 创业公司
如表3 所示,国内也涌现了一批成长迅速的创业公司,代表企业如下:
(1)小冰科技:最早提出AI Being(人工智能数字员工)定义,并开发了小冰框架,用于快速生成符合条件的虚拟人。目前,由小冰框架提供的数字人已活跃于众多场景中,这其中包括万科集团年度优秀员工“崔筱盼”、红杉中国首位虚拟分析师“Hóng”等。作为赋予AI Being 创造力的重要部分,小冰布局AIGC 多年,并已形成稳定商业落地与文本、声音、图像的产品化阵列。在文本方面,小冰金融文本生成产品覆盖约90%的机构投资人。在绘画方面,“夏语冰”创作的水墨画是唯一入选去年迪拜世博会中国馆的人工智能绘画作品。据不完全统计,由小冰创建并承载的人工智能交互主体,拥有全球范围人工智能交互总流量约60%,超过主要同行业者亚马逊、谷歌及苹果同类产品的流量总和。
(2)聆心智能:基于生成式模型的情感对话系统,为用户打造不同类型的AI 心理陪伴人,并提供更科学、高效的精神健康服务。此外,聆心智能正致力于打造超拟人大模型,增加场景化、拟人化的风格设定,让AI 成为通用人工智能时代的智能体,具备个性、情感和成长能力。
(3)影谱科技:凭借数字孪生等关键技术优势以及3D 数字化场景、沉浸式体验的营造能力,发布了国内首个依托AIGC 技术的元宇宙活动平台——影宙,将元宇宙和AIGC 相结合,探索元宇宙与各垂直行业的融合应用。
(三)中美两国
大模型及AIGC 发展对比大模型作为一种变革性技术,已经成为AIGC 及整个人工智能技术的制高点和基础设施,中国和美国作为这个领域的主要玩家,正在围绕AIGC 展开角逐。在本小节,本文旨在对中美两国大模型数量及参数量、论文及研究机构和AIGC 创业公司及产业环境等方面进行对比,深度解析中国和美国AIGC 赛道。
1. 预训练模型参数量
如表4 所示,在预训练语言模型的参数量排名前10 的机构中,美国有6 个,中国拥有4 个。在部分评测基准中,中国的大模型成绩甚至更加优异,特别表现在中文语言理解、阅读理解等榜单中。但这一类大模型底层创新均来自于美国的研究机构。国内推出的大模型如百度文心、阿里M6、华为盘古(Zeng 等,2021)、智源研究院悟道(Yuan 等,2022)和浪潮源1.0(Wu 等,2021)等,均基于BERT(Devlin 等,2018)大模型架构优化而来,缺乏根技术上的创新。此外,现阶段上述模型在问题回答的完整性和逻辑性等方面,仍无法与ChatGPT 抗衡。
2. AIGC 模型相关论文、研发机构
过去五年,美国总共发表了98 篇与预训练模型相关的论文,中国则发表了240 篇。不难发现,中国论文发表数量遥遥领先,但在论文引用情况方面,引用量排名前十的论文大都来自美国的研究者,可见美国的高质量论文仍然处于领先地位。此外,如图1 所示,在全球AIGC 模型研发机构排名中,前十名中美国占据六席,中国机构则占据四席。因此,中国研发机构虽然起步较晚,但不逊色于美国。
3. AIGC 独角兽数量和产业环境对比
由于技术发展不足,以及产业环境的影响,在中国,AIGC 大多被作为公司的部分业务乃至相对边缘化的功能进行研发,独立运行的创业公司数量明显少于美国,大部分细分赛道的初创玩家也都少于5 家。截至2022 年底,美国的AIGC 独角兽数量是292 家,估值4.6 万亿美元,中国则有69 家,估值1.4 万亿美元。与美国相比,中国人工智能独角兽的数量和估值差距仍然很大。此外,中国AIGC 布局最多的赛道是AI 写作和语音合成领域,虚拟人赛道刚刚开始兴起,基本均停留在内容领域。而在美国,延展領域得到了更为充分的挖掘,例如个性化文本生成、合成数据等赛道均是重点布局领域。
通过上述对比分析可以发现,中国AIGC 发展水平仍与美国存在一定差距,究其原因,可以归结为以下三个方面:
(1)从算力层面来看,我国的数据中心多面向软件应用环境,真正面向AI 的算力非常少,又或者需求不高,而算力本身非常昂贵,模型越大,数据越多,数据训练AI 所要消耗的费用就越大。以ChatGPT 为例,训练一次的成本约140 万美元,这是国内大多公司不能负担的。此外,高端GPU和AI 芯片缺乏也成为国内AIGC 领域卡脖子问题。
(2)从数据层面来看,国内数据的质量普遍不高,一是数据积累量不够,再者数据管理较为严格,部分数据文本需要审批才可以被人工智能企业使用,减慢了数据价值的释放。而美国拥有庞大的、高质量的数据资源,这使得美国企业可以在大数据的支持下,快速开发AIGC 技术,并提供更加准确、多样化的服务。
(3)从人才层面来看,美国拥有全球先进的高等教育体系和吸引科技人才的激励措施,这使得美国企业可以从世界范围内吸引最优秀的人才来开发AIGC 技术。尽管中国拥有大量的科技人才,但在AIGC 领域的高端人才匮乏;我国AI 开发者有思维惯性,过度依赖开源内容,对大模型缺乏探索创新。
综上所述,大模型和AIGC 是新一代人工智能技术最主要的竞争领域,中美都将其作为战略高地,倾注了大量的资源。总体上呈现出美国领先、中国追赶的局面。中国大模型发展迅速,但生态构建和商业应用还有很大发展空间。在保持总量、规模和速度的同时,需要提升质量,实现大模型的高质量发展。
四、AIGC产业发展机遇
随着预训练大模型走向成熟并成为AIGC 应用的技术底座,AIGC 相关产业有望迎来爆发期。本节将从AIGC 相关产业链和重点行业应用领域角度分析AIGC 可能带来的发展机遇。具体来说,AIGC 以大模型、大数据和大算力为基础(郑世林等,2023),AIGC 热度持续提升,将带动算力、芯片等相关产业链加速发展。此外,各行业对于数字内容的需求正在爆发性增长,数字世界中内容的消费和供给之间存在巨大差距,迫切需要加以弥合。AIGC 以其真实性、多样性、组合性的特征,有望帮助企业提高内容生产效率,解放生产力,提高相关数字化产品的智能度,从而更好地服务于传媒、影视和电商等内容需求丰富的行业。
(一)AIGC 相关产业链和数字经济或将迎来发展良机
AIGC算法复杂,模型训练需要海量数据,对算力要求呈指数级提升,同时也需要快速高效的方式来处理数据集。在内容生产过程中,AIGC 相关模型需要对海量的标注数据进行不断的学习,从而更好地学习人类的说话方式和想法,最终实现高质量创作。以ChatGPT 为例,目前提供能力基于GPT-3.5 和RLHF(人类反馈强化学习)训练获得,与GPT 家族的其他模型(GPT-1、GPT-2)相比,模型结构并没有太大改变,但模型训练的参数量从1.7 亿增加到1 750 亿,预训练数据量从5GB 增加到45TB。随着模型的迭代升级,预计数据量和算力需求都会继续成几何倍数增长。因此,AIGC 和相关产业互相促进,互相支撑。首先,随着AIGC 在更多领域得到应用,海量数据和流量将源源不断地产生,以算力为代表的云计算等基础设施或将持续释放。通信硬件设施将是AIGC 发展最先受益的环节,包括运营商为主的技术设施底座、承载算力的 IDC、服务器“东数西算”带来的骨干网建设需求等各个产业链环节;其次,从云计算、大数据、人工智能、边缘计算等技术角度来讲,未来应用的高算力运算需求,对基础设施提出更高要求的基础上也进一步带动对相关技术及算法的需求;最后,从应用端角度来讲,以工业互联网、车联网、云游戏以及AR/VR 等应用渐行渐近,应用场景的不断落地,进一步倒逼基础设施建设的不断加快升级。同时,随着应用场景的不断丰富,也将进一步拉动相关产业链环节需求进一步提升。另一方面,随着云计算等基础设施的完善、数字经济应用的落地和发展,数据等计算资源得以不断增加,这为AIGC 的迭代优化提供了宝贵的训练数据,其算法得以更加精进,从而生成更符合人类语言和行为的内容。
(二)AIGC 有望塑造数字内容生产与交互新范式
数字内容迈入强需求、视频化、拼创意的螺旋式升级周期,AIGC 的发展恰好迎合了这一需要。AIGC 正在越来越频繁地被应用到数字内容的创作工作中,成为未来互联网的内容生产基础设施。
近年来,AI 技术正被广泛应用于传媒业的内容生产、分发和管理等环节。AIGC 作为当前新型的内容生产方式,有助于进一步降低相关企业的边际成本,并赋能自动采编、作品自动生成、游戏建模及虚拟人辅助创造等环节。具体来说,在采编环节,基于AI 算法可以快速自动化地批量生成文章,帮助新闻编辑人员更快、更准、更智能化地生产内容。比如中国地震台网的写稿机器人仅用25 秒便完成了《四川阿坝州九寨沟县发生7.0 级地震》这一消息的准确编发,这则消息不仅包括速报参数、震中地形等8 项内容,还配了4 张现场图片。此外,AIGC 可以帮助从业者借助字幕生成和视频锦集等工具,实现视频智能剪辑,提升视频内容价值。如2022 年北京冬奥会期间,央视借助AI 智能内容生产剪辑系统,自动制作比赛项目的视频集锦,高效节省了人力和时间成本,提高多类型内容编发能力。
随着影视行业的快速发展,高质量剧本相对缺乏、制作成本高昂以及部分作品质量等过程性问题逐渐显现,亟待进行产业结构升级,向信息化、数字化的方向发展。借助AIGC 技术,可以激发影视剧本创作的思路,扩展影视角色和场景的创作空間,从而在后期制作过程中大幅提升影视产品的质量。这不仅有助于实现影视作品的文化价值与经济价值的最大化,同时也能够有效应对影视行业在创作和制作过程中所面临的诸多挑战。比如通过AI 合成人脸、声音等相关内容,实现“数字复活”已故演员、高难度动作合成等,扩展角色和场景创作空间。此外,借助AIGC 合成虚拟物理场景,能够创造无法实拍或成本过高的场景,极大拓展影视作品想象力的边界,给观众带来更优质的视听体验。长期来看,随着模型参数和数据训练量的提升,AIGC 有望大幅提升影视内容供给量及创作效率。
(三)AIGC 促进电商发展模式的转变
随着数字技术的不断创新和应用,消费者的需求不断升级和加速,沉浸式购物体验已成为电商领域不可或缺的发展趋势。AIGC 正加快商品3D 模型、虚拟主播乃至虚拟货场的构建,通过结合元宇宙技术,实现视听等多感官交互的沉浸式购物体验。具体而言,在商品展示和试用环节,借助AIGC 可以自动生成商品的3D 几何模型和纹理,帮助消费者实现虚拟试用,提高商品销售转化率。积木易搭推出的3D 数字化解决方案,支持在分钟级的时间内完成商品的3D 拍摄和生成,精度可达到毫米级。相较于传统电商商品展示采用图文、短视频的展现形式,3D 动态互动形式的商品对于消费者更有吸引力。同时生成出的3D 商品模型还可用于在线试穿,高度还原商品或服务试用的体验感,从而更好地体验其质量和性能,有助于提高消费者的购买意愿。数据显示,3D 购物的转化率平均值为70%,较行业平均水平提升了9 倍,同比正常引导成交客单价提升超200%,同时商品退换货率显著降低。此外,AIGC 可以帮助打造虚拟主播,赋能直播带货。基于计算机视觉、CG渲染和动作捕捉等技术,打造虚拟主播为观众提供24 小时不间断的货品推荐介绍以及在线服务能力,降低商家直播门槛。相比真人直播间带货,虚拟主播具备三大优势:一是虚拟主播能够填补真人主播的空白时间,使直播间能不停轮播,既为用户提供更灵活的观看时间和更方便的购物体验,也为合作商家创造更大的生意增量。二是虚拟品牌能加快店铺或品牌年轻化进程,拉近与新消费人群的距离。通过在元宇宙中建立虚拟形象,品牌主播可以更好地塑造品牌形象,吸引更多的消费者(郑世林等,2022)。未来,虚拟品牌主播还可以延伸到元宇宙中的更多场景中,实现圈层传播。AIGC 同样能够赋能线上商城和线下秀场加速演变,为消费者提供全新的购物场景。通过从二维图像中重建场景的三维几何结构,实现虚拟货场快速、低成本、大批量的构建,将有效降低商家搭建3D 购物空间的门槛及成本,为一些原本高度倚重线下门店的行业打开了线上线下融合的想象空间,同时为消费者提供线上线下融合的新消费体验。
(四)AIGC 推进数实融合,加快产业升级
AIGC 在工业、金融、教育、医疗等行业同样也将快速渗透,助力产业升级。在工业领域,AIGC有助于提升产业效率和水平。主要体现在:一是融入计算机辅助设计,AIGC 将工业流程中低级重复、多耗时以及低层次的任务自动化,将数千小时的时间耗费缩短至几分钟,可最大程度缩短工程设计周期,提高效率;二是AIGC 支持生成衍生设计,为工程师提供更多灵感刺激;三是AIGC 能够在设计中引入变化,实现动态模拟,提高产业适应性和生动性;四是AIGC 推动加速构建数字孪生系统。AIGC 将物理环境中的数字几何图形,参数化为3D 建模数据,创建物理世界中的数字孪生系统。在金融领域,AIGC 助力实现降本增效。一方面AIGC 可实现金融资讯、产品介绍视频的自动化生产,提升金融机构运营的效率;另一方面,AIGC 可以塑造视、听双通道的虚拟数字人客服,让金融服务内容更加生动,方式更加多元。在教育领域,AIGC 赋予教育新活力。一方面,AIGC为教育工作者提供了新的工具,使平面抽象的课本立体化、具象化,以更加生动的方式向受教者传递知识;另一方面,相比于阅读和讲座等传统方式,AIGC 可以合成虚拟人物,增强互动性与趣味性,给一场枯燥乏味的演讲注入新的活力。在医疗领域,AIGC 赋能诊疗全过程。主要体现在:一是在辅助诊断方面,AIGC 可改善医学图像质量、辅助录入电子病历等,最大限度解放医生的智力与精力,使专业医生专注到核心业务中,既能提高效率,又能实现专业医生业务能力的提升;二是在康复治疗方面,AIGC 可以为失声者合成语言音频,为残疾者合成肢体投影,为心理疾病患者合成无攻击感的医护陪伴等,提供人性化康复治疗,舒缓其情绪,加速患者康复。总之,AIGC 正在发展成与其他各类产业深度融合的横向结合体,其相关应用正加速渗透到经济社会的方方面面。
五、AIGC 发展面临的问题与挑战
随着人工智能技术发展步入快车道,AIGC 因为其迅速的反应能力、生动的信息输出、广泛的应用场景,加速渗透到社会生产和生活的方方面面。在渗透过程中,AIGC 的关键技术攻关水平有待提升,相关法律法规有待完善,围绕公平正义、社会责任、国家安全的争议日益增多,引发一系列亟待解决的经济与社会问题。
(一)AIGC 核心技术有待攻关
目前,国内外AIGC 迭代升级,能够进一步释放生产力,但核心技术方面尚有局限,阻碍产业发展进程。一是AIGC 技术所依赖的人工智能算法存在固有缺陷。例如其透明度方面仍然存在尚未攻克的技术难题,由于算法模型的黑箱运作机制,其运行机制和因果逻辑无法清晰呈现出来,这一模型特点导致人们无法理解和解释其传导机制,若算法出现错误,将不利于纠偏除误(李安,2021)。因此,算法的应用存在问题。又如,算法运行容易受到模型、数据、学习方法的影响,呈现出非稳健的性质。当数据量不足时,其算法模型被随机噪声影响的可能性较大,容易得出错误结论;在算法投入应用之后,在线数据内容不断更新,算法极有可能引致系统性能方面的偏差,进而引发系统失灵;算法以数据为基础,若使用的初始数据有偏,这些有偏数据不会随时间流逝而消失,反而会永久影响模型的运行结果,最终导致人工智能算法生成内容错误,引发用户对于算法的公平性争议(刘璇和朝乐门,2022)。二是AIGC 内容创作技术仍不完善。例如,在文本生成方面,部分企业在自然语言理解技术方面没有取得實质性突破,往往只是简单地机械化套用模板,导致生成的文本缺乏逻辑性,文本结构雷同、千篇一律,可读性不高。在语音合成方面,当前基于AIGC 技术的语音表达不够流畅、断句存在错误、声音具有较强的机械感。若进一步提高生成语音的情感嵌入,不仅需要更高水平的模型,还需要大规模的数据量支持训练,对模型和数据的高要求使得难以控制成本,导致AIGC 技术使用复杂度提升,最终制约技术落地与推广。
(二)行业发展规范有待完善
近年来,随着人工智能技术的快速发展,人工智能产业规范也逐渐完善,治理体系初步形成,但由于科技进步的加速,制度建设也未必能够及时跟进,这导致了技术创新发展与政策支持、法律规制之间的不匹配问题(刘维,2021)。具体来说,AIGC 大量进入市场对著作权法理论构成巨大挑战。当前,中国《著作权法》中规定,著作权的指向对象为“作品”。仅从法律文本来看,我国现行知识产权法律体系均规定法律主体为享有权利、负有义务和承担责任的人。因此,非人生产的智能化内容难以通过“作品—创作—作者”的逻辑获得著作权的保护,这一观点获得了2019 年北京互联网法院的判决支持。而在2020 年腾讯公司诉网贷之家网站转载机器人自动撰写的文章作品一案中,深圳南山区法院认为在满足独创性要求的情况下,人工智能撰写的文章属于著作权保护的作品。法律概念的模糊引发司法裁判的翻转,导致AIGC 作品存在著作权归属不清的现实困境。这一问题不仅可能导致使用AIGC 技术创作的作品无法获得著作权保护,阻碍人工智能技术发挥其创作价值,还有可能因人工智能的海量摹写行为稀释既有作品权利人的独创性,威胁他人的合法权益。
(三)良好行业生态构建面临挑战
良好行业生态的构建有赖于每个企业主体的努力。目前,健康行业生态面临一系列挑战:一方面,当前我国AIGC 技术仍处于发展初期,具有未知性和不稳定性,大多企业尚没有做好应对与防范风险的准备,应急处置能力有待提高,风险治理理念尚未真正落实到技术研发与应用中。这可能导致企业错失把风险拦截在萌芽状态的机会,为行业生态埋下隐患,一旦遭受内部威胁或外部攻击,极易引发网络信息内容生态安全风险。另一方面,近年来,各科技企业通过建立内容审核机制,落实互联网内容治理主体责任,形成了“机审+人审”的基本审核方式。但在机审方面,受到审核类型、内容违规变化繁杂、网络黑灰产对抗手段加剧等因素影响,出现审核错误率偏高的情况;在人审方面,因不同人审团队在人员管理、业务流程、审核能力等方面表现各异,没有形成统一的行业标准,缺乏专业审核人员,导致包含虚假、错误、违法违规信息内容流出,严重影响行业甚至整个网络生态环境。
(四)企业技术管理能力建设不足
随着数字技术的开源开放,AIGC 技术研发门槛、制作成本等不断降低,致使市场上的企业鱼龙混杂,多数企业核心能力不足,主要体现在企业技术管理能力不足。由于AIGC 技术具有动态性,且愈发复杂,这要求企业作为技术研发主体具备相应的技术研发与管理能力。但是企业的商业属性决定了其逐利性,当资源有限时,企业会首先满足自身盈利,而降低对技术研发和制度保障机制的投入。不同企业的核心能力差距巨大,表现为:投资积累“家底”厚实、发展时间长的企业可能有更高的技术研发和管理水平,反之水平较低。在广阔的应用场景吸引下,众多初入市场的小型企业在技术管理能力不达标的情况下,将AIGC 投入应用,滋生了抄袭侵权、内容造假、恶意营销等灰黑产业链的温床,阻碍了行业的健康和可持续发展。
六、发展建议与展望
AIGC 相关技术发展将为云计算、传媒、影视、电商和医疗等行业带来前所未有的发展机遇。与此同时,AIGC 发展也面临商业化落地、版权确权、隐私保护等一系列挑战。为此,本文从产学研用、法律法规、行业生态和政策引导等维度,对AIGC 的发展提出建议,并对未来发展方向进行展望。
(一)发展建议
1. 鼓励产学研用协同,推动科技攻关
鼓励产学研用各主体基于开源共享平台促成协同合作、加快技术创新与应用创新。围绕AIGC产业发展与治理需求,一是推动行业层面在算力能力、算法技术、技术落地等方面的联合攻关,聚焦算法透明度、稳健性、偏见与歧视等技术攻关,突破行业发展瓶颈;二是鼓励超大规模神经网络模型的联合研发与代码开源,支持产学研各界通过合作构建训练与标准测试数据集、搭建面向重点行业应用的开发者协同平台等方式,加快共性技术和基础产品研发、降低AIGC 应用门槛,促进产业化繁荣发展;三是探索构建行业级AIGC 参考实施框架,以生态协议、行业标准的互联互通支撑内容生态的共建共享;四是尝试通过推广制度模板、制定多边议程、发挥市场工具等手段,积极参与AIGC 应用与治理等领域的国际规则制定和全球发展合作,通过制度性输出和影响力的扩大,支持相关产业和重点企业增强海外竞争力、争取更大国际市场与产业话语权。
2. 完善法律法规,推进监管治理
统筹推进“技术”监管与“内容”治理,逐步完善保障AIGC 良性发展的治理体系。近年来,我国相继颁布《网络信息内容生态治理规定》①《网络数据安全管理条例(征求意见稿)》②《互联网信息服务算法推荐管理规定》③和《互联网信息服务深度合成管理规定(征求意见稿)》④等法规。总体而言,划清了AIGC 相关技术发展的红线,但就细节而言,责任认定与归结、知识产权保护等问题尚处于起步阶段。因此,仍然需要政府和相关研究机构尽早前瞻布局,完善监管与治理体系。针对AIGC 作品权属认定等方面的法律法规缺位问题,可以从法律法规层面进一步明确AIGC 的应用范围,明晰AIGC 技术研发与孵化、内容传播等相关方面的主体责任;针对基于深度伪造技术的虚假内容制作和散布问题,需要监管部门对披露和标注生成内容、传播媒介提高鉴别能力,并制定规范细化主体责任;针对模仿、抄袭或合理使用的认定标准模糊的问题,探索侵权主体及侵权责任的认定路径,对AIGC 作品及其智力与经济投入、技术工具及作品所依赖的数据基础等提供平衡的保护,确保相关数字内容的合规有序流通;针对AIGC 技术及应用快速迭代的特点,探索形成法律法规动态评估、修改和废止机制,确保法律法规和监管治理的科学化、精细化、敏捷化。同时,谨遵包容审慎理念,鼓励立法研究的多方参与、监管手段的分级分类、行业治理的公私合作。
3. 鼓励行业自治,共建发展生态
倡导在行业层面强化“伦理先行、自律自治”意识,共同打造AIGC 良性发展生态。鼓励相关行业联盟、龙头企业、研究机构以及标准组织等发挥资源整合优势,加强内容识别、事实核查、问题感知、违法打击、舆情治理、版权保护等治理技术能力研究,围绕AIGC 的合法合规应用和健康有序发展联合制定公约、标准、指南、准则等行业制度规范,建立完善争议解决、行业黑名单、危机应对联动等行业自治机制,并积极开展制度宣传、标准推广、测试评估、标杆塑造等活动;特别是针对“算法偏见”“算法黑箱”带来的数字内容不公正、责任主体难界定等问题,牵头支持可解释、可信赖的AIGC 技术框架、标准体系、评测机制等的研究和推广。
4. 加强正向引导,赋能数实融合
市场经济的逐利性推动了AIGC 的迅猛发展,然而,行业的健康、可持续发展却需要主管部门的正确引导,通过政策引导充分释放AIGC 的正面应用价值,赋能数字经济与实体经济深度融合。具体来说,一方面,地方政府和主管部门可以依托本地资源禀赋,结合发展需求,通过规划指引、财政补贴、试点示范、揭榜挂帅等方式,引导数字内容产业发展,支持AIGC 技术赋能影视传媒、社交娱乐以及电商零售等领域,推动数字内容产业跨界衍生,刺激信息消费;培育与AIGC 产业发展相匹配的内容审核技术产品和服务体系。另一方面,加强引导数据整理、算力统筹、算法开源等平台和企业基础能力的合规建设,坚持“以虚促实、以虚强实”基本导向,推动AIGC 技术参与生产和生活方式重构。例如,基于AIGC 技术提供逼真在线服务体验,在商贸服务、社会服务、医疗教育服务等领域催生新业态。又如,探索以AIGC 技术为基础,对现实世界进行人机交互更为自然、环境细节更为逼真的虚拟空间模拟仿真,推动AIGC 赋能工业制造、城市规划、科学研究、生产办公等领域的效力提升和价值再造,从虚拟维度优化物理世界发展。
(二)未来展望
1. 核心技术持续演进
(1)从真实可控向多样组合发展
当前,AIGC 算法已经可以产生高质量的内容,其模型在简单场景表现出能与人类媲美的能力,然而,针对复杂场景生成的内容依然不够深入、缺少细节。例如,目前AIGC 生成的人脸图像或数字人头像已经可以做到真假难辨。相比之下,由于视频数据的复杂性和特征的多样性,AIGC 尚无法较好地完成视频创作任务。同时,单一模态的内容生成无法满足数字世界或元宇宙的需求。可以预见,AIGC 技术未来的发展方向将是通过不同个体间的交互进行内容生产。通过对整体的、多模态的复杂场景创作,AIGC 有望实现更多数智内容,进而反哺核心及关联领域,促进共同发展。
(2)从本地化集中式向大规模分布式发展
作为数字经济和实体经济深度融合的新模式,AIGC 通过人工智能技术产生可交互的创新型、高质量数字内容,当前与未来一段时间,新一代人工智能技术的研究重点将转向大规模分布式AIGC 交互算法。主要有以下两方面的原因:一方面,AIGC 离不开大规模分布式深度学习技术和多智能体强化学习技术。大规模分布式AIGC 能够高效地管理和利用计算资源,将流程拆解,通过多设備分布式计算的方式,加快内容生产流程,提高内容生成效率和质量。目前谷歌和微软等人工智能头部公司,已经开始布局下一代超大规模人工智能模型的分布式计算平台,以解决大模型训练面临的算力紧缺、资源利用率低、模型制作效率低等难题。另一方面,大规模多智能体网络在分布式计算的框架通过个体间的合作和竞争可以完成单体无法完成的任务。AIGC 作为促进数实深度融合乃至元宇宙的重要生产工具,需要模拟物理世界各类复杂网络系统,包括动物群体、社交网络、城市复杂体等。因此,深入探究大规模分布式多智能体算法,增强其拓展性、安全性、稳定性、迁移性等,将是未来重点探索的方向之一。
2. 产品类型逐渐丰富
近年来,随着第四次科技革命的兴起,AIGC 应用成为数字经济的一个重要细分赛道。其中,数字人作为链接物理世界与虚拟世界的主要媒介,通过其特有的接近人类的思维以及其可交互的能力,能够打破物理及时空的边界。例如,用户通过XR 技术和新一代智能终端设备,可以获得丰富的沉浸式体验。而可以自主生成内容的数字人或许可以成为构建人机交融、数实深度融合的未来世界的最佳载体,同时也是未来人类构建“自生成、自更新”的元宇宙新世界的必经之路。随着新一代人工智能技术的不断发展、数字人开发难度和成本的降低,具有自主内容生成能力的“智慧化”数字人可以进行无限的内容创作,元宇宙将为人类提供自由创造的空间。同时,基于AIGC 的元宇宙世界也无需依赖于自然宇宙的映射,而将脱离于现实世界自我生成、自我发展、自我更新。随着通用生成式AI 技术的不断演进,AIGC 模型不再仅仅生成文本、音频、视频等基本形态的作品,甚至可以创造具有情感感知和认知能力的内容。
3. 生态产业日益完善
随着AIGC 的不断迭代,以标准规范、技术研发、内容创作、行业应用、资产服务为核心的生态体系将日趋完善,赋能相关产业升级。标准规范为AIGC 生态构建了从技术、内容、应用、服务到监管的全过程一体化标准体系,促进AIGC 在合理合规合法的框架下良性发展。同时,在核心技术持续演进和关键能力显著增强的背景下,性能更强大、逻辑更智能的AI 算法将被应用于AIGC,技术研发的不断创新将强有力地推动内容创作,提高生成内容质量,使内容更接近人类智力水平和审美标准,同时应用于各类行业各种场景。AIGC 的繁荣发展将促进资产服务快速跟进,通过对生成内容的合规评估、资产管理、产权保护、交易服务等构成AIGC 的完整生态链,并进行价值重塑,充分释放其商业潜力。随着5G、云计算、VR、AR 等前沿技术的快速发展和新一代智能终端设备的研发创新,完整的AIGC 生态链是未来释放数据要素红利、推动传统产业升级、促进数字经济发展、构建数实融合一体最重要的推动力之一。
ChatGPT 自发布以来,在许多实际应用场景中发挥重要作用,将AIGC浪潮推到新的高度。本文对AIGC 进行了广泛的概述,首先介绍了其发展演进,并梳理了每个阶段的关键痛点堵点;随后,本文分析了AIGC的产业机遇;最后,本文讨论了AIGC及其应用的未来挑战,并对其未来发展方向进行展望。