智能科技引领电影产业提质升级:思考、策略与前瞻

2023-12-09 09:41
现代电影技术 2023年11期
关键词:人工智能智能模型

刘 达

中国电影科学技术研究所(中央宣传部电影技术质量检测所),北京 100086

1 引言

近年来,新兴视听技术、新一代信息通信技术(ICT)和智能科学技术在全球范围得到迅猛发展与广泛应用,与此同时,诸多国家、行业、领域、科技公司等积极进军和实施推进元宇宙(Metaverse)和人工智能大模型(Large-scale AI Model)发展战略。在此背景下,整个人类社会在学科、技术、业务、服务、产业、行业等方面交叉渗透与融合发展趋势日益明显,进程持续拓展和不断深化。

电影作为科技与文化的融合统一体,其摄制品质、视听体验、工艺流程、内容安全体系与版权保护机制在现代视听媒体中具备技术引领作用。特别是,电影追求视听效果逼近真实,虚拟化、逼真性、虚实融合、智能交互是电影的关键技术特征,其集中展现了虚拟世界与物理世界的融合、交互和呈现。顺应技术演进趋势、产业发展需求以及交叉渗透与融合发展进程,电影行业正加快步入大视听(Great Audio-Visual)、大科学(Great Science)和元宇宙(Metaverse)时代。

2 大视听、大科学和元宇宙时代的技术特征

电影技术的发展演进与大视听(Great Audio-Visual)、大科学(Great Science)和元宇宙(Metaverse)时代的核心内涵高度契合、紧密关联、相融相通。大视听、大科学和元宇宙时代具有鲜明的技术特征,简单概括如下:

(1)新兴视听技术(Emerging Audio-Visual Technology)、新一代信息通信技术(ICT)和智能科学技术(Intelligence Science &Technology)的发展与应用持续向广度和深度统筹推进,即不断泛化和持续深化。

(2)在全球范围,学科、技术、业务、服务、产业、行业深度交叉和融合并进,科学研究和技术应用的复杂性、系统性、协同性显著增强,交叉融合是大科学时代的核心内涵;适应媒体融合深化趋势,视听产业发展格局持续重构优化,视听业务服务模式不断创新升级,覆盖电影、电视、手机、互联网等多元媒体的广义大视听产业构建形成并不断提质升级。

(3)整个人类社会都在积极推进信息化建设、云化与智能化升级,现代智能科技有力支撑信息时代(Age of Information)向智慧时代(Age of Wisdom)演进升级,智能感知、自主学习、自然交互是智慧时代的核心特征和本质要求。

(4)元宇宙(Metaverse)作为一个集成众多高新科技的巨型复杂生态系统,其核心思想和发展目标是虚实融合与智能交互,持续推进虚拟世界与物理世界实现无缝虚实融合和高度智能交互,推动高品质视听体验不断逼近真实。

(5)在数字内容创作生产领域,相对于判别式人工智能(Discriminative AI),生成式人工智能(Generative AI)发展显著提速,优势愈加显现,人工智能生成内容(Artificial Intelligence Generated Content,AIGC)和大语言模型(Large Language Model,LLM)技术应用持续拓展深化。

(6)在算力、模型、算法、知识、大数据等有力支撑下,数据科学(Data Science)范式持续深化完善,其与实验科学(Experimental Science)、理论科学(Theoretical Science)、仿真科学(Simulation Science)统称为科学研究的四大范式。现代智能科技是数据科学范式的核心关键支撑,数据科学范式有望带来更具影响力与颠覆性的科学突破和技术创新,具有极其广阔和深远的发展潜能。

3 现代智能科学技术的发展演进

智能(Intelligence)的实现原理与重要支撑如图1所示,涵盖感知(Perception)、学习(Learning)、认知(Cognition)、决策(Decision)四大环节,其实现需要算力(Computility)、算 法(Algorithm)、知 识(Knowledge)、大数据(Big Data)的有力支撑。自智能科学技术发展进入现代以来,其发展进步与新一代信息通信技术(ICT)和计算机科学技术的发展进步密不可分、互为成就、融合并进。从传统浅层机器学习到基于多级人工神经网络(ANN)的深度学习(Deep Learning),从传统深度学习到人工智能预训练大模型(AI Pre-trained Large Model),现代智能科学技术持续取得新进展和新成就,不断实现具有里程碑意义的重要新突破。

图1 智能(Intelligence)的实现原理与重要支撑

3.1 从传统机器学习到基于多级人工神经网络的深度学习

机器学习(Machine Learning)是人工智能的重要分支,其研究计算系统如何通过持续学习和训练,利用历史经验来提升系统性能,其涉及三个核心关键要素:(1)模型(Model),对学习问题建模,确定假设空间;(2)策略(Strategy),从假设空间选择最优模型准则,确定目标函数;(3)算法(Algorithm),根据目标函数求解最优模型计算方法,求解模型参数。机器学习工作流程主要涵盖以下环节:(1)确定训练数据集;(2)使用训练数据集训练模型,构建学习器(Learner);(3)使用验证数据集评估学习器性能,进行模型选择;(4)使用最终模型对测试数据进行分析预测并输出结果。随着机器学习模型复杂度和训练难度持续提升,如何高效配置和训练机器学习模型成为面临的新问题和新挑战。

传统机器学习基于特征工程人工设计特征,特征向任务目标的映射通过学习算法直接从数据中学习,属于浅层学习(Shallow Learning)。伴随算力、算法和数据集的发展进步,基于多级人工神经网络(ANN)的深度学习(Deep Learning)应运而生。杰弗里·辛顿(Geoffrey Hinton)等人于2006 年在《Science》期刊发表论文,首次提出深度学习概念并指出多层神经网络模型具有优异的特征学习能力,可通过“预训练(Pre-Training)+精调(Fine Tuning)”来有效解决深度神经网络参数训练调优问题,为推动深度学习在学术界和工业界的发展与应用作出了突出贡献,进而推动人工智能实现从实验室向产业化的历史性跨越。

传统机器学习泛化机制不适合学习高维空间复杂函数,深度学习利用大规模数据集来训练精准模型,通过多级人工神经网络级联来实现复杂函数逼近,突破了传统机器学习基于先验知识手工设计低层特征的模式,而是自适应学习适用于不同任务的数据特征表示,通过构建非线性表示拟合数据关系,从而有效克服传统机器学习算法对高维数据泛化能力不足等问题。机器学习与深度学习的主要挑战和实现目标是使学习或训练得到的模型在新样本上表现优秀,即具有强大的泛化(Generalization)能力,也就是泛化误差小,有效克服欠拟合(Underfitting)和过拟合(Overfitting)。其中,欠拟合因学习能力低下而造成,可通过丰富完善训练数据集来去除;过拟合因学习能力过于强大而产生,其同时学习了训练数据集的共性特征和个性特征,致使对训练数据集预测好,对新样本预测差,使学习器的泛化性能下降。过拟合不能从根本上去除,只能缓解和降低其风险。另外,针对高维数据,由于计算量显著增大,机器学习与深度学习问题求解将极其困难,通常称为维数灾难(Curse of Dimensionality),必须妥善有效应对。

3.2 从传统深度学习到人工智能预训练大模型

自深度学习发展以来,人工智能模型基本上是针对特定应用场景需求进行训练的中小模型,用于完成特定智能任务,解决特定智能问题。AI 中小模型通用性差,在场景变换后需重新训练并进行参数调整,且技术门槛高,需要大量AI 专业人员,此外模型训练需要大规模、高质量的标注数据。继2017 年谷歌大脑(Google Brain)提出Transformer 转换器新型架构以来,人工智能预训练大模型发展提速。AI 预训练大模型又称AI 基座模型(Foundation Model),其具有强大的逻辑推理和分析判断能力,不仅能够从海量互联网数据中学习大量有用知识,而且具有强通用性和强泛化性,可通过模型定制以契合下游任务,并在新数据和新任务上取得合理结果。Transformer 架构是AI 预训练大模型的发展基石,由多个编解码器(Encoder &Decoder)叠加组成,现有主流AI 大模型通常基于该架构,其应用了自注意力(Self-Attention)机制,可有效提升模型训练速度和语义理解能力。

近年来,国内外科技企业都在大力发展布局AI大模型,国家层面也在积极推进AI 大模型的研制与应用。2020 年6 月,美国OpenAI 推出拥有1750 亿参数的GPT-3 模型,其拥有强大能力,但因训练语料来自互联网,会生成不适文本。2022 年11 月,在融入人类反馈强化学习(RLHF)技术以改进GPT-3 模型的基础上,OpenAI 推出对话生成式预训练转换器AI大模型ChatGPT(Chat Generative Pre-trained Transformer),其实质就是GPT-3.5 模型,这是大语言模型(LLM)发展的一个重要里程碑,引发了学术界和工业界的广泛关注。2023 年OpenAI 发布多模态预训练大模型GPT-4。谷歌最新推出的通用大模型PaLM-E,已经拥有5620 亿参数。我国百度、华为、阿里、腾讯、商汤科技、中科院、清华大学、复旦大学等企业和科研院所也分别推出了国产AI预训练大模型。

AI 通用大模型集成多模态数据,可适配多元下游任务,同一模型利用少量标注数据进行微调就能完成多场景任务,可缩短特定AI应用开发周期,显著提高研发效率,且当模型参数超过一定阈值时,大模型会涌现出显著的理解、推理、学习等能力,进而获得更优应用效果。AI 预训练大模型的研发需要大数据、算法与算力的强力支撑。海量多源异构的高质量训练数据集是AI 大模型训练与调优的基础和关键。自AI 预训练大模型发展以来,克服了传统深度学习针对特定AI 任务独立采集数据集用于模型训练,不再针对特定AI 任务广泛采集数据。算法是人工智能解决问题的方式和路径,算法优劣直接决定AI 大模型的空间复杂度与时间复杂度,要研发高效、优秀的智能算法来降低计算复杂度,以更好、更快地完成海量数据拟合建模,进而形成共性知识。算力是AI 大模型的门槛,算力是否充足将直接制约AI 大模型的发展与应用。AI 大模型训练推理需要高性能图形处理器(GPU)集群,强大算力一般来自于云计算数据中心或超算中心。

3.3 通用人工智能(AGI)发展任重道远但不断逼近

人工智能(Artificial Intelligence)基于计算机模拟人类思维过程和智能行为以实现高层级应用,根据学习和认知能力强弱,可分为弱人工智能和强人工智能。智能系统(Intelligent System)应具备感知(Perception)、推理(Reasoning)、学习(Learning)、抽象(Abstraction)四大能力。现有人工智能系统均属于弱人工智能,强人工智能即达到人类水平、能够自适应外部环境挑战、具有自我意识的人工智能,又称通用人工智能(Artificial General Intelligence,AGI)。一般认为,通用人工智能(AGI)是人工智能(AI)发展的终极目标,标志着人工智能从狭义人工智能向广义人工智能转变,从仅能完成特定任务向类似人类分析思考问题并做出推理判断转变。以ChatGPT 等为代表的大语言模型(LLM)为逼近通用人工智能(AGI)提供了一个可能路径和重要选项。从学习和认知能力看,通用人工智能(AGI)并不是将各项专用人工智能用一台巨型机器简单集成,而是进行更高层级的知识抽象和处理。鉴于跨模态感知难于在数据层面实现,需要在认知层面实现,因此现有基于大数据训练的人工智能(数据智能)距离通用人工智能(AGI)和人类智能(Human Intelligence)尚有相当距离。

从发展趋势来看,AI 预训练大模型正从单一领域转向多模态领域,进而推出性能更强、功能更全、品质更优的衍生模型,并不断逼近通用人工智能(AGI)。同时,AI 大模型的发展进步与落地应用将催生新的生产方式和生活方式。此外,在AI大模型迅猛发展的背后,AI 芯片设计存在重大挑战:一方面,AI 大模型参数规模迅猛增长,直接导致单节点算力需求剧增,对AI芯片性能提出了很高要求;另一方面,AI 芯片厂商在芯片开发过程中,受到来自制程工艺(IC 精细度)、性能、良率、成本、功耗等多重因素的限制,必须高度重视和有效应对。

4 现代智能科技引领电影产业提质升级的思考、策略与前瞻

在人工智能、机器学习、深度学习、AI 预训练大模型、认知计算、脑科学等现代智能科学技术的有力驱动下,人类社会正由信息时代向智慧时代演进升级。智慧时代具有智能感知、强大算力、优秀模型与算法、系统完备的专业知识体系、强大高效的数据分析处理能力、自然友好的人机交互特性、以数据为中心的新型体系架构、类似人类智能(Human Intelligence)的自主学习能力等关键技术特征。当前,电影行业正处在信息化向智能化演进升级的关键时期,应当紧密结合大视听、大科学、元宇宙和智慧时代的核心内涵、技术特征和产业需求,全面推进电影全产业链智能化升级,促进电影产业高质量发展。电影产业智能化升级与智慧时代关键技术特征如图2所示。

图2 电影产业智能化升级与智慧时代关键技术特征

4.1 统筹机器学习、深度学习、人工智能生成内容(AIGC)和并行化系统设计策略,加快构建完善电影智能化创作生产技术体系

人工智能(AI)按照任务类型可划分为判别式人工智能(Discriminative AI)和生成式人工智能(Generative AI),前者实现分类、回归、识别、预测等传统任务,后者聚焦数字内容创作生产,人工智能生成内容(AIGC)即基于生成式人工智能技术来自动或辅助生成数字内容。以ChatGPT 等为代表的大语言模型(LLM)的发展与应用,标志着人工智能从判别式(Discriminative)向生成式(Generative)的重大演进。相对于判别式人工智能,生成式人工智能不仅更能充分展现AI大模型的智能涌现能力以及数据要素作为新兴生产力代表的重要价值,而且与数字时代电影产业兼具文化创意产业和战略性新兴产业的双重内涵高度契合。此外,人工智能领域著名的莫拉维克悖论(Moravec's Paradox)指出,人类所独有的推理等高阶智慧能力仅需极少算力,无意识的技能和直觉却需极大算力,这说明人类难以解决的问题,人工智能却能轻易解决,反之亦然。鉴于人工智能和人类智能存在优势互补,高质量人机融合和高效人机协同将是未来电影智能化生产运营服务体系的重要特征。

下面以高新技术格式电影(High-Tech Format Film)为例阐述电影的智能化创作生产。基于新兴视听技术的高新技术格式电影集图像高分辨率(HR)、高帧率(HFR)、高动态范围(HDR)、广色域(WCG)、沉浸式音频(IA)等技术特征于一体,与电影的高品质视听需求与沉浸式观影体验高度契合。为丰富完善高新技术格式电影片源,在常规技术格式电影(Conventional-Tech Format Film)的基础之上,针对图像空间分辨率、帧速率、动态范围、色域等提升和扩展,可基于深度学习模型和算法,例如深度卷积神经网络(DCNN)、变分自编码器(VAE)、生成式对抗网络(GAN)、扩散模型(Diffusion Model)等基础模型与衍生模型,运用图像超分辨率重建(SR)和人工智能生成内容(AIGC)等技术,同时采用并行化系统设计策略,涵盖模型、算法、数据、程序、硬件等并行化设计,以显著提升GPU 利用率和模型训练效率,并有效节省硬件成本和电力成本,可支撑服务电影智能化创作生产技术体系构建,如图3所示。

图3 高新技术格式电影智能化创作生产

4.2 适应AI 生成范式由数据驱动向“数据+知识”驱动转型,加快研制电影行业垂直AI 大模型,服务产业链提质优化和国家数字新基建

近年来,AI 生成范式由数据驱动向“数据+知识”联合驱动发展演进,推进AI 通用大模型在垂直行业或领域实现落地应用和产业化,必须准确把握行业或领域业务特点和发展需求,紧密结合行业或领域专业知识,并遵循行业或领域标准规范,因此,AI 系统应当具备知识建模能力。AI 通用大模型作为基座模型,通常基于大规模公开数据集即通用语料、采用无监督学习方式训练构建,当进行特定应用开发时,需基于小规模标注数据、采用监督学习方式实现更加深化和细化的学习,即通过对大模型进行微调,以契合下游特定任务。AI 通用大模型应用了迁移学习(Transfer Learning)思想,显著降低了下游任务模型对标注数据集规模的要求,非常适于处理难以获得大量标注数据的应用场景。迄今AI通用大模型因缺乏行业或领域专业知识而存在发展短板,即面向特定行业或领域的服务精准性有效性差,行业或领域契合度低,且不能保证符合行业或领域标准规范。

在组建国家战略科技力量和实施产学研联合攻关人工智能大模型的背景下,电影行业要积极推进国内相对成熟AI 通用大模型在电影行业的定制化、精准化应用,使共性技术和系统设施有效服务电影产业提质升级。因此,需要AI 通用大模型研发方与电影行业联合开展电影垂直AI 大模型定制化研制,其中既掌握AI 大模型训练推理技术、又精通电影行业专业知识的人才团队不可或缺。此外,不同国家、行业、领域AI 大模型的发展与芯片、模型、算法、网络、云计算数据中心、训练数据集等产业基础密切相关,必须因地制宜,紧密结合国情和产业基础。总之,“AI 大模型预训练+下游任务微调”技术模式对于提升AI通用大模型与电影行业契合度提供了可行路径,对于支撑服务电影全产业链提质优化具有重要意义。电影行业垂直AI大模型研制及其战略意义如图4所示。

图4 电影行业垂直AI大模型研制及其战略意义

近年来,在计算与基建领域,器件、芯片、计算模式、新型基础设施建设等均发生了重大变化,高性能图形处理器(GPU)、AI 专用智能芯片、高容量现场可编程门阵列(FPGA)、系统级芯片/系统级可编程芯片(SOC/SOPC)、云计算数据中心/超算中心/人工智能系统设施/5G 移动网络等新型基础设施建设、“东数西算”国家战略等发展迅猛并积极推进。AI 大模型训练推理需要GPU 强大算力为支撑,典型产品国外有英伟达(NVIDIA),国内则有华为、寒武纪(Cambricon)等,并需要应用NVLink 总线及CPU/GPU、GPU/GPU 高速互连与通信组网技术。当前,支撑AI 大模型训练推理的算力显著增强,曾经受算力或计算复杂度限制而无法实现的诸多技术问题已经能够实现。未来,AI 通用与垂直大模型有望纳入国家新型数字基础设施建设范畴,以服务国家与行业数字经济发展战略。

4.3 推进电影行业AI 大模型与AI 中小模型高效协同发展和自主安全可控,AI 大模型智能涌现能力既要合理充分利用又要有效规避风险

AI 大模型的发展面临诸多挑战,不仅模型可解释性差、训练成本高、行业契合度低,而且随着模型参数规模增大,性能提升明显缩小,例如当模型参数规模增大10 倍时,性能提升往往不足10%。因此,未来AI 大模型的研制与发展不能盲目追求模型参数规模,而要趋于实用化,在多元场景实现产业化应用,且AI 大模型与AI 中小模型高效协同发展将是必然趋势。AI 大模型积淀的知识与认知推理能力要向AI 中小模型输出,AI 中小模型在AI 大模型基础上叠加垂直应用场景,要将应用效果反馈给AI 大模型,进而推动AI 大模型持续迭代优化。可以预见,在电影行业,AI 大模型将对剧本创作、制作生产、发行传播、影片评价、观影分析等电影全价值链产生深远影响,其有望取代中低级电影岗位,但由于现有AI系统是通过数据集训练和模型调优来获得智能,其本质上属于数据智能,而非认知智能,因此,电影行业高级岗位将不易被替代且价值将愈加凸显。

电影行业自主发展生成式人工智能与人工智能行业垂直大模型,应确保关键核心技术自主安全可控,这对于国家安全、信息安全、文化安全和产业健康有序可持续发展都至关重要。人工智能(AI)是一把双刃剑,兼具技术性和社会性双重属性,发展人工智能,应坚持以人为本、智能向善,要加强技术风险管控。2017 年1 月在美国加州阿西洛马(Asilomar)举行的“对人类社会有益的人工智能(Beneficial AI)”会议制定了阿西洛马人工智能原则(Asilomar AI Principles),旨在确保人类社会的利益和安全。2023年11 月首届全球人工智能安全峰会(AI Safety Summit)在英国布莱切利庄园(Bletchley Park)召开,就人工智能技术快速发展带来的风险与机遇展开讨论,包括中美英在内的28 个国家及欧盟共同签署了《布莱切利宣言》(The Bletchley Declaration),承诺以安全、以人为本、值得信赖和负责任的方式设计、开发、部署和使用AI。2023 年10 月我国在北京发布《全球人工智能治理倡议》,围绕人工智能发展、安全和治理,系统阐述了人工智能治理中国方案。综上所述,必须高度重视电影行业垂直AI 大模型的自主研制、安全治理和监管体系建设,人工智能应当得到科学合理利用,AI 大模型必须在一个受控边界内安全使用,要加快研究制定AI 相关安全秩序准则和技术标准规范,国外AI大模型更要谨慎使用。

一般来说,AI 模型的参数规模和数据量越大,性能就越高,而且当AI 模型的参数规模和数据量达到一定量级时将获得涌现能力(Emergence Ability),即机器自主发现知识和形成智能的能力,一般AI 大模型以百亿级参数为分水岭。1977 年诺贝尔物理学奖获得者菲利普·安德森(Philip Anderson)在论文中曾经提及涌现(Emergence)即系统量变引起行为质变,自然在不同尺度上会涌现出新的复杂性,这表明当模型规模达到足够量级时模型其实已经发生质变。在复杂系统与复杂网络研究中,涌现(Emergence)是复杂系统的核心特征,发现复杂系统的涌现规律是复杂性科学的重要目标。AI 大模型本质上是一个复杂系统,其涌现能力涵盖思维、抽象、推理、归纳、匹配等能力,如上下文情境学习、人类思维链、自然指令学习、强泛化能力等。涌现能力是AI 大模型相对于AI中小模型带来的一项革命性、创新性变化,应当合理充分利用并有效规避其风险。

5 结束语

伴随数字经济时代来临,智能经济与智能社会成为发展趋势和必然要求。近年来,智能科技不断发展进步和创新升级。自动化机器学习(AutoML)逐渐兴起,其旨在实现机器学习工作流涉及的数据预处理、特征工程、模型选择、超参数调优等自动化;AI预训练大模型异军突起,其具有强大的表征能力和学习能力,其发展与应用将显著缩短实现通用人工智能(AGI)的时间预期,通过创建AI 基础底座,再向垂直行业实施定制化研制应用,可科学精准高效服务行业。与此同时,人类社会加快步入全云(All-in-Cloud)时代。AI 模型高度复杂化和海量多源异构数据训练对强大算力的需求,使AI 系统严重依赖云计算数据中心的强大算力支撑;在云端计算和高速信息网络的有力支撑下,AI 与云计算的发展深度交汇和融合并进,AI 系统云化与云平台AI 化成为重要特征和关键趋势。

智能化升级是电影产业高质量发展的必然要求,是一项极其复杂庞大的系统工程,必须强化顶层设计、立足自主创新和注重有序推进。既要加快产业化规模化集约化发展,推动机器学习、深度学习、人工智能生成内容(AIGC)、人工智能预训练大模型等发展与应用,加快构建完善电影智能化创作生产与运营服务技术体系,研究试验智慧电影和智慧影院整体解决方案,又要紧密结合新一代人工智能发展的新趋势新特点新需求,统筹布局新一代智能计算范式与机器学习/深度学习/AI 大模型在电影行业的原创性突破和创新性应用,进而积极服务电影科技自立自强和中华文化自信自强,有力支撑新时代电影强国和文化强国建设。

猜你喜欢
人工智能智能模型
重要模型『一线三等角』
重尾非线性自回归模型自加权M-估计的渐近分布
2019:人工智能
智能前沿
智能前沿
智能前沿
智能前沿
人工智能与就业
数读人工智能
3D打印中的模型分割与打包