近年来,随着数据和算力快速增长,AIGC技术取得了显著进步,尤其是在生成式人工智能方面取得了飞速发展,数据和算力呈现指数级增长态势。同时,随着国家与社会在人工智能方面持续投入,各地政府纷纷将算力平台建设纳入规划,AI发展的基础设施日益成熟,AI发展的生态日益成熟。
从数据方面看,为了提升AIGC技术的性能,许多地方都投入大量资源和精力进行大规模模型训练,以提高语料等应用质量。随着算力和数据建设不断推进,AIGC技术将迎来更加广阔、更加快速的发展机遇。可以说,以生成式人工智能为代表的通用人工智能时代已经初现曙光。
AI为新时代发展构建新引擎
通用人工智能之所以受到如此重视,是因为它有可能引领一场前所未有的技术革命。这场智能革命将涉及我们日常生活和工作中所有与人类智力有关的活动。一旦通用人工智能达到人类智能水平,我们工作生活的领域都有可能被人工智能赋能,或可能被其替代。因此,它对整个人类社会的影响将广泛且深远。
从积极角度看,它将给人类发展带来前所未有的生产力;而从消极角度看,它可能给现有社会发展模式带来巨大冲击。先进生产力必然要求生产关系与之相适应,两者之间的磨合将是一个漫长而复杂的过程。
随着通用人工智能的快速发展,我们不断见证众多令人惊叹的成就。例如,在文本大模型方面,无论是撰写文本,还是编写代码,这些大模型都展现了强大能力。2023年,国内众多厂商纷纷涉足这一领域,并取得了显著成果。实际上,这些模型已经在多个领域展现其实际应用价值。据估计,传统软件编程行业受益于代码大模型,代码开发效率至少提升30%。
语言大模型的发展将朝着多模态方向继续深入,像图文大模型和视频大模型,能够自动生成充满想象力、具有视觉冲击力的图像和视频,为用户带来强烈视觉冲击。例如,只需输入“骑马的宇航员在月球上”的提示,即可生成相应图片;而输入“风云变幻”则能生成相应视频。如今,像Sora这样的技术已经为设计工作和视频制作带来了质量和效率的巨大提升。
具身大模型是指让机器具备跟现实世界进行交互能力的大模型。人类在现实世界的交互中,涉及诸多难以明确表述的知识与技能,很多都是直觉或者经验。然而,随着具身大模型的持续进步和成熟,我们有理由相信,机器将逐渐融入我们的家庭与社会生活,成为我们日常生活的重要部分。
在语音大模型方面,其已经具备生成高度逼真音乐的能力。
由此可见,人工智能在各种各样的生成任务当中,从文字到图像,到语音到视频,已经取得巨大进步。如何看待这种进步,人工智能研究领域内部存在不同的观点派别。一部分观点认为,AI已远超人类,并倾向于以乐观的态度接受这一事实。实际上,尽管AI在某些方面表现了创新能力,但其本质仍属于组合创新,即将不同的元素拼接。例如,当我们要求AI生成“青花瓷战舰”时,它只能将青花瓷的图片与战舰的元素结合。因此,我们需要清醒地认识到,目前的通用人工智能发展仍处于初级阶段,在推动其发展的同时,我们也应关注其存在的局限与不足。
AI赋能视听行业展现新价值
我们应当持辩证态度来看待AI的创新能力和价值,特别是组合创新的价值。事实上,人类的创新活动在很大程度上都是基于组合创新。例如,在短剧创作中,我们发现很多作品将A故事的场景、B故事的人物与当前热门话题相结合。这种拼接并非原始创新。因此,组合创新这种较低层次的能力可以由人工智能来完成。而突破现有思维框架的创新,仍然是人类所独具的能力。我们在肯定组合创新的同时,要认识到人类在原始创新方面的独特性和不可替代性。
Sora自今年2月发布以来,其成就应当受到我们的高度重视。我们必须深入理解其对产业和未来的潜在影响。Sora之所以让人震撼,是其能生成长度一分钟的与人类世界的物理规律、文化习俗及生活常识高度契合的视频内容。在此之前,我们的AI系统很难实现对人类社会习俗规律如此精确地建模。
另外,Sora在发挥想象力方面也表现出色。Sora的想象力基本上符合我们人类想象,这一点尤为难得。无论是生成的图像还是视频,Sora都能够在保持合理性的同时,展现丰富的创意和想象力。要保持大规模时空范围内的时空一致性、逻辑完整性,需要巨大算力支持、海量数据资源及先进模型架构。Sora无疑展示了其世界建模能力方面所取得的显著进展。
值得一提的是,Sora使用Transformer模型架构,能在大时空范围内进行注意力有效计算,确保了时空一致性。其采用时空块为基本数据处理单元,使视频建模变得普适,覆盖了各类视频内容。此外,Transformer还引入了重组提示词技术,可以让生成内容忠实于用户指令。配合Diffusion技术,它能够从噪声中还原图像,并能兼容不同的视频制式,展现了Sora技术的先进性。在处理视频时,它能够识别后续情节与前面情节的相关性,借鉴了语言模型的超长上下文训练技术,实现了高分辨率和长时间训练。这些都是Sora技术上的独特之处。
AI发展应注重培养具有评价能力的人才
Sora在发展中仍面临一系列问题,这恰恰成为我们努力改进的方向。首先,Sora在处理物体与物体之间关系时存在误区。例如,在描述跑步机上人与跑步机的关系时,存在明显逻辑错误。根本原因在于缺乏高质量数据支持。我们目前虽然拥有部分数据,但数据精度不足或物理场景数据缺失都导致了Sora在物理常识方面的不足。
其次,Sora还存在顺势瞬时事件建模问题,如杯子倾倒或人的表情突变等细节性建模还是很困难。其原因在于缺乏足够的瞬时样本数据。因此,很多人工智能生成视频会出现局部合理、全局荒谬的问题。事实上,即便观众在观看电视剧时,也会常常因为记忆力限制而难以保持对前后情节的连贯理解。对于机器而言,要实现视频前后逻辑、时空背景和角色表现的高度一致性,更是困难重重。
另外,在多模态大模型的核心要素中,提示语的作用至关重要。现阶段高质量的提示语能够引导模型产生更为优质的结果,但随着技术不断进步,模型对于优质提示语的依赖度将逐渐降低。这意味着,未来即便使用简单提示语,也能够生成高质量内容。值得注意的是,这样会给AI的创造发挥留出较大空间,其生成内容并不一定符合我们的本意。
因此,在当前AIGC时代背景下,对于生成内容的评价和选择显得尤为关键。AI生成内容并非尽善尽美,其中不乏事实性错误和逻辑偏差,这就更需要我们审慎地对其进行评价和选择,但并非所有人都具备对AI生成内容的评价与选择能力。尼采曾言:“人的本质是评价。”在AIGC时代,这一观点尤为贴切。随着AI逐渐取代我们的日常工作,学会评价将成为一项至关重要的技能。面对这一挑战,我们需要不断提升自身的评价能力,以应对未来AI时代的需求。
AI为产业发展提供新质生产力
人工智能的发展将对很多产业产生深远影响。在影视创作方面,随着AIGC的发展,很多工作将会被重新解构,细化为多个环节,其中提示、评价等任务由人类完成,而生成等重复性工作则交由机器处理。这是未来AI时代典型的人机协作模式,即人类负责创造性和决策性任务,机器承担重复性劳动,将显著降低影视制作成本,并推动影视行业向智能化方向转型。
Sora的潜力远不止于视频领域。未来,无人驾驶技术将成为另一个巨大的发展机遇。其核心问题主要是对现实路况和实际世界进行实时建模,这与Sora所面临的问题相似。相较于复杂的现实世界,车路环境的建模相对简单。
在工业、医疗等领域,Sora所展示的强大建模能力,很有可能为相关行业的仿真模拟、虚拟现实带来很多机会,从而推动各行业和人工智能深度融合,甚至可能给相关行业带来全新的产业变革机遇。
以Sora为代表的AIGC势必引领新一轮数智化新质生产力。其核心要素涵盖多个方面,其中最为关键的是大模型应用及高质量的数据。我们必须积极激发数据要素市场活力,从而确保数据资源充足和优质。同时,大模型的实际应用要与各个行业紧密结合,才能充分挖掘大模型和数据要素的价值,推动生产力实质性提升。
AI的健康发展离不开安全风险管控
在持续发展的过程中,我们仍然面临一个不可忽视的关键因素,即AI的安全风险,特别是涉及AI伦理的安全风险。只有我们充分认识和妥善管理这些风险,AI技术才能得到广泛而稳健地应用。作为先进生产力,AI产业发展的核心要素是模型、数据、行业应用场景和安全风险管控。这些要素的有机结合,才能形成真正意义上推动AI作为先进生产力的持续发展。
对于传统媒体和影视制作企业而言,当前的技术变革带来了前所未有的重大机遇。尽管在模型构建和算力方面,它们可能无法与专业公司竞争,但其独特优势是拥有海量优质数据。例如,电视台播出的内容配合高质量脚本,都是精心制作的成果。这些数据具有很高的实用价值,可以直接用于各种多模态大模型的训练,进而赋能各种应用场景。可见,Sora的核心还是数据。对于传统视听企业而言,高质量数据将成为激活AIGC市场的宝贵资源。
在AIGC时代大背景下,我们必须正视一个问题,AI的滥用可能对人类审美能力造成损害。例如,当观众首次观看一部电影时,可能会感到好奇和兴奋。如果每天都接触类似场景,人类感官可能会逐渐麻木,导致对美的感知能力下降。美的稀缺性才是其价值所在,如果滥用,美的稀缺性可能会丧失,进而影响我们的审美能力。如何在享受科技带来的便利的同时,保护美的稀缺性,将成为值得我们深思的问题。
同样,AIGC技术滥用会带来人类认知、感知功能的紊乱。随着AI生成内容质量越来越高,真实与虚假世界的界限日益模糊,这为判断事物真伪带来了困难。因此,应用应该坚持有所为有所不为的原则,划定AI应用边界,制定应用准则,避免滥用,是未来AIGC健康和有序发展的前提。
人不仅是万物的尺度,更是AI技术的尺度。AIGC的发展必须以人类福祉为唯一依据与标准,这样才能确保其有序、健康地发展。W
(作者肖仰华系复旦大学教授、上海市数据科学重点实验室主任)