□ 文 | 天翼智库
作为人工智能全球顶级专家,陆奇自今年以来,以“大模型带来的变革和机会”为主题,先后在上海、深圳、北京等城市发表了多场演讲,进一步引发了业界对大模型的关注和思考。
本文基于对陆奇演讲内容的理解,对大模型的划时代意义、发展过程和分类进行了体系化的梳理,希望能帮助读者更全面、准确地认识大模型。同时尝试梳理并回答大模型如何打造,如何评价、如何实现商业变现等问题,希望能给读者一些启发。
大模型(LLM)狭义上指基于深度学习算法进行训练的自然语言处理(NLP)模型,主要应用于自然语言理解和生成等领域,广义上还包括机器视觉(CV)大模型、多模态大模型和科学计算大模型等。ChatGPT的火爆吸引了全世界对大模型的关注,比尔·盖茨表示,ChatGPT的诞生意义不亚于互联网的出现;陆奇在报告中称之为“ChatGPT时刻”。
信息社会先后经历了计算机、互联网、移动互联网和云计算等重要阶段;ChatGPT及一大批类似大模型的发展,标志着信息社会进入了大模型主导的新阶段。根据陆奇提出的“信息-模型-行动”系统分析范式框架,计算机、互联网、移动互联网和云计算这四个标志性技术都是实现了信息获取的边际成本无限趋近零。大模型热潮标志着新拐点即将到来,社会各界获取模型的总成本将逐渐趋近固定成本,预示着模型将无处不在,万物都将成为它的载体。
未来,自动化行动将成为新的拐点,人在物理空间内“行动”的代价转向固定,人将与数字化技术构建出一个全新的智能系统,实现信息、模型和行动的无缝衔接。这意味着人不再通过获取信息,利用人脑分析,自己去行动,而是智能系统自动获取低成本信息(数据),利用大模型,形成指令驱动各类系统(包括机器人)采取行动,从而对整个社会产生深远的影响和冲击,各类数字化系统也将基于大模型形成互联互通。
大模型推动弱人工智能向通用人工智能(AGI)跃升。2023年2月,OpenAI在ChatGPT成功的基础上,发布了通用人工智能路线图,建议逐步向AGI普及的世界过渡,让大众、政策制定者和研究机构有时间了解AGI技术带来的改变。谷歌也指出未来数年AGI将会得到普及,各种应用领域中的智能系统将具备与人类认知能力相持平的智力水平,能够胜任多种复杂任务。
大模型推动生产力从算力向机器智力跃升。生产力的变革是推动人类社会进步的根本动力,从原始社会、农业社会、工业社会到信息社会,背后是人力、畜力、电力到算力的跃升。随着大模型成为新的物种,机器智力将成为新的主流生产力。机器智力是智能算力与人类知识的扩展、集成和融合,大模型是机器智力的载体。随着大模型的不断进化和普及,其将成为经济社会的主流生产工具,重塑经济社会的生产方式,全面降低生产成本,提升经济效益。
大模型推动数字社会向智能社会跃升。首先是AI特别是AGI产业高度发展,带动智能算力相关基础设施投资,并基于大模型衍生出多种新业态和新市场,成为经济增长的核心引擎。以智算中心为例,一个单位的智算中心投资,可带动AI核心产业增长约2.9-3.4倍、带动相关产业增长约36-42倍。GPT等各种大模型是人工智能时代的“操作系统”,将重构、重写数字化应用。其次是有了AGI的加持,人类的能力和活动范围都将得到大幅提升,进一步从重复性的脑力劳动中解放出来。但是,需要注意到,大模型的普及也会给现有的教育、就业、舆论甚至全球的政治格局带来冲击,是需要政府和产业界共同研究的问题。
大模型发展主要经历了三个阶段,分别是萌芽期、探索沉淀期和迅猛发展期(如图1所示)。
图1 AI大模型发展的三个阶段
19 5 6 年,从计算机专家约翰·麦卡锡提出“人工智能”概念开始,AI发展由最开始基于小规模专家知识逐步发展为基于机器学习。1980年,卷积神经网络的雏形CNN诞生。1998年,现代卷积神经网络的基本结构LeNet-5诞生,机器学习方法由早期基于浅层机器学习的模型,变为了基于深度学习的模型,为自然语言生成、计算机视觉等领域的深入研究奠定了基础,对后续深度学习框架的迭代及大模型发展具有开创性的意义。
2013年,自然语言处理模型Word2Vec诞生,首次提出将单词转换为向量的“词向量模型”,以便计算机更好地理解和处理文本数据。2014年,被誉为21世纪最强大算法模型之一的GAN(对抗式生成网络)诞生,标志着深度学习进入了生成模型研究的新阶段。2017年,Google颠覆性地提出了基于自注意力机制的神经网络结构——Transformer架构,奠定了大模型预训练算法架构的基础。2018年,OpenAI和Google分别发布了GPT-1与BERT大模型,意味着预训练大模型成为自然语言处理领域的主流。在探索期,以Transformer为代表的全新神经网络架构,奠定了大模型的算法架构基础,使大模型技术的性能得到了显著提升。
2020年,OpenAI公司推出了GPT-3,模型参数规模达到了1750亿,成为当时最大的语言模型,并且在零样本学习任务上实现了巨大性能提升。随后,更多策略如基于人类反馈的强化学习(RHLF)、代码预训练、指令微调等开始出现,被用于进一步提高推理能力和任务泛化。2022年11月,搭载了GPT3.5的ChatGPT横空出世,凭借逼真的自然语言交互与多场景内容生成能力,迅速引爆互联网。2023年3月,最新发布的超大规模多模态预训练大模型——GPT-4,具备了多模态理解与多类型内容生成能力。在迅猛发展期,大数据、大算力和大算法完美结合,大幅提升了大模型的预训练和生成能力以及多模态多场景应用能力。如ChatGPT的巨大成功,就是在微软Azure强大的算力以及wiki等海量数据支持下,在Transformer架构基础上,坚持GPT模型及人类反馈的强化学习(RLHF)进行精调的策略下取得的。
大模型作为新物种,一直在快速进化,目前已经初步形成包括各参数规模、各种技术架构、各种模态、各种场景的大模型家族(如图2所示)。
图2 大模型谱系图
从参数规模上看,大模型经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段。据统计,每年参数规模至少提升10倍,实现了从亿级到百万亿级的突破。目前千亿级参数规模的大模型成为主流。
从技术架构上看,Trans former架构是当前大模型领域主流的算法架构基础,其上形成了GPT和BERT两条主要的技术路线,其中BERT最有名的落地项目是谷歌的AlphaGo。在GPT3.0发布后,GPT逐渐成为大模型的主流路线。综合来看,当前几乎所有参数规模超过千亿的大型语言模型都采取GPT模式,如百度文心一言,阿里发布的通义千问等。
从模态上来看,大模型可分为自然语言处理大模型,CV大模型、科学计算大模型等。大模型支持的模态数量更加多样,从支持文本、图片、图像、语音单一模态下的单一任务,逐渐发展为支持多种模态下的多种任务。
从应用领域来讲,大模型可分为通用大模型和行业大模型两种。通用大模型是具有强大泛化能力,可在不进行微调或少量微调的情况下完成多场景任务,相当于AI完成了“通识教育”,ChatGPT、华为的盘古都是通用大模型。行业大模型则是利用行业知识对大模型进行微调,让AI完成“专业教育”,以满足在能源、金融、制造、传媒等不同领域的需求,如金融领域的BloombergGPT、法律领域的LawGPT_zh,以及百度基于文心大模型推出的航天-百度文心、辞海-百度文心等。
目前大模型的开发主要有两种路径,一种是从头构建完整大模型;另一种是在开源的通用大模型之上调优。前者所需数据、算力、时间投入较大,但大模型的性能更为突出。后者模型的参数和能力受限于开源模型,但成本较低,可以快速形成所需的大模型。
构建完整大模型一般分为四个步骤(如图3所示):
图3 完整大模型的主要开发步骤
首先是训练构建基座模型。基座模型已经初步具备良好的知识框架和认知能力,但需要复杂指令的准确引导才可以生成正确内容,因而一般不能直接用于作为日常交互。从模型算法角度看,目前主流的GPT类基座模型均基于Transformer的decoder思路设计。从数据角度看,基座模型是实现涌现能力(参数达到一定规模时出现意想不到的能力)的基础,训练需要用到大量的数据,GPT3.0用到了45TB的文本语料,GPT4中还增加了图像数据等。从算力资源角度看,训练一个基座模型需要大量的算力和较长周期,为了提高效率,ChatGPT用到了近万张英伟达A100的GPU卡。基座模型可以理解为小孩已经生硬地背了大量古诗,但还不会熟练运用。你跟他说“举头望明月”,他能对出“低头思故乡”。但你让他背一首“思乡”的诗,他就不会了。
其次是策略精调。目的是让模型具备适用性,能与人类正常交流,即让基座模型理解用户想问什么,以及自己答的对不对。这个环节主要通过高质量的人工标注<指令,答案>(即prompt工程)优化模型。ChatGPT的标注数据集主要由一个3 0-50名Op en A I员工组成的团队和从第三方网站雇佣的50-100名标注员共同完成。这个过程可以理解为老师给学生上课,讲解很多诗句的含义。引导他看到“孤独(prompt)”可以写“拣尽寒枝不肯栖,寂寞沙洲冷(答案)”,看到“豪情(prompt)”,可以写“愿将腰下剑,直为斩楼兰(答案)”
第三步是训练一个独立于基座模型的判别模型,用来判断模型生成结果的质量,为下一步的强化学习做准备。由专门的标注人员对模型生成的结果按照相关性、富含信息性、有害信息等诸多标准进行排序,然后通过判别模型学习标注好排名的数据,形成对生成结果质量判别能力。这一步是为小朋友培养一个伴读。通过给定一组题目(prompt),让小朋友为每一个题目写多篇古诗。由老师为每一首诗打分(结果标注),然后将结果告诉伴读。伴读需要学会判断哪首诗更符合题目,写的更有意境。
最后一步是利用奖励机制优化基座模型,完成模型的领域泛化能力。本阶段无需人工标注数据,而是利用强化学习技术,根据上一阶段判别模型的打分结果来更新内容生成模型参数,从而提升内容生成模型的回答质量。(第三和最后一步相当于大人去纠正小孩对话,告诉孩子哪句话是对的,哪句话不能这么回答,比如“爸爸好不好?”,回答“爸爸是坏蛋”就要进行“惩罚”,回答“爸爸很好,我很喜欢爸爸”就比较符合要求。类似的做法,实际的工作比这个要复杂的多,需要大量的专家投入)。这一步则是让伴读提升小朋友的水平,而老师则可以休息了。伴读告诉小朋友,如果用“未若柳絮因风起”描写雪则可以有糖葫芦吃,如果用“撒盐空中差可拟”描写则没有糖吃。通过反复练习,最后就可以培养出一位“能诗会赋”的高手(成品大模型)。
基于开源通用大模型进行调优是低成本的选择,也是大模型下游玩家最常见的选择,利用开源大模型,玩家可在1张高性能显卡中,约5小时就可完成包含200万条数据的参数微调。参数高效微调方法是目前业界主流的调优方式,在保持原有大模型的整体参数或绝大部分参数不变的情况下,仅通过增加或改变参数的方式获得更好的模型输出,影响的参数量可仅为大模型全量参数的0.1%以下,典型代表为微软提出的LoRA技术。
短短几个月,国内外AI大模型数量激增,良莠不齐,尤其如何对开源大模型进行评估成为新的课题,对于开源大模型选择、促进大模型的发展具有非常重要的价值。未来,对于2B客户来说,需要从诸多行业大模型选择适合自己需要的大模型,第三方独立评估结果具有重要的参考价值。
目前业界还没有形成统一的权威第三方评测方法,主要的评测手段有两类:
一类是深度学习常用的语言理解数据集与评测指标,即通过运行标准的数据集,来评测大模型的深度学习性能,常用的指标有准确率、召回率等。Meta、谷歌和华盛顿大学等合作推出的SuperGLUE(超级通用语言理解评估)包含7个任务的集合,能够测试大模型在回答问题和常识推理等多方面的能力。
另一类是面向大模型的文本生成、语言理解、知识问答等能力,设计专门评估指标体系,然后通过提问(prompt)的方式,根据生成的结果对模型进行评价。具体操作上又分为人工评测和裁判大模型评测两种方式,人工评测由语言学家和领域专家根据主观判断来评价模型各个指标的表现,如OpenAI等机构邀请研究人员评测GPT系列模型;科大讯飞牵头设计了通用认知大模型评测体系,从文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力和多模态能力这7个维度481个细分任务类型进行评估。裁判大模型评测是指用一个较强大的语言模型来评测其他语言模型。例如,用GPT-4模型作为“老师”,通过“老师”出题及评判其他模型的答案来实现机器评测。北大和西湖大学开源的裁判大模型pandaLM也实现了自动化、保护隐私和低成本的评估方式。
上述三种方式各有优缺点,语言理解数据集适用于初步评估大模型的基本性能,如翻译质量、语言表达能力等;人工评测适用于评估大模型的高层语言表达能力、情感理解力和交互性能等;机器裁判评测适用于对大规模数据和模型进行快速评测,评估大模型的稳定性和一致性。
与互联网或移动互联网发展初期没有成熟的商业模式相比,大模型自带光环,迅速形成了MaaS模式。具体来看,应用场景、产品形态及盈利模式主要有以下几类:
A.互联网应用或SaaS应用:直接向终端用户提供大模型SaaS应用产品,通过订阅模式、按生成内容的数量或质量收费、按比例分成等模式实现盈利,例如Midjourney提供每月10美元和30美元两种会员收费标准;ChatGPT对用户免费,但ChatGPT plus收费20美元/月。
B.“插件”(Plug in):大模型可集成加载第三方应用产品插件,大大拓展了大模型的应用场景,吸引更多用户,例如ChatGPT Plugins,大量餐饮、商旅网站和A p p 通过插件加载集成到ChatGPT,增强了ChatGPT的功能和体验,用户不是简单地聊天,而是可以一站式实现综合任务,例如出差或旅游,大模型可以帮忙订机票,订酒店,订饭店和租车等等。
C.自有应用重构:将自研的大模型能力直接内置嵌入自有应用,增强智能辅助和高效交互,为自有应用引流增加收益,例如微软将GPT-4深度集成到Office、Bing等系列产品,功能要强大的多,例如搜索可以对话式获取更聪明精确和综合的答案,office可以为辅助客户撰写PPT和文档,只需说出需求,ChatGPT即可快速生成一份模板化文档,大差不差,稍作修改即可使用,大大提升了工作效率。
D.开放API:大模型平台开放API,为开发者提供可访问和调用的大模型能力,按照数据请求量和实际计算量计费,开发者可以根据需要开发定制功能和应用,国内一些ChatGPT小程序和web应用就是基于ChatGPT的API外包一层UI提供的,国内商汤“日日新”大模型也为用户开放API接口;
E.大模型云服务:基于大模型和配套算力基础设施提供全套模型服务,如为客户提供自动化数据标注、模型训练、提供微调工具等以及增量支撑服务,按照数据请求量和实际计算量计费,例如Azure OpenAI服务,客户可开发训练自己的大模型,未来不提供大模型框架、工具和数据集处理能力的云将很难吸引客户“上云”;
F.解决方案:提供定制化或场景化的行业应用解决方案,按具体项目实施情况收费,例如科大讯飞智能客服解决方案,这种按项目和解决方案部署AI和大模型应用适用于行业大客户,投入成本较高。
A、B、D可依托第三方大模型能力快速开展业务,但同时失去对数据的掌控,B和D通过开放促进大模型应用生态发展,ChatGPT实现从聊天工具到类OS的跃升;C门槛较高,需要自主研发或部署大模型,掌控大模型能力,但可以深度提升应用能力;E主要面向有模型自主开发需求的客户;F主要面向2B客户,可通过私有化部署保障数据安全。未来,大模型与机器人、智能设备等硬件结合(大模型拥有“手脚”),将为商业模式创新带来更广阔的空间。
陆奇认为,要判断大模型在一个行业的发展机会,需要考虑模型能力在该行业的提升速度、三位一体(信息,模型,行动)体验程度以及能否对该领域的研发体系带来突破性进展。具体来看,大模型将率先在互联网、金融、传媒、教育等知识密集度高的行业快速渗透(如图4所示)。
图4 AI大模型行业渗透趋势[1] 纵轴主要根据OpenAI对该行业通过运用大模型和/或嵌入大模型能力的应用能至少节省50%完成时间的工作任务占全部工作任务的比例判断,横轴大模型行业渗透时间主要根据麦肯锡对我国行业数字化程度的评估进行判断。
当前大模型已在搜索、办公、编程等互联网信息服务行业建立标杆,如微软NewBing引入GPT-4能力实现对话及复杂搜索、总结资料生成答案、发挥创意提供方案等,提升用户信息检索效率,这一点类似公有云初期主要在互联网领域应用。中期内,大模型将作为创作必备辅助工具在传媒、教育等行业进行应用推广,如全球范围内已有超300万用户使用OpenAI DALL·E模型绘图,每天创建的图片数量达到400万张;在教育领域,基于大模型的AI智能助手可为学生提供更具个性化、情景化的学习材料,如科大讯飞学习机引入星火大模型能力辅助中小学生写作。未来,大模型在医疗、交通、制造等行业的长期渗透潜力大。
当前医疗、交通、制造等专业领域正积极探索大模型应用场景,如中文医疗语言大模型“商量·大医”通过多轮对话辅助支持导诊、问诊、健康咨询等场景;百度基于交通大模型的全域信控缓堵方案可实现15-30%的效率提升;华为盘古大模型在矿山、电力等领域通过“预训练+微调”方式打造细分场景模型方案,如煤矿场景下可降低井下安全事故90%以上。未来随着行业数字化程度进一步提升、人工智能治理法律法规进一步完善,大模型在上述领域的应用将迎来爆发。
首先,大模型逐渐发展成为新型基础设施,为上层行业应用开发和开源生态提供低成本技术支撑,形成以大模型为中心的产品生态。大模型作为一种通用智能助手和交互手段,将重构现有大部分应用产品的交互方式和使用体验,如微软基于GPT-4能力的GitHub Copilot X、Microsoft 365改变用户原有编程、创作方式,用户仅需通过自然语言对话方式便可生成内容,当前谷歌、微软、阿里等头部企业陆续将大模型能力应用至各种产品中构建以模型能力为核心的产品矩阵。
随后,大模型开源将促进新开发生态的形成,实现“智能原生”。开发者可以基于开源模型利用专有数据资料在本地进行开发训练,如加州大学伯克利分校、CMU、斯坦福大学、加州大学圣地亚哥分校的研究人员联合推出Vicuna,达到OpenAI ChatGPT90%以上水平,训练成本仅需300美元。开源模型解决了大模型可扩展的问题,同时将大模型的训练门槛从企业级降低到消费级,个人开发者利用电脑设备均能基于开源大模型进行定制化、本地化训练。未来基于开源大模型的定制版或将部署在云、边、端各个环节,带来云端和多云应用的重构和联结。■