文/郭全中 杨元昭
大模型作为新一代信息技术,近年来备受关注。在AI 浪潮下,国内外企业纷纷加速对大模型产业布局的推进,并在模型和算力等层面推动技术变革和产业转型。同时,为促进大模型产业落地,各个企业和机构在大规模、高质量的数据积累基础上,着力推进大模型的应用。然而,随着大模型的发展,数据安全和内容治理成为监管的重点,如何在保障人工智能可持续发展的同时,确保技术创新成为大模型发展面临的新问题。
随着GPT 系列的发布,国内外大模型及其相关产业持续引发热议。大模型产业链可基本分为:算力、模型、应用三个环节,芯片厂商及服务器厂商提供算力支持,科技企业及互联网公司提供模型支持,模型在学习特定数据后完成功能落地。大模型技术逐步成熟、应用场景不断扩充,大模型在互联网企业与各行业逐步接轨,火热程度不减。
在大模型及其相关产业占据行业焦点的同时,国内外相关企业迅速扩张,加速大模型相关产业布局,完成技术变革与企业转型。
尽管国内大模型起步较晚,但整体成长迅速。2023 年以来,阿里千问大模型、百度文心大模型、商汤日日新大模型、讯飞星火认知大模型、华为盘古大模型等国产大模型相继发布。国产大模型成长迅速,且对大模型的应用具有持续探索潜力。阿里巴巴在第六届数字中国建设峰会上将千问大模型接入工业机器人,实现远程机器人交互控制;讯飞星火认知大模型在教育、办公、汽车、数字员工等领域完成成果落地,模型应用于学习机、智能办公本、智慧驾舱以及开放平台等多项业务,赋能公司收益,c 端硬件业务率先受益;华为盘古大模型在气象、药物分子、海浪检测、煤矿综采等场景完成大模型实践,其中,气象大模型精度超过传统预报方式。
国外大模型种类丰富,多维拓展,垂直落地。海外大模型模态丰富,在文本、图像、音频多方面均有涉及。以OpenAI、Google、Anthropic 等科技公司为代表,通过闭源模型形成了强大的龙头效应,而Meta 等则通过开源模型构建了合作共创的生态系统。微软将OpenAI 整合于办公软件、搜索、操作系统、云服务等ToC、ToB 产品服务中,同时提供闭源模型支持,API 付费调用也成为部分公司的服务类型;Meta 引领着开源模型的发展,模型形态逐渐丰富,文本到图像、图像到文本以及多模态统一到单一模型等领域都有所突破。
在大模型产业链中,提供算力的硬件部分扮演着更为基础的角色。作为大模型的核心,算力在训练和推理阶段都发挥着重要作用。芯片作为算力的心脏,为大模型提供了硬件支持,也成为国内外企业竞相争夺的领域。
在AI 浪潮下,算力相关企业美股全面暴涨,如:高通、AMD、超微电脑、博通、麦维尔科技等。与此同时,英伟达在行业内遥遥领先,成为美股首家市值触及1 万亿美元的芯片公司。英伟达凭借着CUDA 框架,成为全球最大GPU 供应商,结合CPU、GPU、DPU 形成生态闭环,并通过推出AI Foundations 完成从硬件向算力云服务MaaS 的转型。除英伟达外,谷歌自主研发了TPU 芯片,大幅降低功耗、加快运算速度,为Anthropic 提供大规模TPU 和GPU 加速支持;Meta 推出定制AI 芯片MTIA,采用开源芯片架构RISC-V,功耗仅有25 瓦,远低于英伟达等主流芯片。
国内各互联网企业自主研发,芯片市场百花齐放。阿里自主研发芯片含光800、倚天710,为大模型提供强大算力支持;百度实现两代通用AI 芯片量产及应用,其产品在百度搜索等业务场景中得到应用;腾讯推出AI 推理芯片“紫霄”、视频转码芯片“沧海”以及智能网卡芯片“玄灵”三款自研芯片;华为自研芯片昇腾310 和910 芯片,为模型提供算力支持。
数据与算力是大模型发展的两大核心,大模型的训练和推理对大量、可靠的计算资源和存储空间具有一定的依赖。在大模型的训练过程中,通常采用无标注、自监督的训练方法,通过海量数据进行超大规模模型训练,从而对数据和算力提出了更高的要求。在模型推理的过程中,也需要借助高质量、大规模的数据基础来实现模型的应用和落地。因此大模型的研发本身就是对公司数据、资金以及人才储备的考验。
从SaaS(Software as a service,软件即服务)到MaaS(Model as a Service)模型即服务,模型架构不断升级,训练模型数据需求不断提升。
模型架构升级,海量数据助力大模型训练。随着Transformer 架构的提出,深度学习模型参数规模达到上亿级别。2018 年谷歌提出基于Transformer 的大规模预训练语言模型BERT,参数规模首次超过3 亿,此后在Transformer架构的推动下,自然语言处理领域得到广泛发展。目前,国外大模型中,谷歌大模型参数规模达到千亿级别,meta 提供70 亿、130 亿、330 亿和650 亿等多种参数规模模型。国内大模型中,百度文心一言的大模型参数规模超过2600 亿,阿里通义千里的大模型参数规模超过10 万亿,华为盘古大模型、腾讯混元模型的参数规模均超万亿。
模型即服务,高质量数据助力高质量模型。随着大模型的快速发展,国内外以微软、谷歌、阿里、华为、商汤等为代表的互联网公司逐步自主研发出相应的大模型产品,而随着大模型的商业价值逐步提高,其可适用场景逐步扩大。大模型本身作为产品服务各行各业,高质量的数据内容对提高模型质量和服务质量起到强有力的推动作用。
除模型训练外,大模型在内容落地上对高质量、高数量的数据也有极强的依赖性。
大模型垂直领域落地,专业数据推进模型专业性发展。随着模型质量逐步提升,其应用也逐步推广。大模型垂直类知识的积累训练有助于其在医疗、安全、能源、工业等垂直领域的落地。Salesforce 研究院Ali Madani 团队通过将蛋白质氨基酸序列与表示蛋白质功能属性的标签拼接,使用语言模型进行建模,提出可控蛋白质序列语言模型ProGen,成功利用该模型预测并合成功能与自然界蛋白质相近的人工溶菌酶。华为将盘古大模型3.0 运用于气象预测,Pangu-Weather 精度超过传统数值预报方法,预测速度提升10000倍;将盘古大模型运用于生物领域,通过药物分子大模型找到替代Gp46 蛋白的小分子化合物,进而研发出超级抗菌药DrugX,大模型将先导化合物研发周期大大缩短,降低了研发成本。
融合了垂直领域知识的大语言模型有望提升各产业的效益,但同时也对高质量数据有着较强的依赖性。只有拥有丰富高质量、高数量数据积累的行业和企业,才能在大模型的支持下具有更强的发展潜力。
随着大模型的发展,生成式人工智能取得了技术革命同时也带来了新的发展机遇,也在一定程度上为虚假信息和危害用户信息安全的内容提供了滋生与传播的土壤。因此在生成式人工智能发展的同时,国内外相关管理政策也在逐步落地。国外各国对以ChatGPT 为代表的生成式人工智能采取了紧急措施。2023 年4 月11 日,美国商务部下属国家电信和信息管理局就“存在潜在风险的大模型在发布前是否应该通过一项认证程序”发出了征求意见的请求。2023年4 月12 日,意大利个人数据保护局围绕数据安全,要求ChatGPT 公开数据处理逻辑、对用户年龄进行筛查、明确数据主体拥有的权利,并在达标后被允许恢复在意大利使用。2023 年4 月13 日,欧洲数据保护委员会(EDPB)宣布成立特别工作组,以加强监管机构之间的合作;国内也对生成式人工智能进行了及时监管,促进生成式人工智能健康生态发展。2023 年4 月11 日,我国互联网信息办公室起草了《生成式人工智能服务管理办法(征求意见稿)》。2023 年7 月13 日,国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局公布《生成式人工智能服务管理暂行办法》(以下简称《办法》)。2023 年8 月15 日《办法》正式施行。2023 年8 月31 日,以百度、字节、商汤、中国科学院旗下紫东太初为代表的首批八家通过《办法》备案的企业与机构大模型正式上线,并逐步向公众提供服务。目前,国内已有十一家大模型获批,并将陆续向公众开放。
自2019 年以来,我国在数据安全治理上不断出台相关政策,完善数据要素市场制度与顶层设计。2022 年12 月,中共中央、国务院印发《关于构建数据基础制度更好发挥数据要素作用的意见》从数据产权、流通交易、收益分配和安全治理四方面,提出相关政策措施,为我国数据治理的长远发展提供基础指南。2023 年7 月13 日《办法》对生成式人工智能服务中的数据安全、模型算法安全进行了进一步细化。
《办法》就生成式人工智能数据安全层面,明确了训练数据处理活动和数据标注的各项要求。《办法》对大模型服务过程中的责任主体进行了说明,并对大模型的数据安全、数据来源问题进行了强调,对数据来源中的肖像权、名誉权、个人隐私权、知识产权进行了特别说明,对用户及数据来源信息安全进行监管保护。
数据安全、数据来源的监管是促进生成式人工智能健康发展的重要前提,也是防范生成式人工智能服务风险的现实需要。
针对生成式人工智能这一新内容,如何在把握人工智能新科技革命浪潮的同时实施内容治理是生成式人工智能监管的重点。《办法》对其生成内容、模型算法设计、运营规范也进行了相关约束。
《办法》通过对提供生成式人工智能服务的公司进行服务前模型算法、数据来源的评估备案,服务时生成内容合法性、合理性的监管要求,服务后用户投诉接受处理机制的监管完成对生成式人工智能的管理。目前,国内已有部分提供生成式人工智能服务的相关企业机构完成备案,《办法》的出台将对生成式人工智能内容治理及健康生态提供发展基础。
生成式人工智能作为新一代信息技术引领下的新兴产业具有很大的发展潜力。随着模型数据规模和质量的不断提升以及算力的增强,模型水平逐步提高,其在各垂直领域的应用逐渐呈现出专业化和精细化趋势。目前各行业对大模型的热情依然高涨,生成式人工智能的监管面临一定挑战。在《办法》的指导下,政府、企业及研究机构需要共同探寻,在确保人工智能的可持续健康发展下,保障技术创新。