我国应尽快推进认知智能大模型自主建设

2023-12-29 00:00:00蔡军霞徐春学
中国经贸导刊 2023年10期

近10年来以深度学习为代表的数据驱动机器学习技术掀起了人工智能新一波发展浪潮。伴随着大数据规模、并行处理芯片计算能力、深度学习模型能力的快速协同迭代与革新,孕育了以ChatGPT为代表的、具备认知智能的大模型技术,促使通用型人工智能应用初露锋芒。认知大模型技术已成为全球人工智能领域的前沿热点,其带来的技术、产业和创新模式变革极有可能成为新一轮技术革命的发端。我国也迫切需要发展独立自主的大模型技术以支撑相关重点行业应用需求。然而,我国在认知大模型研发领域中的数据、算力、创新组织等方面存在一定的瓶颈和“卡脖子”问题,迫切需要有针对性的政策加以解决。

一、认知大模型引发新一轮技术“军备竞赛”

认知大模型是罕见的“能力超出开发者设计”的技术产品。目前,即便是ChatGPT 模型的开发者,对于模型应用潜力的认知依然在不断更新。认知大模型的功能分为三个层面:一是以对话的形式进行交互式问答;二是机器翻译、编写代码等功能,将其作为办公助手,可以大幅提高工作效率;三是解决了人机交互问题。能够将笼统的人类语言转化为精准的程序代码,通过将复杂的任务分解成简单的代码指令,操作电脑或机器人实现人机交互。

ChatGPT的巨大应用潜力引发了全球AI巨头的技术“军备竞赛”。微软、谷歌、脸书等均斥巨资投入到认知大模型的开发当中。与此同时,我国的百度、华为、阿里、科大讯飞、清华大学等也均纷纷推出了自己的认知大模型产品。普华永道预测,到2030年认知大模型将为全球经济带来超过15万亿美元的增长。

二、认知大模型引发新一轮技术变革

(一)自主认知大模型对关键领域产生巨大影响

认知大模型广泛的应用场景使其必然能够在各类关键领域发挥重要作用。例如,一是能够大幅提升信息系统研发效率,在认知大模型的辅助下,信息系统的开发效率将会以几何的倍数提升;二是提升工业智能化水平,可以协助机器人和控制系统更好地理解和应对不同情况下的指令,实现灵活、高效的生产线自动化;三是提升军队的指挥和作战效率,可以构建智能化无人武器系统,操控智能无人飞行器、智能无人作战车辆、智能水下舰艇等;四是成为认知战的新战场,认知大模型的训练技术中包含了融合人类反馈的评价机制,因此其产生的内容也会因为立场不同而带有“感情色彩”,从而成为观点和意识形态输出的工具。

(二)自主认知大模型将引起新技术生态层面变革

通用性是认知大模型所具有的一项重要能力。传统人工智能技术采用“一任一模”范式,即为每一个任务定制一个单独的模型,而认知大模型可以当作一个通用基础模型同时应对各种类型的任务(如问答、翻译、摘要、编程等),实现了“千任一模”的大一统智能服务范式,因此能够成为承载多种应用的“基座平台”。相关企业也必然会基于自己的认知大模型开发系列产品,打造应用和产业生态,并进而通过生态捆绑上下游产业链条的方式,形成新的垄断体系。日前,OpenAI已经在官网宣布正式发布App应用,并登录苹果应用商店。未来,在大模型技术上有垄断能力的企业很可能再次形成类似微软Windows、谷歌Android、苹果IOS的垄断性平台产品,从而收割上下游产业链所产生的价值,赚取超额利润。

(三)自主认知大模型将引起战略层面的创新变革

认知大模型的创新过程本身也是极具变革性的。最初,认知大模型中关键技术——深度神经网络,主要来源于以杰弗里·辛顿教授(图灵奖获得者)为代表的高校研究者长达几十年的坚守与耕耘。伴随着深度学习的不断发展,高校研究者们进一步借助工业界的资源和力量,通过科技巨头建立的研发实验室将发展较成熟的智能算法应用于部分行业(如人脸识别与语音识别领域),并取得了巨大成功。尽管如此,许多情境下单一算法仍很难达到理想结果,于是业界开始尝试融合多项人工智能技术,以系统集成创新的方式来解决部分复杂任务。在此背景下,OpenAI公司探索出了一条可行的大模型技术发展路线,并推出了受到社会各界广泛关注的ChatGPT产品。

研发大模型技术需要雄厚资金的长期持续投入与积累。以OpenAI公司为例,其最早是由马斯克等人于2015年成立的一家非盈利的人工智能研究公司,启动资金10亿美元。2019年转为营利性机构,并获得微软公司10亿美元的投资。2020年发布了第一个商业化产品,正式开始商业化运作。2023 年ChatGPT发布后,微软向该公司提供了第二笔多年期投资,据报道为100亿美元。大量的资金投入吸引了众多顶尖级科学家开始进入企业型实验室工作,并同时为大学培养的创新型博士人才提供了充足的就业岗位。

除了资金上的壁垒之外,阻碍大学和政府实验室进行认知大模型研究的还有数据壁垒。据报道,ChatGPT背后的认知大模型消耗了45TB的文本数据,数据来源高度依赖微软、谷歌等公司的搜索引擎平台。传统的大学实验室和政府科研部门由于缺乏对外服务的平台型产品,很难收集到如此规模庞大的数据,因此只能采用与平台公司合作的方式开展研究。

三、我国建设认知大模型存在的“瓶颈”

(一)数据和算力等源头资源存在供给“短板”

大模型的开发主要涉及数据、模型、算力。在我国自主大模型研发过程中,数据与算力存在明显的瓶颈问题。

数据层面,认知大模型的研发非常依赖高质量的文本数据与使用用户交互反馈数据。但是,在全球互联网上,英文文本在规模、质量、开源获得性上都优于中文文本,这极大地制约了中文认知大模型的能力上限。目前ChatGPT的语料库里中文仅占5%。这种因数据来源导致的服务质量不公平,也势必会拉低现有认知大模型中文场景的应用效果。

算力层面,认知大模型的训练需要大量的芯片,而这一点恰恰是我国科技领域的短板。目前,认知大模型训练的主流芯片英伟达A100已经对我国禁运,替代产品A800在理论性能上降低了30%。此外,ChatGPT的推出引发了全行业的大模型“军备竞赛”,大型头部企业为开发自己的认知大模型纷纷斥巨资采购GPU芯片,已经导致了全球计算芯片的价格暴涨。计算资源受限必然会严重影响大模型的开发和迭代速度,使得我国企业与国际巨头在竞争中存在拉开差距的风险。

(二)技术缺乏或会引发产业链安全风险

认知大模型被认为是堪比电、互联网的基础性技术发明,是由于认知大模型具有通用性的特点,认知大模型有望成为承载多种应用的“基础设施”,相关企业必然会基于认知大模型开发系列产品,尤其与知识生产相关的行业将被这项技术所影响、赋能,甚至颠覆。如微软将ChatGPT和Office、Bing进行了整合,谷歌也推出了基于自身认知大模型的搜索产品等。这些企业在完成产品整合之后必然会进一步打造应用生态,类似微软、安卓、苹果生态圈,通过生态捆绑上下游产业链条,形成新的垄断体系。如果我国基于认知大模型的下游产业完全依附于欧美技术产品,未来会出现认知大模型领域的“卡脖子”问题。

目前,最先进的认知大模型ChatGPT拒绝来自中国的用户注册使用,这本身是一种技术封锁行为。未来,当科技巨头基于认知大模型形成类似Windows操作系统的技术生态后,可能会通过封锁生态的方式将中国企业排除在全球产业链之外,造成我国在新一代人工智能技术革命浪潮中处于“卡脖子”的被动地位。

(三)自主研发认知大模型的创新组织难题

人才方面,我国的高水平科研人员主要分布在大学和政府科研机构,人才组织方式与认知大模型研发的条件需求存在一定差异。很多高水平团队受到大规模数据、算力的制约,无法开展实战级别的模型研发。资金方面,大模型有“算量巨大”特征,英伟达单片A100 GPU产品售价10万元,ChatGPT模型参数高达1750亿个之巨,微软提供3万多张芯片。国内呈现“百模大战”,研发投入存在一拥而上、山头林立的现象,导致资源投入总规模虽然很大,但是单个项目往往存在资源不足的问题。组织方面,与国际科技巨头相比,我国的高科技企业很少建立类似OpenAI的非盈利型研究机构,大多通过企业中现有的技术和产品研发部门推动科技创新。在业绩考核的压力下,管理层无法在具有潜力的方向上进行长期的科研投入,技术部门往往在技术不成熟时就急于进行产品化应用和商业推广,机构难有能持续做好基础模型的耐心。

引导科技企业将资金、数据、算力投入到长期的高回报研究当中,同时实现企业之间数据算力与高校智力之间的整合,是我国在创新机制上要解决的重要问题。

四、政策建议

(一)推动源头技术资源的高质量供给

政府对于高新技术研发的支持应重在源头的基础能力建设,数据和算力是自主认知大模型建设的源头性战略资源。在数据方面,针对当前中文文本数据质量不高、开放程度有限等问题,组织有关企事业单位(如互联网企业、论文期刊平台、国家版本馆等),有针对性地建立高质量文本数据库,并推动数据资源的开放、流通,形成数据资源基础库。在算力方面,一方面加速高性能计算芯片的自主研发,加快研发基于国产芯片的人工智能计算平台与系统;另一方面应当用好当前已有的算力“存量”,逐步构建全国统一的算力共享网络,实现算力资源的高效利用,避免算力平台的重复建设与局部闲置浪费问题。

(二)加快科研与产业布局,确保产业链安全

针对国民生产的重要行业领域,应尽早从产业链安全的高度进行技术和产业布局,在认知大模型的生态形成早期引导培育上下游企业的技术自主能力,避免在国外垄断企业生态形成之后造成“卡脖子”问题。针对国防安全等必须完全自主的关键领域,应尽早布局和开展认知大模型相关的核心关键技术研发。由于认知大模型技术自身的开放性,关键领域的关键技术研发需要探索全新路径,避免形成封闭的生态系统。鼓励科研单位、高新企业参与国际大模型技术的竞争和产业链构建,争夺相关技术、标准、生态的话语权,以开放的姿态加入国际竞争,充分发挥我国科研人员在模型研究领域的技术优势。

(三)建设长期探索与需求牵引兼顾的创新机制

组织国内具有大模型技术积累的各级重点科研机构有序发展大模型技术创新与应用。大模型的建设与发展条件从根本上可进一步归结为两方面的要素:持续投入的科技人才与充足的研发资金保障。应重点支持具有一定技术优势的重点科研平台(如已建设的国家级重点实验室)进行大模型底层源头技术创新,出台相关科技人才奖励政策,保障高水平科研人员能够长期高质量地持续投入大模型底层技术研发。同时,也应支持大模型行业应用技术的发展,鼓励地方政府将算力作为新基础设施进行布局发展,支持社会力量(如部分具有大模型技术需求的国企、具有较好数据基础与应用前景的高新技术企业)与国家级科研机构深度合作(社会资金的注入以及企业技术专家的兼职聘用等诸多形式)联合建设大模型,从而为研发机构提供充足的资源平台,促进大模型技术的行业应用落地,实现长期科研探索与市场需求牵引相兼顾。

(蔡军霞,国家信息中心公共技术服务部高级工程师。徐春学,国家电子政务外网管理中心办公室副主任,国家信息中心公共技术部副主任)