桑基韬 于 剑
1 (北京交通大学计算机学院 北京 100044)
2 (交通数据分析与挖掘北京市重点实验室(北京交通大学)北京 100044)
2022 年11 月30 日,OpenAI 公司发布了一款名为ChatGPT 的软件.该软件在发布后的5 天内,用户数量就超过了100 万,2 个月内活跃用户数更是突破了1 亿,成为了迄今为止增长速度最快的应用软件.该软件几乎可以完成自然语言处理的所有任务,因此在营销、客服、教育、娱乐、咨询、翻译等行业有着广阔的应用前景.这一成功也激励了OpenAI 首席执行官Sam Altman,他于2023 年2 月24 日发表了一篇名为“Planning for AGI and Beyond”的文章,认为AGI(artificial general intelligence,通用人工智能)是AI systems that are generally smarter than humans,需要为AGI 的到来做准备①https://openai.com/blog/planning-for-agi-and-beyond.AGI 会是AI 的未来吗?本文将对此进行讨论.
比尔盖茨将ChatGPT 誉为自1980 年现代图形桌面环境GUI 问世以来最具革命性的科技进步.如果说上一次让AI 火出圈的AlphaGo 所展现出的是在特定领域的“专”,这一次ChatGPT 展现出的则是AI 在广泛应用场景的“通”:这个“通”以正常人都会、都懂、都能体验的对话形式呈现,让AI——特别是自然语言处理技术进入主流用户群,孕育出了这一现象级产品.具体而言,ChatGPT 在对话过程中展现出了自然对话、多轮交互、上下文学习、思维链推理、实时反馈在线纠错、能适应未训练任务以及GPT-4 中新出现的理解弦外之音的能力.
ChatGPT 背后的思想其实很简单:将所有语言任务归为对话任务,并将对话任务归为文字接龙的生成问题.自然语言处理领域的学者普遍认为,ChatGPT 展现出的优秀对话生成能力对传统研究方法产生了巨大挑战.1)从目标上看,自然语言处理旨在让计算机能够以文字或语音的方式与人类进行有效交流;而对话是人类日常生活中最基本的交流方式,如果实现了人机自然对话,在一定程度上便达到了自然语言处理的核心目标.2)从任务类型上看,自然语言处理可分为自然语言理解和自然语言生成两大类.在谷歌的T5 模型[1]推出之后,两类任务统一为单项语言生成的文字接龙形式.自GPT-1 起,OpenAI就一直坚持采用基于解码器结构的自回归语言模型,这种模型在处理语言生成问题方面具有天然的优势.所以ChatGPT 可以处理以前不同赛道的语言处理任务,比如翻译、问答、摘要、扩写、写作、润色、代码生成、语句分析、段落理解等.
当然,ChatGPT 能够实现如今顺畅自然的人机对话,不仅源于其对GPT 语言生成技术路线的持续发展,还依赖于算法、算力和数据等多方面的支持.由于ChatGPT 并未开源,也没有发布论文透露具体细节,我们只能基于OpenAI 已公开的GPT 系列技术发展路线来推测这些能力背后的潜在原因.图1 展示了部分ChatGPT 已展现出的能力及其背后主要技术原因的对应关系.值得关注的是,ChatGPT 许多能力背后的原因仍在探索过程中.关于上下文学习的能力,有学者认为模型从提示词(prompt)提供的示例中确定了待解决任务的自然语言指令(instruct),从而在无需微调模型的情况下提升了问题回答的质量[2].关于任务涌现和多任务迁移能力,一方面,有学者认为指令学习、大规模预训练和数据集多样性共同促进了模型在新任务的泛化能力[3].例如,通过在大量不同类型和指令任务上进行微调,模型学习到了一定程度的通用能力,从而能够泛化到未见过的指令和场景.另一方面,不同任务的划分具有一定的主观性,其本质上都可以建模为统一的自然语言生成任务.大型预训练语言模型通过学习大量训练数据,掌握了丰富的语言知识和多种任务之间的共性,进而利用这些共性来提高不同任务的性能.然而,一些问题仍然没有明确答案,例如:何种模型规模和训练数据量阈值可以产生任务涌现能力?涌现能力与模型规模和训练数据量之间的量化关系如何?同时,其他一些能力,如在线纠错、理解弦外之音等,其背后的原因仍然有待发现.
Fig.1 Illustration of capabilities and the corresponding technical reasons图1 能力与对应技术原因示意
OpenAI 首席科学家llya Sutskeve 最近在与英伟达首席执行官黄仁勋的访谈中对ChatGPT 能力学习进行了解释:“ChatGPT 通过学习文本中的统计相关性,获得了这个世界的一个压缩、抽象、可用的映射表达”.这让我们不禁思考:ChatGPT 是否学到了人类文字符号世界的暗知识(tacit knowledge)[4].Michael Polanyi 在他的认识论著作中曾提到:“We can know more than we can say(我们所知者,远多于所能说者)”.可以确定的是:机器学习模型通过统计海量符号语料中的规律,能够学习到词汇、语法、乃至一定程度的上下文和常识知识.问题是:随着语料规模的不断增加和统计规律的持续积累,模型所建立的世界表达分辨率越来越高、维度越来越丰富时,是否真的有可能学习到人类情感、道德观念等支撑整个世界运行的更复杂的暗知识?
在学术界积极探索ChatGPT 能力背后的技术原因的同时,工业界已在欢迎这项新技术,并将其优秀的对话生成能力融入各种应用场景.根据ChatGPT对话的对象和本身的定位,我们将这些应用分成4个层次,如表1 所示:
Table 1 Main Applications Categories of ChatGPT表1 ChatGPT 主要应用类型
1)数据生成器.根据需求直接生成数据.此类应用仅输入用户需求,利用ChatGPT 的生成能力返回特定类型的数据.由于思路简洁且实现容易,数据生成类应用在ChatGPT 发布之初就大量出现.主要应用场景包括对话生成(客服、虚拟数字人)、文案生成(法律文书、营销策划广告)和代码生成等.典型的成功案例包括写作助手Notion AI①https://www.notion.ai、营销文案生成工具Jasper.ai②https://www.jasper.ai.
2)知识挖掘工具.对数据进行再加工或分析挖掘.此类应用同时输入用户需求和待处理的原始数据,利用ChatGPT 强大的自然语言处理能力返回经过加工的数据或挖掘出的新信息.知识挖掘类应用可以分为离线和在线两种形式.离线应用通过调用类ChatGPT API 分析和挖掘私有数据等专业领域语料构建知识库,为进一步应用提供知识支持.在线应用的主要场景包括翻译、润色、摘要生成、文档管理等.一些典型案例包括搜索引擎摘要插件WebChatGPT、文档分析工具ChatPDF 以及OpenAI 官方随GPT-4 发布的摩根士丹利策略分析师.
3)模型调度员.调用其他机器学习模型共同解决用户需求.此类应用同时输入用户需求、待处理数据以及多个可调用的机器学习模型,通过ChatGPT作为人类与其他模型间的连接,设计解决方案、调用并管理其他机器学习模型,共同完成用户需求并输出结果.这方面的典型案例是微软近期发布的系列多模态解决方案Visual ChatGPTPT[5]、MM-ReAct[6]和HuggingGPT[7],其通过调度其他视觉基础模型来协同完成视觉和语音任务.此外,AI 赋能一直以来的一个痛点问题是:智能中台需要整合不同模型和技术,并根据业务需求扩展新的模型.ChatGPT 有望实现智能中台的升级,如提供友好的开发/业务人员界面、实现模块化模型管理、简化技术集成和部署,从而提高AI 赋能效率.随着ChatGPT 应用探索的深入,相信模型调度员类型的应用将越来越受到关注.
4)人机交互界面.调用更广泛的应用程序帮助人类解决实际问题.第一种形式是将ChatGPT 嵌入到特定应用中,从而极大地提升自然交互体验,如微软的365 Copilot 和Copilot X 分别将ChatGPT 融入Office 和Github.第二种形式是在ChatGPT 搭建的自然语言交互框架上开发各类信息服务应用,去年10月推出的开源库LangChain 和OpenAI 最近发布的插件集Plugins 都是大型语言模型应用开发框架的典型尝试.正如Windows 和Android 分别是桌面和移动时代的操作系统,ChatGPT 有望成为智能时代的操作系统接口.进一步畅想,如果把语言分为人类之间沟通的自然语言和人与计算机之间沟通的计算机语言,ChatGPT 在一定程度上统一了二者:用自然语言实现了人和计算机之间的沟通,不得不说“自然语言编程(natural language programming)”这一新词非常贴切.从这个角度看,我们甚至可以大胆预测:人机交互界面将从磁带、键盘字符、鼠标图形全面进化到自然语言时代.
以上围绕对话生成讨论了ChatGPT 的具体能力、背后的技术原因以及在不同定位下的应用形式.尽管“对话生成”提供了无限的想象,但OpenAI 的野心显然并不止于此.从名称和发布时间点来看,ChatGPT似乎只是一种过渡性技术的产品形式.在以对话这种产品形式向主流用户群展示了强大的技术实力之后,OpenAI 新发布的GPT-4 并未继续在对话生成功能上炫技,而是悄然接入了各类官方应用.
从生物学角度,语言和智能的演化过程相互促进.人类智能在很大程度上依赖于高度复杂的语言系统.语言作为思维的载体和智慧的外在表现,其运用能力很大程度上反映了认知能力和智能水平.语言习得是认知发展的重要组成部分,儿童在成长过程中通过习得语言来理解世界,并逐渐掌握其他认知技能.ChatGPT 等技术在语言生成能力的持续提升能将人工智能带到什么高度,让人非常期待.
能力越大,责任越大.ChatGPT 展现出的强大能力让主流用户群欣喜、学术界惊讶、工业界狂热.这些能力让我们在使用它时感受到了与以往技术不同的体验.回顾人类历史上的几次技术革命,从早期的石器、金属器具、机械设备、电气设备到近几十年的计算机、互联网和智能手机,每一个阶段所发明的工具都对人类生活产生了深远影响.在使用这些工具时,我们可以清楚地意识到它们作为工具的定位,即辅助人类来完成任务.然而,在使用ChatGPT 的过程中,我们经常会产生一种与另一个人对话的错觉,尤其是当类似Plugins 这类功能使其能够像人类一样利用其他工具进行自我增强的时候.埃隆·马斯克在使用ChatGPT 后的感受是“好到吓人”.这种独特的体验无疑将加速技术融入人类社会的进程.正如OpenAI 自己对ChatGPT 的评价:“尽管 ChatGPT 还没有实现真正的智能,但它让人体验到了真正的智能实现后,每个人都能用它做各种他们想做的事情的滋味”.
整个2023 年3 月都被各种生成式AI 技术和产品的发布充斥,如Meta Alpaca、GPT-4、PaLM-E、文心一言、Office Copilot、Midjourney V5、英伟达新显卡 、Github CopilotX、ChatGPT 插 件 、Security Copilot 等.我们可以预见相关技术的应用领域将迅速拓展、应用程度将大幅度加深.人们在享受技术带来的便捷和生产力提升的过程中,对技术的态度将从习惯逐渐转变为依赖.而当人们开始依赖这些技术代替自己学习、思考、甚至决策时,有2 个问题摆在我们面前:技术是否已经做好准备承担责任?人类对技术的信赖是否超出了它的能力?
实际上,ChatGPT 在使用过程中已被发现存在诸多问题,如数学计算、未来预测、时空物理现实推理等方面能力的局限,以及事实错误(幻觉)、生成毒害内容等方面的不可控[8].下面从可信AI 的4 个维度对ChatGPT 存在的问题展开讨论.
1)安全性.OpenAI 在官网上将“安全”列为五个目录之一,在随GPT-4 发布的报告中批露了其在技术和评估两方面都设立了专门的安全小组,足见其对安全性的重视.然而,和所有机器学习模型一样,ChatGPT 仍存在着被对抗攻击的风险.一种典型方式是提示语注入攻击(prompt injection attack):在提示语中混入恶意指令,可能绕过ChatGPT 的安全机制,迫使其执行意外动作,如泄露敏感信息、输出有害内容等.例如,ChatGPT 驱动的新Bing 在受到攻击后泄露了其内部代号“Sydney”;ChatGPT 被诱导规划抢劫方案,甚至提供了购买抢劫道具的链接等.
2)公平性.在ChatGPT 之前,OpenAI 的文生图DALL-E 系列曾被发现存在输出性别和种族歧视内容的问题.类似地,GPT-2、Bert、RoBERTa 等语言模型在一个测试项目中也被发现具有严重的性别偏见倾向[9].尽管目前尚无系统性地研究分析ChatGPT 在性别和种族偏见方面的表现,但已有研究发现它存在明显的语言敏感性.例如,当用日语和俄语分别询问一个日俄争议岛屿的归属问题时,ChatGPT 给出了截然不同的答案[10].
3)可解释性.ChatGPT 的思维链能力可以在答案中同时呈现推理过程,这在部分程度上解决了实验室环境下模型可解释性的问题.然而,需要注意的是,这种推理过程的解释是面向用户的,并不一定与模型的实际运行机制准确对应.此外,ChatGPT 仍存在很多尚未解释的行为,包括自我在线纠错、理解弦外之音等能力,以及出现事实错误(幻觉)等问题.由于大模型本身的复杂性以及仅通过API 提供服务的现实限制,ChatGPT 对于用户和开发者都是完全的黑箱.随着应用场景的拓宽和加深,现有的解释性水平可能难以满足透明度和回溯性等的要求.
4)数据隐私.涉及训练阶段的数据侵权和推理阶段的隐私泄露两个方面.大模型训练需要的海量数据多来自网络,其中难免包括未经授权的版权保护内容.ChatGPT 虽然可能避免语句层面的抄袭,但难以避免语义上的深度抄袭.2023 年,大模型领域发生了多起版权侵权案.例如,3 名艺术家指控Stable Diffusion 使用其版权作品作为训练数据,而微软和OpenAI 因其开发被指控其开发的编程助手Copilot涉嫌复制Github 上的开源代码而受到指控.在推理阶段,攻击者有可能通过逆向攻击等手段,利用模型输出的结果来反向推导出训练数据中的隐私信息.GPT-2、BERT、RoBERTa 等语言模型均被发现存在数据隐私泄露的风险[11].随着模型规模和功能多样性的增加,这种风险可能进一步加大:模型规模越大,其记忆能力越强;功能越多样化,可被利用的信息和攻击方式也越丰富.ChatGPT 自身代号的泄露便证实了这一点.
从生成式AI 模型选择的技术路线和当前发展水平看,这些问题既可以归结为大型语言模型固有的结构局限,也可以归结为将符号任务统一建模为对话问题的过度简化.关于这条技术路线的未来发展,同时存在着乐观和悲观两种观点.乐观派认为,人脑神经元突触连接总数约为一百万亿,随着语言模型参数量的不断增加,模型可能在某个时刻实现量变到质变的跃迁,这些问题也会自然消失.然而,包括乔姆斯基、Stuart Russell 等大佬在内的悲观派则持相反观点,他们认为端到端的深度学习与人类进行推理和使用语言的方式有着巨大差异,依靠更多数据和算力无法消除这些缺陷或实现真正的智能.
不讨论技术路线的选择或者观点的对错,不管生成式AI 模型的能力演进到何种程度,其定位始终是帮助人类更好地完成任务的工具.作为工具,首先应该明确能力边界,即“做自己能做的事”.在认知心理学中,约瑟利窗口(Johari Window)将人际关系划分为公开区、盲区、隐藏区、未知区四个象限[12].参照这种方法,如图2 所示,我们可以沿“自知”和“能力”2 个维度绘制一个坐标系,智能工具处理的任务将落在其中一个象限内.当任务落在“自知”负半轴的2个象限时,可能会出现不可预知的问题:在隐藏区时,模型“不知道自己能”,可能在收到用户反馈后将原本正确的答案改为错误,或接受用户错误反馈的引导;在未知区时,模型“不知道自己不能”,可能会产生事实错误幻觉,一本正经地胡说八道.
Fig.2 Awareness-capabilities coordinate system图2 “自知”-“能力”坐标系
根据“自知”-“能力”坐标系,首先需要明确能力边界,即扩大“自知”正半轴2 个象限的覆盖范围,使更多任务落入公开区和盲区.在公开区时,模型可以自信地回答用户的问题;而在盲区时,模型应该承认能力缺陷,避免回答不知道的问题,或者虚心接受用户的反馈引导.PAL[13]是开发隐藏区的一个例子,通过在提示词中注入包含推理过程的程序示例,成功挖掘了模型在原本容易回答错误的数学推理类任务的解决能力.在明确能力边界后,需要进一步提升模型的能力,即扩大“能力”正半轴、尤其是第一象限的面积,使更多的任务从盲区转移到公开区.缩小盲区的一个例子是ReAct[14],它将推理和行动结合,通过调用搜索等插件从网络等外部资源中逐步、有选择性地收集和处理新信息,从而提高了模型在各种复杂场景下的解决能力.另一个最新提出的框架Reflexion[15],它在ReAct 基础上加入了自省(Reflect)功能,通过试错的方式,在寻找自身能力边界的同时,探索新任务的解决方案.这是一个在同时确定能力边界和提高能力范围方面很有意思的尝试.
当然,“自知”-“能力”坐标系只是一个理想和简化的框架.人类在执行任务时,通常会考虑诸如道德、伦理、公平等价值观.而ChatGPT 并不具备人类的价值观和判断力,可能会生成与事实相悖的错误信息和误导性的建议.比如,当用户询问“林黛玉是如何倒拔垂杨柳的”,ChatGPT 会一本正经地介绍相关具体细节.事实上,《林黛玉倒拔垂杨柳》是一部网络小说,中文论坛上也有许多对这一虚构情节的讨论.模型在学习这些语料时无法区分虚构和现实,因此产生了这个尴尬的回答.随着GPT-4 的发布,可以预见ChatGPT 将有能力在符号世界中实现自动化生成.然而,它依然不能确保所生成内容的真实性,自然更无法对生成结果承担责任.
为了解释为何ChatGPT 无法保证结果为真,首先需要探讨什么是“真”.“真”的定义有很多,本文采用亚里士多德的经典定义[16]:说是者为非,非者为是,即为假;而说是者为是,非者为非,即为真.基于此,Tarski 提出一个更形式化的“真”的定义[17]:
X是真语句当且仅当p,其中p代表任意语句,X是语句p的名称.
即,一个语句是真的,当且仅当它描述的情况确实发生了.比如:“树在长芽”是真语句当且仅当树在长芽,即“树在长芽”是真语句当且仅当树在长芽确实发生了.
但是,这个看似合理的“真”的定义却隐含矛盾.Tarski 转述了乌卡谢维茨的加强版说谎者悖论:
令C是“C不是一个真语句”的名称,因此,有如下2 个假设:
1)α假设:C=“C不是真语句”;
2)β假设:“C不是真语句”是真语句当且仅当“C不是真语句”.
综合α假设与β假设,即可以得到:C是真语句当且仅当“C不是真语句”,悖论.
Tarski 关于“真”的定义和上面的推理似乎都没有问题,那问题出在哪里呢?我们认为问题出在概念的定义上,因此需要仔细考察概念的定义.
众所周知,概念的经典表示由3 部分组成:符号表示、内涵表示和外延表示.其中,概念的符号表示由概念名称表示,概念的内涵表示由描述概念特性的命题表示,概念的外延表示由概念所包含的实例的经典集合表示.比如,“偶数”这个概念,其中文符号表示是“偶数”这个词;内涵表示是 “能被2 整除的整数”这个命题;外延表示是“包含所有偶数的集合”:{…, -6, -4, -2, 0, 2, 4, 6, …}.
如图3 所示,根据经典表示,每个概念具备3 种功能:指名、指心和指物,同时对应着波普尔的3 个世界:符号世界、心理世界和物理世界[18].概念的指名功能,是指每个概念都指向认知世界或符号世界中的一个实体,用所指对象的特定符号名称来表示.这些符号名称可以组成各种不同的语言.概念的指心功能,是指每个概念也指向人类心理世界中的实体,代表这个概念在心理世界里的对象表示.概念的指物功能,强调概念与物理世界中的实体之间的对应,这些实体遵循物理世界的规律,可以独立于人的主观感受.
Fig.3 Classical representation of concepts图3 概念的经典表示
如果从概念的表示来实现人工智能,指名、指物、指心对应了3 条路径:符号主义、连接主义和行为主义.如果从概念的功能角度来对人工智能分类,可以分为认知智能、情感智能和行为智能.认知智能实现了概念的指名功能,即处理和理解符号世界的问题.情感智能则实现了概念的指心功能,主要关注心理世界中的问题.而行为智能则体现了概念的指物功能,主要解决物理世界中的问题.然而,如果要实现概念的三指功能,必须首先解决机器的感知问题.解决机器感知问题是最基本的人工智能,通常被称为感知智能.感知智能主要关注机器的输入输出处理,是实现认知智能、情感智能和行为智能的基础.
在概念的经典表示下,概念的指名、指心与指物功能是等价的,其符号表示、内涵表示和外延表示在功能上也是可以互换的.这是因为概念的经典表示存在6 条预设:
1)概念的外延表示可以由集合{x1,x2, …,}表示;
2)概念的内涵表示存在且用命题∀xP(x)表示;
3)概念的名称存在,且用符号表示A;
4)概念的外延表示与内涵表示同名:A={x1,x2,…,}=“∀xP(x)”;
5)概念的表示唯一,即同一个概念的表示与个体无关:∀α(Aα=A),α代表一个人;
6)概念的指称等价,即其内涵表示与外延表示在指称对象的时候功能等价∀x(x∈A↔P(x)),其中,A={x1,x2, …,}.
根据上述概念的经典表示,可以知道概念的指名、指心与指物功能是等价的.在日常生活中,这种情况非常普遍,因此说真话是通常的情形.罗素曾给出一个清晰的论证[19]:“除非假定说真话是一种通常的情况,否则没有人能够学会说话:假设当你的孩子看到一条狗时,你随意地说出‘猫’、‘马’或者‘鳄鱼’,那么当他看到的不是一条狗时,你无法通过能通过说‘狗’来欺骗他.因此,说谎是一种派生的行为,它预设了说真话是通常的规则.”在上述罗素的论证里,可以清楚地看到,其预设了概念的指名与指物等价,即假设概念的三指等价是真的必要条件.
如果概念的指名、指心与指物功能等价,则可以认为:认知智能、情感智能与行为智能等价.这意味着一旦实现了认知智能,也就同时实现了情感智能和行为智能.同时,人工智能的3 条实现路径——符号主义、连接主义和行为主义——也是等价的.ChatGPT 和GPT4 的出现,表明认知智能已经取得了巨大的进步.如果概念的三指等价,那么认知智能的巨大进步预示着情感智能和行为智能将取得同样的巨大进步.从这个角度看,实现AGI 似乎也有可能性.
然而,乌卡谢维茨悖论告诉我们概念三指等价在逻辑上并不永远成立:它内蕴矛盾.Tarski 的真定义实际上等价于如下命题:概念的指名功能为真当且仅当概念的指物功能为真.显然,概念的经典表示也预设了Tarski 的真定义.仔细分析乌卡谢维茨悖论的逻辑推理,可以发现α假设与β假设都预设了“概念的指名功能为真”与“概念的指物功能为真”等价,这必然导致悖论.实际上,在概念的三指等价条件下,针对包含算术系统的逻辑系统,哥德尔证明了不完全性定理,而Tarski 得到了著名的真之不可定义定理.这些都说明在复杂一点的符号系统内部,不可能解决何为真、何为假的问题.因此,从理论上讲,ChatGPT 和GPT4 同样无法解决真假问题.因此,有时必须放弃概念的三指等价假设.一旦放弃了这个假设,就会发现认知智能、情感智能与行为智能是不可能等价的.实际上,现实生活中,这三种智能从未等价过.
很多人认为ChatGPT 已经开启了第四次技术革命.面对这种尺度的变革,我们很难在早期准确预测未来的发展.在这里,我们仅从中短期技术趋势和长期发展路径2 个方面,来探讨在当前阶段我们对这一技术的理解.
OpenAI 发明ChatGPT 对于人工智能领域的影响,可以类比哥伦布发现了美洲大陆.在哥伦布发现美洲之前,探险家们一直渴望着探索新大陆,并尝试使用各种方法去寻找它.然而,即使是经验非常丰富的探险家,也并不确定新大陆是否真实存在,以及哪种航海方法更为有效.哥伦布的成功不仅坚定了后来探险家们的信心,更在一定阶段内统一了寻找新大陆的方法:在新的突破性技术出现以前,看似简陋的帆船和罗盘已经足以带领人们到达目的地.
同样地,ChatGPT 的诞生为人工智能领域注入了信心并指明了发展方向,展示了“大力出奇迹”的可能:通过不断扩大神经网络的模型规模和增加数据量,可以在AI 的道路上取得实质性的进展.在这一目标和技术路线的共识下,我们从拓展应用、克服局限和探索理论3 个方面探讨人工智能领域中短期的可能技术趋势.
4.1.1 拓展应用
1)垂直化.ChatGPT 发布初期,人们尝试在提示词中注入角色信息以增强垂直领域对话质量.为克服提示词token 数量限制以融合领域语料,有工作提出基于LangChain 框架,将领域文档切片后分布式输入,但这种做法存在私域数据泄露风险,解决思路之一是利用ChatGPT 控制和调用其他领域模型来提高垂直化能力.此外,麻省理工学院最近提出保护隐私的迁移学习框架Offsite-Tuning[20],可在不访问完整模型的前提下,在下游领域数据上微调数十亿级参数的基础模型.对于需要构建领域模型的场景,在不泄露基础模型和领域数据的情况下,实现对通用基础模型的领域微调非常重要.
2)个性化.个性化可视为垂直化的极致,针对个人需求和偏好的个性化微调模型能够提供更精确的服务.典型的应用场景包括个性化推荐系统、个性化教育辅导、个人AI 助理等.微软于2023 年4 月4 日开源了大模型协作项目JARVIS,旨在在大型语言模型与机器学习社区的其他模型之间建立连接.JARVIS 这个名字让我们对钢铁侠中同名的AI 助理产生更多联想.如果未来个性化模型可以通过多模的人机交互来增强,实现与人类对世界的同步感知、学习和成长,这样的AI 助手能够更好地理解个性化需求、情感和行为,协助我们实现更高效的工作、学习和生活方式.在这个过程中,我们需要解决诸如中心平台式AI 如何保护个人数据以及在个体层面部署模型等问题.
3)工程化.ChatGPT 的诞生在某种程度上是工程化的胜利,而它的成功无疑将进一步加速AI 技术从实验室研究走向工程化和产业化.从必要性上看,随着数据量和计算资源需求的增加,工业界拥有更好的条件主导大模型研发,相关实验室研究也需调整研究范式和目标以适应工程化需求.从可行性上看,ChatGPT 的成功让工业界看到了AI 技术在各行业落地和价值实现的可能,众多开源项目和成熟技术框架的出现则为AI 技术工程化提供了支持.从重要性上看,工程化是一个学科发展和成熟的标志,AI 技术的工程化有助于进一步优化和完善相关技术,激发学术创新活力,推动AI 领域的整体发展.
4.1.2 克服局限
1)多模态增强.多模态大模型的发展逐渐以语言模型为主,将视觉、语音等多模态信息映射到语义符号空间进行处理.近年来的多模态解决方案更是提出直接以大型语言模型为基座来拓展多模态能力,如Visual ChatGPT 和MM-ReAct 以ChatGPT 为中心调度其他视觉模型、PaLM-E 固定语言模型训练额外的视觉编码器等.然而,人类在进行多模态学习时并不完全依赖于符号空间,大脑神经网络在不同感官区域间传递、整合信息,同时结合视觉形象、空间关系等非符号性表示.由于多模态世界建模更为复杂,以语言模型为主或是现有条件下的一种技术折衷.随着多模态数据量与模型参数继续增加,有望在视觉、语音等空间实现真正的多模态生成能力.如被细线系着的气球照片,无需映射至语义空间,模型即可预测线剪断后的情景.
2)人机交互增强.有人将现在的ChatGPT 比作一个博览群书的神童,却从未亲身体验过这个世界.经典的认知实验发现,与被动旁观的猫相比,具有自由活动能力的猫可以通过主动与环境互动并获得反馈,从而更好地学习行为能力[21].在一项微软的最近研究中,ChatGPT 已经能够根据人类的要求自动编写代码并指挥无人机协助完成任务[22].通过进一步考虑生物学特性、身体感知和行动的影响,有望实现与真实物理世界的双向交互,在自主行为反馈中不断提升自身智能水平.
3)可信增强.之前的讨论已概括了ChatGPT 当前的局限和进行可信研究的必要性.可以预见,每个大模型公司都将需要一个专注于可信的安全和伦理团队.这就不难理解OpenAI 的系列举措:GPT-4 在训练完成后经过半年的评估和修正才发布、用30 余页技术报告介绍安全补丁System Card,以及对模型评估框架Evals 的开源.即便如此,ChatGPT 还是因隐私问题在意大利遭禁,并遭到包括马斯克和沃兹尼亚克等上千名知名人士的联名叫停.值得注意的是,除了安全、公平、可解释、数据隐私等经典可信问题外,ChatGPT 还会带来模型回音壁等新问题.目前,使用ChatGPT 生成的对话数据进行训练已经成为公开的秘密,甚至出现了专门收集ChatGPT 对话的网站ShareGPT.其实,在人类反馈强化RLHF 后,就有学者提出了基于智能模型反馈强的RLAIF 框架[23].随着模型规模继续增加,可供训练的自然数据面临枯竭,模型生成标注和反馈数据在模型间的回音壁效应将加剧可信问题.此外,垂直化、个性化、多模态等技术趋势也会带来新的可信挑战.关于可信增强的方案,考虑到传统AI 测试基准已不足以评估模型能力,我们需要尽快构建新的可信测试基准:包括可信benchmark 数据集和可信测试框架.此外,为了准确评估模型的应用成熟度,我们应该研制面向大型语言模型的可信标准,以规范不同可信等级的模型在相应的应用场景中使用.同时,结合工程化的发展趋势,我们可以参考软件开发周期中的测试-调试闭环,在基础模型和下游模型2 个层面进行迭代优化,以确保模型在大规模应用场景中的可信性.
4.1.3 探索理论
1)预训练模型机理研究.近年来,计算机视觉和自然语言处理领域的技术框架逐渐趋同.学习范式从特征工程、深度监督学习转向自监督预训练,模型结构从CNN、RNN 发展为Transformer.针对自监督预训练和Transformer 结构,仍有很多基础性问题需要研究,如自监督学习泛化理论、预训练与微调的动态平衡分析、Transformer 结构的定性和鲁棒性分析等.对于ChatGPT,除了探究其在线纠错、理解弦外之音等原因未知的能力外,还需进一步研究任务涌现能力与模型规模以及训练数据量等的关系,为未来模型设计和实际应用提供指导.
2)学科交叉融合研究.ChatGPT 作为催化剂,不仅将推动人工智能学科内部计算机视觉和自然语言处理领域的进一步整合,而且将激发学术界和工业界更加深入地探讨和实践人工智能和其他学科交叉融合以及跨学科应用的可能性.以脑科学为例,结合脑结构和人工神经网络研究,我们将更有可能揭示智能产生的本质原因.实际上,OpenAI 的首席执行官Sam Altman 早就投资了可控核聚变公司Helion 和生物科技公司Retro Biosciences.科技部近期启动的“AI for Science”专项部署工作更是明确指出了将人工智能与数学、物理、化学、天文等基础学科紧密结合,重点攻关药物研发、基因研究、生物育种研发、新材料研发等领域的关键问题.
我们沿着概念经典表示和人工智能分类的讨论来看AI 未来可能的发展路径.《左传》里有句名言,“太上有立德,其次有立功,其次有立言”.显然,立德属于心理世界,是情感智能的范畴;立功属于物理世界,是行为智能的范畴;立言属于符号世界,是认知智能的范畴.应该指出,这3 个世界既互相独立又相互依存.比如,符号世界也必须通过心理世界表示才能为人所感知,同样符号世界也必须通过物理世界显现展现才能传播.对于人而言,认知的物理世界本身也属于符号世界的示例,没有成为符号示例的物理对象难以被符号世界记录,同样,物理世界也是通过心理世界被人感知.
这3 个世界各自都足够复杂.在符号世界中,有自然符号、模拟符号和象征符号.其中自然符号直接用物理世界中的对象作为符号,比如图书馆里学生用书包或其它个人物品占座.此时的书包或个人物品就有了符号意义,属于典型的自然符号.图像、视频等是典型的模拟符号.文字是最常见的象征符号.至于心理世界、物理世界的复杂性,更是众所周知.
为了计算方便,通常假定概念的三指等价,即符号世界、心理世界、物理世界三界同构.比如,符号主义的物理符号系统假设认定物理符号系统具有产生智能行为的充要条件,这暗示了符号世界与物理世界等价.连接主义认为只要能模拟大脑的思考功能就足够了,实际上它假设了心理世界(或其子集)与物理世界等价.行为主义则认为只要能在物理世界实现智能,不需要知识、表示和推理,只需要感知和行动,这意味着符号世界、心理世界是物理世界或其子集.但是,3 个世界并不同构.比如,乔姆斯基曾经写过一个著名的句子:“Colorless green ideas sleep furiously.”这个句子在符号世界可行,但在心理世界和物理世界就失去了可行性.因此,3 个世界同构假设仅是一种有用的简化,并不总是成立.
由于3 个世界并不同构,它们之间的关系相当复杂.这导致在3 个世界中实现智能的难度也大为不同.从共性上讲,无论在哪个世界实现智能,首先必须解决最基础的感知问题,即输入输出问题.从难度上看,感知智能、认知智能、情感智能、行为智能依次增加.原因很简单:感知智能保持了3 个世界同构假设.从认知智能开始,我们必须放弃3 个世界同构的假设,只能假设3 个世界的某些受限子集同构.认知智能旨在解决符号世界的智能问题,其实现主要受制于符号世界的规律,这些规律可能是显知识,也可能是暗知识,但认知智能依然在符号世界内预设概念的三指等价.情感智能主要解决心理世界的智能问题,除了受制于心理世界外,也受制于情感所在的物理个体,即情感必须在认知层面具备具身特性.理论上,西施难以与青蛙共情,夏虫不能与秋雁同语.对于机器来说,情感智能是基于认知智能的,情感智能也是依赖于机器内部的符号操作.仅有认知智能并不能实现情感智能,情感智能的实现难度髙于认知智能,情感智能预设心理世界内的概念三指等价.行为智能主要解决物理世界的智能问题,不但受限于作为行为主体的自身物理条件,也受限于其所处的物理环境,约束最多,因此实现难度最大.莫拉维克悖论实际上是对行为智能实现难度最大的一个简单说明.对于行为智能来说,任一概念的三指等价都需要检验,任一概念的三指等价都不能先验预设成立,这正是莫拉维克悖论背后隐藏的挑战.图4 比较清楚地说明了概念的三指等价性从默认成立到必须检验所对应的不同智能阶段.
Fig.4 Equivalence of three-way concept reference w.r.t intelligence levels图4 三指等价在不同层次智能的适用性
根据以上分析,人工智能的发展路径可以预测为:首先成熟的是感知智能,次之为认知智能,再次为情感智能,最后是行为智能.这与人工智能目前的现状相符.当前,感知智能的问题已经大部分解决,已经融入人们的日常生活.得益于ChatGPT 等技术,认知智能的问题已经初步解决,即将走入人们的生活.情感智能的问题部分解决,受限可用,比如在三界同构假设成立时,可以使用类ChatGPT 技术.行为智能的问题尚极具挑战性,在目前的情况下可用性受到严重限制,如在工厂等封闭场景下部分可用,人们日常生活的特定需求如果能保证场景封闭,即对应的相关概念可以保证三指等价成立,则行为智能可以实现,如自动售货机、自动烤肠机、电饭锅、懒人锅等。保证概念的三指等价是行为智能成功的必要条件.
粗略地说,感知智能是人工智能中的基础智能,可视为人工智能的1.0 阶段.认知智能是人工智能的2.0 阶段.情感智能则为人工智能的3.0 阶段.行为智能可以看作是人工智能的4.0 阶段.目前的人工智能发展已经进入了AI 2.0 时代,未来的AI 3.0 和AI 4.0还有待努力.
人工智能发展至今已迈入认知智能时代,确实取得了重大进步.虽然离AI 3.0 和AI 4.0 距离尚远,但其依然将对我们的生活产生重要影响:
1)生成式人工智能的成功提醒我们,符号世界、心理世界、物理世界三界同构假设不是恒真.今后,各种符号的证据力量需要检测,不能预设概念的三指等价为真.比如,不能再简单地认为,有图有视频就有真相了.这不仅大幅增加认知成本,还考验认知能力.目前,国内外已有用生成式人工智能诈骗的案例。如何防范这类诈骗是未来要面对的挑战.
2)每次技术进步都对教育提出了更高的要求,这次也不例外.ChatGPT 展现出的认知水平要求人们更注重提出问题和独立判断的能力.鉴于符号世界的人类普适性,教育尤其是高等教育需要提前布局.
3)ChatGPT 表明认知智能已可用,但依然不能通过原始的图灵测试.这表明图灵测试是有启发性的思想实验,但不是衡量智能的实践标准.
4)ChatGPT 的成功为国内人工智能学术界带来机遇与挑战.机遇包括提高学界对相关问题的理解,例如任务的主观性,以往的多任务可能在新视角下视为单任务;同时,全社会也提升了对人工智能潜在能力的认识,这将极大推动相关产业的发展.然而,挑战也不容忽视:应用研究方面,社会对技术的期待提高,更加注重实效性和实用性;理论研究方面,该技术已领先于理论,亟需加强理论研究.
5)类ChatGPT 技术的大规模应用可能导致意识形态等方面的信息茧房效应.特别是类ChatGPT 是中心化的人工智能平台,容易使人们在获取信息时只接触到特定内容和片面观点,这一方面会加剧社会分化,另一方面会降低观点多样性,阻碍创新思维的产生,为社会带来潜在危害.
6)大模型对计算量的巨大需求可能会加剧全球能源消耗,并对环境产生不良影响.我们期望AI for science 通过加速科学发现,更迅速地找到可持续能源解决方案和新的节能技术,从而尽量降低这些负面影响.
7)ChatGPT 在提高生产力方面潜力巨大.通过自动化处理一些繁琐的、重复性的任务,它可以解放人们的时间和精力,让人们关注于更有价值、更具创造力的工作,进一步推动社会创新和发展.
8)ChatGPT 的出现,预示人工智能进入AI 2.0 时代,但距离AI 3.0 与AI 4.0 尚远.AI 3.0 与AI 4.0 均要求具身.一旦具身,如何通用?从概念的表示理论来看,AGI 似乎只可能是AI 的理想,难以成为AI 的现实.
作者贡献声明:桑基韬负责撰写第1、2、4.1 节;于剑负责确立论文框架、撰写第3、4.2、5 节.