自OpenAI于2022年11月30日发布ChatGPT大语言模型以来,国内外各种各样的大模型快速发展。由于大模型具有大数据、大算力、强算法的特点,目前机构或个体一般以预训练的通用大模型为基座,通过提示词工程、检索增强生成、微调或预训练进行二次知识创造,最终形成行业大模型或者解决具体任务的自训练模型。
例如,2024年中秋前夕,广联达发布了建筑行业的AI大模型白皮书,预示着中国建筑软件行业第一个大模型出现。这个行业大模型是针对行业特定数据和任务(如建筑规划、设计、交易、成本、施工、运维及综合管理等)进行定制化训练和优化形成的,具有行业专业知识和技能。
又如,针对冲压时产生的废料偶发性卡塞影响生产效率,并存在打坏模具风险的问题,上汽大众仪征工厂进行了视觉自动化监测废料通畅的尝试。项目组首先通过相机捕捉废料槽实时画面,之后使用图像增强和形态学处理等方法,利用帧差法实现废料的识别,进而建立不同模具的废料数学模型,并基于VI+AI技术开发模具废料实时监测系统,实现了对冲压废料的实时智能监控,从而能够及时发现卡废,减少清理难度,减少停机时间。
与传统以人为主体的知识创造相比,基于大模型的知识创造的规律有何不同?机构或个体如何应用通用大模型进行知识创造?在知识创造过程中,人和AI的合作方式和角色分配是怎样的?人类智慧和人工智能在知识创造中如何形成互补?本文就这些问题展开分析和讨论。
基于大模型的知识创造有两个主体:人(个体和团队)和AI(具备深度学习能力的大模型)。以下就人的工作特点和通用大模型的特点展开分析,并归纳出基于大模型的知识共创模式、过程及其特点。
个体和团队的工作特点
作为知识创造者,人类的知识获取和整合能力、认知能力、偏好和价值观等影响着知识创造过程。野中郁次郎认为人类知识创造主体包括个体和团队,有四种知识创造形式:社会化(Socialization)、外显化(Externalization)、组合化(Combination)和内隐化(Internalization)。
社会化是指个体间的隐性知识转化,那些难以言传的心智模式、经验与直觉通过观察、模仿和亲身实践传递给其他个体。这种知识的传递是隐性的,依赖于个体间的直接互动和非正式学习。外显化是指个体将隐性知识转化为可以共享和交流的显性知识,通常通过语言、文字、图表等媒介让原本深藏于个人心中的知识明晰化,为团队所共享。组合化是指团队将显性知识进一步整合和系统化,形成组织层面的显性知识库。这一过程涉及知识的收集、分类、存储和分析,以便于更广泛的应用和传播。内隐化是指组织层面的显性知识被个体吸收和内化,转化为新的隐性知识。个体通过学习、实践和反思,将这些知识融入自己的知识体系中,为新一轮的社会化做好准备。
团队是组织知识创造的主体,团队目标的设置和分解、团队成员的选择和分工、团队成员之间的沟通和协作,均对团队的知识创造效果有重要影响。理查德·哈克曼和露丝·瓦格曼指出,构建高绩效团队需要满足三个必要条件:首先,团队必须拥有既具有挑战性又清晰明确的目标,并且这些目标对组织具有重大意义;其次,团队成员需要具备相应的胜任力,团队成员之间的技能和专长要互为补充;最后,团队应保持一定的稳定性,团队的边界要既清晰又具有一定的扩展性,成员之间相互依赖。
通过比较研究,我们发现普通团队和极限团队存在以下差异。第一,工作态度上,普通团队只是以专业精神完成工作,极限团队则是把工作当成一种使命并沉浸其中。第二,在团队协调上,普通团队注重团队成员个人的经验和能力,极限团队看重团队成员之间的适配性和任务完成的协作性。第三,在任务目标设置方面,普通团队设置很多优先事项,认为目标越多越好,极限团队则是注重有限的重要目标,坚持“少即是多”的原则。第四,在团队文化方面,普通团队努力营造一种高效且一成不变的文化,极限团队竭力打造一种既温情又严苛的文化。第五,在对待团队冲突方面,普通团队倾向于维护团队成员之间的和谐,避免冲突和不安,极限团队将冲突视为一种积极的动力,认为适度的不安可以激发团队的创新和进步。极限团队因其明确的目标、互补的技能、清晰的边界、协作的文化和对冲突的积极态度,在追求卓越和创新方面展现出更为明显的优势。
以OpenAI最近推出的o1大模型为例,这个大模型是由18位在各自专业领域表现出色的年轻科学家组成的极限团队精心打造的。首先,从团队目标来看,该团队的工作目标极具挑战性,对推动AI大模型的发展具有极其重要的意义。为了在这个模型中融合思维链技术(ChainofThought,简称CoT)和系统二思维模式,团队每个成员都孜孜不倦地工作并乐此不疲。第二,从团队成员构成和分工来看,团队成员大多拥有国际顶尖大学的教育背景和博士学位,并在AI领域积累了丰富的工作经验。他们在大模型的开发过程中有不同的角色和职责,但都做出了突出的贡献。例如,JieqiYu获得复旦大学本科学位、普林斯顿大学博士学位,曾在脸书(Facebook)工作了12年,目前担任OpenAI的工程经理,负责模型的安全性和稳定性。艾哈迈德·埃尔-基什基(AhmedEl-Kishky)和詹森·韦(JasonWei)在模型设计和实现过程中发挥了关键作用,前者拥有丰富的行业经验,参与推理研究,后者因提出思维链概念而广为人知。LilianWeng获得北京大学本科学位、印第安纳大学布鲁明顿分校博士学位,是OpenAI的安全系统负责人,为大模型注入了很多安全保障理念。第三,从团队文化来看,该团队的氛围非常和谐,同事们经常一起用餐、一起外出活动。第四,团队成员拥抱不同意见,理性对待观念上的冲突。团队成员都非常聪明且才华横溢,在专业问题上都有自己的见解,并充满热情地推动自己的想法,但是他们并不固执己见,如果遇到客观证据反驳自己的观点,也会愿意改变想法。
通用大模型的特点
通用大模型是一种可以处理多种任务的人工智能模型,通常是基于深度学习和自然语言处理技术开发的。通用大模型可细分为单模态大模型和多模态大模型。
单模态大模型指仅处理和理解一种类型数据的人工智能模型,即只专注于一种数据模态(文本、图像、音频、视频等)。这类模型通常是针对特定任务或领域进行优化和训练的,具有很强的专门性和深入的理解能力。例如,自然语言处理(NLP)模型专注于文本数据,图像识别模型专注于图像数据。由于只处理一种类型的数据,单模态大模型可以针对数据进行深度优化,从而在特定任务上表现出色。单模态大模型通常被应用于特定领域或任务,如机器翻译、图像分类、语音识别等。自然语言处理领域的单模态大模型有OpenAI开发的ChatGPT4o、谷歌开发的Gemini、Meta开发的LLaMA、百度开发的文心一言、阿里巴巴开发的通义千问和华为开发的盘古大模型等;计算机视觉(CV)领域的单模态大模型有微软开发的ResNet、谷歌开发的EfficientNet、JosephRedmon开发的YOLOv10等;语音处理领域的单模态大模型有Mozilla开发的DeepSpeech和DeepMind开发的WaveNet等。单模态大模型的应用场景有自然语言处理、计算机视觉和语音处理。
多模态大模型是一种能够同时处理和理解多种类型数据的人工智能模型。这类模型的主要特点是能够融合和综合多种模态的数据,从而在理解和生成复杂信息时展现出更强的能力。多模态大模型能够理解和关联不同模态之间的关系,如理解一段文字并找到与之匹配的图像,或是生成与图像内容相关的文字。多模态大模型具备处理多种任务的能力,如图像分类、文本生成、情感分析等,能够在一个统一的模型框架内进行多种任务的处理。比较知名的多模态大模型包括OpenAI公司开发的CLIP、DALL-E、微软开发的Florence、阿里巴巴达摩院开发的天元(Tianyuan)、中国科学院自动化研究所开发的紫东太初(ZidongTaichu)、小鹏汽车开发的小鹏(Xpeng)AI、广联达开发的AecGPT-V等。多模态大模型在许多场景中具有广泛应用,如自动驾驶、医疗诊断、智能客服等。
人+AI的知识共创模式
知识共创的主体之一人可细分为个体和团队,另一主体AI可以根据其处理信息的模态划分为单模态大模型和多模态大模型。由此可以形成四种知识共创模式:个体—单模态知识创造、个体—多模态知识创造、团队—单模态知识创造和团队—多模态知识创造(见表1)。每一种模式代表了人类智慧与人工智能在不同层面和维度上的协作与融合。
在个体—单模态知识创造模式中,个体利用专注于单一数据类型的AI模型来增强自己的创造力和问题解决能力。例如,作家使用专门分析文本的AI模型来提升内容深度和专业性。
在个体—多模态知识创造模式中,个体与能够处理多种数据类型的AI模型合作,以实现更为全面和创新的知识创造。例如,研究人员与一个能够同时分析文本、图像和声音的AI模型合作,以探索跨学科的研究问题。
在团队—单模态知识创造模式中,团队成员共同利用单模态AI模型来协作和共创知识。这种模式适用于需要团队智慧和AI在特定领域内深入分析的情况,如市场分析团队使用文本分析AI来解读消费者反馈。
在团队—多模态知识创造模式中,当团队与多模态AI模型合作时,能够实现跨领域的知识整合和创新。这种模式特别适合需要综合多种数据源和视角来解决复杂问题的场景,如产品开发团队利用AI模型来分析用户行为、市场趋势和设计元素,共同创造出新的产品概念。
这四种知识共创模式不仅展示了人与AI在知识创造过程中的多样化合作方式,也揭示了不同规模和模态的人工智能如何被应用于支持和增强人类的认知能力。
人+AI双环螺旋上升的知识共创过程
人和AI知识共创存在着两个互补且相互促进的循环系统:一个以人为中心,另一个以AI(大模型)为中心。这两个循环在各自领域内不断演进,还通过交互作用共同推动知识的深化与扩展。
以人为中心的知识创造循环是一个动态迭代的过程,包括社会化、外显化、组合化和内隐化四个阶段。这个循环在个体和团队的学习中不断螺旋上升,每一次迭代都深化了对知识的理解和应用(见图1)。
以AI为中心的知识创造循环遵循机器学习和深度学习的路径,包括数据收集和预处理、模型训练、模型优化和内容生成几个阶段。AI系统通过各种渠道收集大量数据,并对其进行清洗、标注和格式化,为模型训练做准备。对数据进行预处理后,AI模型通过算法学习数据中的模式和关联,逐步构建知识基础。在训练的基础上,AI模型不断调整和优化参数和结构,以提高预测和生成的准确性。经过训练和优化的AI模型能够生成新的内容、模式和解决方案,这些成果可以用于各种应用场景。以AI为中心的知识创造循环在机器深度学习的过程中也不断螺旋式上升,每一次迭代都增强了AI的智能水平和应用能力(见图2)。
以人为中心的知识创造循环和以AI为中心的知识创造循环并不是孤立的,它们相互交织、相互促进。人类的直觉、创造力和批判性思维可以指导AI的训练和优化,AI的强大计算能力和模式识别能力又可以扩展人类的认知边界和处理复杂问题的能力。这种双向互动形成了一个双环螺旋上升的结构,共同推动知识创造和知识应用(见图3)。
上海巡智科技有限公司(下文简称“巡智科技”)是一家为城市地下资产提供现场智慧管理解决方案的高新技术企业和专精特新企业,主要产品有AR智能管网管理系统、AI智能审核系统、小区泵房三维可视化、小区AR建设(地下管线+立体管线)等。其中,AR智能管网管理系统运用AR、AI、云计算等技术,以智能手机、平板、AR眼镜等为载体,实现了管网及其附属设备阀门、水表、消火栓等的智能化、可视化、便利化管理。
下面以巡智科技智能工单审核系统在二次供水水箱清洗中的应用为例,分析其以团队为单位应用单模态大模型进行知识共创的过程。
某市的水务公司将七万多只水箱池的清洁工作外包给第三方专业公司。水务公司采用一个水箱一张工单的作业质量监管制度,第三方专业公司的作业人员需要用手机拍摄清洗过程上传系统,由水务公司员工进行人工审核销单。由于上传的照片多达百万张,人工审核效率低,成本高。为此,水务公司委托巡智科技开发水箱清洁智能工单审核系统,以降低成本,提高工作效率。
巡智科技派出由1名产品工程师、1名测试工程师和3名开发工程师组成的5人团队负责这个智能工单审核系统的开发。整个开发过程包括了解工作流程和落实审核指标,收集和准备数据集,选择大模型并定义、训练模型,评估模型性能,将模型应用于审核实践。
了解工作流程和落实审核指标。项目组的工程师擅长AI技术但是不懂客户的工作流程和工单审核标准,所以要花很多时间去熟悉、学习、挖掘和规范相关的工作流程和标准。例如,客户的工作流程可能不是很完备,缺了某些环节或者不符合智能审核系统的要求,巡智的开发团队就需要制定一个工作流程给清洗水箱池的工人,让工人按照这个流程进行作业并拍照上传图片。又如,在落实审核指标时,项目组通过与客户沟通发现有一个叫“水质”的指标,即衡量水的含氧量、总氯等是否合格,于是,项目组就要求提交的照片中包括能够体现“水质”的相应信息。
收集和准备数据集。智能审核系统根据工单上提供的照片收集和准备数据集。如果提供的照片不符合要求,就难以收集数据,需要作业人员更新符合标准的照片。由于照片数量庞大,项目组在收集和准备数据库这个环节花的时间是最多的。数据集的数据质量和数量决定着模型训练效果。
选择、定义和训练模型。项目组选择YoloV8模型作为预训练大模型,这个模型采用卷积神经网络(CNN)实现对图像的分类和查重。工程师将数据集中99%的数据拿来做模型训练,留下1%的数据用于测试。在模型训练过程中,工程师要根据经验判断模型什么时候会收敛,模型输出的结果是好还是不好。考虑到模型训练的时间,工程师输入模型的数据是逐渐增加的,在训练过程中要移出数据集中的脏数据。通过不断增加数据集,在每一轮训练后调整YoloV8中的超参数(包括学习率、网络层数、激活函数、批处理大小、卷积核大小等),模型会不断优化,最终适配项目的任务要求。这是一个人和AI频繁沟通、不断互动、共同促进知识更新和知识生成的过程。
评估模型性能和应用于实践。项目组拿预留的测试数据来测试模型的有效性,当预测准确率达到95%时,就可以停止训练模型,将模型交付给客户使用了。在交付的时候,会将智能审核结果与人工审核结果进行比较,看哪一个准确率更高。当智能审核结果的准确率高于人工审核时,就可以由智能工单审核系统取代人工审核。
巡智科技以阿米巴的形式来管理项目组。组长由选举产生,且均为年轻人。每个项目组需要全流程闭环完成承担的任务,权利和责任前置,自我管理,有充分的自主权。项目组与客户沟通需求后会在组内进行头脑风暴,大家从各个角度思考可能的解决方案和难点。在头脑风暴的过程中,项目组成员也会通过询问chatGPT等大模型获取所需的信息并形成问题解决思路(这里有个体—单模态知识创造、个体—多模态知识创造)。在头脑风暴后,项目组制定一个工作流程,然后按照这个流程推进工作。头脑风暴是一个知识社会化、外显化、组合化和内隐化的过程。
智能工单审核系统在某市水务公司二次供水水箱清洗中应用3年后,共审核43万多份工单,处理了超过700万图片,其中超过110万张图片需查重,审核合格率从67.15%增至93.36%,重复率降至0.53%,有效达到了提升效率、降低成本的目标。
基于大模型的人+AI知识共创大概有三种互动模式,每种模式都体现了人与AI之间不同的合作方式和角色分配。这三种互动模式分别是嵌入模式(EmbeddingMode)、副驾驶模式(CopilotMode)和智能体模式(AgentMode)。
在嵌入模式下,人类专家定义整个任务的框架和目标,负责任务的主要部分,在特定环节会调用AI模型获取建议或辅助决策。AI在这一过程中扮演辅助角色,提供必要的信息和选项,最终的决策权和任务的完成掌握在人类手中。这种模式强调人在任务执行中的中心地位,AI只是一个增强人类能力的工具。
副驾驶模式下,人和AI是一种更为协作的伙伴关系。人类设定任务目标,与AI模型共同参与任务的执行。人类利用大模型的输出,还通过训练小型模型来优化和定制AI的辅助功能,使其更贴合特定任务的需求。在这种模式下,人与AI的关系更加平等,双方共同推动任务向前发展,相互之间的协作和沟通更加频繁。
智能体模式代表了一种高度自动化的合作方式。人类仅仅需要定义任务的最终目标和提供必要的资源,如数据集或计算资源,之后,AI模型将独立负责任务的规划、分解和执行。AI不仅执行任务,还自行判断任务的完成情况和结束时机。这种模式下,AI拥有更大的自主权,人类转变为监督者和策略提供者,负责监督AI的绩效并确保任务目标的实现。
前述智能工单审核系统的开发,采用了“嵌入”和“副驾驶”混合的模式。首先,项目组在项目开发的不同阶段通过ChatGPT等大模型来获取建议或辅助决策,采取的是嵌入模式。其次,项目组在开发计算机程序时使用Copilot辅助编码,包括生成代码、生成注释、解释代码和优化代码。最后,在智能工单审核系统开发完成并交付使用后,部分环节实现了智能化。例如,系统每天凌晨自动拉取前一天工单数据,使用多阶段策略获取数据,并存储“已完成”工单信息,确保数据安全。又如,系统自动更新和对比描述信息,分段下载文件,确保可靠性。下载后,系统验证、解包并保存数据,为后续处理提供基础。审核结果加密发送至客户服务器校验。但是,目标设置、模型优化和确定工单审核任务是否应该结束等工作还是由人工来完成。因此,在智能工单审核这项任务上,采用的是副驾驶模式。
总的来讲,人和AI在知识共创中是双向哺育的:人推动AI演变,AI增进人类智慧。人类智慧推动人工智能持续进化,人工智能的发展又反过来激发和促进人类智慧提升,智慧生命与智能机器之间相互促进、共同成长。
人和AI在知识创造过程中各有优势和劣势。相比人类,AI具有强大的学习能力和数据处理能力。例如,阿尔法围棋(AlphaGo)大模型能够打败世界顶级的围棋大师,一方面是因为学习了大量人类棋谱,包括顶级围棋大师的对弈记录,它还通过与自己对弈不断改进和优化下棋策略。另一方面,阿尔法围棋拥有强大的计算资源,包括高性能的GPU和TPU集群,这使它能够在短时间内进行大量的模拟和计算,快速评估和选择最佳走法。AI在知识创造中的主要劣势是创造力不足,在生成新颖和原创想法方面存在局限,通常依赖于已有的数据和算法。
人类拥有丰富的想象力和创造力,能够提出新颖的想法和解决方案,这是基于算法的AI难以比拟的。人类在知识创造过程中常常会经历“顿悟”的瞬间,OpenAI的o1团队成员将这种灵光一现的时刻称为“啊哈”时刻。顿悟是一种在特定时刻发生的意外突破,那一刻,所有的迷雾似乎都一扫而空,一切都变得清晰明了,仿佛一道灵感的闪电划破夜空。o1的团队成员分享了他们灵感闪现的“啊哈”时刻。其中一个例子是,当一位成员观察到通过强化学习训练模型生成和优化思维链技术(CoT)后,其效果竟然超越了人类编写的CoT,他非常振奋,此时他意识到了强化学习时间(训练时计算量)和推理时间(测试时计算量)对提高模型效率的重要性(新认知和新知识的产生)。另一位团队成员惊讶地发现模型在数学测试中的得分突然有了显著提高,进一步观察后发现这是由于模型开始自我反思、质疑自己的答案了。他强烈地感受到团队终于创造出了与众不同的东西,那一瞬间,仿佛所有东西都汇聚到了一起,大模型驱动的知识组合化和知识内隐化在这个团队成员的身上猛烈发生。这些“啊哈”时刻不仅是团队成员个人学习成长的标志,也是整个o1项目向前迈进的重要里程碑。
总的来讲,人类与AI在知识创造中的优势和劣势,可以让我们更好地理解两者在知识创造中的互补性,从而能够有效地结合人类的智慧与AI的能力来促进知识共创。