李高勇 刘露
人工智能(Artificial Intelligence, AI)大模型是指利用深度学习技术对大规模数据进行训练,获取从输入到输出之间映射关系的AI模型。如果训练数据是文本数据,这样的AI大模型就是大语言模型(Large Language Model, LLM)。2022年Open AI公司发布的ChatGPT就是大语言模型,它可以精准地理解自然语言,生产流畅连贯的自然语言文本。随着算力的迅猛发展和大模型厂商之间竞争的加剧,AI大模型的训练物料也向诸如图像、视频等其他多种类型数据(也称之为模态,modal)拓展,并实现异构模态的协同推理,大模型也从单模态发展为多模态(multimodal)大模型。2023年3月,Open AI发布的ChatGPT4.0版本就升级为多模态大模型。谷歌发布的Gemini也属于多模态大模型,它可以识别文本、图像、音频、视频和代码五种类型数据。
大语言模型的出现提升了人们对利用人工智能完成对话和提问等任务的期望,它的实际应用也确实展示出变革人们生活和工作的巨大潜力。例如,基于大语言模型的对话系统可以与用户进行自然语言交互,理解用户的意图并生成有意义的回复。这类对话系统在客户服务、智能助手等领域有着广泛的应用。大语言模型用于搜索引擎,可以提高搜索结果的准确性和相关性,让用户更容易找到需要的信息。例如,微软将ChatGPT集成到搜索引擎中,融合了以链接为中心的传统搜索模式和新的AI模式。新的搜索引擎能更好地回答传统搜索引擎不擅长的、更复杂和更开放的问题,并以更容易理解的方式呈现整合后的搜索结果。例如,用户搜索旅游目的地时,整合了大语言模型的搜索引擎直接给出易于理解的旅游攻略,大幅提升搜索體验。
相较于大语言模型等单模态大模型,多模态大模型能处理不同类型的数据,特别是非典型模态数据——3D视觉数据、深度传感器数据和自动驾驶中的LiDAR(激光雷达)数据等,为AI提供更完整的输入,帮助其更好、更普遍地理解外部环境,并且协同多模态数据进行推理以适应和应对环境,带来更真实、更流畅的人机交互体验。因此,多模态大模型也赋予了AI更丰富、更深层次的应用。
当前多模态大模型的应用主要集中在医学诊断、行为识别等领域。在医学诊断方面,多模态大模型能结合影像数据(包括CT和X光影像等)、临床数据(各种医疗仪器获取的生理指标)和生化数据,协同推理病人生理状态并辅助医生作出诊断。在人类行为识别方面,多模态大模型能够通过识别语音和肢体动作,更清晰地理解人类的意图,更精确地推断人类行为的目的。在安检领域,国内某公司开发的多模态大模型可以同时识别人的手势和面容,从而实现智能化的电子警察卡口;也可以协同视觉模态(面部表情)和音频模态(音调和音高)识别情绪,即通过“察言观色”进行情绪识别。
多模态大模型展示出在企业管理,特别是在支撑企业数字化转型方面的巨大潜力,其中一个重要的体现就是多模态大模型能够弥合业务和技术之间的认知差异,实现业务人员和技术人员的社会匹配(Social Alignment),降低数字化转型的难度。多模态大模型配合无代码和低代码等技术可以实现技术平民化,消除业务和技术间的认知鸿沟,助力业务人员主导的数字化转型,甚至能配合AI智能体实现数字化转型的自动化。本文重点关注多模态大模型如何助力企业数字化转型。
实施数字化转型,即利用数字技术彻底改造原有的商业模式、运营模式和生产/服务模式从而实现能力的全面升级,是企业适应动荡环境和获取新型竞争优势的首要战略选择。然而,数字化转型与其他类型的组织变革存在本质上的差异,它具有颠覆性和外源性两个特征。颠覆性指的是数字化转型是对企业的彻底变革,这个特征已经被人们所熟知,所以大部分企业在实施数字化转型时会采取“一把手负责制”和领导参与转型等方式来降低颠覆性带来的负面影响。
数字化转型还具备外源性的特征,即对企业来说,数字化转型的动因并非业务的变化,而是和自身业务差异极大但又非常专业且有较高学习门槛的数字技术的迅速兴起。数字化转型的实质是融合业务和数字技术来打造新生产运营模式,但是工作岗位职责、个人经历和背景等方面的差异导致业务(人员)和技术(人员)存在巨大认知差异。业务人员无法理解技术知识,技术人员同样难以理解业务知识,这阻碍了业务和数字技术的融合。Nash Squared在2022年11月调查了超过2100名领导者,其中54%的领导者表示业务和技术之间的认知差异已经成为阻碍变革的重要因素。
当前业务和技术之间的认知差异主要通过培训和学习等方式弥合。业务人员的时间精力被日常工作占据,而且还存在认知惰性;对技术人员来说,随着数字化转型的走实向深,个性化的业务需求越多且越难理解,简单的培训和学习以及传统的需求分析方法的效果并不显著。因此,如何弥合技术和业务之间的认知鸿沟成为数字化转型过程中必须要解决的问题。多模态大模型的特征和优点为解决这个问题提供了新的思路。
能够理解信息并从中推理出合理的结论是大模型的基本能力,因此大模型可以充当不同部门间的“翻译”,成为知识传递和共享的桥梁。在数字化转型情境中,大模型可以将业务知识“翻译”成技术知识,或者将技术知识“翻译”成业务知识,从而缩小、跨越甚至消除技术和业务之间的认知差异,加速业务和数字技术的融合。
首先,多模态大模型可以为不同部门的人员开发个性化的学习方案,增强学习和培训的效果,从而缩小业务和技术之间的认知差异。例如,汤森路透推出GenAI教育计划,其中一项重要的培训内容就是利用多模态大模型针对培训对象的个体特征以及工作职责开发内部学习资料。在该教育计划中,大模型会为相同的问题开发不同的学习内容,譬如针对系统开发人员在学习资料中嵌入矢量数据信息相关内容,针对开发工程师在学习材料中加入如何对版式进行调整等内容,使技术人员能更深刻地理解业务需求。这种个性化的学习方式提升了技术与业务之间的社会匹配,成为转型的“润滑剂”。
多模态大模型提供了更好的人机交互界面,为场景化学习和培训提供工具。多模态大模型能够将文本知识转换成更符合人们认知习惯的图片和视频,也能够拆解复杂场景,降低学习难度。以IT服务公司Ensono为例,其在提供转型服务时需要分析和理解被服务公司的工作流程,传统情境下这项工作耗时费力且容易出现理解上的偏差。该公司引入多模态大模型服务,拆解被服务公司的业务流程并实现可视化,帮助技术人员理解业务。
其次,多模态大模型帮助业务和技术直接跨越认知差异,促进数字化转型的实施。相比于大语言模型这样的单模态大模型,多模态大模型可以开展深层次学习,挖掘深层次知识,从而推进企业数字化转型向更深层次扩展。例如,多模态大模型能够处理传感器数据,这些反映了工业机理、工艺原理的数据是难以通过传统的需求分析获取的,将这些数据与产品质量和销量数据等协同推理,助力企业实现生产模式的转型。
传统的判别式(Discriminative)人工智能通过分析输入数据和对应的输出标签之间的关系来进行分类和决策,缺乏对数据生成过程的建模,因此导致了预测过程不透明、预测结果不可解释等问题,降低了人工智能的可信度,阻碍了人工智能在组织决策方面的应用。大模型属于生成式(Generative)人工智能,尽管分析过程依然不可见,但可以针对其输出进行提问。结合长期和短期记忆,大模型能够复现决策过程,为输出做出合理解释,从而提升可信度,有助于实现非程序化决策的数字化转型。
再次,多模态大模型彻底消除了技术和业务之间的认知差异,实现完全由业务方主导的数字化转型。多模态大模型开始走向标准化和模块化,实现模型即服务(Model-asa-Service, MaaS);配合AI智能体,可以在没有技术人员介入的情况下实现数字化转型的自动化。例如,微软在桌面系统Windows 11和办公软件Microsoft 365中集成AI助理Copilot,帮助不太精通系统操作的用户在没有技术人员帮助的情况下实现专业级的人机交互和系统操作。
基于生成式人工智能的大模型能够生成新的数据样本并进行学习,实现了自我学习和自我适应。这意味着大模型能够从自身的经验中学习,并根据这些学习成果来改进其性能。传统的IT技术具备刚性架构和很强的专业性,一旦实施刚性系统就会锁定用户业务流程。当用户业务发生变化时,系统难以实现同步调整,这就形成“IT锁定”的现象。大模型自我进化的能力配合低代码和无代码技术,当企业的业务流程发生变化时,大模型自主学习协同处理新业务流程中的物流、资金流、信息流、责任流、风险流等,推理出更合理的新流程;业务人员调整无代码和低代码平台以适配新流程。大模型甚至可以直接调整系统,实现无须技术人员介入的数字化转型。
多模态大模型尚处于发展初期,但已经展示出巨大的潜力。从大模型消除业务和技术间的认知差异出发,结合当前的先行应用,以下将从研发环节、生产控制、客户服务及产品创新等几个方面分析多模态大模型如何助力数字化转型。
研发环节
在数字技术赋能下,研发已经从实验验证发展到模拟和仿真的模式,即通过仿真技术处理生产经营中积累的大型数据集,并基于特定的规则进行批量建模,再利用“数字孪生”对3D模型进行试生产以验证可行性。当前的大型数据集需要根据仿真软件的需要进行清理定制,严重限制了数字化研发的深度和应用范围。多模态大模型直接将消费端数据(如同类和类似产品的在线评论等)纳入到研发过程,协同处理消费端与生产研发端的数据,以研发更能满足市场需求的产品。
本文作者参与的一款饮料的开发就展现出了多模态大模型在研发中的潜力。当前最为主流的饮料研发是成分组学,即分析原材料中的风味物质后,通过改变它们的配比以获取最符合市场口味偏好的产品。然而,这个过程中存在着两个问题:第一,产品过程需要发酵,而发酵过程不可控,导致风味物质不可能直接精确控制,需要通过其他方式进行间接测量和控制;第二,产品最终口感由专业品评人士凭主观感受判定,无法直接量化。为了解决这两个问题,研发团队尝试使用多模态大模型分析生产过程数据,尝试在风味物质与生产环境之间建立联系;同时,利用大模型的自然语言理解能力量化品评结果和消费者对产品口味的评价,最终获取最佳配方和最佳生产工艺。尽管研发进展并不快,但是该项目展示出多模态大模型在研发中的无限可能。
生产控制
生產控制领域是制造业最复杂的环节,也是制造业数字化转型的核心。但是这一领域数据埋藏深,数据类型多样化,数据关联广,数据间断点多,导致数字化转型服务商,甚至是制造企业的操作人员和业务人员都无法发现转型中的需求。
多模态大模型与物联网等技术可以实现制造业企业内部、产业上下游之间实时、泛在的连接,弥合企业数据流动过程中的断点,助力数据高效流动。同时,多模态大模型能对数据进行协同推理,调整不合理的业务流程,提升制造企业的协同效率,助力制造业走向智能协同生产。例如,西门子和微软在2023年4月宣布合作开发PLC(可编程逻辑控制器)的代码生成工具,以期实现基于业务场景的代码自动生成,实现操作和控制的自动化,助力基于生成式AI的自动化技术变革。
客户服务
客户服务是大模型商业化落地最为成熟的场景。客户服务事实上属于程序化决策,即大部分的客户诉求都存在程序化的解决方案。但是传统人工智能在处理自然语言时难以理解客户意图,也无法给出流畅自然的回答,限制了客户服务的自动化和智能化。
大语言模型理解并输出自然语言的能力解决了以往自动客服存在的问题,将客户服务环节推进到智能时代。大语言模型能够准确理解客户的自然语言并判断用户意图,之后根据设定的规则选择解决方案,以自然语言的方式向用户呈现清晰、易理解的回答。基于长短期记忆的能力,大模型还能够维护用户多轮对话上下文、跟踪对话状态以及生成对话策略等,以更符合人类行为模式的方式解决客户诉求,满足客户需求。
产品创新
当前数字化转型对产品创新的影响是将实物产品进行服务化衍生。例如,在个人层面提供可穿戴设备和智能家居等产品,在企业层面提供工业设备的远程维护和数据服务等。大模型的人机交互能力进一步助力终端产品的智慧化。
集成多模态大模型的终端产品协同语音、图像和身体姿态等数据,能更好地推理使用人员或者操作人员的意图,从而提高产品与用户的交互,为产品的服务化提供了新的方向。例如,将多模态大模型接入人形机器人,通过训练使其能够根据实际情况产生控制策略,操纵机器人实现“使用人的工具,实现人的能力”,这已经成为开启“具身智能”时代的钥匙。
需要承认的是,AI大模型特别是多模态大模型还处于发展的初期,引发了诸多的争议。从假设到验证、从理论到实践、从试点到普及是一个漫长的过程,社会各方面人士应通力合作,共同推进大模型对包括企业管理在内的经济社会的革命性颠覆。