法布里齐奥·戴阿夸 伊森·莫里克 凯瑟琳·克洛格 富兰希思克·坎德隆
2022年底,OpenAI发布了人工智能聊天机器人ChatGPT,开启了大模型领域的“速跑”模式,以真实的场景处理自然语言,实现了对话、阅读、翻译、写作、编程、数据分析等功能。2024年伊始,OpenAI再度掀起热潮,视频人工智能模型Sora横空出世,只需要一小段提示文本,Sora可生成长达60秒连续、稳定、高品质的视频,并且提示文本越充分、细节越精确,生成的视频就越真实。
事实上,ChatGPT也好,Sora也罢,都属于OpenAI训练的大语言模型(LLM),是通过无监督、半监督或自监督的方式,在海量的文本数据中掌握表达知识和能力的深度神经网络模型。
OpenAI研究发现,80%的美国员工至少有10%的工作任务会受到ChatGPT的影响。其中,19%的员工发现高达50%的工作内容会受到积极的影响。
红杉资本的报告指出,在特定领域,生成式人工智能将创造知识工作的边際成本降至零,将产生巨大的劳动生产率和经济价值。高盛曾预计,生成式人工智能会让全球财富在未来十年中增加 7%(近7万亿美元),推动生产率增长1.5%。
哈佛商学院、沃顿商学院、麻省理工学院、华威商学院联合波士顿咨询,发表了一篇题为《在参差不齐的技术前沿航行:人工智能对知识工作者的生产效率和质量影响的数据分析》的论文,首次探索了企业中生成式人工智能的实际应用,揭示了人工智能在提高绩效方面的潜力,为企业如何部署人工智能提供了关键的启示。企业在使用人工智能时必须审慎评估任务的性质和难度,以充分利用其优势,同时避免潜在的风险。
研究人员发现,虽然大语言模型可显著提高知识工作者的生产力和工作质量,但其三个特点决定了它对人类的影响将更为迅速且广泛。
快速迭代:随着模型规模的扩大和质量的提高,大语言模型能够在短时间内快速迭代,并获得超出预期的新能力。最近的研究表明,大语言模型在医学和法律等专业领域发挥了极高的水准,并在诸多创新指标上超越了人类。
绩效提升:无需太多组织和技术层面的投资,大语言模型可以直接提升员工的绩效表现,特别是在写作、编程等创造性工作方面。因此,预计大语言模型将对收入高、受过高等教育并从事创新性工作的员工产生更大的影响。
相对不透明:大语言模型的迭代是通过用户在实际使用中不断地试错和纠偏完成的。虽然大语言模型在完成某些工作目标时表现优异,但在某些任务上可能会表现不佳,比如产生看似合理却不正确的结果,在数学计算和文本引用上产生错误。更为棘手的是,这些容易出错的任务就像是黑箱,难以提前预测。
为了深入探究人工智能对高水平知识型员工的影响,研究人员招募了758名波士顿咨询的战略顾问,进行对照试验。参与者被随机分为两组:甲组(385名顾问)测试人工智能能力边界以内的任务,乙组(373名顾问)测试超出人工智能能力边界的任务。
在具体的实验流程中(如图1所示),甲乙两组的顾问首先在没有人工智能参与的情况下完成评估任务,建立个人绩效和能力的基准线。随后,顾问们被随机分配到三个不同的组别:无人工智能访问权限、有GPT-4 人工智能访问权限、有GPT-4 人工智能访问权限并具有及时的使用指导,完成和评估任务难度相似的实验任务。
甲组的实验任务B1中,顾问们要为一家鞋类公司的开发部门做新品提案,并在规定时间内回答指定的18个问题。
在创新力方面,要针对一个特定市场或尚未充分开发的市场提出至少10个新鲜的想法;为新品策划至少4个名字;用3~4句话描述新品的细节和特色。
在分析能力方面,根据目标用户分析鞋类行业的细分市场;罗列出潜在的竞争对手并解释原因;描述焦点小组里需要囊括的人群以及焦点小组里要讨论的5个问题。
在写作能力方面,要为新品的发布起草一份公关稿;按照《哈佛商业评论》的风格写一篇大约2 500字的文章,内容包括新品开发过程、市场策略和经验总结等。
在说服力方面,以一种激励人心的方式解释该新品为何能够打败竞品,等等。
这些任务充分模拟了新品上市所经历的关键环节。研究人员雇佣了专业的评分员对顾问们回答的每个问题进行打分考核,每个回答都有两位评分员打分,取平均分进入后续的数据分析,在工作速度、质量和能力等方面考察他们的工作表现。
实验结果表明,针对那些显然处于人工智能能力范围内的任务,以前需要大量人力才能完成,但现在有了人工智能的支持,效率可以大幅提升。
如图2所示,在人工智能能力边界以内,使用人工智能的两组成绩明显优于没有使用人工智能的对照组。具体从数据上看,没有使用人工智能的对照组完成了82%的任务,仅使用GPT的一组完成了91%的任务,使用GPT且有指导的一组完成了93%的任务,使用人工智能的两组平均比没有使用人工智能的对照组工作质量高了40%以上,速度提升了25%以上,任务完成度提升了12%以上。
乙组的实验任务B2中,顾问们根据复杂的财务数据和冗长的客户访谈文件,为某公司CEO从三个子品牌中,选择一个最有潜力的品牌进行投资,并通过分析数据和引用访谈对话证实为什么选择该子品牌,最终提供具有创新性和策略性的品牌增长建议。
顾问们需要从海量的数据中找出关键细节,做出精准的判断,并为CEO准备500~700字的汇报。最终结果显示(如图3所示),在超出人工智能能力边界的任务中,没有使用人工智能的对照组正确率达到了84.5%,仅使用GPT-4的一组正确率有70%,使用GPT-4且有使用指导的一组是60%。这意味着,与使用人工智能相比,没有使用人工智能反而高出了大约20%的正确率。
研究人員总结出人工智能的能力水平存在着明显的不均匀性,形成了所谓的“锯齿状技术前沿”(如图4中所示的红色实线)。当工作任务处于人工智能的能力范围内时,人工智能可以成为提升员工生产力和工作质量的强大助推器。然而,即便是在难度相似的情况下,一旦工作任务超出了人工智能的能力边界,人工智能的输出可能会变得不准确且缺乏实用性。在这种情况下,过度依赖人工智能可能会导致更多的错误发生,带来的风险大于收益。
但是由于人工智能的内部工作方式并不透明,其能力边界也在不断地扩展和变化,相似难度的任务可能会出现在人工智能的能力边界以内或以外,这使得人类很难掌握人工智能的能力边界,也不能确定某些任务是否适合使用人工智能。因此,在使用AI时,员工需要保持警醒的状态,交叉验证和审查人工智能的输出结果,确保专业的判断。
在实验过程中,研究人员还发现了人工智能对不同水平的顾问能力提升程度不同。具体来说(图5),低绩效的顾问在使用Chat GPT后工作质量提高了43%,而高绩效顾问只提高了17%。
此前,两组顾问之间的平均绩效差距为28.4%,但在使用了Chat GPT后,这一差距缩小到了4.7%。换句话说,人工智能缩小了低绩效员工与高绩效员工之间的差距,且水平越低的员工从人工智能中受益越多。参与论文写作的沃顿商学院教授伊森·莫里克曾在另一篇文章中提到,“人工智能就像一个均衡器(人工智能 as Leveler),低绩效的人获得了最大的收益”。
此外,实验中使用人工智能的顾问们在创意产出上出现了同质化的结果。与未使用Chat GPT的对照组相比,使用Chat GPT完成产品创新任务的顾问们想法多样性降低了41%。
这一发现印证了大语言模型的特征,过度依赖Chat GPT可能导致员工在处理相同类型问题时得到相似的答案,这不仅会削弱他们的个人创造力,也可能降低集体的创造力。与此相反,没有使用人工智能的员工可能会凭借其独特的创意脱颖而出,并取得显著的成功。
随着越来越多的企业将人工智能融入实际工作中,有些企业会优先考虑员工的高质量产出,而其他企业会更重视员工的探索和创新。该研究建议企业可以同时选择多种人工智能模型,建立一个丰富的AI生态系统,或者增加人类的参与,来抵消创意同质化的冲击。
值得一提的是,顾问们在使用人工智能时呈现出了两种不同的模式。一种是半人马式(Centaur),类似于神话中的半马半人生物,Centaurs在人和机器之间有明确的界限,根据每个任务的特点和能力,在人工智能和人工任务之间灵活切换。另一种是赛博人式(Cyborg),他们将任务流程与人工智能完全集成,并持续与技术进行交互。
毫无疑问,人工智能正深刻地改变着人类的工作方式。自ChatGPT问世以来,企业和员工一直在积极探索借助人工智能提升生产力的方法,而政府和学术界也在密切关注着人工智能潜在的风险。例如,过度依赖人工智能可能会抑制员工的创新能力,同时企业可能会逐渐不再将人工智能能力范围以内的任务交给初级员工。
在研究人员看来,与其争论知识型员工是否要使用人工智能以及员工和企业可能面临的利弊,不如跳出这些简单的二元思维,重新思考人类的工作流程和任务类型。我们需要全面评估人类和人工智能的协作方式,以及不同协作方式产生的价值,组织形态将会如何演变,企业如何提供专业的培训提升员工驾驭人工智能边界的能力,等等。
正如波士顿咨询负责运行该实验的高级合伙人富兰希思克·坎德隆所言,“公司不应该错误地将人工智能视为近适合用于‘初稿生成,并迫使人类改进。应该让人工智能专注于其擅长的领域,将人类解放出来,去从事更有意义的工作”。
【编译自Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality.,完整文章发布在Harvard Business School Working Paper, No. 24-013,September 22, 2023】