凯瑟琳·凯洛格 马克·森达克 苏雷什·巴卢
星期一上午10点。新AI(人工智能)工具开发人员阿曼摩拳擦掌地期待着预定于当天推出的一款新技术产品。此前,杜克大学医院(Duke University Hospital)ICU(重症监护部门)主管请求阿曼和他的同事们开发一款AI工具,以防止ICU人满为患的状况。研究表明,特定类型的心脏病患者无须入住ICU病房,因此ICU部门领导希望借助AI工具帮助急诊医生识别这部分患者,并将其转到非重症诊疗部门。这样既能提高对患者的照护质量,又能降低非必要成本。
阿曼和他的团队(由心脏病专家、数据科学家、计算机科学家和项目经理共同组成)开发出一款AI工具,让临床医生可以轻松识别这部分患者。该工具还在患者的电子病历中插入话语,解释他们为何无须转入ICU。经过一年的努力,这款AI工具的研发终于大功告成,准备投入使用。
时间快进三周。该工具的启动失败。一位急诊医生评论说:“我们不需要什么工具来告诉我们怎么做自己的工作。”这是一线员工对引入AI决策支持工具的典型反应。在快节奏的急诊室环境中,忙忙碌碌的临床医生们很排斥在常规工作流程之外还需承担向系统输入数据的额外工作,他们十分反感对急诊操作知之甚少的外人侵入自身专业领域。
类似的AI落地失败的剧情也在其他领域上演。尽管这些新的工作方式可以帮助组织提高产品和服务质量、降低成本并增加收入,但终端用户经常拒绝采用AI工具来指导决策,因为他们认为自己从中得不到什么好处,新工具可能意味着额外的工作量,并且导致他们失去自主权。
目标终端用户与高管或其他部门利益相关者之间在技术实施方面存在利益冲突并非新鲜事。但在AI工具时代,这个问题变得越发尖锐,因为AI工具具有预测性、指令性,而且其开发过程需要在开发人员和终端用户之间来来回回进行多番费力的交流。
那么,AI项目负责人该如何提高终端用户对AI工具的接受度和使用率呢?过去五年间,我们在杜克健康创新研究所对15种AI决策支持工具的设计、开发和集成进行了密切观察,提出了一套平衡利益相关者利益的最佳实践。我们发现,为了提高终端用户接受度和AI决策工具的使用率,组织和AI项目负责人需要增加AI工具使用的相关利益,减少AI工具开发的工作量,并通过保障终端用户的核心工作来确保他们的自主权。
针对AI工具的实施给医院管理方、终端用户和工具开发人员带来的挑战,我们收集了大量数据,特别关注那些已经成功实施的决策支持工具。虽然本研究的重点是医疗领域AI决策支持工具的落地实施,但我们发现,研究中发现的问题和动态也存在于其他环境中,如技术、制造、保险、电信和零售等领域。
AI项目团队希望实施的内容与终端用户愿意采用的内容发生脱节,主要源自三大利益冲突。
1.预测性AI工具的最大受益者往往是组织而非终端用户。AI工具提供的预测能让组织更早地对其价值链进行干预,组织和下游利益相关者都有可能借此提高质量、压低成本。然而,目标终端用戶通常没有直接的好处,就如上面的案例,急诊医生被要求使用一种能为ICU临床医生带来好处的AI工具。
一家在线零售商也面临着类似的情况:他们开发了一款AI工具,参照既往在组织中取得成功的员工画像,将个人简历与之匹配的主动求职者标记出来。该工具的目标终端用户是HR部门的人才搜寻官,他们过去经常忽略这些主动求职者,而更倾向于通过LinkedIn等社交平台进行搜索,因为他们试图吸引大量拥有稀缺技能的求职者,而主动求职者群体中很少有人具备所要求的技能。不过,与其他渠道搜寻到的候选人相比,主动求职者更有可能接受工作邀约,因此这款工具将使整个组织受益,也能让处于人才搜寻环节下游的HR面试官受益。
2. AI工具可能需要终端用户付出额外劳动,而他们并非工具的主要受益者。AI工具的开发需要在开发人员和终端用户之间来来回回进行多番费力的交流。长期以来,技术开发人员一直从事以用户为中心的设计,使用任务分析、观察及用户测试等多种手段来整合终端用户的需求,但AI工具需要终端用户更深度的参与。
由于构建AI工具需要大量高质量数据,因此开发人员依赖终端用户来识别和协调跨组的数据差异,并统一报告方法。开发人员还依赖终端用户在流程的每一步界定、评估和补充机器输入和输出,并验证指导终端用户决策的假设。
如果AI工具的主要受益者为下游利益相关者或高管,那么终端用户可能没有动力配合开发人员进行这种费力的来回交流。例如,急诊医生没有兴趣花费时间和精力去开发用于识别低风险心脏病的工具。
牛津大学(Oxford University)的研究人员在一家电信公司发现了类似问题:该公司开发了一款AI工具,旨在帮助销售人员识别高价值客户。虽然高管层有兴趣为销售人员提供一双AI技术的“慧眼”,但销售人员本身更重视维持一种个人之间的、相互信赖的客户关系,运用自己的直觉来发现销售机会。他们没兴趣参与一个费力的流程,来设计、开发和集成一种他们认为不会给自己带来好处的工具。
3.指令性AI工具往往会削弱终端用户的自主权。AI决策支持工具本质上是指令性的,它们向终端用户提出某种行动建议,比如将患者转至ICU。AI工具提供的指令使得内部第三方利益相关者(如组织的管理者或不同部门的利益相关者)能够看到目标终端用户的决策,甚至在一定程度上控制他们的决策。内部利益相关者(如高管)以前只能制定行动条款,终端用户将根据自己对具体个案的判断来解释和应用这些条款。AI工具现在可以告知这些判断,提供相应建议,并跟踪终端用户是否接受了建议,因此它们有可能侵犯终端用户的自主权。
例如,杜克大学医院一旦采用了用于识别低风险心脏病的AI工具,当急诊医生选择让心脏病患者进入ICU时,医院高管和ICU临床医生就能看到AI工具的建议,以及急诊医生是否遵循了该建议。急诊医生不喜欢旁人在没看到病人的情况下,闯进他们的领域指手划脚参与意见,并试图控制他们的决定。
一项在零售领域采用AI工具的研究发现了类似的情况。斯坦福大学(Stanford)的研究人员考察了一款为时尚买手设计的算法决策支持工具的实施过程。这些买手历来凭借自己对时尚趋势的经验和直觉预测未来需求,做出进货决策。例如,负责采购男士牛仔裤的买手们必须就款式(紧身、喇叭裤、直筒)和牛仔布颜色(浅色、中色、深色)做出选择。买手们拥有相当大的自主权,很不习惯将自己直觉判断的结果进行明确建模和评估。
我们发现,为了克服上述阻碍,促进AI工具的顺利实施,项目负责人需要解决终端用户与组织价值获取的不平衡问题。在实践中,这意味着增加与AI工具使用相关的终端用户利益,减少AI工具开发的工作量,并通过保障终端用户的核心工作来确保他们的自主权。(参见副栏“克服一线用户对AI落地的抵制”)
1.增加终端用户的利益
如果终端用户认为自己能明显受益于某种AI工具,他们就更有可能采用它。AI项目负责人可以运用以下几种策略来实现这一目标。
识别终端用户的痛点 虽然AI工具开发人员要时刻牢记组织目标,但他们也需要关注工具如何帮助目标终端用户解决日常工作中面临的问题,或适应该工具的使用所带来的新的工作负荷。例如,杜克大学医院的心脏病专家要求项目团队创建一款AI工具来检测低风险肺栓塞患者,以便将此类患者安排到门诊治疗,而不要留在成本高昂的住院部治疗。项目团队接到请求后,立即联系了该工具未来的终端用户——急诊医生。项目团队成员了解到,急诊医生的痛点是,如何迅速为低风险肺栓塞患者做好出院准备,并确保他们获得所需的门诊治疗。
前文提到的那个试图利用AI工具筛选主动求职者的项目负责人也采用了同样的策略来识别HR部门人才搜寻官的痛点。开发人员了解到,人才搜寻官经常无法尽可能快地为候选人安排面试,原因是下游面试官没有足够的处理能力。
显然,AI项目负责人应当重点关注工具如何帮助目标终端用户解决日常工作中面临的问题。那么他们为何经常做不到呢?原因就在于,最先来接触他们、为AI工具开发提供资源的人,通常是从工具中获得最大收益的高管或下游利益相关者。结果项目负责人往往把这些人看作主要客户,而忽略了吸引目标终端用户参与的必要性。
制定干预措施解决终端用户的问题 在杜克大学医院引入肺栓塞识别工具,可能会加剧急诊医生面临的问题,即没有一种简单的方法来确保低风险肺栓塞患者一经识别,即可轻松稳妥地为他们安排好后续门诊治疗。项目团队了解到这一点之后,就开始全力解决如何使急诊医生轻松地为这类患者安排后续诊疗的问题。
同样,HR筛选工具的开发人员注意到,HR人才搜寻官难以为AI工具标记出的候选人适时安排面试,于是他们便开始考虑如何增加HR面试官的“带宽”,最终建议聘请专业人士进行面试前筛选服务,以减少当前HR面试官的工作负荷。
强化终端用户激励,以实现AI工具意在改进的结果 组织通常不会对终端用户使用AI工具指导决策后的改进结果进行评估和奖励。例如,杜克大学医院对急诊医生的评估标准是他们识别和治疗急性常见病的能力,而不是他们识别、治疗低风险肺栓塞等罕见病的能力。AI项目团队与医院领导一起修改了激励制度,在急诊医生的评估标准中加入了一项“识别和分类低风险肺栓塞患者的能力”。
与此类似,前文案例中希望引入HR筛选工具的高管意识到,他们需要改变对终端用户的激励措施,以实现AI工具意在改进的结果。当HR工作人员使用AI工具时,如果仅根据传统绩效指标(如搜寻到的拥有稀缺技能的候选人总数)对他们进行评估,可能显得他们的工作效率低下。高管层认识到,需要调整对他们的评估和激励措施,使得员工不仅有动力去寻找大量拥有稀缺技能的候选人,而且會更积极地寻找大量能最终接受工作邀约的候选人。
当然,AI项目负责人无法轻而易举地增加对终端用户的激励。这是因为,从AI工具中获得最大收益的利益相关者通常不是管理目标终端用户绩效和薪酬的人。AI项目负责人通常需要获得高管的支持,以帮助修改这些激励措施。
2.减少终端用户的工作量
AI开发团队可以通过多种方式最大限度地降低向终端用户求助的程度。
在工具设计环节,尽量减少与构建数据集有关的终端用户工作量 用来训练AI工具的数据必须能够代表目标人群。这需要大量的训练数据,但汇集这些数据并协调数据集之间的差异非常耗时。AI项目负责人可以引入第三方利益相关者参与数据构建,从而最大限度地减少与此类工作相关的终端用户工作量。例如,杜克大学项目团队曾开发了一款AI工具,以便更早地检测出晚期慢性肾病高风险患者。该工具所需的数据分别提取自电子病历和索赔数据,并且两个数据源彼此不一致。项目团队没有麻烦该工具的目标终端用户(首诊医生)来承担数据清洗任务,而是在该工具的主要受益者即肾科医生的帮助下验证数据,并完成异源数据之间的标准化。
AI项目负责人也可以先选取一个足够好的AI工具,使用当前可用的、规模相对较小的数据集对其进行训练。例如,一个AI项目负责人要开发一种工具来帮助某制造企业的销售人员识别潜在高价值客户,他希望在汇集相关数据集环节尽可能地减少终端用户的劳动。AI团队并没有要求销售人员花时间完善销售流程中各个里程碑的日志数据(诸如潜在客户、合格潜在客户和演示数据),而是先构建了一个系统,其模型足够好用,只需要较少的训练数据,因此销售人员需要准备的数据就比较少。
在工具开发环节,尽量减少与测试和验证相关的终端用户工作量 一旦构建起AI工具的雏形,开发团队需要与终端用户进行耗时的来回沟通,以帮助测试和验证AI工具的预测效果,并调整工具,提高其实际效用。通过引入第三方利益相关者参与审核,可以最大限度地减少这一环节的工作量。例如,某项目团队正在为一家制造企业开发一款识别最佳销售线索的AI工具,该团队邀请了流程改进团队的负责人而不是销售人员来对工具进行初步评估。流程改进团队负责人帮助他们确定了客户转化率的成功指标。所谓客户转化率是指潜在客户后续转化成实际客户的百分比。他还帮助他们对该工具识别的销售线索与常规销售流程中识别的销售线索进行了A/B测试,对比了两者的转化率。
AI项目负责人往往可以做更多事情来帮助终端用户更轻松地评估模型。例如,杜克大学研发慢性肾病高风险患者检测工具的项目团队发现,终端用户很难确定将患者划入高风险范畴的风险评分阈值。项目团队成员使用交互式图表帮助他们查看特定分值的患者最终发展为慢性肾病的百分比,从而使终端用户更容易设置区分高风险和中风险患者的阈值。
在工具集成环节,尽量减少与工具使用相关的终端用户工作量 注意简化用户界面和自动化相关流程,有助于减少用户内心对于AI工具给他们增添了额外工作负担的感觉。这里有一条经验法则:永远别要求用户输入系统可以自动检索的数据。如果可以实际预测用户想要的是什么并且预备好界面让他们使用,那就更理想了。
另一个例子来自阿姆斯特丹自由大学(Vrije Universiteit)Kin数字创新中心,他们正在开发一款用于筛选应聘者的AI工具。开发人员首先通过颜色编码,显示某候选人与以往取得成功的员工画像的匹配度,使该工具更方便消费品公司的HR招聘官使用:将匹配度达到72%及以上的候选人标记为绿色,未达到这一标准者标记为橙色。最后,开发人员将该流程进一步自动化,使招聘官可以单击一个按钮,命令AI工具自动过滤掉所有预测成功率较低的候选人。
另一个策略是重新分配使用工具所需的一些额外工作。例如,杜克大学医院的急诊医生们(慢性肾病AI工具的目标终端用户)备受“警报疲劳”之苦,因为他们还会收到其他多种自动临床决策支持工具发出的警报。杜克大学AI项目负责人决定创建新的临床岗位,指派这个人使用AI工具远程监控杜克大学医院所有首诊医生主管的患者——总计有5万多名成年人。当AI工具将某位患者标记为慢性肾病高风险时,负责远程监控的临床医生会通过图表审查对警报进行预筛,如果判定该患者确实存在慢性肾病高风险,就向首诊医生发送信息。当首诊医生收到此消息,而且同意该患者可能存在慢性肾病高风险,就会将其转给肾病专家诊治。
3.保护终端用户自主权
人类向来珍视自主权,并从自身积累的工作把控能力和知识中获得自尊。因此,当AI工具允许来自领域之外的利益相关者影响他们的决策时,用户自然会感到不安。成功的AI实施需要敏锐感知它可能对终端用户与其工作的关系产生怎样的影响。开发人员可以通过以下一些方式来处理这方面的问题。
保护终端用户视为工作核心的任务 败血症是一种引发全身炎性反应、最终导致器官功能衰竭的感染,杜克大学项目团队开发了一款帮助检测和管理败血症治疗的AI工具,却遭到目标终端用户——急诊医生——的合力抵制。医生们希望继续把控关键任务,比如对患者做出诊断的最终话语权、开具药物和血液检查的处方权等。项目团队调整了AI工具的设置,使其做出的预测不致影响上述关键任务,但能切实帮助急诊医生们完成一些不被他们特别看重的重要任务。
在前文介绍的时尚买手的案例中,AI工具开发人员了解到,买手们希望继续把控他们认为有创造性或战略意义的任务,比如,决定喇叭裤或红色牛仔布在牛仔服饰采购总量中所占的百分比。项目团队调整了AI工具的设置,使之符合时尚买手的期望:如果买手的意愿是购入红色牛仔布,他可以将此作为一个输入项添加到AI工具的建议清单中,系统就会最先填写红色牛仔布订单。
项目团队开发的AI工具应避免影响终端用户视为工作核心的任务,这似乎是不言而喻的常识,但AI项目负责人有可能落入这个陷阱,因为对核心任务的干预通常有望带来更大收益。例如,AI项目团队最初为某零售组织构建了一款AI工具,用于指导时尚买手的决策。在这个经营环节上的决策失误将导致两种不良后果:一是采购囤储的货品不符合市场需求,以致丧失收入机会;二是由于采购了错误的产品,随后不得不降价销售,造成毛利率损失。可是,由于买手们排斥这一工具,开发人员只好转而从流程的另一端想办法,他们开发了一款工具,帮助商家决定何时对滞销服装降价出售,同时确定降价幅度。
这款工具最终实现的价值获取比原定方案少得多,因为它只关注零售流程的终末阶段。然而,聪明的AI项目负责人已经懂得,AI工具只要能落地实施,哪怕只干预一组有限的任务,也比理论上能提供更多价值却始终不能落地的干预终端用户核心任务的工具更有效。
允许终端用户帮助评估AI工具 引入新的AI决策支持工具,往往需要将目标终端用户接纳的旧工具替换为可能会削弱终端用户自主权的新工具。例如,用于败血症检测的AI工具威胁到急诊医生的自主权,而当前基于规则的败血症检测工具则没有这个问题。为了保护终端用户自主权,项目团队邀请了当前所用工具的主要开发人员,请求他们帮助設计一个测试新工具有效性的实验。
哈佛商学院(Harvard Business School)的研究人员在对一家零售组织的研究中发现了类似的情况:该零售组织开发了一款AI工具,旨在帮助时尚品调拨人员决定将各种码号和款式的鞋子分配给哪些门店以及配给数量。该工具使得流程之外的管理人员能够看到调拨过程中发生了什么,这就有可能会威胁到调拨人员的自主权,而基于规则的现有工具则不存在这个问题。为保护终端用户自主权,项目团队请时尚品调拨人员协助设计了一个A/B测试,以评估现有工具与新AI工具的性能。
在评估过程中给予目标终端用户发言权,听起来完全合情合理。然而并非所有的AI项目团队负责人都能做到,这是为什么呢?原因在于,每当你让终端用户选择对他们工作的哪些领域进行测试,他们总会选择最难的部分。但是这个步骤不能跳过,因为这些人正是需要根据AI工具所提建议采取行动的人。
从一开始就让终端用户参与进来 AI项目负责人经常在开发的早期阶段刻意不声不响,以避免遭到用户抵制。但是,不及早邀请用户参与进来,项目成功的可能性就会大减。用户会因迟到的邀请而不满,并且一直心存芥蒂。哪怕AI工具能够使流程完全自动化,也需终端用户接受才能发挥作用。成功的AI项目负责人懂得,在项目一开始就邀请终端用户参与进来,将大大增加成功的可能性。
在AI技术闪闪发光的承诺背后,隐藏着一个严峻现实:哪怕是世界顶尖的AI工具,如果不被接受就毫无意义可言。为了争取一线用户的认可,领导者必须首先认清AI实施中的三个主要利益冲突:AI工具的目标终端用户看不到自己能获得什么好处,他们需要承担与工具开发或使用相关的额外工作,并可能失去宝贵的自主权。只有认清以上事实,领导者才能着手处理终端用户和组织价值获取的不平衡问题,为项目的成功实施奠定基础。成功并非来自大数据、耀眼的技术和大胆的承诺。相反,它取决于一线员工日常工作中做出的决定。为了让AI承诺的美好前景化为现实,领导者需要考虑到一线工作者的需求,这样才能让AI在现实世界中发挥作用。