马尤尔·乔希 苏宁 罗伯特·奥斯汀 阿南德·孙达拉姆
如今越来越多的公司都把数据科学看作一项职能、一种能力,但有很多公司始终无法从对大数据、人工智能和机器学习的投资中持续获取商业价值。此外有证据表明,在这一点上取得成功和失败的组织之间差距正在逐渐拉大。
为了进一步考察公司在实施有利可图的数据项目时所犯的错误,找到避免犯错的方法,我们在印度十大私营银行中选取了拥有完善分析部门的三家,对它们的数据科学活动展开深入研究。该研究最终揭示了以下五大常见错误,我们针对这些错误提出了相应的解决方案。
数据专家希伦是那种让所有组织都垂涎的分析奇才,最近受聘于我们所研究的一家银行。他对“K最近邻算法”情有独钟,该算法在数据簇的识别和分类方面很有用。希伦告诉我们:“在研究中,我运用K最近邻算法分析了几个模拟数据集,迫不及待地想早日应用于真实数据。”
几个月后,希伦如愿以偿。他运用K最近邻算法来识别银行商业支票账户产品组合中赢利能力特别突出的行业细分领域,据此向商业支票账户业务团队提出建议:应当重点致力于总共33个行业细分领域中的两个。
然而,该业务团队的成员对他的分析结论根本不感兴趣。他们早已熟知这些细分领域,也能通过简单计算确定各个细分领域的赢利能力。在他们看来,采用K最近邻算法来完成这项任务无异于用高射炮打蚊子。
诸如此类的情形我们在三家银行中都见过。究其实质,无法实现商业价值的原因在于过分痴迷于数据科学解决方案。这类错误有几种表现形式。就希伦而言,其实他面对的问题并不需要如此煞费苦心的解决方案。在另外一些情况下,我们看到某个数据科学解决方案在一个领域得到成功应用后,其他领域也纷纷跟进,殊不知它并不适合,也不见得有效。简而言之,此类错误的根源并不在于分析技术的执行问题,而在于它用错了地方。
过了一段时间,希伦对业务有了深入了解之后,又回到该团队提出了新建议:他仍推荐使用K最近邻算法,但这次是在客户层面而非行业层面开展行动。事实证明,这种做法更合适,并且让团队产生了一些新的认识,帮助他们瞄准尚未开发的客户群。同样一种算法,一旦用于更适宜的环境,实现商业价值的潜力就更大。
显然,在开发和应用过程中对業务环境敏感的数据分析解决方案收效可能最好。但我们也看到,在许多管理者心目中,数据科学就像火箭研究那样高深莫测。他们有可能被数据分析的高科技光环所震慑,以致忽略了具体情境。我们发现,当管理者看到某个解决方案应用在别的领域效果不错,或者贴着诱人的标签(如“AI”或“机器学习”)时,他们就更有可能跟风效仿。数据专家通常专注于分析方法,往往没有能力提供更全面的视角,或者即便具备这种能力,也没能真正做到。
我们研究的几家银行的高管层通常借助培训手段来解决这个问题。其中一家银行规定,新录用的数据专业人士必须跟受训的客户经理们一起,参加由领域专家主讲的产品培训课程。该银行还为各层级的业务经理们量身打造数据科学培训课程,由数据科学部门主管讲授。课程内容包括分析技术的基本概念,在应用方面着重强调:对于特定解决方案技术需要问哪些问题,这些技术应当或不应当用于哪些地方。总的说来,培训是为了促进数据专家、业务经理和领域专家之间的知识交叉渗透,帮助他们加深对彼此的工作了解。
在相关的实地考察中,我们还目睹了一些基于流程的解决办法,可以避免过于仓促地采用自己青睐的解决方案而铸成大错。一家总部位于美国的大型航空航天公司采用一种名为“七条路”的方法,要求各团队至少要寻找并比较七种可能的解决路径,并且明确证实终选方案的合理性。
普拉纳夫是一位精于统计建模的数据专家,他正在开发一种算法,以便为从事中小企业担保贷款审批工作的核保团队提供帮助。他利用信贷审批备忘录(credit approval memo, CAM),考察过去十年间处理的所有贷款申请,将借款人提出申请时的财务状况和当前财务状况一一比对。不出几个月工夫,普拉纳夫便完成了一个围绕高度精确模型构建的软件工具,供核保团队实际应用。
不幸的是,六个月过去,反馈结果表明应用该工具之后的贷款拖欠率明显高于以往。公司高层百思不得其解,指派了一位经验丰富的核保员与普拉纳夫协作,追查问题到底出在哪里。
那位核保员发现建模输入数据来自CAM,当即恍然大悟。因为列入CAM的都是由经验丰富的客户经理事先筛选好、很可能顺利过审的客户申请,核保员对此心知肚明,但是普拉纳夫不知道。模型开发过程中没有纳入在预筛阶段被拒绝的贷款申请数据,造成了巨大的选择性偏差。正是这种选择性偏差使得普拉纳夫在建模过程中遗漏了“跳票”这一关键决策参数。毫不奇怪的是,经过客户经理预先筛选的借款人群体当中,极少出现跳票的情况。
针对这种情况,技术补救轻而易举:普拉纳夫将预筛被拒的贷款申请数据加入模型,使“跳票”参数成为其中的一个重要元素。该工具这才开始发挥预期功效。
对于那些试图从数据科学中获取商业价值的公司而言,更大的问题是如何预先识别此类偏差来源,确保它们不会在开始时不知不觉地掺杂进模型。这是个极具挑战性的任务,因为外行人(有时分析专家本人也一样)无法轻易看懂分析技术这个“黑匣子”究竟是怎样得出分析结果的,而懂得“黑匣子”原理的分析专家又往往意识不到自己使用的原始数据中所含的偏差。
我们研究的几家银行都要求数据专家熟悉他们用于建模的数据源,以避免未能识别的偏差。例如,我们曾经观察到,一位数据专家花了一个月时间在一家分行蹲点,陪随客户经理工作,以识别能确保模型生成准确分析结果所需的数据。
我们还见过一个由数据专家和业务专家共同组成的项目团队,他们采用了一个正式的筛检偏差流程,首先确定潜在预测变量和数据源,继而逐一仔细检查是否存在潛在的偏差。该流程的目的就是要质疑既有假定,并给数据“除臭”,从而避免数据创建和收集过程中可能引发的种种问题。
卡尔蒂克是位数据专家,在机器学习领域造诣颇深。他花费一个月时间开发了一个用于分析储蓄账户流失的复杂模型,又用了三个月进行微调以提高模型的准确性。他把最终成品分享给储蓄账户产品团队,后者很震撼,只是他们的年度预算此时已经用完,无法投资于该模型的实际应用。
第二年,为了避免再度遭遇这个问题,卡尔蒂克抢在预算周期开始前就向产品团队推介他的模型。不料今年该团队得到高层指令,将工作重点从留住老储户转向吸引新储户。于是,卡尔蒂克的项目再次落空。
到了第三年,卡尔蒂克继续争取,项目终于获批,可是他高兴不起来。他沮丧地告诉我们:“他们现在想要应用这个模型了,但它已经过了时效,我还得重新建构一遍!”
在这个案例中,银行无法从数据项目中获取价值,是因为数据科学与银行工作重心及业务流程不同步。为避免这种情况,需要在数据科学与经营战略、业务系统之间建立更紧密的关联。
高管层应当促使数据科学实践(以及数据专家)与公司业务更密切地融合,无论是在工作地点、结构还是流程上,如此可以确保数据科学活动与组织战略、业务系统保持同步。例如,一家银行安排数据专家参与各业务团队的项目,每天与业务团队接触,深度了解团队优先事务及截止期限——有些时候还能预测尚未表达的业务需求。我们还看到,公司安排数据团队与业务团队同地办公,并实施一些强制性的流程要求,比如要求项目活动须在业务团队所在地进行,或者要求业务团队的会议和活动须有数据专家参加。
大体而言,数据专家应当集中精力解决业务领导认为最重要的问题。不过需要提醒的是,数据科学有时会产生出人意料的结论,无论这些结论是否与当前的优先事项一致,都应提请高层领导注意,这时就需要拿出一些勇气。如果分析得出的结论跟组织当前的工作重心和体系不相符,却有可能为公司带来巨大的价值,那么数据专家有责任向管理层进言,把信息反馈给他们。
我们发现,银行高管层有时会在项目团队中额外安排数据专家,以便开展探索性工作。这些数据专家并不与项目团队同地办公,并且得到指示,不要关注团队的优先事项。恰恰相反,他们的任务是打造与项目相关的替代解决方案。倘若该方案切实可行,数据科学部门的负责人会将其推荐给高管层。如此双管齐下,顺应了数据专家和业务专家之间在认知上相互依存的关系,使得数据科学在努力满足当前业务需求的同时,又致力于探索创新及改革当前业务实践的机会。要想让数据科学尽可能多地实现商业价值,它所扮演的这两个角色都很重要。
业务分析师索菲亚率领手下团队开发了一个推荐引擎,它能向银行客户提供精准定位的新产品和新服务。他们在营销团队协助下,将这个推荐引擎添加到该行的移动钱包App、银行网站和电子邮件中。但是,期待中的新业务迟迟没有等来,客户对推荐产品的接受度大大低于预期。
为了查明失败原因,该行安排电话营销员针对未购买推荐新品的客户群进行了抽样调查。谜底很快被揭开:许多客户不信任通过App、网站和电邮渠道推荐的产品。
索菲亚坚持不懈地寻求解决之道,她走访了多家下属分行,惊讶地发现,客户们似乎高度信任客户经理提出的建议。一些非正式实验令她确信,如果在分行中由客户经理向客户介绍这个推荐引擎,将会大大提高客户接受度。索菲亚意识到,问题不是出在推荐引擎本身,而是对它的推介方式有误。于是,她会见了负责分行工作的高层领导,提议重新发布该引擎,这次是作为产品销售的辅助工具,供客户经理使用。经过重新策划的发布活动取得了巨大成功。
索菲亚遇到的难题提醒我们需要注意以什么方式传达和使用分析工具的输出结果。为了给客户和企业创造最大价值,应当将用户体验分析纳入数据科学的设计流程,至少应当把用户测试作为数据科学项目生命周期的一个明确组成部分。更理想的是,把数据科学实践置于人本设计框架中。除了用户测试之外,这样的框架还可以授权在数据科学流程的前端进行用户研究。
尽管在本研究中我们没有见到将数据科学嵌入设计思维(或其他人本设计实践)的实例,但我们确实发现,前文中描述的陪随过程有时可以充作一种用户体验分析。数据专家陪随其他员工,既能了解数据来源,也能深入了解用户,以及解决方案的交付渠道。简而言之,在数据科学项目中运用陪随手段,有助于更好地理解数据生成过程以及解决方案的用户和交付渠道。
几个月来,这家银行旨在挽回流失客户的“赢回”计划始终没有进展。为此,数据专家和产品经理开会共商如何使计划重回正轨,但是当天的会议进程并不顺利。
数据专家达拉和维瑞尔最关注的是,怎样识别已流失客户群中最有希望挽回的那部分人。但产品经理阿内什和贾尔帕想讨论此次活动的细节,给数据专家们施压,要他们立即肩负起实施该计划的责任。讨论毫无突破,只得休会。维瑞尔对达拉抱怨道:“如果事事都由数据专家和分析师来做,银行还要产品经理干什么?我们的职责是开发分析解决方案,执行本来是他们分内的工作。”
不过,下次开会时,维瑞尔似乎已经改变了主意。他潜心去了解产品经理为什么执意要让数据专家负责计划的实施。结果发现,该行的信息系统部过去曾多次向产品经理提供可挽回的流失客户名单,最后这些活动均以失败告终。这些名单在实际使用中难度极大,部分原因在于无法追踪客户的联络方式。因此,产品经理觉得,新提供的目标客户名单无非是再次陷他们于失败境地而已。
维瑞尔和达拉从产品经理的角度出发,对该问题有了新的理解之后,随即在自己的项目规划中新增了为本行电话营销人员、电子邮件管理团队、分行员工和资产团队开发前端软件应用的内容。这为他们提供了一种工具,将与客户互动中获取的信息输入系统,从而更好地利用数据科学团队提供的名单。最后,该项目终于取得了进展。
维瑞尔和达拉的行动需要非同寻常的同理心和主动性。他们迈出数据专家的职责领域,扮演着类似于项目负责人的角色。不过,公司或许不该也不想以这种方式依赖数据专家的贡献——毕竟,他们的技术专长是一种稀缺而昂贵的资源。
相反,公司可以设法让数据专家参与解决方案的实施。为此,我们研究的一家银行估测了数据专家的解决方案所产生的商业价值,将其计入方案提供人的绩效评估结果。这种做法激励了数据专家们确保解决方案的成功实施。这家银行的高管们坦承,这有时会导致数据专家的工作大大超出自身职责范围。但他们认定只要能保证商业价值,数据科学资源的流向改变就有充分理由,并且,如果这种状况对数据专家的核心职责负面影响过大,也可以根据具体情况予以纠正。
我们在研究中找到的所有错误,无一例外地出现在数据科学职能与总体业务的交界上。这表明,领导者应当更全面地认识数据科学的作用,并在公司内部大力推广,包括促进数据专家与负责问题诊断、流程管理和解决方案实施的员工之间更密切地协作。这种更紧密的联系可以通过多种方式来实现,包括培训、陪随、同地办公,以及正式的激励措施。由此获得的回报将是:解决方案失败率下降、项目周期缩短,最终获取更大的商业价值。