John Edwards
准确而又自信地预测未来。本文介绍如何借助数据预见未来所需的工具和策略。
一直以来人们很难预测未来。幸运的是,随着预测性分析技术的出现,用户能根据历史数据以及统计建模和机器学习等分析技术来预测未来的结果,这使得人们能够得出比以前更加可靠的预测结果和趋势。
尽管如此,与任何新兴技术一样,预测性分析也很难充分发挥其潜力。而更具挑战的是,由于不成熟的开发策略或者预测性分析工具的滥用而导致的不准确或者误导性的结果可能在几周、几个月甚至几年之后才会显现出来。
预测性分析有可能彻底改变各种行业和企业的运营,包括零售业、制造业、供应链、网络管理、金融服务和医疗保健等。人工智能网络技术公司Mist Systems的首席技术官和联合创始人Bob Friday预测,“深度学习和预测性人工智能分析将改变我们社会的方方面面,其程度不亚于十多年来的互联网和蜂窝技术革命。”
本文的7个秘诀旨在帮助你的企业充分发挥自己预测性分析计划的优势。
1、能够获得高质量且易于理解的数据
预测性分析应用需要大量的数据,依赖于通过反馈循环提供的信息来不断改进。全球IT解决方案和服务提供商L&T Infotech的首席数据官和分析官Soumendra Mohanty指出:“数据和预测性分析相互提供信息。”
了解流入预测性分析模型的数据类型是非常重要的。流行病学家、營养学家和健康经济学家Eric Feigl-Ding目前是哈佛陈氏公共卫生学院的访问学者,他提出了问题:“我们会有什么样的数据?是像脸书和谷歌那样每天收集的实时数据,还是难以访问的医疗记录所需的医疗保健数据?”为了做出准确的预测,模型应被设计成能够处理它所获取的特定类型的数据。
仅仅在计算资源上投入大量数据的预测性建模工作通常注定要失败。金融数据和软件公司FactSet负责投资组合管理和交易解决方案的副总裁兼研究总监Henri Waelbroeck解释说:“数据实在太多了,大部分数据可能与具体的问题无关,但在给定的样本中看起来可能是相关的。如果不理解产生数据的过程,一个基于有偏见的数据所训练出来的模型可能是完全错误的。”
2、注意模式
SAP首席高级分析产品经理Richard Mooney指出,每个人都对算法着迷,但算法的好坏取决于输入到算法中的数据。他说:“如果没有要找的模式,那就是徒劳的工作。大部分数据集都有隐藏的模式。”
模式通常以两种方式隐藏:
● 在两列之间的关系中找到模式。例如,通过比较即将达成交易的结束日期信息与相关的电子邮件打开率数据,可以发现一种模式。Mooney说:“如果交易即将结束,电子邮件打开率会大幅提高,因为买方会有很多人阅读合同并审查合同。”
● 观察一个变量随时间的变化就能够揭示出模式。Mooney说:“在上面的例子中,知道客户把一封邮件打开了200次,所提供的信息和知道他上周打开了175次差不多。”
3、关注能带来较大投资回报的可管理任务
纽约理工学院(NYIT)的分析和商业智能主任Michael Urmeneta认为,“现在,人们很想把机器学习算法应用到海量数据上,以期获得更深入的分析结果。”他说,这种方法的问题在于,它就像试图同时治愈所有的癌症一样。Urmeneta解释说,“问题太大,数据太乱——没有足够的资金,没有足够的支持。不可能赢。”
当关注于任务时,成功的概率就大得多。Urmeneta指出,“如果有问题,我们就会去找理解错综复杂问题的主题专家。我们将会有更清洁、更容易理解的数据。”
4、使用正确的方法来完成工作
好消息是,有几乎数不尽的方法来生成准确的预测性分析。然而,这也恰恰是坏消息。芝加哥大学NORC(前身为国家意见研究中心)的行为、经济分析和决策实践主任Angela Fontes评论说:“每天都会出现热门的新分析方法,使用新方法很容易让人激动。然而,据我的经验,最成功的项目是那些真正深入思考分析预期结果的项目,并让这些项目指导他们的选择方法——即使最合适的方法并非最吸引人、最新的方法。”
Rochester理工学院计算机工程系主任、副教授Shanchieh Jay Yang建议,“用户必须谨慎地选择能满足自己需求的合适的方法。”Yang说:“应该拥有一种有效而且可以解释的技术,利用时序数据的统计特性,并将其推广应用到最有可能的未来。”
5、建立具有精确定义目标的模型
这似乎是显而易见的,但很多预测性分析项目开始的目标是建立一个宏伟的模型,但没有明确的计划来指导最终怎样使用它。CCC信息服务公司是一家面向汽车、保险和修车行业的SaaS提供商,其产品管理高级副总裁Jason Verlen评论说:“有很多很棒但却从来没用过的模型,因为没有人知道怎样使用这些信息来实现或者创造价值。”
Fontes对此表示同意。她解释道,“使用合适的工具确实可以确保我们从分析中得到预期的结果,因为这迫使我们必须明确我们的目标。如果我们不清楚分析的目标,我们可能会想尽一切办法去解决问题,但是永远也得不到我们想要的东西。”
6、IT与相关业务部门建立紧密合作关系
非常有必要在业务部门和技术部门之间建立稳固的合作伙伴关系。客户体验技术提供商Genesys公司的人工智能产品管理副总裁Paul Lasserre说:“你应该知道新技术怎样应对业务挑战或者改进现有的业务环境。”然后,一旦设置了目标,就在一定范围的应用程序中测试模型,以确定解决方案是否真正能带来价值。
7、不要被设计不当的模型所误导
模型是由人设计的,因此,往往潜藏着缺陷。一个错误的模型,或者使用不正确/选择不当的数据所建立的模型,很容易产生误导,在极端情况下,甚至产生完全错误的预测。
例如,选择偏见问题,如果随机化做的不好,可能会混淆预测。再比如,在一项假设的减肥研究中,可能有50%的参与者选择退出后续的体重测量。而退出的个体与留下的个体相比,其体重变化曲线是不同的。这使得分析变得复杂,因为在这样的研究中,那些坚持参加项目的人通常是真正能减肥的人。另一方面,退出的通常是那些很少或者根本没有减肥经历的人。Feigl-Ding报告称,因此,虽然从整体上看减肥是有因果的,可预测的,但是在一个有50%退出率的有限数据库中,实际的最终结果可能被隐藏了。
总结
商业智能和分析软件开发商GoodData的数据科学高级主管Arvin Hsu评论说:“企业正在经历成长的痛苦,认识到预测性分析并不是那么容易涉足。然而,强大的预测性分析对业务效率、收入和产品性能的影响,完全值得我们花费时间、精力和资源来确保成功。”