摘 要:任何一个数据挖掘模型都是针对一个特定业务需求的,围绕着一个具体的业务需求,数据挖掘模型总是可以有办法不断完善、不断提升,即提升精确度、提升转化率等。这里自然就出现了一个问题,模型應该怎么优化,要优化到什么程度才算可以?这是数据挖掘商业实践中经常碰到的问题。
关键词:数据挖掘;优化;建模
1 数据挖掘模型的优化要遵循有效、适度原则
既然任何一个数据挖掘模型都是针对一个特定业务需求的,那么评价模型是否合格的一个原则性标准就是模型的结论或应用效果是否满足当初的业务需求,即有效的原则。虽然这个原则的表述听上去比较虚,但是具体到业务实践和具体的分析需求中,一般都是有一系列具体、明确、可量化的指标和尺度的。比如,一个某付费产品的续费客户预测模型的建模需求,必然要求所构建的预测模型能有效锁定最可能续费的用户群体,从而可以提升续费转化率,是相对于不做客户细分时的总体续费转化率来说的,即原始转化率,或者称为随机转化率,最起码在对最终模型进行验证后,确实可以得出模型挑选出的优质群体的续费转化率显著高于随机转化率这样的结论,这时才可以称为有效。
一旦模型满足了有效的标准,是否还要继续优化呢?此时要考虑第二个原则,即适度的原则。所谓适度,是说此时模型还是可以继续投入资源、投入精力去持续优化的,即继续不断提升模型的精度和转化率等,但是必须要考虑投入产出之间的性价比是否合适,是否适度。如果花了很大的力气,投入了很多的资源,但是模型的提升不明显,即模型优化的投入与产出相比得不偿失,那么就违反了适度的原则;如果花了较少的力气,增加了不多得资源,但模型的提升很明显,很显著,那么可以认为这种持续性的优化是适度的,是具有较好性价比的。
2 如何有效地优化模型
2.1 从业务思路上优化模型式最重要的模型优化措施
这个也是很多数据分析师在尝试模型优化时最容易忽视或者根本没有想过的方法。很多时候,这个思路和方法对于模型效用的提升是根本性的,是源头上的突破,因而常常更有效。之所以说它常常有效果,主要是因为经过前期的数据熟悉、分析和初步建模之后,我们对数据逻辑之间的关系更加敏锐了,而且对于需求目标的认识更加深刻了,并且前期建模过程中常常会有一些新的关联和联想给我们提供了新的、更加贴切的灵感,所有这些因素形成合力,拓宽了我们的业务思路,加强了我们的业务洞察力,换个角度看问题,又是一幅新的风景,通过这种方式常常可以轻松优化、提升模型。
从业务思路上优化主要可以从以下几个层面进行考虑:(1)有没有更加明显且直观的规则、指标可以代替复杂的建模?通过对这些直观的假设进行验证、思考并增添相关的新衍生变量,有时可以有效的优化模型。(2)有没有一些明显的业务逻辑(业务假设)在前期的建模阶段被疏忽了呢?比如要建立一个类似于“竞价排名”业务的续费用户预测模型,那么除了直接从数据仓库中提取相关字段、数据之外,是否考虑了用户提前充值的行为很可能跟其当前账户的余额有关系,或者跟其最近月均消耗金额与余额的比例有关?这些深入的思考可以让我们增添一些衍生的变量、字段,而这些衍生的变量常常能给模型带来明显的效果提升。(3)通过前期的初步建模和数据熟悉,是否有新的发现,甚至能颠覆之前的业务推测或业务直觉呢?如果有,适时调整新的分析思路,常常就会有明显的模型效果提升作用。比如,起初我们会猜想有佛教信仰的人应该是寺庙收入的主流目标群体,其承担了寺庙大多数门票和捐款收入,但是仔细观测数据我们会发现其实在现实生活中不一定信仰佛教,但是一定有愿望祈求佛菩萨保佑,即保佑发财、保佑升官、保佑平安等的香客才是寺庙收入真正的主流目标群体。这种观察直接颠覆了之前的猜想,如果要为某寺庙寻找收入提升的方式,那么修改原先的目标群体,重新定位那些祈求佛菩萨保佑的信众,宣传有求必应的灵验性,或许是提升收入的重要策略。针对这个新的目标群体构建的数据模型,理论上来说其效果会明显的提升。(4)目标变量的定义是否稳定,要在不同的时间点抽样验证。如果不稳定,通常应该考虑一个更加合适的相关的稳定的变量作为目标,并重新建模。通过与业务需求方的头脑风暴,可以发掘出新的想法和思路,从更多的角度、更多的层次考虑业务逻辑,从而更全面地增加衍生字段。对于数据分析师来说,不仅自己要多视角、多层次考虑业务逻辑,更重要的是要与业务团队充分沟通、共同探讨,在大家的思维碰撞中发现新的火花。
2.2 从建模的技术思路上优化
从建模的技术思路上优化是指在建模的总体技术思路、总体技术方向上进行比较、权衡。建模的总体技术思路包括不同的建模算法、不同的抽样方法、有没有必要通过细分群体来分别建模等。一般来讲,不同的建模算法针对不同的具体业务场景会有不同的表现,没有哪种算法可以永远优越于其他算法,所以数据分析师在具体的业务项目实践中应该多尝试不同的建模算法,从中比较、权衡,择优而用。这里的建模算法是广义上的,包括基本的统计分析技术,只要是可以解决业务问题的,都是我们的候选算法。而对于不同建模算法的比较,既包括了预测响应模型思路里不同算法的比较,如综合考虑逻辑回归算法、决策树算法、神经网络算法、支持向量机算法等,又有广义上的算法比较,比如,在A产品付费用户特征分析项目中,实际上有至少三种完全不同的技术思路可以应用,包括基本的统计分析方法,如找出有统计差异显著的特征字段及组合、常规的聚类分析方法,如对付费用户群体进行几个重要业务变量的聚类划分,以及预测项目模型的思路,它不仅可以找出特征字段,还可以有效预测潜在的最可能付费的目标人群。很明显,三种不同的思路有更多不同的算法可以尝试,究竟哪种思路和算法最适合本项目,要权衡的因素很多,包括项目的资源是否充足、现有数据的完整情况、项目的实践节点、模型精度要求等,但是从模型优化的角度来考虑,对不同的算法多尝试、多比较,是数据挖掘常用的一种优化思路。
2.3 从建模的技术技巧上优化
在建模过程中,业务思路上的优化比建模技术思路上的优化更重要,而建模技术思路上的优化又比单纯的建模技巧的优化更重要。在数据挖掘过程中,很多人总是非常热衷于对技巧的掌握和应用,殊不知在真正成功的数据挖掘应用中这些建模最多只是“术”层面上的,而所谓“术”更多的是“锦上添花”而不能是“雪中送炭”。与之相对应的是,思路上的优化,尤其是业务思路上的优化才是真正“道”层面上的,是方向性的,是可以产生质变的因素和条件,所以它是可以解决根本性问题的,是最有可能显著提升模型效果的。既然建模技巧更多起到的是“锦上添花”的作用,这倒也很符合模型优化的初衷,如果业务思路正确了,建模技术正确了,再加上这些建模技巧,的确是可以有效优化和提升模型质量的。
3 总结与展望
对于完成优化的模型来说,对其的评估主要是从两个方面来进行考虑的,一方面就是模型精度、准确度、效果、效率等;另一方面就是对模型稳定性的评估。一个模型无论多么准确,多么有效,如果其表现不稳定,也是无法投入业务落地应用的。一个模型搭建完成后,即使它在训练集合验证集的表现都令人满意,也不能说现在这个模型就可以投入业务应用了,如果条件许可,最好用几个不同时间窗口的数据分别进行观察比较,多比较、多测试才有说服力。
参考文献
[1]丁立言,等.供应链管理实用建模方法及数据挖掘[M].北京:清华大学出版社,2001,9.
[2]罗印升,李人厚,梅时春.复杂工业过程中数据挖掘模型研究[J].信息与控制,2003,32(1):32-35.
[3]杨燕,薪蕃.微粒群优化算法研究现状及其发展[J].计算机工程,2004,30(21).
作者简介:李江鹏(1983-),男,广西南宁人,单位:广西金融职业技术学院,职称:讲师,学历:研究生,研究方向:计算机。