叶敏
【摘要】某销售公司想通过用户的历史数据,预刚下次营销活动最有可能参与营销活动的人群。本文通过构建Logistic模型,基于用户的历史购买数据和用户基本信息,使用R语言进行计算,预浏用户是否会参与营销活动。
【关键词】Logistic模型 营销活动 R语言
一、引言
某零售公司目前有约3000万的活跃用户,市场部门有30万美元的预算,其希望挖掘出最有可能在30天内购买该公司产品的用户群,本文讨论用逻辑回归建模对产品的购买预测,得到优化模型,并进行了模型评估。
二、基于Logisstic回归方法的营销用户群的挖掘建模
(一)Logistic回归模型原理介绍
Logistic回归模型是研究因变量非连续型变量情况的分析模型。其中,解决这个问题的核心方法称为极大似然估计法:
(1)引入参数e。
(2)引入Logisic函数的激活函数,也叫做越阶函数,例如:sogfllod激活函数hθ(x)=g(θTx)=1/(1+e-θTx)
(3)计算P(y=1|x:θ)和P(y=0|x:θ),一般来说激活函数计算得到p=1和。两类,需要计算他们的联合概率函数P(y|x:θ)。
(4)最大似然函数,求出合适的参数8。
(5)计算hθ(X),根据该值对样本进行分类。
(二)构建Logistic模型
(1)候选变量。候选变量包括用户的基本情况和一些购物信息。本项目一共包括如下26个自变量和1个因变量(是否有购买行为)。如下图1所示:
(2)相关性分析。相关性分析包括自变量之间,和自变量和因变量之间的相关性分析。通常而言,自变量与因变量越强,说明该自变量对因变量越重要,而自变量之间的相关性越强,改善两者之间的共线性强,多重共线性会影响模型的准确度,需要优化模型的变量。
(3)初步建模,变量筛选。该项目的特征值有26个,根据前面的相关性分析和数据缺失情况,去掉11个特质变量(变量与被解释变量相关程度非常低和缺失率过高),然后用逐步回归法自动筛选剩下的变量,选出的特征变量先进行显著性检验,再使用VIF进行多重共线性分析,一般来说VIF值小于2,另外计算R^2的值,如R^2<0.5,說明这些变量解释模型不够,需要引入更多变量。最终筛选的变量如下:
(4)模型评估。该模型采用ROC Curce图和AUC值进行模型评估。下图2是ROC Curce图:
从图中可以看到该ROC曲线是往左上角凸的,而AUC值(ROC曲线下方的面积)为0.7613,说明该模型的预测结果的分类效果是不错的。
三、结论及建议
本文通过构建Logistic模型,基于用户的历史购买数据和用户基本信息,使用R语言进行计算分析,预测用户是否会参与营销活动。先进行变量之间的相关性分析,然后初步建模,使用逐步回归法,筛选变量,最终得到符合模型要求的变量,最后进行模型评估。Logistic模型的优点在于可解释性强,但是相对于其他机器学习模型来说,准确率不是很高。该项目的主要是为了得到最有可能在30天内购买该公司产品的用户群,我认为分析完是否购买该产生的用户后,可以用其他预测模型判断购买用户可能会消费多少金额,这样可以得到更加优质的用户群。