吴锦超 顾孟迪
(上海交通大学 安泰经济与管理学院,上海 200030)
由于受2020年席卷全球的疫情影响,人们更接受以线上的行为方式代替线下,例如在线办公、在线教育、在线会议等,这对于发展成熟的线上销售模式也是一种较大的利好。以此为契机,线上销售模式下的问题再次成为研究的热点。从实践意义的角度,全新的线上销售的衍生模式处于不断探索与发展中,例如利用视频直播导流与粉丝经济的直播带货模式,以及对于海购服务不断探索的跨境电商模式。在线上销售模式的发展与演变过程中,如何切实地提升厂商所获得的收益尤为值得关注。
本文基于线上销售的场景,解决的是在给定的销售周期内厂商应该如何规划定价方案来获得预期较高的累计收入的问题。在定价方案的制定上主要利用了动态定价的手段充分地挖掘用户的消费者剩余,而在方案的实现上则是利用了机器学习的方式,将在多臂赌博机问题中得到广泛应用的汤普森采样算法迁移到了动态定价问题上。在该基础上对用户群体进行了分群研究,期望针对不同消费能力的用户制定出不同的价格以最大化消费者剩余。在制定了定价方案后,又对于方案整体的落地可行性进行了进一步研究与分析。
收入管理问题最早起源于航空业,其主要解决的是:针对具有易逝品性质的飞机票,如何在不确定的需求下实现收益最大化的问题。从更宽泛的角度,收入管理问题解决的是:如何在适当的时刻,将适当的产品以适当的价格卖给适当的用户。传统的收入管理问题主要是根据历史数据推断出需求函数的分布,再在该需求函数的基础上进行最优化问题的求解。但其主要存在的问题是:需求函数反映的是历史的需求,而收入管理问题面向的是未来的可能需求,因而在时间拓展性上可能存在估计误差。而解决该问题所提出的方法为需求学习,即假设需求函数的形式可以从历史数据中推断出来,但包含未知参数,并利用销售的新数据不断对参数与函数的分布进行更新。对于越来越成熟的线上零售行业,随着数据实时获取能力的提升,需求学习方法对于需求函数的估计问题可以实现更高频的迭代。
作为收入管理的重要实现方式,动态定价也被广泛采用。动态定价最初来源于经济学中的价格歧视原理,即同一件产品针对不同消费者制定不同的价格,通过挖掘消费者剩余以增加收入。随着经济社会的发展,动态定价的内容也在不断地拓展,包括相同产品在不同的市场需求下的定价不同,相同产品在不同库存水平下的定价不同等。Elmaghraby和Keskinocak认为动态定价得到广泛应用的原因有:1)线上行为产生更多的用户行为数据,可以更好地辅助决策;2)价格调整的菜单成本在不断降低;3)更多的算法与模型得到应用,从而更高效地实现策略。
已经有部分文献针对动态定价在零售业中的应用进行研究。Gabriel和Bitran验证了针对随机需求的最优化定价问题可以通过Hamilton-Jacobi-Bellman方程求解,但在实际应用时的效果有限。Elmaghraby与Keskinocak对考虑库存的零售问题的动态定价进行研究,并按照三个维度划分问题:1)是否可以补货(R/NR);2)需求是否随时间变化(D/I);3)用户是否短视(M/S)。An和Fromm针对动态定价在电子商务中的应用优势进行研究。Ferreira和Simchi-Levi则是引入汤普森采样算法分析了带库存约束的收益管理问题并进行后悔值上界的求解。
本文所使用的研究方法参考了针对电子商务领域的研究与Ferreira和Simchi-Levi提出的将汤普森采样算法迁移至动态定价领域的思想,并在原先研究的基础上,对用户群体预先进行分群,从而对不同消费能力的用户制定不同的价格以最大化收益。在制定了定价方案后,又对方案的落地能力与可行性进行了分析。
在针对多摇臂赌博机问题的研究中,汤普森于1933年提出了一种基于贝叶斯理论的算法,被称为汤普森采样算法(Thompson Sampling)。尽管比较早期就已经提出,但是由于其缺乏后悔值上界的理论证明,与后验分布的反复更新对于计算能力的高要求,而一直未被广泛采用。直到若干篇文献提出,对于多摇臂赌博机问题可以采用汤普森抽样算法进行决策,并与其他的UCB1、MOSS算法等相比,汤普森抽样算法在模拟实验中有着更低的后悔值,之后才被较为广泛地接受与使用。
汤普森采样的原理是基于贝塔分布,贝塔分布包含两个参数,一般写作X~Beta(α,β)。贝塔分布可以理解为事件的概率分布,当事先不了解随机事件的概率分布时,通过确定合适的参数,该分布可以给出所有事件出现的概率。
汤普森采样算法针对多摇臂赌博机问题具有较为成熟的理论研究。
多摇臂赌博机问题的描述:赌博机有K个摇臂,在用户选择某个摇臂后,赌博机有一定概率吐出一枚硬币,该概率的数值未知,并且不同摇臂之间的概率值不相等。该优化问题是使得用户摇动N次摇臂之后,得到的累计硬币数量尽可能多。
参数假设:决策阶段n=1,2,3,…,N;摇臂k=1,2,3,…,K;摇臂k在决策阶段n的累计执行成功次数为αk(n);摇臂k在决策阶段n的累计执行失败次数为βk(n);摇臂k在决策阶段n的采样值为θk(n)。
步骤1):对每个摇臂k,令αk(1)=0,βk(1)=0。
步骤2):在每个决策阶段n下,根据分布Beta(αk(n)+1,βk(n)+1)进行K次采样θk(n)。
步骤3):在每个决策阶段n下,所选择的摇臂a(n)= argmax (θk(n)),并记录回报值rn。
步骤4):若rn=1,则αa(n)(n+1)=αa(n)(n)+1;若rn=0,则βa(n)(n+1)=βa(n)(n)+1。
步骤5):循环步骤2)至步骤4),直至达到最大决策阶段N。
本文所分析的是线上零售的业务场景:在一个给定的销售季度内,零售商通过调整产品的定价与分析用户画像来最大化该销售季度的总收入。
在建模过程中,将一个销售季度拆分成T个阶段,并假设在每个阶段零售商销售N件产品。在产品价格上,假设存在K个定价分别为{p1,p2,…,pk},其中pk是一个长度为N的向量,用来表示所有产品的某种定价策略。具体而言,对于产品i,有pk=(p1k,p2k,…,pNk),其中pik是该策略下对产品i的定价。根据动态定价的文献,还引入了价格上限p∞,表示在该价格下用户完全没有购买产品的需求。记P(t)=(P1(t),P2(t),…,PN(t)) 表示零售商在某一个阶段采取的价格,并且满足P(t)∈{p1,p2,…,pk,p∞}。
用户则是在每个阶段根据零售商的产品价格做出相应的购买决策,记D(t)=(D1(t),D2(t),…,DN(t)) 表示用户在某一个阶段的产品需求量。假定对于给定的P(t)=pk,需求D(t)是根据累积分布函数F(x1,x2,…,xn;pk,θ)形成的概率分布的采样值,其中θ为未知参数,体现需求分布的类型已知但参数未知。
根据用户画像,可以通过该季度前的用户消费数据,将用户聚类成M个大类。对于不同类型的用户群体,假定其需求函数的分布相同但是未知参数θ不同,记θ=(θ1,θ2,…,θM),并且利用价格歧视对每个类型的用户分别进行定价,从而最大化该季度下每个产品在每个用户群体中的总收入。
可以将该场景下的零售商的动态定价问题与传统的多摇臂赌博机问题进行类比,其中零售商对于每类客户的每个产品的价格簇对应于摇臂,相应的收入则对应于摇动摇臂后的奖励。
对于每一个群体的收入最大化问题,可以采用汤普森采样在多摇臂赌博机问题中的应用来进行建模。
先根据用户在目标季度前的行为数据对用户群体进行聚类分析,再对每一类用户采用如下的最优化模型进行求解。
对目标季度内的每一个阶段进行如下步骤(t=1,2,…,T):
步骤1):根据历史数据确定未知参数θ(t)的分布情况Θ(t)。
步骤2):在每个决策阶段t下,根据相应分布对未知参数θ(t)进行采样。
步骤3):对每种定价pk,根据其历史数据确定产品需求与定价间关系的函数分布类型F(x1,x2,…,xn;pk,θ),代入θ(t)的采样值后,计算产品的平均需求dk。
步骤4):在每个决策阶段t,求解如下的最优化问题,其中xk表示最终价格是给定K个价格的线性组合的形式:
xk≥0,k∈[K]
步骤5):增加当前阶段需求的实际值,并更新参数θ(t)的分布情况Θ(t)。
步骤6):循环步骤2)至步骤5),直至达到最大决策阶段T。
为了解释在动态定价场景下探索与利用困境,可以考虑以下简化场景:对某一类型的用户,在某个阶段,假定采取p1的定价策略在需求函数的先验分布下可以获得最高的预期收益,那采取贪婪策略的零售商会以概率为1采取p1的定价策略。但是该做法是在预测的前提下可以获得最高的收益,但是无法保证在真实的情况下同样能够获得最高的收益,从而引出了探索利用困境的问题,即零售商应该通过何种定价策略,在充分利用当前最优价格的情形下(对应于利用阶段),对于非当前最优的价格进行探索实践(对应于探索阶段),从而在平衡利用与探索的过程中进行更优的定价决策。
下面将围绕一个零售商销售商品的定价策略的具体数值案例,分析汤普森采样算法在动态定价中的应用效果。为了简单起见,考虑零售商在一个销售周期内只能销售一种产品,零售商定价方案的集合是已经预先决策的,并且不考虑定价方案间的线性组合。为了对汤普森采样的结果进行进一步分析,还引入了两种常见的贪婪算法进行对比。
在数值案例中,假定零售商在一整个销售周期内只销售一种产品,并根据产品在市场上的历史表现与目标客户的群体画像,预先制定了定价方案。零售商对于产品在不同价格下的需求函数的类型是已知的,其场景对应的是零售商针对一款具体的产品对用户进行定价并投放。因为用户的选择可以简化为购买或不购买,所以对于需求函数采用的是二项分布,而二项分布参数的含义则是用户采取购买行为的概率,也可以理解为用户期望需求的大小。其流程是针对同类型的用户,按照先后顺序分别对不同的用户制定不同的价格,以实现获得的期望总收入最高。
其中,价格的集合为{¥19.8,¥28.8,¥36.8,¥41.8},理论平均需求为d(¥19.8)=0.8,d(¥28.8)=0.6,d(¥36.8)=0.3,d(¥41.8)=0.2。该需求的参数对应的是理论值,在不断变化定价并观察用户反馈的过程中,一步步地对理论值的大小进行预测,从而使预测值更为接近理论值。
在数值检验中采用的三种算法如下:
朴素贪婪算法:属于该问题下的贪婪算法中的一种,在此次数值模拟中该算法也作为所有算法的基准。该算法将销售周期切分成两个部分,在第一个周期内全部进行探索,在第二个周期内直接根据之前累计收益最高的定价方案进行应用。这就是被称为朴素的原因,也使该算法在现实场景下经常被使用。
ε-贪婪算法:基于朴素贪婪算法进行调整,希望对于探索与利用阶段的划分进行平衡。其先在(0, 1)之间选择一个较小的数值作为ε,每个决策阶段是:以ε的概率进行探索,即在所有价格方案中随机挑选出一个价格;以(1-ε)的概率进行利用,即选择截至当前平均收益最大的价格方案。该算法在基准贪婪算法的基础上,进行了探索与利用阶段的划分。
汤普森采样算法:按照2.3中的建模过程,在每一位新增用户进行购买选择之后,会对所有定价下的期望需求值进行预测,并且挑选出价格与期望需求乘积最大的定价方案,并对下一位用户采用该定价方案。
数值仿真的结果见图1,其中第一根线代表的是汤普森采样算法,第二根线代表的是ε-贪婪算法,第三根线代表的是朴素贪婪算法。在参数制定方面,对ε-贪婪算法将ε的数值定为0.3,对朴素贪婪算法将前30%的周期数用于探索阶段并且在各个价格方案间平分总次数,将后70%的周期数用于利用阶段。
图1 三种算法的不同定价策略的数值仿真结果
其中,图1的横轴代表不同的周期数,并在作图阶段进行了对数处理。图1的纵轴代表了不同方案的收益占理论最大收益的百分比,在该问题的数据下,单个用户在不同价格下的理论收益等于价格与对应期望收益的乘积,具体的数值为集合{¥15.84, ¥17.28, ¥11.04, ¥8.36},取最大值¥17.28,其代表理论情况下的最佳方案是对所有用户都采用¥28.8的定价,而其所对应的理论最大收益则是其与周期总数的乘积,为17.28T。而纵轴的数值则代表了每个方案的收益占理论最大收益17.28T的百分比。为了降低数值计算过程中的随机性,在具体方案收益的计算中选取的是相应条件下10次取值的平均值。
分析图1可以得到以下结论:1)在最终的累计收益上,汤普森采样算法优于ε-贪婪算法、朴素贪婪算法,并且汤普森采样算法在各个周期数下都具有明显的优势。2)不同算法的累计收益均是随着周期数的增加而递增的,但是其边际增长不断降低。3)对汤普森采样算法的表现进行具体的分析,当周期数为100时,其预期收益占理论最大收益的百分比已经达到82%;当周期数为1000时,其占比达到了94%;当周期数为10000时,其占比已经高达98%,已经非常接近于理论最大收益,可以作为理论最大收益的一种有效的近似计算方式。
根据仿真的结果可知,汤普森算法相较于其他贪婪算法在最终的效果上有显著的优势。在采用汤普森算法之前,同样可以根据用户在目标季度前的行为数据对用户群体进行聚类分析,再对每一类用户进行单独求解,并对于每一类型的用户制定不同的定价策略,从而利用价格歧视的方式为零售商获得更高的总收入。
考虑为购买力更强的用户制定出更高的定价策略方案。假定可以通过用户的历史行为数据将用户分成低端用户、中端用户、高端用户三类,并且类型占比分别为70%、20%、10%。简单起见,不再新增其他的价格方案,仍旧沿用原先的定价策略集合{¥19.8,¥28.8,¥36.8,¥41.8},但是对在每个价格下的理论平均需求的大小进行调整,具体数值见表1。
表1 不同类型用户在不同定价下的理论平均需求的数值
数值的设定需要满足按照不同类型用户的权重加权后的用户总体需求与原先的设定保持一致,即对于用户总体的理论平均需求的大小满足d(¥19.8)=0.8,d(¥28.8)=0.6,d(¥36.8)=0.3,d(¥41.8)=0.2。而在算法的选择上,直接采取效果较优的汤普森采样算法对于不同用户类型各自按照上节中的数值仿真方式预测其收益,具体的数值仿真结果见图2与图3。图2与图3中横坐标均是周期数的对数值,不同的是各自的纵坐标。图2的纵坐标是不同类型用户的预期收益占其各自理论最大收益的百分比,因而均小于100%;图3的纵坐标则为了之后的累加操作而进行了基数的调整,其代表的是不同类型用户的预期收益占原先用户总体理论最大收益的百分比,考虑到中端与高端用户的消费能力更强,其相应的理论最大收益均高于原先用户总体的理论最大收益,因而其纵坐标取值会大于100%。
图2 用户分群后的预期收益情况
图3 用户分群后的预期收益情况 (调整基数后)
根据图3中调整基数后的低端用户、中端用户与高端用户的预期收益占比,按照其相应的权重{0.7,0.2, 0.1}进行加权累加后,作为聚类方式下用户总体的预期总收益,并将其与原先的用户总体的预期总收益进行对比,结果见图4。从图4中可以发现聚类后用户总体的预期总收益均高于聚类前的结果,增加幅度达到了10%以上,因而可以部分验证厂商根据历史行为数据对用户进行分类后的预期收益会显著更高。
图4 聚类前后用户总体的预期总收益对比
在方案的落地性分析中聚焦于两点:1)如何让用户在价格歧视下,降低对于价格的感知能力;2)如何在现实应用中实现多次定价。
针对问题一,目前行业内的做法主要是在产品的统一原始价格上进行价格的再次包装,从而降低用户对于产品价格的感知能力。包装价格的手段有随机抽取优惠券、完成任务获得额外补贴等形式。具体分析数值案例中产品的阶梯定价有{¥19.8,¥28.8,¥36.8,¥41.8},而可以采用的手段则是将产品的原始价格定为¥50,再分别设立4折、5.8折、7.4折、8.4折的优惠券供用户随机抽取,从而实现阶梯定价的目的。在该场景下,这样就可以更好地让用户接受同一产品不同定价的设定。
本文具体分析了在有限的销售周期内基于动态定价的收入管理问题,其解决的问题场景是:使得零售商在该销售周期内获得尽可能高的累计收入。为了更贴近现实场景,假定了零售商在销售周期开始之前并不知晓各个价格下的用户平均需求,但可以通过用户群体的历史购买行为得到包含未知参数的需求函数的分布。本文的主要贡献在于迁移应用了汤普森采样算法,通过动态定价的方式设计了一套定价策略以帮助零售商实现更高的累计收入,在该基础上采取了预先的用户聚类,并提出了方案的落地方式。在数值仿真的过程中,采用汤普森采样算法的预期总收入好于传统的启发式算法,展现了以汤普森采样为代表的机器学习算法在收入管理领域中的应用价值,并且采取预先用户聚类的方案也显著好于原方案。根据本文的算法所提出的定价策略是:在每一个单位定价周期内,通过算法选择出随机数的最大值所对应的候选项作为该阶段的定价,并更新该候选项的贝塔分布。循环给定次数之后,完成该优化问题的完整定价策略。而在策略的可落地性上,可以采用包装后的价格歧视方案来降低用户的价格感知能力,并且对于用户群体采取分批逐次定价的方式更好地实现了价格的多次调整。
对未来的工作还存在一些可以继续深入研究的方向:其一是进一步针对用户群体划分的准确度与最终预期总收入之间的定量关系;其二是进一步考虑情境关系下的汤普森采样算法(Contextual Thompson Sampling)在收入管理问题上的应用,并与传统的汤普森采样算法进行对比分析;其三是与零售商合作进行实证研究,进一步探索该策略在实际场景下的有效性。