马文景,陈淮莉
(上海海事大学物流科学与工程研究院,上海 201306)
近年来,我国网络零售业获得了长足的发展,其竞争焦点也逐渐从价格转向服务,线上零售商的优势也越来越多地体现在购物的便利性和服务体验上。因此,通过向客户提供精准的订单预计配送时间,在快的基础上提升时间的精准度和可控度,实现消费者对时间的个性化需求,已成为提高客户线上消费满意度的至关重要的一环。在 B2C (business to customer)模式下,时隙是网络零售商提供给客户选择的交货时间窗[1],便于客户根据自身偏好和日程安排,提前选择时隙。这可以避免空递造成的损失,极大地满足客户对时间的精准安排和有效利用的需求,提高客户满意度。在配送的精准快方面,京东(JD.COM)的表现尤为突出,“京准达”就是京东针对“最后一公里”推出的每2 h一个波次的精准送达服务。客户可通过“京准达”预约未来一周的特定收货时间段,最早可始于9:00,最晚可至22:00。选择“京准达”服务的客户需要在原订单和运费的基础上多付3~6元的运费。随着近年来主营生鲜品的电商和外卖订餐平台不断涌现,电商竞争越来越激烈,按时隙配送已成为电商配送服务的主流方向。
目前,国外关于配送时隙的研究较多,国内关于配送时隙的研究相对较少。AGATZ等[1]介绍了电商配送时隙的需求管理概念,并探讨了对应的订单履约方法。ASDEMIR等[2]研究了多时隙选项的动态定价问题,提出了一种基于马尔科夫决策过程的动态定价模型,通过调整价格影响客户的时隙选择行为、提高车辆装载率、降低平均订单交付成本,但是该方法主要用于时隙配送能力较充足的情况。XU等[3]以最小化总发货次数为目标提出了近优算法,采用滚动计划对客户订单任务进行再分配,并探讨了相关需求、订单价值和订单数量的影响。LIN等[4]通过仿真评估不同送货政策对互联网零售商的影响,重点分析硬时间窗对成本的影响从而均衡配送成本与客户服务水平。HSU等[5]寻求最佳的交付装运周期以平衡交付成本与客户订单提前期,建立了需求量受提前期影响的非线性利润优化模型,并通过案例分析得出随着时间和区域需求变化调整装运频率的动态策略比维持静态策略更好的结论。BUSHUEV等[6]将配送窗口的最优位置的概念引入基于成本的配送性能模型,并通过分析表明配送窗口的最优定位将最小化不及时(过早或过晚)交付的预期惩罚成本。COROLLI等[7]从航空公司收益管理中受到启发,建立了两个随机规划模型,该模型通过调节客户要求的时隙与实际可能延迟交付的时隙之间的时间差,并考虑运能消耗的随机性,对时隙运能进行协调分配。CARAMIA等[8]重点研究了从中央商务区(CBD)到周边的配送问题,并从配送中心和配送路径规划这两个角度出发,对配送时隙运能进行了优化分配。ACAR等[9]研究了影响客户选择的因素,并通过因子分析和多变量方差分析评估和选取了6个与客户的人口特征有关的因素。HOSSEINALIFAM等[10]基于航空公司收益管理的思想研究动态资源分配的问题,提出一种将客户选择偏好和现实问题纳入考虑的混合(参数-非参数)选择模型,并采用列生成算法对该模型进行求解。MAZHARI等[11]通过蒙特卡洛仿真检验客户选择采用CCOR(customer choices on reliability)来获得风险收益的概率的影响,此外为同时达到最小化总规划成本和风险收益的目标,提出了将基于模糊决策的选择所获得的帕累托最优解与非支配排序遗传算法(NSGA-II)结合的多目标规划方法。BUHLER等[12]为得到更接近现实的配送成本,提出了4种可以与现有的预订期建模方法相结合的新的线性混合整数规划模型,并通过算例说明配送的近似成本接近其真实值。HEDGCOCK等[13]通过对现有的关于选择前后关系效应的文献成果进行梳理总结,建立了诱导因素和先前选择对后续选择影响的模型。
已有的配送时隙研究多采用最普遍的多项式Logit(multi-nomial Logit,MNL)模型对客户的选择行为进行拟合,但传统的MNL模型仅能处理客户可观测的系统性偏好,具有独立不相关(independent and irrelevant alternatives,IIA)特性、喜好随机性限制和跨期间的重复选择的局限性。Mixed Logit模型的条件约束更为自由,其参数可以根据具体情况设置为任何形式的随机分布,其精度接近任何一种随机效用模型,突破了MNL模型固有的局限性,从而能够灵活地解决客户的随机性偏好,对客户的选择行为分析更加贴合实际。因此,本文采用Mixed Logit模型对线上客户的配送时隙选择行为进行分析,采用基于强化学习的Q学习算法对时隙定价优化问题进行求解,最终通过仿真分析时隙的动态定价策略。
在网购环境中,网络零售商为某地区提供配送服务时会提供多种时隙选项[1],不同时隙具有的时隙属性不同,即不同时隙在交付期长度、时隙宽度、物流服务水平方面存在差异。在时隙开放前,网络零售商根据各时隙所耗费的成本和客户的时隙选择历史数据,确定这些时隙的初始价格。在时隙开放后,客户在下订单时会选择一个时隙作为交货时间,该时隙的运能就会被分配给该客户的订单。由于客户的选择偏好不同,各时隙的运能分配情况可能会产生较大的差异:一部分时隙由于被较多客户选择,其运能可能因消耗较快而供不应求;另一部分时隙由于被较少的客户选择,其剩余运能居高不下,供过于求。此时,网络零售商会根据各时隙的运能分配情况,通过有针对性地对各时隙的价格进行动态调整,影响后续到达客户的时隙选择行为,从而使各时隙的运能得到均衡分配,以降低成本、优化收益。
集合:N为配送时隙选项集合,i∈{1,2,…,I}=N,i=0表示不选择这些时隙选项;M为客户订单到达时段集合,t∈{1,2,…,T}=M。
参数:H为每个时隙的初始固定配送能力;Z表示时段t被划分的单位时段数;σ为交付期长度的成本弹性系数;ρ为时隙宽度的成本弹性系数;α为学习速率;γ为未来收益的折扣因子;ε为探索概率。
变量:Ui为时隙i对客户的效用;βr为时隙价格r的偏好系数;βL为交付期长度L的偏好系数;βW为时隙宽度W的偏好系数;βS为物流服务水平S的偏好系数;R为网络零售商时隙选项的收益;Pi为选择时隙i的概率;Li为时隙i的交付期长度;Wi为时隙i的宽度;Si为时隙i的物流服务水平。
决策变量:ri为时隙i的价格。
考虑到不同的时隙选项对客户的效用不尽相同,引入效用函数:
Ui=Vi+εi,∀i∈N
(1)
式中:Vi为可观测的固定效用;εi为反映个体消费者独特偏好的不可观测的随机变量。当Vi独立且服从同一Gumbel分布时,根据效用函数可建立基于MNL模型的选择概率公式,选择时隙i的概率为
(2)
MNL模型是Logit模型的基本形式,是离散选择模型体系的基础,但由于受到当时计算技术的限制,具有以下局限性:(1)该模型认为同一选项的效用对所有决策者来说是无差别的,而事实上同一选项的效用对不同决策者的效用权重往往不同;(2)该模型假设决策者在重复选择时,同一选项的效用对该决策者的权重依然相同,而事实上过去的选择会对当前的选择产生影响(即滞后反应),对于此类问题MNL模型也无法处理;(3)MNL模型有一个限制性假设,即认为不同的选项之间是可以成比例地相互替代的,而事实上该假设在很多情况下不符合实际。由于MNL模型存在上述局限性,所以它只能处理客户的系统性偏好问题。
Mixed Logit模型的参数分布能够根据实际情况自由灵活地设置,因而能够更好地处理客户的随机偏好问题。因此,客户对时隙i的选择概率可表示为
(3)
(4)
式(4)中,Vi为随机效用中的可观测部分,其表达式为Vi=β1x1+β2x2+…+βkxk=β′x,其中x=(x1,x2,…,xk)T为特性向量,β′=(β1,β2,…,βk)为待估参数向量。在Mixed Logit模型中β′可以根据客户的时隙选择偏好服从任何分布。本文根据调查,将影响客户时隙选择行为的因素分为时隙价格r、交付期长度L、时隙宽度W和物流服务水平S等4个因素。将各影响因素代入Vi:
Vi=βrri+βLLi+βWWi+βSSi
(5)
则客户m在Mixed Logit模型下选择时隙i的概率为
(6)
与MNL模型不同的是,Mixed Logit模型没有封闭解,需要计算机通过统计模拟,按照模型中参数服从的分布进行抽样生成随机数,再将随机数代入式(4)得到相应的函数值,最后计算这些函数值的平均数,从而得到Pi的模拟解。
假设将时隙i的开放预定时间范围[0,T]划分为T个离散时段,再将每个离散时段划分为Z个足够小的单位时段,在单位时段内有且仅有一个客户订单到达或者没有客户订单到达。客户订单在时段t到达的概率用λt表示,且服从Poisson分布,则在时段t客户对时隙i的需求表达式为
qit=λtPiZ,i∈N;t∈M
(7)
假设每个时隙在初始阶段的运能(即能够配送的订单数量)是固定的,记为H。每收到一个客户的订单,客户所选择的时隙的运能就会被消耗。在时段t时隙i剩余运能的表达式为
(8)
(9)
在时段t,若时隙i的当前剩余运能无法满足当前需求,则需要商家考虑采取租用或外包车辆的方式额外调度运能,从而会产生一定的额外成本CEi:
CEi=(qit-Sit)k,i∈N;t∈M
(10)
式中,k表示单位额外订单所产生的成本。
时隙i的单位订单可变成本为
(11)
式中:σ表示时隙i的交付期长度Li的成本弹性系数;ρ表示时隙i的交付时隙宽度Wi的成本弹性系数;η表示时隙i的物流服务水平Si的成本弹性系数。单位订单可变成本Cvi与Li和Wi均成反比,与Si成正比。假设处理单位订单的固定成本为Cp,则时隙i的单位订单成本为
Ci=Cp+Cvi
(12)
收益目标函数为
(13)
式中:xi为0-1变量,用来判断时隙i是否存在机会成本或额外成本。
(14)
强化学习的任务是找到一个最佳策略,可以让智能主体在与环境的交互中根据当前的系统状态选择一个动作,使累积的长期收益最大。因此,需要针对线上订单的配送时隙定价问题对状态、动作和即时回报作出具体的定义。首先在各时隙配送能力固定的情况下,客户订单的到达对各时隙运能的消耗都会使各时隙的当前运能进入一个新的状态,故将时隙i时段t的当前剩余运能记为系统状态:
Sit=Si(t-1)-qit
(15)
进入当前系统状态后,网络零售商需要对时隙进行定价,即系统做出动作ai(Sit)。在决策过程中,即时回报取网络零售商该轮次获得的利润(式(13))。
Q学习算法是强化学习中的一个突破性算法,其最大的优点是不需要学习状态转移概率和回报函数,只需利用唯一已知的即时回报R在线学习和优化最佳策略,且计算速度快。因此,本文采用Q学习算法来寻求时隙定价的优化策略,其学习步骤为:观察当前的系统状态St,选择一个动作at并执行,观察动作执行后的状态St+1和所收到的即时回报Rt,然后根据更新公式更新Q值,Q值的更新规则为
Q(St,at)←Q(St,at)+α(Rt+
(16)
经过大量的迭代计算,Q学习算法的学习训练结果会记录在一个look up表中,包括每个状态S下执行各个动作a所得的Q值。在需要决策时,系统只需在look up表中找到在当前状态S下最大的Q值对应的动作a即可。在学习过程中,为了避免陷入局部最优,通常采用ε-greedy策略来处理探索(exploration)与利用(exploitation)之间的平衡问题,即网络零售商以较大的概率1-ε选取Q值最大的动作作为最优动作,同时以较小的概率ε向外探索,随机选取Q值不是最大的动作作为自己的最佳策略。
为验证模型的有效性,以某网络零售商客户的历史时隙选择数据为例,通过计算机仿真进行算例分析。假设网络零售商向客户提供3个可选择的时隙(即I=3),分别为上午8:00—12:00,下午1:00—5:00和下午5:00—9:00。为区分这3个配送时隙的综合服务质量,对时隙属性的参数进行差别设置,即将3个时隙的(Li,Wi,Si)分别设置为(1,1,5)、(3,2,3)和(6,4,1);通过网络零售商对客户的调研,将客户对这3个时隙保留价格的上下限[rimin,rimax]分别设为[8,10]、[5,8]和[3,6];每个时段包含的单位时段的数量Z=20,时隙的初始配送能力H=20;在时段t内的订单到达率λt=0.4;其他参数设置为k=0.6,σ=3.33,ρ=0.14,η=0.12。
Mixed Logit 模型中的变量系数可以设置成均匀分布、正态分布和对数正态分布等。根据实际情况和以往的研究经验,对影响时隙选择的变量系数的分布进行设置。参照一般的经济学原理,时隙价格高则效用为负值,而对数正态分布可以很好地描述顾客的单向偏好性。因此,将时隙价格的偏好系数βr设为服从对数正态分布,将交付期长度的偏好系数βL和时隙宽度的偏好系数βW设为服从正态分布,将物流服务水平的偏好系数βS设为固定值。为将βr设为对数正态分布,先将时隙价格r取对数,然后令其服从正态分布即可。本文分别用MNL模型和Mixed Logit模型对线上客户的时隙选择行为进行拟合,通过调用统计软件SAS 9.4对影响时隙选择的变量系数进行估计,结果见表1。
表1 MNL模型与Mixed Logit模型的估计结果比较
表1中:(1)采用Mixed Logit模型时“_M”为变量系数的均值的标志,“_S”为变量系数的标准差的标志。(2)变量系数的标准差可以取负值,但是这里取其绝对值作为标准差。比如,尽管交付期长度的偏好系数的标准差为-2.226,但这里取2.226作为标准差。(3)标准差是随机误差绝对值的统计均值,反映的是个体与总体均值的偏离情况,标准差越大说明偏离越远,整体表现为数据越分散;标准误差是在抽样试验中常用到的样本平均数的标准差,反映样本平均数的离散程度,标准误差越小,说明样本平均数与总体平均数越接近,否则,表明样本平均数比较离散。
从表1可以看出,Mixed Logit模型能够比MNL模型揭示更多客户时隙选择行为的信息:(1)在采用MNL模型时,时隙价格的偏好系数为负说明对线上购物的客户收取的配送费用高,效用为负;在采用Mixed Logit模型时,时隙价格偏好系数的对数服从均值为-4.447 3、标准差为1.441 1的正态分布(见图1)。根据对数正态分布的性质,时隙价格的效用始终小于0,即在其他时隙属性相同的情况下,没有客户愿意支付高价格。(2)在采用MNL模型时,交付期长度的偏好系数只能反映线上客户对时隙价格的平均偏好为负;在采用Mixed Logit模型时,交付期长度的偏好系数服从均值为-1.628 1、标准差为2.226 0的正态分布(见图2)。由此可以得出该分布大于0的累积概率密度为0.232 2,说明即使选择时隙配送的客户群体的平均偏好为负,仍有23.22%的客户偏好交付期长的时隙(比如提前下单预订某种商品并需要其在特定时间送达的客户,就需要较长的交付期来满足其交货需求)。因此,网络零售商应对不同的客户提供不同的时隙选项以满足客户的多样化、定制化需求。(3)在采用Mixed Logit模型时,时隙宽度的偏好系数服从均值为-1.205 2、标准差为1.780 4的正态分布(见图3),由此不仅可以得知时隙宽度的效用为负(采用MNL模型也可以得知该信息),而且可以通过计算得知有24.92%的客户喜欢较大的时隙宽度(这类客户的自由支配时间可能较多,且对未来时间的计划性需求不强,因而并不希望在太具体的时间收货)。因此,商家在向客户提供时隙选项时,也应考虑到这部分客户的存在。
图1 对数时隙价格的系数分布
图2 交付期长度的系数分布
图3 时隙宽度的系数分布
从表1还可以得出:(1)物流服务水平的系数为正,即客户对物流服务水平的平均偏好为正。因为该系数被设为固定值,所以可以认为所有客户都希望得到物流服务水平更高的配送。(2)从系数的绝对值大小上看,客户对时隙价格的敏感度最高,其次是交付期长度和时隙宽度,最后是物流服务水平。
由表2中的两个模型的拟合参数结果比较可以看出,不管是对数似然函数、McFadden似然比指数(LRI),还是赤池信息准则(AIC)、施瓦兹准则(Schwarz Criterion)、Estrella值,采用Mixed Logit模型时的各项指标都比采用MNL模型时的更优。究其原因主要是:MNL模型要求不可观测效用的价格系数也服从正态分布,与实际相冲突;Mixed Logit模型通过假设价格系数服从对数正态分布来解决这一问题,故更符合实际。
表2 MNL模型与Mixed Logit模型的拟合参数结果比较
分别将用MNL模型和Mixed Logit模型对客户时隙选择行为的拟合所得到的相关参数代入时隙的收益模型中,并通过Q学习算法对收益模型中的时隙价格进行求解。设置Q学习算法的相关参数为:学习轮次最大值K=10 000,学习速率α=0.6,未来收益折扣因子γ=0.4,探索概率ε=0.2。通过MATLAB R2016a进行求解,用两种模型求解的各时隙的价格和总收益情况见表3、图4和图5。
表3 用MNL模型和Mixed Logit模型求解的时隙价格比较
图4 用MNL模型和Mixed Logit模型求解的各时隙价格
图5 用MNL模型和Mixed Logit模型求解的总收益
由图4可知:对于时隙价格的求解,采用MNL模型时求解结果在3 000轮次的学习后波动减小,在4 000轮次左右的学习后开始收敛,而采用Mixed Logit模型时求解结果在1 000轮次左右就开始收敛,即采用Mixed Logit模型时Q学习算法比采用MNL模型时的Q学习算法能更快地寻找到最优定价策略。由图5可知,对于总收益的求解,采用Mixed Logit模型时Q学习算法在1 000轮次左右的学习后开始收敛于一个稳定的总收益81.46,而采用MNL模型时的Q学习算法在3 000轮次左右的学习后趋于稳定,最终收敛于76.39,即在最优收益的计算方面,采用Mixed Logit模型时的Q学习算法比采用MNL模型时的Q学习算法不仅求解速度更快,而且求解结果明显更优。
Q学习算法是对客户时隙选择行为和客户对时隙定价策略反应的模拟、预演和学习,因此对客户时隙选择行为描述的准确性会直接影响Q学习算法的求解结果和求解速度。采用Mixed Logit模型时的Q学习算法在求解速度和求解结果上的优势,与Mixed Logit模型比MNL模型对客户时隙选择行为的拟合和刻画的灵活性和精确度更胜一筹有着密切的联系。
以往的客户时隙选择研究多采用传统的多项式Logit (MNL)模型进行分析,且往往只考虑时隙价格和交付期长度对时隙选择的影响,较少讨论时隙宽度和物流服务水平对时隙选择的影响。本文将时隙价格、交付期长度、时隙宽度和物流服务水平均纳入影响时隙选择的因素中,并考虑时隙选择行为的随机性特点,基于Mixed Logit客户选择概率模型建立期望收益模型,同时与基于MNL模型建立的期望收益模型进行比较,并使用Q学习算法寻求时隙定价优化策略。研究发现:(1)时隙价格的效用系数为负,且服从对数正态分布,即在其他时隙属性相同的情况下,没人愿意付出更大的经济成本购买时隙,因此网络零售商依然需要在降低成本和价格方面下足功夫;(2)客户对交付期长度和时隙宽度的平均偏好为负,但仍分别有23.22%的客户和24.92%的客户偏好更长的交付期和时隙宽度,因此商家在制定时隙选项时也要考虑这部分客户的偏好;(3)物流服务水平给所有的客户带来的效用均为正,因此商家在关注时隙价格和收益的同时,也要注重配送品质的提升,从而进一步赢得顾客;(4)从客户选择行为的拟合效果看,相比于MNL模型,Mixed Logit模型参数估计的各项优度更为显著,并且能够反映更多内容;(5)从Q学习算法对优化时隙价格和总收益的求解情况看,较之MNL模型,基于Mixed Logit模型的定价模型不仅在求解时能够更快地收敛,而且所求得的定价策略也更优。
本文采用了最一般的Q学习算法对时隙的动态定价进行求解,算法系数是根据经验设置的静态参数。然而,Q学习算法在算法系数的选择上有很大的自由度和灵活性,其变化对算法的收敛速度有较大的影响,因此如何利用不同的强化学习方法对参数进行优化,从而使参数的设置更加符合实际情况是未来的研究方向。