一种基于深度强化学习的酒店收益管理模型与方法

2022-03-29 23:07:48刘显峰于忠清

青岛大学学报(工程技术版) 2022年2期

刘显峰　于忠清

文章编号：10069798（2022）02004708;DOI：10.13306/j.10069798.2022.02.008

摘要：针对深度强化学习方法在酒店收益管理上的应用问题，本文基于深度强化学习，构建了收益管理决策过程的模型与方法，通过对收益管理问题的马尔可夫性质进行了界定，描述了其模型和参数的统计学性质。同时，编写程序，实现基于深度强化学习的收益管理方法，并通过实验，将本文方法与某供应商采用的传统方法进行对比分析。分析结果表明，强化学习方法与人工收益管理方法相比，总收益提升了约15%，与传统收益管理系统相比，总收益提升了约5%，说明传统的收益管理方法成本较高，监督学习模型过于强调全局泛化性，而增大了对最优结果的估计方差，且计算量过大，而本文提出的方法能够更快地梯度下降到最优位置。该研究为企业在数据驱动下的精准定价和营销决策提供了理论基础。

关键词：深度学习;强化学习;酒店管理;收益管理

中图分类号：TP181;F719.2文献标识码：A

收益管理（revenuemanagement，RM）是一种在微观市场中预测顾客行为，并调整产品供应和价格以最大化收益增长的技术[1]。收益管理首先发源自机票预订业务的需求，并已在酒店管理等多个领域得到应用[2]。收益管理的目标是找到每天、每周、每月、每季度和每年等销售量、销售价格和成本费用之间的最佳平衡，以获得最大化的利润[3]。20世纪90年代初，酒店业开始借鉴航空业的经验，研究收益管理在酒店管理中的应用，逐步发展出相关的理论，并设计出适合酒店行业的收益管理系统[4]。酒店收益管理的核心是浮动定价，需深入理解产品对于每一类细分市场客户的价值，并进行差异化管理和优化组合。通过对市场和客户的细分，对不同目的的顾客在不同时刻的需求进行定量预测，通过优化方法确定动态的控制，最终使酒店总收益最大化，确保酒店利润的持续增长[5]。现有收益管理方法有移动平均法、线性回归法等[67]。收益管理系统是用于辅助收益管理过程的一系列计算机软件。如何从酒店管理信息系统中获取数据，根据这些数据建立模型，并进行运算、分析和辅助决策，以便动态调整客房定价、细分市场和销售渠道是值得研究的热点问题[89]。强化学习是一种用于求解马尔可夫链决定过程的机器学习算法[10]。通俗地说，强化学习算法训练一个智能体，使它在一个环境中能够做出最优化的动作，以获得最大收益[11]。强化学习通过给定环境、策略、收益进行训练，使智能体学习到最大化收益的模型或价值函数。深度强化学习是将深度学习算法应用在强化学习问题上的方法[12]。深度学习的强大的函数逼近能力，大大增强了模型向最优策略逼近的能力。对于定价问题，LIMJ等人[13]提出了電价的强化学习定价策略;JINJH等人[14]提出了道路定价策略;SHIB等人[15]提出了互联网资源定价策略。目前，强化学习在收益管理领域的研究较少，A.GOSAVII等人[16]研究了一种在单航线机票收益管理上应用强化学习的方法;R.J.LAWHEAD等人[17]提出了航空收益管理问题上的一种新的策略梯度方法，但对深度强化学习方法在收益管理问题上的应用及在酒店收益管理中的应用研究却没有[18]。酒店行业对于一种便捷有效的收益管理方法有着迫切需求[19]。因此，本文基于深度强化学习，建立酒店收益管理模型，对酒店收益管理系统中的数据进行建模和分析，以期优化收益管理。该研究有一定的理论和应用价值。

1问题描述

收益管理系统的主要功能包括数据收集、分析、预测和优化。预测算法中包括平均、回归等统计学算法，根据历年销售情况，统计预测未来市场状况，而优化系统根据未来市场状况，提出合理的价格。收益管理系统优化时，常参考4个重要参数：即距离入住日期的天数、市场需求的等级、竞争对手的价格和剩余房间的数量，通过这些数据的收集和算法运算，收益管理系统提出最优收益增长建议[20]。通过收益管理和强化学习问题之间要素的对应，可将收益管理问题表述为强化学习问题模型。收益管理的目标是最大化营业额和利润，这两个指标可以作为强化学习算法的优化目标。模型契合的核心在于优化目标的一致性，本文选择营业额作为优化目标。状态对应预测参数和优化参数，预测参数包含时间和日期，优化参数包含距离入住日期的天数、市场需求的等级、竞争对手的价格和剩余房间的数量等。在传统收益管理系统运行过程中，对于应用强化学习算法的收益管理系统，要尽可能多的采用这些参数做出预测和优化，以做出更加准确的预测。由于这些因素客观存在，无法直接控制，因此它们对应强化学习问题中的状态。动作对应销售价格和市场建议，销售价格是酒店可以随意改动的参数，酒店通过主动控制该参数，求得收益最大化，因此可把它当作动作。值得注意的是，无论环境如何，动作集合都不会改变，即定价的取值范围不会改变，智能体对应的是进行预测和优化收益管理系统。传统收益管理系统的算法，按照状态动作收益的模型运作，该模型预先定义好，而强化学习算法是从历史经验中学习。

强化学习算法有较大的灵活性，即使修改模型约束条件，强化学习算法仍能正确运行，并在新的约束条件下尽可能求得最优解。目前，对各个参数的选择是模仿收益管理问题的传统模型，建立该模型要尽可能合理地选择输入输出参数，相同的参数选择可以方便对结果进行比较。某些条件是否人为可控等酒店管理学较深专业内容，是该领域一个开放性问题。

2基于深度强化学习的酒店收益管理模型

2.1MDP模型

马尔可夫决策过程（markovdecisionprocess，MDP）是序贯决策（sequentialdecision，SD）的数学模型，用于在系统状态具有马尔可夫性质的环境中，模拟智能体可实现的随机性策略与回报。在随机过程中，马尔可夫过程定义为

式中，P{|}表示条件概率;Xtn表示tn时刻x的分布;x表示入住率。

令顾客在t日预订a日房间的入住率为X（t，a），考虑以下统计独立性假设是否成立，即

根据以上假设是否成立，将问题场景分为3种情况。若式（3）不成立，则过去的预订情况会影响将来的预订情况，依据预订日或入住日均无法建立马尔可夫过程，只能建立博弈论模型。若式（3）成立但式（2）不成立，则同一预订日的不同入住日Xt，a和Xt，b彼此相关，可依据预订日Xt建立马尔可夫过程模型，每个预订日对应一个状态Xt，SymboleB@

若式（2）和式（3）均成立，则可依据入住日建立马尔可夫过程模型，每个预订日入住日组合Xt，a对应一个状态，因此可独立描述Xt，a的MDP性质，即

根据酒店运行的一般经验，顾客不会因为某日酒店订满而改变行程，也不会提前猜测酒店的打折行为，因此Xt，a具备统计独立性，以上所述假设基本成立。

在现实问题中界定收益管理系统，做出决策时间点。在航空收益管理中，通常每卖出一张票，进行一次运算，并输出新的动作，决定新的票价，然而酒店管理无法频繁地更改房价，酒店根据销售状况，每天更改1次房价，本文采用这一常用定价方法。能否利用机器学习方法更频繁地更改房价，属于开放性问题。假如酒店在固定天数以前开始房间预订，并以固定的时间间隔更改房价，那么总决策次数固定，该马尔可夫链将是一个具有固定长度的分幕式任务，简化了MDP的统计学性质。

定义状态为s，则s是多个不同变量的连接，其包含以下部分：

1）入住日的日期为te，该参数在整个幕中都不变。

2）预订日距离入住日期的天数为ts，该参数在每个幕中都以固定次序递减。

3）在特定日期出现的客观状态，如市场需求的等级，竞争对手的价格等统称为sr。这些客观状态可以看作环境根据t参数从一个分布中随机取值，不受策略动作影响，也就是说，sr的分布只由te和ts直接表示，而与MDP性质无关，即

4）受策略动作影响的状态sm，即剩余房间的数量，剩余房间的数量是s中受马尔可夫性质影响的部分，它会因为做出决策的不同而变化，这些变量的值域不会互相影响，因此总的状态集合S是它们分别的状态集合的外积，即

式中，T表示所有日期的集合。尽管sm已经表现出马尔可夫性质，加上统计独立的参数te、ts和sr，相当于正交扩展了MDP状态空间，其MDP性质仍不变，且具有更好的方差。

定义动作为a，a包含各个房型的价格和可超售的数量，即

a={a1，a2，a3…}

在每次销售后，即更新的模型中，可以在卖出最大数量后，通过将价格定为非常大来阻止更多的超售，但在每天更新的模型中，无法采取这样的策略，因此必须预先设定好最大允许的超售数量。由此可见，定时更新的模型更加粗粒化，需要对一段时间内的均值作出统计学估计。

定義收益为r，在收益管理问题中，收益就是总营业额，即所有动作的和。但值得注意的是，实际营业额还需要去除去订了房而没来入住的订房数，并考虑因超额订房而安排到别的酒店入住的客人，因为这部分客人需要反过来垫付房费，所以从强化学习的性质而言，应当加上一个较大的惩罚，以避免出现这种情况。

既然sr是te，ts的随机函数，那么不考虑MDP性质sm，可定义某预订日对某入住日的收益先验预测值r（te，ts），这个值互相之间不相关，该先验预测函数，不考虑强化学习过程的传统预测方法所逼近的函数，应与此类传统方法进行比较。

在正确定义s、a和r之后，可得到强化学习模型的完整基础，并可推得状态空间S和A的定义及价值函数V和Q的定义，即

根据原问题的性质，推论s、a、r的恰当取值方式，并选择合适的拟合函数。

2.2数据模型

根据具体业务，确定具体的状态空间S和A，S构成如前所述，是多个部分的外积。其中，所有数值，即日期、天数、市场等级、空房数都是有限取值的离散参数。因此，可以方便推论出S是一个有限集合。

为了深度学习模型的稳定性，可将其当作多个正则化的连续值构成的状态空间。在定义了正交随机过程te和ts后，原连续可达的MDP过程sm被扩大和分割成多个不可达的状态空间，每个te规定了一个起始点、一个结束点和其间的一组状态，不同组之间不可达;ts则指导对不同状态下状态转移概率p做出更精确计算。对于表格方法，不同组之间不可达，要求必须遍历所有组的方法，参数方法尽管可以泛化到其他组，但为了泛化性仍需要尽量多达到一些组。

定义A。房价应该是从0到无穷大的一个连续取值，然而价值函数方法无法处理连续策略，因此必须提出一个离散策略方法。从酒店管理的角度考虑，可以定义一些离散的房价值，大概5～50个整值，而不是在连续分布中取极值。这不仅满足了价值函数方法的需要，而且方便了酒店管理系统的设计，可考虑在策略梯度方法中使用连续策略空间。

更大的问题是按渠道定价。收益管理学指出，酒店具有前台、协议客户、旅行社、在线旅行代理（onlinetravelagency，OTA）等多种销售渠道。对每个销售渠道制定不同价格是收益管理的重要部分，而且这些渠道价格并非互不相干，而是具备各种没有规律的关联，例如协议客户会要求在门市价格上的固定折扣，OTA会要求全网最低价等。

另外，商务酒店经常具有过多的房型，还经常更改房型。以本文所采用的数据为例，当前该酒店具有26种房型，历史上曾经使用过的房型高达100多种，有时两种房型其实是一种（大床房和双人房可以互相切换），一种房型是两种（通过早餐、服务的区别将同一房间以两个价格出售），这些具体业务上的复杂性，使得为其确立一个平凡、可靠的状态空间变得非常困难。

为解决上述问题，本文对定价数据进行预处理，通过固定的数学公式，得到一个较为稳定的状态空间，或者定价体系。首先建立数个价格标准，每个标准价代表一类房型。标准价是强化学习模型中使用的a，同时，标准价也定义了区间和步长（如果需要离散策略）。将A收缩到有限状态空间，对于标准价定义的每个房型，用标准价乘上一个固定百分比，得到每个房型的价格，然后再对每个协议和OTA等渠道乘上一个固定的折上折，最终得到实际需要的房价a*及其状态空间A*。

令C为计算实际房价的方法，则Ca=a*，可以将其更广泛地表示为一个线性变换C：aC=a*，na*>n（a）

如果该变换选取不当，会严重影响a*的方差，从而降低回报的期望，由于酒店收益管理人员能准确拟定定价体系，降低不同部分间的方差，并记录和使用a，不能误将真实价格a*输入强化学习算法中，但回报r需要使用a*求得，在预处理下，这对正确获得现实中的最大营业额至关重要。

2.3函数模型

选取合适的参数近似方法，逼近尚未定义的、真正想要学习的、具体定价策略π。首先决定是采用同轨策略还是离轨策略，对于软件的可用性，同一个模型最好同时用两种方法学习。当一套收益管理系统应用于同一家酒店时，运用其历史数据，学习出一套能够初步应用的模型，在该模型运行过程中，再不断根据环境变化修正模型持续学习。因此，尽量排除不能同时应用于两种方法的模型。

在价值函数方法和策略空间方法中进行选择，对于价值函数方法，应考虑简单的能够进行离轨策略学习的方法，如Q学习及它的深度学习版本深度Q网络（deepQnetwork，DQN）。

值得注意的是，DQN网络对每个可能取的动作都会有一个输出，这对动作空间A非常大的模型不利。假设有4个标准价，每个标准价有20个取值，则a有160000种取值，不利于神经网络计算。另外，也可选择为每个标准价的每种取值得到一个输出，这样DQN就有80个输出，再从每一组20个中取最大值作为每个标准价的取值，这等同于将80个取值的向量空间，线性映射到160000个取值的实际动作空间中，但该映射不正确，由于多个标准价之间是非线性关系，所以该映射也是非线性关系，这种有少数输出的价值网络是真正价值网络的线性近似。由于线性映射对特定非线性函数在某一点上的估计有偏差，对极值估计也有偏差，所以对能取得r极值的a的估计也有偏差。

假如使用同轨策略方法，可期待让样本集中于所需要的极值点的邻域，可使该线性近似在该点上的估计变为无偏差，从而正确估计极值点。此外，还需要离轨策略，而且离轨策略b与目标策略π无关，而是取决于酒店在应用本文前所任意选择的收益管理策略，很难期待该价值函数的映射在π的特定点上无偏差，因此应避免使用此方法。

既然b同π完全无关，那稳定性问题就必须考虑，这种情况下参数会发散，其解决方案是采取完整的蒙特卡洛方法避免发散。鉴于MDP的链长完全确定，该问题的分幕式数学性质和计算性能都可以得到保证。因此，排除所有时序差分方法，或者将权值λ定为1，确保蒙特卡洛性质。

若在价值函数方法上遇到困难，应考虑策略梯度方法。策略梯度方法看起来能给出更优秀的性质，例如当直接用神经网络替代从价值函数中取极值的映射，就可正确表示其中的非线性性质，从而避免线性方法的偏差。因此，可直接采取简单直观的蒙特卡洛策略梯度方法REINFORCE，即

该方法可高效处理所面临的策略向量，用策略梯度向量加速结果的收敛，并且提供收敛性保证，而所具有的分幕数据确保了该方法的高效运行，也可采用改进的策略梯度方法，如ActorCritic方法，此方法在REINFORCE中加入状态价值函数，作为基线来改进收敛效率。-

3基于强化学习的收益管理系统实现

由于收益管理每一幕要在现实中经历数月，因此有必要将中间数据保存在数据库中。根据已定义的s、a、r内容，也可定义所需的表结构，表示数据结构的数据库关系图如图1所示。-实际上，几乎所有的强化学习方法都可被描述为广义策略迭代（generalizedpolicyiteration，GPI），指代让策略评估和策略改进相互作用的一般思路。策略总是基于特定的价值函数进行改进，价值函数也始终会向对应特定策略的真实价值函数收敛，而s，a，r，θ等参数，则在评估和改进流程之间互相传递。鉴于所有参数都存储在硬盘上，该流程可分割为两个独立的程序。

定义所使用的π和V的数据结构后，可以据此分割评估和改进流程，整个训练循环流程包含两个独立

运行的程序，整个训练循环流程图如图2所示。

评估流程将读取预订日ts为今日tn的所有入住率数据sm，并向数据库写入对应的a，即

而改进流程将读取入住日te为今日tn的所有数据s，a，r，并向模型添加相应的梯度，即

由于该流程真实持久地记录了所有的a，所以可采取蒙特卡洛方法进行学习。

rte，ts是某酒店某日真实的营业额，所以必须在真实的te时刻，外部程序才会将真实的r写入数据库。同样，smte，ts是某酒店某日真实的空置率，所以必须在真实的ts时刻，外部程序才会将真实的sm写入数据库。现实中的强化学习，其流程被真实业务锁死，必须在动作真实完成后，才能进行学习，但可以通过历史记录进行学习。进行离轨策略学习，只需代替评估流程，将用其他方法决定的房价a写入数据库，就可以在改进流程中读取sm，a，r数据，并进行训练。-

4实验结果与分析

传统酒店收益管理系统的方法有移动平均法和线性回归法等基于统计学的方法，根据同比等数据，对未来营销结果进行预测，将本文方法与某供应商采用的传统预测收益管理系统方法进行对比[2]。

由于策略梯度方法无法给出对离轨策略状态价值的直接预测，即无法将计算结果同历史数据进行对比，这在模拟环境中不是问题，直接对比每幕收益的最终收敛结果即可，但现实环境不允许方法在试探中进行收敛。因此，只有在方法完全收斂之后，再与传统方法进行对比，本文记录预训练收敛过程以作参考。

REINFORCE方法在预训练中损失函数变化如图3所示。由图3可以看出，约在50000次下降后，预训练模型已基本收敛。

在监督条件下，将本文算法在某酒店中试运行一段时间（2021年），并将本文算法与未使用收益管理、或者仅使用少量人工收益管理（2018年）和使用某公司收益管理系统的状态（2019年）进行对比分析，其统计区间是每年前120d的每日收入，不同收益管理方法的每日收入对比如图4所示。图3REINFORCE方法在预训练中损失函数变化图4不同收益管理方法的每日收入对比-由图4可以看出，3列数据的中位数相近，但强化学习收益管理方法的最大值显著高于传统方法，传统方法又高于不采用收益管理方法。传统方法所采用的移动平均法和线性回归法，能较好地预测当前预期房价，但对无规律、不可预期的突发事件难以进行快速反应，因其预测采用历史数据，近期数据权重相对较小。强化学习算法则主要根据近期数据进行预测，因而能抓住机会获取大量收益。值得注意的是，若不采用强化学习方法，则难以获得足够训练数据对近期数据预测模型进行训练。

另外，傳统收益管理方法成本较高，人工方法需要聘请收益管理经理配合数名员工，专职进行收益管理操作，供应商的收益管理系统则定价高，达到数万甚至数十万，而数据驱动的强化学习收益管理方法则成本低廉，只要配合酒店管理系统导出酒店数据，就能训练出可用的收益管理策略。

不同收益管理方法总收益如表1所示。由表1可以看出，强化学习方法与人工收益管理方法相比，总收益约提升了15%，与传统收益管理系统相比，总收益约提升了5%。这是收益管理一个非常显著的提升，充分显示了深度强化学习收益管理方法的优秀。-

5结束语

本文主要对一种基于深度强化学习的酒店收益管理模型与方法进行研究。理论分析和实验表明，强化学习模型能够有效地应用于酒店收益管理问题，通过对酒店收益管理问题的数学模型进行建模，验证了强化学习数学模型在收益管理问题中的理论有效性。本文方法已在实验中表现出显著的收益，而提出的数学模型可启发更多类似的后续研究。但由于相关领域的深入研究较少，难以对实验数据进行更深入的研究。进一步研究可在本文的框架下更换数据来源和训练方法，附加更多的监督学习方法，并可期待对本文的实验结果进一步改进。

参考文献：

[1]CROSSRG.Launchingtherevenuerocket：howrevenuemanagementcanworkforyourbusiness[J].TheCornellHotelandRestaurantAdministrationQuarterly，1997，38（2）：3243.

[2]GALLEGOG，TOPALOGLUH.Revenuemanagementandpricinganalytics[M].NewYork：Springer，2019.

[3]MCGILLJI，VANRYZINGJ.Revenuemanagement：researchoverviewandprospects[J].TransportationScience，1999，33（2）：233256.

[4]ERDEMM，JIANGL.Anoverviewofhotelrevenuemanagementresearchandemergingkeypatternsinthethirdmillennium[J].JournalofHospitalityandTourismTechnology，2016，7（3）：300312.

[5]SANCHEZ-MEDINAAJ，C-SANCHEZE.Usingmachinelearningandbigdataforefficientforecastingofhotelbookingcancellations[J].InternationalJournalofHospitalityManagement，2020，89：102546102554.

[6]WEATHERFORDLR，KIMESSE.Acomparisonofforecastingmethodsforhotelrevenuemanagement[J].Internationaljournalofforecasting，2003，19（3）：401415.

[7]WEBBT，SCHWARTZZ，XIANGZ，etal.Revenuemanagementforecasting：theresiliencyofadvancedbookingmethodsgivendynamicbookingwindows[J].InternationalJournalofHospitalityManagement，2020，89：102590102598.

[8]ZHANGQ，QIULY，WUHW，etal.Deeplearningbaseddynamicpricingmodelforhotelrevenuemanagement[C]∥2019InternationalConferenceonDataMiningWorkshops.Beijing：IEEE，2019：370375.

[9]FAROUKELGAYARN，SALEHM，ATIYAA，etal.Anintegratedframeworkforadvancedhotelrevenuemanagement[J].InternationalJournalofContemporaryHospitalityManagement，2011，23（1）：8498.

[10]HANW，LIUL，ZHENGH.Dynamicpricingbymultiagentreinforcementlearning[C]∥2008InternationalSymposiumonElectronicCommerceandSecurity.Guangzhou：IEEE，2008：226229.

[11]SUTTONRS，BARTOAG.Reinforcementlearning：Anintroduction[M].Cambridge：MITpress，2018.

[12]HENDERSONP，ISLAMR，BACHMANP，etal.Deepreinforcementlearningthatmatters[C]∥TheThirthy-SecondAAAIConferenceOnArtificialIntelligence.NewOrleans，Lousiana，USA：AAAI，2018.

[13]LIMJ，LIUH，LUOT，etal.Deepreinforcementlearningbasedreliabilitypricingstrategyinelectricityspotmarket[C]∥2020InternationalConferencesonInternetofThings（iThings）andIEEEGreenComputingandCommunications（GreenCom）andIEEECyber，PhysicalandSocialComputing（CPSCom）andIEEESmartData（SmartData）andIEEECongressonCybermatics（Cybermatics）.Rhodes，Greece：IEEE，2020：901909.

[14]JINJH，ZHUXX，WUBW，etal.Adynamicanddeadline-orientedroadpricingmechanismforurbantrafficmanagement[J].TsinghuaScienceandTechnology，2021，27（1）：91102.

[15]SHIB，YUANH，SHIR.Pricingcloudresourcebasedonmulti-agentreinforcementlearninginthecompetingenvironment[C]∥2018IEEEInternationalConferencesonParallelandDistributedProcessingwithApplications，UbiquitousComputingandCommunications，BigDataandCloudComputing，SocialComputingandNetworking，SustainableComputingandCommunications（ISPA/IUCC/BDCloud/SocialCom/SustainCom）.Melbourne（AV）：IEEE，2018：462468.

[16]GOSAVIIA，BANDLAN，DASTK.Areinforcementlearningapproachtoasinglelegairlinerevenuemanagementproblemwithmultiplefareclassesandoverbooking[J].IIEtransactions，2002，34（9）：729742.

[17]LAWHEADRJ，GOSAVIA.Aboundedactor-criticreinforcementlearningalgorithmappliedtoairlinerevenuemanagement[J].EngineeringApplicationsofArtificialIntelligence，2019，82：252262.

[18]GOSAVIIA，BANDLAN，DASTK.Areinforcementlearningapproachtoasinglelegairlinerevenuemanagementproblemwithmultiplefareclassesandoverbooking[J].IIEtransactions，2002，34（9）：729742.

[19]KIMESSE.Thefutureofhotelrevenuemanagement[J].JournalofRevenueandPricingManagement，2011，10（1）：6272.

[20]ISNAENIDR，CHOUSY，PHANKP，etal.Developingacceptancepoliciesforastochasticsingle-resourcerevenuemanagementproblem[C]∥2015IEEE39thAnnualComputerSoftwareandApplicationsConference.Taichung：IEEE，2015：8488.--科技论文中引言的写作内容

引言（也称前言、序言或概述）经常作为科技论文的开端，提出文中要研究的问题，引导读者阅读和理解全文。

引言作为论文的开场白，应介绍论文的写作背景和目的，以及相关领域内前人所作的工作和研究的概况，说明本研究与前人工作的关系，目前研究的热点、存在的问题及作者工作的意义，引出本文的主题给读者以引导。

引言也可以点明本文的理论依据、实验基础和研究方法，简单阐述其研究内容，三言两语预示本研究的结果意义和前景，但不必展开讨论。

HotelRevenueManagementMethodBasedonDeepReinforcementLearning

LIUXianfeng，YUZhongqing

（CollegeofComputerScience&Technology，QingdaoUniversity，Qingdao266101，China）

Abstract：Aimingattheapplicationofdeepreinforcementlearninginhotelrevenuemanagement，thispaperbuildsamodelandmethodofrevenuemanagementdecision-makingprocessbasedondeepreinforcementlearning.BydefiningtheMarkovnatureoftherevenuemanagementproblem，thestatisticalnatureofitsmodelandparametersisdescribed.Atthesametime，aprogramiswrittentorealizearevenuemanagementmethodbasedondeepreinforcementlearning，andthroughexperiments，themethodinthisarticleiscomparedwiththetraditionalmethodadoptedbyacertainsupplier.Theanalysisresultsshowthatthetotalrevenueofthereinforcementlearningmethodisincreasedbyabout15%comparedwiththemanualrevenuemanagementmethod，andthetotalrevenueisincreasedbyabout5%comparedwiththetraditionalrevenuemanagementsystem.Thesupervisedlearningmodelputstoomuchemphasisonglobalgeneralization，whichincreasesthevarianceoftheestimationoftheoptimalresult，andtheamountofcalculationistoolarge.Themethodproposedinthispapercandescendtotheoptimalpositionfaster.Thisresearchprovidesatheoreticalbasisforcompaniestoprovideaccuratepricingandmarketingdecisionsdrivenbydata.

Keywords：deeplearning;reinforcementlearning;hotelmanagement;revenuemanagement

收稿日期：20211026;修回日期：20211214

基金項目：山东省重点研发计划项目（2019JZZY020101）

作者简介：刘显峰（1994），男，硕士研究生，主要研究方向为机器学习的工业应用。

通信作者：于忠清（1962），男，博士，研究员，博士生导师，主要研究方向为数据挖掘和智能制造。Email：yuzq@qdu.edu.cn-