基于GBDT算法的电视剧收视率预测

2022-03-14 02:19陈天锴王贵勇

电视技术 2022年2期

陈天锴，王贵勇

（昆明理工大学交通工程学院，云南昆明 650500）

0 引言

收视率作为电视剧评价体系中的重要指标，在一定程度上反映了大众对作品的喜好，对电视剧的投资、选题、选角、拍摄、宣发以及放送规划等有着重要的参考价值。收视率预测值可以作为电视剧作品潜在市场价值的参考。投资方可以通过预测收视率估计投资回报、控制投入成本、降低投资风险。制片方可以基于收视率预测值调整制作档期和主创人员、提高作品质量。电视台基于收视率预测可以评估作品的价值与风险，调整播放时段与广告投放策略。准确的收视率预测具有较高的商业价值，能够降低各方投资风险同时提高多方收益，形成合作共赢。

收视率是电视剧放送后获得的统计数据。目前，行业内对收视率数据的挖掘与分析侧重于上映后预测，基于时间序列分析、神经网络等方法预测未来档期内每天的收视率[1]。对于上映前预测的研究相对较少，目前在电视剧作品收视率研究中，对于收视率影响因素的具体研究还处于探索阶段。

国内学者采用了多种方法对播前收视率进行预测。张涛[2]提出了基于情境案例推理的播前收视率预测方法，通过大量历史数据与新节目进行情景匹配，平均准确率可达71.09%。张茜[3]采用了TEI@I方法研究了2012—2014年427期综艺节目的35个城市收视率，线性回归模型拟合程度R2为92%。汪洋基于BP神经网络和某档综艺节目的12期收视率对13期进行预测，预测精度较高，但神经网络出现最大迭代15 000次未收敛的情况，预测失败率为13.203%。此外还有学者提出了其他预测方法[4-5]，但预测模型对数据量样本以及数据采集方法的要求较高。部分方法较为复杂，计算时间成本较高。

梯度提升决策树（Gradient Boosting Decision Tree， GBDT）是机器学习常用的回归预测算法之一，可用于小训练集多元非线性回归问题，具有较高的回归精度、抗异常值性、可处理文本特征输入与缺失值、无需进行特征标准化的优点。GBDT已被用于解决各学科领域内的回归问题，取得了不错的效果。

本文基于GBDT算法和2020年国内电视频道收视率超0.5%的黄金时段电视剧收视率数据建立预测模型。模型基于电视剧主创团队、题材、热度等特征输入预测收视率，并通过对比预测收视率和真实收视率验证了模型精确度，为电视剧收视率播前预测提供了一种全新思路。

1 特征参数分析与处理

电视剧作为面向人类主观感受的精神视觉产物，难以用客观好坏加以评价。甲之蜜糖，乙之砒霜，受众的增加造成了影视作品评价往往出现多级分化情况。因此，在考虑模型特征输入时必须同时考虑主观与客观因素。在选取预测模型输入参数时，优先考虑比较显著的影响因素，将电视剧划分为三类特征输入：第一类为导演、演员等情感喜好度因素，第二类为作品年代、题材、元素等构成因素，第三类为评分、网络热度等评价指标。将电视剧作品比喻为一道美食，第一类因素好比厨师，第二类因素好比食材，第三类因素好比菜品完成度。三者共同决定了大众对“美食”的喜爱程度，也就是收视率。

著名导演与明星演员的粉丝群体为热播剧集贡献了大量收视率，造成了第一类因素难以进行量化分析。因此，引入文献[6]的评价指标，将获得过重大影响力奖项和具有较大影响力作品的导演认定为一线导演，将具有一定影响力的导演认定为二线导演，将新人导演与作品存在较大争议和负面评价的导演认定为三线导演，基于评价给定特征参数值。根据百度热搜与新浪热搜指数对演员因素进行量化。

对第二类影响因素采用影视作品标签法进行拆分，根据题材与元素拆分为背景年代、都市、乡村、职场、家庭、爱情、社会建设、革命题材、政治、人物、历史、战争军旅、古代王朝、武侠仙侠、动作、谍战以及探案等特征参数。

对三类影响因素采用豆瓣评分机制评分，豆瓣评分是国内最大的影视图书评分网站，其评分具有一定参考价值。热度值采用新浪热搜指数与百度热搜指数加权计算。

基于以上三类影响因素，建立模型输入特征参数矩阵，参数量化表如表1所示。模型训练数据集基于《中国视听大数据：2020年年度中国电视收视综合分析》发布的2020年收视率超0.5%黄金时段电视剧数据，共计93组。如图1所示。

图1 2020年收视率超0.5%的黄金时段电视剧收视率

表1 特征参数量化表

2 GBDT建模算法

2.1 GBDT梯度提升树

GBDT是Boosting集成学习算法的一种，采用梯度提升算法训练决策树模型。模型由多棵分类回归树构成，通过将弱学习器决策树集成训练形成高性能学习方法，通过寻找最小化均方差来寻找决策树最优划分，逐步迭代逼近真实值，从而优化决模型预测精度。GBDT算法在处理多特征输入分类与回归问题上表现优异，模型训练速度快，精度较高。

GBDT算法表达式可表示为：

式中：x为特征参数输入矩阵，P为GBDT算法模型参数矩阵，Tk为子决策树模型，k为第k棵子回归决策树(k=0,1,…,K)，αk为第k棵子决策树权重系数。收视率预测模型输入矩阵TP为：

式中：x1k为第k个剧集导演特征参数，x2k为主演特征参数，y1k,y2k,…,ymk为年代、题材等m个二类影响因素特征参数，z1k为豆瓣评分特征参数，z2k为网络热度值特征参数，Rak为真实收视率特征参数。

GBDT迭代模型表达式为：

式中：fk-1(x)为k-1代子决策树输出，Tk为k代迭代决策树，fk为k轮迭代后预测率模型。

初始化生成第一棵决策树F0(x)：

式中：c为使决策树F0(x)损失函数最小的值。不断迭代生成下一代决策树，k=0,1,…,K。损失函数为L[yi,f(x)]。

对每轮迭代样本输入i=0,1,…,K，计算第k棵决策树损失函数负梯度响应残差rk,i：

对i=0,1,…,K，计算负梯度值rk,i，将(xi,rk,i)作为输入进行下一轮迭代，得出第k棵回归树，其对用的叶子节点区域为Rm,i，其中j=1,2,…,Jk，Jk为第k棵回归树的叶子节点个数。

对Jk个叶子区域j=1,2,…,Jk，计算出拟合值：

迭代更新强学习器：

得到GBDT强学习器表达式为：

2.2 模型优化

对于不同的回归问题与数据集，需要对算法参数进行优化，使用GridSearchCV网格搜索算法指定步长遍历参数取值范围，求解模型参数最值。对损失函数、子采样比例、决策树迭代步长、弱学习器最大迭代次数、决策树最大深度等参数进行计算，提高提高模型训练速度与预测精度，避免弱拟合与过拟合。

2.3 模型训练

在训练数据样本集较小的情况下，为提高模型精度，避免模型因数据样本量过小失真，防止模型过度拟合，采用K折交叉验证将93组训练数据划分为[18，18，19，19，19]5个互斥子集，采用分层抽样保证5个子集分布一致性。每次取4个子集数据进行训练，剩余一个进行验证，总计进行5次训练。

3 模型验证

收视率预测模型训练完毕后，计算模型以下评价指标：均方根误差（Root Mean Square Error，RMSE）、平均绝对误差（Mean Absolute Error，MAE）、R-Square模型决定系数（R2）以及平均相对误差（Mean Relative Error，MRE），它们的计算式分别为：

式中：yact为真实收视率，yfit为预测收视率，ymean为预测收视率平均值。

收视率预测值90%置信区间如图2所示，可以看出，测试样本收视率有5组样本处于90%附近，剩余14组样本均处于90%置信区间内，证明预测模型能较好地反映真实收视率，模型具有较高精度。模型决定系数R2=0.905。R2决定系数又称为模型拟合程度，0＜R2＜1。由式（12）可知，R2越趋近于1，预测值残差平方和越小，且无限趋近于0，收视率预测值越接近收视率真实值。在不存在过拟合的情况下，R2越大，模型拟合度越高，模型误差越小。

图2 收视率预测值90%置信区间

测试数据集预测收视率与真实收视率的对比情况如图3所示，经计算得出RMSE=0.084，MAE=0.096。可以看出，19组验证数据收视率预测值与真实值高度接近，模型拟合程度较高，具有较高的预测准确度。

图3 预测收视率与真实收视率对比

测试数据集预测值相对误差如图4所示，测试数据集平均相对误差MRE=8.84%。第3、9、15、19个测试数据的相对误差分别为14.50%、15.40%、17.23%、-15.14%，存在一定程度的预测误差。大多数测试样本均保持误差在10%左右，少数样本具有较低误差，模型整体具有较高精确度。

图4 测试数据集相对误差

4 结语

基于影响因素划分的GBDT电视剧收视率预测模型能够有效预测不同主创团队、题材及热度的电视剧收视率。模型决定系数R2=0.905，整体误差MRE=8.84%，测试样本均处于误差允许范围，模型具有较高的拟合程度和准确性。GBDT算法为电视剧播收视率前预测提供了一种行之有效的方法，为电视剧发行方与电视台预测率数据分析提供了一定参考。