基于回归学习算法的高铁站媒体资源价值评估模型研究与应用

2023-01-16 13:26单杏花牛慧琳

铁路计算机应用 2022年12期

许娜，单杏花，付睿，吴刚，牛慧琳

（1.中国铁道科学研究院集团有限公司电子计算技术研究所，北京 100081；2.中国国家铁路集团有限公司经营开发部，北京 100844）

近年来，我国高速铁路（简称：高铁）网规模快速扩大，从“四纵四横”到“八纵八横”[1]。高铁所具有的高密度、高速度、安全性、舒适性、准时性使其成为铁路旅客的主流出行方式[2]。以华东某高铁线路受众为例，20～39 岁的消费人群占比61.8%，男性占比约60%，本科及以上学历占比约75%。由此可见，具备引导力的消费群体正在成为高铁媒体的潜在消费主力[3]。

随着高铁站媒体广告市场的兴盛，铁路媒体应基于各类型受众的出行需求、身份差异及时节变化等因素，进行针对性传播，增强信息传播的广度、深度和影响力。因此，亟需一种科学、系统、全面的铁路媒体资源价值评估体系指导广告资源经营。目前，大数据分析、人工智能、机器学习等技术的飞速发展和成熟应用，为高铁站媒体资源广告价值评估提供了可行性。

清水公一[4]提出了每日有效流量监测，建立了日本户外广告效果评估指标体系；孙文清[5]认为广告效果的多层次性使得广告效果具有模糊性，建立了多级模糊综合评价模型测定广告效果，设计了广告效果综合评价的指标体系，并确定各评价指标权重；陈文凯[6]将高铁站内广告资源整合为站内广告空间的形式进行评估，论述高铁站内广告空间价值，分析影响因素，评估广告空间整体价值。而目前对高铁车站媒体资源定量评估指标及价值分析研究尚不深入。

媒体价值是指媒体作为商品的市场价值。媒体资源价值评估即是对媒体的市场价值进行预估和解析，建立起一个综合的、完整的评估模型[7]。本文从铁路媒体资源经营出发，通过大数据分析方法，研究相关性指标与媒体招商价值的关系，筛选影响铁路媒体价值的强相关特征因素，形成媒体资源价值评估的指标体系模型，构建高铁站媒体资源价值评估模型，实现对高铁站媒体资源价值的评估与预测。

1 指标体系搭建

1.1 指标体系构成

基于受众和媒体2 个角度，结合高铁站媒体特征，构建高铁站媒体资源价值评估指标体系，如图1所示，包含6 个大类、10 个子类、31 项指标。

图1 高铁站媒体资源价值评估指标体系

1.2 数据项采集及预处理

高铁站媒体资源价值评估指标体系31 项指标的数据主要从铁路媒体资源管理平台、铁路出行统计、国家统计局、各地方政府官网公开发布的社会经济、车站环境等数据源中获取。部分指标的数据可直接从上述数据源采集，如城市GDP、高动占比等；部分数据指标需进行数据源分类统计，如年龄构成；部分数据指标需要对采集到的源数据进行加工，形成数据项，以满足要求，以触达人次为例，不同媒体位置的触达人次各不相同，结合第三方调研公司获取到媒体触达率、触达频次，如表1所示，以及车站年到发客流量，根据公式（1）得出触达人次。

表1 调研高铁站媒体位置到达率和接触频次

对原始数据项进行处理后，31 个指标共形成含82 个数据项的原始样本数据集。

2 特征工程

2.1 特征数据项分析

对原始样本数据集进行探索性分析，得出各特征数据项的分布趋势，如表2所示。其中，集中趋势是数据聚拢程度的一种衡量，衡量参数是均值、中位数、众数和分位数；离中趋势是数据离散程度的衡量，衡量参数主要是标准差；数据分布主要检验数据是否符合正态分布，衡量参数为偏态系数和峰态系数，偏态系数衡量数据平均值偏离状态，峰态系数衡量数据分布集中强度。

表2 部分特征数据项分布趋势衡量参数

对上述指标进行分析可得出，年均媒体单价分布较离散，数据标准差较大，需排查并剔除异常值，同时，其偏态程度也较大，需进行数据变换，消弱数据的异方差性，使其更接近正态分布；城市GDP、年经停列车数量等数据项标准差较其他数据项大，不利于不同单位或量级的指标进行比较，易影响目标结果，使得一些回归算法无法学习到其他数据项特征，因此，需进行标准化、归一化处理。

2.2 异常值识别

本文采用箱线图的鉴定方式进行异常值剔除，如图2所示。在箱线图中，箱子中间的一条线代表中位数，箱子的上下底分别是上四分位数（Q3）和下四分位数（Q1），上极限=中位数+3 · (Q3-Q1)，下极限=中位数-3 · (Q3-Q1)。箱子的高度在一定程度上反映了数据的波动程度。上下边缘则代表了该组数据的最大值和最小值，超范围值视为异常值。

图2 原始样本集特征数据箱线图

图2中，红色星为异常值，能看出城市人口规模、车站合同总金额、媒体面积、年均媒体单价等数据项均存在异常值。需将所列样本数据异常值剔除。

2.3 标准化和归一化

标准差较大的数据项需进行标准化和归一化处理，确保所有特征数值都有相同的数量级。如果数据较为稳定，不存在极端的最大/最小值，可用归一化方式进行处理。本文对与媒体属性相关的数据项、车站环境相关的数据项、与城市经济相关的数据项进行标准化处理。对与客流有关的数据项、与受众属性相关的数据项进行归一化处理。

2.4 数据变换

对年均媒体单价做指数变换，解决其分布不均、方差较大的问题。变换前后的分布趋势如图3所示。对比可知，数据变换后更符合正态分布，且对评估模型的拟合效果更优。

图3 年均媒体单价正态分布曲线对比

2.5 相关性分析及特征选择

在生成预测模型前，还须对上述过程处理过的82 个特征数据之间、82 个特征数据和目标值（年均媒体单价）间的相关性进行分析。过滤掉特征相关性高、互相冗余或与目标值相关性较弱、给模型带来噪声并导致模型训练速度缓慢的数据特征。本文采用皮尔逊相关系数法检测变量间的相关性，剔除与目标值相关性低（相关系数＜0.3）的特征数据，合并相同指标项下共线性较强（相关系数＞0.9）的特征数据，得到初步筛选的37 个特征数据。皮尔逊相关性热力图如图4所示。共线性较强的红橙色区域依然存在，须进一步进行特征选择。本文采用前进逐步回归算法，进行特征数量及特征因子的选择。

图4 特征数据初步筛选后的相关性热力图

特征数量结果如图5所示，当特征数量为24 时，模型的均方根误差（RMSE，Root Mean Square Error）最低，使用梯度提升决策树（GBDT，Gradient Boosting Decision Tree）模型来评估该24 项特性的重要性结果如图6所示。

图5 特征数量与RMSE 关系折线图

图6 GBDT 模型下特征重要性排序

媒体面积为24 项特征项中与目标值相关性最高的特征项。特征工程选取出的最佳数据特征子集如图7所示。

图7 特征工程选择出的最佳数据特征

3 价值评估模型

对高铁站媒体资源价值做分析与预测可归结为回归问题。回归学习算法可被认为是一种“函数逼近”[8]。价值评估模型的建构需先将样本数据集依次代入多个备选回归学习算法，根据性能指标得到最优算法，并将样本数据集通过归一化处理、超参调优等方式进一步提升最优算法的拟合优度，以求达到符合商用要求（拟合优度（R2）≥0.80）的模型。

3.1 最优算法选取

将包含最佳特征子集的样本数据集按4:1 的比例，随机分割为训练集和测试集，并将年均媒体单价设为目标值Y，将最佳特征子集的24 个数据特征设为X=(x1,x2,···,x24)，分别代入表3的回归算法，在默认算法参数不做调优的情况下，得出各算法的性能指标。其中，R2是衡量自变量，是解释因变量变动的程度指标，取值范围在0～1 之间，越接近1，拟合度越好；均方误差（MSE，Mean Square Error）在预测值与真实值完全吻合时等于 0，误差越大，值越大；RMSE 越小，预测效果越好。

表3 年均媒体单价为目标值的各种回归算法性能指标

由表3可知，增强梯度提升决策树回归学习算法的R2最大，且RMSE 和MAE 相对较小，但R2仍未达到0.8 的商用目标，作为本文价值评估算法需进行进一步优化。

3.2 模型优化

（1）对目标值Y进行归一化处理，得到新样本数据集，重复3.1 节中的模型训练过程，所得结果为：R2=0.78，RMSE=123 421.49，MAE=66 154.81。

（2）针对分布不均、方差较大的特征值，如动车旅客数量和目标值进行log 变换，重复3.1 节模型训练过程，所得结果为：R2=0.8，RMSE=91 846.28，MAE=49 500.05。

3.3 超参调优

对极限梯度提升（XGBoost，eXtreme Gradient Boosting）算法的超参学习器迭代次数（n_estimators）、树深度（max_depth）、学习器的权重缩减系数（learning_rate）、正则化参数（gamma）等进行经验值区间设置。采用网格搜索法进行超参调优，获取最优超参组合，即表4中R2为0.803 872 425 的组合项。

表4 特征变换处理后算法库结果

4 业务场景验证

对2019～2021年度西安北站、昆明站、福州站、福州南站的灯箱类高铁站媒体数据进行随机采样，验证评估模型，结果如表5所示。其中，价格栏为招商价格，预测值栏为该评估模型预测值。市面传统评估方法，如专家打分、指标数据加权等方式，偏离度约在±20%左右。因此，本文模型偏离度更低，评估效果更好。

表5 2019～2021年度生产经营数据验证明细

5 结束语

本文建立了高铁站媒体资源价值评估指标体系，对高铁站媒体资源样本进行智能识别和分析后，构建了高铁站媒体资源价值评估模型，并验证了预测效果。为高铁站媒体经营提质增效、精细化管理提供方案和工具。

本文依然存在不足之处。媒体经营业务复杂，为更好发挥大数据分析的作用，应持续增加能优化媒体价值评估模型的数据特征、样本数据集收集处理、超参调优，进一步扩大可评估的媒体类型。下一步，应基于推广应用的效果不断进行模型的迭代和验证，确保模型的可持续性、合理性和适用性。