烟草行业基于多源数据融合建模与应用研究

2024-06-03 05:04杜炳涛李宁丽
电脑知识与技术 2024年11期
关键词:烟草行业

杜炳涛 李宁丽

摘要:数据要素已成为驱动经济实现高质量增长与培育新型动能的关键引擎。本文旨在探究如何利用烟草行业的内部数据,并将其与宏观经济指标、人口统计学数据、社会舆情等多种外部数据源相结合,在严格遵守数据隐私保护及法律法规的前提下,应用多模型融合技术构建烟草市场信心指数。这一指数旨在服务于对烟草和茶饮市场的运行状态评估、销售趋势预测、智能投放决策、货源精准配置、品牌建设以及金融信贷等多个应用场景,从而有力支撑数据交易流通场景的构建与发展。

关键词:数据交易;多源数据融合;数据建模;市场信心指数;烟草行业;茶饮市场;智能决策支持

中图分类号:TP391 文献标识码:A

文章编号:1009-3044(2024)11-0060-03

0 引言

近年来,中共中央、国务院发布了《关于构建更加完善的要素市场化配置体制机制的意见》,正式将“数据”列为生产要素,并提出了促进数据要素市场化配置的改革方向。随后,又陆续在《国务院办公厅关于印发要素市场化配置综合改革试点总体方案的通知》《“十四五”数字经济发展规划》《国务院办公厅关于印发全国一体化政务大数据体系建设指南的通知》等政策文件以及中央深改委第二十六次会议上,进一步提出要促进数据要素资源在更大范围内畅通流动,加快构建数据基础制度体系,旨在促进国家数据要素市场化配置的健康发展,并构建以数据要素为核心的数字经济发展新模式。2023年,国家数据局发布了《“数据要素×”三年行动计划(2024—2026 年)(征求意见稿)》,简称《行动计划》,并向公众征求意见。该计划鼓励各方积极参与数据要素的开发和利用,专注于重要行业和领域,挖掘高价值数据要素的应用场景。本文拟以烟草行业为例,探索运用烟草内部数据、宏观经济数据等多源数据,基于多模型融合的技术,在保证数据隐私安全及合法合规的基础上,构建烟草市场信息指数数据产品,服务于烟草和茶饮市场状态评价、销售预测、智能投放、货源精准投放、品牌培育、金融贷款等场景。

1 研究综述

在烟草行业数据研究方面,严正(2003) [1]指出,烟草零售终端数据的收集和分析方法对市场状态判断至关重要。中国卷烟销售公司通过深入监测和分析卷烟市场,特别是通过全国卷烟市场直测网络的提质扩容,不仅扩大了监测覆盖范围,还在监测分价位段卷烟、细化区域和品牌维度上取得了显著进展,从而积累了丰富的行业零售客户订购行为数据。在多源数据研究方面,黄飞杰、张卫东、侯石鹏等(2022) [2]指出,卷烟行业通常基于历年消费和人口数据进行次年投放需求的预测。然而,由于缺乏反映消费者意愿和偏好的数据,特别是在卷烟价位段和品类等结构性需求预测方面存在困难,导致预测精度无法满足实际应用需求。通过引入搜索指数的预测模型,有望提高预测的准确性,弥补了目前模型的不足。在多源数据的融合建模研究方面,国内学者和卷烟行业从业人员在卷烟需求预测方面进行了深入的研究,涉及预测模型、数据源处理等多个方面,并取得了令人满意的研究成果[3-6]。在数据产品的应用研究方面,纪婷婷、甘似禹、刘春花(2018) [7]总结了数据资产的三种增值路径,包括数据资产应用、数据资产流通以及金融衍生服务。从需求角度看,许建平(2023) [8]从银行的视角,提出了结合烟草专卖的特许特征,可以开发出烟草数据的贷款产品,为相关的小微企业提供更便捷的信贷支持。

由此可见,烟草行业是典型的垄断性企业,但是优势数据密集型企业,尤其是在营销方面,积累了大量的数据资产,可以细分维度非常高。而从产业链的视角看,零售户的数据资产对烟草工业企业、金融企业皆有较大的价值,有数据流通交易的需求。但是,烟草行业的特殊性,也需要进行脱敏的输出,因此,有必要基于算法模型构建可见不可用的市场信心指数。

2 总体框架

本研究主要技术框架如下:在数据层面,通过多类数据源,通过自动化对接、人工定时处理等方式,在数据融合层处理为可以为建模应用的结构化数据。在模型服务层,由多类市场信心指数模型进行运算,得到多种指数结果。在应用层,将多类型指数结果,建议以统计月报应用页面方式进行呈现。

如图1所示,在数据源层面,综合考虑多源的数据输入,包括政务中心提供的政府数据、人口数据、百度舆情数据和烟草内部的数据库。基于上述的数据大类,在数据融合层进行融合。结合对应的算法,在模型和服务层形成相关方面的指标,在应用层实现查询展示。以上构成了主要的技术框架。

3 多源数据指标选取

基于烟草内部数据相对整齐规范,烟草销售受到人口流动、季节变化、产业变迁、城市发展、天气变化等一系列因素影响。但仅基于烟草内部数据构建市场信心指数并不够全面。因此,本研究将外部数据源纳入烟草消费信心指数的构建中,将人口数据、消费数据、宏观经济数据等维度,以一定的权重纳入模型。在实践中,卷烟行业市场的信心预测主要依据历年消费数据和人口数据。结合业界学者的相关研究,认为互联网舆情数据和宏观经济对卷烟市场也有一定的影响。因此,本文拟通过纳入烟草内部数据、人口数据、消费数据、宏观经济数据、舆情数据等多源数据,构建基于多源数据融合的市场信心指数。

1) 烟草内部数据。烟草零售市场的预测主要依据历年销售量,结合零售终端情况进行修正。在数据源选择上,内部生产系统的数据是构建数据产品中最重要的一部分。中国卷烟销售公司长期致力于深入监测和分析卷烟市场,目前在数据保障方面已具备了深入评估卷烟市场状态的能力。其系统已能够支持卷烟进货计划、按工业进货计划、按价类进货计划,以及輸出卷烟订购量、卷烟订购均价、按价类订货量等数据。

2) 人口数据。卷烟作为快消品,其销售量与当地人口的增长变化相关,也与人口的年龄结构、性别和地域特点相关。首先,在人口增长变化方面,若某地区流入人口增加,则对卷烟有正向作用。从微观的视角看,每个地域的人员有其特定的偏好,因此对不同工业企业卷烟的投放有不同的选择。因此,在市场信心指数的构建中,需要引入人口数据。人口数据往往需要来源于政府,统计年鉴中有宏观的人口数据,但由于其颗粒度较大,实时性较低,因此需要设法获得政府的支持,获取更高精度、更细颗粒度和更实时的人口数据。

3) 互联网舆情数据。快消品销售量受当地人口增长变化的影响,也与商品消费者的关注度等因素相关。卷烟相关的搜索词能够反映卷烟消费者的消费意愿。通过网络爬虫收集所有与卷烟相关的关键词,考虑地域和时间特征,对关键词搜索数据与卷烟销售数据(如价位段、品类等)进行相关性分析,筛选出与销售相关性大的关键词,并采集近年来的搜索数据作为模型的输入,作为构建市场信心指数的指标之一。

4) 宏观经济数据。卷烟销售量及卷烟价格与多个经济指标相关。每个经济指标在不同程度上反映了卷烟市场的某些信息,例如该地区的人均可支配收入可能与该区域投放卷烟的价位相关。因此,经济类的数据需作为构建市场信心指数的指标之一。

4 数据建模

本研究建议通过多模型融合建模方式构建市场信心指数,主要技术实现方式包括有监督的机器学习算法和主成分分析构造法。

4.1 方案一:有监督的机器学习算法

参照其他品味数据产品的建设,如菠萝指数、对虾指数,主要是通过框定信心指数和价格与供销的经济学逻辑,通过滞后关系和协同性来确定市场信心指数构造的合理性。模型上通过机器学习方式学习烟草内部特征、手机信令数据、宏观数据和舆情数据特征,来构建市场信心指数,对市场的消费情况变动做出预警和指导。

本方法基于价格/供销等参照系,通过去除通胀系数的条均价格p(t+1)+Δ作为y 值,构建Y 值以Y(t)作为信心指数,或者通过供销比(t+1)+Δ作为y 值,构建Y值以Y(t)作为信心指数。

拟用数据维度,烟草内部数据:卷烟进货计划、卷烟按工业进货计划、卷烟按价类进货计划、卷烟订购量、卷烟订购均价、卷烟按价类订货量等;宏观数据:CPI、工业增加值、社会消费品零售总额、居民存款、居民贷款等;手机信令大数据:人口年龄、人口户籍、全量人口环境数据:名胜景区、餐饮、住宿等;舆情数据:烟草(工业、规格)搜索量、失业搜索量等。

拟用的验证值:指数的相关性Y值和y值的相关性,需要信心指数提前反映价格,或者供销状况的幅度。

在这一方案中,涉及的核心算法为随机森林,AdaBoost模型等。

实施思路和构建主要流程如图3所示。

4.2 方案二:主成分分析构造法

参照统计局的消费者信心指数方案,该方案来源于传统消费者信心指数构建,分为消费者现状满意度和消费者预期两类。由于采用的数据源和传统构建方式不同,因此对数据进行归一化处理,通过主成分分析的方式得到各特征权重,搭建市场信心指数。

该方法基于消费者现状/预期满意度构建,消费现状满意度拟合消费者预期满意度拟合。验证值Y 和价格的滞后关系,相关系数。

算法过程拟用到的数据维度包括烟草内部数据:卷烟订购量、卷烟订购价、卷烟按工业订货量、卷烟按价类订货量;宏观数据:CPI、工业增加值、社会消费品零售总额、居民存款、居民贷款、规模工业企业平均从业人数;手机信令大数据:人口年龄、人口户籍、全量人口;舆情数据:烟草(工业、规格)搜索量、失业搜索量等。

实施思路和构建主要流程如图4所示。

4.3 模型计算的结果呈现

以上一年半年平均值为基数100,表示市场对零售品的信心。数值上升表示市场对零售品(如卷烟)的消费信心增加,该值大于100则表示市场信心相较于2023 年上半年平均信心上升;反之,则表示市场信心较为低迷。基于市场信心指数,可以根据品类、工业企业、区域、价位等多个方面对市场状况进行描述和预警。

5 信心指数应用研究

基于市场信心指数模型,全方位对市场状况进行描述和预警。通过市场信心指数模型对空间维度下的各地烟草状况进行评估,为重点区域投放策略提供决策依据。通过价类的市场信心指数模型,对不同价类的烟草市场状况进行评估,为各价类烟草的价格指导和投放策略提供参考依据。根据不同烟草工业的市场信心指数模型,研判不同工业烟草市场状况,为品牌培育和品牌联合投放提供数据支撑。基于多类型市场信心指数数据,开发市场信心指数的综合查询、展示和应用平台,方便本公司、烟草工业、社会单位随时获取信心指数数据,研判分析趋势,辅助商业决策、政策规划的制定和实施、金融信贷等。

5.1 场景一:生产计划制定场景

卷烟销售具有特殊性,既有商品属性,又受到调控计划的影响,且具有地域销售特征。一般是在本年度对次年的市场预测,根据预测的情况进行工厂的下单,进行按计划生产。其对次年的市场主要根据零售商户的问卷、本年的销售情况、历史经验等方面进行预测,并结合宏观的经济发展趋势。该预测存在较大的主观性。在这个背景下,可以通过建立市场信心指数,通过整合卷烟相关数据、公共数据、社会数据等,进行大数据分析,达到更科学预测次年的市场空间、区域市场不同产品的精准投放、农村市场精准开发等预期目标。

5.2 场景二:产品精准投放场景

市场信心指数的建设有利于促进烟草零售户卷烟品类投放的精准性。依托区域消费能力和终端会员数据,精准勾勒消费者画像,多维度、多角度夯实品牌培育基础;依托全地区客流、商圈类型等开发货源投放等级评定模型,提升货源投放精准度、匹配度;构建分类别要素特征模型,分析人口特征、消费特征、区域特征等关键要素,挖掘真实市场需求,持续提升渠道掌控力和综合服务力。

5.3 场景三:普惠金融场景

市场信心指数的建设有利于促进烟草零售户金融信贷的便利性。烟草行业目前有500多万零售商户[9],烟草行业具有利润丰厚且市场规模庞大的特点。一方面,烟草的成本较低,另一方面,烟民数量庞大。然而,目前烟草市场存在明显的分割现象,不同的烟草企业各自为战,竞争各自的市场份额。同时,各个地区的烟草商户数据并未实现有效打通,导致烟草行业内部的割裂问题日益突出,给金融机构在贷款额度判定和放款方面带来了巨大挑战,同时也影响了转款专用。因此,通过建立信心指数,加强对烟草行业数据的整合,创建专门的烟草服务平台,打通不同区域间的数据壁垒,实现资金托收、结算、补贴和贷款等工作的统一管理。建立专门的烟草指数,统计全国烟叶消费情况,并结合大数据风控平台,构建种植户和零售商的画像,输出不含敏感信息的指数化评级产品,以支持线上贷款业务,加速供需对接过程。

6 结束语

2023年8月21日,财政部制定印发了《企业数据资源相关会计处理暂行规定》。随着国家数据局就《“数据要素×”三年行动计划(2024—2026年)(征求意见稿)》发布推动,各地也在陆续成立数据交易所,未来数据产品的构建将会层出不穷。本文研究烟草行业的数据融合和利用,作为垄断行业的一个试点场景,希望能为产业链上下游企业、金融企业和零售商户的业务发展有积极的促进作用。

参考文献:

[1] 严正. 基于终端动态指标的卷烟市场状态指数设计[J]. 全国流通经济,2023(3):84-87.

[2] 黄飞杰,张卫东,侯石鹏,等. 融合搜索指数的卷烟需求预测研究[J]. 福建电脑,2022,38(10):17-20.

[3] 赵旻,张丹枫,曾中良,等. 基于组合模型的云南省卷烟需求预测与结果评价研究[J]. 中国烟草学报,2019,25(1):93-98.

[4] 王诗豪,张晓妮,张云,等. 铜川市卷烟需求集成预测[J]. 中国煙草学报,2019,25(6):105-109.

[5] 齐志成. 基于BP神经网络模型的商洛市卷烟需求预测[J]. 湖南农业科学,2017(1):86-89.

[6] 朱峰,高林. 基于组合模型的卷烟市场需求预测研究[J]. 合作经济与科技,2017(1):62-64.

[7] 纪婷婷,甘似禹,刘春花,等. 数据资产化与数据资产增值路径研究[J]. 管理观察,2018(18):157-160.

[8] 许建平. 提升普惠金融供给质效 助力地方经济高质量发展

[9] 钟木.中国银行谈“烟商贷”的发展路径[J]. 营销界,2020(51):81- 82.

【通联编辑:唐一东】

猜你喜欢
烟草行业
谈烟草行业网络安全及其防范策略
试论新形势下做好烟草行业纪检监察工作的对策分析
浅谈烟草行业网络安全及其防范策略
烟草行业“两项工作”信息管理平台设计
关于强化烟草行业市场管理的优化策略
经济新常态背景下的烟草行业发展方向研究
烟草标准管理体系的现状分析与应用研究
基于烟草行业IT资产风险管理的未知威胁安全研究
浅谈纪检监察工作在基层烟草企业中的作用
探究中国烟草行业品牌培育