基于卷烟消费大数据标签体系的六大画像系统

2024-03-26 08:07邓超梁雪霞陈志许良本莫玉华朱博文谭茜廖国彬李安张欣
中国烟草学报 2024年1期
关键词:商圈画像卷烟

邓超,梁雪霞,陈志,许良本,莫玉华*,朱博文,谭茜,廖国彬,李安,张欣

基于卷烟消费大数据标签体系的六大画像系统

邓超1,梁雪霞1,陈志1,许良本1,莫玉华1*,朱博文2,谭茜1,廖国彬2,李安2,张欣1

1 广西中烟工业有限责任公司,互联网研究中心,南宁市北湖南路28号 530001;2 广西壮族自治区烟草公司玉林市公司,营销中心,玉林市二环东路58号 537000

为解决卷烟消费者数据采集与分析难问题,提出了一种全新的基于时空网格技术的消费人群大数据采集分析方法。通过商圈网格划分和数据标签特征工程,实现企业消费者大数据资源的高效融合,建立卷烟消费大数据标签体系,提高了数据的使用价值和复用性。基于大数据、时空网格、可视化技术构建卷烟市场数字孪生体,设计实现了六大画像系统。以玉林市场为例,实现了5237个商圈画像、19544个终端画像、42个品牌画像、169个产品画像以及12种商圈类别画像、24种卷烟分类画像。基于系统对某卷烟品牌实施精准投放实验,该产品的货源利用率从35%提升至59%。

消费者;数字画像;大数据;标签体系;商圈;可视化

消费者大数据分析是企业必须攻克的时代性课题,对企业数字化转型具有重要意义。为顺应时代浪潮,烟草行业实施了生产经营管理一体化平台、云计算平台、大数据中心等数字化项目[1],为业务数据的采集、串联、聚合打下基础。同时,各烟草企业在消费者大数据分析方面开展了大量研究,例如广东烟草[2]基于SnowNLP情感词典及分析库和消费者网评,动态监测消费者对卷烟产品的情感倾向和情感指数。上海烟草[3]基于网络爬虫软件和文本挖掘技术分析消费者对电子烟的关注热度及消费行为。浙江烟草[4]结合企业宏观经济、批发、零售、消费、专卖管理数据,基于多层神经网络模型进行卷烟市场调控。福建烟草[5]利用大数据技术实现营销、专卖业务数据分析。江苏中烟[6]利用大数据和机器学习技术构建了一种卷烟市场运行状态智能评价模型。河南中烟[7]基于消费者网络评价数据运用词频分析法及关联规则挖掘方法分析消费者的斗烟市场偏好。广西中烟[8-10]基于图像识别技术构建消费者卷烟购买行为的识别方法;基于数据挖掘技术实现了卷烟扫码消费数据的热力图分析;基于时空网格技术实现了烟草市场大数据的可视分析。但总体而言,各烟草企业在卷烟消费者数据采集与分析方面依旧存在不足。一是消费者数据采集手段比较单一,消费者信息不全、数据维度不够丰富;二是缺乏一种行之有效的通用化方法对企业获得的多源消费者大数据进行融合、分析、挖掘。

随着互联网技术的发展,互联网公司基于各种应用软件获取了海量的消费者数据,为传统企业研究市场消费行为提供了新路径。本文基于大数据技术和时空网格技术实现企业多源消费者大数据融合,用商圈的地理属性来聚合卷烟销售业务数据和互联网消费人群数据,提出了市场画像、商圈画像、终端画像、消费者画像、品牌画像、产品画像(简称“六大画像”)的技术实现方法,以期为行业卷烟市场销售分析、消费洞察、品牌培育、营销策划、卷烟投放、产品研发等核心业务提供消费者大数据分析方法及范式。

1 六大画像原理概述

为了能够统筹兼顾烟草“工、商、零、消”各种应用需求,建立以商圈为核心的“市场-商圈-终端”一体化卷烟消费大数据标签体系。

卷烟消费市场包括商圈、终端、消费者、品牌、产品等多种要素,不同要素之间相互影响、相互作用,共同构成了一个非常复杂的关系网络。基于不同的分析目的会得到不同的分析脉络,在不同的业务场景中,消费者分析需求各不相同。从“人、货、场”维度出发得到卷烟消费分析的3条主线:

(1)“人→场+货”:这类人群在什么场所消费了哪些卷烟?

(2)“货→场+人”:这类卷烟(品牌、产品)在什么场所卖给了哪些人群?

(3)“场→货+人”:这类零售终端订购了什么卷烟卖给了哪些人群?

尽管“人、货、场”同时出现在三条分析脉络中,但是其含义和价值是不同的。不同分析脉络决定了不同数据分析模型的“输入”和“输出”,而“输入”和“输出”之间往往是“一对多”的关系,例如一类人群会对应多种卷烟消费,一个卷烟产品会对应多个消费人群。换言之,要确定基于哪些假设条件去推导求解画像结果。

烟草工业企业在做品牌发展规划和新产品研发时按“人→场+货”主线,分析挖掘市场消费行为规律和趋势,精准捕捉卷烟消费需求进行产品设计,以提高产品研发成功率;在做市场营销时按“货→场+人”主线,制定符合消费者兴趣和习惯的营销策略,为消费者提供增值服务和舒适体验。

烟草商业企业开展品牌培育时需要按“人→场+货”主线,研究当地市场的卷烟消费潮流和趋势,从而更有针对性的制定品牌培育战略,提升销售结构;卷烟投放时按“货→场+人”主线,根据实际消费需求来统筹均衡投放策略,把货源投放到有消费需求的地方;终端服务时按“场→货+人”主线,分析终端所处商圈的位置和消费能力,为终端提供个性化销售指导及建议。

2 基于商圈网格的卷烟消费大数据融合

地理学第一定律认为,任何事物都是与其他事物相关的,但相近的事物关联更紧密,地理事物或属性在空间上存在聚集、随机、规则分布特征[11-12]。卷烟零售具有典型的线下零售特征,绝大部分消费者都会遵循就近购买原则,为“以商圈为载体串联消费人群和产品”提供了理论基础。由于烟草行业记录了所有卷烟订购及配送信息,可以精准定位每一条卷烟销售发生的地理位置,而互联网服务商可以提供指定区域内的消费人群画像等多维度信息。通过空间自相关分析方法[11-12],将同一个商圈范围内的消费人群画像与卷烟产品销售信息进行关联,进而获得“场+人+货”数据样本。

如图1所示,以城市为单位,采用空间网格技术[10]将整个城市均匀划分成若干个网格(750 m×750 m)。根据终端的经纬度信息,将其映射到网格中,并统计每一个终端订购各个卷烟规格的数量及金额。再根据终端的商圈ID,统计每一个商圈网格订购各个卷烟规格的数量及金额,构成商圈卷烟销售属性;采集(采购)每一个商圈的经济消费、人群画像、POI信息,构成商圈外部消费属性。最终建立从卷烟产品到销售场所再到消费人群的数据分析链路。

本方法主要是基于地理空间特征来聚合经济人口和消费人群信息,而非逐一追踪消费个体的消费行为,用数万个商圈的消费人群画像替代海量的消费者个体画像,把大数据样本问题转化为小数据样本问题。城市商圈采用网格划分,实现了卷烟销售区域的全覆盖,能够更加高效的建立卷烟产品销售与消费场所周边环境、消费人群画像之间的关联,有效补齐企业内部消费者数据采集的不足,提高了数据样本的通用性和复用性,降低了卷烟消费者数据采集的成本。

图1 城市商圈网格示意图

3 六大画像的技术实现

将数字孪生概念引入卷烟消费者大数据分析领域,基于时空网格技术实现卷烟市场、商圈、终端、消费者、品牌、产品信息与物理世界的一一对应,构建卷烟市场数字孪生体,挖掘卷烟消费市场中“人、货、场”三者之间关联关系。

3.1 系统架构

六大画像系统架构总共分为5层,依次是数据层、算法层、技术层、部署层和应用层(如图2所示)。数据层主要是负责原始数据的采集、存储、清洗、预处理、聚合。由于原始数据的体量大、维度多,不利于上层应用的实时计算和快速交互,因此需要通过算法层进行数据特征提取,将海量的原始数据加工成为应用层可以直接调用的统计数据。算法层主要包括特征提取工程中涉及的各种大数据批处理算法、数据挖掘算法和商业分析模型,负责将海量原始数据加工成各种数据标签,建立消费人群大数据标签体系,为应用层提供数据调用基础。技术层主要包括用于系统功能实现的前后端、中间件和数据库技术。部署层主要采用了私有云架构,负责系统承载和安全防护。应用层主要负责以一种交互、高效、便捷、友好的方式,向用户提供系统操作界面和应用功能呈现,将各种标签信息及数字画像向用户进行可视化展示。

图2 系统架构图

3.2 分析与挖掘

为实现企业内外部大数据资源融合,从商圈的基础属性、人群特征、消费能力、销售状态、产品偏好等维度出发建立卷烟消费大数据标签体系,分别对每个商圈和终端进行数字化描述和评价,共建立了60多项一级指标和400多项二级指标。为了高效的从海量数据中挖掘“人、货、场”三者之间的关联关系,需要先进行批量化、自动化的标签特征工程。分别以终端和网格为单位,按规则对终端数据表、商圈数据表中的每一列属性打标签:

(1)定性分析:是或不是、有或没有,匹配记为“1”,不匹配记为“0”。

(2)定量分析:采用管理学中的“二八原则”,筛选排名靠前的20%记为“1”,其余记为“0”。例如针对“某品牌”这个规格进行打标签,销量排名前20%的终端记“1”,其余记“0”。

基于标签进行数据挖掘:

(1)“人→场+货”主线:首先确定目标人群,例如“高收入”人群,根据商圈中的“高收入”属性进行分组,值为“1”的商圈纳入“高收入组”,值为“0”的商圈纳入“普通收入组”,然后分别对2个组中所有商圈的其它属性求平均值。通过“高收入组”和“普通收入组”之间各个属性之间的差异分析,差异显著的属性即为我们重点关注的特征。例如“高收入组”中“某品牌”这个属性为“1”的比例远高于“普通收入组”,那么得到推论:“高收入”人群与“某品牌”规格卷烟的销量具有正相关关系。

(2)“货→场+人”主线:首先确定目标产品(或品牌)。例如对所有的商圈进行分组(1或0,1代表高销量,0代表普通)。然后以商圈销量值作为权重,分别对2个组中所有商圈的其余属性求加权平均值。通过2个组各个属性之间的差异分析,获得品牌规格销量较高的商圈特征和人群特征。同理可应用于卷烟品牌、卷烟类别(如“细支”、“一类烟”)与消费场所、消费人群的关联关系分析。

(3)“场→货+人”主线:终端继承了所属商圈的外部消费属性,而商圈聚合了所含终端的卷烟销售属性。大数据标签体系中的400多项二级指标是对商圈和终端的数字画像,而市场画像是一种宏观视角的画像,它由多个终端微观画像和商圈中观画像聚合而成。例如可根据档位、星级、市场类型、区县等维度对终端进行分类,然后对组内所有终端的各个属性求平均值,获得不同终端类别的数字画像。同理,也可根据商圈类型进行聚合,获得不同商圈类别的数字画像。通过不同类别终端(或商圈)的各项属性之间的差异分析,挖掘市场潜在规律。

该方法的本质是采用“二分类”思想进行数据样本分组,然后通过数据关联和统计分析寻找两类样本之间的差异。这些差异是基于事实大数据的总结和归纳,让人对市场的认知更加直观、更加精准、更加深刻,为实际工作提供重要思路和线索。当数据样本量越大,个体样本误差对计算结果的影响越小,数字画像越精准。数据分析结果与人的经验之间反差越大,发现的数据价值就越大,此时旧的观念会被颠覆,新的认知随之产生。

4 系统应用

基于大数据、时空网格、可视化等技术构建六大画像系统,实现面向卷烟市场数字孪生体的可视化呈现和交互式分析。结合广西中烟某品牌发展需要,与广西玉林市公司进行合作,对新上市卷烟产品—某品牌(中支)开展市场培育和卷烟投放工作。

4.1 “市场-商圈-终端”立体式画像

系统采用大数据可视分析技术[10]对六大画像进行空间化、可视化组织及索引,用户可以一眼洞察卷烟消费的空间分布规律,并通过电子地图漫游查看商圈画像和终端画像。图3从“宏观-中观-微观”三种视角展现了玉林卷烟消费市场的立体式画像。市场画像(如图3(a))展示了玉林卷烟消费市场的宏观经济总览,从人口密度、消费水平、卷烟销售能力、卷烟销售潜力、基础属性等方面体现卷烟消费市场的总量、环境及结构。玉林市场画像中涵盖12种商圈类别、19544个终端、42个品牌、169个品规、14类基础设施,以及超过12万个POI信息,还包括城市面积、GDP、居民可支配收入等城市宏观经济数据。

终端的卷烟销售数量及结构主要取决于所在商圈的消费环境及人群结构。整个玉林市包含5237个商圈格子,每个格子对应着不同的商圈画像。商圈画像(如图3(b))从产品偏好、基础属性、人群画像、消费能力4个维度、共61项指标对商圈进行数字化评价。终端画像(如图3(c))从门店信息、人群画像、订货详情、周边对比4个维度、共37项指标对终端进行数字化评价。用户可以自由切换各种画像展示,全方位掌握市场销售状态。

图3 市场-商圈-终端画像

4.2 “品牌-产品-消费者”画像分析

为了寻找适合某品牌(中支)的目标消费人群及目标销售场所,基于“货→场+人”主线从品牌、价位、类型、竞品等维度出发,查看玉林市场上已有相关卷烟品牌及产品的画像,包括其消费场所、消费人群的各种标签及统计分析。其中,某品牌(中支)和某品牌属于同系列产品,具有相似的感官体验和价位。如图4所示,某品牌销量较高的商圈类型依次是CBD、高消费、医院、Z时代。而中支卷烟销售也表现出相似的规律,这4类商圈的中支卷烟销量占全市总销量的73.3%(如图5(a))。因此,某品牌(中支)的市场培育应该重点锁定CBD、高消费、医院、Z时代种类型商圈。

图4 品牌-产品-消费者画像

4.3 交互式可视分析

可视化有助于实现信息的高效传递,而交互式分析有助于发挥人的主观分析能力。针对某品牌(中支)的选点投放问题,用户可以点击“品规详情”模块中的中支卷烟画像(如图5(a)),查看市场上最畅销的10款中支卷烟产品以及年度销量变化趋势。如5(b)所示,系统右侧数据面板中可以看到整个城市宏观的经济数据、基础属性和各个类型商圈的数量。在系统左侧导航栏中勾选商圈类型,会用对应的颜色展示该类型商圈在市场上的分布,通过缩放、点选地图方格可以查看所选商圈的人口属性、基础属性、人群画像、消费能力、产品偏好等信息,如图5(c)所示。“热力图”功能可以针对400多个标签进行条件筛选,并通过热力地图方式呈现。此外,可以根据“档位、商圈、业态、区位”筛选终端,点击商圈中的终端图标可以查看终端画像(如图5(d)),对该终端销售某品牌(中支)的潜力进行评估,最终选择有潜力的终端进行市场培育。

2021年9—12月,玉林市公司开展了基于消费人群大数据标签的某品牌(中支)市场投放实验,该产品的货源利用率从35%提升至59%,市场培育效果提升明显,全年共实现销量5.35万条。六大画像系统获得广西烟草业界同行的一致好评,并在“广西全区烟草商业农网建设暨数据营销现场会”上进行重点展示和推广应用。

图5 六大画像系统演示

5 结论

为解决我国烟草企业消费者数据采集难、分析难等问题,提出了一种基于消费人群大数据标签体系的六大画像方法及系统,为烟草行业提供了一种全新的卷烟消费大数据采集与分析方法。其特点是通过标签特征工程将多源大数据进行网格化、时空化、密度化处理,形成卷烟消费大数据标签体系,实现了涵盖卷烟市场、商圈、终端、消费者、品牌、产品等400多个维度信息的高度集成,以及卷烟市场消费规律的高效挖掘。提高了企业数据资源的使用价值、复用性和分析效率,降低了卷烟消费者信息采集与分析的成本。基于大数据、时空网格、可视化等技术实现六大画像系统,从多种视角展现消费者、卷烟产品和消费场所之间的关联关系与规律。

以广西玉林市场为案例进行系统展示,共实现了5237个商圈画像、19544个终端画像、42个品牌画 像、169个产品画像以及12种商圈类别画像、24种卷烟分类画像。基于六大画像开展某品牌(中支)新品上市培育工作,从多个视角进行终端投放选点分析。最终,该产品的货源利用率从35%提升至59%,系统应用效果良好。下一步,将会扩大系统的推广范围,并在终端经营分析指导和卷烟精准投放等领域进行应用扩展。

[1] 谢剑平,王元英,郑新章,等. 中国烟草科学与技术(1982- 2020)[M]. 北京:中国轻工业出版社,2021.

XIE Jianpin, WANG Yuanying, ZHENG Xinzhang, et al. China tobacco science and technology(1982-2020)[M]. Beijing: China Light Industry Press, 2021.

[2] 杨春晓,张鹤馨,黄家雯,等. 卷烟在线评论的文本情感分析[J]. 中国烟草学报,2020, 26(02): 92-100.

YANG Chunxiao, ZHANG Hexin, HUANG Jiawen, et al. Text sentiment analysis of online cigarette reviews[J]. Acta Tabacaria Sinica, 2020, 26(02): 92-100.

[3] 金吉琼,刘鸿,郑赛晶. 基于在线评论文本挖掘技术的电子烟市场消费热点分析[J]. 烟草科技,2019, 52(12): 106-114.

JIN Jiqiong, LIU Hong, ZHENG Saijing. Analysis of consumption hotspots of electronic cigarette market based on online comment text mining technology[J]. Tobacco Science & Technology, 2019,52(12):106-114.

[4] 林少华,倪震海,周飞. 数据驱动卷烟市场调控的探索与实践[J]. 中国烟草学报,2019, 25(04): 93-100.

LIN Shaohua, NI Zhenhai, ZHOU Fei. Exploration and practice of data-driven cigarette market regulation[J]. Acta Tabacaria Sinica, 2019, 25(04): 93-100.

[5] 章惠民. 福建烟草商业系统大数据技术研究与应用[J]. 中国烟草学报,2019, 25(06): 98-104.

ZHANG Huimin. Research and application of big data technology in Fujian Tobacco's commercial section[J]. Acta Tabacaria Sinica, 2019, 25(06): 98-104.

[6] 邢阳,黄旭峰,董晓萍,等. 卷烟市场运行状态智能评价模型的研究与应用[J]. 烟草科技,2018, 51(7): 96-102.

XING Yang, HUANG Xufeng, DONG Xiaoping, et al. Research and application of intelligent assessment model for operation status of cigarette market[J]. Tobacco Science & Technology, 2018, 51(7): 96-102.

[7] 苏凯,付博,杨永锋,等. 基于互联网数据的斗烟市场偏好性分析[J]. 烟草科技,2019, 52(08): 106-113.

SU Kai, FU Bo, YANG Yongfeng, et al. Internet data sourced market preference analysis for pipe tobacco[J]. Tobacco Science & Technology, 2019, 52(08): 106-113.

[8] 梁冬,陈智斌,农英雄,等. 基于图像识别技术的卷烟零售数据采集方法[J]. 中国烟草学报,2021, 27(05): 81-89.

LIANG Dong, CHEN Zhibin, NONG Yingxiong, et al. Cigarette retail sales data collection method based on image recognition technology[J]. Acta Tabacaria Sinica, 2021, 27(5): 81-89.

[9] 邓超,宋金伟,孙瑞志,等. 基于热力图的卷烟市场数据可视分析系统[J]. 烟草科技,2016, 49(12): 91-97.

DENG Chao, SONG Jinwei, SUN Ruizhi, et al. Visual analysis system of cigarette marketing data based on thermodynamic diagram[J]. Tobacco Science & Technology, 2016, 49(12): 91-97.

[10] 邓超,宋金伟,孙瑞志,等. 基于时空网格的烟草市场大数据可视化[J]. 烟草科技,2018, 51(6): 106-112.

DENG Chao, SONG Jinwei, SUN Ruizhi, et al. Visual analysis of tobacco market big data based on spatial-temporal grid[J]. Tobacco Science & Technology, 2018, 51(6): 106-112.

[11] 禹文豪,艾廷华,杨敏,等. 利用核密度与空间自相关进行城市设施兴趣点分布热点探测[J]. 武汉大学学报(信息科学版),2016, 41(02): 221-227.

YU Wenhao, AI Tinghua, YANG Min, et al. Detecting “hot spots” of facility POIs based on Kernel density estimation and spatial autocorrelation technique. Geomatics and Information Science of Wuhan University. 2016, 41(02): 221-227.

[12] 郝斌,董硕,胡引翠,等. 多维特征融合的城市商圈划分方法[J]. 地理与地理信息科学,2017, 33(05): 56-62.

HAO Bin, DONG Shuo, HU Yincui, et al. Urban business zones delimitation method based on the fusion of multidimensional characteristics[J]. Geography and Geo-Information Science. 2017, 33(05): 56-62.

Six portrait system based on cigarette consumption big data label system

DENG Chao1, LIANG Xuexia1,CHEN Zhi1, XU Liangben1, MO Yuhua1*, ZHU Bowen2, TAN Qian1, LIAO Guobin2, LI An2, ZHANG Xin1

1 Internet Research Center, China Tobacco Guangxi Industrial Co., Ltd., Nanning 530001, China;2 Marketing Center, Guangxi Tobacco Corporation Yulin Branch, Yulin 537000, China

A new big data collection and analysis method of cigarette consumer groups based on spatio-temporal grid technology is proposed in this paper. Through business district grid division and data label feature engineering, the efficient integration of big data resources of enterprise consumers is realized, and the cigarette consumption big data label system is established, which improves the use value and reusability of data. Based on technologies of big data, spatio-temporal grid and visualization, the digital twin of cigarette market is constructed, and the six portrait system is designed and implemented. Taking Yulin market as an example, 5237 business district portraits, 19544 terminal portraits, 42 brand portraits, 169 product portraits, 12 business district category portraits and 24 cigarette classification portraits have been realized. Based on the accurate delivery experiment of the Zhenlong (Haiyun middle branch) cigarette based on the system, the utilization rate of the product's supply increased from 35% to 59%, and the annual sales volume exceeded 53500 cartons per cigarette type. The application effect of the system has been highly praised by Guangxi tobacco peers.

consumer; digital portrait; big data; label system; business district; visualization

. Email:1351401656@qq.com

中国烟草总公司科技项目“面向研发营销一体化的消费者大数据分析关键技术研究”(No. 110202102029)

邓超(1984—),博士,高级工程师,主要研究方向:大数据、人工智能、软件工程,Email:154309865@qq.com

莫玉华(1995—),Email:1351401656@qq.com

2022-04-11;

2023-06-27

邓超,梁雪霞,陈志,等. 基于卷烟消费大数据标签体系的六大画像系统[J]. 中国烟草学报,2024,30(1). DENG Chao, LIANG Xuexia, CHEN Zhi, et al. Six portrait system based on cigarette consumption big data label system[J]. Acta Tabacaria Sinica, 2024, 30(1). doi:10.16472/j.chinatobacco.2022.063

猜你喜欢
商圈画像卷烟
威猛的画像
打造世界级文旅窗口 构建千亿级黄金商圈
“00后”画像
画像
农产品电商圈的“乌托邦”
商圈商业的秘密:创新
商圈档案
卷烟包装痕迹分析
潜行与画像
我国卷烟需求预测研究述评