基于收视行为和消费数据的用户分类研究

2020-05-15 13:35黄峻泓夏征宇

新媒体研究 2020年2期

黄峻泓夏征宇

摘要文章介绍了传统用户分类方法，在传统RFM模型基础上提出了一种基于用户收视和消费数据的RFM-CT的用户分类模型，应用K-means聚类算法进行用户分类工作，为广告商、媒体运营商提供了一种决策思路。

关键词用户分类;RFM模型;收视行为;K-means

随着互联网的不断发展，单一媒体正逐步向融媒体转变，媒体形式的丰富使用户的媒体行为趋于多样化，跨屏传播带来全新的受众收视模式。随着视频内容通过数字有线网、宽带、移动互联网等多种形式在大、中、小屏等各種屏端播出，用户可以通过各种终端收看喜爱的节目等媒体内容的同时进行购物消费[1]。自广告出现以来，广告的效果问题就一直受到人们广泛的研究，广告的评估与其目标有着密切关系[2]。广告商通过定位有价值的目标人群来实现广告的精准投放，媒体运营商则根据目标人群的消费情况来分析内容受众的消费偏好等进而对合适的产品进行招商，帮助商家、品牌商等提升产品销量。

1 传统的用户分类方法

1.1 基于用户的静态属性划分

用户的静态属性是最早应用于用户分类的属性，用户的静态属主要包括一些与用户相关并且不经常变化的数据，例如用户的性别、年龄、教育程度和收入等自然人口学属性。静态属性容易理解和获得，但随着技术的不断发展，仅通过简单的静态属性来分析已经不能很好地满足市场的需要。

1.2 基于生活形态属性的划分

在传统的收视率调查中，曾使用过日记卡的调查方式。所谓日记卡，简单说就是在样本户中留置日记，请样本家庭中的每一位成员及时填写一周内自己收看的电视的情况[3]。基于生活形态的消费者群划分的研究者通常会设计一些能体现用户的生活心态属性的问卷来让用户填写，回收问卷数据后再对数据进行统计分析，问卷中的问题由问卷设计者主观确定，而且大量的问题很可能导致用户答题缺乏耐心，用户不一定按照自身的真实情况填写的同时样本容量也十分有限。“生活形态”最早于1927年由心理学家Alfred Adler提出，1963年William kazer首次将“生活形态”的概念运用到营销理论中，成为制定营销策略的依据之一[4]。它与基于用户静态属性的方法不同，它认为仅通过一些人口统计学变量来划分用户无法体现用户的生活习惯、价值观、消费观等一些非表面的心理属性。1998年Kolter在研究中提出，生活形态是指个人的生活方式，具体表现在活动（Activities）、兴趣爱好（Interest）、个人观点（Opinion）等三个方面上[5]。

1.3 基于用户行为等动态属性的划分

动态属性随着时间会产生变化，通常为用户产生的一些行为数据，如消费行为数据、收视数据等。庄一嵘等通过对时间维度样本矩阵及点播记录特征参数进行关联计算，对海量的IPTV用户群进行分类，分析出各个用户群的喜好、观影时段、增值业务的偏好等信息，为IPTV数据运营提供了基于用户群分类的数据支撑，指导IPTV具体的运营工作[6]。

2 建立收视行为与消费数据的模型

2.1 RFM模型

美国数据库营销研究所的Arthur Hughes在研究中提出了RFM模型，RFM模型常用于分析用户的消费行为，从而有效的衡量用户对企业的价值。其中R、F、M分别代表了该模型的三个测量因子，R（Recency）代表最近一次消费距离分析点的时间，F（Frequency）表示固定时间段内消费的总次数，M（Monetary）表示固定时间段内消费的金额。

用户的R值越小代表该用户最近消费的时间距离分析点的时间越接近，对企业的价值也就越高。用户的F值是在一个固定的时间段内用户消费的累计次数，如1个月、3个月、1年等，时间段内消费次数越多的用户价值越高。用户的M值是一个固定时间段内用户消费的总金额，消费金额越高的用户价值自然越高，但由于M值和F值的相关度较高，所以M值常采用平均值来计算。

2.2 消费与收视的关联性

传统人们习惯把媒体研究和市场研究分为两个不同的研究领域。但是，如果把媒体也作为一种商品，把网络用户的媒体行为作为一种消费行为来看待，那么两者在本质上应该是统一的。美国的Peter Steiner认为，人们对于节目的选择与他们对消费品的选择的标准是相类似的。消费者对某一商品的喜好，会反映到他们对某一类型的节目或栏目的喜好当中;反过来说，受众对某一类型节目的喜好，也会在他们对某些商品的偏好程度中体现出来。怎么使广告的投放更加精准，也一直是广告商和媒体运营机构致力于解决的问题。在融媒体的大环境下，网络用户随时随地都能通过各种终端进行收视、消费等，本文尝试将网络用户收视数据与消费数据结合分析划分用户群体，为商家、媒体运营商、广告商等提供决策上的帮助。

本文通过某电子商务平台的大数据竞赛比赛获取到部分脱敏的用户消费数据，将用户的消费数据属性整理为：用户编号、商品编号、商品类别、下单时间。其中用户编号、商品编号、商品类别都经过了脱敏处理。本文通过整理目前市场上主流电子商务平台的商品一级分类得到商品分类。

2.3 建立基于网络用户的收视行为和消费数据来划分用户群体的RFM-CT模型

按照中华人民共和国广播电影电视行业暂行技术文件，网络用户的收视行为可以发生在有线电视、IPTV、互联网电视等不同设备上。文件规定每条收视数据记录都必须包含一些基本参数数据，包括终端设备编码、终端区域编码、操作时间等。其中直播收视数据包括频道编号、频道名称等，点播收视数据包括节目编号、节目名称、播放类型等。本文将收视基本数据整理为：收视内容编号、开始时间、结束时间，并将传统RFM模型应用到网络用户的收视数据上，将收视行为属性整理为用户编号、最近观看时间距（R）、观看频度（F）、观看总长度（M）、内容编号。

RFM-CT模型如表1所示。其中R值代表用户最近观看时间距离分析点的时间长度，R值越小代表该用户对其兴趣度较高，F值代表在一段固定的时间段内收视某内容的总次数，M值指在一段固定的时间段内观看某内容的平均时长，可由总时长/F值得到，C值代表在一段固定的时间段内消费的商品类别，T值指下单的时间段，本文将每天划分为24個时间段，如00：00—00：59定义为“1”时间段，以此类推后面23个时间段。

3 基于RFM-CT模型的K-means聚类

3.1 数据清洗

首先将上述得到的基本收视数据和消费数据进行数据清洗后导入数据库中，校验数据的完整性并确保数据包含必选字段，去除或修改逻辑错误的数据。

3.2 计算RFM-CT指标

本文数据规模为1 000个用户的收视与消费数据。以用户编号为主，计算每个用户在给定时间段内的发生收看行为的媒体内容RFM值。如给定时间段为2018年2月5日0点、2018年2月6日0点，计算得到的部分RFM值如表2所示，其中R值单位为分钟数，F值为收看次数、M值为平均收看分钟。为后续聚类需要，需要将计算结果进行归一化。

3.3 基于K-means聚类算法的聚类

K-means是一种无监督的聚类算法。设给定n个d维数据向量的数据集，要将该数据集划分为K类，记为：，其中。K-means即求解下式的最小值：最后将RFM-CT指标归一化后作为聚类变量进行计算得到聚类结果，分析得到相应的用户群体。

4 结语

本文基于传统的RFM模型，提出了一种基于网络用户收视和消费行为数据的RFM-CT模型，并应用K-means进行用户分类。希望本文的研究工作能为媒体运营商、广告商定位目标用户群有所帮助。

5 鸣谢

感谢我的导师中国传媒大学传媒科学研究所所长夏征宇老师的悉心教导。感谢我的实习公司北京北广准星科技有限公司提供的实习机会和资源，感谢实习期为我提供帮助的司伟老师和毕艳红老师。感谢实验室的各个同学三年来的支持和帮助。

参考文献

[1]刘燕南.跨屏时代的受众测量与大数据应用[M].北京：中国传媒大学出版社，2016.

[2]Xia，Zhengyu.[IEEE 2009 International Conference on Management and Service Science （MASS）-Beijing， China （2009.09.20-2009.09.22）]2009 International Conference on Management and Service Science - Measurement， Modeling and Systemic Implementation of Cross-Media Communication Effect[J].2009：1-5.

[3]刘燕南.电视收视率解析：调查、分析与应用[M].2版.北京：中国传媒大学出版社，2010.

[4]王欣.基于生活形态的IPTV用户使用行为研究[D].上海：华东师范大学，2011.

[5]方雪琴.IPTV受众消费行为研究[D].武汉：华中科技大学，2008.

[6]庄一嵘，李江崴，刘东宇，等.IPTV用户群分类模型设计与实现[J].广东通信技术，2014（6）：5-6，44.

新媒体研究2020年2期

新媒体研究的其它文章: 环境事件中微博话题的传播特征研究; 理性行为理论视角下移动新闻传播分享化对新闻价值标准的重塑; 新媒体环境下“正能量谣言”次生舆情危害性研究; 从新闻“事件”到融合“景观”; 风险视域下智能传播的风险表现与治理策略; 新媒体时代党媒移动端内容生产路径研究