周荡荡 苏 勇
(江苏科技大学计算机科学与工程学院 镇江 212003)
基于决策树算法的电视收视率预测研究∗
周荡荡 苏 勇
(江苏科技大学计算机科学与工程学院 镇江 212003)
论文经过很多的研究工作,对于各种电视频道收视率猜测策略的特色,提出了对于电视台收视率猜测软件体系的规划,并给出基于面向对象思维的软件模型及有关模块的交互规划和完成,这个软件体系是强健,牢靠,可拓展且有用的。
预测模型;收视率;决策树算法;电视节目
收视查询得到的数据作为一种主要的商场信息获取来源,其效果也是愈来愈主要。因而,对数据收集到数据剖析变成树立收视率查询系统的一个主要环节。收视率查询数据通常具有较强的时效性和复杂性,因而在对数据进行处理时通常对处理的及时性和产生规则的多样性有较高的要求[1~2]。传统的数据处理方式通常是以统计剖析的办法为主,尽管这类办法在以往的许多问题中具有较好的处理效果。但是,随着信息时代的到来,这种传统的数据剖析方式现已不能极好地满足收视率查询中的信息处理需求。在某些情况下,程序采纳相似神经元的网络模型,使用神经网络学习在很大程度可能会树立一个学习模型精度低,收视率的猜测办法也是有许多,并表现出共同的适用性[3~8]。以非常好地满足电视媒体广告收视率的查询服务行业的需要,查询收视率常用的播送电视节目收视率的电视渠道来满足的各类需要,以便进行猜测与计算。
2.1 收视率数据处理
在图1里已经给出了本文研究的收视率数据形式,收视率数据的选择原则是基于观众观看电视比较频繁的时间段,本文的收视率取自每天晚上从19:00到22:10的平均收视率。如图3展示了部分数据。
首要对收视率数据值进行处理,由于要思考运用决策树对电视台频道收视率进行猜测,所以需求对剖析的特色进行离散化。关于收视率值的离散化,能够直接靠人工进行挑选,由人工指定一个或几个阈值,然后按这些阈值进行归类,这么能够很迅速地得到成果,可是需求耗费人力,并且人为因素影响比较大;另外能够思考屡次核算挑选的办法,给出最终的类型总数,然后由核算机剖析各个数据点的方位,给出最终的分类成果;还能够思考选用聚类的办法,经过聚类算法自行挑选合理的分类规范,这么的优势在于能够不必人工干预进行分类,节省时刻,缺陷也是很明显的,关于一些数值跨度比较大的数据,选用这种办法也许导致最终得到的类型格外多,这样不利于后边决策树剖析,假如遇到这种状况,能够思考先对数据进行预处理,如取原始数据值的平方根,或是取对数等操作来提早集合数据。经过有关的数学办法处理后,数据将会变得会集起来,然后经过聚类算法进行聚类,则能够得到比较好的成果。收视率数值是接连的数据。这里需求思考的收视率特色包含如下:
图1 19:00到22:10的平均收视率部分数据
1)收视率丈量值,这篇文章收集的收视率是接连的数值。
2)收视率时刻特色,首要指的是收视率丈量当天是工作日或非工作日。
3)收视率时刻所属规模,指的是收视率丈量当天归于上旬,中旬或是下旬。
4)前一天或前一星期或有关前几周的收视率值。
表中数据已经按照时间先后排序如表1所示。
表1 部分数据编码
2.2 应用决策树分类算法预测收视率
对收视率数据进行相应的处理并编码,在保证了每条收视率记录的唯一性之后,则可以构建决策树来学习建模并预测了[9]。对于电视台收视率预测问题,最终需要预测的是电视台收视率值,而经过数据处理后,实际只需要预测收视率的类型即可。对于最终要预测的分类属性为电视台收视率离散值,它有三个不同的值,其中L有27个样本,M有17个样本,H有16个样本,这里需要计算每个属性的信息增益,首先给定电视台收视率离散值样本分类的期望信息:
接下来计算每个属性的信息熵,首先从时间属性开始,检查时间属性的每个样本值的分布。对于时间属性Time=1的情况,有18个的收视率离散值Rate=L,有10个收视率离散值Rate=M ,有16个收视率离散值Rate=H;对于时间属性Time=0的情况,有9个的收视率离散值Rate=L,有7个收视率离散值Rate=M,有0个收视率离散值Rate=H。所以对于每个分布计算期望信息:
对Time=1:
对Time=0:
因此若原样本按照时间属性进行划分,按照式(2),式(3)计算出对一个给定的样本的分类对应的信息熵:由式(1),式(3)计算这种划分的信息增益是:Gain(Time)=I(s1,s2,s3)-E(Time)=0.2664 (5)对于月位置属性的信息增益计算如下:对Position=F:
类似的,可以计算:
对Prev_Rate=L:
对Prev_Rate=M:
对Prev_Rate=H:
根据计算出的信息增益,对比式(5),式(6)和式(7)可见属性Prev_Rate具有最高的信息增益,所以它首先被选作测试属性。并以此创建一个结点,用Prev_Rate标示,并对于每个属性值,引出一个分支,如图2所示。
图2 Prev_Rate结点及其分支
然后对每个分支继续递归计算其相应属性的信息增益,根据信息增益值来进行划分[10]。根据选择的这些属性进行分类建模,最后得到的分类规则如图3所示。
图3 ID3算法产生的决策树
选用以上得到的决策树对电视台的收视率数据进行分类猜测,成果猜测精度在65%摆布,这也是能够预料到的,由于原数据中供给的信息量有限,不能最大度的对收视率进行分类,致使猜测差错是不免的[11]。
从通常状况来看,对这篇文章研究的电视台收视率数据方式,选用决策树算法进行分猜测,不能得到准确的收视率值,只能区别收视率的类型,是一个含糊的猜测成果。关于这么的收视率数据方式,额定剖析的特色较少,所以选用决策树算法进行分类猜测得到的效果并不抱负,为了改进猜测精度,具体使用时电视台能够依据相应的评估规范进行分类,然后进行猜测,也能够选用聚类算法让数据依据本身特色进行分类。然后依据这些类型来区分收视率[12]。总的来说决策树分类原则在收视率猜测使用疑问上有很大的实用性,能够在大规模杂乱猜测运算履行前作为分类预处理履行,对根本原始数据进行分类并过滤,有助于大规模杂乱猜测核算的并行履行,关于终究迅速得到猜测成果有很好的启示效果。
在现代电视媒体经营中,由于市场经济体系机制的越来越完善,政府拨款扶持的情况已经越来越少,因而如何依靠其自身特有的资源创建收益,对电视媒体至关重要,其研究和应用具有很好的意义。本文主要研究如何更加有效地预测电视频道收视率。频道收视率是评价电视媒体经营效益的最好标准,电视媒体的一切目标的根基就是获得更高的收视率,只有在这个前提下,其它经营活动,诸如广告时间销售,节目时间安排等才能正常有效地进行下去。
本文首先介绍了关于电视台频道收视率预测的当前状况,然后提出了本文研究的收视率数据形式。针对收视率数据记录形式,本文提出了基于决策树分类学习方法,并针对实际数据,建立模型进行了预测。本研究课题提出了相应的软件体系,并对该体系首要框架、首要模块、首要接口以及相互间的交互行为进行了设计来解决频道的收视率的猜测的疑问,该体系模块根据现在的需要和潜在的不知道的需要范畴,依照软件工程的基本原则,利用面向对象的思维进行的设计,减小了模块之间的耦合性,使体系具有极好的可扩展性并留有将来的晋级接口。
[1]李善庆.基于数据挖掘的收视分析与决策系统的设计与实现[D].沈阳:东北大学,2007.LI Shanqing.Design and implementation of audience analysis and decision system based on data mining[D].Shengyang:Dongbei Univerisy,2007.
[2]俞晨洁.中国零售业的发展演变及投资机会[D].上海:上海交通大学,2006.YU Chenjie.Evolution and investment opportunities of China's retail industry[D].Shanghai:Shanghai Jiaotong University,2006.
[3]张凌.ID3算法的研究以及在成绩统计辅助决策系统中的应用[D].厦门:厦门大学,2007.ZHANG Ling.The research of ID3 algorithm and the application in the assistant decision making system[D].Xiamen:Xiamen Unviersity,2007.
[4]柳学铮.多维数据关联规则挖掘研究[D].长春:长春工业大学,2006.LIU Xuezheng.Research on association rule mining of multidimensional data[D].Changchun:Changchun Unviersity of Technology,2006.
[5]赵红艳.决策树技术在学生成绩分析中的应用研究[D].济南:山东师范大学,2007.ZHAO Hongyan.Application of decision tree technology in student performance analysis[D].Jinan:Shangdong Normal Unviersity,2007.
[6]云玉屏.基于C4.5算法的数据挖掘应用研究[D].哈尔滨:哈尔滨理工大学,2008.YUN Yuping.Application Research of data mining based on C4.5 algorithm[D].Harbin:Harbin University of Science and Technology,2008.
[7]何铭锋.关于品牌识别、传播与体验的工作方法研究[D].长沙:湖南大学,2008.HE Mingfeng.Research on the methods of brand recognition,communication and experience[D].Changsha:Hunan University,2008.
[8]徐鹏,林森.基于C4.5决策树的流量分类方法[J].软件学报,2009,20(10)XU Peng,LIN Sen.Traffic classification method of C4.5 decision tree based on[J].Journal of software,2009,20(10).
[9]胡海斌,邱明,姜青山,等.一种基于数据继承关系的C4.5分类优化算法[J].计算机研究与发展,2009,46(z2).HU Haibin,QIU Ming,JIANG Qingshan,et al.A C4.5 classification optimization algorithm based on data inheritance relationship[J].Computer research and development,2009,46(z2).
[10]黄爱辉.决策树C4.5算法的改进及应用[J].科学技术与工程,2009,9(1).Huang Aihui.The improvement of decision tree C4.5 algorithm and its application[J].Science and technology and engineering,2009,9(1).
[11]刘鹏,姚正,尹俊杰,等.一种有效的C 4.5改进模型[J].清华大学学(自然科学版),2006,46(z1).LIU Peng,YAO Zheng,YIN Junjie,et al.An effective C 4.5 improved model[J].Tsinghua University(NATURAL SCIENCE EDITION),2006,46(z1).
[12]罗华,刘萍,韦有华.数据挖掘与数据仓库技术及其在保险业中的应用[J].微计算机信息,2004(4).LUO Hua,LIU Ping,WEI Youhua.data mining and data warehouse technology and its application in the insurance industry[J].micro computer information,2004(4).
Television Ratings Prediction Research Based on Decision Tree Algorithm
SU YongZHOU Dangdang
(School of Computer Science and Engineering,Jiangsu University of Science and Technology,Zhengjian 212003)
This article after a lot of research work,for a variety of television ratings guess characteristic strategy proposed for television ratings guess planning and complete software system,and gives interactive object-oriented software model and thinking about the module planning and completion,the software system is a robust,reliable,scalable and useful.
prediction model,ratings,decision tree algorithms,TV programs
TP391
10.3969/j.issn.1672-9722.2017.11.009
Class Number TP391
2017年5月9日,
2017年6月25日
周荡荡,男,硕士研究生,研究方向:数据挖掘。苏勇,男,博士,教授,研究方向:数据挖掘。