大数据挖掘在电视节目效果评估中的研究与应用

2021-09-10 06:13:55刘丹赵云飞
科技研究 2021年20期
关键词:数据挖掘电视节目大数据

刘丹 赵云飞

摘要:当今,在新媒体的猛烈攻势下,传统电视媒体受到了很大的冲击。传统媒体正开始寻求与新媒体的融合发展,媒介融合、台网互动由学术概念发展到实际的业务当中。本文在对国内外研究成果梳理、总结的基础上,结合自身的项目经历,运用大数据、数据挖掘、文本情感分析等理论和方法,探索了大数据在互联网电视节目效果评估中的应用。

关键词:大数据;数据挖掘;电视节目

引言

大数据时代,每一档电视节目,观众均会对其发表大量的网络评论,这些评论带有观众对电视节目的态度和观点,通过研究这些网络评论数据可以挖掘观众态度、喜好,电视工作者通过这些信息可以更好地进行节目内容的创作。

1 需求分析

本文研究的内容来源于实际项目的需要,研究电视节目在新媒体领域的传播效果。系统主要功能包括:视频网站中电视栏目的用户评论的采集、海量用户评论的存储、用户评论的分析。本次研究,将选取综艺节目《奔跑吧兄弟》,采集其在爱奇艺、优酷、腾讯视频平台的评论数据,通过海量数据的数据挖掘,评估用户对节目的情感倾向性。

2 系统设计与实现

2.1 系统总体设计

本系统的技术架构[1]:

(1)数据采集层:采集海量的用户评论数据。采集后的数据经过抽取、转换、加载的处理。

(2)数据存储层:汇总存储采集的用户评价数据。

(3)数据挖掘层:由管理平台负责整体任务的调度,MapReduce负责计算引擎,通过机器学习模型,实现海量用户评论数据的文本情感分析,并将分析后的数据存储到数据仓库中。

(4)数据可视化层:接收用户提交的各项分析任务请求,调用底层的分析引擎进行数据的分析任务,将底层分析结果返回给前台界面显示。

数据流的走向设计:

2.2 数据仓库设计

本系统的数据仓库基于数据立方体理论进行设计[2],包含2-D数据表,以及3-D数据表:

2.3 大数据平台设计

本次课题研究将选取Cloudera发行版作为大数据平台。

基础环境采用4台机器的集群模式,单台机器配置:

CPU:Intel(R) Core(TM) i7-6700 CPU @ 3.40GHz *4

内存:32G

硬盘:1T

操作系统:CentOS6.5

主机 Hadoop組件

CDH Node1 HBase Master、HBase RegionServer、HDFS NameNode、HDFS DataNode、YARN NodeManager、Zookeeper Server

CDH Node2 HBase RegionServer、HDFS DataNode、HDFS SecondaryNameNode、YARN NodeManager、YARN ResourceManager、Zookeeper Server

CDH Node3 HBase RegionServer、HDFS DataNode、Oozie Server、YARN NodeManager、Zookeeper Server

CDH Node4 HBase RegionServer、HDFS DataNode、YARN NodeManager

2.4 数据采集模块的设计与实现

本系统涉及的数据源包括优酷、爱奇艺、腾讯三个视频网站的综艺节目《奔跑吧兄弟》的用户评论数据。

用户评论数据表,共分为三个数据库表comment_youku、comment_iqiyi、comment_qq,MySQL数据库表设计

数据采集模块的工作流程:获取用户评论数据URL->解析URL数据->将数据暂存到MySQL数据库。

2.5 数据存储模块的设计与实现

数据存储模块,定期从数据库表comment_youku、comment_iqiyi、comment_qq同步数据到HBase中。

使用ETL工具将MySQL数据库中的用户评论数据定期、增量导入到HBase,处理流程:配置MySQL/HBase数据源->MySQL中的数据表与HBase中的数据表进行映射和规则转换->配置每天零点定时执行的计划任务。

2.6 数据分析模块的设计与实现

本文将采用基于机器学习的情感分析方法。为了能针对海量评论数据进行大规模的情感分析,需要基于MapReduce计算引擎完成。

本系统将使用Java开发实现MapReduce的过程:连接HBase数据库->创建MapReduce任务->Map过程:调用机器学习模型完成每条用户评价的情感倾向性判断->Reduce过程:实现电视节目评价分析的数据汇总。

2.7 数据可视化模块的设计与实现

数据可视化模块,使用Web交互模式,用户可以通过浏览器查询分析结果。采用MVC设计模式。在页面展示方面,图表展示基于ECharts框架进行开发。

数据可视化模块的处理流程:互联网电视节目评价分析查询->根据用户选择的不同维度匹配不同的分析引擎->查询数据仓库相应的维度数据->页面呈现。

3 结语

大数据挖掘技术应用于电视节目效果评估,本文进行了研究及系统设计实现。我们可以基于此系统,进行非常广泛的实际应用,例如通过获取观众对电视节目的评论信息,分析观众对电视节目的喜好,及时调整电视节目的制作。

参考文献

[1]曹佳豪. 基于Hadoop的报文数据挖掘研究与应用[D]. 武汉邮电科学研究院,2018.

[2]丁青松. 基于Hadoop平台的大数据增量处理技术的研究[D]. 东北大学,2014.

作者简介:刘丹(1980-),女,汉族,辽宁沈阳人,硕士,软件工程师,研究方向:大数据技术

猜你喜欢
数据挖掘电视节目大数据
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
电力与能源(2017年6期)2017-05-14 06:19:37
周五广播电视
电视节目
基于大数据背景下的智慧城市建设研究
科技视界(2016年20期)2016-09-29 10:53:22
关于电视节目创新的几点思考
新闻传播(2016年13期)2016-07-19 10:12:05
一种基于Hadoop的大数据挖掘云服务及应用
电视节目的移植与创新
新闻传播(2015年22期)2015-07-18 11:04:05
基于GPGPU的离散数据挖掘研究