张贝贝,殷复莲,王欣然,白雪松,白 璐
(中国传媒大学 信息工程学院,北京 100024)
广播电视节目标签标注与可视化研究
张贝贝,殷复莲,王欣然,白雪松,白 璐
(中国传媒大学 信息工程学院,北京 100024)
针对传统广播电视节目类型和节目标签并行存在,无法定量刻画节目与标签接近程度,节目与标签关联关系展示效果不佳的问题,提出了电视节目与标签“粘度”的概念,通过为电视节目标签赋予不同权重,并利用D3插件建立节目与标签的扁平化网络结构关系,实现了节目与标签关系的定量描述及可视化展示。通过抓取网络热播剧标签,对标签粘度进行计算及可视化展示,证明提出的方案能够直观、动态地将标签粘度关系进行有效展示,可以为后续的数据分析和数据挖掘提供技术基础。
节目分类;节目标签;标签粘度;可视化
学术界目前对中国电视节目类型的划分中,按照节目主题和节目形式划分,其中,按照节目主题进行划分是目前业界最认可的分类方式。其中影响较大的是四分法,将节目分为新闻类节目、娱乐类节目、教育类节目、服务类节目。四分法是电视节目分类的一个基础。郭镇之[1]在《中外广播电视史》中区分了四种类型:广播电视新闻、电视剧、纪实类节目和电视综艺。张海潮[2]的《中国电视分类体系》中对电视节目的四分法体系进行了进一步的拓展,他运用系统论方法、第一识别特征法、层级法、分类维度等方法建立了电视节目分类体系,基本囊括了中国所有的电视节目类型。层级法是目前国际通行的主要节目层级设定方法,具有查找简易的特点。刘燕南[3]认为传统的层级分类方法忽略了电视节目多属性的特点,提出“电视节目多维组合的分类系统”。美国信息架构专家Thomas Vander Wal和Gene Smith于2004年首先提出大众分类法这个概念,是由大众的一致意见产生的基于用户的分类体系。大众分类法的重要特征之一是扁平化,它打破传统的“知识之树”的分类结构,没有层次结构,只存在平行关系,迎合了Web 2.0信息大爆炸时代的需求。大众分类法催生了标签及标签系统,人们使用标签系统以便更加容易地对电视节目的信息进行分类或索引[4]。
尽管大众分类法出现后对类型日益丰富的电视节目的分类有巨大贡献,但是大众分类法给出的标签属于平行关系,无法体现电视节目与其自身特点的定量关系,且将节目标签之间的粘度关系形象地展示出来在国内外尚无人研究。自18世纪后期数据图形学诞生以来,人们对于抽象信息的视觉表达手段进行了深入研究,以期用来揭示数据及某些隐匿模式的奥秘[5]。20世纪90年代期间图形化界面问世,人们能够直接与信息进行交互,带动了十多年来的信息可视化研究[6]。尤其是互联网时代的到来,更是把可视化研究的浪潮推到了前所未有的高度,可视化技术被应用于很多方面:数据挖掘可视化、网络数据可视化、社交可视化、交通可视化、文本可视化、生物医药可视化等等[7-9]。信息可视化放大了人类的认知能力[10]:利用某种可视化资源等提高人类的记忆能力;信息承载量大,利用较少的空间表达大量的数据;提供一种便于操作的不同于静态图的媒介,加强模式识别功能,易化对于各种关系推理等。
本文在现有技术基础上提出了节目与其标签之间“粘度”的概念,通过给电视节目的标签类型赋予不同的权重,将电视节目与其标签之间的关联关系定量描述;同时使用可视化工具建立展示节目与其标签粘度关系和节目多维属性的可视化网站,有效地将复杂信息处理成富含信息量的视觉信息,为后续的数据分析和数据挖掘提供技术基础。
2.1 数据采集流程
本文使用定向网络信息采集系统来进行节目信息的采集。定向网络信息采集系统能够根据用户自定义的任务配置及相应的参数,批量而精确地抽取因特网目标网页中的半结构化与非结构化数据,转化为结构化的记录,保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。数据采集流程如图1所示。
图1 数据采集流程图
首先确定要采集节目信息的网站,根据不同网站的特点设置不同的参数和数据采集字段,通过网页探索器定位采集目标,获取采集目标的网页节点路径,然后配置任务文件,设置对应的参数如网页遍历模式、任务执行时浏览网页的速度、目标表特征等并执行一定的脚本动作,获取到原数据,最后对原数据用适当的文本处理函数,对数据进行整理变形,得到符合一定格式的数据,存入数据库。
2.2 数据预处理
本文采集的电视节目来自于某省网10个城市2014年3月—5月的节目单数据,成功抓取到360影视、爱奇艺、百度视频、暴风影音、电驴、豆瓣、风行网、芒果TV、搜狐视频、腾讯视频、迅雷看看、优酷土豆、电视猫、m1905电影网等网站的相关节目基本信息,将节目名称去重后,把电视节目分为6大类:电视剧、电影、综艺、新闻、青少年、其他。由于每个网站对不同大类的节目采集到的字段不完全一样,故应对数据进行融合、统一。以下是数据融合的4种方法:
1)对于节目编导、导演、制片、集数/时长、地区、主持人、播出频道、首播时间等节目固有信息,在不同网站上的信息基本一致,只需将多个网站的信息进行合并、去重,即可得到节目的最全信息;
2)对于节目简介,在不同网站上的描述或许有轻微差别,取比较权威的网站,作为节目简介信息的来源;
3)对于评分,在不同网站上有不完全相同的评分,取平均值作为节目评分;
4)对于节目类型,在不同网站上不完全相同,且不同网站上标注的标签,虽有不同但实质上是同种含义,如“爱情”与“言情”,“中国大陆”与“内地”等,这种情况仅取其一,将“言情”全部替换为“爱情”,“中国大陆”全部替换为“内地”,此外记录每个网站的节目类型信息,以备后续计算标签粘度。
处理结果中每个大类下的节目都有相同的字段,且格式统一,如表1所示。
表1 各类节目信息采集字段
节目大类采集字段电视剧节目编导、导演、制片、演员、集数、年份、地区、评分、类型、简介等电影节目编导、导演、制片、演员、时长、年份、地区、评分、类型、简介等青少年地区、集数、作者、配音、评分、类型、简介等综艺地区、主持人、嘉宾、播出频道、播出时长、评分、类型、简介等新闻首播时间、重播时间、播出频道、播出时长、主持人、类型、简介等
3.1 标签粘度定义
标签粘度指标签与某节目的接近度、契合度或各大网站对该标签的认可度。电视节目的标签高度概括节目整体的信息,但是每个电视节目的特色属性都各有侧重,传统广播电视领域中节目标签属平行关系,无法定量描述节目与其标签的关联关系,因此本文用“节目标签粘度”这一概念实现了对节目与其标签接近度、契合度的定量描述。计算节目与标签之间的粘度公式为
Viscosity=n/N
(1)
式中:N表示在近14个视频网站数据库里,某节目的所有不为空的记录;n代表这些记录里某个具体类别标签出现的次数。标签粘度值在0~1之间。
3.2 标签粘度计算示例
以电视剧《射雕英雄传》为例,表2是采集的所有视频网站中,节目名为“射雕英雄传”的记录中标签类型不为空的所有记录。
表2 所有视频网站中的节目类型
节目名称类型1类型2类型3来源网站射雕英雄传爱情古装武侠豆瓣射雕英雄传古装武侠爱情爱奇艺射雕英雄传古装武侠爱情电视猫射雕英雄传历史年代搜狐视频射雕英雄传古装武侠爱情迅雷看看射雕英雄传爱情古装武侠腾讯视频射雕英雄传古装360影视射雕英雄传古装武侠百度视频射雕英雄传内地电驴射雕英雄传古装武侠爱情优酷土豆
按照粘度计算公式,14个视频网站有10个网站中“射雕英雄传”节目的标签类型不为空,古装出现8次,武侠7次,爱情6次,……,它们对应的粘度分别是0.8,0.7,0.6,…,如图2所示。
图2 节目与其标签粘度关系图
本文从各大视频网站采集了大量的节目标签数据,并进行了数据清洗,引入节目与其标签粘度的概念,计算了所有节目的标签粘度,在此基础上建立了一个节目与标签的扁平化、可视化网络结构。
4.1 节目标签跳转图
以电视剧类电视节目标签跳转图为例,如图3所示。图中,深灰色(屏幕显示为深蓝色)节点代表标签,浅灰色节点代表电视节目,任一节目对应多种标签,任一标签下有多个节目,点击标签可以看到标签的热度、受欢迎度,点击某个节目可以看到节目的各个详细特征及其与每个标签之间的粘度大小。电视节目与标签之间可以自由跳转,且可视化图中有一些附加功能,用户可以搜索查找自己感兴趣的标签或节目信息。
图3 节目标签跳转图
由于此图采用的是D3中的力学图布局,D3中的力学图布局使用韦尔莱积分法计算,这是一种用于求解牛顿运动方程的数值方法,被广泛应用于分子动力学模拟以及视频游戏中,用到的参数有摩擦系数、引力、重力、连接线的距离、连接线的坚硬度等。故位于中心的标签类型链接的节目最多,这些标签热度最高、最受欢迎,而边缘上的标签下辖节目最少,热度低、相对较偏。点击单个标签,该标签下辖节目变色,变色的节目节点所占比例对标签热度进行了定性描述,标签右下角会出现该标签下辖的节目数量,对标签的热度进行定量描述。
此外,标签系统作为一种更为灵活、有趣的信息分类方式,已成为推荐系统的重要信息来源,许多优秀的推荐系统都采用了标签做推荐,如Amazon,last.fm等。标签是用户特意标注的,它含有用户信息和所标注节目的信息。所以标签既代表用户喜好又可以体现节目特征,通过标签与节目的粘度可以找到用户对节目的评价与喜好。综合所有节目,发现热门标签有历史、战争、爱情、古装、剧情、家庭等,说明这些标签很受欢迎。如果再挑出收视效果比较好的电视节目,计算这些电视节目的标签粘度,便能更精确地得到观众收视偏好,从而进行个性化节目推荐或广播电视收视智能决策等。
4.2 单节目详细信息展示图
点击节目节点,会跳出新的一层,左边展示节目与其标签之间的粘度关系,右边展示节目的一些固有信息如导演、主演、地区、年代、节目简介等。这样,从各个方面全方位展示了节目的详细信息。
如对于电视剧《射雕英雄传》,图4展示了它的全方位信息,跟它粘度最大的几个标签是古装、武侠、爱情,说明该节目更侧重这些属性,主流视频网站对这些标签的认可度要高于其他标签。根据节目的其他信息,了解到这是一个发生在南宋时期的武侠故事,且演出阵容强大,有胡歌、林依晨这样的大牌明星助阵,这样的电视剧应该会受武侠迷、古装迷、胡椒粉、晨粉们的追捧。结合其他数据可以进行电视剧的播前预测,如收视率预测、用户评价预测等;也可以进行播后数据分析,如广播电视收视行为挖掘、个性化节目推荐等。
图4 单节目详细信息展示图(截图)
综上,通过抓取电视节目的标签,对标签粘度进行计算及可视化展示,证明本文所提出的方案能够直观、动态的将标签粘度关系进行有效展示,可以为后续的数据分析和数据挖掘提供技术基础。
传统广播电视领域对节目的标签标注忽略了电视节目多属性的特点,且标签之间是平行关系,没有侧重,不能很好的反映节目与各标签之间的接近度、契合度。因此本文提出了电视节目及其标签的“粘度”这一概念,通过对电视节目的不同标签类型赋予不同的权重,并用可视化工具建立了一个节目与标签的扁平化的网络结构,将节目及其标签间的粘度关系进行了定量描述及可视化展示,使复杂的信息简明扼要的呈现在视觉上,为后续数据挖掘带来便利。在接下来的工作中,将会改进数据采集方法,争取实现数据的实时获取、分
析处理,保证人们在用网站时看到的是最新的数据。
[1] 郭镇之. 中外广播电视史[M].上海:复旦大学出版社,2005.
[2] 张海潮.中国电视节目分类体系[M].北京:中国传媒大学出版社,2007.
[3] 刘燕南.电视节目“多维组合”分类法及其编码设计[J]. 现代传播,2003(1):1-5.
[4] 张斌,张引,高克宁,等.融合关系与内容分析的社会标签推荐[J].软件学报,2012,23(3):476-488.
[5] CHEN M,EBERT D,HAGEN H,et al. Data, Information, and Knowledge in Visualization[J].Computer graphics and applications,2009(6):12-19.
[6] Wikipedia.信息可视化[EB/OL].[2015-03-07].http://zh.wikipedia.org/wiki/信息可视化.
[7] MAY R, HANRAHAN P,KEIM D A,et al. The state of visual analytics: views on what visual analytics is and where it is going[C]//Proceedings of Visual Analytics Science and Technology (VAST). Salt Lake City,Utah,USA:IEEE Press,2010:257-259.
[8] XIONG Lirong, WANG Mengjun, FAN Jing. A visualization system for web retrieved credit information[C]//Proceedings of Natural Computation(ICNC).Shanghai:IEEE Press,2011:728-733.
[9] 陆泉,刘高,陈静. 一个图像语义可视化交互标注研究平台——以“情感语义标注”为例[J]. 情报理论与实践,2014(8): 111-116.
[10] CARD S,MACKINLAY J D,SHNEIDERMAN B. Readings in information visualization: using vision to think[M].San Francisco:Morgan Kaufmann Publishers,1999.
责任编辑:哈宏疆
Tagging and Labelling of Broadcast TV Programs and Research on Visualization
ZHANG Beibei, YIN Fulian, WANG Xinran, BAI Xuesong, BAI Lu
(College of Information Engineering, Communication Universityof China, Beijing 100024, China)
In view of traditional broadcast television program type parallel existence, which is unable to quantitatively describe the fitness and closeness of programs and labels, as well as lacking of visualizing the relationship between the programs and labels , the concept of the “viscosity” of television program and label is put forward, the labels are assigned weights, and the flat network relationship between the programs and labels is painted, which quantitatively describe and visualize the relationship between the labels and programs. Through calculating the viscosity of labels, and visualizing the relationship the programs and labels, the result prove that the method proposed in this paper show the relationship between the programs and labels dynamically and efficiently, which can provide the technical foundation for data analysis and data mining.
Program classification; Program label; the viscosity of label; Visualization
国家广播电影电视总局科研项目(2-4)
G221
A
10.16280/j.videoe.2015.20.017
2015-03-10
【本文献信息】张贝贝,殷复莲,王欣然,等.广播电视节目标签标注与可视化研究[J].电视技术,2015,39(20).