贾金娜陈罡郑艾明
(河北传媒学院,河北石家庄 050071)
大数据时代网络视频用户推荐研究
贾金娜陈罡郑艾明
(河北传媒学院,河北石家庄 050071)
大数据时代,基于海量用户信息挖掘用户兴趣进行精确推荐,是网络视频供应商亟须解决的核心问题。目前有非个性化推荐、个性化推荐、相关推荐、协同过滤推荐等不同推荐技术,这些技术及相关算法各有其适用之地和不足之处,应采用不同策略加以综合应用。大数据时代网络视频推荐技术的发展,要强化海量信息存储加工基础条件,加强特征化信息提取技术研究,加快个性化产品推荐方法研究,广泛开展视频产品传播反馈分析,以提升用户推荐的精确化、精细化、精准化水平。
网络影视;视频推荐;大数据
近年来,我国个人互联网应用发展迅速,网络视频、网络应用、网络购物等应用用户规模均呈明显上升趋势。我国“十三五”规划建议提出:“实施国家大数据战略。把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新”[1]。随着我国信息化建设的深入推进,海量用户在各类应用中不断生产海量数据。正如中国工程院院士高文所说:“不管你是否认同,大数据时代已经来临,并将深刻地改变着我们的工作和生活。”[2]在这个信息数量飞速增长的时代,我国传统的网络视频行业依旧未能摆脱对资本和流量的诉求,马太效应愈发凸显,我国网络视频网站呈现爱奇艺、优酷土豆、腾讯视频三足鼎立局面,其他视频网站与其差距越来越大。在确保内容优质和版权合法的前提下,网络视频应加强技术创新,做到在基于大众热点强力推荐和基于用户兴趣精准推荐等不同策略之间的平衡,使得相关各类面向行业、面向领域和面向用户的推荐能够更加准确、科学、有效,从而不断提升自身核心竞争力。
2016年1月22日,中国互联网络信息中心(CNNIC)发布第37次《中国互联网络发展状况统计报告》。该报告显示,截至2015年12月,中国网民规模达6.88亿,互联网普及率达到50.3%,半数中国人已接入互联网。其中,截至2015年12月,中国网络视频用户规模达5.04亿,较2014年底增加7093万,网络视频用户使用率为73.2%,较2014年底增加了6.5个百分点,网络视频应用紧随即时通信、搜索引擎和网络新闻,排在第4位,全年增长率为16.4%[3]。如表1所示。
当前网络视频节目,按照内容来源可分为如下几类:(1)电视视频信号转播或电视节目剪辑、回放。网站将电视节目作为视频输入源,在网络上提供电视节目服务,相当于电视信号的网络扩展,例如中国网络电视台,以及各类视频终端软件的直播频道。(2)电影、电视剧等影像制品在线观看。网站通过购买在线播放版权,在网络上向用户提供有偿或无偿的视频服务,相当于影院和传统DVD等家用播出设备在网络上的扩展,也是国内的优酷土豆、爱奇艺、搜狐视频、腾讯视频等主流网络视频服务提供方,以及国外Hulu,YouTube的主要线上业务。(3)个人录制上传分享的视频。视频经过上传、转码、内容审核到最终发布,在网络上向用户提供自主视频内容分享服务,进一步丰富了网络视频的内容。
表1 2014-2015年中国网民各类互联网应用的使用率(部分)
这些视频要想得以长期生存,必须有相当规模的搜索量和观看量。以近年来孔笙执导的热播电视剧《琅琊榜》(2015年)和《欢乐颂》(2016年)两部网络热播视频为例,对其在优酷土豆网站的日搜索指数和日播放指数等网络视频指数①进行分析可发现如下规律:(1)一部网络视频的热播周期只能维持3~6个月左右;(2)同一导演或剧组的前期成功作品会对后继作品起到极其重要的宣传作用;(3)取得成功的作品将延续很长时间的“长尾效应”②;(4)主推网络视频开播前期的大众热点强力推荐是确保开播前期2类指数曲线迅速上扬的关键保证;(5)过期网络视频的“长尾”用户的持续推荐是确保视频生存的关键保证。
近年来,我国网络娱乐类应用稳步发展,它们以优质内容为核心拉动了娱乐应用的快速增长。以知识产权为核心的网络娱乐产业链在2015年展现出巨大商业价值,由热门网络文学作品改编的影视作品屡创收视新高。爱奇艺、优酷土豆、腾讯视频等主要视频网站在2015年新增的付费用户数超过之前的积累,用户付费收入在整体收入中的占比增大,预计未来会成为视频网站重要的收入来源。这种大背景下,互联网影视产业链进一步加强,网络视频作品若要取得成功,必须靠优质内容、精准推荐来吸引更多收看者以提升口碑,靠嵌入广告收费或靠视频付费购买来提升收益。
大数据时代,网络视频、网络音乐、网络社交等传媒行业的变革有目共睹,如按2013年有关数据显示,Facebook每天有40亿条发布量,网络每天日志总额达35TB,每天吸收逾500TB图片、视频等新数据[4],YouTube网站目前有数十亿视频条目在线,用户群体规模达到数百万,每分钟用户上传的视频时长超过24小时。而Hulu网站拥有超过400万高级用户和平均每月3000万免费用户,总视频规模达到40亿[5]。互联网的快速发展给用户提供了大量的视频资源,面对已经过多的信息,用户通常很难找到自己感兴趣的内容;同时,对于网络视频网站而言,网站间的竞争必将逐渐集中在提升用户体验之上,为用户提供有效的个性化推荐服务势在必行。面对海量用户,网站必须深入挖掘和分析用户的历史行为信息,预测未来行为,找到不同用户的兴趣,为他们提供适合的、感兴趣的资源,从而提升用户的粘滞性和忠诚度,以求获得更多的观看率和经济效益。目前的推荐方法种类繁多,但不同网络视频网站应当根据自身特点和不同类别视频的实际需求,选择合适的推荐策略。
(一)非个性化推荐
这种推荐基于用户对产品的独立于用户推荐系统的平均评分,即所有受众用户都会得到相同的推荐结果。这种推荐方式做的就是将所有的反馈信息综合起来并对要推荐的产品进行排序,从中选择出当前最热门的产品进行推荐。对于在线视频网站来说,其往往针对未登录的用户采用这种推荐方式提供电影、电视剧、体育、综艺、娱乐、动漫、教育、健康、军事等热门视频,以期望更多的未登录用户或潜在用户观看,从而提升收看率,确保广告收入或视频收费增长。这种推荐方式的缺点非常明显,非个性化推荐无论在未登录用户的体验还是实际收看数量上都与个性化推荐有着很大的差距。这种方式适用于暂时无法确定用户唯一身份的情况,也被普遍用于网站当前重点发展的热门视频推荐。
(二)个性化推荐
个性化视频推荐就是网站不断地搜集用户搜索、观看、点评各类视频的行为,通过各种算法来计算用户未来会感兴趣的视频,然后将相应的结果推荐给用户[6]。个性化视频推荐往往会采用很多种因素来决策用户的行为,如订阅、评分、搜索、评论,以及点击、一次观看时长、暂停点、回看时段、重复观看次数等多种行为。个性化推荐方法通过综合计算用户的各种各样的行为,来准确地找出用户对于视频的兴趣点。用户的历史行为往往能从侧面反应出用户对视频的需求方向,因此可以为推荐给用户视频提供很好的参照。例如,目前Youtube、Hulu、爱奇艺等视频网站都会根据用户已观看、已购买的网络视频来为用户推荐新的可能感兴趣的视频。站在用户视角,推荐的视频大多数都是和用户历史观看、收藏、购买、评分、浏览等行为密切相关的。由此可见,个性化推荐的可行性还是非常高的。此种方式适用于可掌握海量用户视频操作行为大数据的相关网站。
(三)相关推荐
相关推荐就是将与用户正在观看的视频比较相关的视频推荐给当前的用户。现有的专业性视频网站,如QQ影音、PPS等会根据你的选中视频给你推荐一些结果。这些结果通常匹配程度较好,但是相关推荐通常考虑因素过分单一,最常见的问题就是如果用户偶尔访问一些视频并且再不想观看,那么根据这些推荐出的结果就适得其反。目前,相关推荐仍然是视频推荐的重要推荐方式之一,虽然在专业性视频网站上普遍已有实现,但是基于生活、社交、兴趣等以用户为主的非专业视频网站上,这方面做得还不够全面。
(四)协同过滤推荐
这种方法也是通过用户视频操作历史行为,分析出用户的兴趣标签,然后对用户做推荐。很多知名网站,如YouTube等视频网站都采取了协同过滤的方式。协同过滤的一个优点是可以有很多算法来供推荐者使用,如邻域算法、图算法、矩阵分解算法等等。这种算法的主要缺点是用户新加入的视频不能及时地融入推荐算法中,必须要有一定的基础数据才能保证算法可以正确执行。但是在过滤的准确程度上来讲,协同过滤比前两种过滤方式有明显优势。
目前,以上方法中,具体算法有基于内容的推荐、协同过滤推荐、基于关联规则的推荐、基于效用的推荐、基于知识的推荐以及组合推荐方法等多种类型[7]。笔者在此综合分析了各种推荐方法均有其优缺点和适用范围,具体如表2所示。实际应用中应根据网站策略和不同视频具体特点综合考虑,采取合适的网络视频推荐策略。
由此可见,当前各种推荐方法都有优缺点和具体应用限制。因此,在实际应用中,应该考虑若干种算法进行组合,如将基于内容的推荐和协同过滤推荐相结合组合,即分别用基于内容的方法和协同过滤推荐方法去产生一个推荐预测结果,然后用某方法组合其结果。各类技术的组合,要重复发挥各自优势,并避免或弥补各自不足,如通过加权(Weight)来综合利用多种推荐技术结果,通过变换(Switch)来适应不同问题背景和实际情况,通过混合(Mixed)同时采用多种推荐技术给出多种推荐结果为用户提供参考,通过特征组合(Feature combination)将不同推荐数据源的特征用于另一种推荐算法,通过层叠算法(Cascade)③分步进行逐次精确的推荐,通过特征扩充(Feature augmentation)将一种推荐技术产生附加的特征信息嵌入到另一种推荐技术的特征输入中,通过元级别(Meta-level)方法用一种推荐方法产生的模型作为另一种推荐方法的输入。
大数据环境下,网络视频推荐技术的发展面临着巨大的机遇和挑战,需要相关经营商从管理、技术两方面不断创新。针对目前情况,笔者给出以下发展建议。
(一)强化海量信息存储加工基础条件,为大数据推荐提供硬件能力
随着网络视频用户数量的暴涨,随着网站海量日志的飞速上涨(如Facebook每天网络日志量已达几十TB),要在大数据时代深入挖掘海量数据中存在的各种规律,仅靠传统的计算模式和计算软硬件平台是难以应付的。同时,随着大数据时代的来临,网络中的信息量呈现指数式增长,带来了信息过载问题,推荐系统是解决信息过载最有效的方式之一,大数据推荐系统已经逐渐成为信息领域的研究热点。为有效进行科学推荐,大数据储存、加工、处理的基础平台必须先行打牢。笔者认为各网络视频供应商应充分预估未来3~5年新增数据量,制订数据存储加工策略,建议自身核心数据采用自建方式,其余数据资源尽量采用IBM、易安信(EMC)、华为等大数据存储服务商相关服务,以充分借助他人优势,聚焦业务核心发展需求。
表2网络视频推荐算法对比表
(二)加强特征化信息提取技术研究,为精确化推荐提供手段支撑
大数据时代,精确的信息识别技术是所有技术的基础。在海量网络视频信息中提取具有特定特征的片段,并根据行为或属性进行分类,从基础数据中提炼与特定需求相关的数据进行整理与匹配,分析各类网络视频中的个性化需求,可提供个性化的信息服务。例如通过调查分析网络视频用户观看喜好等数据,可为某部电视剧确定观众喜好的主角人选;又如,通过数据分析获取未来传媒领域专业热点及人才急需,可为某类传媒专业学生提供个性化的教学资源服务,等等。建议各网络视频供应商应立足自身实际推荐核心需求,不断找出适用于自身需求的各类数据资源的特征化属性,创新文本特征信息提取、图像帧特征信息提取、音乐特征抽取、用户偏好综合推理、领域知识推理等技术,做好各类资源、各类用户的直接特征、间接特征的表达、选择、组合及分析,从而实现推荐的精确化,做到在“正确”的时间、“正确的”环境下,为“正确的”用户推荐“正确的”网络视频。
(三)加快个性化产品推荐方法研究,为精细化推荐提供技术支持
在传统数据时代,传媒电商营销投向的精确度不高,网络常见的各类用户根本不感兴趣的广告层出不穷,令人反感。在大数据时代,传媒电商可以通过基于Cookie的用户偏好采集系统,将更加个性化、精确化、差异化的产品推荐给更感兴趣的受众群体,在提升自身效益的基础上,也可为相关受众群体带来更符合需求的选择项目和更便捷的服务。如2014年BBC开设了BBS Store,为注册用户提供最近一年6000小时左右的节目和4000小时存档节目,是拓展用户对BBC公共服务和商业内容的搜索功能,鼓励用户购买个性化节目[8]。笔者建议网络视频供应商要不断扩展信息收集的深度和广度,在当前及未来海量数据的支持下,不断细分市场,在更精确的数据特征支持下,快速开发形成应用个性化的产品推荐策略,从而实现推荐的精细化。
(四)广泛开展视频产品传播反馈分析,为精准化推荐提供闭环反馈
大数据时代,传媒行业的受众群体可通过网站、博客、微博、微信等多种渠道、多个新媒体平台针对媒体的新闻报道发表自己的观点、表明自己的喜好。具体传媒行业应该广泛收集与己相关的各类反馈信息,建立符合自身需求的反馈信息大数据分析处理系统,分析受众好恶、特征、趋势等,及时调整自身传媒战略和媒体内容,形成良性正反馈,不断扩大自身影响度。如Netflix公司利用Cinematch推荐系统,每天产生的3000多万个基于用户视频点播的评分、播放、快进、暂停、观看持续时间、观看地点、终端类型等海量基础数据进行分析,计算用户喜好,进行个性化推荐定制。笔者建议网络视频供应商在上述各种“正向”推荐的基础上,要通过多种技术手段采集用户的浏览、点评、关注、停留、回看等多种“负向”反馈信息,并以此调整修正相应的个性化推荐方法,不断提升推荐的精准化水平。
涂子沛《正在到来的数据革命》中指出:“除了上帝,任何人都必须用数据说话。”当前各种行业中,大数据都意味着巨大的发展机遇,如互联网视频领域的YouTube、Netflix等,社交领域的Facebook、Twitter、新浪微博、腾讯微信等,传统电视纸媒领域巨头等,都在积极积累海量数据,创造大数据的应用环境,主导大数据的应用模式。同政府、工业、商业等成熟行业需求一样,网络视频这一新的传媒行业对大数据的需求也非常旺盛,但其用户推荐模式还相对单一。笔者认为网络视频供应商应努力开展各类数据采集、深度加工和广泛交换应用等工作,面对日益增长的海量用户,应积极主动作为,加快技术创新,不断提升各类推荐的精确化、精细化、精准化水平,促进自身竞争力的快速形成和长期保持。
注释:
①2004年10月,美国《连线》杂志主编克里斯·安德森(Chris Anderson)首次提出提出长尾(Long Tail)理论。只要存储和流通的渠道足够大,长尾理论对传统“二八法则”的挑战在于,80%的非主流“长尾”不是仅占20%的份额,有可能达到甚至超过50%。
②视频指数可以用于描述视频播放周期、用户核心特征、用户播放行为、视频热度排行等。本文利用中国网络视频指数beta版(http://index.youku.com/)进行数据采集分析。
③所谓层叠算法,就是先用一种推荐技术产生一种粗糙的推荐结果,第二种推荐技术在此推荐结果的基础上进一步作出更精确的推荐。
[1]中华人民共和国国民经济和社会发展第十三个五年规划纲要[EB/OL].(2016-03-17)[2016-05-21].http://news.xinhuanet.com/politics/2016lh/2016-03/17/c_1118366322.htm.
[2]国家大数据战略——习近平与“十三五”十四大战略[EB/ OL].(2015-11-12)[2016-05-21].http://politics.people.com.cn/ n/2015/1112/c1001-27809382.html.
[3]第37次中国互联网络发展状况统计报告[EB/OL].(2016-01-22)[2016-05-21].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/ 201601/P020160122469130059846.pdf.
[4]张国强.大数据时代媒体转型研究——以山东电视业为例[D].山东财经大学,2015.
[5]ALEKSANDRA KLASNJA MILICEVIC,BOBAN VESIN,MIRJANA IVANOVIC,et a1.Personalization of programming tutoring system using tag-based recommender systems[C].ICALT'12 Proceeding of the 2012 IEEE 12"'International Conference on Advanced Learning Technologies,2012:666-667.
[6]崔昊旻.海量视频节目的检索、推荐与反馈学习[D].中国科学技术大学,2014:2-3.
[7]戴思.基于可视化知识框架的视频推荐系统研究与实现[D].中南大学,2014:22-33.
[8]彭锦.欧盟大数据政策及其在传媒业的应用[J].科技与出版,2015(6):14-15.
(责任编辑:杭长钊)
2016-05-15
贾金娜,河北传媒学院信息技术与文化管理学院教师,本科,研究方向:数字媒体技术;陈罡,河北传媒学院信息技术与文化管理学院院长,硕士,研究方向:信息技术;郑艾明,河北传媒学院信息技术与文化管理学院辅导员,本科,研究方向:多媒体技术。