李培琳,赵 明,王炳飞
(1. 国家新闻出版广电总局广播科学研究院,北京 100866; 2. 北京数码视讯科技股份有限公司,北京 100085)
广电家庭用户个性化推荐的难点和解决思路
李培琳1,赵 明1,王炳飞2
(1. 国家新闻出版广电总局广播科学研究院,北京 100866; 2. 北京数码视讯科技股份有限公司,北京 100085)
随着广电运营商双向业务的不断发展,为解决用户无法从海量内容中快速找到喜爱节目的问题,个性化推荐技术在广电领域得到了关注和应用。个性化推荐技术在互联网等领域已经有了较成熟的应用,并得到了良好的效果,但若具体落实在广电运营商的业务中并起到良好的作用,还需要解决直播节目元数据关联、推荐实效性、家庭用户行为分析等难点问题。对广电家庭用户个性化推荐存在的难点进行了总结,并提出解决思路。
个性化推荐;用户行为分析;广电运营
近年来,广电运营在高清、互动电视平台的建设方面取得了长足的进步,包括点播、时移、回看、资讯信息在内的大量交互业务在各地纷纷上马,大大改善了各地电视用户的收视体验,同时也为运营商平台化进行了深入的探索和验证。
事实证明,通过引入新的业务系统和不断丰富节目内容,通过差异化运营、收费,能够为广电运营商带来新的盈利点。如何对花费巨资引入的业务和内容进行深耕细作,最大化产出,是运营商下一步需要认真思考的问题。虽然运营商为用户提供了丰富的互动电视内容,但由于类别众多,层级复杂,用户难以在海量的内容中快速找到自己感兴趣的节目,这样就会造成内容资源的大量浪费。
个性化推荐技术是解决上述问题的重点方案之一,通过主动把热点内容、最新内容或者用户喜好的内容推送给用户,用户无需进行繁琐的内容浏览,就能快速定位到自己感兴趣的内容,一方面提升了用户体验,另一方面也大大增加了运营商投资购入的节目内容的长尾效应[1]。
个性化推荐技术在互联网行业是一项较成熟的技术,其最早在电子商务领域得到深入应用,经过十余年的发展,逐步应用到互联网音视频、音乐、新闻网站等领域。近年来,一些广电运营商也逐渐将这项技术应用到广电业务系统中来,取得了一定的效果,但同时也暴露出通用的推荐技术在广电业务上的不足,需要针对广电业务的特殊性进行深入研究和改善。
本文主要针对广电家庭用户个性化推荐技术的难点和解决思路分析总结,并对未来的应用进行展望。
对个性化推荐技术的研究和应用始于20世纪90年代中期,到目前为止主要经历了以下4个阶段:
1)20世纪90年代中期至90年代末,此期间以研究为主,研究的主要目的是为用户提供个性化的页面内容。1996年斯坦福大学推出了首个个性化推荐系统LIRA。
2)2000年至2005年,个性化推荐技术在亚马逊(Amazon)等电子商务网站开始应用,主要用于为买家提供个性化的商品推荐,增加商品的长尾效应,提高销售收入。特别需要指出的是,在此期间,美国著名的光碟租赁企业Netflix大力应用该技术进行光碟的推荐,甚至每年投入百万美金组织推荐算法大赛。
3)2005年至2008年,随着互联网广告的兴起,个性化推荐技术在互联网广告领域得到应用,并以此演化单独的技术学科:计算广告学。个性化推荐技术与广告相结合,取得了巨大的经济效益。
4)2008年以后,个性化推荐技术在互联网等领域得到全面、广泛的应用,包括网站个性化首页、视频网站、音乐网站、App Store个性化推荐等应用层出不穷。
个性化推荐技术的基本原理(见图1),是模拟商场导购帮助客户遴选商品的过程,在这个过程中,合格的“导购策略”会结合以下3方面信息预测用户的消费诉求。
1)用户行为:对于熟悉的客户,应该了解客户的消费历史,评估出其大致的消费习惯[2]。
2)场景:结合用户的自然属性(年龄、性别等),以及当前的环境和社会因素(季节、时间、天气、节庆等)。
3)商品属性信息:哪些商品真正贴合客户的需要。
图1 个性化推荐技术原理
个性化推荐的相关模型和算法,就是从上述模拟行为演化而来。一般来说,具体的个性化推荐系统需要开发并维护一个用户模型(user model)或用户记录(user profile)保存用户的偏好,而后结合各种推荐计算模型计算出适于向用户推荐的内容,这些推荐计算模型包括几大类:协同过滤推荐、基于内容的推荐、基于知识的推荐以及混合推荐[3]。这些推荐计算模型最终又通过具体的算法和相关参数实现[4]。推荐计算模型的构成如图2所示。
图2 推荐计算模型
目前,在网络视频领域应用比较多的计算模型是协同过滤和基于内容的推荐[5]。通过个性化推荐,部分视频网站实现了用户点击量5%~20%的提升。
尽管广电运营商的业务同样是以视频服务为主,但在业务模式上,与互联网视频服务存在巨大的差异,重点表现在以下3个方面:
1)内容来源。视频网站运营的视频节目以从版权商购买为主,部分内容为自营节目,所有节目都具备完整的元数据信息;而广电运营商运营的视频节目仍以直播为主,点播为辅,其中直播节目仅有少量的EPG信息。
2)业务实效性。视频网站的业务主要是点播,节目的生命周期非常长;而广电运营商主要的节目内容是以直播、回看的形式提供给用户,且节目内容中受欢迎的新闻、体育赛事、综艺类节目较多,节目的生命周期短。
3)用户构成。视频网站的用户一定是个人用户,所有节目的推荐策略都围绕个人进行;而广电运营商主要的机顶盒用户则是以家庭为单位的用户,对机顶盒的操作包含了整个家庭的行为习惯。
由于以上3个方面的不同,导致了对广电家庭用户进行个性化推荐,不能照搬互联网视频的推荐模式,必须针对广电业务的特殊性,解决好以下3个难点:
1)直播节目元数据关联的问题。对所有直播节目,都应能够关联到详细的元数据信息,否则无法对节目自身属性进行深度关联分析,如分析用户对节目的导演、演员、类型、标签、角色等内容的偏好情况。
2)推荐内容实效性问题[6]。除点播节目外,对直播、回看节目的推荐都需要保证实效性,特别是新闻、体育类节目,在播出当时、当天进行推荐的实效性最高,如果延期较长时间再做推荐,将不再受用户关注。
3)家庭用户兴趣偏好分析和推荐计算模型问题。针对包含了多个成员行为的家庭用户,如果仍按照个人行为来对待分析,其推荐结果将会与实际情况有重大偏差,必须建立更合理的推荐计算模型。
针对上述难点,本文分别提出解决思路,并对其中实效性问题、家庭用户行为分析问题相关的模型和算法给出概要描述。
3.1 直播节目元数据关联问题
目前,广电运营商一般只管理了直播节目的EPG信息,通过短时间描述等方式下发给机顶盒终端显示。国内的EPG提供商供给的EPG信息一般仅含播出时间、节目名称两项内容。如果通过节目名称扩展更丰富的节目描述信息,一种有效的解决途径是:采用视频聚合网站的策略,建设视频聚合系统,通过网络爬虫、与视频网站合作等方式,从互联网多个渠道导入节目内容的描述信息,并通过文本分析、模糊匹配等算法,通过节目名称实现EPG与节目元数据的初步关联,进一步通过人工审核的方式提高匹配精度。
3.2 推荐实效性问题
广电直播、回看节目推荐的实效性问题,与新闻类网站推荐实效性问题类似,内容受用户的关注程度随时间的延长急剧衰减。特别是在多屏竞争的情况下,哪个屏幕能够最快让用户找到喜爱的节目,哪个屏幕就能够吸引更多的用户使用。解决时效性问题的一个有效思路是:在传统的离线计算推荐结果的推荐技术之上,增加适于广电业务的近线、场景感知推荐算法,相关原理见图3。离线计算以天为单位更新用户的兴趣偏好和推荐结果,通过近线、在线推荐算法,将用户兴趣偏好和推荐结果的更新周期提升到分钟甚至秒级。通过离线、近线、在线3种推荐算法结合的模式,离线分析出具有相近口味的用户群体,在线上监控节目实时收视情况,对于受欢迎的节目,则立即向有相似口味的用户群体扩散。
图3 推荐实效性问题解决思路
一种基于用户相似度矩阵实现近线分析的算法简单描述如下:
新物品上线后,通过门户Portal、选单、榜单及非个性化推荐方式被老用户收看后,可以基于系统通过用户协同过滤算法得到的用户相似度矩阵,将新物品推荐给与收看过该物品的用户相似的其他用户[7]。通过这种基于相似群体推荐的方式,可以将新物品的推荐能够快速推荐给大量老用户。
采用用户相似度矩阵的计算方式,通过设置相似度阈值和限定相似用户数量,从相似度矩阵中可以提取用户的相似用户集合。基于相似用户集合进行推荐的方法有以下3种:
1)如用户a的“相似用户集合”为U(a)={U1,U2,…,Ui,…,U30}。则当用户a收看了物品C,将C推荐给集合U(a)中的其他用户。
2)用户b的“相似用户集合”U(b)={U1,U2,…,Ui,…,U30},若U(b)集合中某一个用户Ui=a,若a收看了C,则将C推荐给用户b。
3)递推推荐:若用户a收看了C,用户a在用户b的相似用户集合中,则将C推荐给b,若b在用户c的相似用户集合中,则将C推荐给用户c。系统可设置递推层级,保证新物品能够通过递推方式快速推荐给大量用户,同时不会累积每个递推的相似性降低程度累积过多。如用户a和b的相似度为Sim(a,b), 用户b和c的相似度为Sim(b,c),则用户a,c的相似度降低为Sim(a,b)×Sim(a,c)。
老用户的推荐列表中,若存在多个新物品间,物品的排序应按照用户间的相似度进行排序。如物品C1被用户a看过,被推荐给用户b,b与a间的相似度为Sim(a,b),物品C2被用户c看过,同时也被推荐给用户b,c与b间的相似度为Sim(c,b), 则按照Sim(a,b)和Sim(c,b)的大小对C1、C2进行排序。
3.3 家庭用户行为分析问题
对机顶盒终端家庭用户的行为分析,一直是广电领域内的难题。传统的收视率调查公司如央视索福瑞等,在进行入户调查时同样需要提供技术、管理手段进行家庭成员的区分,如给测量仪的遥控器增加家庭成员角色按键,每次收看电视时,使用人员都需要先选择自己的角色,而后再进行收视。这样的方式对实现个性化推荐,甚至大数据条件下的收视行为调查、分析都是不适用的。过去的研究中,有一类基于“分组行为”(group based)的推荐技术,其应用场景与家庭用户节目推荐类似,但其前提是组内各成员的行为是能够区分的,显然也并不适用。
通过线上的方式解决家庭用户行为分析和推荐的有效思路是:通过大数据分析技术,提取家庭内部各成员的兴趣偏好,并结合时间-兴趣分布模型,对家庭主要成员的收视习惯进行区分,在不同的时间点,利用时间、用户短期在线行为识别出当前收视的成员并依口味进行个性化推荐[8]。
一种能够有效提取家庭内部各成员兴趣度的算法是双聚类算法,该算法最早应用于基因测序领域,用于发现基因序列内部的局部模式[9]。对于家庭用户来说,每个用户的收视偏好都有其固有的特点,这种特点在具体的收视行为中就会显性地表现为局部的收视模式,通过双聚类算法能够有效地发现这种局部模式,并作为单个家庭成员的兴趣点。双聚类算法与传统的行聚类、列聚类的区别如图4所示。
通过对双聚类算法提取的用户兴趣点进行时间分布上的
图4 聚类算法比较
统计,就能够建立一个家庭收视行为的时间-兴趣模型,进而为个性化推荐提供有力的依据。
利用广电家庭用户个性化推荐中的3个难点的解决思路,能够很好地解决通用推荐技术在广电业务落地的问题,能够为广电用户提供更准确、更丰富的推荐内容,并为广电运营商带来更多的收益。
同时,本文仅提出了各难点的解决思路,在实际落地过程中,由于运营商用户规模的庞大,由此带来推荐算法计算规模急剧加大,很多传统的单机算法并不适用于具体的生产环境,需要通过大数据平台、并行计算等技术,对推荐算法实现并行化来解决。诸如此类实际工程应用问题,本文不再讨论,待后续研究中进一步解决。
[1] DUCO D,HERMAN H. Recommender systems for TV[EB/OL].[2014-12-20]. http://aaaipress.org/Papers/Workshops/1998/WS-98-08/WS98-08-008.pdf.
[2] 陈明亮,蔡日梅.电子商务中产品推荐代理对消费者购买决策的影响[J].浙江大学学报:人文社会科学版,2009(3):138-148.
[3] 黎星星,黄小琴,朱庆生,电子商务推荐系统研究[J].计算机工程与科学,2004,26(5):7-10.
[4] 吴丽花,刘鲁,个性化推荐系统用户建模技术综述[J].情报学报,2006,25(1):57-59.
[5] 徐江山,卢增祥,陶疆,基于显性用户特征的数据电视节目推荐系统[J].清华大学学报:自然科学版,2007,47(1):154-156.
[6] 熊馨,王卫平,电子商务个性化产品推荐策略研究[J].科技进步与对策,2005(7):163-165.
[7] 朱岩,林泽楠,电子商务中的个性化推荐方法评述[J].中国软科学,2009(2):183-192.
[8] 肖东辉,基于主题与情感倾向的信息推荐算法研究[D].北京:北京邮电大学,2003.
[9] 路海明,李衍达,基于控制原理和情感计算的信息推荐[J].自动化学报,2002,28(4):481-487.
李培琳,女,工程师,主研广播电视业务系统集成、数据分析与数据挖掘技术;
赵 明,高级工程师,主研广播电视业务系统架构、数据挖掘、系统性能评估技术;
王炳飞,高级工程师,主研广播电视业务数据分析与数据挖掘、用户推荐系统架构技术。
责任编辑:许 盈
Difficulties and Solutions for TV Recommender Systems
LI Peilin1, ZHAO Ming1, WANG Bingfei2
(1.AcademyofBroadcastingScience,SARFT,Beijing100866,China; 2.SumavisionTechnologiesCo.,Ltd.,Beijing100085,China)
With the development of radio & television operators two-way business, quickly finding a favorite program to solve the problem of facing mass content, and personalizing recommendation technology has been concerned and applied in the field of broadcasting. Personalized recommendation technology in the Internet and other fields has been mature applications, and obtained good effect, but if the concrete implementation in radio & television operators in the business and play a good role, still need to solve the difficulties of live broadcast metadata association, the effectiveness of recommendation, and problems such as family user behavior analysis. In this paper, on radio & television home users personalized recommendation existing difficulties are summarized, and brought proposed solutions.
TV recommender systems;user behavior analysis;radio & television operation
2014年国家新闻出版广电总局科研项目“有线电视大数据融合分析平台设计及关键技术研究”
TP301.6;TN943
A
10.16280/j.videoe.2015.18.008
2015-03-06
【本文献信息】李培琳,赵明,王炳飞.广电家庭用户个性化推荐的难点和解决思路[J].电视技术,2015,39(18).