张曦++闫军民
摘 要:随着广电运营商双向业务的不断发展,为解决用户无法从海量内容中快速找到喜爱节目的问题,协同过滤个性化推荐技术在广电领域得到了关注和应用。通过一个改进的K-means聚类算法对相似用户(簇)有效聚类,在为用户准确快速智能推荐感兴趣的电视节目取得了良好的效果。
关键词:个性化推荐;协同过滤;聚类;广电运营
1 背景
近年来,广电运营在高清、互动电视平台的建设方面取得了长足的进步,包括点播、时移、回看、资讯信息在内的大量交互业务在各地纷纷上马,大大改善了各地电视用户的收视体验,同时也为运营商平台化进行了深入的探索和验证。个性化推荐技术是解决上述问题的重点方案之一,通过主动把热点内容、最新内容或者用户喜好的内容推送给用户,用户无需进行繁琐的内容浏览,就能快速定位到自己感兴趣的内容,一方面提升了用户体验,另一方面也大大增加了运营商投资购入的节目内容的长尾效应[1]。本文针对广电家庭用户个性化推荐技术的难点,重点讨论利用协同过滤推荐技术与注重速度和精度的智能聚类算法来为用户精准推荐和推送其感兴趣的节目内容。
2 协同过滤推荐技术
2.1 协同过滤算法分类
随着协同过滤技术在电子商务领域的广泛应用,协同过滤算法主要分为基于内存、基于知识、基于模型和混合式推荐等,其中各种算法各有千秋,只能根据自身的实际情况选择适合自身的算法。
2.2 聚类技术
一种基于用户相似度矩阵实现近线分析的算法简单描述为新物品上线后,通过门户Portal、选单、榜单及非个性化推荐方式被老用户收看后,可以基于系统通过用户协同过滤算法得到的用户相似度矩阵,将新物品推荐给与收看过该物品的用户相似的其他用户[3]。通过这种基于相似群体(簇)推荐的方式,可以将新物品的推荐能够快速推荐给大量老用户。
而聚类技术就是将有共同特性的项目或事物聚集在一起,在该模型中通过将有共同兴趣爱好的用户聚集在一起,认为该聚集簇中的目标用户与邻居用户有相同的产品风格喜好,从而就可以向目标用户推荐邻居用户喜好的商品,这种模型推荐算法不仅可以推荐用户所喜欢已知种类的商品,还可以向用户推荐用户可能会喜欢的新鲜商品。
3 k-means聚类算法
3.1 K-means聚类算法原理
K-means的算法原理是:首先从数据集(包含N个数据样本点)中随机选择k个数据样本点作为初始聚类中心,对于剩余的(N-k)个其他数据样本点,分别将他们分配给距离那k个中心簇最近(相似度最大)的簇中,然后再分别重新计算他们的聚类中心(即该簇中所有数据样本点的均值),不断重复这一过程,直到聚类中心不再改变,标准测度函数开始收敛为止。否则继续迭代执行聚类,其算法描述如下:
输入:数据集(包含N个数据样本点),初始k个数据簇中心。
输出:满足终止迭代条件的k个数据簇。
3.2 基于k-means算法的用户聚类
现实生活中,相似的用户有共同的用户特征、喜好特征、行为特征,而非相似用户的用户特征、喜好特征、行为特征等也都大相径庭。具体来讲,从用户特征可以从这几个大的方面来进行区分,比如说,性别,年龄,职业,学历等多方面,一般来说,不同学历的人,由于他们对知识基础的积累层次不一,导致他们选择不同的分别适合他们自己的電视节目对象,相似的用户群体他们的职业、年龄或者其他方面具有一定的相似性,导致他们选择了共同的电视节目。从喜好特征来讲,有相同爱好的用户,自然他们在选择电视节目对象时,很有可能选择同一个对象。从行为特征来讲,两个有相似行为特征的用户很有可能选择的电视节目对象也是同一类,所以在本文中,我们认为相似的用户在选择电视节目对象时也具有一定的相似性,所以我们根据用户订阅过的电视节目对象便可以将相似的用户聚类。
4 改进的K-means算法
4.1 改进策略
(1)计算出数据集中N个样本点两两之间的距离(本文衡量的是相似度)dis(),找到满足的两个样本点d1和d2,并将它们设为初始两个聚类中心。
(2)在剩余的(N-2)个样本点中,选取满足
的样本点d3作为第三个初始聚类中心样本点,其中,di是除去数据集中样本点d1、d2、d3的任意一个样本点。
(3)依此类推,直到剩余的(N-k+1)个样本点中,选取满足
的样本点dk作为第k个初始聚类中心样本点,其中,di是除去数据集中样本点d1,d2,…dk的任意一个样本点。
(4)对于数据集中剩余的(N-k)个样本点,计算每个样本点与上面求得的k个聚类中心样本点之间的距离,并将这些样本点归入距离其最近的聚类中心簇中。
(5)重新计算k个数据簇的聚类中心值和标准测度函数,中心值为该簇类所有样本点的平均值,其计算公式为,标准测度函数为,其中,nj为第j类中的数据样本点个数,为聚类子类Dj的数据样本点。;
(6)如果满足(表示子类簇中样本点的误差平方和已经收敛)或达到了最大的迭代次数,表示子类样本成员不再发生变化,就可以结束聚类。否则,返回4)步骤继续迭代,其中,是一个任意小的数,E1与E2代表前后两次迭代的测度函数值。
4.2 相似特征用户聚类算法流程
通过建立的矩阵模型对相似特征用户进行聚类,首先,根据用户与电视节目资源对象标签之间的订阅关系来建立矩阵模型,根据这个矩阵模型可以获得所有的数据集样本点,矩阵的每行数据代表一个样本点,且每个样本点都是高维的,然后就是对该海量数据集应用k-means聚类算法来对相似用户(簇)聚类,然而由于K-means算法对初始聚类中心点比较挑剔,为了合理高效的得到有效的聚类中心点,先采取简单随机抽样算法,在抽样的数据样本集中应用改进的最大距离法对初始聚类中心得到优化,同时,将K-means算法中的距离量度换为本文改进的相似度计量方式,最后根据抽样样本输出的K个聚类中心,在总数据集上应用K-means算法,将相似特征用户进行聚类。
5 应用和展望
利用改进的K-means聚类算法对相似用户(簇)聚类,采取协同过滤技术为广电家庭用户从海量内容中快速找到喜爱节目提供了一个切实有效的解决方案,能够很好地解决通用个性化推荐技术在广电业务落地的问题,能够为广电用户迅速提供准确和丰富的推荐内容,并为广电运营商带来更多的收益。同时,本文仅提出一种解决思路,在实际落地过程中,由于运营商用户规模的庞大,由此带来推荐算法计算规模急剧加大,很多传统的单机算法并不适用于具体的生产环境, 需要通过大数据平台、并行计算等技术,对推荐算法实现并行化来解决。