● 王君然
随着智能算法在各个领域的普及,算法对于我们也不再是“黑箱”一般的存在。尽管算法的种类和应用多种多样, 但其基本的技术逻辑是朴素的, 都是通过多维拟合来实现相似性检索。
1.基于特征向量集合的内容推荐机制。互联网时代的一个重要特征就是信息过载,这导致了信息内容的庞杂和冗余,那么这种情况下如何进行信息和需求的分类就显得尤为重要,不断进行层次的精确和细分,能够提升系统的操作效率,也迎合了分众导向。由于计算机的本质只是在进行大量的统计和快速计算,所以就要把信息内容和用户需求量化成可计算的数字,然后通过算法去归类这些数字化的特征并根据特征数字进行分发,即TF-IDF 模型。TF 就是将关键词的次数归一化,计算关键词的词频,一条信息内容的总词频就成为此信息的相关性指标之一。而IDF 指的是词条的权重。由于不同的词条对主题的预测能力和锁定目标的难易程度都不同,所以要将词条的相关性权重引入检测的标准当中。
2.基于用户与产品二元关系的协同过滤机制。协同过滤算法的关键在于通过收集已知数据来预测未知数据,具体又分为三类:基于用户的过滤、基于项目的过滤和基于模型的过滤。但无论是哪种过滤方式,其技术逻辑都是在用户与信息产品之间自动建立了二元的逻辑关联,都充分利用了群体智慧和合作机制,从大量的用户行为数据中挖掘相似性,不断拟合出用户的潜在兴趣。
协同过滤机制的实现要基于一定的前提假设,即兴趣相近的用户可能会对相同的事物感兴趣且用户会对已关注的相似事物感兴趣。这种假设就决定了拟合所需的维度。用户层面的拟合,可以通过皮尔森相关系数和上文提到的余弦相似性来测量,找到兴趣逻辑上与你距离最近的用户。这种测量的数据来源一般是通过用户的评分,包括显性评分和隐形评分。显性评分即用户对于信息实际价值反馈,例如App store 里会让用户对应用的使用感受进行打分;而隐形评分更多地则是通过用户的行为数据来体现,对每一个具体用户进行分布式的计算,以形成相关用户网络。基于用户的协同过滤由于要收集实时的行为数据,一般都要在线过滤,对算法的要求更高,复杂性也更高,但能够给予用户比较新鲜的体验,因为这种过滤选取的是不同用户兴趣的交集,推荐的是用户彼此的补集,能够拓宽用户的视野,不易造成“信息孤岛”。而基于项目的过滤往往是相对比较静态的,因此可以采用离线过滤,耗费成本小,但由于是相同类型内容的推荐,可能会产生“信息茧房”现象。
1.算法推荐仅仅根据用户点击率进行推荐?在算法时代,大部分人感兴趣的东西是高度类似的,如果单单根据用户某一时段的点击率状况作为信息分析的数据库,恐怕只会造成“火爆的产品持续火爆”的情况。按照内容热度来进行内容的分发和排布是各大门户网站早就具备的功能,其运营目的就是实现信息内容的“极化”,高话题度带来高收益。随着算法模型的不断进化,如何运用算法挖掘用户的“长尾需求”以进行资源的合理配置成为趋势。而这种“长尾需求”的挖掘恰恰是反点击率的,系统要持续跟进用户的多维信息和行为并根据算法模型的分发去激发其潜在的需求,需要算法模型在资源数据库中寻找到与用户画像最匹配的内容,并通过持续试探性的推送做出判断,整体数据来看,这种推荐模式或许更有远期优势。另外,现有的算法推荐系统往往是基于移动互联网的,必须关注用户所处的环境特征,用户在不同时间、地点和使用终端“屏”的大小等都影响用户的信息偏好。随着移动互联技术的发展,越来越多的感官体验被嵌入用户的信息选择流程中,丰富着用户的信息接收路径,技术的应用扩展了算法模型的探索能力,因而环境与技术维度的偏好也更加不能被忽视。
2.算法推荐是“信息茧房”的最大凶手?我们经常会认为算法给你推荐的都是你感兴趣的内容,长时间处于程序化和定制化的信息环境中,从而让自己的生活仿佛置于“茧房”之中。然而在大多数情况下,算法并不能完全决定分发的内容,更何况现阶段各类运营商通常都会选择多种算法叠加的形式来为用户进行推荐,很大程度上打破了单一算法导致的信息推送模式固化的壁垒。另外,我们往往认为用户只能够从算法推荐中进行被动选择。这是因为我们一直都给自己规制了两个预设,一是用户的能动性会随着便捷性的上升而降低。而用户的主动性检索行为是认知层面的需求,与我们“刷手机”带来的休闲娱乐的需求是不同的,不会因为一种需求被满足就消解了另一种需求。第二个预设是在这个循环中我们很容易忽视了信息的天然穿透性,并不是所有信息只有通过推荐才能被用户所知,况且算法本身并不是完美和精确的,这种不精确也恰恰成为它的“留白”,提示我们由算法构筑的拟态环境也需要适当地“开天窗”。
3.算法推荐收集的数据越多越好?算法本质上基于的是数学运算,是通过特定输入产生特定输出。但这里仍然有两个问题,一是用户的每一次选择行为究竟是不是对自我个性的描述,二是算法只能获取到公开的和局部的特征数据。为了实现更精准的拟合,算法系统会不断收集用户各个行为维度的数据,然而用它去识别新的样本时,算法会按照原有的训练模型去嵌套新的样本,很有可能产生推荐准确率变低的情况,这就是算法推荐中的过度拟合。在已知数据集中表现很好,但在未知数据集中表现得很差。
算法的过度拟合会让算法的性价比变低,前期的巨大的模型容量与后期甚微的推荐效果之间产生了很大的矛盾。我们运用算法推荐的目的是要预测未知数据,让未知与已知最大程度地贴合才是性价比最高的做法。
1.建立多指标推荐系统以打破用户的媒介依赖效应。媒介依赖理论认为整个传播系统是由媒介、受众和社会三个有机部分共同组成的,三者相互影响。媒介依赖效应的产生就是受众对于媒介技术的使用产生了异化的形态,由此破坏了这一环节的平衡。那么用户真正产生依赖的究竟是内容还是算法推荐的形式?自然是内容。一方面,快感为王的碎片化传播切割了用户的注意力,在信息接受中用户失去了自己的需求重心和情感偏好,更容易对让人产生快感的内容出现依赖感,具体表现在使用时长及使用频次上。另一方面,UGC 模式“传受一体”的信息构建方式会很大程度上瓦解精英话语体系,从而使得受众的批判意识和能力下降,此时媒介对于受众的影响力就会相应地上升,依赖感自然增强。这种基于内容的依赖感会流动到负责分发内容的算法上,用户会更加配合和适应算法推荐的流程和结果,并在这种信息的循环中担任一个推动者的角色。
目前推荐系统的主要推送指标包括用户的社交关系、基本信息以及浏览记录,因此在推荐系统的算法模型中可以加入用户满意度、内容影响力、专业品质、时效性等指标,向用户呈现经过重新加权的复杂结果,推送的结果可能帮助用户发掘更多有价值的信息,走出“信息窄化”的困境。要不断刺激用户的兴趣点,利用好算法推荐对产品的各个角度进行数据埋点,检测用户对内容的“正负反馈”,给予用户正确的价值引导。
2.将“用户认知”引入算法推荐以平衡价值理性与工具理性之间的矛盾。韦伯将理性分为了价值理性和工具理性两个层次,工具理性的本质是现代技术的“计算”功能,具有道德无涉性和结果效用性,算法推荐作为一种工具理性,受到“技术中立”的影响,能够最大限度地刨除掉主观价值对于结果的影响并实现资源最大限度的合理配置,是技术发展的必然趋势。但由于工具理性过分强调“物化”的功能效用,与关注行为本身所代表的价值和意义的价值理性产生了矛盾,任何独立的价值观念都会被效益最大化所消解。尤其是在当下信息内容娱乐化和同质化严重,用户的主体性逐步缺失,越低级趣味的内容越容易获得关注,把用户兴趣作为标准去衡量内容的价值往往很容易形成传播的“负效应”。
当我们了解了算法的基本运行机制,就会降低我们的“技术崇拜”,技术本身没有对错,算法的功效是非常积极主动的,更重要的是注重平衡算法的黑盒推荐与白盒推荐。黑盒推荐就是我们常说的通过机器学习不断迭代训练模型,并不需要关注推荐的具体内容。而白盒推荐是深入被推荐的条目内容之中,依据对条目的先验知识和对用户的理解进行相关匹配的推荐,属于算法与人工的“耦合”。随着数字媒介技术的应用和发展,算法推荐也在不断学习和更新包括内容相关性、实时热度、媒介使用环境和用户协同特征在内的更多维度的用户行为,同时也会加入如过滤噪声、热点惩罚和时间衰减等数据处理策略来优化系统。一个好的算法推荐系统是机器学习和人工管理在多方博弈和协同的基础上产生的,无论是用户还是运营商,探索算法的“黑箱”能让我们更加合理地应用算法,获得信息,实现收益。