文/谢华平
在海量信息充斥的时代,用户对优质、有价值信息的需求日益突显。为提高新媒体平台内容的有效供给,增强媒体平台的影响力,各新媒体平台日益重视优质内容的生产,与此同时,算法推荐也被推崇到前所未有的高度。
新媒体优质内容的判定标准。一是原创程度。一类是在网上搜索资料作为背景补充,或者对已知内容进行分析后,提炼出自己的观点,能界定特别是标题、图片、文章内容的重合度较少的是一类原创;另一类则是通过一套相关版权系统,进行梳理比对,通过技术鉴别全网鉴定谁是首次发布,重复度有多少,以此确定原创程度。二是垂直深度。目前很多内容是通过RSS(简易信息聚合内容包装及投递协议)抓取方式接入的。首先,按照稿源内容深度对其进行优劣评级,按照优劣级别决定内容分发的比例权重。其次,除了明确优劣之外,还有很重要的一点就是能否更精准地分发。如果定义得非常精准,那么推荐文章时就非常精准,就可以把相关内容精准地推送给对它感兴趣的人,这就大大增加了文章的点击率。三是活跃程度。某个账号在一段时间内发文的数量和点击率就是活跃度。但更为精细化的运营,要对比与各个平台上的发文数、发文质量以及发文时间、发文点击率的差距。这种精细化运营活跃度的观念方法,一定要贯穿到新媒体内容的每一个环节。四是受关注度。所谓受关注度,是指某个新媒体的用户订阅数量,以及用户订阅之后,这个号与用户之间的关系有多密切。用户订阅之后,推送新内容时会给用户很明确的提示,以吸引用户的关注。五是作者的知名程度。知名程度是新媒体作者的影响力度。新媒体内容作者可分为三类:名人、达人、普通人。名人是指具备社会知名度的人;达人指在某个领域具备知名度,影响力仅限于专业圈。这两类人在内容的分发上是要加权的。同样质量的文章,要优先分发名人撰写的。同时要特别重视把平台上的普通人培养为达人、名人。六是用户体验。优质的新媒体内容必须有良好的用户体验。用户体验是一个系统工程,需要内容、布局、设计、浏览速度等的综合支撑。要对用户进行精准的数据分析,不断发现问题和解决问题,才能持续提高用户体验。
新媒体优质内容的生产方法。一是充分利用爬虫工具抓取内容材料。通常新媒体内容很大一部分来源于其他媒体门户网站,新媒体内容制作重点是通过爬虫工具来抓取素材,这是新媒体内容制作的基础。二是建立用户平台。让用户在新媒体平台的基础上建立自己的平台,上传自己创作的内容。今日头条在这方面的尝试取得了很大成效。三是大力发展短视频创作。近年来短视频发展迅猛,成为用户最喜欢的内容接收形式,新媒体优质内容要重点开发和生产短视频。抖音支持新媒体短视频创作,并已成为规模较大的新媒体短视频分发平台,因此新媒体内容生产可以借助抖音这一重要渠道。四是补贴优质内容生产。很多新媒体平台为了获得更多优质内容,推出了很多补贴方案。今日头条为了能持续地生产新媒体内容,开展了补贴计划,设立内容创投基金,建立新媒体实验室等,重点为短视频生产提供补贴。
新媒体优质内容推荐算法采用的是一个综合性的评估判断机制。这套机制通过反馈用户的一系列行为来提升改进系统平台的各项性能,提高用户的体验满意度,以此使系统平台形成一个自适应的良性循环生态系统。
优质内容的推荐机制持续自我进化。系统的推荐算法在初期不可能是完美的,有着自身的局限性。因此其需要另外一种分发手段来弥补算法的不足或弊端,这个分发手段就是粉丝分发,也可以叫社交分发。这种分发手段已不仅仅限于推荐算法,它综合了推荐算法、社交互动、搜索抓取和用户问答等多种手段。推荐算法的价值同时还体现在即便是小众人群也可能获得较好的推荐,也能获得对其有价值的信息。例如,一些小众化的影视节目,20世纪六七十年代的胡同照片,大学里的边角资讯,这些原本散落在网络某些角落的信息,被收纳进某个推荐系统,也会根据需要推荐到用户眼前。在内容推荐机制中不仅仅用算法为用户推荐感兴趣的内容,也不是只有算法推荐的内容。总之,内容推荐机制还是要综合运用对数据流量的理解、对平台的运营思维所形成的复合能力,尽管算法很重要,但其也只是其中的一个环节。
推荐算法并不是用户喜欢什么就推什么。传播学里面有个回音室效应概念,是指在某一个较为封闭的场景里,一些相似或相近的意见、观点不断重复, 甚至以夸张的或扭曲的方式反复、持续地进行,令在这个较为封闭环境中的人们误以为这些扭曲、夸张的内容就是全部的事实。现在内容推荐机制会尽可能地降低这种回音室效应,尽量避免用户喜欢什么就给他推荐什么。正如社会心理学上的“贝勃定律”,从心理感受的角度来说,对于相同的两次刺激,通常第二次的刺激反应会小于第一次的刺激反应。实际上,推荐算法中采用了一种打散用户兴趣偏好的机制,不向用户连续推荐相似度极高的内容。再者,一个人的兴趣爱好不可能总是不变。因此,从满足用户需求的方面来说,推荐系统也不允许一直不变地推送雷同内容。
推荐算法自身具有探索能力。推荐算法不是机械的、简单的算术,它有不断学习的能力,能够持续性地迭代,进行自适应性的进化。推荐算法里的协同推荐,是指除新媒体内容本身之外,还考虑用户的推荐,通过分析一些用户之间的属性、行为的相关性、相似性,不断拓展系统推荐的学习能力。例如,一些用户喜欢科技、财经、体育,其中一些用户也喜欢健康内容,那么推荐算法就会尝试将健康内容推送给以上所有相关用户。因为在推荐系统看来,用户A和用户B是相似的人。
推荐算法更容易突破固化的圈层。朋友圈具有较大的“回音壁”效应,因为朋友圈里的有关信息,完全由圈内用户定制,由于内容是圈内的用户按照自己的喜好筛选出来的,所以在朋友圈里和自己相左的观点和意见就非常少,这就很可能形成这一类人的偏见。而算法推荐机制可以推荐多种观点。
今日头条对推荐系统的运用包括三个维度,即推荐内容的分析、网络用户的标签设置与评估、新媒体内容的安全防范机制等。
今日头条推荐系统的内容要素特征。一是标签内容之间的相关性,用于估测新媒体内容的属性能否和用户特征匹配。一些内容要素,如关键词、主题等可以直接匹配。模型中还有一些隐性的匹配,例如,可以测算用户向量与内容的距离。二是其环境特征,包括时间、地点等。这些既是相关性特征,也能以此构建一些匹配特征。三是内容要素的热度。在今日头条推荐系统中,新媒体内容的热度信息在用户初始启动的时候影响非常明显,其中包括主题词、关键词、来源、分类等。四是内容要素的协同性,这种协同性可以快速解决在某些程度上信息越推越窄的问题。用户标签具有的协同性并不是分析用户活动的过往,而是分析用户之间活动的相似性,如分析内容主题词的相似性、兴趣的相似性,或者向量的相似性等,通过这些协同性分析来扩展推荐系统的探索能力。
新媒体推荐内容的分析。今日头条经常遇到的问题就是为什么系统总是重复推荐内容。这个问题的解决难点在于,人们对重复的含义理解是不一致的。要解决这个问题,需根据相似文章的特征,如主题、行文内容等进行分析。新媒体内容的分析包括文本分析、图片分析和视频分析。在今日头条推荐系统中,文本分析可用于用户的兴趣建模。如果缺少文本内容,自然无法具体地设置用户兴趣标签。例如,推荐系统通过分析用户,读取并标注了互联网标签的文章内容,就能确定用户具有了互联网标签。分析文本的内容可以提高系统的推荐效率,例如通过分析抖音的有关内容就可以推送给关注抖音的用户,这是应用了用户标签的文本特征匹配机制。如果在主频道上推荐的效果不甚理想,出现了推荐窄化的现象,系统可以在具体的频道中推荐给用户阅读,这样系统的推荐效果会变得更好。在子频道上探索空间比较小,这样更容易满足用户的需求。
用户标签的设置与评估。今日头条推荐系统把用户的性别、年龄、籍贯等基本信息,用户的兴趣爱好,以及用户经常搜索的关键词等标注为用户标签。用户的性别信息可以根据第三方社交账号登录信息获得,常驻地可以从用户的授权访问位置信息获得。在此基础上结合其他信息,就能估测用户的活动地点等。这些标签就非常有利于新媒体内容的推荐。
首先,建立评估体系要兼顾短期指标与长期指标。很多策略在短期内用户可能觉得新鲜,可是从长期来看实质上并没有明显的助益。其次,推荐系统的评估体系还要兼顾用户指标与生态指标。既要让内容创作者获得有价值的系统推荐的内容,有尊严地进行内容创作,也要有义务尽可能地满足用户的实际需求,这两者要兼顾平衡。此外,一些广告主的利益也得要考虑在其中,这就形成了多方博弈及兼顾多方的平衡。一个完备的体系需要多个指标综合衡量,仅看点击率、停留时长是远远不够的,在实际评估过程中要参考多维评估指标。很多公司在这方面做得不够好,这并不是相关工程师们的能力不够,而是评估模型需要一个功能强大的实验性平台,通过便捷的平台分析工具,就可以使推荐系统智能化、自动化地分析新媒体内容指标体系的置信度。当同时在线的实验很多的时候,实验平台就可以自动分配数据流量,不需要人工沟通,而且实验结束后数据流量会立即回收,这样就加快了算法的迭代效应,提高了推荐系统的管理效率,降低了推荐系统的分析成本,使得整个推荐系统的算法优化工作迅速流畅地运行。
新媒体内容的安全防范机制。今日头条作为行业领导者之一,越来越重视自身的社会责任。他们尽力优化推荐系统,尽可能地消除不当内容的推荐与分发。今日头条的新媒体内容一方面来源于专业生产内容(PGC)平台,依托它具有了成熟内容生产能力;另一方面来源于微头条、用户问答、内容评论等用户提供内容。这两部分的内容推荐与分发都要经过推荐系统的内容审核机制统一处理。如专业生产内容平台生产的数量相对较少,就会直接进入风险审核处理程序,审核的结果若没有问题,推荐系统则会在大范围内予以推荐及分发。用户生产内容(UGC)会经过风险模型的内容过滤,存在问题的就会进入二次风险审核。只有审核结果确认通过后,该内容才会进入推荐系统的推荐与分发阶段。如果这些新媒体内容得到限定量以上的负面评论或者遭到举报反馈,就会对该内容重新审核,问题严重者则被下架。今日头条在风险内容识别技术方面建立了鉴黄模型、低俗模型和谩骂模型。这三种模型利用的是深度学习算法进行持续训练,建立的样本数据库非常大,可以对图片和文本同时进行分析。这些模型比较注重召回率,准确率方面相对来说可以降低一些。鉴黄模型的召回率可达99%,低俗模型召回率高达90%,准确率可超80%。谩骂模型召回率也很高,可达95%,准确率可超80%。