刘旋
今日头条是北京字节跳动科技有限公司开发的一款基于数据挖掘的推荐引擎产品,为用户推荐信息,提供连接人与信息的服务的产品。公司于2012年成立,今日头条作为一个旗舰产品上线,在这6年快速的发展过程中,致力于通过人工智能的研究,开发一系列产品应用于各种各样的场景。
今日头条原来的口号叫“你关心的才是头条”,现在已经不能完全代表其所有的产品理念。今年公司做了品牌的升级(见图1),把“字节跳动”作为公司整体品牌,现在的口号是“信息创造价值”,希望通过技术手段把更好的信息带给用户。
图1 从“今日头条”到“字节跳动”
我们还是喜欢用“头条”来表达字节跳动公司,它不是大家认为的普通意义上的一款产品,它的背后是一家人工智能公司。字节跳动公司在人员储备上,包括运算的硬件设施上,已经超过了巨头的互联网公司。公司超过1000名工程师,每天200亿条训练样本量,40000台服务器,每日处理数据7.8PB,用户请求60亿次。人工智能在庞大的训练样本下,通过数据积累最终实现数据进化,完成精准推送。
2016年,公司成立了今日头条人工智能实验室,依托今日头条的海量数据,专注于人工智能领域的前沿技术研究,并将研究成果应用于今日头条的产品中。AI作为字节跳动人工智能技术的核心技术,应用于内容的创作、分发、互动、管理,致力于推动人工智能技术研究,将这些先进的技术和产品相融合,让算法更好地理解文字、图片、视频、环境场景和用户兴趣,从而促进人类信息与知识交流的效率和深度。同时,实验室也将针对人工智能相关领域内长期性和开放性问题进行研究,帮助公司实现对未来发展的构想。
今日头条人工智能实验室的主要研究领域有:1.机器学习:是人工智能的核心,是所有技术的基础。2.自然语言与处理:应用到对于算法的理解,对于信息的处理以及对于信息与用户之间的反馈。3.计算机视觉:计算机识别图像,包括提炼出来的应用,比如说应用到抖音里面,人脸识别、对肢体关键节点的识别等等。4.安全与隐私:每一个互联网公司都注重信息的安全性与用户的隐私性。
人工智能实验室有四个核心的竞争力,一是拥有海量数据及更为完善的训练样本。今日头条6年当中积累了大量的序列数据样本,现在每天信息流展示的文章/视频超过100亿条,每天处理的数据量超过7.8PB;头条系列产品每天产生60亿次的服务器请求数量。这些数据可用于训练算法模型,建立统一的数据仓库,以持续训练完善人工智能。二是在人、数据、算法和内容之间形成完整的反馈闭环,并应用于产品的每一个环节中。我们有大量的内容生产者,同时基于算法的推荐和用户产生的关联,整个头条系产品完成了闭环的数据反馈。三是丰富多样的实际应用场景。头条系产品在大家印象当中是以图片、文字形态的资讯产品为主的今日头条APP,实际上头条系覆盖了很多内容形态,比如悟空问答,一个知识交互型的社交型产品,覆盖的是中长端的内容。另外我们自主开发或在海外通过收购行为,囊括了覆盖不同人群、创作者端的视频类产品,有UGC,也有PGC。在不同的产品之间,我们也丰富了它的形态,并且收集到更多的作者端和用户端对于这些数据的反馈。战略性的产品矩阵使头条拥有大量面向用户的人工智能应用场景。四是汇聚了国内外顶级的优秀人才,比如全球TOP200的人工智能科学家,我们公司就有2位。今日头条人工智能实验室不仅资助优秀的研究者,也与高校和学术界保持合作,促进人工智能的不断进步。
图2 今日头条系产品
我们把人工智能应用到更多的领域里。图2是今日头条国内和海外所有产品的布局。除了今日头条之外,在国内产品里面,抖音、火山小视频、西瓜视频,都是在视频领域里做得比较好的几个主力产品,他们的用户人群和定位是不一样的。比如抖音在公司内部叫小视频产品,而不是短视频,因为它比我们所认为的两三分钟的短视频的形态再短一些,十几秒,最长不会超过1分钟,它更偏社交属性,UGC的内容产生模式。火山小视频也是十几秒,但是它的覆盖人群和抖音有所不同,下沉到三四线城市,囊括了更多的普通内容生产者。西瓜视频是基于UGC和PGC,专业的内容生产团队可以获得更大的曝光和流量的支持。在垂直领域我们也有相应的产品,悟空问答是在知识型的社交领域里;懂车帝是基于汽车领域的资讯分发平台;激萌是摄像产品,里面诸多智能应用使拍摄方式有多种玩法,并且降低内容创作的门槛;图虫是摄影爱好者交互的社区。我们把人工智能算法应用到所有的产品中去。相应的,我们在国外也有类似的海外版本。
我们还将人工智能应用到公益领域。2016年我们推出“头条寻人”项目,它的基本逻辑是根据走失地点+走失时间,估算一个位移半径,然后精准推送给这样的半径范围内头条系产品的用户。截至2018年7月,找寻到6000多位走失人群,实际上发布了40000多条推送信息,虽然成功率不到15%,但毕竟是利用科技的手段向前迈进了一步。这样的信息技术,也会衍生出其他领域的相关项目,基于这一原理,我们又从头条寻人的项目中衍生出追逃、追老赖、寻找英烈后人等几个项目,也与政府部门、主流媒体达成深度合作。
人工智能也服务于广电媒体,今日头条系以及字节跳动旗下所有的产品,在内容的生产、分发、台网联动方面为广电的媒体融合助力。
在今日头条和西瓜视频平台上,广电媒体视频内容日均发文量、日均播放量都有明显的增长,并且广电内容的播放量在整个PGC内容播放量大盘中的占比也是稳步提升。民生、时政、综艺,这三块内容是广电内容生产品类里最大的几部分。在抽样的一千条内容里,民生新闻占到40%的比例,它对整个大盘的贡献超过50%,用户对于民生新闻的需求量是非常大的。
如果把内容的传播分成内容生产、分发、消费三个环节,前文描述的是今日头条平台上基于消费端的情况,就是用户和内容之间的关联。而对于内容的生产端,传统媒体生产机构每天都有大量的时政、社会、民生等内容产生,这样一个信息爆发的时代,这些内容如何更高效地并且更有针对性地传递到用户手中,除了传统媒体渠道,像微博微信,包括广电媒体自己的新媒体平台之外,在新的传播格局中从被动搜索到主动关注,如果不利用智能推荐系统,很多内容会被淹没掉,影响力将大打折扣。
今日头条的智能推荐原理抽象来说可以分成三个部分,第一部分是用户特征,用户端在平台上产生的各种各样的流量行为、互动行为,包括转发、停留时长等等,所有的数据被记录下来,大数据给用户打上标签,形成用户画像,这些数据可以累计到作者端的头条号平台上,为创作者所共享。第二部分是文章特征,来自于内容生产方,他的每一篇文章、每一个视频里面的信息也是基于今日头条人工智能实验室,进行语义的分析、视角的处理,把内容进行标签化的处理。第三部分是环境特征,比如我们现在在镇江,基于这样的一个地理位置,或者基于这样的一个时段,我们可以了解到在会议室内的是来自于传统媒体的从业人员,那么他接收到的信息会偏向于传媒或者视频这样的领域。我们会把所有的维度进行复杂的加权、信息的解读,并且进行信息的匹配和分发。
以上是从用户与平台互动层面来谈的,接下来我们从创作层面来认识智能推荐引擎。
目前,头条号每天会产生60万条内容。对于如此庞大的信息体量,除了用人工智能技术进行审核、过滤,我们还组建了近1万人的审核团队,对每个内容通过机器加人工的方式进行审核。所有创作者发布的内容都会先经过机器审核,然后交由人工审核,最后放出,这个时间一般在3-5分钟,最多不超过24小时。在机器识别环节,机器会根据文本内容,识别可疑的虚假、低质、敏感、低俗内容,然后再交由人工审核最终判定,拦截这些内容。通过机器、人工结合的方式隔离低俗虚假内容,将更优质的、更适合用户的内容推荐出去。
图3是今日头条反谣言信息处理机制的流程图。如果一些谣言信息经过机器和人工的方式还是不能甄别出来,可能因为它模棱两可,或者在特殊领域里面具有极高的专业性,这样的内容通过用户举报或者跟一些权威机构合作,甄别出来之后,机器再学习,加入到谣言库里面。假如这条内容已被某些用户看到,我们会把正确的信息向这些有信息偏差的用户重新推荐一遍,帮其获得正确的或权威的信息。人工智能的应用,使得审核效率提升;在把控内容安全性的同时,智能推荐的效率得到充分发挥,从而提升了内容的分发效果。
图3 今日头条反谣言信息系统流程图
广电系媒体账号在头条产品中,除了一些头部账号、大的媒体账号以及一些头部IP内容之外,中长尾的内容也可以获得非常好的传播指数,包括一些三四线的省台,甚至一些地市台的频道或者栏目。中长尾内容在平台上获得大的流量,还是基于头条系产品算法的逻辑,或者说信息流产品的机制决定了长尾节目、民生节目更容易受关注。首先,用户浏览非常重视标题,民生新闻有天然的优势;另外,用户的浏览时间足够长,浏览行为节奏足够快,这决定了长尾节目的生存空间也足够好。不仅头条是这样,YouTube也是这样一个信息流的方式,这样的方式让用户端较好地获取这样的信息。
很多广电媒体会有这样的疑惑,广电媒体每天生产大量内容,但是对于新的媒体平台的运营规则不是非常了解,人力不足的情况下,如何在一个新的平台上把自己的内容价值发挥到最大?今日头条和西瓜视频为广电媒体推出一项服务,通过我们的平台来找第三方代理公司,帮助媒体机构运营官方账号,提升内容运营的效果。在运作模式上面,今日头条、西瓜视频只是提供一个平台,提供运营指导和流量扶持,在流量分成上面不会分得利益,而是将更多的流量分成和收益反哺给媒体机构。(见下页图4)经过代理的服务,粉丝数和播放量都有较大的增长。
图4 头条+西瓜的服务形式
人工智能除了帮助广电媒体的内容得到大量的分发之外,在内容生产方面也提供相应的帮助。
双标题。我们在两年前推出了双标题功能,即作者可以自己起一个标题,机器也会生产出另外一个标题,这两个标题通过机器的算法推荐同时分发,作者可以在后台看到哪一个标题的效果更好,覆盖的人群更大。数据显示,机器创造的标题所推荐的效果以及效率是人工写的标题的3倍。
打击标题党。提到标题,人们会想到一些吸引眼球的、带有标题党性质的标题,实际上头条平台也在打压标题党。后台如果命中到标题党的词库,后台发布的时候就会被提示,这个内容会被取消发布。通过机器一方面可以促进分发效率,另一方面识别不合理、不合规的内容,进行双向的协调,最终使得内容更好地展现在用户面前。
智能选封面。在大量的信息流当中,如何延长用户时长或者点击与否、分享与否、评论与否,很大程度上取决于封面的选择。机器会选择几个不同的视频封面,当作者上传一个视频后,机器通过一定的算法自动帮作者选取几个画面作为封面备选,并且预估这条视频的点击率。
机器人写稿。人工智能在机器人写稿等方面也有探索,基本逻辑就是通过机器的学习,掌握内容的普遍规律,再根据实际获得的信息做一个非常快速的整理,之后形成一篇比较成形的文章。在文章的措辞、逻辑上,包括语言的舒适度上,机器人写稿还需要做更高的学习提升。
媒体实验室。我们也为内容生产的创作者提供了一个工具,叫媒体实验室。这个平台自两年前推出后,被很多的自媒体应用,许多主流媒体甚至在这个平台上实现了记者和编辑一站式背景资料的搜集、热点追踪等服务。在产品端我们提供了热词分析、背景资料、用户画像、研究报告或者新闻素材,可以为媒体的编辑选题提供帮助。每一个热词所关联到的词,都会在产品后台显示,这个平台也是免费向媒体合作方开放的。
广电媒体的融合实际上是台网联动的过程,既需要在传统渠道将内容进行传输之外,也需要在新媒体端获得更多的用户和粉丝。下面我们通过头条系产品中最适合于做台网联动的产品——抖音,给大家做一个案例的分享,展示我们如何助力台网联动。
抖音是一个旨在帮助用户表达自我、记录美好生活的短视频分享平台。抖音的品类包罗万象,通过人工智能技术为用户创造丰富多样的玩法,让用户轻松快速产出优质短视频,适用于很多普通的创作者。
抖音在今年春节后有爆发式的增长,现在日活跃用户超过1.5亿,月活跃用户超过3亿;日均视频播放量超过200亿;连续数月多次登顶国内App Store应用市场第1名。抖音海外版已经覆盖全球超过150个国家和地区,月活跃用户超过5亿,荣登2018年1季度全球APP下载量榜首。
抖音用户群体正在发生变化,2017年3月以18-24岁用户为主,2018年6月以24-30岁用户为主。抖音的用户画像是偏年轻、一二线城市、高学历,现在正在向三线以下城市扩展。抖音的资源增长和用户变化,得益于其品牌升级以及内容泛化。从用户人群上来看,抖音刚推出来的时候偏向于年轻用户,今年以来,抖音用户圈层发生了延展,许多政务类、主流媒体类账号纷纷入驻,通过抖音平台为他们的内容传播服务。
以前抖音的玩法比较单一,大家看到比较多的内容是滤镜、道具这样的剪切,或者是跳舞、模仿等内容。今年以来,抖音内容逐渐多元化,有知识型、亲子类、模仿类、小剧情、音乐类,等等。政务号和媒体号加入以后,又丰富了整个平台的内容生态。(见下页图5)
图5 抖音的多元化内容
抖音在短视频领域中的优势,来自于人工智能实验室一些比较先进的技术,应用到抖音的创作者端,降低创作者的门槛,同时提高内容的可看性、有趣性和多元化。
动态人脸识别技术。比如动态实时染发技术,是业内最高精度,可以契合到每一根发丝;海量贴纸、滤镜,使得创作更多样。
体感识别技术。比如体感游戏机,在一些大型的综艺娱乐节目中也被广泛利用,比如江苏卫视跨年晚会将这个技术作为其中一个环节来应用。体感识别技术使得短视频创作和分享游戏化、互动化。
语音识别技术。比如“视频黑科技,明星喊出你的名字”,通过机器对明星声音的学习和捕捉,模仿创造出明星发音的音调。
人工智能算法分发技术。用户感兴趣的短视频会出现在其抖音主页上,机器通过理解人的特征与信息的特征,将两者进行匹配,实现个性化精准推荐。
今年抖音在整个品牌计划里面做了大量的正能量计划:
Dou Travel城市文化宣传计划。抖音联动各城市的政府、旅游局,共同挖掘城市衣食住行的文化特色,打造城市文化新名片,并依托抖音全球化平台将其推向世界。比如深圳特区成立40周年,通过抖音的方式集齐新深圳人在深圳这40年的生活打拼,点滴的生活记录,积累出来很多感人的故事,并且把深圳这样的具有示范效应的地区,打造成一个网红城市。
传统文化千人传承计划。抖音积极践行传统文化的传承与传播的社会责任,与博物馆、老字号、非遗从业者开展一系列联合宣推计划,利用新科技手段令传统文化焕发新春。比如利用AI技术进行背景虚拟抠像,网友在家里或者在一个封闭的环境内,就可以跟博物馆等大的场景做一个结合,足不出户看文物。再如,抖音和几大博物馆一起做了非常有创意的内容联动——H5《第一届文物戏精大会》,迅速成为爆款,在全国掀起博物热。技术和传统文化做了很好的结合,让更多的年轻用户能够理解和传承传统文化。
抖音正能量计划。抖音精选站内伟大建设、感人善举的正能量视频,在抖音开屏及户外媒体进行公益投放,大面积推广,引导更多的用户参与制作精良的正能量内容。抖音还发起正能量站内挑战,从小的切点切入,用小爱体现大爱。比如根据中央网信办要求,2018年春节期间推出“牵妈妈的手”挑战,鼓励用户上传春节回家期间和妈妈及家人的暖心瞬间,回忆起乡愁和家的温暖。再如2018年世界戏剧日,抖音联合共青团中央,共同发起#我要笑出“国粹范”#活动,让用户模仿京剧里面的笑,什么场景怎么去笑,这种传统文化传承方面的创意活动,比较受年轻用户欢迎,并且被他们分享和传播。
青少年公益“向日葵计划”。抖音的一些用户是未成年人,抖音“向日葵计划”将在审核、产品、内容等多个层面推出10项措施,助力未成年人的健康成长。这是国内短视频平台推出的首个专注于未成年人健康成长的系统保护计划。
抖音音乐人计划。很多BGM是被抖音带火的,音乐人看到抖音能给他们新歌的创作、发行或者圈粉带来更大的收益,新媒体社交平台给音乐人带来另外一条思路。
抖音政务媒体号计划。自2018年4月26日以来,政务号、媒体号纷纷入驻抖音。截至2018年6月30日,政务和主流媒体账号入驻超过800个,发布视频超过2万条,总播放量超过150亿。政务号推出的一些正能量视频,在拍摄创意包括剪辑手法上并不是非常精细,但是因为传递的信息足够吸引人,在抖音上获得非常大的流量。广电媒体的节目IP、主持人也可以利用这个平台,通过平台较强的社交属性,获得跟粉丝的黏合,通过新的社交媒体渠道进行内容的融合或者是节目的创新。