短视频合成的算法逻辑与风险问题

2021-09-18 07:20秦艳
新媒体研究 2021年15期
关键词:短视频算法

关键词 短视频;算法;生成对抗网络;透明性

中图分类号 G2 文献标识码 A 文章编号 2096-0360(2021)15-0054-03

社交媒体时代,短视频因其传播速度快、内容轻量化等特点,深度切合当前用户碎片化的使用场景,已成为人们获取新闻资讯的一种主要形态[1]125。中国网络视听节目服务协会发布的《2020中国网络视听发展研究报告》数据显示,截至2020年6月,短视频用户规模已达8.18亿,从人均使用时长看,短视频应用人均单日达110分钟,超过即时通信,成为第一大互联网应用[ 2 ]。

庞大的用户群体与有限的生产能力之间的矛盾催生算法在短视频合成与推荐中的应用。路透社新闻研究院报告显示,72%的媒体表示会应用人工智能处理过载信息以实现新闻和视频的自动化合成与个性化推荐[3],算法在短视频的合成与推送的过程中扮演着越来越重要的角色。通过以算法为基础将数据公式化和结构化的研究工具使得原本在理论描述中的传播规律和效果评价得以量化和图示化,以实现短视频的智能化合成[4]。

算法作为一种基于数据量化的自动化工具,应用于叙事性较强的短视频的合成,尤其是以客观真实为原则的新闻领域,往往伴随着是否具备专业性的争议。如何将专业知识、技能合理量化,如何真正发挥好“把关人”的作用,如何将新闻的专业性糅合进算法代码的自动化流程中是算法应用过程中面临的关键问题。本文将结合国内外案例说明算法应用于短视频合成中的算法逻辑,并分析算法应用中可能产生的技术风险问题。

1 短视频合成的算法逻辑

算法是解题方案的准确而完整的描述,是一系列解决问题的清晰指令,能对一定规范的输入在有限时间内获得所要求的输出[5]。算法作为一种“工具”“中介”和“代理者”,能够利用数据在较短的时间内“独立”完成大规模的信息处理。

短视频合成的算法逻辑是以用户需求为中心,由数据和算法驱动,利用不同素材的创意组合,自动合成新闻短视频,并能根据场景变化实时优化和调整,实现“千人千面”的快速传播[6]。相比于艺术类影片,在新闻报道中短视频以展现信息为主要目的,对情节设计要求较低。而人工智能目前也无法做到动用蒙太奇叙事手法制作电影电视剧等长视频,但对诸如会议视频报道等模式相对固定的新闻视频,算法可以在短时间内完成高质量制作[7]。因此,算法合成短视频在新闻领域有更加广泛的发展前景。算法合成短视频的技术逻辑从整体上来看基本可以理解为内容识别与素材聚合两大步。

识别检索能力是算法最明显的优势,它极大简化了搜集并理解视频素材内容的步骤。内容识别依托于自然语言处理技术(Natural Language Processing)与内容识别技术,包括人脸识别、语音识别、物体/场景识别等实现关键词提取、内容智能分析、智能拆条、智能素材检索与聚合等。其中,关键词提取与片段检索的准确度是决定合成效果的关键[1]127。结合不同的短视频合成需求,内容识别也会有不同的标准,如IBM研发的智能化剪辑系统AI Vision,在合成2016年惊悚电影《Morgan》预告片与2017年科技类综艺节目《我是未来》宣传片时就利用了对观众情绪的识别以寻找最“精彩”的片段。媒體大脑在进行两会报道时利用了“掌声识别”与“笑声识别”判断所筛选句子的受欢迎程度,以挑选出最佳素材片段,实现对“金句”的内容合成。在算法检索力的智能辅助下,短视频的合成效率大大提升,百度研究院研发的AI自动合成视频工具Vidpress完成从用户输入到成品输出的整套流程仅需9分钟[ 8 ],2019年国庆节阅兵期间,央视利用AI剪辑发布方队游行视频,平均耗时仅90秒[9]。

算法自动化聚合素材通常借助于算法叙事模板完成。算法本身没有逻辑,因此无法独立的将识别检索到的内容按照正常的叙事逻辑聚合,叙事模板则起到了为算法聚合素材提供叙事逻辑链的作用。塔奇曼在《做新闻》中表示,任何一种突发性新闻都可以被称作“火警新闻”(fire story),因为报道这种新闻的技巧都是相似的[10]。这些新闻技巧里的相似性就是新闻的叙事逻辑。利用算法将转场、开头、结尾等变动不大的部分预设好,并将模板空缺位置以关键词标签标记好,算法通过将内容识别标签与模板预设标签相匹配,即可完成自动化的短视频合成。当前,国内外多家机构已布局短视频的模板化生产,新华智云媒体大脑单独开辟了大“模”王板块征集各类优秀模板;号称“世界上最简单的视频制作工具”的Biteable网站分几十类推出了上百种模板;Animoto,Animaker,Moovly等专业视频模板网站层出不穷。

算法合成短视频不仅局限于对已有素材的物理剪接,还可以利用生成对抗网络(Generative Adversarial Network)学习视频内容进一步合成视频。物理剪接的视频通常利用可见转场(如淡入淡出)连接素材,为了使视频更加流畅伯克利分校研发的算法还提出了一种“隐匿转场”的聚合方式,其基本逻辑是利用分层聚类算法计算帧间人物形态差距抓取“过渡帧”,在两段视频剪接点之间插入过渡帧或暂停帧,从而实现视觉上的连贯。隐匿转场的聚合方式对视频素材的灯光、背景等要求较高,适用性相对较低[ 1 1 ]。杜克大学的Yitong Li等学者则利用生成对抗网络研发出直接基于文本合成动态视频的算法,但由于人体姿势与骨骼特征的复杂性,目前还不能很好的保证在生成合理运动的同时保持对象形状[ 1 2 ]。

2 短视频合成的风险问题

算法应用于短视频合成中主要存在以下三方面的风险问题:识别准确度不能保证、新闻专业性无法体现、技术滥用变相生产假新闻。

2.1 识别准确度不能保证

人工智能技术的发展革新了短视频的生产与传播形式。技术并不完美,也不是所有的指标都可以“数据化”,“数据化”过程中仍然存在许多限制,算法在信息识别过程中仍有许多不足。

算法进行面部识别时,如果面部显示不完整就极易出现识别错误或无法识别的问题。尤其是在今年疫情的大环境下,公众普遍养成了佩戴口罩的习惯,美国国家标准与技术协会(NIST)的研究显示,戴上足够覆盖口鼻的口罩会导致一些最广泛使用的面部识别算法的错误率高达5%至50%[13]。

其实,哪怕在没有遮挡前提下进行识别,算法也存在足够的偏见。因为多种人为因素的影响内嵌在算法之中[14]。美国麻省理工学院媒体实验室研究项目显示,人工智能识别浅色皮肤男性的平均识别错误率不超过1%,浅色皮肤女性的平均识别错误率约为7%,深色皮肤男性的平均识别错误率约为12%,深色皮肤女性的平均识别错误率则高达35%[15]。2020年6月,美国密歇根州就发生了因算法识别错误而错误逮捕一名黑人男子的“乌龙”[16]。

除此之外,算法对语义的识别同样存在准确度无法保证的问题。当前人工智能还处于没有独立意识的弱人工智能阶段,新闻文本内容是复杂的,需要依靠专业知识、社会经验、话题语境、语义理解等多方面的技能才能拥有极高的辨识准确度[17]。尽管自“深度学习”算法应用于语义识别领域以来,识别错误率有所下降,但目前仍没有人类级别的语音识别[ 1 8 ]。

2.2 新闻专业性无法体现

算法主要是对复杂的短视频合成过程的简化和提炼,是一种“以简御繁”的化约主义(reductionism)[19],追求简单化的算法逻辑必然无法深入到短视频合成最核心的专业层次。电视新闻报道在信息传达的过程中分为三个层次:信息层面、个性与情感层面和思辨层面[20]。当前阶段的算法多数停留在信息层面,虽然可以通过将音乐、文字、场景等非结构化视频数据提取为结构化数据以实现对情绪的理解[ 2 1 ],但仅局限于对单一情绪的浅层理解,无法很好的驾驭情绪。而算法本身就没有独立逻辑,思辨层面更是无法触及。

从央视利用人工智能发布的2019年阅兵的报道到百度Vidpress平台在推出之初发布的两段短视频《公开宣战?蒋大为嘲讽朱之文不配当艺术家,网友怒批:真是弟弟》与《孙红雷〈新世界〉大结局提前泄露,铁证已出,3点再无反转》可以看出,视频内容仅是素材的堆砌,并无故事化可言。且Vidpress平台由于是基于图文链接自动合成短视频,视频内大量的解说词与素材内容的图文不符问题非常明显,且算法对素材的挑选也无法从清晰度、画面稳定度、人物呈现效果等专业角度集中考量,视频呈现效果并不能满足专业性需求。

2.3 技术滥用变相生产假新闻

算法是一把“双刃剑”,在利用算法便利合成短视频的同时我们也不得不考虑到其内容真实性谁来保证?归根结底,算法逻辑实际是人的思想逻辑的延伸,算法本身无法完成独立的思考,对其所合成的短视频内容是否真实、是否合乎现实逻辑无法保证。而在互联网与社交媒体时代,算法在助力短视频自动合成的同时也为假新闻的生产推波助澜。2018年4月约谈今日头条和快手的主要负责人,暂停更新视频,原因是它们包含低俗和不真实的内容。

2017年,德国艺术家马里奥·克林格曼(Mario Klingeman)发布了一段名为“另类面孔v1.1”(Alternative Face v1.1)的视频作品,他利用数字技术创建了法国音乐家弗朗索瓦丝·哈迪(Fran·oise Hardy)正在说话的影像,当年73岁的哈迪在影片中只有20岁,而从年轻时的她口中“说出”的确是当时NBC采访特朗普的顾问凯莉安娜·康威(Kellyanne Conway)时的录音[ 2 2 ]。而生成此段“假视频”的技术就是短视频自动合成的技术——“生成对抗性网络”(Generative Adversarial Network)的机器学习算法,克林格曼仅花了几天就用算法“记录”了一件从未发生过的事情。

此类“造假”视频的危害有多大?从“ZAO”换脸App“一夜走红,三天下架”事件便可见一斑。算法换脸发展至今,只需一幅图片的信息即可完成整个视频的人脸替换,且效果几乎可以以假乱真。换脸算法不仅会造成假新闻的泛滥,同时对公民的个人隐私与财产安全也会造成威胁。

其实假新闻的生产并不需要如此复杂,将不同情境下的视频混剪在一起就可能产生歧义。基于内容标签的算法模型利用关键词等标签匹配搜集素材完成拼接,而缺乏对语境的考量,在合成短视频的过程中生成假新闻也不鲜見。2017年,《洛杉矶时报》自动化新闻系统Quakebot因捕捉到美国地质调查局更新系统是错误发布的数据,错误的报道了加州维拉岛(Isla Vista,Calif)发生里氏6.8级地震,引起社会动荡[23]。

3 结语

如今,我们正处于快速发展的智能媒体时代,基于算法的各项人工智能技术正越来越广泛的应用于新闻采集、生产、分发的各个阶段,如何向用户提供相应的提示信息应当成为算法伦理的一部分,由于创作者坦诚算法设计与应用中的局限,不仅可以规避一些风险,还有助于建立与用户的信任关系,在具体的实施方式上,可以通过超链接的方式兼顾用户体验与透明性的实现[24],这既是一种对用户负责的方式,也是坦诚技术局限,规避和减轻相关风险的有效措施。

参考文献

[1]谭乐娟.人工智能技术在视频编辑中的应用实践[J].中国传媒科技,2020(8):125,127.

[2]中国网络视听节目服务协会.2020中国网络视听发展研究报告.[EB/OL].(2020-10-14)[2021-03-05].https:// www.doc88.com/p-38973161865085.html.

[3]Newman N.Journalism,media,and technology trends and predictions[EB/OL].[2021-03-04].https:// www.digitalnewsreport.org/publications/2019/ journalism-media-technology-trends-predictions-2019/#footnote-21019-50.

[4]赵辰玮,刘韬,都海虹.算法视域下抖音短视频平台视频推荐模式研究[J].出版广角,2019(18):76.

[5]吕国英.算法设计与分析[M].北京:清华大学出版社,2009:7.

[6]段淳林,宋成.用户需求、算法推荐与场景匹配:智能广告的理论逻辑与实践思考[J].现代传播(中国传媒大学学报),2020(8):123.

[7]秦艳.AI新闻视频剪辑的原理与应用价值[J].新传播,2021(1):43.

[8]百度AI.百度研究院又出黑科技,AI全自动合成短视频,片子也能“躺着剪”[EB/OL].(2020-04-20)[2021-03-25].https://mp.weixin.qq.com/s/ Lcamk9mxElEd3z2l1ryLrw.

[9]索贝时代.里程碑!首次AI剪辑大阅兵在央视新闻![EB/OL].(2019-10-01)[2021-04-03].https:/-/ mp.weixin.qq.com/s/u41je6YIbXiACyQpVvo40w.

[10]盖伊·塔奇曼.做新闻[M].麻争旗,刘笑盈,徐扬,译.北京:华夏出版社,2008:109.

[11]FloraineBerthouzoz ,WilmotLi,ManeeshAgrawala. Tools for Placing Cuts and Transitions in Interview Video[EB/OL].(2012-08)[2021-03-16]. http://kneecap.cs.berkeley.edu/papers/vidtrans/ vidtrans.pdf.

[12]YitongLi,MartinRenqiangMin,DinghanShen,DavidCarlson,LawrenceCarin.Video Generation from Text[EB/OL].(2017-10-01)[2021-03-29]. https://arxiv.org/abs/1710.00421.

[13]李亞山.全民戴口罩,人脸识别算法抓了瞎:89种常见算法都出错,最高错误率达50%[EB/OL].(2020-08-01)[2021-04-20].https://mp.weixin.qq.com/s/ F16NOJyGajN6yvh2iUm2ig.

[14]张超.释放数据的力量:数据新闻生产与伦理研究[M].北京:中国人民大学出版社,2020:215.

[15]谢开飞,许晓凤,王忆希.识别深色皮肤女性的平均错误率达35%,谁才是让AI产生偏见的幕后推手?[EB/ OL].(2020-07-15)[2021-05-01].https://view. inews.qq.com/a/20200715A04EWO00·startextras=0_ fffdcc99ff081&from=xw_dcyzkqw.

[16]Kashmir Hill.Wrongfully Accused by an Algorithm[EB/OL].(2020-06-24)[2021-05-03]. https://www.nytimes.com/2020/06/24/technology/ facial-recognition-arrest.html.

[17]张超.社交平台假新闻的算法治理:逻辑、局限与协同治理模式[J].新闻界,2019(11):24.

[18]AwniHannun:Speech Recognition Is Not Solved[EB/ OL].(2017-10-11)[2021-05-11].https://awni. github.io/speech-recognition/.

[19]邓建国.机器人新闻:原理、风险和影响[J].新闻记者,2016(9):12.

[20]曾祥敏.电视采访:融合报道中的人、故事与视角[M].北京:中国传媒大学出版社,2018:29-30.

[21]IBM中国.揭秘:业界首支AI剪辑的“电视节目宣传片”,它是怎么做到的?[EB/OL].(2017-10-20)[2021-04-03].https://mp.weixin.qq.com/s/ Im3UwyxQDYW97bSurmxMxQ.

[22]经济学人集团.假新闻新战场:算法生成视频[EB/OL].(2017-07-26)[2021-05-20].https://mp.weixin. qq.com/s/8pTbYItIPjpO1rck2EOLMQ.

[23]Meredith Broussard,Seth Lewis.Will AI Save Journalism—or Kill It·[EB/OL].(2019-04-09)[2021-05-25].https://knowledge.wharton.upenn. edu/article/ai-in-journalism/.

[24]张超.“后台”前置:新闻透明性的兴起、争议及其“适度”标准[J].国际新闻界,2020(8):88-109.

猜你喜欢
短视频算法
国际主流轧差算法介绍:以CHIPS的BRA算法为例
Travellng thg World Full—time for Rree
学习算法的“三种境界”
算法框图的补全
算法初步知识盘点
“去阅读”时代短视频自媒体发展现状及其文化解读
符号学视角分析恶搞短视频
移动社交时代短视频的传播及营销模式探析
用户自制短视频的受众研究
后现代视域下新媒体短视频的美学特征