詹姆斯·凯尔利斯
当你思考人工智能(AI),具体地说能够完成历史上由人类智能完成的自主任务的软件时,会让人联想到天网(Skynet)——电影《终结者》里一个人类于20世纪后期创造的以计算机为基础的人工智能防御系统,它最初是研究用于军事的发展,后自我意识觉醒,视全人类为威胁,以诱发核弹攻击为起步发动了将整个人类置于灭绝边缘的审判日。
这是虚构的。但在现实生活中,A I正在进入工作场所,包括压缩视频的编码、转码和解码。利用他们的程序内AI的能力,像Bitmovin、Cobalt Digital、MediaKind、Telestream和V-Nova这样的厂家正在降低带宽要求的同时加速他们的编码程序,从而为其客户提供更快、更经济实惠的产品。
“A I正开始在编码中起重要作用,在此领域它具有显著改进工作流程的巨大潜力,”基于云的媒体流媒体技术开发商Bitmovin CEO和共同创始人斯蒂芬·莱德尔表示,“随着新编解码、新视频文件格式和分发方式的涌现,电视和媒体业需要以AI提供的自动化、即时和高效率方式改进编码的解决方案。”
即便如此,就编码过程中AI的限制问题,厂家之间意见不一。AI(亦称为机器学习ML)无疑能够加速编码过程,但它能够做人类观察者能够做的一切,检测和整治压缩视频中的人工产物吗?没有人真正知道。
人类无需参与编码出现后的复审阶段,因此在这个阶段提高了速度,记住这一点很重要。特纳媒体咨询公司保罗·特纳表示:“编码参数可设置为一组预定义的值,但你依然必须看结果且评估编码输出是否有足够好的质量。如果没有,你必须重复设置。”
(顺便说明,ML为狭义版AI,其中AI赋能软件负责对预定义参数内的特定数据做出决定;而不是会自我感知和选择毁灭人类。本文章,我们将互换使用这两个术语。)
AI如何能够改进编码
当前的视频编解码使用算法分析视频图像,决定在不降低观众察觉的主观图像质量的条件下那些比特可以去除以减少文件尺寸。
把AI注入此编码过程让該处理更进一步。A I允许软件在传输前前瞻性地评估压缩视频的质量。这让编码系统检测和纠正任何编解码器非故意产生的人工产物。在A I做此工作的过程中,它“学习”其行为,用此知识通过连续应用提高其性能。
结果:“通过使用A I,编码解决方案能够做出关于每帧压缩设置和视觉参数的智能决定,加速处理和提高编码效率,”莱德尔说,“训练过的A I模型甚至能够预测每个特定源资产的最佳编码设置以及处理工具。”
英国编解码开发商V-Nova CEO和共同创始人吉多·梅亚尔迪表示,A I用于编码还与其它方式。最常见的方式之一是增加现有编解码的预测能力,决定哪些比特可被安全移除。
“你预测图像越好,最后剩下的需编码的就越少,”梅亚尔迪说,“因此在保证质量的前提下你必须通过输送管道发送的量也越少。”
AI的局限
在每个例子中,A I正通过自动质量控制努力改进视频制作过程。这意味着减少慢得多(且更昂贵)的人为干预,就能执行相同的任务。
“你从根本上努力要做的是模仿人类评估,”Telestream CTO肖恩·卡纳汉表示,“你正在设法使用机器学习仿真观众感知内容质量的方式,并用它判断像‘我能更进一步提高码率或为保持主观质量不变我需要提高码率吗?这样的问题。”
这听起来是否令人望而生畏?是的。AI软件确实经过训练能够“寻找图像中人类观众会发现令人不快的东西,”卡纳汉说,“你正在训练一个机器找出不应在那里出现的东西。”
这是A I赋能的视频编码局限性所在。“用软件一模一样模仿或尽最大努力表现人类视觉系统几乎不可能,”MediaKind(前爱立信媒体解决方案公司)产品管理副总裁卡尔·费格森表示,“20或30多年来人们一直在努力,但始终不成功,我认为永远没有人真的能够找到一个模仿得一模一样的人类视觉系统。”
费格森说,问题在于相比基于度量的AI观看模式,人类观看具有主观性。“现实中人们认为图像质量较好,但测量工具给出的结果总是不尽相同,不管AI观看模型可能有多先进。”
特纳说,质量评价不仅仅是关于绝对的图像质量;还有未经训练的人类观众意识不到的失真,“这也得纳入AI训练内。”
这意味着A I注定在视频压缩中扮演一个次要角色?V-Nova的吉多·梅亚尔迪不怎么认为。即使有其局限,但他预测AI将成为“未来压缩引擎一个不可或缺的部分”。
然而,在此技术能够真正与人类视觉系统的复杂性和精微玄妙性一致之前,人工介入将依然为高质量视频压缩一个必要的部分。AI至多不断降低人类必须介入以保障图像质量的实例比例。B&P