人工智能技术在电视制播业务中的应用

2022-11-16 06:34郭建明
电视技术 2022年10期
关键词:译制图像识别字幕

郭建明

(大连新闻传媒集团,辽宁 大连 116022)

0 引 言

人工智能(Artificial Intelligence,AI)技 术在过去十年中从实验室走向产业化生产,其重塑传统行业模式、引领未来的价值已经凸显,并为全球经济和社会活动做出了不容忽视的贡献。当前,人工智能技术已经迎来其发展史上的第三次浪潮,AI技术进一步飞跃式发展。集成了自然语言处理(Natural Language Processing,NLP)[1]、语音系统的智能客服机器人,可以快速准确地解答用户问题、协助人工客服筛滤用户,给用户提供更好、更精准的服务体验。

人工智能现在可以自动识别视频、音频、图像及文本中的内容,快速准确地对“涉恐”“涉政”“涉黄”“低俗”等违禁、违法内容进行筛查,更好地辅助新闻机构的节目内容播出与出版[2]。人工智能产业是一个飞速发展的产业,现今已经在医疗、制造、教育等多个领域实现技术落地,并将在未来给人类社会的经济发展、生产、生活方式带来变革式的影响。

1 语音识别技术在电视制播业务中相关应用

1.1 语音识别技术

自动语音识别(Automatic Speech Recognition,ASR),是一种将人的语音转换为文本的技术,支持智能断句并能够自动实现标点符号的添加[3]。其主要实现流程如图1所示。

图1 语音识别流程图

音频文件一般是wav/mp3/m4a/wma/3gp/amr/aac/flac/flv/mp4等格式的文件。声学特征提取主要通过梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)方法提取音频的高维度特征[4]。声学模型比对是通过声学模型算法将单个发音转换为单个字。语言模型通过规则模型和统计模型将多个单字串成句子。最终,识别结果输出语音转文本结果,通常包含文本内容以及对应的时间段落。

1.2 语音识别技术在电视节目制作中的应用

在电视节目的后期制作中,同期声字幕是不可或缺的一部分。字幕的出现,不但可以更好地帮助人们听懂人物到底说的是什么,同时也为听力障碍观众观看节目提供了方便。传统同期声字幕的制作流程如图2所示。

图2 同期声字幕制作流程图

传统同期声字幕制作的第一步是进行字幕听抄。对照电视节目声音,参考节目画面内容,手动将节目中的人物对白录入到文本编辑器。录入文本的时候,通常每句话一行,每句以回车键隔开,并以txt或doc格式进行保存。之后,打开非编软件并加载电视节目视音频文件,通过非编软件的字幕唱词功能模块导入刚刚手工录入的字幕文件。节目编辑人员在播放电视节目的同时,采用拍击“空格键”的方式将字幕文件的每一句话手动对应到电视节目的相应位置,保证画面声音和字幕的一致性。最后,将添加同期声字幕的电视节目进行最终的合成输出。

传统同期声字幕制作过程主要存在以下弊端。

(1)电视节目同期声对白的人工听抄工作量非常大,而且需要多次人工校对。

(2)在字幕唱词制作过程中,需要手动对准每一句对白(字幕)在节目中的位置。一旦对不准,则会出现声音与字幕不同步的情况。因此,这个手动对准位置的工作量也非常巨大。

引入了语音识别技术的电视节目同期声字幕制作,不但可以智能、自动地识别电视节目的同期声对白,自动生成标准字幕格式,自动对准字幕在节目中的位置,而且大大提高了节目制作效率以及字幕的准确性。自动智能同期声字幕的制作流程如图3所示,具体步骤如下。

图3 自动智能同期声字幕制作流程图

(1)打开电视节目制作软件(非线性编辑软件),加载需要加入同期声字幕的电视节目。

(2)选择“语音自动识别”,非编软件提取节目的音频并发送至“语音识别引擎”。“语音识别引擎”对传输来的音频进行分析,生成标准字幕模板(如表1所示),通常每行一句话,每句话都记录其在节目中的时间信息,每句以回车键隔开。

表1 字幕模板示例表

(3)非编软件调用生成的字幕模板,根据节目中每句话的内容和时间信息自动将所有文字内容放置在节目视频中的指定位置,自动生成同期声字幕。

(4)节目制作人员在人工对字幕进行校对后,进行节目的最终合成。

2 文字识别技术在电视制播业务中的应用

2.1 文字识别技术

文字识别(Optical Character Recognition,OCR),是指电子设备对包含文本资料的图像文件进行分析处理,获取文字及版面信息的过程[5],主要工作流程如图4所示,主要步骤如下。

图4 OCR文字识别流程图

(1)图像输入。支持处理灰度、彩色、黑白三种色彩的bmp、tif、jpg、pdf等多种格式的图像文件。

(2)预处理。首先将图像进行二值化处理,只保留黑、白两种颜色,一种颜色是背景颜色,另一种颜色就是要识别的文字。然后进行噪声去除。

(3)版面分析。将文档图片分段落、分行处理。

(4)字符识别。早期采用模板匹配,现在主要采用特征提取,即将文字图像提取出特征给分类器,分类器对其进行分类,判断出这个特征该识别成哪个文字[6]。

(5)版面恢复。最后输出到word、pdf等文档的格式仍然保持原文档图片的格式,段落不变,位置不变,顺序不变。

2.2 OCR文字识别在电视节目译制的应用

译制中心主要对优秀的电视剧、电影进行二次创作,对不同语言的电影、电视剧、动画片进行重新配音、配字幕,以便更好地进行文化交流。

引入了OCR文字识别技术的影视节目译制,可以智能、自动地识别影视节目中的字幕内容,以便于译制人员的语言翻译,同时,翻译后的语言可以自动生成标准字幕格式,自动对准字幕在节目中的位置,大大提高了影视节目字幕译制的工作效率,其流程如图5所示,主要步骤如下。

图5 结合字幕自动识别的字幕译制流程图

(1)打开节目译制软件,加载需要译制的影视节目。

(2)译制软件将节目按照视频连续画面将视频进行镜头切分,并进行关键帧提取,也就是将一段完整的视频提取出一系列的图片,如图6所示。

图6 视频节目画面抽帧示意图

(3)“OCR文字识别引擎”对抽帧画面进行逐一分析,解析出每个画面的文字内容以及对应的时间位置信息。

(4)节目译制软件参照“OCR文字识别”的原文结果进行文字翻译,如表2所示。

表2 文字识别与文字译制表

(5)节目制作人员在人工对字幕进行校对后,进行节目的最终合成。合成时,选取翻译后的字幕,将翻译后的文字放置在节目视频中的指定位置。

3 图像识别技术在媒资管理系统中的应用

3.1 图像识别技术

随着数字图像处理技术的快速发展,图像识别技术也得到了广泛的应用,可用于地形地貌勘查,海洋、水利、气候、环境的监测,军事目标以及建筑物的识别,生物医学领域的影像处理以及安全领域中的指纹识别、人脸识别等。

图像识别的核心技术是图像分类与图像检索,需要建立足够多的训练库以及海量的场景、物体、事件识别模板。图像识别过程中,首先排除无效特征,然后对重要的特征进行提取并对关键信息进行比对,最终输出识别结果[7],流程如图7所示。

图7 图像识别流程示意图

3.2 图像识别技术在媒资管理系统中的应用

广播电视行业的媒资管理系统提供历史资料上载、采集、编目、审核及管理等业务功能。同时,通过内容管理、存储管理、媒体分析、智能转码、智能索引以及工作流等引擎,为系统用户提供精确查询、高效检索、快速浏览及下载服务[8]。

媒资编目是媒资管理系统的一个核心重要环节,需要人工对素材内容浏览,然后将素材参照4层编目(节目层、片段层、场景层和镜头层)规范,分析节目内容、提取关键画面,并通过题名、主题、描述、创建、出版、版权、语种、日期、类型、格式、标识、来源及关联等相关信息进行著录[9]。传统的人工编目环节耗时耗力,需要一边对内容浏览的同时一边进行编目录入,效率低下而且容易出错。

引入了图像识别技术的媒资管理系统,不但可以智能、自动地识别影视节目中的画面内容,实现机器智能分类标签+人工自定义的混合编目,而且能对音视频中的地点、时间进行多模态的标记、编目。常见标签类型如表3所示[10]。

表3 常见标签类型表

引入了智能标签体系的媒资管理系统,比传统媒资系统四级编目方式更加灵活,比传统媒资编目录入项更加丰富,提供了高效精准的媒资检索手段,实现了节目素材精准定位,能够节约时间,提高媒资管理效率。

4 结 语

人工智能技术给人们的生活带来了极大的便利,同时也改变了人们的工作方式。广播电视行业也处于大数据、云计算、媒体深度融合高速发展期。广播电视行业应根据传统电视制播业务的自身特点,积极探索人工智能AI技术,并应用到自身业务当中,使人工智能技术更好地服务于广播电视业务,打造先进、高效、智能的新一代广电制播业务体系,在未来的行业竞争中占据优势。

猜你喜欢
译制图像识别字幕
浅谈图像识别技术在打击绿通假证逃费中的应用
关于加强蒙古语影视译制水平的思考
文化翻译视阈下《流浪地球》的英文译制讨论及其对影视外译的启示
基于Resnet-50的猫狗图像识别
电视剧字幕也应精益求精
图像识别在物联网上的应用
图像识别在水质检测中的应用
上海电影译制厂成立60周年活动举行
简单快捷提取视频文件中的字幕
整合适应选择度下的动画电影字幕翻译——以《冰河世纪》的字幕汉译为例