蒋晓宋
(湖南广播电视网络传输中心,湖南 长沙 410003)
随着广播电视技术的发展,传统电视正在向媒体融合、终端移动、质量高清等方向转变,播出平台、传播路径和接收方式已越来越多样化。作为行业监管部门,如何把控各个环节广播电视的安全播出,确保正确的政治方向和舆论导向,坚决守好新闻宣传主阵地,已成为行业都在思考和探索的问题。目前,广播电视行业各级别的监管系统都收录了大量的节目数据,但对电视节目内容的监听监看主要还是依靠人工进行,由于图像数据量大(一个省级监管平台节目数据的大小都是PB级别以上),人工处理不仅效率低,有些任务还根本无法完成;有的监管平台虽然也利用了计算机辅助处理,但在海量、毫无规则的数据面前,根本没有发挥太大的优势。而作为宣传管理部门重点关注的电视新闻类节目,一般普通话质量好,内容精炼,图像画面特征明显,有一定的规律可循,如能利用大数据、人工智能(Artificial Intelligence,AI)等技术,将给计算机的自动处理提供可行性,从而大大提高广播电视节目监听监看的效率。
人工智能电视新闻节目监管系统由节目存储系统、业务支撑服务系统和业务应用系统组成[1]。其处理的节目既可以是实时节目,也可以是录制节目,还可以使用其他已建好的监管平台中的节目。系统功能组成如图1所示。
图1 人工智能电视新闻节目监管系统功能框图
存储系统主要用来存储节目信息、关键词库和应用数据信息等,其中大部分用于系统处理后需长时间保存的节目信息[2]。业务支撑服务系统包括视频拆条、图像识别、文字识别、关键词提取等功能,其主要作用是对节目存储系统中需处理的新闻节目进行分段,基于电视节目的视频特征、音频特征、文本特征、压缩域特征等,采用新闻标题板检测、关键人物画面检测、节目场景变换检测、语音识别、新闻标题板字幕识别等AI处理技术,对新闻节目进行结构化分析,有效识别新闻节目的转场时间点,然后采用节目分割技术将连续的节目流分割为具有特定语义的多个小视频,并自动将节目语音识别为文本,自动识别新闻标题板中的字幕等,实现新闻节目的碎片化处理,以便于后续的数据检索与分析[3]。业务应用系统由任务管理、系统管理、节目管理、专题管理、统计报表及人工检验等模块组成,主要完成人机对话功能,实现人工对系统的规则设置。系统完成任务后输出展示监管结果,同时还可对监管系统中产生的错误进行人工修正和关键词增减等。
湖南省广播电视监管系统利用已有的监管平台的实时节目流作为信号源,系统按人工设定的监测时间段,每天自动对35套节目中的当地新闻内容进行数据分析。用户通过客户端/服务器(Client/Server,C/S)端和浏览器/服务器(Browser/Server,B/S)端灵活操作,可以实现节目内容快速定位、快捷监看、智能识别提示、内容标注、剪辑合成、内容下载及录像编目等功能[4]。具体应用场景如图2所示。
图2 应用场景案例
节目通过系统处理后,新闻节目将自动从片段层进行分段,自动提取新闻标题、自动将所有语音识别成文字,并根据识别的文字生成该段新闻的关键词,同时还对该段新闻的进出点进行标识,以便于用户快速定位监看。系统提供人工审核功能,可以对机器自动生成的信息进行人工核对修正,如对关键词、生成的文字错误的校正,分段错误时进行剪辑合成等。用户使用系统时,可按时间、关键词等搜索新闻条目进行内容的监听监看,可下载每条新闻识别出的文字信息,以便节目评议时使用[5]。系统具有多维度的统计功能,可按频道统计一个时间周期里所有新闻的播放条数,按关键词统计播放次数,按新闻类型(如领导动态、乡村振兴、疫情防控等)进行统计等,以便为监评简报的快速生成提供数据服务。系统还有重点人物识别功能,利用人脸识别技术,可自动识别节目画面中的重点人物,将该人物姓名作为新闻片段的关键词之一,并对重点人物出现的时间、持续时长自动进行标注[6]。
人工智能电视新闻节目监管系统要实现节目的检索和统计功能,直接在音视频流上处理显然无法完成,这需要将音视频流变成与文字关联的信息,然后通过处理文字信息来实现目标。因此,就需要对新闻节目进行拆条,对语音进行文字转换,对文字进行关键词提取,然后将这些信息按对应的关系分门别类保存,并与关键词建立索引,以便统计查询,所用到的关键技术主要有视频拆条、新闻标题提取和关键词生成技术。
视频拆条技术主要是基于动态特征识别,如对视频关键帧、场景、字幕、人脸等元素的分析,通过镜头变换检测技术、字幕提取技术等进行自动拆分。在视频中用同一摄像机进行连续不间断拍摄的一段视频内容称为一个境头,同一镜头中的两相邻帧的运动、颜色和灰度级不会有太大变化[7]。镜头变换检测技术就是通过对视频境头切换情况的分析,依据镜头组织和特征索引,采用视频聚类等方法研究镜头边界之间的关系。该技术的主要研究内容包括关键帧的提取、图像特征的描述、相似度计算、聚类算法的设计以及自适应阈值的确定等。利用字幕提取技术拆条主要是根据字幕或标题的自动识别,当字幕和标题内容出现变化时,判断节目内容变化,同样利用人脸、场景等元素进行综合分析判断,从而实现精准视频拆条。
新闻标题提取就是通过图像和文字自动识别技术,从新闻视频流中提取新闻标题内容,并支持对主标题和副标题进行区分。在电视新闻类节目中,标题字幕基本都有一些相似的特点,如标题字幕在画面中显示的位置、大小限定的范围、排列方式、显示时长、使用的字体、字幕背景等。利用这些特征进行分析,可有效地降低新闻标题提取的难度,提高识别的准确性。在新闻标题提取过程中,首先从动态的视频流中提取关键帧确定为需要处理的静态图片,然后对静态图片进行边缘检测、字幕区域检测等,确定只含有新闻标题字幕的图片,最后将图片进行OCR识别,从而得到可编辑的新闻标题文字。
关键词的生成包括从新闻标题中生成和从该段新闻播报的内容中生成,利用它可方便快速地检索到目标数据。在实现过程中,首先要利用语音识别技术,将新闻播报的内容自动转换成文字。目前该技术相对成熟,特别是对新闻节目而言,因播音质量高,市场上主流产品的识别准确率基本都能达到90%以上。之后,从识别出来的文字中自动提取关键词。
广播电视监管系统中数据量庞大,利用大数据和人工智能技术进行信息处理,既提高了监管效能,又紧跟了科技时代的发展步伐,还符合智慧广电、智慧监管体系的行业政策要求,具有很强的现实意义。但在一些实际应用中,由于涉及到数据挖掘、图文处理、信息检索等很多计算机前沿领域技术,所以有些实现方法、算法还有待进一步优化,监测的准确性也有待进一步提高。行业在新业态和新应用中,应注意充分利用广播电视产业链中不同环节功能特长的优势,以及互联网中大数据处理的优势,取长补短,合理整合资源,真正形成智能、共享、可复制的广播电视监管体系。