江西广播电视台播出部 罗晓松 南昌市 330006
中国移动通信集团江西有限公司网络管理中心 张 翼 南昌市330031
电视剧丰富多彩,在日常的电视播出节目中,根据剧情、播出时长等将电视剧分为集数播出,然而海量的电视剧名也给电视剧的审核带来一定困扰。电视剧播出中出现播出本集电视剧,下一剧应该播出本剧的下一集,而出现播出本集、上一集或者跳跃播出的情况,以往的电视剧审核只能通过人工进行审核,需要花费大量的时间精力。
早期对视频中文字的提取检测,可利用OCR技术展开工作[1]。随着人工智能技术的发展,运用人工智能神经网络结构,设计以深度学习技术为基础,对视频智能审核的系统,越来越多地被应用于广电行业[2-4]。如佟明[5]将深度学习的智能审核系统应用在IPTV播控平台中,高志恒[6]结合各个频道的台标特点,利用人工智能技术,能够精准地识别电视台台标,并对台标进行24小时实时检测。本文提出了深度学习的电视剧剧名识别,能够精准地识别出电视剧名,并通过节目单剧名与电视剧视频中的播出电视剧名进行剧名匹配,以确保播出的电视剧符合剧情安排,提高电视剧审核的准确性。
OCR(Optical Character Recognition)光学字符识别技术,主要应用是将电视节目中的字幕信息转换为文本信息,其具体流程如下图1所示,首先对图像进行预处理,再将版面划分包含直线检测以及倾斜检测,经过字符定位切分、字符识别、版面恢复、后处理、校对等输出识别结果。
图1 OCR识别技术框图
OCR识别技术的图像预处理是将原始图像去噪,将彩色图像灰度化、二值化处理、图像变化角度检测、矫正处理等。电视剧中的剧名文字字体为楷书,不需要图像变化角度检测、矫正处理,经过二值化的字体笔画步出现空白,其基本的笔画维持原有的特征。其内容为第一集,第二集等短短的一行且仅有几个文字字符,文字出现在某一特定的行。在子切分阶段不存在英文文字、间隔符、符号、字间污点的干扰,直接把文本中的单字行切分为单字。字切分大致分为两个过程,首先是求出文字左右界,其次是合并部件为完整的文本汉字。字切分算法采用最大宽度回溯切分。首先,根据汉字是方块字的特点,以平均行宽作为字宽w的参考值:w=其中N为整个文本块的行数ia,ib分别为第i行的上、下界。设文字的最大宽度为wm回溯范围为d,第j个字的起始位置为ja,结束位置为jb。
经重复以下算法步骤,完成对电视剧名中字符的切割:
(1)在ja≤j≤ja+wm范围内计算第一个0(L为每行的高度)的点,定义为jb,从而切出ja至jb之间的单个文字图像。假如没有这样的点,转至第(5)步。
(2)若ja-jb<δ(δ为不足一个最小的字符宽),则为噪声干扰,不计,转至第(3)步;否则转至第(4)步。
(3)jb≤j≤ja+wm范围内计算第一个的点,设为jb,从而切出至ja至jb之间的单个文字图像;若不存在这样的点,则转到第(5)步。
(4)用字典对上述切割出的图像进行匹配,若匹配成功,记下jb,转第(6)步;否则转第(3)步。
(5)在ja+wm-d≤j≤ja+wm范围内求出使得取值最小的点,记为jb。
(6)从jb作垂线即为文字的分界线,即右边界,第j字的宽度为ja至jb。
(7)从jb开始,计算设为j,a,且j,a>j,b,则j,a为第j+1个文字的左边界。
在完成字符切割后,使用基于网格化的方式提取电视剧名特征。首先使用归—化处理将字符的外部边框转换为32×16个像素,把图像分成3×3=9个小格子,在每个格子中统计其黑像素的个数,从而形成—个9维矢量;再将标准字符的13维特征量提取出来,保存在系统中。进行字符识别时,当遇到—个新的字符的时候,提取它的13维特征向量,求出待识别字符的特征向量与系统中保存的标准字符的特征向量的差别,最小—值为识别结果。
卷积神经网络(Convolutional Neural Networks)是一类包含卷积运算的深度前馈神经网络,简称CNN。卷积神经网络通常由输入层、卷积层、池化层、全连接层和输出层组成。在卷积神经网络中,每个神经元均包含宽度、深度和高度三维结构,一个卷积层可以包含多个不同的卷积核。使用数字对图像的灰度特征进行赋值,每个卷积核在输入图像上按照一定方式滑动,且每次只处理部分图像信息,直到处理完全部的图像,这样卷积层就提取到了整个图像的灰度特征信息,这些特征信息经过处理后将代表输入的图像。
如图3(a)是一个6×6的图像灰度矩阵,构造一个3×3的矩阵,该3×3的矩阵在卷积神经网络中通常称之为卷积核。如对6×6矩阵做卷积运算,以最右下角的-11计算为例,其计算过程如下式1所示:
图3(a)最左侧图中的其他数字让过滤器在图像中按照同样的计算方法逐步运行至最右端,又移动至最左端下一行重复上面的步骤,这样对整个6×6的矩阵进行卷积得到4×4的图像。特别地,当卷积核中的数字如图2(a)一样排列时,则称之为垂直过滤器,水平过滤器则如图2(b)所示。在卷积神经网络中,把这些过滤器当成我们要学习的参数,卷积神经网络训练的任务就是去理解这些过滤器的参数。我们再反过来就可以得到图3(a)与(b)中的垂直与水平的值,如图3所示,我们以图3(b)第一行第二个数值-4为例,其计算方法如式2所示:
图2(a)垂直过滤器 (b)水平过滤器
图3 卷积示意图
在上述部分中,我们使用一个3×3大小的过滤器对6×6的图像进行卷积,得到了4×4的图像。假定输出图像大小为n×n,过滤器大小为f×f,输出图像大小则为(n-f+1)×(n-f+1)。卷积步长是指过滤器在图像上进行滑动的距离,在前部分进行卷积时的步长值均默认为数值1,如果卷积步长的数值为2,那么在卷积运算过程就会出现变动,如下图4所示。输入的图像大小为7×7,过滤器大小为3×3,步长的大小为2,则计算出的输出图像大小如下式2-7所示。其结果可用3×3的矩阵表示。相比于图4的最左边的7×7的矩阵,它长与宽的值大小均减少了4个单位。我们将左图的7×7图像与过滤器依次进行卷积,左图第一个框与过滤器的值对应为-3,后续框卷积的值依次为4、5;同理,第二排值依次为-1、-6、-2,第二排值依次为0、8、6。这样就得到了图4的右图。
图4 卷积步长示意图
加入步长后的卷积图像大小的通用计算公式可以通过用输入图像的边长大小用n表示,过滤器边长大小用f进行表示,卷积步长用s进行表示,而p表示填充的大小,那么输出的图像大小为:
卷积神经网络的池化层,最大池化的思想可以用下图5进行表示。最大池化计算的是最大值,它首先把6×6的图像分割成4个不同的区域,每一种颜色均代表一个区域,再直接输出每个区域内最大的数字值,得到的结果如图中的右上角所示。平均池化是将图像中的每个区域进行相加,再除以该区域内的方格个数,如下图5的平均池化所示。平均池化与最大池化唯一的不同是它计算的是图像区域内的平均值。
图5 池化示意图
最后是卷积神经网络的全连接层与输出层。卷积神经网络的全连接层与传统神经网络中隐藏层的作用一样,用于连接上一层的全部神经元,并将上一层的三维矩阵变成为向量的形式;输出层则是将神经元的输出方式转换成预测分类的概率,这个概率值通常用 最大化回归模型计算。
本实验数据集来自电视台日常播出的电视剧,包含大量的高清、标清电视剧视频。经过大量的数据训练,得到基于深度学习的卷积网络模型。该系统主要包括图像采集、图像处理、图像显示功能模块,功能结构图如下图6所示。图6(a)为图像采集模块,包含两台上载录像机,上载操作界面。在平时的节目上载中,将需要上载的节目(P2卡、磁带)插入上载录像机中,在上载界面打开上载模块提取与之对应的节目,点击上载即可完成视频的采集,同时与之对应的上载通道可显示出节目视频。图6(b)为图像处理模块,由两台包含卷积深度学习的卷积神经网络系统的计算机组成。上载的视频一路传至视频服务器,另一路通过近线传至图像处理板块。图6(c)为图像显示模块,该模块将电视剧名检测结果显示在系统的可视化界面上,可直观看到系统检测分类的结果,与节目单中的文件名进行比较,可直观看到电视剧名匹配的结果。如匹配结果不一致,系统则会报警并显示出电视剧剧名不一致的具体信息。
图6 剧名识别系统
本文提出基于深度学习的电视剧剧名识别,能够通过卷积神经网络快速地完成电视剧名的检测,并将节目单剧名与电视剧视频中的电视剧名进行剧名匹配,可准确快捷智能完成电视剧名审核,有效提高电视剧审核效率,同时确保播出的电视剧符合剧情安排,提高电视剧审核的准确性。