基于深度学习的台标检测在网络视频审核中的应用

2018-09-20 11:29刘琨

无线互联科技 2018年15期

刘琨

摘要：电视台标检测是网络视频审核的常用方法，但传统台标检测方法检测成功率较低，文章将基于深度学习的SSD算法应用于台标检测。首先选取79类237个常见台标视频作为台标基准库，以每秒一帧的速率对台标基准库进行处理，共127 980张图像顿，其中95 586张用于台标检测模型训练，32 394张用于模型测试，算法每訓练2 000次进行模型迭代，共训练90 000次并选取最优模型。经过大量的台标样本实验测试，准确率可达98.2%，优于权威文献中经典方法。表明该方法具有较高准确率和高扩充性。

关键词：网络视频审核；台标检测；深度学习；SSD；高扩充性

电视台的台标是确定电视台的台名、节目取义的重要信息，是区分不同电视台唯一标志。为了声明视频的所有权，往往会在播放的视频中加入台标。随着科技的迅猛发展，互联网每天都会产生大量视频，电视台标是视频的特有标识，通过识别台标来进行网络视频审核显得尤其重要。因此视频台标识别一直是学术界研究的热点。

在台标的研究中，王建等采用图像分割方法进行台标识别，通过时域抽样方法选取代表帧序列，计算梯度图像序列，并进行边缘匹配；史迎春等利用空间分布直方图和HSV空间的彩色直方图相结合的方法对台标特征进行描述，并采用知识库辅助直方图统计的方法进行台标识别；金阳等提出的极坐标角点对匹配方法，虽然较好地解决了半透明台标检测问题并且准确率有了较大提升，但算法实时性较差。

2016年李世石在与基于深度学习的AlphaGo围棋比赛中落败，2017年，深度学习在医疗影像处理、安防安保、金融领域等的应用越来越广泛。故本文提出将深度学习应用到台标检测这一研究热点。台标检测也属于目标检测，当前目标检测领域最先进的SSD（Single Shot Detector）算法，已经成功应用到体育领域关于网球鹰眼机器人的改进，交通领域对于红绿灯的识别等。因此，本文提出将SSD应用到台标检测。

1 SSD算法

SSD是建立在深度学习框架caffe的基础之上的。现今流行的检测方法都是先生成一些假设的边界盒子，然后再提取特征，之后经过一个分类器，判断里面是什么物体。但这类方法不足以实时地进行检测。而SSD消除了中间的边界盒子、像素或特征重采样的过程，算法的核心就是预测物体以及对其类别进行评分，同时在特征地图上使用小的卷积核，去预测一系列边界盒子的盒子偏移。以下为算法的详细介绍。

1.1 SSD模型结构

SSD是基于一个前向传播CNN网络，产生一系列固定大小（fixed-size）的边界盒子，以及每一个盒子中包含物体实例的可能性，即得分。之后，进行一个非极大值抑制（non-maximum suppression）得到最终的预测。算法框架的最开始部分，称作基础网络（base network），是用于图像分类的标准架构。在基础网络后，添加一些卷积层，这些层的大小逐渐减小，可以进行多尺度预测。

1.2 SSD模型训练

1.2.1 目标函数

1.2.2 为默认盒子选择尺度和纵横比

一般来说，CNN的不同层有着不同的感受野。然而，在SSD结构中，默认盒子不需要和每一层的感受野相对应，特定的特征图负责处理图像中特定尺度的物体。在每个特征图上，默认盒子的尺度计算如下：

1.2.3 负样本选取策略

经过匹配后，很多默认盒子是负样本，这将导致正样本、负样本不均衡，训练难以收敛。因此，将负样本根据置信度进行排序，选取最高的几个，并且保证负正样本的比例为3：1。

2 基于SSD的台标检测

总步骤为数据选取，台标数据格式转换，台标检测模型训练，台标检测模型测试。现选取关键步骤进行详细介绍。

2.1 数据选取

在网上选取相同时间长度的79类237个视频，抽取视频图像帧，对图像帧中的台标进行标注，若图右上角及正下方出现cctvl3，则一张图像帧对应的标注格式即为cctv13{106， 20， 178， 20， 178， 67， 106， 67}； cctv13{369，319， 440， 319， 440， 345， 369， 345}。

2.2 台标格式转换

对视频图像帧进行台标结果标注后，编写程序对标注结果进行处理，将txt文本中数据按序转换为XML格式。并编写程序，将127 980个XML格式的文件打乱分成两部分，其中95 586张用于模型训练，32 394张用于模型测试。

2.3 模型训练

编写程序，将95 586个XML格式数据文档及对应的视频图像帧进行编码转换为1 mdb格式，以便SSD进行模型训练。

3 实验结果与分析

3.1 实验平台

实验所用平台设备为：操作系统：Ubuntix 14.04；GPU：NVIDIA GTX1080Ti；驱动：CUDA 8.0，软件为caffe（SSD）+ Pycharm Community。

3.2 实验结果

实验选取图像帧进行模型测试，采用的是迭代80 000次模型进行测试。

图1是东方卫视（dfws）新闻的截图，算法对所有台标进行了检测并评分。

3.3 实验对比

鉴于模型训练所需时间较长，故本文要求每训练2 000次，模型便进行一次输出，输出到94 000代截止。对模型准确率的统计如图2所示。

我们发现，模型大概迭代到80 000代基本达到收敛，准确率达98.2%。

3.4 实验总结

本文将当下最前沿的深度学习技术与台标检测这一工程实际问题相结合，经过实验，明显提高了台标检测的准确率。

4 结语

台标检测是网络视频审核的常用方法，但一直以来，很多算法在台标检测的成功率上一直表现不佳。本文率先提出将基于深度学习的目标检测算法应用于台标检测，在进行大量实验后，台标检测成功率有了明显提升。此外，为了进一步提高台标检测的速度，以后会选取性能更好的GHJ进行模型训练，以及扩充样本类别，使得可检测的台标种类得到提升。

[参考文献]

[1]吴月凤，何小海，张峰.SURF算法和RANSAC算法相结合的台标检测与识别[J].电视技术，2014（13）：191-195.

[2]王建，贺翼虎，周源华.新闻视频静态图形标识分割[J].上海交通大学学报，2006（5）：758-761.

[3]史迎春，周献中，方鹏飞.综合利用形状和颜色特征的台标识别[J].模式识别与人工智能，2005（2）：216-222.

[4]邓晔.深度学习技术与安防行业的超融合[J].中国安防，2017（5）：26-30.

[5]LIU W， ANGUELOV D， ERHAN D， et al.SSD：single shot multibox detector[C].Amsterdam：European Conference on ComputerVision， 2016：21-37.