智能语音识别技术在广播电视内容监测中的应用探讨

2022-09-01 01:19杨俊峰

数字传媒研究 2022年6期

杨俊峰

内蒙古自治区广播电视监测与发展中心内蒙古呼和浩特市 010050

随着当前媒体融合力度的不断加大，新兴媒体持续出现，多元化的互联网音视频内容，进一步加大了监测工作的压力，这也成为了新时期各级监管机构需要解决的首要问题。本文便是在理论分析法以及文献研究法的基础上，结合新时期的智能语音识别技术在广播电视内容监测中的实际应用展开探讨，力求打造多元化且智能化的监测体系，为广播电视内容监测领域的技术创新提供参考依据。

1 分析背景及相关理论

1.1 广播电视内容发展背景

互联网的高速普及，让手机以及电脑等移动终端设备，成为了人们日常交流以及获取信息的主要途径，与之对应的是大量短视频网站以及直播平台的出现，满足了人们日常娱乐需求，但与此同时，广播电视的内容也愈加复杂，监测工作面临着较大的挑战。传统的广播电视内容监测主要是进行音视频节目的预先储存，然后通过图像识别技术、帧数对比技术、语音特征识别等方法进行全方位监管［1］。这种模式在实际运行的过程中，时效性较差、资源储存需求较高、识别的准确率较低，因此，为了进一步满足互联网新媒体广播电视内容监测的需求，需要打造更加智能化的监测技术体系。

1.2 自动语音识别及智能语义分析

首先，自动语音识别又被称为asr，是语音交互中的AI技术环节，主要是对语音信号进行转换，将其置换成文本信息，整体识别系统涵盖特征提取、声学模型建立、语言模型建立、字典与解码4个层面。另外，为了进一步提升特征提取的有效性，还需要采集声音信号进行滤波分析以及帧数分析。特征提取工作最大的优势是可以将声音信号从时域转换到频域，这样可以顺畅地建立声学模型；建立好声学模型，再结合声学特性进行每一个特征向量的评估；语言模型则是建立在语言学理论的基础上，对声音信号可能出现的各项词组序列进行排列；根据系统中已经录入的字典，进行词组序列解码，其具体的原理框图如图1所示。该项技术发展已经较为成熟，在人们的生活中较为常见，如手机智能语音助手、车载语音助手等。

图1 连续语音识别原理框图

其次，智能语义分析主要指的是自然语言理解的关键技术，是当前人工智能领域的核心内容。智能语义主要将文本进行自动化处理，提取其中的具体要素进行智能审核，往往是舆情分析、知识检索、自动写作的主要技术。智能语义分析主要从语言逻辑规律，以及人们常规的语言习惯角度入手进行分析，如了解语言歧义、分析省略的词语、定位代词所指、了解话语意图等等［2］。结合当前的计算机发展水平来看，为了进一步满足智能语音识别以及各领域的语义识别要求，计算机已经逐步具备了人类的语言处理标准，比如语音识别的速度以及准确率已经能够满足各领域的专业化需求，音视频内容的文本化也具备极强转换能力，通过对样本库关键词进行比对，可以快速识别广播电视节目中常规的违规信息，能够在第一时间快速发现并定位关键帧数，在后续的发展中还需要通过长期的纠偏以及智能学习，快速解决长文本、复杂结构句子、地方方言等类型的广播电视内容，全面提升违规信息识别的准确率，不仅可以建立拟人化的感知思考系统，还可以为新时期融媒体广播电视的发展提供良好保障。

2 广播电视节目内容监测的智能语音识别系统

2.1 信号解调设备

信号解调设备主要是在信号检测结束之后，能够组成一台或者多台解调器，主要应用于调频广播、调幅广播、有线电视领域［3］，其可以将不同类型的广播电视节目语言信号转化为普通的音频信号，然后将其传送到信号搜集站进行录音。信号解调设备可以根据具体的检测频道数量进行自动分配。

2.2 预处理设备

当前较为常见的预处理设备主要以aqc4信号预处理为主，能够判断信号的强度以及真实性。在实际运作的过程中，预处理设备会控制信号处理器，对音频信号进行细节调整，比如定位信号中的噪音，进行失真修正，调整信号电平，确保最终导出的信号源文件可以进行后续的智能识别。

2.3 多路信号收集站

调节器会快速定位不同频道有线电网射频信号中的伴音与影响因素，将其转化为视频信号和模拟音频信号，然后将这些信号传送到信号收集站进行记录。多路检测信号收集站则可以对接收到的电视以及广播音频信号进行收集和压缩，将其转换到服务器的数据库中。从类型角度来讲，多路信号收集站主要分为广播信号收集站以及电视信号收集站。

广播信号收集站能够同时对各路广播信号进行采录，采录页面中实时显示信号的音量光柱并具有软调音台，能够根据各路信号大小展开增益控制。另外，系统还配备监听按钮，可以及时监控不同信号输入的情况，尤其是针对广播时段特征进行提取，每天设计采录时间表，确保采录及时有效。

2.4 视频信号采集设备

电视信号采集，能够对8路电视信号同时进行处理，采集站可以对电视信号的音频信号码流进行整合，选择MPEG压缩格式进行压缩，根据不同频道的具体播出时间以及采集时间独立打造一份文件。采录时，页面能够及时显示视频图像，并且进行视频信号监听，综合调节每路信号的对比度、色度、饱和度，确保最终采集的信号质量较好，采集到的音视频数据会自动传输到文件服务器进行储存。

3 传统广播电视内容监测的难点分析

3.1 时效性较差，且资源耗用较高

互联网的高速发展为当前的广播电视体系创新提供了新的发展空间，大量的短视频平台以及影音平台成为需要进行监管的主体。但是，由于广播电视信号渠道多样化，在进行音视频信号采集的过程中，需要分析每一帧的内容，同时还需要了解图像的颜色特征以及纹理特征，与既有的模板进行匹配，从样本库中提取具有相似程度的样本进行评价，作为最终检测定性的主要依据，这一整个流程无论是从结构识别还是信息统计识别方向来讲，都存在数据体量大、读写速度压力大、中心处理器运行压力大等问题，这也就导致占用的计算资源较大，监测运行消耗时间较多［4］。另外，部分广播电视内容监管工作还依旧采用传统的监测模式，虽然使用了智能语音识别分析技术，但是应用的不够透彻，存在形式化问题，这也就导致同时监测多套节目需要投入大量的硬件设备，且事后监测时效性较差，无法实现第一时间的舆论监管。

3.2 人工依赖性较高，违规误判较多

当前的视频以及音频处理技术逐步成熟，由于其内容、沟通方式、颜色存在较大差异，在音视频提取的过程中，往往涉及较多的干扰因素，尤其是特征符号的采集以及对比、颜色比例规划等内容容易出现检测错误，输出疑似违规报警的信息数据量较为庞大，导致假报警比例较高，因此，需要通过后续的人工审核进行干扰信息排除。但是，在当前互联网视听内容体量庞大的情况下，这种监测体系会面临较大压力。

4 广播电视内容监测中的智能语音识别分析优化体系

4.1 打造多路视听节目内容实时监测系统

智能语音识别分析技术是建立在互联网的基础上，以信息技术为依托打造的自动化监控体系，因此，其本身具备较强的实时性以及智能化特点。这种优势弥补了传统监测技术实效性较低、事后监测的不足。在语音识别分析的过程中，文字输出以及执行、具体的任务指令都可以在短时间内快速完成监测监管，服务器自身的集群计算机资源处理系统，可以实现多路自动语音识别，这也就全面提升了语音识别的综合效率，进一步强化实时监听的能力，每一路视听节目都可以单独生成一路文本输出途径，甚至可以在互联网的基础上进行自动接入以及自动输出［5］。而监管机构所使用的智能语义分析系统，又可以对多路输入的文本进行及时监测，整体流程环环相扣，即便需要进行分析的内容体量极为庞大，也不会对硬件造成压力。单项技术已经能够实现视频内容资源全部收纳以及实时监听，可以真正做到广播电视监测监管应管尽管。语音识别分析监管的具体流程如图2所示，整体的监管模式具有极强的集成化特点，不必受到广播电视传播途径以及平台的限制。

图2 智能语音分析监管流程

4.2 打造高品质的监测对象音频输出体系

随着当前互联网融媒体行业发展速度的不断加快，广播电视以及互联网音视频内容极为丰富，且大部分的音视频内容都是以前期录音及配音为主，另外，绝大部分的智能音视频软件还涉及了人工合成配音，这也就导致了当前的部分广播电视节目语言逐渐突破普通话限制，智能音轨、方言加大了智能识别的难度。但是，依托智能语音识别分析技术，在具体监测需求的基础上进行优化，又诞生了如下几方面的技术体系，能够有效满足多种类型的语音识别需求。

4.2.1 声纹识别技术

声纹识别技术主要是在人的语言特点以及语音状态的基础上，判断讲话人的身份，主要应用在判断真人配音以及智能合成配音领域。其次，可以判断某一个语音的发出是否为指定的人，声纹识别能够将输出的语音信号作为参考依据，根据某一个人的发音特点以及讲话个性，从生物学的范畴进行声纹识别。

4.2.2 内容辨识技术

内容辨识可以在语音识别的基础上，针对其内容进行分析，了解语音的生理属性以及物理属性，从而分析讲话的内容。该技术在具体应用的过程中会受到一定干扰，比如讲话人的方言、表达习惯、语序习惯等［6］。内容辨识技术通常与声纹识别技术进行组合应用，不仅可以了解讲话的声纹以及语法，还可以建立语义模型，利用磁性标记以及词语区分等方式判断语音内容，虽然处理过程较为复杂，但是能够精准识别当前复杂节目中的对话。

4.2.3 语音及语种辨别

语种识别是综合语音材料兼容的语种特征来进行判断的，语言内容判断以及智能翻译技术主要是在语种识别的基础上而衍生的新型技术体系。语种识别可以根据广播电视节目中不同的语音材料进行判断，了解其发音标准以及讲话逻辑，这项技术主要应用在语言教学以及语音标准检测中，能够精准判断不同类型的广播电视内容。

4.3 构建精准的违规信息定位体系

智能语音识别分析技术的主要应用目的在于定位广播电视节目中存在的违规信息以及不良内容，而传统单纯依靠画面和语音特征识别的方式，无法快速有效地发现违法违规信息，同时也难以定位其中的意图导向，因此，需要在传统语音识别的基础上，配合语义分析，从汉语言学的角度分析讲述的具体含义，同时定位同音、同形、同义等方面的差异，还可以及时地更新和跟踪网络新词，对于当前的各类缩写、流行词也可以进行精准判断。

另外，智能语义分析系统又配备了神经网络算法，可以结合当前的大量违规案例，进行持续性的机器学习［7］，促使在后续的语义识别以及语音识别中快速定位新的违规行为以及违规信息，准确地分析文本的内在逻辑以及思想含义，从而提升违规信息识别的精准性。

结束语

综上所述，在当前的广播电视监测工作创新和发展的过程中，依托人工智能技术实现智能化的语音识别，同时配备精准的语义识别体系，能够在传统广播电视内容监测的基础上，分析节目的核心要义以及想要传播的思想，这种方式可以进一步提升识别的精准性。而在未来发展的过程中，需要将发展重点放在语音识别分析的内在逻辑以及全智能演变方面，进一步脱离人工干预，提升监测的效率和质量。