探讨语音识别技术在智慧广播中的应用

2022-02-08 08:35马春娟

数字传媒研究 2022年4期

薛丹马春娟

1.2.河北广播电视台河北省石家庄市 050000

引言

现阶段大部分广播节目的主持人、编辑、记者制作广播节目时还是采用传统的方式，需要对大量的录音进行反复的播放、回放、剪辑、核查，音频剪辑软件只能通过反复的听和定位后，才能确认需要剪辑音频的位置和长度，无法把音频涉及的文字和实际的音频对照起来。这样不仅剪辑时间耗时较长，而且剪辑出的音频效果也不理想。随着越来越多的广播节目引入视频直播模式，字幕的实时生成需求也越来越强烈。近几年语音识别技术有了很大的发展，语音识别技术应更好地到智慧广播的建设中。

1 语音识别技术

近几年，人工智能，大数据等技术快速发展，语音识别技术也发展迅速，将输入设备比如话筒、录音机等输入的语音信号转换成音频信号，使用傅里叶变换将音频信号由时域变换到频域，方便进行音频信号的特征提取，再进行模式匹配等多个步骤，最后输出相应的文本信息。它是一门同时贯穿了多领域的技术，如信号处理、模式识别、听觉机理、人工智能等，语音识别技术在多种领域得到很好的运用，如在家居、手机、证券业等方面。

语音识别的准确率不断提高，在声音环境较为简单的场景下对标准发音的中英文识别准确率均达到了98%以上。同时，深度学习技术研究的不断深入也促进了智能语音技术的发展。深度学习技术在语音识别中的运用使语音识别技术可以根据处理内容智能地优化不同场景的识别结果，越来越符合实际的生产需要。

随着新技术不断地产生和运用，广播电视正从信息的生产者、传播者，逐渐转型升级为新生活方式的倡导者、组织者、提供者，智慧广电就是一大趋势。语音识别技术可以助力广播电视行业在内容生产、播出形式和安全监管等方面实现融合创新，并且还可以结合其他人工智能技术，实现广播业务向智能化转变。

2 语音识别技术在智慧广播中的应用

充分运用大数据、云计算、区块链、人工智能、语音识别技术等广播发展前沿技术，助力广播由传统媒体向全程媒体、全息媒体、全员媒体和全效媒体的完全转型，推进广播在内容制作、分发传播、用户服务、技术支撑等方面实现智慧化升级，实现广播“可视化、互动化、图文化”，基本形成智慧广播发展模式。以“AI+广播新技术”为平台，利用语音及人工智能交互、云计算、大数据等技术，推动广播媒体的创新、转型、发展。

2.1 语音识别技术在采集音频中的应用

广播节目一般采集的是音频素材，通过采访机、麦克风或者内录得到节目音频资料，可以通过语音识别技术转写成文字，转写可以为实时和非实时，最终得到音频和文字的两种格式的资料，可以通过文字快速定位音频的位置，也可以通过音频实时转换成文字，边转写边修改，从而实现实时新闻类节目的快速成稿。目前依靠语音识别技术，语音转文字的正确率达到了98%以上。

配合云技术，生成的音频和文字可以上传到云端，运用云端的服务实现音频、文字、图片视频的混编，生成多媒体稿件，利用云端实现稿件的编辑，审核，分发和播出等。提供智能审核功能，不仅对技术质量进行自动审核，更可以直接过滤敏感词，生成关键词。提升了成稿的速度和效率，保证了节目素材的及时性。保存在云端的稿件和素材可以随时在台内和家中进行编辑制作，扩展了办公场所，方便了编辑记者们的工作。

2.2 语音识别技术在节目制作中的应用

采用语音识别技术，可以将语音实时转换成文字，结果即时保存，实现录音即时成稿。通过转写结果词汇自带时间码功能，用在调整转写结果时，包括增、删、改语句的时间码会根据词汇时间码自动进行匹配，无须进行调整，有效提升制作效率。通过文本可以快速定位语音位置，并且可以通过文本编辑实现对语音的编辑。可对语音进行翻译，制作字幕和文稿时，语音实时转换成文字，快速实现双语字幕制作和文稿翻译。实现语气词过滤功能，自动把“嗯”“啊”等语气词和重复的字“这个这个”进行智能处理。具有识别禁忌词功能，可以设置关键词，系统对设置的关键词进行屏蔽。语音转换成文字时自动实现对匹配到的关键词进行过滤，实现了广播节目禁忌词的自动过滤。具有分句分段功能，结合语音特征，通过联系上下文和语句的停顿等方式，对句子段落进行划分，综合运用上下文相关语义特征和语音学特征，解决分句与分段问题。

利用云技术，将半成品的稿件实时存储在云端，随时访问下载，随时编辑制作和发布。外采记者无需到台内制作机房就可以实现节目的编辑制作。存储在云端的音频可以实现云存储、云拆条、语音识别、主持人识别等功能。

2.3 语音识别技术在媒资系统中的应用

通过语音识别等人工智能技术，解决当前音视频管理中检索，编目困难的问题，满足行业人员对音视频内容检索、自动编目、自动化标签的需求。主要功能包括内容识别、内容检索等。内容识别实现音视频内容的自动标签和编目的功能；内容检索，通过文本对音视频内容进行智能检索。音视频素材自动转写，对转写内容进行内容标签标识，用以对关键内容提取，不仅有效提高音视频素材的结构化效率，也满足音了视频素材的准确检索需求。相比于目前通常采用的人工检索的方式，计算机自动处理有着速度快、效率高等特点，尤其是针对需要同时对多套节目进行实时索引的场合，自动处理技术更是具有不可替代的作用。

2.4 语音识别技术在节目监测监管中的应用

针对影响到安全播出的，节目中出现的禁忌词汇，或因播出信号受敌对势力攻击而出现的一些敏感词汇，可利用语音识别技术对播出信号进行实时监播，一旦出现被认为是不适宜的关键词汇，都将进行报警提示。目前的广告播出情况仅由人工进行播出记录，工作效率较低。可利用原音匹配技术，对广告的播出情况进行实时或播后监播，实现自动、高效的广告监播和统计。视音频搜索与文本搜索不同的地方就在于，视频、音频文件的内容并非直接可见可听，需要有专门的播放器，传统的搜索引擎就只能对这些视音频的描述信息（元数据）进行搜索，而无法直接搜索其内容，对用户产生了很大的局限。视频或音频节目，通过连续语音识别处理，将其中的语言信号文本化，搜索引擎再对转换获得的文本进行内容搜索，满足了用户不受媒介限制、完全基于内容的搜索要求。

结束语

广播电视行业科技依存度高，必须紧跟科技进步的步伐，把新技术更好地运用到广播行业的发展中去，推进“智慧广电”建设，有利于广播行业从数字化向智能化的战略转型，抢占新一轮发展制高点。智慧广电是一个不断探索、不断改进、不断提高、不断完善的过程。语音识别技术运用到智慧广播中，可以提高工作效率、降低人力成本，扩展媒体从业者的工作模式，使广播节目的创作形式和创作过程更加丰富，更加便捷。笔者从语音识别技术的概念写起，分别描述了语音识别在广播业务的采编播环节、媒资管理环节和监控监管环节的应用。随着语音识别技术的不断发展，相信在不久的将来将会有更多的新功能运用到智慧广播的应用领域，给广播的制作和传播提供更多的便利，为听众创造福利。