福建省广播电视节目智能语音分析系统研究与应用

2021-02-03 07:43欧智坚
数字通信世界 2021年1期
关键词:闽南语音频福建省

郑 晔,欧智坚,杨 艇

(1.福建省广播电视监测中心,福州 福建 350001;2.清华大学电子工程系,北京 100086)

0 引言

福建省广播电视监测中心在福建省广播电视局的带领下,结合福建地缘特色和智慧广电监管工作实际,开展了闽南语语音识别在福建智慧广电监管中的应用场景及关键技术研究。在前期的研究基础上,本次将语音识别技术、语音合成技术与自然语言处理技术和目前监测中心的广播电视监听监看系统等业务系统进行了对接,极大地提高监测监管的效率。

1 智能语音识别技术在智慧广电监管的应用

福建省智慧广电监管平台建设的技术路线,是根据福建省广播电视监测监管开展现状及发展规划,采取由基础到全面、由部分到整体、由简单到复杂、由自动到智能的方式,逐步完善监管平台。

福建省智慧广电监管平台通过统一数据接口,获取到黑广播监测设备、广播电视监测设备、 IPTV 监测设备等各个监测监管设备采集的音频文件以及视频文件。由于闽南语广播电视节目中普通存在闽南语和普通话夹杂的情况,利用单一的语音识别技术,无法有效地针对该情况进行识别和分析。本文创新性的使用 VAD、LID 等技术针对闽南语和普通话新闻内容进行识别分析,过程如下:

(1)首先通过接口程序与现有的各个业务系统进行数据对接。

(2)通过统一的音视频处理程序将音视频文件处理为标准的语音识别格式, 16 kHz 16 bit 单声道的 WAV 文件。由于语音文件中包含大量的静音、音乐、噪声等内容,通过利用语音端点检测( VAD 是Voice Activity Detection 的缩写)技术,从带有噪声的语音中准确的定位出语音的开始和结束点,将整段的音频文件划分为多个音频片段。选用特征 MLER (Modified Low Energy Rate)[1],[2]的分类方法,把音频信号分成纯语音、非纯语音、音乐、环境音和静音 5类。

(3)将语音类型的音频片段利用语种识别程序,给定一个待聚类的语音,对其以句子为单位进行切分并转化为梅尔倒谱,通过x-vector 提取器来提取每个句子的语种特征矢量。使用 Joint Bayesian 算法来对语种特征矢量两两进行评分,来计算句子之间的相似度;最终使用层次聚类得到最终的语种识别结果。

(4)通过使用 websocket 协议根据语种信息将音频片段发送至对应的语音识别引擎[3],[4]。语音识别引擎通过加载声学模型、语言模型以及词典对音频进行解码,输出每个音频片段对应的文本结果,并结合VAD 分段信息,将各个音频片段的信息进行汇总整合,形成整段音频文件的文本结果。

(5)通过关键词文本检索技术,针对音频文本结果进行全文检索,匹配出所有的关键词信息以及开始时间、结束时间;通过中文分词、词性标注、专名识别等功能,统计出指定词性关键词出现的频率,形成关键词词云;通过采用基于情感语义的舆情分析技术,针对文本内容进行整理、跟踪、分析,利用智能标签、智能聚类、自动垃圾过滤,准确把握网络热点事件的脉络。

(6)通过统一数据接口将音频内容以及对应的文本结果上传至黑广播监测系统、广播电视监测系统、 IPTV监管系统、网络视听新媒体监管系统、广播电视收测系统等各类监测监管系统。

图1 智能语音识别技术在福建省智慧广电监管平台的应用

2 福建省广播电视节目智能语音分析系统总体架构设计及功能

2.1 总体架构

根据系统建设内容,为使广播电视监测监管平台业务全面化、数据分析深度化、数据安全保障化,更好地利用各子系统的相关数据,避免资源浪费,实现数据的横向共享。本系统将广播电视监测监管数据流的各层次融合到一起,包括数据源、研判层、应用层、服务层。同时,通过智能语音识别等人工智能技术,实现事件预警、舆情分析、内容违规报警等功能,总体架构如图 2所示。

图2 福建省广播电视节目智能语音分析系统框架

(1)数据源。广播电视监听监看的数据源主要包括广播和电视两种,通过接口协议获取广播电视原始音视频文件,通过 EPG 分析获取新闻、访谈类节目,对原始的音视频文件进行切割合并形成新闻、访谈类媒资库。

(2)研判层。基于智能语音识别、语种识别技术、中文分词、命名实体分析、情感分析等多维舆情分析引擎,并结合舆情知识库针对媒资库的音视频内容的进行聚类分析,形成对应的新闻、人物以及事件分析结果。

(3)应用层。在本层实现数据的处理与展现以及广播电视内容效果监控工作,以完成对广播电视的监测,完成节目内容的实时监测、热点事件分析统计,实时统计分析。

(4)服务层。用户交互层主要是将通过研判层的数据结果展现给监测人员,辅助业务人员完成广播电视监测监管工作,其主要功能包括:系统预警发布、人工值班监测、大屏数据展示、定制报告。

2.2 系统功能

系统包括电视栏目、广播栏目、综合舆情、技术审核、专家评议、综合检索、统计报表、系统管理等模块。以电视栏目为例,左侧显示福建省所有广播电视频道以及监测的栏目,通过点击栏目名称,中间的音视频播放区采用 HLS 流媒体技术播放指定的栏目,页面右侧显示出该栏目的语音识别结果,包含普通话及闽南语。页面下方左侧采用关键帧形式能够快速的针对视频进行浏览,右面下方右侧通过自然语言理解获取该栏目的高频词并及词云的形式进行展现。系统界面如图3所示。

2.3 应用效果

通过将智能语音识别引擎与广播电视监测监管系统对接,在半年的系统试运行期内,系统共针对**个广播频道、**个电视频道进行监听监看,通过声学模型及语言模型的不断自学习,闽南语识别准确率超过 85%,普通话识别准确率超过 95%。

图3 福建省广播电视节目智能语音分析系统示意图

3 结束语

系统充分利用了多语种语音识别、知识图谱等人工智能先进技术,提高了广播电视监听监看审核人员的工作效率,已经成为维护国家安全和社会稳定、推进文化改革发展和提高文化软实力的重要一环,更是广播影视深化改革、加快发展,确保广播电视内容导向正确和文化安全的重要保障。同时闽南语的智能识别研究也为后续福州话、闽北方言建瓯话等语种的识别研究提供了方向,也可推广应用至其他小语种识别。

猜你喜欢
闽南语音频福建省
厦大研发闽南语识别系统
福建省“两会”上的“她”声音
第四届福建省启明儿童文学双年榜揭榜
必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇
基于Daubechies(dbN)的飞行器音频特征提取
第三届福建省启明儿童文学双年榜揭榜
闽南话
闽南话
音乐特点在闽台闽南语合唱的分析
音频分析仪中低失真音频信号的发生方法