管海建
(湖北广播电视台,湖北 武汉 430022)
智能语音技术包括语音识别、语音合成、口语评测、语义理解、自然语言处理等内容。其中语音识别和语音合成技术使得各种终端具备了听说能力,在机器人、智能家居、移动终端等设备中实现广泛应用。随着5G 移动网络的普及和人工智能技术的飞速发展,语音识别和播报技术极大提升了应用程序中的交互效率和体验,在移动终端的人机交互中得到广泛应用,
1952 年,贝尔研究所成功发布第一个能识别简单英文和数字发音的试验系统。经过几十年的发展和进步,从字母、孤立词的识别逐渐发展到大词汇量语音连续识别。随着语音识别技术的不断进步,语音识别在优化模型的算法、语音特征提取和优化、提高系统的准确率等方面取得较大进展,相关产品也逐渐走向市场,端点检测、噪音消除、智能打断、大词汇量识别、特征提取、多操识别以及热词识别等相关课题纷纷取得突破。在全球范围内,智能语音技术商业化已经取得了很大的成果。国外的谷歌、微软、苹果等公司推出了智能语音商用产品,国内的科大讯飞、捷通华声、中科信利、云知声等语音企业以及百度、腾讯、阿里等互联网巨头也纷纷推出集成智能语音技术的产品和配套解决方案。此外,随着语音识别准确率的逐步提高,各类软硬件都开始集成语音识别功能,语音识别技术逐渐融入了有交互需求的各类产品。
语音合成指将以文字为主的媒体内容转化为人类语音输出,语音合成的产品用途十分广泛。和语音识别一样,语音合成也是智能语音技术的重要组成部分。语音合成可以将文字等媒体内容转译成自然清晰、标准流畅的语音输出,包括且不限于中文、外文或者方言等,可以实现不同音色的高度模拟。通过语音合成技术的应用,可以极大程度地提高媒体工作效率,例如路况、气象预报等都可以通过语音合成来自动实现。
语音识别系统相对复杂,技术原理涉及多个学科,包括信号处理、模式识别、统计分析以及人工智能等。语音识别主要采用模式匹配的方法,通过提取输入信号的声学特征作为模板存入数据库,在识别信号时与数据库中模板进行比较后输出相似度最高的结果。语音信号经过话筒输入采集转变成电信号,在输入端经过信号处理消除噪声,切除前后端的静音段,然后利用移动窗函数进行分帧,分帧后的波形再进行转换,每一帧波形变成一个多维向量,这个过程称为声学特征提取。目前,声学特征提取有多种不同的复杂算法。
系统模型的建立包括声学和语言两部分,其中隐马尔可夫模型是应用最广泛的建模方法。此外,人工神经网络也是语音识别技术发展的一个热点。虽然模型匹配的方法很多,但是受发音习惯、方言等的影响,很多语音还需要结合上下文的含义判断,准确识别相对存在一定的的难度。随着技术的不断进步,整个系统模型识别匹配的准确率一般都达到了90%以上,可以满足日常应用的需要。
近年来,深度学习理论被广泛研究与应用,智能语音技术在语音识别方面也取得了一定突破。通过各种带有语音功能的场景和应用程序,网络中大量的用户数据被不断收集和汇总到后台,有的语音产品仅针对唤醒识别一项功能就录制了超过8 万条语音来建立状态模型,这些海量数据通过神经网络的分析和学习不断完善数据模型和匹配算法。
在广播电视等媒体的节目编辑中,经常需要将采访中获得的大量语音素材整理成文字或者将播出稿件转换成文字稿、将语音信号转换成视频字幕等,这些刚性需求为智能语音技术在电台的融合与应用提供了契机。无论是广播、电视、报纸等传统媒体,还是以微博、微信、视频平台等为代表的新媒体,时效性一直是行业聚焦的竞争点。在采访(录音)、听音打字、整理写稿的过程中,整理录音和打字都耗费了大量时间成本,而利用语音识别技术能够显著降低成本并提高时效性。
根据广播电台的节目生产流程,广播节目件的生成通常需要经过音频节目的采编制作和新闻稿件的采编,包括采访写稿、审稿、存储、发播等环节。新闻稿件的采访会使用便携式录音设备,传统采访录音设备目前还不具备语音识别功能,需要将录音文件导出后进行识别。节目审听阶段,可以应用语音识别技术来进行关键字查找、定位。目前语音合成技术也逐渐成熟,合成效果已经很接近自然发音。在移动终端的应用中,合成语音播报天气、路况、讲故事等已经十分普遍。在电台节目播出过程中,可以尝试将主持人声音制作成语音库,输入文字后转换成音频稿件用于播出。
结合湖北台节目采编流程,笔者研发设计了一款基于Windows 操作系统的应用,即智能语音识别采编器,融合了语音识别、语音合成、字幕转写以及语音分析等多种常用功能。
语音音频支持内录、线路输入、文件导入等多种采集和导入方式,适合不同场合的语音采集工作。
内录是指录制本地计算机的音频,即计算机声卡所播放的声音,将声卡播放的内容识别成文字。这项功能多用于截取录制的采访录音或音频中的一段转换为文字,可直接利用操作系统自带播放器进行播放,同时打开采编器内录开关进行语音识别和转换。
线路输入指通过计算机声卡外接话筒输入音频信号,将话筒音频信号实时转换识别为汉字,可用于记者编辑采用语音写稿、会议记录、实时采访等场景。文件导入可将计算机内音频文件导入到采编器进行文字转换,适合转换已录制好的语音文件。
语音识别引擎安装在本地计算机,使用过程中不需要联网,语音识别过程不会受到网速的影响。在外接话筒进行语音识别时,转换的文字会在屏幕上实时显示,而且识别过程中可以随时进行文字修正。系统能够对识别出的同音词语结合整句话语义进行自动纠正和匹配,利用关键词也可以预置人名、地名等专用名词,大大提高了识别正确率。
传统的字幕整理耗时费力,利用端点检测、分段、语义理解等技术可以自动生成字幕,再由人工进行简单修正审核即可直接应用。语音转换后的文字生成字幕可直接拖放在扩展屏上显示,通过视频编辑软件丰富字幕场景。字幕转写功能可以为电台大型活动现场视频、会议大屏等提供字幕。
随着广播事业的发展,节目审听的工作也越来越多。作为媒体管理的重要组成部分,对音视频等的监管比对文字的监管要困难得多。传统的节目审听采用纯人工方式,由专人进行大量烦琐枯燥的机械性工作。而应用语音识别技术将关键词预置进审听系统,导入审听节目后可进行自动审核,系统检测到关键词则警报提示,大大提高了审听效率。此外,在语音识别转文字的过程中,可以将预置的关键词高亮显示或直接替换。
智能语音播报是基于语音合成业务提供服务,语音合成由底层服务来完成。通过语音合成服务的应用接入和调用,由系统软件实现对新闻稿件的自动播报。在实际应用过程中,只需要将文稿导入系统,由系统实现对新闻稿件的自动播报。
语音合成功能的实现分为文字和声学两部分。文字部分主要是输入文稿的语言学分析,生成发音规则。声学部分则根据发音规则来合成音频输出,实现发音的功能。对于输入的文本进行语种判断,然后根据文本含义进行字词断句拆分,根据词义结合上下文区分多音字歧义字等将文本标准化并转成语素标记。与此同时,还要分析标注字词连句的韵律、高低曲折以及抑扬顿挫等发音技巧。将标注的文本转化为声音输出有多种方法可以实现,比较普遍的是波形拼接法。波形拼接需要较长时间的人声录音采集,要能尽可能多地覆盖到所有的语音音节和音素。通过发音语料库来拼接对应的文本,录音时间越长,拼接发音就越纯正。波形拼接法输出音质较好,可以很好地模拟录制的人声来发音。此外还有参数合成法,通过录音文件的频谱参数来建模,建立文本序列和语音特征参数的映射关系,再将音频特征转化成音频输出。语音合成支持将录入的文字或者文本文件直接转换成语音,有标准普通话、地方方言等。转换的语音保存为音频文件,可以通过快捷方式上传到FTP 服务器,也可以直接通过本地声卡输出用于播放。
为了使合成语音后的文件迅速进入制播网络,台内制播网络也开发了一个文件扫描功能,播出系统扫描文字转换的语音并转码实现自动上单,用于节目制作和播出。湖北广播电视台广播智能语音识别采编器经过试用,语音识别速度和正确率都取得了令人满意的效果。将该系统与各地同行进行了共享交流,展示了其语音写稿、语音识别、字幕转写、智能语音播报等功能,系统实用性获得了大家的一致好评。
语音识别技术经过多年的发展己经相对成熟,其对标准普通话的识别能够满足人们日常工作中的需要,但是在方言和嘈杂环境下的识别正确率还有待提高。从目前的发展来看,语音合成播报已经开始逐步应用于实践,特别是在手机应用程序中取得了较多应用成效。人工智能合成的语音可以流畅地对文本播报,但是播报显得生硬,声音相对呆板,是否适用于实际广播播出还需要进一步论证和测试。在电台等传统媒体中,采访机、新闻采编系统、制播系统等软硬件系统都有着相对完善的体系。在不会大幅提升成本的条件下,如何将语音识别融入到媒体现有的采编和制播系统也是其在传媒领域进一步推广应用面临的一个难题。