福建船政交通职业学院 吴毅君
面对日益增长的需要,播音自动识别系统的开发设计需要引入人工智能的技术理念,通过人工智能技术的支撑,可以让播音自动识别系统更加智能化、精确化和快速化。针对这种需求,本文从硬件层面和软件层面完成了人工智能技术下的播音自动识别系统的设计,系统硬件由VS78型号的主机、结构框架解调设备、信号接收机、芯片以及TI处理器组成,广播自动识别系统的工作需求采用HI89型号的芯片、软件系统关键词程序、自动识别程序和音频处理程序三个部分组成,文章将针对整个硬件和软件的设计过程进行详细地说明和分析。
随着科学技术的发展,信息传播的方式越来越丰富,除了传统的实体刊物、报纸、电视广播等方式,人们还可以通过智能手机、电脑等终端设备从网络获取信息资讯,极大地方便了人们的生活。对于播音来说,听是最主要的信息接收方式,但是在一些特殊的场合下也需要文字字幕来配合,文字字幕目前流行的匹配方式是人工手打和智能识别两种试,人工匹配准确率高但是费时费力,带来极大的工作量;智能识别是利用算法自动识别语音内容,并将语音内容转化为文字内容的方式,在目前的技术水平下,识别速度已经达到了一个可以接受的水平,但是准确率有待提升。
播音自动识别系统主要是进行两个步骤的处理,即提取信息和处理信息,提取信息是指的取得音频信息,并将音频信息进行预处理而转化成可处理的数字信号。在播音信号中存在大量的非线性、非平稳特征的常见信息,同时也存在大量的无用信号和干扰信息,需要通过智能算法对此进行分类处理,自动识别出有价值的、内部时域和频域中所包含的信息。想要实现自动识别需要借助于人工智能技术和智能算法,通过程序的自我学习来不断的优化算法以达到精确识别的目的。想要实现自动识别就需要用到人工智能技术,人工智能是近十年间兴起的热门技术。人工智能包括智能人、语言识别、图像识别和转接系统,通过人工智能来模拟真实世界的行为是人工智能技术最高层次的应用。传统的播音识别系统最大的问题就是准确率低,还需要在后期由人工进行核检,无法达到“智能”的水平,通过引用人工智能技术,可以设计一种新的播音自动识别系统,大幅度改良识别的速度和准确率。
硬件部分的设计首先要考虑的是其性能和功能要满足软件设计的需求,即在硬件水平上做到与软件程序相匹配,合理的硬件设计可以让系统的运行更加高效稳定。在设计硬件时要充分考虑软件正常运行所需要的配置水平。本系统的设计是基于人工智能的播音自动识别系统,其硬件部分整体结构如图1所示。
图1 播音自动识别系统硬件设计
硬件部分的信号接收机使用无线网络连接到局域网中,无线网络的设计使得其便携性和扩展性更强,同时也不需要再进行硬件器材结构上的改进。无线连接时,数据信息通过无线电波传输,接收到的信号类型分为两种,一种是来自于定向的信息,一种是来自于全局的信息,在接收信号时为了防止无关信号的干扰,将频率段设置为100~1300Hz,这一频段拥有较强的抗干扰能力,同时也符合国际波段使用标准。
在本系统中,信号接收机对于在可识别范围内存在的声音的识别分析速度为210MHz/s,速度设计合理,并且还能够对不同波形、不同频率的广播输出信号进行识别,性能方面可以保证能够同时并行处理来自6个不同频道的广播音频。该接收机拥有多方面的优点,比如可以充分地保证数据的安全性和完整性,同时还拥有自动录音备份功能,防止接收机突出现宕机故障而损失已经接收到的关键音频信息。在系统的设计中,有几个需要特别注意的点,其中最重要的一个方面是需要在广播节目开始播报前的5min进入到对应频道中,然后运行系统开始进行录音和备份,这样做的主要目的是为了保证可以在最一时间接收到开始的广播信息,防止信息出现不完整的情况。
主处理芯片使用的是HI89型号的芯片,作为系统中最主要的一个部分,芯片的选择需要考虑很多方面的问题,不仅要有强大的数据存储性能,还需要满足稳定、安全等要求。这一款芯片是最新研究发布的高新技术芯片,其性能和设计规格符合人工智能技术的实现要求,HI89有四个通道的接口,在读写性能上表现尤为突出,可以在不到一分钟的时间内完成1GB数据量的广播音频识别,是保证系统运行速度的关键器件。
基于人工智能的播音自动识别系统的TI处理器主要是负责对音频的自动识别功能,执行的主要操作是数据处理,是整个系统的核心元器件。TI处理器睿频频率高达4.1GHz,额外具备300个系列的主板功能,处理器的基础频率为3GHz,完全可以满足本系统性能需求和功能需求,运行效率强大,并且可以对运行时的功耗及处理器温度进行动态监测,根据温度的高低智能控制散热风扇的开启,实现节能的目的。
硬件需要配合软件程序才能完成工作,软件部分的设计由自动识别、音频处理和关键词处理三个主要功能组成,通过这三个功能共同实现了人工智能语音识别功能。关键词处理模块的功能是利用关键词词库来实现关键词的对比和匹配,通过关键词进行音频文字的识别;音频处理程序主要实现的功能是对音频信息的加工处理,过滤掉一些由噪音带来的物理化信号,方便进行后续的识别工作;自动识别程序主要的功能是进行音频的识别,通过复杂的数据分析将音频信息转化为文字信息。针对此三个软件的功能和设计思路,下面将对这三个部分进行详细说明:
音频处理程序是一个预处理阶段,由于音频是实时播放的,在收集到音频数据之后这些信号并不能直接交由处理器来处理,而是需要进行预加工。预加工的主要目的是过滤以一些物理化的音频数据,这些数据主要是由环境噪声和其他噪音组成,如果不将这些噪音数据过滤掉就会让后续的自动识别准确率和成功率降低。整个调解流程大致是先对播音数据进行识别,分析数据是否存在异常情况,如果存在异常情况就将异常数据传输给主机,如果没有发现异常则继续运行。
通过人工智能技术,可以对播音信号频率进行有效的扫描和识别,再根据已经设计好的算法将这些波形信号和频率信息转换为文字。自动识别程序处理的步骤是首先程序会对播音音频进行预处理操作,并参照相应的声学参数进行分析,识别出播音音频的初始文档,再对初始文档与播音音频进行二次对比,对比之后加以核对和纠正,增加识别的准确率。数据的处理的时候需要进行拼音文法比对和声学模型对比,同时还要进行关键词识别,通过多方面的分析、纠正和比对之后最终得出最后的输出。
关键词处理的本质是进行关键词匹配,这也是整个自动识别系统的关键之处。在人的正常发言中,一段话可以拆解成多个关键词,通过检索关键词可以得到整句话大致的意思,而人工智能识别系统之所以可以快速地将音频信息转化为文字信息,主要的实现手段也是对信号进行匹配。在处理的过程中,程序会对整个句子进行拆分,并将拆分的部分与库中的关键词进行快速扫描匹配,这样一来,只有关键词库的词充足且结构合理,才可以准确地完成自动识别工作。词库的获取可以从网络上进行收集,网络上有许多特定领域的词库,这里主要是使用广播电视台的广播词库。为了保证关键词的独立性,关键词的字节需要控制到6个字节以内。
关键词处理程序的核心设计要点除了词库的建立还有智能检索和匹配,每一个关键词都拥有自己的数据特征,在传输而来的音频数据经过其他步骤和处理之后,就可以根据信号的数据特征来进行匹配,检索速度是决定匹配速度的关键性因素,基于人工智能的检索机制可以实现检索匹配的智能化。当在自动识别的过程中查询到了几个相似的关键词,为了提高准确性,通常需要进行反向传播识别,反向传播的公式如下所示:
在反向传播公式中,Wij代表着关键词的总长度,a为关键词的个数,α为文字相似的关联度,L(w, b)是播音音频文档的总字节长度,是降阶阶数。通过这一公式可以计算出关键词与播音文档的字节是否是同一长度。在解释相似度的时候,还需要借助于一些百科工具,这里选用的百度平台,通过百度可以解释两个关键词之间的匹配度,从而完成最佳关键词的最佳匹配,这一过程被称为降阶匹配法,如果一个关键词与对比片段的关联度很低,则继续匹配下一个关键词,直到找出最优解为止。
播音自动识别系统的设计由硬件层面设计和软件层面设计组成,其主要作用是可以实现将实时的音频广播转化为文字信息,满足特殊场景下信息资讯获得需求。本播音自动识别系统是基于人工智能技术,经验证后表明本系统拥有较快的识别速度和较高的识别准确率,完全可以满足日常的使用需要。本播音自动识别系统是人工智能应用的一个重要体现,也是智能化语言识别的一次大胆尝试,相信会对语音自动识别领域的发展起到一定的促进作用。