殷建立 冯一龙
摘 要:本文将利用人工智能技术,介绍中文语音文本智能编辑系统的设计思路,并对其中的语言识别以及系统的运行流程进行了分析。总体而言,本文所介绍的基于人工智能的中文语音文本编辑系统能够满足语音文本处理的要求,具有先进性。
关键词:人工智能 中文语音文本 文本智能编辑
中图分类号:TP183 文獻标识码:A 文章编号:1674-098X(2020)01(b)-0138-02
1 人工智能技术在中文语音文本智能编辑中的应用
1.1 人工智能技术分析
本文所使用的人工智能算法为维特比算法,该技术解决了传统数学领域中隐马尔可夫模型中的问题,能够有效观察序列在隐马尔可夫模型中下任何有可能隐藏的序列。在人工智能的支持下,维特比算法能能够利用后向指向递归计算来获得不同路径中最优的路径。
在该方法下,人工智能数据处理的核心就是将动态规划算法的做简化,其中的关键数据步骤可以具体为:(1)在分析问题特征的基础上,构建状态转移方程;(2)以空间换时间。
维特比算法属于动态规划算法中一种常见的技术,目前已经被广泛的应用在语音识别、计算机语言等科学中。在技术应用阶段,可以在建立计算模型后,依靠该模型提高系统应用的时效性;在语音文本处理过程中,该方法通过构建语音与对应文本之间的关系,将采集到的文本字符串看作为时间序列,所以在数据处理环节能够快速定位对应的声音信号最有可能的文本字符串,具有技术先进性。
1.2 单位选择语音转换方法
在语音合成技术与人工智能技术发展的情况下,部分新技术的出现为语音合成提供了新的方向,其中的的代表技术具有单位选择语言转换方法,该方法以维特比算法为基础,通过对源语音作为查询、搜索的目标,尽可能多的将类似语音片段结合在一起,并在边界位置匹配。在余韵数据处理环节,首先选择将原音频与目标音频分隔成为相同帧的窗口,再寻找目标语音帧的最佳排列组合。该方法最显著的优势可以降低成本,包括所选目标与源帧之间的匹配成本以及相邻帧之间的连接成本。
1.3 范围选择算法的应用
在人工智能技术中,为了能够更有效的识别语音文本数据,可以在单位选择算法匹配过程中,预选三因素被转换成相应的帧。因此在本次研究中,本文基于维特比算法提出了一个新的范围选择方法,该算法的主要特征就是不再使用单独的框架,而是范围选择起始与结束的边界,获得连续帧的范围资料[1]。与传统技术相比,范围选择算法的优势为:(1)允许更精准的序列上把握各项数据的相似性;(2)以每个因素为核心,这种处理方法下的语音文本数据处理要比单词更加细腻,系统可以将元音与辅音直接拆分开来;(3)在算法处理期间直接将发音的持续时间作为评价成本函数的重要组成部分,因此可以选择更加符合不同常见的语音文本。
2 系统软件的实现
2.1 系统软件流程
本文所介绍的系统软件能够对各个语音表达过程进行模拟识别,通过基于人工智能算法的维特比算法做处理,期间的各项语音命令以及语音文本资料都采用“帧”的形式进行封装后再传输,其中帧结构主要包括帧头、语音区长度与数据区三方面组成。其中帧头占据一个字节,本文将其定义为十六进制的“0xFD”模式;数据区的长度采用两个字节表示,其中高字节在前,低字节在后;数据区的规格小于四个字节,有命令参数与命令字两方面构成,其中常见的发送数据包括:0x01、0x02、0x03、0x04,相对应的功能就是:语音的合成命令、停止语音合成命令,无参数、暂停语音合成命令,无参数、恢复语音合成命令,无参数。这种语音识别方法可以完成对整个语音数据的分析处理。
2.2 对语音文本数据的处理
在上述系统结构的基础上,根据系统功能设计要求,将语音素材做统计之后,将文本稿件直接在系统中形成文字稿;在这个数据处理环节,可以根据不同的命令字来控制语音数据识别的开始、暂停与结束,而在这个过程中,考虑到语音样本中可能会出现多种环境噪音,而为了能够有效提取其中的有效文本资料,则可以先通过机器将声音转变为文字,期间机器具有独立的文本转换能力,工作人员也有文本编辑能力[2]。在此基础上,在声音转变文字过程中,依靠维特比算法,在系统内核开始的基础上同步建立相应的文字与语音同步转换机制,这种转换就是“时间戳”,其中的技术要点就是要根据不同时间节点上的文本编辑截面做语音数据处理,并且按照语音文本的数据处理要求,由系统对语音做建模与语义识别,因此可以节省系统的运行时间。
而在对语音文本数据处理过程中,首先需要建立文本与音频的同步机制,只有在确保两者数据精准同步的基础上,才能在文字剪辑的同时同步处理音频资料。在这个过程中,按照数据区命令参数与命令字的数据要求,可以根据语音数据的起始与截止时间基础上自然过渡,并增加淡入淡出与静音时间的语音过渡数据处理要求。
最后为确保语音文本数据处理的要求,可以多音频做音轨剪切、复制和粘贴操作。这个操作可以和文字同步进行——也就是“双窗口”同步操作。而剪切文字对应的音频点位和语感处理,则需要由人工智能算法判断,以达到通过最少的时间操作实现过渡自然、语气自然的目的。
2.3 对语音文本的进一步编辑
从当前工作来看,对语音文本的进一步编辑能够更好的满足工作要求,所以需要在该系统基础上来增设语音文本编辑功能。以记者的日常采访文本为例,记者在将问题详细传输给受访者之后,受访者会根据问题阐述自己的观点,但是其中存在一个问题,那就是受访者可能阐述大量的信息,甚至信息跑题。针对这种情况,在音频编辑过程中需要戴上耳机逐字听受访者的回答,并裁剪掉其中出错或者冗余的语音资料。这个过程的工作效率低,甚至工作人员因为长时间工作出现差错。
而在本文所介绍的系统中,工作人员不需要逐字听音频内容,而是在系统支持下能够将采访内容转变为文字,这样工作人员可以在工作界面上直接编辑。例如有一段60s的音频,在音频数据文字转换期间,工作人员以20s为界限,输入“0x01”、“0x03”指令暂停语音文本,此时系统停止识别文字,工作人员能够针对20s内的语音文本信息进行编辑;在该阶段文本编辑结束后,再启动系统,由系统识别20秒的数据,以此反复,最终完成了对整个文本数据的处理。从效果来看,这种数据处理方法进一步减少了工作量,使工作人员能够更好的完成语音文本处理,提高了音频资料的数据能力。
从效果来看,本文所介绍的系统充分发挥了人工智能技术的优势,不仅能够直接识别语音数据参数,也能在不同人说话特征的基础上进一步识别其中的关键数据,系统对语音与文本的契合度很高,这是传统技术所无法实现的。
3 结语
本文所介绍的系统能够识别人工语音资料,通过该系统会进一步提高语音数据处理效率,该系统通过将语音资料转变为文字资料,使工作人员可以更好的识别其中关键数据,具有可行性。但是该系统目前正处于初步发展阶段,如何更有效的识别长篇幅的音频资料也存在很大的难度,值得关注。
参考文献
[1] 李宝祥.语音关键词检索若干问题的研究[D].北京邮电大学,2013.
[2] 邓正良,许伟彪,杨涠洁,等.电视天气预报文本转语音编辑制作系统设计方案[J].科技风,2011(20):51-52.