南通大学公共卫生学院实验中心 黄弋石
为了解决语音识别合成的建模,在前人波谱概率特征的基础上,提出语音拓扑变换不变理论。组建了一个新颖完美注音体系,使得沪语语音的发音与拓扑注音方案,一一对应。使用同样的理论,建立了音色一一对应拓扑不变方案,与语气一一对应拓扑不变方案。提出了音色指纹理论与语气指纹理论。如果结合语音识别与合成理论,其应用前景是广泛与极有人文价值的,也可以将这个拓扑模型,推广应用到其他汉语方言。
沪语种类的演变与未来。沪语由于历史原因,大约形成了50 种不同亚类。举个例子,历史上的富人区静安口音与川沙口音,曾经代表了特殊文化与经济背景。现在,在沪中学生的口音是属于现在使用人群中使用范围最多,也是最有希望成为主流的口音。总之,沪语语音识别,需要一个杀手级算法,能够做到,上海人能识别则软件就能识别。
沪语语音识别与合成的价值。沪语地区经济发达,当地人喜欢讲上海话,把沪语作为文化标记。所以,沪语识别有潜在的文化价值与经济潜力。
本文提出了拓扑不变波形匹配算法。声音音波按长短分类,分为,句子、词组、单字、音节、音素,同时有音色差异,语气差异。同一个单词,如果变化波形的高度或平移频率,人都能识别。所以存在一种拓扑不变波形匹配算法,能够做到,人能识别则软件就能识别。
简单注音体系。比较典型的就是汉语拼音注音体系。使用这个体系,可以标注沪语、粤语和南通话。但是,这三种方言的字词例如父母,都可以标为(fu、mu),但是,由于音色语气不同,听起来,会有沪语音色、粤语音色、南通话音色的区别。也就是,汉语拼音体系的确是可以标注大多数汉语方言,但是,不是准确标注。
复杂注音体系。这是西方语言的语言学注音体系,用于区分有口音的英语,比如有德国口音的英语。可以使用详细语言表述与简单符号体系标注,以示区别。这在英语语音学中,很常见。这种方法如果移植到汉语方言,显然是不合适的。
完美注音体系。使用音乐记谱一类的方法,记录语音音色与语气,再与汉语拼音体系相结合,可以创立一个完美注音体系。基于这个体系建立模型,可以推导一个算法,能够产生一一对应的唯一算法,被称为拓扑不变的波形建模。
拓扑不变波形匹配算法。又称为,沪语语音人工智能算法。现定义,元音与辅音、次元音与次辅音、特殊元音与辅音、音节与特殊音节、音调算法、语气润色算法、音色算法。
对于(fu、mu)这个发音,如果平移音高(纵坐标)与一定范围频率,保持其拓扑不变波形特征,这个发音依然被唯一识别为(fu,mu)。通俗地讲,成年男子、成年女子、男童与女童发音(fu,mu),都可以被唯一识别为(fu,mu)。
又比如,同样一个乐谱,可以使用钢琴、小提琴与小号来演奏,反过来,也可以记谱。前后的乐谱会完全一致,但听起来,是三种不同乐器,这就成为乐器的音色。
前人的模型[1-8],承认是有这种算法,但是,前人没有找到。前人一般喜欢,划出两个频率谱线,如果采集目标的九成概率值落在两条谱线所包含范围之中,就成为同一波谱认定。前人使用的是概率。而本文引入的是对上述建模,进行拓扑不变原理的再次建模。使用拓扑不变的定义与计算,来描述前人的模型。这个模型,是十分简洁的,但是,不容易想到。
百字百句破解沪语语音技术。语音识别有两种层次,一种是不需要训练,对任何单词句子都可以识别;另一种是,要对特定讲话人,实施个人特征建模,然后可以识别。这两种技术,都依赖百字百句破解语音技术。破解可以使用人工建模,也可以使用神经网络识别程序辅助。现在,在完美注音体系下,这只是一个研究建模工作量,是很大或是很小的差别。
现代沪语训读与沪语语音规律。训读是指,建立沪语语音模型后,对普通话任何词汇,可以使用沪语语音规律发音,听起来像是沪语,其实沪语中有时根本没有那些普通话的字词或句子,这就叫做训读。训读建模如果完成,则可以证明这个模型是正确的与有效的。
当代沪语与历史继承。建国时流行沪语种类与现在在上海中小学学生中流行的上海话已经不一样。也就是,沪语中大约有50-100 个细小的语音分类。只要人脑能够识别,那么计算机软件就能识别。但是,其具有巨大的工作量。这个巨大的工作量,需要时间精力,但是,最后一定能解决问题。为了解决这个问题,就必须先建立一个字句自动分析与建模软件。只要不同的标准音发音者,读出指定字词库与语句库的素材,软件就自动产生模型的所有参数。这一参数体系,必须符合完美注音体系的各个指标。
语音合成。语音合成是一个很成熟的技术,其人很容易识别那些机器人的语音。主要因其是前人的音色算法,是建立在概率模型上的,所以,合成的声音比较生硬。如果使用语音拓扑变换不变原理建模,建立一一对应语音效果,则合成的声音是自然的。
音色算法。千万个人有千万种音色,被称为声纹,类似于指纹。理论上,对于普通话,存在1 亿中以上的音色,也就是声纹。讲沪语的人,不会超过3 千万人,也就是有3 千万种音色声纹。使用自动音色建模软件,可以自动生成每一个人的音色声纹特征。这意味着,英语也有1 亿种甚至20 亿种音色声纹。显然,可以将沪语的声纹,赋予到普通话与英语。
音色润色算法。音色声纹建模参数生成后,反过来可以用于合成沪语语音的过程。这不过是简单的计算,是绘制声音波形的一个过程。
语气算法。仔细观察一个人,一个人在反复讲同一句话或同一段话时,让人听起来并不是完全一样,这就是,语气指纹在起作用。语气指纹的建模,类似于乐谱的撰写与音乐合成。将语气指纹,比喻的看成字词语句,再按照特定的乐谱唱歌。显然,这种自动生成语气指纹参数的模型,工作起来是很容易的。
首先,使用物理电信号转化技术,将语音以模拟信号表达。再通过数字化转化技术,变为数字信号。然后,通过分帧技术,变为加窗短时信号。提取时域参数、频域参数,通过矢量量化技术,使得参数匹配特征与波形的一定范围的平移、纵向升缩、横向伸缩的调整行为后果,没有定性的影响关系。产生拓扑变化特征不变的特征参数集合。
使用模板匹配法对采集信号与软件数据库中的参数进行比对,符合统计特征认定范围的匹配,由以下算法确认。
通过矢量量化降维技术,对用户的语音特征参数与软件内置各个模板进行相似度比对,提取统计概率上最接近的,作为最后识别结果。
如果使用传统数学方法计算,计算的工作量巨大,计算机的硬件难以承受。所以,引入神经网络拓扑自主学习系统。比较有效的是神经网络遗传算法,可以大大减轻软件的运行压力,提高了识别的时间性效率。
对每个语音窗信号,进行正向与逆向的傅立叶变换,提取20-50 个参数,有时甚至高达100-200 个参数(参数越多,后继的语音合成的仿真度越高,如果硬件条件许可,提取500 个参数,是最为理想,后继合成的语音,能够以假乱真),来描述每个帧,使用聚类概率算法,建立输入信号的特征集合。
构造神经网络自学习层面的拓扑结构,人为的控制交叉变异进化的比例特征,挑选出最优神经认识的进化模式,大大减少了神经认识最终确认的迭代计算训练次数。
人工神经网络可以通过自学习自训练,处理语气与音色,使得合成的声音更加接近真实(没有机器味道)的模仿对象。合成语音的算法,只是语音识别算法的逆运算。请注意,如果硬件许可,可以将窗口特征参数调整到1 千个以上,这时模仿对象的语音可以很逼真自然。但是,对于语音识别而言,50 个参数已经足够有效。
如果对大段连续语音素材实施识别,还必须引入语意与语境的概念,这样才能避免产生某些少量的同音同义词的干扰,使得在语音合成时不至于产生少量字词误差,这属于另外一个学科,就是沪语的语义识别的范畴。通过建立大型数据库,可以实现以上目的,通过已有的现成的方言字典,预计可以解决这个难题。
语音合成的最大难度是模仿自然度的问题,就是说话像是真人说话的口气语调。人是有能力识别外国口音或外地口音,甚至对于同一种方言,可以识别城里人口音与农村人口音。甚至可以识别高兴与担心的口音,常识都知道,依据语音语气可以推断说话背后的隐藏意思。也就是,人既然可以识别,那么,一定有数学规律,让软件也能识别。
最简单的语音合成,是要合成词组,就是读出的词组不像一个一个的字蹦出来。然后,要解决的是将每个词组连接起来,要像真人说一个个的句子。接着,每个句子的语气也不一样,要符合自然讲话的要求。最后,每段讲话之间,要有语气呼应,如同生活中的讲话一样。只要有一点点与自然语音不同,就会被识别为机器伪造的口音。
所以要引入一个新的概念,就是语义识别与合成。语义识别的最基本算法,是将每个字或词组,使用统一的内部自定义算法,翻译成机器内部意义,从而识别在不同语义环境中的字词意思。常见的汉字,就7 千个,但是,通过排列组合所形成的文字,可以达到几乎无数的效果。语义识别是听得懂,语义合成是讲得出。
只有建立语义识别与合成的算法,才有可能完成模仿自然讲话的效果。日常可知,同一句话用不同语气可以会有截然不同的暗示意义。解决这个问题,由于工作量巨大,所以,只有借助于神经网络自学习功能。
与人机接口技术互相渗透。人机接口技术,涉及到隐私与伦理,所以,希望使用语音自动识别与语意自动识别技术。当两个人使用人机接口连通时,这一语音语意识别技术,可以建立隐私屏障与伦理保护。
移植仿真机器人与语音语意识别合成。可以模拟亲人情侣之间的聊天对话,如果是发生在未亡人与故人之间,那是一种天大的安慰。
这一技术还可以用于影视自动语音合成配音,模仿对象是普通话,却讲出了上海话。同样,讲英语的人,讲出了普通话或沪语。
如果将这一语音拓扑不变建模,应用到汉语其他方言或英语,那显然,前景是广阔的[9-11],潜在的市场也是巨大的。