语音识别技术与新华社视音频应用

2013-03-18 03:00:36王可佳徐东健

中国传媒科技 2013年15期

文｜王可佳徐东健

一.引言

语音识别是一种让机器通过识别和理解过程把语音信号转变为文本或命令的高级技术，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域。近年来语音识别在视频领域出现了很多应用，如音字转写、固定音频检索、语种识别、音频特征提取、关键词检索等等。应用自动语音识别技术，将大大提高效率并大幅降低成本。语音识别作为一门交叉学科，经过多年的积累研究，获得了巨大的进展。特别是近20年来，语音识别技术取得了显着的进步，并逐步的走向市场。在未来的日子里，语音识别技术将应用更为广泛。

新华社在战略转型以及大力发展全媒体市场的背景之下，拥有丰富的多媒体及视音频资源，这些零散的资源只有基本的视音频文件信息，以及编辑进行编目录入的项目作为元数据描述。在浪费了大量的人力资源的同时，从视音频文件中获取的只是极其有限的信息。为了深度分析视音频内容，进一步挖掘媒体资产所蕴含的信息，并且充分利用其所含的价值，我们需要引入语音识别技术，在流程中对稿件内容进行进一步处理分析，从而做到节省人力成本，深度剖析视音频内容，实现新华社媒体资产价值的最大化。

二.语音识别技术的发展

语音识别技术通过全球科学家的共同努力，经历半个多世纪的研究，目前已经发展到了接近实用的阶段。在实验室环境下，大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。正式有了如此高的识别率之后，语音识别技术慢慢地从实验室演示系统逐步走向实用化商品。

1.世界语音识别技术的发展历史

1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研究成功了第一个计算机语音识别系统。大规模的语音识别研究是在进入了70年代以后，在小词汇量、孤立词的识别方面取得了实质性的进展。进入80年代以后，研究的重点逐渐转向大词汇量、非特定人连续语音识别。在研究思路上也发生了重大变化，即由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM）的技术思路。1987年起，日本又拟出新的国家项目——高级人机口语接口和自动电话翻译系统。进入90年代以后，在语音识别的系统框架方面并没有什么重大突破。但是，在语音识别技术的应用及产品化方面出现了很大的进展。2000年及之后，语音识别无论在系统框架还是在应用模式上都有了突出的进展，现在国外语音识别技术的准确率和效率都有了大幅度的提升，已经成为人工智能领域成熟的应用之一，并且进一步和云计算平台结合在一起，对外提供高效可用的服务。

2.国内语音识别技术的发展历史

中国的语音识别研究起始于1958年，由中国科学院声学所利用电子管电路识别10个元音。直至1973年才由中国科学院声学所开始计算机语音识别。由于当时条件的限制，中国的语音识别研究工作一直处于缓慢发展的阶段。进入80年代以后，随着计算机应用技术在中国逐渐普及和应用以及数字信号技术的进一步发展，国内许多单位具备了研究语音技术的基本条件。与此同时，国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点，发展迅速。就在这种形式下，国内许多单位纷纷投入到这项研究工作中去。1986年3月中国高科技发展计划（863计划）启动，语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在863计划的支持下，中国开始了有组织的语音识别技术的研究，并决定了每隔两年召开一次语音识别的专题会议。从此中国的语音识别技术进入了一个前所未有的发展阶段。中文因其具有的独特性和语义特点，令中国的企业机构在研究和发展中文相关识别技术时具有与生俱来的优势。这也就是目前国内主要市场仍被本土企业和研究机构所占领的原因。

3.云计算时代语音识别技术的发展

近年来随着计算机技术和互联网应用的不断发展，信息技术产业正逐步整合资源，进入云计算平台的初级发展时代。

语音识别技术作为人工智能中的一项重点和基础应用，已经和视音频技术、新媒体应用、移动终端应用等运用模式紧密结合起来。在模式提取以及模式匹配的过程中，需要耗费大量的物理存储和数据运算资源，因需求导致的将存储和运算资源整合起来提供对外接口服务的业务形式也就越发普遍起来。如siri、科大讯飞等等都是利用云计算平台提供语音查询、识别、转写等基本服务，让语音识别技术可以不再只是神秘的高科技，而是真正透过网络和云计算平台深入普通人生活的基础服务。

三.语音识别的基础应用

智能语音行业因为核心技术的缘故具有很高的行业技术壁垒，在全球范围内，只有少数的企业具有竞争实力，在国外，有Nuance、苹果、Google等；在国内，有科大讯飞、凌声芯、思必驰、捷通华声等。

国外语音市场主要以语音识别为主，具有代表性的产品有Nuance的Dragon Dictation，苹果新推出的Siri；而在国内，语音市场主要以语音合成为主，其中科大讯飞及捷通华声基本占领了语音合成市场。但随着世界范围内，越来越多的语音识别软件的涌现，如语音类搜索应用Dragon Search、语音类听写功能整合软件讯飞口讯、语音类音乐软件Shazam、口语在线学习平台思必驰AIChinese，以及语音控制软件Siri等，语音识别势必会成为智能语音市场的主流。

目前，全球语音技术市场规模超过30亿美元，近年来年增长率保持在25%以上，未来语音识别市场被看好，其中电信行业，移动应用领域，都会呈现出爆发式增长。

在语音识别的基础应用当中，我们按照业务模式和运用情况将其主要划分为以下的几类应用类型：

1.语音识别类应用

所谓语音识别类应用，即纯粹运用声学特征提取和匹配的应用类型。它的典型的应用为说话人查询、广告播出监控、非法语音信息过滤、声纹密码锁等等。该项技术旨在提取检测目标的声学特征信息作为模式，通过搜索或监控去进行声学特征的模式匹配。只有在两种声学特征完全一致的时候，才认为匹配成功。在这种应用模式下，程序不会进行语义分析，因为他只需要提取出声学信息即可，而不需要了解这段语音背后的内容含义。

2.内容理解类应用

我们运用语音识别技术，除了对于固定模式音频的声学提取与匹配之外，更重要的是要将其作为人工智能的其中一个重要环节，去减少不必要的人力成本，以及为人类提供更加方便的生活辅助。这样的应用场景之下，计算机对于语音中所蕴藏的语义内容是如何把握的就成了关键。为了合成出高质量的语言，除了依赖于各种规则，包括语义学规则、词汇规则、语音学规则外，还必须对文字的内容有很好的理解，这也涉及到自然语言理解的问题。音字转换过程是先将文字序列转换成音韵序列，再由系统根据音韵序列生成语音波形。因此一般说来，音字转换系统都需要一套复杂的文字序列到音素序列的转换程序，也就是说，不仅要应用数字信号处理技术，而且必须有大量的语言学知识的支持。这种情况之下，对核心技术的要求和应用的复杂度都会提高很多，因此，这也被普遍认为是语音识别技术乃至于人工智能技术中最复杂的应用模式之一。其典型应用形式包括：音字转写、关键词查询、字幕抽取、语音文件智能关联、语音合成等等。

3.网络服务应用

随着互联网技术的发展和移动终端的普及，语音识别技术已经被广泛应用于互联网服务当中，现如今，各大门户网站、搜索引擎、购物电商等纷纷提供了语音输入搜索的服务，用户可以很方便地通过移动终端的mic进行关键词输入，免去了繁琐的中文输入环节，为终端使用者提供了极大的方便。另外，随着云计算平台的兴起以及计算存储资源的深度整合，解决了单机版程序的规格要求和运行资源限制，使得利用云计算平台提供大运算量的语音识别、搜索等服务成了广泛的趋势。

四.语音识别在新华社视音频系统中的应用模式

经过近10年的数据建设和技术建设，音像资料总量已达近80万条，总时长5万小时，新闻类音像资料量在行业内处于领先地位。2008年后，随着新华社战略转型工作的开展和不断深入，我社视频业务实现了跨越式发展，目前视频节目制作量已是2008年之前的10倍以上。在这一发展过程中，音像资料库对视频业务的支撑与服务地位日益突出。据统计，2008年以来新华社各视频业务对音像资料的需求呈现爆炸性增长，目前总出库数量已接近15万条，总出库时长达1万小时，音像资料库的资料使用率在业界处于领先地位。2011年，我社已把视频业务的发展方向逐渐从量的提升转变到质的提升，充分利用好我社已有的音像资源，也将成为提升我社节目质量的有效途径。

拥有如此丰富的视音频资源，如何深度挖掘视音频文件蕴含的各种信息，进一步提升资源的价值变成我们重要的工作之一。因此，视音频系统需要引入语音识别技术，作为自身平台提供的基础服务之一，对视音频资源及其元数据信息进行进一步加工、提取与分析，实现智能而自动的后台流程服务。

在视音频系统中，为引入语音识别服务，我们按照调研资料和测试数据进行了初步设计，提出了以下几个应用场景。

1.音频特征提取

音频特征提取是语音识别引擎最基础的应用之一，它可以对音频数据进行处理，获得采样率、码率、时长等一些基础信息。并能够进行进一步分析，得到例如有无旁白、背景音乐等等辅助信息，为编辑人员进行简单编目和高级编目提供直观参照，可以提升编辑人员的整体工作效率（见图1）。

音频特征提取可以提供以下服务功能：

★ 提取音频文件基本信息，丰富元数据内容

★ 提取音频文件背景音信息，进行稿件进一步分类

★ 提取音频文件人声声纹信息，进行固定人声纹检索

2.语种识别

分析音频数据，从而进行简单的语种判别，自动归类，可以为编辑人员节省时间提高效率（见图2）。

语种识别能提供以下服务功能：

★ 提取语种信息，丰富元数据内容，节省人工开销

★ 进行稿件自动语种分类，方便查询

图1

图2

3.字幕提取

音像资料库系统中在视频资料入库预处理环节中加入语音识别功能，提取语音字幕，能够起到辅助全文检索，支援浏览，节省编目人员录入时间的三重效果，充分发挥视频资料的价值（见图3）。

字幕提取能为用户提供以下的服务功能：

★ 音字转写，抽取文稿，作为进一步精编的参照，节约编目人的录入时间

★ 对抽取的文稿内容进行全文索引，提升简单检索的体验

保存文稿和相对词组出现的时间对照，为流媒体浏览提供字幕辅助，并能够支援点击关键词的时码跳转，方便用户尽快定位到视频中需要的部分。

4.语音相关度检索

系统利用语音识别的先进技术，对资料库里的稿件在一定相关度以内进行近音提示和音频关联检索。此项技术能够在语音技术方面对检索进行辅助，大幅提升用户的浏览和检索体验（见图4）。

为了实现以上的应用场景，我们需要引入声学模型、语言模型的智能库，对声学和语言的特征样本、中间结果索引、语音识别任务调度等平台进行管理和维护。

图3

图4

5.声学智能库管理

声学智能库是存储有大量声学特征及对其照语音信息的声学智能模型库，它按照固定标准对音频信息进行采样分析，提取特征和对照信息合入智能字典，是进行语音流、音频文件等分析的基础参照。语音识别分析的效率和准确率在很大程度上取决于声学智能库声学模型的信息量、采样标准、模型精准度等等。它是语音识别平台最重要的组成部分。

声学智能库管理相关操作于web管理界面上呈现选项，通过上层应用逻辑选择去调用平台底层封装的API接口，主要功能包括：

★ 语音模型建立、维护、选用、删除。

★ 策略规则匹配

★ 模型参数设定

6.语言智能库管理

语言智能库是存储有大量语义分词、语料分析等信息的智能语言模型库，它对大量从历史文本、时政新闻、网络搜索等途径获得的语言文字进行切分、提取、分析和处理，从海量语料中获得精炼的统计学模型。语言模型不止一个，对于不同领域使用不同内容语料来源生成的语言模型，对于语音识别及语义分析准确度的提升有很大帮助。语言智能库具有很好的扩展性，可以人为设置和导入新的规则、参数等信息，从达到到对语言模型的分析算法进行规范、调整、限制的目的。并且，对于不断新加入的分析处理任务以及定期更新入库的新增语料信息，语言智能库会按规则抽取其中的有用部分，对统计模型进行更新和不断完善。

语言智能库管理相关操作于web管理界面上呈现选项，通过上层应用逻辑选择去调用平台底层封装的API接口，主要功能包括：

★ 语言模型建立、分类、维护、选用、删除。

★ 策略规则匹配

★ 模型参数设定

★ 语料信息分类导入，可设手工导入或定时自动导入策略

★ 语言模型再训练，可设定手动模式或自学习模式

7.索引库管理

音频信息经过语音识别处理之后，所产生的中间结果会以特征的形式存在索引信息当中。索引信息的存在，可以加速上层应用交付的检索、识别等任务，提升分析、处理服务的效率。对索引信息进行统一管理，定期整理，批量进行更新、删除，可以维护整个语音识别平台的信息完整性，避免产生性能瓶颈，平衡系统开销，为上层应用提供最优策略的服务。索引文件可以以文件或其他形式进行存储。在提升效率的同时，它也可以视为是一份廉价的冗余信息，一旦产生数据丢失，可以通过定期或人工再扫描分析的方法进行重建。

索引库管理相关操作于web管理界面上呈现选项，通过上层应用逻辑选择去调用平台底层封装的API接口，主要功能包括：

★ 索引策略指定，设定需要进行索引的内容、操作以及保存形式。

★ 索引批量重建：可进行手工重建或自动定时重建。

★ 索引定期删除：对已经利用完毕的部分中间结果进行手动和自动删除。

★ 索引文件导入导出：可以将索引库中索引信息导出为文件形式进行备份，也在符合完整性约束的前提下，可将索引文件导入索引库中进行恢复操作。

8.语音识别任务管理

语音识别平台对语音识别任务进行管理，并与服务集成总线进行对接，由服务集成总线负责对其任务进行统一资源分配、调度、处理。这样的设计能够减少系统冗余资源开销、规避瓶颈，使语音识别进一步流程化自动化。在任务管理区，也可以通过调用服务集成总线的接口对所有任务进行人工干预控制，主要功能包括：

★ 语音识别任务暂停、再运行

★ 任务停止、删除

★ 任务优先级设定

★ 出错处理

★ 警告、任务运行信息记录

★ 设置定时任务运行

五.引入语音识别技术面临的机遇与挑战

语音识别技术通过全球科学家的共同努力，经历半个多世纪的研究，目前已经发展到了接近实用的阶段。在实验室环境下，大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。正是有了如此高的识别率之后，语音识别技术慢慢地从实验室演示系统逐步走向实用化商品。语音搜索技术正在逐渐成熟，摆脱噱头的头衔走向普及应用。但是，语音识别技术目前仍然存在很多的困难和不足，有待于进一步的探索，具体可分为以下几个方面：

语音识别系统的适应性差，主要体现在对环境依赖性强，即在某种环境下采集到的语音训练系统只能在这种环境下应用，否则系统性能将急剧下降；另外一个问题是对用户的错误输入不能正确响应，使用不方便。

高噪声环境下语音识别进展困难，因为此时人的发音变化很大，像声音变高，语速变慢，音调及共振峰变化等等，这就是所谓Lombard效应，必须寻找新的信号分析处理或者降噪预处理的方法。

语言学、生理学、心理学方面的研究成果已有不少，但如何把这些知识量化、建模并用于语音识别，还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚；其次，把这方面的现有成果用于语音识别，还有一个艰难的过程。

语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决，识别速度、拒识问题以及关键词（句）检测技术等等技术细节要解决。■

中国传媒科技2013年15期

中国传媒科技的其它文章: 正在向移动端转移的游戏产业; 云视频：兼容并包随时可用——访神州数码（中国）有限公司（宝利通）技术经理龙莹亮; Inmarsat Ka系统助力媒体应用模式创新——访中国交通通信信息中心媒体业务部主管经理郭春启; 一呼百应智慧串联——访天脉聚源（北京）传媒科技有限公司执行总裁尹逊钰; 媒体互联网化大数据支持决策——访福建星网锐捷网络有限公司副总裁金霞; 媒体转型需要快速、安全的互联网传输环境——访网宿科技股份有限公司售前副总监周微