人工智能语音技术在广电媒体的应用

2018-03-28 16:48王绍轶

传媒论坛 2018年9期

王绍轶

（天津市滨海新区广播电视台，天津 300450）

随着“十三五”科技发展中对广电发展的要求，未来广电的发展应朝着利用科技创新，推动广播影视中节目制作、内容生产、安全监管等多方面向智能化方向发展。而人工智能近几年发展十分迅速，给广电未来的发展提供了可能，智能语音技术作为一种全新的技术，能够实现信息的快速录入、人工交互等功能，时下的教育、医疗、汽车等多个行业中都有所涉及。尽管科技发展提出了新的发展目标，且广电媒体在发展的过程中有大量的文稿和音频需要处理，但实际工作中对智能人工语音技术的使用并不常见。传统的人工处理方式不仅耗费时间长，且工作效率低下，人工的方式稍有不慎就会造成内容理解上的偏差和记录出现问题。本文主要针对这样的情况，讨论人工智能语音技术在广电媒体中的实际应用情况，在传统人工处理的基础上，借鉴经验，建设全新的广电媒体智能语音应用平台。

一、智能语音技术

（一）语音识别技术

语音识别技术主要是指将说出的语音转换成对应的文字进行录入，是一种新型的信息录入技术。语音识别技术首先要检测音频的端点，确定说话的位置，然后进行识别处理。通过识别语句的对话语境，智能地判断所录入信息的标点等相关信息。系统在录入的过程中通过识别用户自定义的词汇优先选择相对应的词汇。

（二）语音转写技术

语音转写技术是在语音识别技术的发展基础上延伸出来的，通过识别和理解语音信号，将信号转变为相应的文字内容。语音转写可以通过大数据和用户的历史数据将上下文的相关语义、停顿、语气等内容提取出来，对句子和段落进行划分，并且可以处理远场噪音等相关问题。

（三）语音合成技术

语音合成主要是指将文字通过计算机的转换形成流畅的语音并输出出来，可以应用在现阶段的语音播报、语音提醒、语音导航等众多场景中。语音合成主要是将文字序列进行解析，将文本进行参数化的处理，然后输出语音波形信号，最后将波形单元序列进行串联，形成完整的信号进行输出。

二、人工智能语音识别技术的技术架构

（一）系统架构

从人工智能语音识别平台的系统架构的组成看，它是由基础支撑层、核心能力层、应用服务层、应用接入层和服务应用平台5个部分组成。

基础支撑层。基础支撑层主要是利用云计算对平台底部的硬件和存储的资源进行管理。

核心能力层。能够利用核心引擎为广电媒体的实际应用提供语音合成和语音识别等相关服务，同时能够对资源进行优化管理。

应用服务层。应用服务层能够将最新的语音技术集合起来，为平台的管理和服务提供强有力的语音服务等相关功能。

应用接入层。利用应用接入层能够实现服务接口和语音处理，能够提供智能语音业务上的服务。

服务应用平台。服务应用平台能够实现文稿唱词、虚拟播报、内容转写等相关功能，支持第三方服务的对接工作。

（二）软件架构

人工智能语音识别技术中的软件架构主要有5种。第一种是采用J2EE组成的Java应用规范架构。这种系统具有系统上的可移植性，通过将其部署在相关的应用服务器上，进行高度灵活和扩展的系统设计工作。第二种是在客户端采用Node-Webkit这种应用程序，提供交互界面方便业务人员的使用，管理员可以在任何地点查看使用情况，使数据的安全得到可靠的保证。第三种使采用REST设计的接口，能够提高响应速度，具有很高的性能、效率和易用性。第四种是JSON设计的数据交换的格式，这是一种方便阅读和编写的语言文本格式，可以跨平台使用、跨系统使用、跨语言使用，通用性、灵活性和扩展性极强。第五种是Spring Boot框架，这种框架能够实现方便的部署和配置，可以提供XML配置和准生产应用监控。

三、人工智能语音识别技术在广电媒体中的应用

利用人工智能语音识别技术搭建智能化发展平台是广电媒体未来发展中必然的趋势，因此对人工智能语音技术的使用，就要明确人工智能语音技术能够应用在广电媒体中的系统环节。

（一）文稿唱词系统

利用文稿唱词系统，采编人员可以很快地将音频文件和口述的内容转变成文稿，这里需要注意的是，非普通话的文稿需要记者使用麦克风进行跟读识别。针对一些方言，系统可以利用方言声学模型包进行识别，一方面提高了文字识别的效率，另一方面将录音的定位、校正等问题一并解决。在晚会中进行录制的音频文件，系统可以对其进行降噪处理，解决好分句与分段的问题。

（二）内容转写系统

内容转写系统主要是将未进入媒资库的视音频的内容形成语言内容，为媒体文件生成自己的“文字名片”，然后将媒体文件与名片一起提交审核，这样一来编目人员能够通过“文字名片”获取更多关于视音频文件的信息，更好地进行编目工作，降低编目工作的差错率。

（三）虚拟播报系统

虚拟主持人、智能语音机器人和主播音库共同组成，在使用的过程中将文稿导入就可以进行配音工作，实现新闻的自动播报功能，在播报的过程中，能够实现对语速、响度、声音模板等的调控，以便适应特定场合的要求。二次元的虚拟主持人主要是利用动漫卡通虚拟的主持人进行自动播报，在底层语言合成服务的基础上，对节目播报形式进行了创新。语音交互机器人能够进行中文听写，对人机对话的识别率达到90%以上，能够为广播电视的需求提供对话内容。

（四）第三方的接口服务

平台通过提供应用中的开发接口为第三方提供合成、语音识别等业务上的功能，其他的系统能够将数据资源接入到语音云平台中，利用智能融媒体实现对线索的分拣功能。通过融媒体线索汇聚的方式，可以将语音形成文字文件，将这些文字内容按照用户的需求进行分类，为用户提供订阅线索的服务，在内容的选题策划、生产发布等环节应用得较多。

（五）融媒体会议系统

融媒体会议系统主要被应用在广电媒体的会议记录中，在会议场景中根据采集信息实时转化为文字内容，用户根据需要整理出会议要点。同时还可以将已经录好的音频文件通过导入转写成文字内容，转写的过程中自动将会议的重点内容进行标记，能够通过双击文字回听与之相关的音频文件，使音频与文字相对应。通过对语气词的过滤、内容的分段还可以让记录人员更有效地理解音频文件，用户还可以通过检索等功能将会议模板导出，形成会议纪要内容。

四、人工智能语音技术的资源数据库

（一）对信息进行采集

广电媒体的日常工作中包括对节目制作、内容编目、节目播报和会议记录等，为了提高这些工作的转写效果，需要对相关的有用信息进行采集，并且利用具有科学性和针对性的方式对语音转写进行优化，达到智能的要求。在这样的基础上形成相应的信息资源数据库，能够有效地进行保存。

（二）对数据库规范上的要求

数据库在使用上有相关的要求规范，主要包括以下几个方面：第一，能够支持多个用户在联机时进行业务处理，满足多个用户对访问数据库的相关要求。第二，技术使用具有较高的可靠性，且为了保证效果更好，要具备高容错能力和自恢复能力。第三，分布数据源和异构数据源使用具有相应的支持，数据能够自动复制且多个副本之间的数据同步工作要做好。第四，能够提供相应的安全管理机制。第五，能够提供一套软件开发工具，支持软件开发使用的整个周期。

五、结束语

从现阶段人工智能语音技术在广电媒体中的实际应用来看，这种全新的技术在媒体中的实际应用并不多，且有待进一步的研究和探讨。综合来说，人工智能语音技术在广电媒体中的使用主要在文稿唱词、虚拟播报、内容转写、融媒体会议和第三方接口服务几个方面。这些功能的使用极大地提高了广电媒体的工作效率，提升传统的工作效率。未来广电媒体的发展，更应该注重人工智能语音技术的使用，根据相应的规范合理进行使用，只有使用到位才有可能推动广电媒体的进一步发展，跟上新媒体发展的步伐，推动行业整体迈上更高的发展台阶。