讯飞语音技术在会议记录手机APP中的应用

2017-07-01 23:06薛辉
电脑与电信 2017年5期
关键词:会议记录商洛秘书

薛辉

(商洛学院数学与计算机应用学院,陕西 商洛 726000)

讯飞语音技术在会议记录手机APP中的应用

薛辉

(商洛学院数学与计算机应用学院,陕西 商洛 726000)

为了实现自动生成会议文字记录,设计了一款会议记录手机APP,研究了在会议记录手机APP中应用讯飞语音的关键技术,包括语音技术的选取、语音听写的流程、上传用户自定义词表和识别结果合成。该会议记录手机APP能够识别会议参与人员的讲话并转换为文字,可以有效减轻会议秘书的工作负担。

讯飞;语音识别;会议记录

1 引言

会议记录是有关会议情况的原始笔录和第一手材料[1],需要会议秘书把会议参与人员的讲话记录下来。由于人讲话的速度明显快于书写的速度,会议秘书在记录时往往只能记录重要的部分,无法完整地呈现会议的内容。采取录音的方式虽然可以完整记录会议参与人员的讲话,但会议记录一般要求文字形式,录音资料只能用作辅助材料,文字仍然需要会议秘书人工记录。如今,语音识别技术已经比较成熟,可以应用语音技术开发智能程序[2],自动完成文字生成和记录工作,会议秘书只需在会后稍加整理即可,可以大大减轻会议秘书的工作负担。本文应用讯飞语音技术设计了一款会议记录手机APP。

2 讯飞语音技术简介

科大讯飞经过多年的积累,整合了科大讯飞研究院、中国科技大学讯飞语音实验室和清华大学讯飞语音实验室等在语音技术上的成果,语音核心技术达到了国际领先的水平[3],并引进国内外最先进的人工智能技术 ,与学术界、产业界合作,共同打造了语音技术应用平台,提供语音合成、语音识别、声纹密码等语音技术[4]。已经有许多软件应用讯飞语音技术,并取得了良好的效果。

3 讯飞语音技术的应用

本文设计的会议记录手机 APP 基于 Android 平台,使用Java 语言开发 ,采用 Eclipse 进行编译 ,适用于 Android4.2以上版本的手机,工作时需要联网环境支持。该手机APP主要是应用讯飞语音技术把会议参与人员的讲话识别成文字保存下来,应用的关键技术如下:

3.1 语音技术的选取

讯飞语音技术主要包括语音合成、语音识别、语音评测、声纹识别等功能,其中语音识别技术又分为语音听写、命令词识别和语义理解三种[5]。语音听写技术可以灵活识别语句和分词,并将语音识别的结果转换成文字;命令词识别技术可以根据设置的语法规则识别用户说出的关键词,从而进行一些控制操作;语义理解技术可以分析用户所说的话语的需求,返回用户关心的相关查询结果。使用手机APP进行会议记录,主要是把会议参与人员的讲话转换成为文字,所以采用语音听写技术比较合适,可以快速把会议的内容记录下来[6]。讯飞语音技术的语音听写还包括云端识别和本地识别两种,为了获得更加准确的识别结果,本系统采用云端识别。

3.2 语音听写的流程

使用语音听写技术的流程如下:

(1)导入 SDK:将讯飞语音平台提供的 Android SDK 压缩包中 libs文件夹下所有文件复制到 APP 工程的 libs文件夹下。

(2)添加权限:在 APP 工程的 AndroidManifest.xml文件中添加相关权限,本APP需要使用连接网络、使用录音机、读取网络信息状态、获取wifi状态等权限。

(3)创建语音配置对象:创建语音配置对象即初始化,包括设置 appid、开发者账号、引擎模式等,本 APP 的引擎模式设置为“auto”。

(4)创建 SpeechRecognizer对象 :要使用语音听写技术,需创建SpeechRecognizer对象,云端识别时第二个参数设置为“null”。

(5)设置听写参数:设置听写的参数,比如应用领域、语言区域等。本APP设置应用领域为短信和日常用语,即“iat”,语言区域为中文中国,即“zh_cn”。

(6)开始听写:开始把听到的语音识别成为文字并记录下来。

3.3 上传用户自定义词表

特定会议往往会有一些特定的词语,这些特定的词语用户可以自定义并上传到云端,以提高识别的准确率。上传自定义词表的关键代码如下:

3.4 识别结果合成

语音听写的结果返回 JSON 格式文档,JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,易于机器解析和生成,也便于人阅读和编写[7]。语音识别模块返回 JSON格式文本后,顺序检测“cw”,把“cw”里的“w”依次连接到一起即可合成语音识别的结果。如果一个“cw”里有多个“w”,即说明有多候选结果,此时,得分越高识别准确的可能性越大,所以连接分数最高的一个。

4 结束语

本文设计了一款会议记录手机APP,应用讯飞语音技术实现自动完成会议记录工作,能够生成会议讲话的文字信息,给会议秘书带来便利,减轻工作负担,提高工作效率。本APP 尚没有区分不同的讲话人[8],随着声纹技术的发展,如果可以根据声纹自动区分出每句话为哪个参会人所讲[9],就可以把参会人的姓名直接记录在语句之前,分离开不同讲话人所讲的文字,给会议秘书的工作带来更大的方便。

[1] 刘伟.会议记录整理与写作撮要[J].秘书,2015(02):31-32.

[2]张建华.基于深度学习的语音识别应用研究[D].北京:北京邮电大学,2015.

[3]李慧.基于讯飞语音的安卓手机应用开发步骤的研究[J].无线互联科技,2015(14):123-124.

[4]王海洋,郭星.基于语音识别的智慧旅游系统研究[J].计算机技术与发展,2015(05):143-147.

[5] 陈松.基于 A n d r o i d平台的家居远程语音控制系统研究[J].赤峰学院学报(自然科学版),2016(21):25-26.

[6] 郭海宾,王艳秋,燕孝飞.基于 A n d r o i d平台的手机语音记录器的设计与实现[J].福建电脑,2015(10):24-25.

[7] 高静,段会川.JSO N 数据传输效率研究[J].计算机工程与设计,2011(07):2267-2270.

[8]周雷.基于声纹识别的说话人身份确认方法的研究[D].上海:上海师范大学,2016.

[9]裴鑫.声纹识别系统关键技术研究[D].哈尔滨:哈尔滨理工大学,2014.

TheApplication of iFLYTEK’s Speech Technology in Mobile PhoneAPP for Meeting Minutes

Xue Hui
(Shangluo University,Shangluo 726000,Shaanxi)

In order to realize the automatic generation of meeting records,designed a conference record mobile phone APP,studied the key technologies of the application of Iflytek’s speech technology in the conference record APP,which included speech technology selection,speech dictation process,upload custom thesaurus and recognition results.The conference record mobile phone APP can identify the speech of the conference participants and convert it to text,which can effectively reduce the workload of the conference secretary.

iFLYTEK;speech recognition;meeting minutes

TN912.34

A

1008-6609(2017)05-0067-02

薛辉(1983-),男,陕西商洛人,硕士,工程师,研究方向为计算机教育教学改革、应用软件开发。

猜你喜欢
会议记录商洛秘书
秘书不在 等
陕西商洛:创出菌蔬轮种发展新模式
多载体形式会议记录归档与整理
我的是故乡商洛
领导身边的秘书帮
商洛加快培育千亿元新能源汽车产业集群
陕西商洛将投资3.5亿建农村公路949km
我的商务秘书 等