基于RSC-4128的聋哑人语音交互系统设计

2013-12-14 07:39王海鹏阙大顺祁宠杰董航
电气自动化 2013年4期
关键词:聋哑人识别率按键

王海鹏,阙大顺,2,祁宠杰,董航

(1.武汉理工大学 信息工程学院,湖北 武汉 430070;2.武汉理工大学 光纤传感技术与信息处理教育部重点实验室,湖北 武汉 430070)

0 引言

根据第二次全国残疾人抽样调查的结果汇总表明,截至2006年4月1日,我国患听力残疾人数为2004万,占总残疾人数24.16%,言语残疾127万,占总残疾人总数的1.53%[1]。目前解决聋人听力问题的方案主要有佩戴助听器和人工植入电子耳蜗。传统助听器的实质是听觉放大器[2],仅适用于弱听患者;而电子耳蜗虽然适用于重听患者,但由于价格昂贵和手术复杂难以推广。同时聋哑人使用的手语在非聋哑人群体中并未普及,聋哑人的交流问题亟待解决。

本文设计的聋哑人语音交互系统是自动语音识别(Automatic Speech Recognition,ASR)技术和单片微处理技术相结合的综合应用,实现了语音自动识别、识别结果的文字显示和快速按键触发语音播报等功能。

1 聋哑人语音交互系统总体设计

图1所示为系统的整体框图,它由RSC-4128语音识别模块、STM32控制单元、按键单元、TFT液晶屏、WT588D语音播报模块等组成。通过麦克风,RSC-4128自动将语音转化为文字编号, 传 送 给STM32控制单元。STM32 控制单元按文字编号实时输出对应文字到TFT液晶屏。用户(特指聋哑人)还可通过快速按键触发WT558D语音播报的功能,帮助用户实现寻求帮助、打招呼和呼救等特殊应用。

图1 系统整体框图

2 系统硬件电路设计

2.1 STM32 最小系统

控制单元 STM32是一款基于 Cortex-M3内核的高性能32位处理器,其高性能、低成本、低功耗特性得益于Cortex-M3在架构上的多项改进,包括应用提升代码密度的Thumb-2指令集和Tail-Chaining等,使其具有高性能和优秀的功耗水平[3]。

聋哑人语音交互系统中采用的是 STM32F103RBT6芯片,其最小系统设计简单,采用 8 MHz和 32.768 KHz的外部晶振,复位电路设计成按键复位和上电自动复位的方式。

2.2 液晶控制器和触摸屏接口

系统的液晶控制器是一款256K色TFTLCD控制器ILI9320。它最大支持240RGB×320的分辨率,支持8位,9位,16位,18位并行控制模式以及SPI串行模式。该系统采用通用I/O口模拟的16位8080并行接口控制模式。

2.3 RSC-4128语音识别模块

RSC-4128语音识别处理器高度集成语音和模拟输入/输出复合信号处理模块。其内部资源丰富,固化了一整套可灵活运用的语音识别和语音合成技术,其中应用了隐马尔可夫模型(HMM,Hidden Markov Model)、人工神经网络(ANN,Artificial Neural Networks)和动态时间规整算法(DTW,Dynamic Time Warping)等。片上集成语音信号采集前置放大和程控增益模块、可编程数字滤波引擎等语音信号模数混合处理模块。同时,RSC-4128是一款低功耗芯片,在3 V工作电压时典型工作电流为12 mA,休眠模式下典型工作电流为1 μA,且具有多种低功耗模式和特定声音信号自动唤醒功能[4-5]。

当语音信号通过麦克风采集后,经过前置阻容网络进行初步去噪和放大,送 入RSC -4128。RSC-4128通过外部存储器接口,扩展 AM29LV800BT-70EC 8Mbit Flash芯片作为外部程序存储器,SST29VE020 2Mbit Flash作为外部数据存储器扩展RSC-4128的存储空间,数据并行传送。模块另有MAX218串行口用于程序修正和模块通信。RSC-4128语音识别模块原理框图如图2所示。

图2 RSC-4128语音识别模块原理框图

2.4 WT588D语音播报模块

WT588D语音播模块集成WT588D-20SS微控制器、语音处理电路、32Mbit Flash存储器等,具有220个可控制的音频地扯[6]。通过 Voice Reader软件将文本转化成语音数据;通过WT588D Voice Chip上位机软件配置WT588D模块为一线串口控制模式,设定语音重放、声音增大和减小等控制控制指令。系统中WT588D语音播报模块以PWM方式直接推动0.5 W/8 Ω扬声器,电路连接简单,控制方便。聋哑人可通过按键或语音对其快速控制和命令设置。快速控制时,WT588D播报对应地址的语音。

3 系统软件设计

系统的语音识别功能主要由 RSC-4128语音识别模块完成,TFT液晶驱动和语音播报控制主要由STM32完成。系统将常用词汇编排成表,存储于语音识别模块和STM32单元。RSC-4128将语音识别的结果以对应编号的形式传送至STM32,STM32将对应编号的文字在屏幕上显示出来。STM32同时控制着WT588D语音播模块,由用户通过快速按键或语音对WT588D语音播模块进行控制,实现紧急情况下的快速语音播报或普通的语音播报和控制。

3.1 语音识别模块软件设计

采用RSC-4128的非特定人识别和特定人语音识别相结合的办法,方便用户扩展语音识别词汇量和克服方言口音障碍,满足聋哑人的交流的更大需求。其中非特定人识别数据由软件Quick T2SI辅助完成;特定人识别部分采用对同一常用词汇录入多个不同人模板的方案,用以提高特定人识别模式下的识别率。其语音模板由软件设定语音训练命令和提示语音引导用户录制得到。虽然 RSC-4128限定只能录入至多255个特定人语音模板,但对于聋哑人的日常交流,这个数量是可观的,同时也能缓解地方口音识别困难的问题。

RSC-4128在语音识别模式下实时地接收外界语音信号。当外界有语音输入时,RSC-4128开始调用的技术库函数,控制各数字语音信号处理模块进行语音识别。其中 RSC-4128语音识别子程序流程图如图3所示。

图3 语音识别子程序流程图

3.2 STM32 软件设计

系统上电后,STM32单元执系列初始化程序,其中包括LCD初始化和中断始化等。初始化后STM32单元对按键循环扫描,此时外部中断使能。当语音识别模块通过写信号线电平拉低触发STM32外部中断,运行中断服务程序读入语音识别结果。当用户按下命令按键后,STM32通过一线串口控制 WT588D模块进行语音播报等功能或设定。一线串口协议一次传8位数据,数据0和数据1由对应位的占空比区分。数据0用200 us高电平和600 us低电平表示,数据1用600 us低电平和200 us高平表示。其中语音播报子程序流程图如图4所示。

图4 语音播报子程序流程图

4 系统测试结果与分析

测试项目分为语音识别率测试和语音播报功能测试。在语音识别测试环节,录制了212条日常生活语句或词语。在最常用的日常用语中,随机选择了几组进行实验室环境下的测试,包括“你好”、“吃饭了吗”、“谢谢”、“再见”和“不用谢”等。实验观察了语音识别后液晶屏上的显示的识别结果,统计语音识别率。聋哑人语音交互系统实物如图5所示。

图5 聋哑人语音交互系统实物图

首先将这些常用口语以单个特定人的语音录制成模板中,然后由录制人对其进行单人语音识别测试,部分实验结果如表1所示。

表1 单特定人模板及其语音识别率测试结果

考虑到实际使用情况,于是对该单特定人模板进行了包括录制人在内的多人语音识别测试,测试人数为3人。部分实验结果如表2所示。

表2 单特定人模板多人语音识别率测试结果

参照表2所示测试结果,再考虑到不同人对同一词汇的发音的差异性,又对同一词汇录制多人的发音。随机选取3人进行语音模板的录取,再另外选取3人测试识别率。部分测试结果如表3所示。

表3 多特定人模板多人语音识别率测试结果

另外,同时实现了语音播报功能,按下语音播报快速按键或语音控制,系统均能播报对应语音且播报出的语音音质清晰。

5 结束语

本文阐述了聋哑人语音交互系统的软硬件设计原理、功能分析和系统测试。该系统实现了自动语音识别和语音播报等功能,并具有低功耗和便于携带的特点,为聋哑人群体提供许多便利,提供了一种帮助聋哑人解决交流问题的新思路,有助于提高聋哑人群体的生活水平。

[1]薛静.第二次全国残疾人抽样调查最新数据公报[J].中国听力语言康复科学杂志,2007,5(1):38.

[2]李建文,付蓉.基于 DSP的皮肤听声器的研究[J].计算机工程与设计,2010,31(17):3750 -3753.

[3]张云,熊杰,宋宴明.基于STM32的励磁系统录波存储器的实现[J].长江科学院院报,2009,26(12):110-114.

[4]Sensory Inc.Speech Recognition Processor Data Sheet[K/OL].,2008.[2012-12-23]..

[5]李瑞峰,李麟.基于RSC4128的家用机器人语音人机交互系统的设计[J].制造业自动化,2007,29(10):30 -33.

[6]徐娟娟,赵建平.WT588D在汽车远程防盗系统中的应用[J].电气自动化,2012,34(4):85-87.

猜你喜欢
聋哑人识别率按键
基于有限状态机的按键检测程序设计
《小鹦鹉从教记》之得意忘形不听劝
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
无声的世界里,怎样唱一首歌?
按键消抖在单片机和FPGA实验教学中的应用
提升高速公路MTC二次抓拍车牌识别率方案研究
体验10分钟黑暗
多吉从师记
一种多方向导光按键结构设计