语音识别在电子病历系统的应用

2020-04-13 14:19李丹蓉
国际感染病学(电子版) 2020年3期
关键词:声学病历语音

李丹蓉

常州市卫生信息中心,江苏 常州 213000

1 引言

调查显示,我国目前50%的住院医生平均每天用于写病历的时间超过4小时,其中相当一部分医生写病历的时间超过7小时;还有部分专家配有专门记录员记录医生主诉内容,而后转录入电脑中,对于社区医院,医生信息化水平较弱,这种问题更为突出。这种录入病历方式的弊端在于输入效率较低,错误高;然而主流通过模板复制粘贴的方式,导致千篇一律的漏洞百出的病历。这种录入电子病历的模式,使得个性化病历录入较少,病历数据分析变得没有价值。

随着语音识别系统在细化模型的设计、参数提取和优化、系统的自适应方面取得较大发展,使得这项技术与其他领域相关技术进行结合,可以提高录入的效率。而语音识别技术正是解决电子病历的信息采集和输入问题的最好解决方式,从而有效提高医生录入效率和病历质量安全,实现个性化录入。

2 语音识别原理

语音识别采用模式识别,基本框架分为:数据准备、特征提取、模型训练、测试应用这4个步骤。

2.1 模型训练原理 首先,对输入的语音进行信号处理和特征提取,通过分析产生特征向量,建立声学模型,然后对模型进行不断训练,再根据声学特征值计算特征向量在声学特征上的得分。根据语音建立语言文本库模型,对计算出的声音信号排列对于词组序列,在根据已建立的语音字典库对词组进行解码处理,最后得出语言识别的结果。

2.2 语言模型 语言模型是用于反映字词出现的先验概率和词顺序是否符合语言习惯和词的语义信息的。例如“郝”和“好”,这两个字发音相同,“好”相对于“郝”来说,出现的概率较高,但“郝”“好”相对于“好”来说一般出现在姓氏里较频繁。

传统语言模型N-gram的方法是一种基于概率的判别模型,它输入的是语音序列,输出的语音的概率。利用公式表示:

其中,S=( w1, w2,…,wn) ,表示那个输入语音词组,每个单词wi,p(s)可以表示为第一个词出现的概率p(w1)乘以第二个词的概率p(w2│w1),以此类推一直到第n个词。

语言模型:反映字词出现的先验概率

挫——错

出心——初心

反映词顺序是否符合语音习惯

外出参观——参观外出

反映词的语义信息

乌云-雷电-雨伞=下雨

为解决参数空间过大,数据稀疏等问题,我们对它进行进一步N-阶马尔科夫假设,即一个词的出现仅与它之前的若干个词有关。上面表示先验概率中的每一项都可以做下列这样一个近似。

RNNLM语言模型是基于循环神经网络,其特点是将上一次的输出作为本次的输入,可以利用上一次信息来预测下一个词,所以我们对公式中间的每一项都采用同一种深度学习模型,就可以表达成如下结构:

2.3 声学模型建模 通过给定了相应的文本序列之后,生成相应的语音,这是语音识别技术中最核心的也是最复杂的部分。

为了减少同音词的数据共享问题,首先我们会将文本序列转化成它的发音序列,我们的语音具有不定长的特性,我们说的快和说的慢的时候,语音帧的时长是不一样的,对于这种不定长的语音建模,这个时候就需要引入HMM模型。

HMM模型每一个语音帧让我们的每一个语音帧都对应到HMM模型中的每一个状态,不论多长的语音都能够表达为HMM模型的一个状态序列。

最后将HMM模型中的序列和语音中的每一帧进行对应。再利用概率将这个对应关系表达即可。

3 语音识别系统的系统架构

需通过大量病历、患者信息等文本的录入,反复校验临床医生使用的智能语音识别系统,从而达到通过语音查询、调取患者病历、影像等数据,方便医生使用,形成高效的智能语音识别的应用系统。

3.1 系统功能 本系统采用B/S架构,语音应用服务器和语音数据库服务器之间通过光纤交换机与机房主存储数据库进行交互,从而实现性能的高效稳定。

系统前端集成在HIS系统的医生工作站中,实时的将医生说话内容通过识别系统转录成文字信息,并直接录入医生工作站中的门诊、住院病历及检查报告等文本输入位置,并完成了文本插入后的修改、删除和增加等功能模块。

3.2 业务流程 本系统需在医生工作站处安装麦克风硬件采集设备;将当医生进行语音录入时,系统识别该段语音,首先发出语音识别请求,并进行语音端点检测、降噪及特征提取等前端处理后,发送到后端,通过建立的声学模型和语音模型进行解码处理,最终识别出该语音,并输入前端进行文本输出。

3.3 构建语音资料包 先对海量样本语音信号进行采样、去除混叠滤波和其它噪音影响,然后进行语音识别基本单元的选取并提取信号特征参数,进行反复训练,构建符合电子病历的医学语音资料库,包括医疗语音模型的建立和语义理解规则的构建两个步骤。这是整个系统的核心部分。其中,医疗语音模型是基于HMM模型对语音资料库进行语音训练,从而形成符合医生经常录入的信息语音模型;而语义理解规则是通过一定规则将海量通用文本数据与计算输出的特征值相似度匹配,最终判断出输入语音的含义。

4 系统效果分析

智能语音识别功能模块在医生端使用后,录入的速度,除了医生工作站文本框选取时间外,大大缩短了医生的录入时间,准确率超过90%,改善了社区医护人员使用电脑录入效率及准确率不高的现状,并在推广使用过程中,不断优化语音库,进一步提高识别效率。

猜你喜欢
声学病历语音
强迫症病历簿
“大数的认识”的诊断病历
爱的就是这股Hi-Fi味 Davis Acoustics(戴维斯声学)Balthus 70
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
Acoustical Treatment Primer:Diffusion谈谈声学处理中的“扩散”
Acoustical Treatment Primer:Absorption谈谈声学处理中的“吸声”(二)
对方正在输入……
Acoustical Treatment Primer:Absorption 谈谈声学处理中的“吸声”