医疗智能语音识别系统的建设与应用

2022-07-08 03:04丁中正常翀曹凯迪郭建军王忠民

电子技术与软件工程 2022年1期

丁中正常翀曹凯迪郭建军王忠民

（南京医科大学第一附属医院（江苏省人民医院）信息处江苏省南京市 210029）

1 前言

随着国内医疗信息化建设的不断发展，在国家政策的支持下，人工智能技术不断的发展和探索，为智能语音识别技术的在医疗系统领域的使用提供了可能。2017 年12 月，国家卫健委印发的《医院信息化建设应用技术指引》中，明确了人工智能技术在医院可开展疾病风险预测、医疗影像辅助诊断、临床辅助诊疗智能健康管理、医院智能管理，虚拟助理等6 大种类应用建设[1]，推动了医院智能化的发展。

以电子病历为核心的医院信息系统逐渐推广应用，例如门诊、住院电子病历、移动护理、手术交接、影像、心电等相关子系统得到不断完善，集成平台的建设使用促进了医院信息共享，医护人员需要手动录入的信息越来越多，病程记录、手术记录、护理记录等[2]。据调查统计，超过40%的医生每天病历录入需要花费约4 小时，超过一半的医生每天进行文字录入的时间占医疗工作总时间的40%[3]。由于日益增长的就诊量而导致的重复劳动工作问题，医疗语音识别系统的建设显得尤为重要。

1.1 国内外应用现状

国外语音技术起步较早，起源于上个世纪五十年代，Davis 在贝尔实验室构建了首个可以识别10 个英语单字节字母发音的系统。二十世纪之后，美国的Nuance、Google 和Amazon 等公司的语音识别软件的准确率有了较高水平。我国也出现了百度语音、云知声、科大讯飞等语音识别公司[4]，2017 年科大讯飞公司与中国医学科学院北京协和医学院签署全面战略合作框架协议，科大讯飞的口腔科语音电子病历系统在北京协和医院正式投入使用，之后越来越多的医院开始使用语音识别产品。随着语音识别技术的逐步推广，系统成熟度越来越高，日常对话识别率已达到97%，方便了在临床推广使用。

2 医疗智能语音关键技术研究

某医院所应用的医疗智能语音主要是在参照海量医学文本数据的基础上，通过借助已经构建好的医疗大数据软件平台和硬件平台，并综合利用云计算技术、物联网技术、人工智能技术等先进技术，开展相关训练工作，从而构建出医疗智能语音识别模型，该模型完全符合各大医疗行业的应用需求。对于医疗智能语音识别系统而言，在具体的设计中，主要采用了分布式架构，将大型任务进行分解处理，从而形成若干个小任务，然后，对这些小任务进行并行处理，不仅最大限度地提高整个系统的运行性能，还实现了对语音服务流程的有效简化，为用户带来良好的使用体验。

2.1 构建具有医院特色的医学语音资料库

对于语音数据库而言，其内部的一部分语音资料主要是在全面收集、整理已有语音数据的基础上获得的，这些数据主要包含以下两大类型，一类是基础语音数据，另一类是医学语音数据。另一部分语音资料主要是医院现有大量医疗文本，这些资料主要由以下几个部分组成，分别是临床电子病历、各种检查记录等。这些资料在具体的存储期间，主要采用文本信息标注的方式，将其全部标注为汉语拼音，从而实现对其安全化、可靠化存储。

2.2 融合语音识别处理技术

融合语音识别处理技术主要用于对相关语音信号的采集、预处理。该技术主要包含以下几种：

（1）语音信号数字化即数字编码技术。该技术主要用于对自然语音信号的转换处理，使其转换为相应的数字信号，然后，采用数据编码压缩的方式，对这些语音信号进行压缩处理，以达到降低数据量和反应时间，使得系统服务效率和效果得以全面提升。

（2）语音检测技术。该技术主要用于对数字信号的检测，从而检测出以下两种结果，一种是语音信号段，另一种是噪声段，然后，根据最终的检测结果，精确地分析和判断用户语音当前所处的状态，该状态主要包含开始状态和结束状态，然后，获得相应的语音信息。

（3）语音信号提取技术。通过利用该技术，可以实现对相关特征的提取，然后，将语音直接转化为相应的语音特征矢量序列，然后，利用识别引擎，采用矢量分析的方式，对语音特征进行分析，以达到解决和处理口音识别效率低、操作难度等问题。

2.3 建立具有自主学习能力的语义库

语义库在具体的构建中，通常会涉及到以下三个环节：

（1）医疗语音模型建立。在建立医疗语音模型期间，需要在参照隐马尔夫模型语言训练结果，完成对相关医疗信息的规范化、定制化处理，从而形成满足各大医疗应用需求的信息语音模型。

（2）语义理解规则构建。语义理解规则在具体的构建中，主要在充分利用大量通用文本数据和医疗语言模型的基础上，开展深度优化工作，从而形成一套系统、完善的语义规则。

（3）个性化数据优化。在对个性化数据进行优化期间，要根据医院当前所收集和存储的相关数据，通过利用深度神经网络学习技术，对文本资料进行深度学习，从而最大限度地提高个性化数据的完整性、真实性和精性。

3 医疗智能语音系统设计

3.1 系统整体设计目标

对于医疗智能语音识别系统而言，其设计目标为：根据临床使用需求，研发出智能语音识别功能、相关数据交互功能等功能，便于医护人员采用语音识别的方式，自动、高效地录入海量病历文本信息，同时，还能帮助医护人员利用语音调取的方式，实现对患者病历信息、图像信息的查询、交互和处理，为促进医疗行业向智能化、数字化、信息化方向不断发展提供重要的平台支持。

3.2 系统架构组成

系统架构在具体的设计中，需要针对医院现有业务量，在保证系统性能稳定性的基础上，利用两台服务器，对数据库内数据进行缓存处理，从而确保整个系统始终处于稳定、高效的状态。该系统工作流程为：通过在医院内部麦克风安装和固定相应的语音装置，以实现对相关信息的采集和整理，同时，还要利用客户端，对整理好的语音编码进行统一化压缩处理，并发送相应的语音识别请求，该请求在实际的传输期间，首先，要通过以下两个设备，分别是防火墙、交换机，然后，利用均衡器，实现对相关架构的搭建，以达到智能化切换均衡器的目的，从而进一步提高系统的运行性能。此外，通过利用主负载均衡器，采用动态化分配的方式，将语音识别请求合理分配到路由器服务器上，由该服务器负责对这些数据的预处理和认证，接着，将该请求安全、可靠地传输于相应内存数据库中，最后，采用动态化分配的方式，将其科学地分配到语音识别服务器上，缓解语音服务器的运行压力，使得服务器运行变得更加高效。另外，通过借助系统语音功能，可以实现对相关数据的录入和输出，并将这些数据安全、可靠地存储于系统数据库中，然后，从该数据库中获取相应的最小使用频率的数据。用户在对这些数据进行访问期间，要先对数据库内的数据进行访问，如果数据库内存在用户想要访问的数据，那么系统会自动将相关数据直接反馈给用户，反之，系统将不予返回处理。对于内存数据库而言，无论其内部是否保存相应的数据，用户都要从语音服务器中，实现对相关数据的访问和获取。总之，通过运用以上流程，可以确保相关数据获取的全面性、完整性和高效性。另外，通过利用语音识别系统，可以框获取和整理好的数据直接传输到客户端，由客户端利用语音数据日志，将相关数据直接传输并保存于关系型数据库中。

3.3 系统功能设计

3.3.1 电子病历与检查报告智能语音录入

该功能在具体的设计中，需要在充分结合门诊、医技报告工作站的基础上，对医生说话内容进行转换处理，使其转换为文字信息，然后，将这些文字信息录入到指定的门诊病历中。语音录入系统功能还对常规编辑命令起到了一定的增删改查作用，同时，也对光标移动、文字换行以及文字撤销等复杂操作起到了一定的支持作用。

3.3.2 移动护理智能语音录入

该功能在具体的设计中，主要利用护理工作站，采用集成处理的方式，借助PDA，对护士说话内容进行转换处理，使其转换为相应的文字信息，并将其录入到指定的护理信息系统中。对于大量的文本信息而言，其录入情况与检查报告、电子病历录入功能具有一定的的相似性，此外，还对护理表格数据的录入也提供了强大的支持，护理类表格数据主要包含血压数据、脉搏数据和呼吸数据等。

3.3.3 非接触式智能语音数据交互

该功能在具体的设计中，技术人员要根据医院当前所面临的非接触医疗环境，通过语音功能，全面化、高效化获取和整理非接触式数据。临床医生采用口述的方式，就可以向系统中自动录入检索条件，此时，系统会将最终的检索结果反馈给医生，然后，与其他各个工作站之间建立起良好的连接关系，以实现对相关信息的有效交互，为保证获取检索条件相关数据的全面性、完整性和真实性提供重要的依据和参考。检索条件相关数据主要包含以下几种，分别是患者基本信息、患者检查报告信息以及影像信息等。

4 系统构建策略

医护人员使用语音录入方式书写电子病历，目前国内外的一些医疗机构开始逐步使用。在医疗领域中，实现智能语音识别仍存在诸多技术难点，比如环境嘈杂、医学专业术语复杂、需满足不同语速和方言口音的使用者等[5]。针对医疗语音识别的技术难点，我院采取了如下建设措施：

4.1 构建医疗语音云平台

医疗语音云平台是应用于院内智能语音输入服务的基础平台，以云服务的方式为应用终端提供多路并发的语音识别、自然语言理解等高质量语音交互服务。使用自然语言处理和机器学习技术，基于海量的医疗文本数据，用于系统模型的训练，定制符合医疗场景使用的语言识别模型[7]，客户端采用串联链路式架构接入到服务端语音云引擎，满足我院医疗级应用的可靠性、可用性要求。同时，通过集成标准的SDK 控件，可为我院现有系统集成提供便捷、高效的开发环境。

4.2 软硬结合降噪，提高语音识别准确率

针对医务人员嘈杂环境下工作，采取源头降噪措施，通过专业级指向性麦克风，配以四麦阵列降噪算法，提高带噪语音的识别正确率；此外，针对在语音信号处理过程中的噪音，一方面对干净的语音进行加噪，并与干净语音一起进行混合训练，不断提高模型对于带噪语音的鲁棒性；另一方面，使用基于深度回归神经网络进行降噪，从噪声干扰的复杂性出发，利用深度神经网络这种非线性模型对带噪音频和纯净音频间的映射关系进行建模，并实现对音色转换后音频的降噪，进一步提高带噪语音识别准确率。

4.3 优化方言口音识别

针对我院方言口音重的部分医护人员，采集针对性的语音训练集，前期进行精细化的标注，后续在医护人员不断使用过程中，基于无监督自学习技术持续自主优化，同时加以人工干预，不断优化。方言口音的识别效果逐渐越来越准确，从而有效改善方言口音识别问题。

4.4 深度定制医学术语库

针对各科室业务进行梳理，整理超过100G 的医学训练文本用于模型训练，达到百万级医学术语库，涵盖医学院普通高等教育教材、各专科病例、中英文临床指南以及其他医学文献资料，此外还有大量视频和语音资料。基于海量的文本数据，和数据训练语言模型，做深度的自适应优化，保证专科术语识别准确率。

4.5 个性化词汇替换定制

对于中文同音字，各科室医生可根据自己的使用习惯，在客户端添加自己常用词汇，实现个性化替换处理，比如脑梗塞（nao3geng3se4、nao3geng3sai1）。有些词为了容错，增加一些医护人员已经习惯的错误发音，如：氯化钠（lv4hua4na4、lu4hua4na4）等。

此外，通过使用泛化特征并结合双向长短时记忆网络建模技术，系统自动剔除识别结果中的停顿词、语气词、重复词，使文本更适于正常阅读，真正达到临床实用水平。医疗智能语音输入系统架构如图1 所示。

图1：医疗智能语音输入系统架构

5 应用效果

5.1 应用现状

目前，系统已在我院妇科门诊、内分泌科门诊、门诊神经科、门诊内镜中心、心血管内科、肿瘤科、护理部等近20 个科室进行使用。其中，门诊部和护理部使用率较高。在门诊医生使用中，主要用于门诊半结构化的电子病历书写，针对一些操作电脑不便捷，通过该系统的使用，解决了使用电脑打字速度慢，患者等待时间较长问题，把医生更多的时间还给患者；护理人员录入临床患者描述性的护理项目，直接口述即可，减少护理人员记录次数；此外内镜中心书写报告已上线科室使用医生表示：系统语音识别准确率平均达到96%以上，超过80%的医生认为语音识别技术每天可节约40%～60%的病历录入时间，有效降低工作强度，减轻工作量；尤其对长段信息、自由文本录入的效果明显。从总体上提高医院处理患者信息的能力，同时缩短患者无效等待时间，增加患者满意度。

5.2 建设成效

目前，通过医疗智能语音输入系统建设，语音录入病历效果最高可达400 字/分钟，识别准确率突破98%；常用标点符号可在病历中自动生成，准确率达90%以上；医学符号公式可自动识别成书面规范表达，例如：口述“血压130，85 毫米汞柱”，即输入血压130/85mmHg；“体温37点8 摄氏度”，即输入体温37.8℃；此外，用户级个性化词汇替换功能，让医护人员在英文自动大小写、长文本内容简述、习惯用词等方面体验到前所未有的灵活便捷。

部分科室已上线使用，从2020 年7 月到12 月的五个月的数据来看，如图2，日常使用语音系统的频次逐步提高，录入总字数在57 万多。在医护工作站安装医疗输入法及智能输入终端，为医护人员提供语音快速录入的能力，提高各科室在多场景下的病历录入效率，降低医护人员电子文书的书写压力，为院内全面数字化提供工具支撑。

图2：7-12 月份系统使用情况

6 系统存在的不足

在国内“互联网+”的背景下，采用“人工智能”理念与技术，创新智能交互服务模式，不断增强医院信息化顶层设计能力，是着眼于我国卫生健康事业的长远发展，解决当前面临的突出矛盾和难点问题，推进整体信息化建设的重要手段和可行途径。众所周知，语音识别是目前发展最为成熟的人机交互方式，它能够让机器通过识别和理解过程，把语音信号转变为对应的电子文本或命令，实现了自然语音的文字转写[6]。系统在一定程度上方便了临床医护人员的工作，但仍然存在一些问题。系统仍然存在一定的局限性，一是医生工作习惯较难改变，由传统的键盘录入改为语音方式录入，仍然需要一定的时间适应，医生需要一个培训和系统磨合使用的过程。二是不方便使用，部分专科的电子病历结构化程度高，模板的使用相对语音录入更便捷，部分医生习惯使用模板录入信息，操作更方便[7]。三是患者信息的安全，患者的隐私信息变得越来越重要，医院有责任和义务保护患者的隐私信息，医生担心在公共场合下通过“说”会泄露患者隐私信息，影响患者就医体验；四是医学专业性，检验、检测科室使用的一些医疗特殊单位，医疗特殊符号没有办法录入，影响使用效率。五是全面应用较困难。医生在语音书写病历时，仍需要手动完成简单命令操作，如：模板调用、内容删改、表格填写、文件保存等，不能完全脱离键盘使用[8]；此外，部分住院专科病历结构化程度较高，如下拉框、复选框、单选框方式写病历，传统手工和语音方式来回切换，影响录入效率。五是移交数据有待优化。对于部分医院而言，现有数据标签设置存在不规范、不标准、不统一问题，造成用户利用系统语音功能无法获取比较全面、系统的信息数据。这就要求技术人员要加强对医院数据质量的优化和提高，确保整个信息数据获得的全面性、高效性和真实性。总之，本文所构建的医疗智能语音识别系统尽管取得了一定的应用成效，但是仍然存在以上不足问题，技术人员要再接再厉，针对这些不足问题，对系统功能进行改进和优化。

7 结束语

综上所述，本文所设计的医疗智能语音识别系统功能强大、适用性强，便于医护人员利用该系统快速录入语音内容，提高相关文字录入的效率和效果，完全符合各大医疗应用需求。由此可见，医疗智能语音识别系统具有非常高的应用价值和应用前景，值得被进一步推广和应用。