人工智能+医疗：聚焦语音识别

2017-05-08 01:52■文/王浩

张江科技评论 2017年4期

■文/王浩

随着相关技术的成熟与发展，语音技术将会赢来如智能手机般的突破式发展机遇，其与各个产业的结合在深度和广度上也会不断强化。

在神经网络算法等的推动下，语音识别准确率超过了人类的平均水准，语音技术开始融入具体的应用场景。如美国亚马逊公司Echo这样的应用开始涌现；地图应用时习惯用语音输入目的地的用户越来越多；高德地图合成的林志玲声音和真人也无二致；上海街头开始通过声呐结合视频识别来捕捉在中心区域鸣笛的汽车……

语音识别与医疗碰撞在一起又会闪现出什么样的火花？

语音识别领先公司Nuance的启示

语音识别是将一段包括自然语言发音的声学信号投影到对应说话人的词序列上。传统做法以20毫秒为一帧来分割信号组成输入向量，许多语音识别系统还会通过特殊的手工设计方法预处理输入信号，从而提取特征，某些深度学习系统则直接从原始输入中学习特征。

自2013年深度学习算法大规模在语音识别中运用后，语音识别准确度飞速提升，从2013年的约77%到现在已经超过95%，人类的平均语音识别准确度就约为95%。

说到语音识别公司就不得不提Nuance，苹果手机Siri使用的就是Nuance技术。Nuance公司2016财年收入19亿美元，其中约10亿美元来自医疗产业，也就是说超过50%的收入来自医疗产业的应用。而中国的语音识别技术公司在医疗产业的应用推广才刚开始。了解Nuance公司在医疗产业的布局能帮助我们建立对语音识别技术与医疗结合的基本理解。

Nuance公司在医疗领域的应用几乎都围绕各类临床文档展开，包括医嘱、病历、诊疗记录等。Nuance公司所从事的具体工作简单来说就是借助语音识别等技术手段帮助医院和医生记录、编辑、清理、整理各类医学文档。Nuance公司将这个业务做到了极致：从技术角度来看，Nuance公司不仅有专业的语音识别技术，还在印度有超过6 800人的编辑团队对语音识别过后的内容进行校验和优化（据了解还有更多的校验工作通过众包来完成）；另一方面，Nuance公司的语音识别技术和既有医疗信息化系统深度融合，其支持美国所有主流的医疗信息化系统厂商如Epic公司、Cerner公司、eClinicalWorks公司和athenahealth公司等，医生的语音输入能够流畅地和医院信息化系统打通，嵌入到医院的既有工作流中。

Nuance的医疗业务分为4块。

1.转录服务：所谓转录服务就是帮助医生将各类院内医疗记录数据录入以及整理。Nuance系统将医生的语音通过自动识别做第一道处理，再通过印度团队来做进一步处理以提高准确度。这个服务也同样提供给保险公司等对医疗数据完整性、高质量有要求的医疗健康组织。

2.龙医疗（Dragon Medical）：龙医疗是听读软件系统，是Nuance服务的核心。它能够帮助医生将口述内容转换成文字并录入到电子健康记录（EHR）等系统里。这套系统融合了各类模板来简化并引导医生的输入，现在还能基于智能技术实时帮助医生解决护理患者时遇到的问题。

3.临床文档改进和编码解决方案：这个方案可以确保医疗信息被正确编码、评估并妥当地保存下来。这个服务可以帮助医疗机构遵从合规要求，并提高编码效率以及时地获得保险理赔（保险公司对理赔时提供的数据准确性等有较高要求）。

4.诊断解决方案：这个方案可以帮助放射科医生方便地保存、分享医学影像以相互协作，进而改进医疗质量。

根据Nuance公司公开的数据，龙医疗平台的语音病历录入准确率已经高达99%，能够帮助临床医生将文档事务的处理效率提升45%。基于Nuance公司的临床语音识别技术，医生平均每年能够记录超过1亿患者的数据。目前，Nuance公司的医疗语音解决方案在美国医疗机构中的覆盖率高达72%，其客户分布在全球30余个国家和地区，已经有50万名临床医师和1万台医疗设备采用其医疗语音解决方案。

Nuance公司的这些创始性工作具有启迪意义。在了解Nuance公司之前，很少有人意识到一家以人工智能闻名的公司需要配备如此多的人员来从事人工校验工作。作为服务提供商来说，最重要的是质量和效率，在人工智能真正取代人工之前，为保障服务的质量与效率，“人工智能”+“人工结合”的解决方案是更为务实的选择。我们同样也没有意识到仅仅提供医疗文档的辅助性服务，Nuance公司就能每年获得10亿美元的收入。联想到目前国内医疗数据的孤岛以及大量脏数据存在的问题，也许这里面同样存在着大量未被释放的商机等待着创新企业家们去挖掘。

语音识别在中国医疗产业的应用

与Nuance公司对标的中国公司是语音识别先驱公司科大讯飞。科大讯飞成立于1999年，专业从事智能语音以及语言技术研究、软件及芯片产品的开发等。公司目前主要的产品化应用是在教育行业，随着产业的发展，近来开始发力智慧医疗市场。科大讯飞在医疗领域的产品分6大块，和Nuance公司的类似之处是其核心均在于将语音识别技术融入医生的日常工作流。

1.医疗听写SDK：该功能可以精准识别医疗词汇，实现语音文字间转化，这部分功能开放给其他医疗信息化服务厂商，并通过软件授权等来获取费用。

2.硬件麦克风：此功能专门提供给医生使用的麦克风，针对医疗工作场景设计的高信噪比、环境适应能力强的麦克风可以配套讯飞的软件使用，公司则从硬件销售或软硬一体化销售中获取费用。

3.口腔电子病历：这是结合口腔科的使用场景开发的支持语音输入的电子病历系统，公司通过软件销售等来获得费用。2016年9月，科大讯飞与北京大学口腔医院口腔数字化医疗技术和材料国家工程实验室共建的“基于语音的门诊病历采集系统”投入试点。截至2016年底，讯飞智能语音系统已经在北京301医院、上海瑞金医院、北京大学口腔医院、安徽省立医院等20多家医院应用。

4.超声助理：与口腔电子病历类似，超声助理是专门提供给超声科医生使用的语音录入系统。

5.云医生：这个功能可以辅助医生查房、记录、检查等，核心应用是在医生查房时通过医生口述来识别并记录数据。

6.医疗服务机器人：科大讯飞可以说是较早进入医疗服务机器人领域的企业，其在合肥市第一人民医院和北京301医院先后投入了“晓曼”医疗辅助机器人，“晓曼”能通过语音识别提供向导、咨询、分流等服务。据报道，“晓曼”可以提供医院位置咨询、219个常见病和症状咨询、51个常见知识问询，还能够通过自适应学习提升在方言上的理解能力。

总体来说，硬件麦克风和语音电子病历构成了科大讯飞医疗智能语音产品的核心。这个体系通常由3部分组成：夹在医生领口的医学麦克风、装在医生口袋的发射器及插在工作电脑上的接收器。诊断过程中，医生以口述的方式说出患者的病历，系统通过自然语言处理技术将其转换成结构化的信息，形成包括患者检查史、病史、检查结果、身体指标等信息的结构化电子病历，并在工作电脑上生成记录。相比龙医疗平台近10年的应用和50万名医师的覆盖，科大讯飞的语音病历系统仍处于商用的初级阶段，产品的推广和技术升级仍有待时日。对于科大讯飞公司来说，好消息是龙医疗产品并未进入中国市场，同为语音龙头的科大讯飞具备广阔的发展空间和赶超的时间窗口。

与科大讯飞公司一样，基于语音技术耕织医疗市场的还有另外一家国内早期落地的语音识别技术公司云知声。云知声专注物联网人工智能，构建了“芯片+UI+服务”体系。这家公司成立于2012年，主要利用机器学习平台在语音技术、语言技术、知识计算、大数据分析等领域进行技术投入，并通过应用层面的AI芯片、AIUI、AI Service三大解决方案支撑技术落地。

在医疗领域，云知声公司与飞利浦公司合作搭建了语音病历系统。飞利浦面向医疗的专业手持录入设备在国外医疗市场占有率超过70%，2014年云知声与其建立合作，是其在中国唯一的总代理。云知声提供的语音病历系统以面向医疗领域的高性能识别引擎为基础，以飞利浦的手持外设录入设备为辅，能够与医院信息化系统对接，将医生的语音转录成文字内容并显示在医院信息系统（HIS）、影像归档和通信系统系统（PACS）中。

这家公司的病历语音系统包含了4种主要技术。

1.医疗领域语言模型：该模型汇总超过30 GB的医疗文本资料，覆盖各科室常用的病症、药品名称、操作步骤等信息，针对3 000余个医疗特殊符号进行优化，整体识别准确率超过95%。此外，系统通过深度定制的方式，为40多个临床和医技科室提供分场景支持，在神经科、免疫内科、血液科、普通内科等疑难杂症患者较多的科室应用效果良好，个别科室的识别率超过98%。

2.云端语义矫正：云端语义矫正技术可以修正本地识别中不准确的词语。

3.个性化语言模型：语音录入系统可以与用户账号绑定，医生登陆HIS系统时将自动加载所在科室的语言模型，医生也可以根据自己的使用习惯添加常用词汇。

4.自学优化系统：云知声应用了无监督的自适应技术来解决医生的口音问题，在医生的正常使用过程中，识别准确率会逐渐提升。

云知声以三甲医院为主要客户初步推广，目前已覆盖60多家医院。公司产品已经在全国20多家有代表性的大型综合三甲医院正式上线。此外，云知声与平安好医生、春雨医生建立合作，希望在此基础上切入移动医疗领域。目前，该系统可以节省医生超过38%的病历录入时间，同时避免了繁重工作下的复制、粘贴操作，提升病历输入的规范性和安全性。

云知声与科大讯飞在产品化的方向上并没有本质的区别，只是在具体的商业拓展上有所不同：在对语音识别很关键的智能麦克风上，云知声选择了与既有厂商合作，科大讯飞选择了自己制造硬件；在合作科室的选择上，科大讯飞聚焦口腔和超声，云知声支持40多个科室。笔者认为，智能技术与医疗场景需要深度的融合，从有限科室开始试点逐步拓展至更多科室更加务实。

语音技术在医疗产业的前景

施乐公司PARC研究所发明的图形界面电脑改变了人类与电脑的交互方式，乔布斯发明的智能手机创造了人机交互的新方式，每一次人机交互新技术的发现都给人类社会带来了翻天覆地的变化。作为人机交互技术的下一步，通过语音、手势乃至脑电波等更有效率的方式来与机器交互是人机交互发展必然经历的过程。

今天，语音识别技术的准确度已经超过人类的平均水平，不过在对语义的理解以及对语义上下文的理解上还有所欠缺，理解了语义后如何做出正确响应的后台知识库储备还有不足。随着这些相关技术的成熟与发展，语音技术将会赢来如智能手机般的突破式发展机遇，其与各个产业的结合在深度和广度上也会不断强化。

作为产业从业者应把握此次机遇。巨头公司如百度、科大讯飞等应致力于探索底层技术的突破，解决前面所提到的挑战；医疗应用公司应致力于探索语音识别技术与医疗场景可以结合的地方，寻找可落地、可商业化的应用；医疗机构也应积极拥抱变化，敢于尝试新技术、新方法来提高效率，改善医疗质量……

过去，每次新技术来临时我们都表现出了犹豫不决，但经历过多次新技术升级的人类社会已经逐渐适应了快速变化的环境，与其反复讨论不如快速试错，在实践中学习总结并不断迭代才是拥抱人工智能来临的正确姿势。