随着卫生信息化建设的快速推进,电子病历(Electronic Medical Record,EMR)将逐渐取代传统的手写病历文书,并成为记录医务行为和患者病情的主要信息载体。与手写病历不同,EMR的书写需要医生敲击键盘并且借助拼音输入法完成对医务信息的录入,但是通用的拼音输入法并不能满足医生的需求,无法有效提升医生的电子病历录入效率。如潘军飞[1]等人利用“搜狗拼音输入法”的基础词库和细胞词库等输入技巧,对临床医生开展了EMR书写录入培训;肖辉等人[2]在广泛使用的拼音输入法基础上,添加医学信息代码及国家标准代码数据集的录入和提示功能;陈琦[3]面向医疗领域设计开发了一套Android输入法软件系统;李山[4]对EMR进行命名实体识别,提取病历中重要的诊疗信息,构建了一套住院病历录入辅助系统。
评估拼音输入法在中文EMR录入任务中与常用文本录入的输入效率差异,分析内在原因,对提升拼音输入法的临床工作效率具有研究意义。笔者借助已有的输入法评估工具和评估指标,随机选择实验文本,设计实验,对比3种拼音输入法在电子病历录入任务中的输入效率差异。
为了评价不同拼音输入法在电子病历录入中的效率差异,从常用拼音输入法的选择、实验文本的选取、评价指标的构建以及输入法评价工具的使用4方面阐述。
对“搜狗输入法”“百度输入法”以及“搜狗输入法医生版”3种常用拼音输入法在电子病历录入中的输入效率进行评价。用IME1、IME2和IME3指代的各输入法的软件信息如表1所示。
表1 各输入法软件信息
从全国知识图谱与语义计算会议(CCKS)的电子病历语料中随机抽取文本长度分别为15、41和91个字符的3份病史相关文本,分别使用EMR-1、EMR-2和 EMR-3指代;从“人民日报2014”语料中,随机抽取了长度分别为15、43和97个字符的3份新闻文本,分别使用News-1、News-2和News-3指代,并以15个字符长度的句子作为例句(表2)。对两组实验文本的字数分布做t检验 ,P>0.05(P=0.939),无统计学差异。
表2 实验文本长度分布及例句
文本录入效率评价实验中,参与者完成文本录入时存在3种文本语句。以“患者是老年男性”为例的3种语态形态,如表3所示。
表3 文本输入评估中的3种语句形态
注:1由研究人员选定的测试文本用P指代,2记录参与者录入过程的文本用I指代,3参与者最后录入完成的文本用T指代,4参与者实际输入的是拼音(简拼、双拼或全拼等,此处以全拼为例)
Soukoreff等人[5]围绕文本录入效率评价指标构建问题,以“录入文本(I)”为分析对象,将I细化为表4所示的4个部分,提出了一系列量化指标以计算文本错误率。
结合表4对文本错误率的3个核心指标进行概述。
最小文本距离(Minimum String Distance,MSD)错误率:
(1)
据此可知表3的MSD错误率为0。
每个字符的击键数(Key Strokes Per Character,KSPC):
(2)
表4 录入文本(I)中的4个组成部分
据此可知表3的KSPC=1.25。
总错误率(Total Error Rate):
(3)
据此可知表3的总错误率为11%。
上述评估指标仅仅关注了输入流文本而并没有考虑输入时间[6],但对输入流文本的划分可以详细描述参与者使用输入设备完成文本录入实验的内在过程。
笔者开发了输入法评价软件TestIME[7],其主要功能模块为实验文本分配模块(用于随机向参与者分配实验文本任务)、拼音输入法自动切换模块(用于自动切换需要测试的拼音输入法)、文本输入行为监控模块(用于记录参与者的文本输入流)。研究中,随机招募4名参与者,利用TestIME对上述3种输入法进行评价,评价流程如图1所示。在相同实验环境配置下,参与者在TestIME内使用相应的输入法完成实验文本录入任务,由软件自动记录参与者的输入流以及输入时间,全程无研究人员干预。
图1 常用拼音输入法的评价流程
问卷调查结果显示,4名参与者均为医学生,经常使用拼音输入法进行文字录入工作,无EMR书写经历。将4名参与者的输入结果进行整理,计算各自的文本错误率和输入速率,取平均值汇总(表5和表6)。本文将从输入速率和文本错误率2个层面进行分析。
表5 4名参与者使用3种输入法在3个EMR录入中的文本错误率与输入速率(mean±SD)
表6 4名参与者使用3种输入法在3个新闻文本录入中的文本错误率与输入速率(mean±SD)
在3份EMR文本的录入中,各输入法的输入速率如图2所示。做单因素方差分析,P>0.05(P=0.961),说明各输入法的输入效率表现是基本一致的。IME1、IME2和IME3录入3份EMR文本的输入速率均值分别为39.98±3.31字/分钟、39.08±3.89字/分钟和40.02±6.12字/分钟。
图2 拼音输入法在3份EMR录入中的输入速率
在3份新闻文本的录入中,各输入法的输入速率如图3所示。做单因素方差分析,P>0.05(P=0.834),说明各输入法的输入效率表现是基本一致的。IME1、IME2和IME3的输入速率均值分别为51.37±2.18字/分钟、50.34±2.66字/分钟和51.96±4.50字/分钟。
对各输入法在EMR和新闻文本录入中的平均速率做t检验,P<0.01(P=0.00),说明EMR的录入速率比新闻文本的录入速率低。相较新闻文本,各输入法在EMR录入中平均速率分别降低了22.17%、 22.37%和22.98%。
图3 拼音输入法在3份新闻文本录入中的输入速率
在3份EMR文本的录入中,各输入法的mean±SD错误率如图4所示。做单因素方差分析,P>0.05(P=0.243)。各输入法的总错误率如图5所示。做单因素方差分析,P>0.05(P=0.303)。各输入法的KSPC如图6所示。做单因素方差分析,P>0.05(P=0.194)。从图4、图5和图6可以看出,各输入法在3份EMR文本上的MSD错误率、总错误率和KSPC这3个文本错误率指标是基本一致的。各输入法在EMR录入中的平均文本错误率如表7所示。
图4 拼音输入法在3份EMR录入中的mean±SD错误率
图5 拼音输入法在3份EMR录入中的总错误率
图6 拼音输入法在3份EMR录入中的KSPC
表7 各输入法在EMR录入中的文本错误率均值
在录入新闻文本时,对各输入法的mean±SD错误率、总错误率和KSPC进行单因素方差分析发现,各输入法在mean±SD错误率和KSPC这2个文本错误率指标上均无统计学差异,P值分别为0.054和0.085;在总错误率指标上,IME3的最低,IME2的最高,均值分别为20.35±1.17%和43.20±13.17%,P值为0.04。各输入法在新闻文本录入中的文本错误率均值如表8所示。
表8 各输入法在新闻文本录入中的文本错误率均值
对各输入法在EMR录入中的各文本错误率和新闻文本录入中的各文本错误率做t检验发现,各输入法在mean±SD错误率、总错误率和KSPC这3个文本错误率指标上均无统计学差异,P值分别为0.271、0.232和0.108。
实验结果表明,各输入法在同类型的3条实验文本录入中的输入速率和文本错误率基本一致。相较新闻文本的录入,3种输入法在EMR录入中的输入速率平均下降了约22.51%,而各输入法的文本错误率在不同类型文本上均较高。
为使实验结果更加科学可信,实验文本的选择有待进一步完善。国外学者Paek等人[8]开发了一套用于从脸书和推特(Facebook和Twitter等)采集实验文本的算法,Leiva等人[9]则基于统计学原理描述了一套文本采样方法。然而,这些方法都局限于外文测试集的构建,面向输入法测试任务的医学专业中文文本和对比参照中文文本的选择,构建测试集无偏性的评价,均有待进一步研究。本文采用随机抽样法,从CCKS开放病历语料和人民日报新闻语料中随机抽取字符长度不等的3条文本语句,语料文本选择的合理性问题尚待后续的研究证明。此外,本次实验的参与者较少,导致个别数据指标波动较大。4名参与者在测试系统使用和病历书写经验上的差异,可能存在系统误差。
本文参照文本错误率评价指标,借助输入法评价工具TestIME,分别从CCKS语料和人民日报中随机选择了3份长度不等的实验文本,随机招募4名参与者,初步设计实验对比了常用的3种输入法在不同类型的文本录入任务的输入效率。结果发现,各输入法在同类型的3条实验文本录入中的输入速率和文本错误率基本一致。相较新闻文本的录入,3种输入法在EMR录入中的输入速率平均下降了约22.51%,而各输入法的文本错误率在不同类型文本上均较高,说明当前拼音输入法在电子病历录入中的输入效率仍有提升空间。为使实验结果更加科学可信,后续研究将进一步关注测试文本选择的合理性,招募更多参与者设定清晰的纳入和排除标准,优化使用TestIME测试输入法效率的实验流程,为电子病历拼音输入法的改进提供有效的依据。