基于规则的临床病历感染症状的检测

2013-08-15 00:54:11王锦
科技视界 2013年10期
关键词:术语短语规则

王锦

(安徽电子信息职业技术学院,安徽 蚌埠233030)

0 引言

大多数病历中的临床信息存储在自由文本中。然而,以这种方式存储信息很难在决策支持系统或自动监护系统中应用。提取计算机可读信息的方式各不相同,许多系统采用字符串匹配的方法提取需要突出的数据元素。这种方法非常直接,但这种方法忽略强有力的同义词和否定词概念。更高级的自然语言处理系统已经开发出来,这些系统能够得到不同程度的成功取决于临床领域的范围和所需数据的颗粒度。

临床症状和体征是任何病历文本中的关键部分,包含与疾病表现形式和药物治疗相关的信息。从自由文本的症状和体征信息中获取信息是复杂的,有若干影响因素。这些数据在以双字符串匹配及其概念为基础的绘图软件中经常被记录缩写词。审查系统信息中,以简写的形式记录症状是普遍存在的。因为这些信息是必要的。此外,这些信息在不同部分的重复叙述,都有不同的解释。或许最重要的是频繁地使用否定词的临床症状(术语)。当症状信息在文本中出现而报告中不存在时就可能导致假阳性检测。

我们设法进行以规则为基础的算法性能评估,使用自然语言处理系统作为输出端,提取一组表现为非特异性的研究结果的感染性综合征。这种类型的评估在急诊和初级卫生保健的文档中尚未完成。此外,我们得出确定、否定或不确定的症状,因为这样的调查结果与经常使用的否定词相关联。

1 方法

1.1 研究设置及数据源

采用一个全国性的电子健康档案(EHR),提取了大约33000名患者的临床医疗记录,这些患者均是从1999年9月30日至2012年9月30号在6个医疗中心手术住院的。所有由急诊科(ED)、紧急护理诊所(UC)、或一个初级保健诊所(PCC)抽取的医疗文档由医师剔除地方和国家的文件标题。文档的标题没有完全符合逻辑观察的标示符名称和代码(LOINC)规定的情况下,从该类别中的几个具有代表性的标题中手工检查以确定该类编的资格。然后我们产生不同的训练和测试数据集。从数据集中采用随机分层方式分别抽取ED、UC、PCC的临床就诊记录20个共60个创建一个训练集。以同样的方式额外不重复从数据集中分别抽取ED、UC、PCC各148个共444个文档创建一个测试集。

1.2 多线程临床词汇服务器

自然语言处理系统在这次评价中已经使用很长的一段时间,并在使用词汇术语和术语之间临床层次关系的医学概念上建立索引。在UMLS、HL7、中的术语结构超过140万个字符串,包括缩写词、词汇、同义词、修饰词和限定词。该系统还具有一个拼写检查和修正功能。(MCVS)评估叙述性文本,以从候选词中选取最终的概念和主张。这些候选词根据每个字或词的值的词义提供的覆盖范围和它们在临床术语之间的关系选取。

1.3 规则的演变

每个症状的检测规则演变了三个迭代。迭代应用在训练集文档,并使用关键词和概念匹配。精确匹配的字符串在NLP系统中定义成术语,并定义为关键字。这些规则可以表示为非展开概念的任何组合,这些概念包括它们的孩子,和(或)关键字匹配法。当关键字匹配法包含多个单词时,一个成功的匹配被定义为找出在同一个句子的跨越两个短语以任何顺序排列的所有分量的词。此外,规则中有被推翻的术语。这意味着有的否定症状术语当作一个确定的术语。例如,确定术语 “无黄疸”和否定术语“黄疸之间”,“非腹胀”与“腹胀”。因为我们不能改变NLP系统的代码,所以我们无法进行迭代改善否定词的性能。NLP系统分配关键词和概念的描述。万一关键词和概念规则分量存在描述分歧,概念规则通常要判断。

1.4 数据分析

为了衡量症状检测规则的性能,我们在训练集中规则迭代完成后在测试集评价规则的性能。分析单位是短语。在每个短语中,每个症状可能存在一个单一的时间上。一个症状匹配算法在人工审核和以规则为基础的自动算法中对一个症状短语(不管描述)的判定是相符的。症状匹配法的描述是手动审核和自动化算法的协议。

以规则为基础的自动化算法从查全率、精确度及F值进行评估,分别用测试集中的结果真阳性(TP)、假阳性(FP)及假阴性(FN)表示。对于每个症状,假阳性是由系统查找,没有通过手动标注器,而假阴性是通过手动标注器发现的。

2 结果

该系统一共分析了12224条句子,这些句子均来自444个文档。这些句子分解成28040个短语,以便将它们映射到SNOMED-CT的概念和关键字中以及检测概念和关键字描述。这使得90673条短语被映射成概念,其余36410条短语没有被映射,保留作为关键字。

一共有2679条症状短语在人工评审和第三方评审的测试中检测到。呼吸急促症状出现3次,水肿出现343次,可以作为表2中真阳性和假阴性结果数的总和。在这些症状短语中,976个症状短语(36.4%)为确定性描述,1542个症状短语(57.6%)否定性描述,161个症状短语(6.0%)不确定性描述。有917个症状短语有歧义,913个症状短语由单独评审发现。有91个歧义描述由两个主要评审中发现。所有手工评审的F度量的平均值为0.805。在第三次评审判别歧义症状短语后,734个症状短语(80%)被评审人证实是正确的,183个症状短语是不存在的,6个属于不同症状的。

通过以规则为基础的自动化检测算法,在测试集中一共检测出2451个结果,分别有2236个真阳性结果和215个假阳性结果。表2中症状的真阳性和假阳性之和可以确定症状的出现。1223个症状(49.9%)为确定性描述,1215个症状(49.6%)为否定性描述,13个症状(0.5%)为不确定性描述。

相比于手工评审集,自动化症状检测算法的整体性能的测量精度为0.91,查全率为0.84,F值为0.87((TP=2236,FP=215,FN=443)。9个不同变化频率的症状重,黄疸的变化范围为0.35~1.00。回想一下从0.30~1.00变化范围的症状(黄疸、打喷嚏和厌食),这些症状都是比较特殊的。

相比于手工评审集,症状检测算法的整体性能测量精度为0.67,查全率为0.62,F值为0.64(TP=1654,FP=807,FN=1035)。例如,腹胀,19(6+13)情况下被自然语言处理系统发现,并没有被手工评审发现。另外,有NLP系统和手工评审均通过的34个症状中,NLP系统认为是确定性描述,手工评审认为是否定性描述。请注意,由于对于一个症状的描述,计算单个多级别精度和查全率的测量值是不平衡的算法,所以某些应变矩阵的元素的FP和FN应计算多次。表4描述的是每个症状规则的症状检测描述性能测量值(准确率、查全率和F值)。该系统正确检测出84.7%(646/762)的确定性描述、75.1%(1001/1333)的否定描述,和0.7%(1/141)的不确定性描述。

3 结论

总体而言,包含关键字和术语的检测规则的自动化算法在临床记录中的感染症状检测中的表现非常出色。症状检测算法的表现好坏取决于临床记录中不确定性和否定性症状的比例。该系统能很好地协助检测叙述性文档的各种临床症状以支持实时临床决策和公共健康活动。今后的工作将是系统开发和以规则为基础的症状检测和描述确定算法的改进。

[1]王灿辉,张敏,马少平.自然语言处理在信息检索中的应用综述[J].中文信息学报,2007,21(2):35-45.

[2]李毅,保鹏飞,薛万国.中文电子病历的信息抽取研究[J].生物医学工程学杂志, 2010,27(4):757-762.

猜你喜欢
术语短语规则
撑竿跳规则的制定
数独的规则和演变
让规则不规则
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐败规则对我国的启示
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势
奥运术语
篮球术语及游泳术语