基于关联关系的电子病历聚类研究

2018-03-22 01:05:36
中华医学图书情报杂志 2018年5期
关键词:特征词病历关联

电子病历是基于特定系统的电子化患者记录,电子病历系统提供用户访问完整准确的数据、警示、提示和临床决策支持系统的能力[1]。电子病历数据是患者在医疗机构历次就诊过程中产生和被记录的完整的、详细的非结构化数据,具有数量多、复杂性、内容丰富的特点[2-4]。如何对电子病历的非结构化文本信息进行标注和分析、索引、查询,进而挖掘并获取有效信息,成为医疗健康领域中一个亟待解决的问题。

聚类(clustering)是文本挖掘的主要手段之一,是指将数据集划分为若干组(class)或类(cluster),并使同一个组内的数据对象具有较高的相似度[5]。电子病历聚类是将工程中非监督模式识别运用于电子病历的数据挖掘中,将没有标记的电子病历划分为多个子集,使同一个子集中电子病历的相似度尽可能的大,不同子集中的电子病历相似度尽可能的小。电子病历聚类对疾病归类、疾病的发展过程、临床治疗措施的选择以及研究等均具有重要的意义[6]。

1 电子病历聚类模型

现有的电子病历聚类主要采用非隐语义模型,其核心思想是通过隐含特征,联系患者的病状、病程,从而找到电子病历潜在的主题和分类。其方法主要有词袋模型和向量空间模型。

1.1 词袋模型

词袋模型是最简单的文本处理方法之一,其基本原理是将文档看作一个装满了词语的袋子,认为每个词都是独立的不依赖其他词。词袋模型将电子病历定义为由电子病历文档中的词组成的词袋,在电子病历的聚类中得到部分应用,但由于电子病历文本的特殊性,词袋模型在其聚类中也出现了很多问题[7-8]:特征词词频减少,如不同患者的对同一个意思的不同表述,会造成表述同一意思的词频减少,进而造成对电子病历的聚类效果不理想;停用词影响结果相关性,如在电子病历词袋中“你、我、他”等停用词出现频率较高,不但对电子病历聚类毫无意义,还导致产生聚类的结果相关性低等问题;通过词频度量相关性有缺陷,如在疾病分类中用“发烧”这个词在电子病历描述中出现的频次衡量其相关性,会导致所有的发热症状都具有相关性,显然仅通过词频度量相关性是不够准确的。

1.2 向量空间模型

向量空间模型将文本表示成特征项和特征项权重组成的向量,使用余弦函数进行距离度量[7],以空间上的相似度表达语义的相似度。

向量空间模型在电子病历聚类中的应用为:将一条电子病历表达为一个向量,每个词为向量的一个维度,用余弦定理对电子病历间的相似度进行计算,通过比较权重度量电子病历的相关性。这种模型主要存在以下问题:一是语义相关缺陷。向量空间模型不能够表达文档中词条之间丰富的语义关系[9]。其对电子病历的聚类默认了每个词语之间的完全独立,忽略了电子病历中词语的语义关系,如“发烧”和“发热”表述是同一意思,然而向量空间模型无法较好聚类语义相近的电子病历。二是度量衡表达问题。电子病历中存在大量的词语,用向量空间模型计算后的电子病历特征词是一个多维稀疏矩阵[10],两个相似对象之间的距离与两个不相似对象之间的距离差别不大,这种聚类方式区分力不强,效果不理想。

2 关联关系聚类实现

针对词袋模型和传统的向量空间模型应用于电子病历聚类的不足,本文将自然语言处理技术同面向属性的归纳联系起来,提出一种基于关联关系的电子病历聚类方法,目的是挖掘电子病历中存在关联关系特征词的隐含语义。

2.1 电子病历特征词的抽取

由于医学的特殊性,特征词的完整性显得尤为重要[11]。本文采用词袋模型加上人工干预提取每条电子病历的特征词。词袋模型的优点在于保证了特征词的完全提取,缺点是将很多停用词也提取出来。人工剔除停用词,人工干预语义一致性,既保证了特征词的完整性又解决了停用词影响特征词相关性以及特征词与病历的语义一致性问题[12-15]。

如某电子病历影像学诊断结果为“经腹部彩色多普勒超声检查(胃肠道)无异常”,用词袋模型提取的特征词为“经”“腹部”“彩色”“多普勒”“超声”“检查”“胃肠道”“无”“异常”,去掉停用词“经”,为保证语义一致性将特征词“无”和“异常”合并为“无异常”。

2.2 电子病历关联关系聚类实现

2.2.1 电子病历的空间向量定义

根据向量空间模型的权重衡概念,假设电子病历集文档为D,可以计算其特征词的权重,计算定义为如下:

(1)

其中tft,d代表电子病历中特征词语t在电子病历集D中出现的频次,dft代表包含特征词t的文档数目,N代表全部电子病历的数目。

在空间向量模型中,可由电子病历的特征词权重组成的特征词向量表示电子病历。假设D中包含有dn条电子病历,每条电子病历的特征词经过公式(1)计算均可得到其权重,用矩阵表示如下:

(2)

其中M为i×j的矩阵,矩阵的每一行表示一条电子病历,每一个元素表示某个词的权重。

2.2.2 特征词关联关系定义

向量空间模型的目的是使特征词在电子病历中的权重衡更加合理,但不足之处是不能表达特征词之间隐含的语义关系。如果能在权重衡的基础上辅以关系量来表达特征词的权重将更准确地表达特征词的语义。

假设特征词mi,mj同时出现在电子病历文档dk中,记做(mi,mj)∈dk;特征词mi,mx同时出现在电子病历文档dl中,记做(mi,mx)∈dl;据数理定理得mi∈(dk∩dl)。据此,我们认为电子病历dk和dl有关系。进一步,我们可以用特征词在不同电子病历出现的频次衡量不同电子病历之间的关系。根据广义Jaccard系数计算不同电子病历相似性,定义如下:

(3)

由前述假设,在电子病历集合D中,如果特征词mi,mx同时出现在两条不同的电子病历中,则说明这两条电子病历具有关联关系,结合定义(1)与(3),定义电子病历dk,dl的关联关系度如下:

(4)

其中,Wxk,Wxl分别为特征词mi,mx在电子病历dk和dl中的权重。

2.2.3 特征词关联关系完整性语义度定义

前述(1)(2)(3)(4)定义了电子病历特征词的关联关系度,但忽略了特征词之间的完整性。利用主成分分析法对关联关系度进行加权,因此电子病历特征词关系完整性语义度定义如下:

Ccontact(dk,dl)=λCcontact(dk,dl)

(5)

其中λ为主成分系数,是电子病历特征词权重向量方差除以方差和,λ介于0到1之间。λ值越大,关联关系度越紧密,从而保证了结果的一致性。

2.2.4 电子病历相似度计算

经过关联关系语义分析之后,电子病历可以表示成一个包含隐含语义的一个向量d。通过向量空间模型的余弦定理可以计算电子病历的相似度定义为:

(6)

公式(6)考虑了特征词的隐含语义和特征词的完整性,因此对电子病历的区分度更好。

3 验证

本验证基于重庆医科大学附属儿童医院2 294条川崎病电子病历数据,构建3个数据集D1,D2,

D3,分别代表门诊病历数据集。此数据集包括了门诊的病历,如患者口述、既往病史等;检查病历数据集,包括了患者各项门诊检查和住院检查的相关记录;住院病历数据集,包括了患者住院的各项记录。采用K-平均聚类算法与本文改进的关联关系聚类从时间效率与准确率两方面进行比较。

3.1 K-平均聚类算法聚类实现

K-平均聚类算法的思想是将特征词集分成N个簇,并将相似的特征词放入相应的簇中,从而实现特征词的聚类。K-平均聚类算法本文采用欧式距离公式计算,其算法如下:

(7)

依据K-平均聚类算法思想,其实现步骤如下:将初始质心尽可能的均匀分布(表1),依据公式(7)计算质心点与数据点的距离,计算其簇内均值并将其作为新的质心点,重复以上3步直至不再有新的质心出现。

3.2 基于关联关系电子病历算法聚类实现

依前讨论的结果,基于关联关系的聚类算法实现步骤如下:利用词袋模型分别对3个主题集分词依据公式(1)(2)计算特征词的权重,并形成特征向量矩阵,依据公式(3)和(4)计算电子病历的关系度,利用公式(5)对关联关系加权计算得到特征词之间的完整语义,利用公式(6)计算电子病历相似度。

3.3 实验结果及一致性评价

根据3.1和3.2,得出3个主题的聚类描述及结果(表1)。

表1 不同主题聚类结果对比

笔者请重庆医科大学附属儿童医院相关专家对3个数据集样本内的特征词进行标注,其聚类的准确率是100%。表2是根据K-平均聚类算法和关联关系聚类算法对同一数据集进行实验结果准确率对比的数据。

表2 K-平均聚类算法准确率与关联关系聚类算法

实验结果显示,采用关联关系聚类模型得到的结果准确率比采用简单向量空间模型得到的结果准确率平均提高了2.16%,说明通过关联关系挖掘出电子病历特征词隐含语义得到的聚类效果更准确。

从3.1和3.2的算法实现中我们可以发现,采用K-平均聚类需要多次循环,如果初始质心选择不当,循环的次数将会很大;采用本文的关联关系聚类无须多次循环迭代,用时较少,效率更高。

4 讨论

基于关联关系的电子病历聚类算法的原理是利用经典的词袋模型对电子病历进行分词,在广义的向量空间模型基础上,通过找出电子病历间相同特征词的频次,并进一步分析其潜在的隐含语义。关联关系聚类既利用了向量空间模型的度量衡优势,又考虑了词语之间隐含的语义关系,使电子病历的特征词更加全面地表达电子病历向量,增加同类电子病历之间的相似度,降低不同类电子病历之间相似度,提高了电子病历的聚类效果。引入主成分系数保证了结果的一致性。实验表明,该算法比传统的聚类方法更优。本文采用的构建模型方法简单、实用、效率高,摆脱了传统的“一病一法”粗糙聚类方法;软件的实现相对简单,开发成本低,亦可用于其他病种。关联关系聚类为推动电子病历数据挖掘、疾病的分类管理、分级诊疗、计算机辅助决策、精准医疗的全面实施提供有力知识保证。

实验中笔者也发现一些问题,如利用词袋模型分词时工作量较大,空间向量降维计算较复杂。因此下一步的工作首先是优化词袋模型,从而减少分词的工作量;其次采用关联规则的空间向量进行有效特征降维处理,提高文档表示模型的质量,简化相关计算,提高聚类效率。

猜你喜欢
特征词病历关联
强迫症病历簿
趣味(语文)(2021年9期)2022-01-18 05:52:42
“大数的认识”的诊断病历
“一带一路”递进,关联民生更紧
当代陕西(2019年15期)2019-09-02 01:52:00
基于改进TFIDF算法的邮件分类技术
奇趣搭配
产品评论文本中特征词提取及其关联模型构建与应用
智趣
读者(2017年5期)2017-02-15 18:04:18
为何要公开全部病历?
中国卫生(2016年10期)2016-11-13 01:07:44
村医未写病历,谁之过?
中国卫生(2015年10期)2015-11-10 03:14:32
面向文本分类的特征词选取方法研究与改进