基于领域本体的临床语义关联知识抽取技术研究

2017-01-16 01:58蒋秀林朱文婕谢静陈玉娥
常州工学院学报 2016年5期
关键词:病历本体关联

蒋秀林,朱文婕,谢静,陈玉娥

(蚌埠医学院公共课程部,安徽蚌埠233000)

基于领域本体的临床语义关联知识抽取技术研究

蒋秀林,朱文婕,谢静,陈玉娥

(蚌埠医学院公共课程部,安徽蚌埠233000)

抽取临床电子病历系统有价值的检验检查信息,可以为临床工作人员和科研人员对某些疾病的诊断和分析研究提供数据支持。采用领域本体构建技术、知识抽取技术和基于领域本体的语义推理技术实现临床电子病历系统中文本信息的关联关系抽取和分析,并给出了语义知识抽取技术在电子病历系统中的处理流程。在大数据时代背景下,该技术有利于临床语义知识的发现和关联,有利于辅助完成临床信息挖掘,为临床决策提供可靠的技术支持。

临床信息;领域本体;语义技术;知识抽取;语义关联

1 概述

随着信息技术在医学领域的快速发展和应用,电子病历已能基本实现病历内容的电子化录入、传输和存储,但由于病历内容的自然语言特点,病历数据的利用却发展相对滞后。如何在不影响电子病历录入的情况下,实现快而准地检索用户感兴趣的内容,是临床领域迫切需要解决的问题。

基于文本信息的数据挖掘和知识发现是当前信息处理的一大热点。病历中蕴含的潜在信息非常丰富[1],它们之间既存在语义性又存在关联性。病历的无结构化特点,使计算机对其处理、分析、理解受到限制。如何从病历信息中快速找到信息之间的直接和潜在关联,为临床决策、临床科研、流行病学研究等提供数据支持,是文本信息分析员的重要工作内容。

Agrawal等人提出了关联规则挖掘技术,主要是在海量的、有结构的数据库中进行数据挖掘和关联分析[2]。最著名的关联规则Apriori算法[3]是通过多次迭代找出所有的频繁项目集。文本挖掘中的关联分析技术是利用各项智能分析技术对非结构化文本进行抽取、存储和分析后获得有价值知识的技术。例如信息A1和A2相关、A2和A3相关、A3和A4相关,希望检索得到A1和A4的路径关联关系。

当前,国内对文本挖掘的研究主要集中在分类、聚类和机器学习等传统技术上,本文将引入语义技术,将病历信息抽取的结果采用领域本体表示,并通过知识检索技术和推理技术实现病历信息挖掘。

2 病历信息中诊断对象的语义关联分析

以住院病历信息的关联关系分析为研究对象,结合模拟文本信息处理和分析技术,主要研究病历信息中的实体语义关联关系,挖掘潜在的、实体间的关联关系。首先,采用基于领域本体的信息抽取技术对病历信息进行实体提取,用领域本体表示,并获取实体间的语义关系;其次,将抽取的知识和语义关联关系存储到知识库中;最后,在知识库中进行知识检索和推理,完成语义关联关系分析。

2.1 关联知识抽取

基于领域本体的病历文本信息抽取,目标是命名实体和命名实体间关联关系。关联关系抽取首先要确定抽取信息的范畴,即确定哪些信息是有价值的。经分析研究发现,在病历文本信息中命名实体之间的关联关系通常是和命名实体的诊断情况进行直接关联的[4]。例如:某患者的电子病历中描述显示“头CT检查显示腔隙性脑梗死”,这里“头CT”是检查手段,“腔隙性脑梗死”是疾病,二者之间的关系是“头CT” 证实了“腔隙性脑梗死”的发生。在电子病历信息中,像“头CT”和“腔隙性脑梗死”称为命名实体(概念),实体间的关系称为诊断事件。具体定义如下:

定义1 命名实体(概念):={患者、医生、机构、疾病、症状、检查、治疗、药物}

诊断事件:= {时间<入院时间、检查时间、出院时间>,地点<住院检查和诊断的地点>,患者<姓名、性别、年龄>,医生<姓名、性别、级别>,病情内容<文字描述>}

“命名实体(概念)—诊断事件”是病历实体关联的重要信息,根据定义1,给出关联关系和具体实例,如图1所示。

图1 概念—事件关系图和示例图

从图1概念—事件关系图和示例图可以发现,病历信息的关联关系不仅包括“概念—事件”“事件—时间”“事件—地点”“事件—患者”“事件—医生”“事件—病情”直接关系,还包括“概念—时间”“概念—地点”“概念—病情”的间接关系。

病历关联知识抽取包括命名实体抽取和概念间语义关系抽取。首先,对病历文本信息进行命名实体识别,鉴于病历信息的特点,采取基于规则和机器学习相结合的方法识别命名实体;然后,根据实体选取的位置和上下文关系选取诊断候选事件,为保证诊断事件的完整性,进行语法和词法分析,当候选事件满足定义1中的要素时,按照领域本体模型进行关联关系提取;最后,存储到知识库中。文中采用如图2所示的处理流程提取病历信息中的关联关系,并存储到领域本体库中。

图2 病历信息关联关系抽取流程图

2.2 基于本体的关联关系建模

基于本体的关系模型构建是知识抽取、关系存储、知识检索和推理的重要依据及基础。领域本体(domain ontology)是专业性的本体,描述的是特定领域中概念和概念之间的关系,提供了某个专业学科领域中概念的词表及概念间的关系,并研究如何定义特定领域中的概念、概念之间的关系、发生活动以及该领域的主要理论和基本原理[5]。

文中采用本体层次树结构描述临床本体的概念体系,在层次树中结点表示临床本体中的概念,边表示医学本体中概念与概念之间的关系。采用Protégé工具编辑临床本体,用OWL语言描述。

结合定义1,给出病历信息中的概念(命名实体)和关系,如定义2。

定义2 临床概念(Clinical Concept):={患者、医生、机构、疾病、症状、时间、检查、治疗、药物}

关联关系(Association Relation):={概念—事件、事件—时间、事件—地点、事件—患者、事件—医生、事件—病情、概念—时间、概念—地点、概念—病情}

下面采用Protégé本体建模工具,对Clinical Concept和Association Relation进行建模。按照领域本体构建的标准和规范,定义了类和类之间的关系。图3给出了临床概念和诊断事件两类,并在临床概念类下又细分了患者、医生、机构、症状等子类。

图3 临床本体概念模型图

在概念模型的基础上,同样按照领域本体构建的标准和规范,定义每个类之间的关系以及关系的数据模型和逻辑描述,如表1所示。

表1 临床概念数据模型

2.3 基于语义的关联知识挖掘和发现

2.3.1 关联规则

临床关联关系分析的目的是为知识检索服务,同时还要解决临床知识的路径关联分析和挖掘潜在的关联关系。路径关联分析是基于语义检索的知识查询,潜在的关联关系发现的是基于语义推理的知识发现。下面给出两条关联规则。

定义3 如果两个概念a1和a2与同一个诊断事件相关,且相关度都大于一个阈值,则这两个概念具有潜在关联。

定义4 对于两个概念a1和a2,在与之直接关联的概念对象集合中,如果分别检索到两个以上相同概念,则认为概念a1和a2具有潜在关联。

图4给出了具体病历案例的描述和关联关系的Ntriple表示。

图4 病历关联关系Ntriple描述实例

2.3.2 关联分析

本文知识关联规则的任务面临两个问题:第一,从大规模的数据集中发现特定的模式可能会消耗大量的资源和时间;第二,发现的这些关系也许只是偶然出现,其实并不存在真正的关联。下面利用关联分析来挖掘可能存在的关联概念。

假设A={a1,a2,…,an}是某患者的电子病历中诊断概念的集合,B={b1,b2,…,bn}是整个医院的电子病历中诊断概念的集合。B中bi可能包含A中的子集。推理规则是具有R→S(R与S存在潜在关联)形式的隐含表达式,R与S不相交。而数学上对于一个规则R是否能得到肯定或者是否有意义,往往用支持记数σ(R)表示,定义如下:

且规则R→S的概率如式(1),大于1个阈值m:

(1)

式中,n为医院电子病例的总数。

式(1)也是数据挖掘关联分析中支持度的定义。

基于语义的关联知识挖掘和发现问题就转化为给定一个诊断事务ST,寻找所有可以满足σ(R)≥minsup(minsup是支持计数)和P(R→S)≥minconf(minconf是支持度的阈值)的所有规则。下面通过关联规则挖掘算法[6]寻找存在潜在关联关系的诊断概念,为临床诊断和研究提供技术支持。

1)频繁项集生成:寻找大于minsup支持计数阈值的所有项集。

2)规则生成:从1)中抽取所有高支持度的规则。

图5给出了Apriori算法中的频繁项目集生成算法,其中Ck表示备选的k-项集,Fk表示频繁出现的k-项集。

2.3.3 语义检索

传统的基于关键词的检索只能返回那些病历中出现了该概念的结果,查询结果集非常大,需要在人工的帮助下根据上下文再次筛选。而语义检索是从目标概念出发,在网状结构的知识集中将与目标概念相关联的诊断事件聚类融合后返回给用户。关键词检索是基于文本的检索,语义检索是基于上下文和知识关联的检索,后者返回集更加精确。

图5 Apriori算法中的频繁项目集生成算法

选择神经内科、内分泌科、感染科和心血管科各30份电子病历作为试验样本,通过字符处理后,得到上述各科医学概念23 192个、7 002个,40 004个和48 774个。表2给出了采用本文技术进行信息抽取的查全率和查准率。表3给出了本文技术与基于规则的信息抽取技术和基于相似度匹配技术的平均查全率和查准率的实验结果对比。

表2 本文信息抽取技术的查全率和查准率

表3 实验结果对比

3 语义知识抽取技术在电子病历系统中的处理流程

基于语义关联知识抽取技术的临床病历系统通过知识抽取、领域本体表示,实现基于语义的知识检索,并在检索结果上通过语义推理(路径关联分析和潜在的关联关系发现)完成知识发现。具体处理流程如下:

1)通过领域本体模型中的概念,采取基于规则和机器学习相结合的方法识别和确定病历文本信息中的命名实体对象,并判定和确定这些命名实体对象的类型;

2)通过命名实体选取的位置和上下文关系选取诊断候选事件集;

3)通过语法和词法分析技术对诊断候选事件集进行分析,抽取符合要求的事件集,结合基于本体的关联关系模型抽取临床概念与概念间的关联关系,并存储到知识库中;

4)在知识库和实例库中完成知识检索;

5)通过规则库,在知识库上实现语义推理,并给出关联关系分析结果。

图6所示的临床病历系统处理流程技术不仅为工作人员提供快速的关联关系检索,还为临床研究人员、临床决策等提供技术支持。

图6 语义知识抽取技术在电子病历系统中的处理流程

4 结语

本文在大数据时代背景下,针对日益增大的临床电子病历信息,采用领域本体构建技术、知识抽取技术和基于领域本体的语义推理技术实现临床电子病历系统中文本信息的关联关系抽取和分析,给出了语义知识抽取技术在电子病历系统中的处理流程。该技术有利于临床语义知识的发现和关联,有利于辅助完成临床信息挖掘,为临床决策提供可靠的技术支持。在进行关联关系抽取和挖掘的同时,如何完整保留信息的完整语义,如何提取有价值的关联信息,是下一步研究的目标。

[1]WASSERMAN R C.Electronic medical records (EMRs),epidemiology,and epistemology:reflections on EMRs and future pediatric clinical research[J].Academic Pediatrics,2011,11(4):280-287.

[2]GAO J.Resolution and accuracy of terrain representation by grid GEMs at a micro scale[J].International Journal of Geographical Information Science,1997,11(2):199-212.

[3]WU Qiang,LIU Zongtian,QIANG Yu.Ontology based knowledge reasoning research[J].Application Research of Computers,2005,21(1):55-57.

[4]UZUNER O,MAILOA J,RYAN R,et al.Semantic relations for problem-oriented medical records[J].Artifical Intelligence in Medicine,2010,50(2):63-73.

[5]蒋秀林,谢强,丁秋林.基于领域本体的用户模型的研究[J].计算机应用研究,2012,29(2):606-608.

[6]TAN P N,STEINBACH M,KUMAR V.Introduction to data mining[M].Boston:Pearson Addison Wesley,2007.

责任编辑:周泽民

Clinical Semantic Extraction Technology Based on Domain Ontology

JIANG Xiulin,ZHU Wenjie,XIE Jing,CHEN Yu′e

(Department of Public Curriculum,Bengbu Medical College,Bengbu 233000)

Extracting valuable inspection information from clinical electronic medical records system can provide data support for clinical staff and researchers to diagnose and analyze certain diseases.Domain ontology construction technology,knowledge extraction techniques and semantic domain ontology reasoning technology are utilized to realize association extraction and analysis of clinical electronic medical records,and the actual process of using semantic knowledge extraction technology in the electronic medical record system is displayed.In the big data context,the technology is conducive to discovering and associating clinical semantic knowledge,mining clinical information and providing reliable technical support for clinical specialists′ decision-making.

clinical information;domain ontology;semantic technology;knowledge extraction;semantic association

10.3969/j.issn.1671-0436.2016.05.010

2016- 08-21

安徽省教育厅高等学校省级质量工程项目(2014jyxm);蚌埠医学院科研项目(Byky1306);蚌埠医学院科研项目(Byky1305);蚌埠医学院自然科学基金重点项目(BYKY1627ZD)

蒋秀林(1987— ),女,硕士,助教。

TP391

A

1671- 0436(2016)05- 0044- 06

猜你喜欢
病历本体关联
强迫症病历簿
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
眼睛是“本体”
“大数的认识”的诊断病历
“一带一路”递进,关联民生更紧
奇趣搭配
基于本体的机械产品工艺知识表示
智趣
为何要公开全部病历?
村医未写病历,谁之过?