刘玉文, 王 凯, 徐济成
(1.蚌埠医学院 卫生管理系, 安徽 蚌埠 233030;2.中国科学技术大学 计算机科学与技术学院, 安徽 合肥 230027; 3.安徽农业大学 信息与计算机学院, 安徽 合肥 230027)
基于概念格的本体医疗资源语义推荐方法
刘玉文1,2, 王 凯1, 徐济成3
(1.蚌埠医学院 卫生管理系, 安徽 蚌埠 233030;2.中国科学技术大学 计算机科学与技术学院, 安徽 合肥 230027; 3.安徽农业大学 信息与计算机学院, 安徽 合肥 230027)
围绕本体概念相似度计算的局限性展开研究,将用户及医疗资源融入本体构建模型,利用概念格的层次分类模型,通过筛选用户偏好,分别构建用户本体与医疗资源本体,改进相似度匹配算法获取用户的个性需求,得到具有较高推荐精度的用户模型.实验结果表明,该模型能有效降低用户选择医疗资源的困难度,提高需求满意度和推荐质量.
本体; 概念格; 个性推荐; 语义建模; 相似匹配
伴随着互联网技术的迅速发展,网络资源呈爆炸式增长.互联网医疗资源因其具有稀缺性,传统基于关键词的医疗信息查询方法难以获取高质量的资源信息,用户面临资源的最优化选择问题日益突出.个性化推荐技术是解决信息过载的有效途径,常用的推荐方法包括基于协同过滤的推荐方法、基于内容的推荐方法以及混合推荐方法[1].
基于协同过滤的推荐方法[2]是利用用户群内个体或项目之间的交互行为,以相同喜好为前提,将“物以类聚”思想融入推荐模型,通过计算用户或项目的最小近邻获取目标推荐.该方法的优点是综合考虑相似用户之间的潜在目标集,协同用户或项目间的相似关系,逐步获取最小近邻.虽然该方法得到了广泛应用,但仍存在数据稀疏条件下的相似度难以计算等约束,极端情况下还可能出现冷启动问题,即伴随着用户间共同评价项目数量的减少,用户之间的相似可比性逐步降低,最优项目可能因为没有用户评分而长时间得不到推荐.基于内容的推荐方法[3]是通过构建用户候选推荐集合,利用关键字匹配,计算用户信息与项目信息之间的相似度,获取最优候选集合.该方法的优点是解决了协同推荐方法的冷启动问题,有效避免了数据稀疏.缺点是该方法对余弦相似度计算过度依赖,结果过于集中于那些与目标用户具有相同属性的用户集,引起推荐结果集合与该用户历史偏好项目高度类似或重叠,推荐惊喜度不高.混合推荐方法[4]是融合基于内容和协同算法的联合推荐算法.该方法能够有效降低上述两种方法的缺陷,提升推荐质量,但多种方法的使用降低了计算效率,存在计算规模大、各算法间权值难以统一等问题.
面向医疗资源的自动推荐技术主要用于稀缺医疗资源的推荐,相关学者已进行了卓有成效的研究.文献[5]针对患有特定疾病的用户,利用带有标注的属性协同推荐方法获取医疗资源.文献[6]采用先验历史知识,半自动化构建医疗资源评级模型,通过调整推荐算法因子降低医疗资源的需求过载问题.文献[7]利用语义本体构建用户基本文档信息,借助本体知识库对用户行为特征进行分类,获得兴趣偏好集合,实现基于用户需求的过滤医疗资源推荐.
本体语义推荐模型是通过结构化建模语言构建资源语义池,建立资源概念实体间的语义分类关系,通过构建概念实体语义链接,实现资源间的语义关系度量,提升语义资源推荐的准确性.文献[8]针对产品开发业务过程中任务执行时的知识管理问题,提出了一种情境感知的工作流任务知识智能推荐方法,建立了基于本体论的分层工作流情境本体模型.文献[9]设计并实现了一个面向应急领域的本体管理与资源推荐工具,根据突发事件的信息可以提供基于规则的应急资源推荐.文献[10]针对知识可信问题,研究网络环境下面向以本体为基本粒度单位的知识资源可信评价理论体系,建立了本体可信模型.
本文以上述方法的局限性为切入点,提出一种基于概念格的本体医疗资源语义推荐方法.该方法有机结合概念格理论与语义本体技术,将层次分类技术融入资源推荐模型,充分利用概念格结构的形式背景知识为用户个性化推荐提供决策支持,并通过相似度计算筛选出与目标用户最为接近的推荐项目.经过实验验证,该方法能有效提高医学资源推荐质量.
医疗语义本体是医疗领域内的共享规范化表示方法,用高度形式化的OWL本体语言(ontology web language)表达领域概念,具有层次结构清晰、语义表示明确、知识互操作性强等特点,被广泛用于语义Web内医疗资源的显性化表示[11].医疗资源包括各种软硬件设施以及相关人员等,内容与形式较为复杂.本文依据研究目的,有针对性地选取患者资源和医生资源,建立和完善医生本体的领域概念,如医生职级、所在科室、专业领域以及患者评价等概念主体,着重解决为患者推荐专业领域医生的功能.
1.1 患者本体建模
构建患者本体需要初始化设置患者的相关文档信息,包括四类基本属性文档集:第一类是能够体现患者自身需求的信息文档集,包括患者的年龄、性别、病状描述、病程等,该文档是组成患者本体的基础;第二类是能够体现患者日常行为特征的信息文档集,主要涉及患者日常饮食习惯、预防及保养等,该文档是构建患者本体的知识辅助来源;第三类是患者的偏好文档集,如果患者对某类疾病的事物感兴趣,通常对包含该类疾病的医生本体项目感兴趣的可能性会增加,从而加大对该类本体的项目评分,通过(患者、医生)评分矩阵统计该类信息,可增加个性化推荐的准确性;第四类是患者病史信息文档集,包括患者的电子病历、既往诊断说明等,该类信息能够为患者本体构建提供必要的底层分类逻辑信息.
为充分获取患者对与其相关医生资源的兴趣度,同时便于动态更新患者兴趣的时间维度属性,即随时间而发生的偏移情况,需要为患者本体添加兴趣度三元组,具体描述为属性、属性值以及属性权重.设置方式以静态赋值和动态更新为主,实现患者本体的需求语义描述目标.具体更新方式由兴趣度分析模块处理.
兴趣度分析模块的主要功能是利用患者对不同医生本体的访问记录,动态获取患者兴趣度的变化状态,具体步骤描述如下:
Begin
Read PatHis.Inte.List
For each(UserHis.Inte.List)
{Get PatHis.Infor; ∥获得患者基本信息
Get PatHis.Inem; ∥获得患者的历史医生项目信息
Read PatActionRules ∥读取更新规则
For PatHis.Inte.Inem from i=Inte.List(Current) to Inte.List(End)
Get UserHis.Degree ∥获取属性兴趣度
Get Pre〈Degree,vi〉 ∥获取兴趣度函数
For each 〈Degree,vi〉 in Pre〈Degree,v1〉
{If UserHis.Inte.Pre in Pre〈Degree,v1〉
Then update UserHis.Inte.List
Esle add 〈Degree,vi〉 to UserHis.Inte.Pre
}
}
End
1.2 医生本体建模
选取由美国国家医学图书馆开发的标准化医学语言构建系统(unified medical language system,UMLS)构建医生本体,以医学领域叙词表、信息源地图、领域专家词典以及语义网络为核心,构建以医生为核心的生物医学概念及相关词汇集.
为降低患者选取合适医生资源的难度,提高匹配效率和准确性,需要建立与患者本体相关联的医生本体规则集,构建基于本体模型的关联规则库,清晰化表达本体概念间的分类关系,建立和完善面向需求驱动的语义关系模型.依据医生本体的特征属性,以领域本体规则推理为核心,构建与患者兴趣度一致的协同属性.如患者本体概念实例内含有高血压临界属性,测试结果收缩压大于等于140 mmHg且小于等于150 mmHg,关联规则库依据疾病诊断规则集诊断该患者患有轻度高血压.显性规则需要描述患者主体身份,属性为收缩压,属性值高出临界值且给出明确诊断类型,逻辑表示如下:
Patient_med-record(?Inte.List)Λhas_BP(?Inte.List,?bp)Λdisatolic_bolld_pressure(?Bp,?o)Λswrlb:higherThanOrEqual(?o,140)Λswrlb:higherThanOrEqual(?o,150).
→Patient_med-record(?Inte.List)Λhas_Level_hypertension_Classification(?,Inte.List,?,o)Λswrlb:equal(?,o,)Λhas_International_Classification_of_Diseases(?,Inte.List,?,o)).
本模型构建的患者及医生的部分概念层次关系如图1所示.
1.3 本体概念的语义表示
患者本体的形式化表示需要将患者的基本属性映射到本体中,统一规范化描述患者的基本概念.将患者本体模型以本体中类、实例以及关系等形式化表示:PModel={C,IR,PR,H,A}.其中C表示层次概念;IR代表概念层次关系,主要包括概念间分类关系和概念与实例之间的实例关系;PR表示概念间的属性关系,用于连接概念与属性间的层次分类关系;H表示本体中类的实例;A表示永真公理.
医生本体建模与患者本体建模相类似,也采用五元组形式构建本体模型.为优化语义匹配准确度,增加医生本体的概念类数量,将形式化三元组DocModel={DocInfo,DocDOI,DocOnto}映射到医生本体库.其中DocInfo表示概念类中医生的基本信息,包含患者检索时关心的医生核心属性信息,具体表示为一个五元组,即DocInfo={DocID,Name,Age,ServiceTime,Title},该信息在首次生成医生类数据时自动生成,后期允许状态更新;DocDOI表示患者选择兴趣度,用于存储患者随时间维度而发生变化的兴趣漂移度,即通过不断学习患者选定医生后的评价属性值,动态调整医生对于该类患者的选择满意度,优化推送质量,表示为DocDOI={(H1,D1(t)), (H2,D2(t))…,(Hn,Dn(t))},其中Hi(1≤i≤n)是患者已评价的第i个医生实例,Di(t)是患者在时间t对该实例的选择兴趣度,并限定该数值范围是[-1,1]内的实数,临界值下限表示完全不感兴趣(负相关),上限表示非常感兴趣(正相关);DocOnto表示患者选择后的兴趣本体,DocOnto={C,IR,PR,H,A},C表示某患者概念感兴趣的医生概念类集合,IR表示医生实例集合.
患者模型仅需在初始状态时,确定对某类医生的兴趣度.通过患者概念的属性描述,结合患者DocDOI中的实例ID评分,就能够获取该类患者与医生实例间的语义关系描述,即包含实例属性、概念以及概念内属性关系的DocOnto.
本体概念的语义相似度计算依据实例的相关信息进行聚类分析.推荐模型的核心思想是通过计算相似用户或项目,过滤出相似用户或项目所对应的目标区域数据,从而达到个性化信息推送的目的.相似患者会对与其相似的邻居患者所选择的医生资源产生较大的兴趣度.因此可以将患者偏好数据作为聚类对象,基于患者的余弦相似性度量模型,实现相似患者间的访问数据推荐.
概念格是基于形式概念分析理论的概念层次分类模型.概念格内部结构是面向相同形式背景知识下的概念表达,节点间层次结构是概念间分类关系的反应.格概念包含概念的外延和内涵,其中外延是概念的对象集,内涵是概念的实例集,体现了概念的属性关系.
定义1 完全知识背景 某三元组满足Z={T,M,R},其中T是集合内对象的并集,M是集合内属性的并集,R满足T与M上的偏序二元关系,则定义Z是该对象与属性集合上的完全知识背景.
定义2 格概念 概念C(A1,B1)的属性A1是知识背景的属性集T(A1,A2,…Ai)的子集,且B1是知识背景的实例集H(H1,H2,…Hi)的子集,则概念C是属于该知识背景下的格概念,记为Cdoc.
定义3 子概念 概念C1的所有属性均是在概念C2的属性子集,则标记C1是C2的子概念,即对于所有概念Ci(Ai,Bi),若A1A2且B1B2,则C1(A1,B1)是C2(A2,B2)的子概念,记为(A1,B1)≤(A2,B2),其中“≤”表示概念格内的概念层次结构关系.
定义4 概念格偏序集 对于二元组E=(C,R),节点概念C代表概念集内的任意格概念,R满足概念格内的任意概念间的偏序关系,则称二元组E是概念格偏序集.
基于概念格的本体概念算法的基本思路是:对于任意满足概念格偏序集的二元组E,遍历概念格内的所有格概念节点,通过层数求解函数Tra(E)返回节点的所在层数值;移除格内层级数较低的概念节点,添加到格内Hasse图较低层级,并为该移除概念的子概念增加新的空概念节点,以保持概念层级结构的稳定.
定义5 概念外延相似度 对于概念A与概念B内拥有共同属性的对象在整个概念对象集合中的比重,称为概念对(A,B)内共有概念外延在概念外延集合中的权重,即概念外延相似度,记为SimObj(A,B).
定义6 概念内涵相似度 对于概念A与概念B内拥有共同属性在整个概念属性集合的比重,称为概念对(A,B)内共有概念内涵在概念内涵集合中的权重,即概念内涵相似度,记为SimAttr(A,B).
定义7 概念外延相似度权重 统计概念A与概念B内的对象并集在整个概念对象集与属性集中的比重,称为概念对(A,B)内概念外延在概念集合中的相似度权重,记为ObjRO(A,B).
定义8 概念内涵相似度权重 统计概念A与概念B内的属性并集在整个概念对象集与属性集中的比重,称为概念对(A,B)内概念内涵在概念集合中的相似度权重,记为AttrRO(A,B).
概念格内概念节点的基本二元关系是对象和属性.对象反应了概念在外延上与其他概念的层次关系;属性显示了概念在内涵上的分类关系.综合对象与属性的关联关系,将概念对象相似度与概念属性相似度分别乘以各自的权重系数,再做加权求和,即为概念A,B之间的相似度,计算模型为:
(1)
式中,关于概念A,B的相关内容定义如下:
A对象集Oa=(Oa1,Oa2,Oa3,…,Oai);
B对象集Ob=(Ob1,Ob2,Ob3,…,Obm);
A属性集Aa=(Aa1,Aa2,Aa3,…,Aaj);
B属性集Ab=(Ab1,Ab2,Ab3,…,Abn);
A、B对象集的交集表示A,B内所包含的相同对象,即概念的相同外延,表示为:Oab=Oa∩Ob;
A、B对象集的并集表示A,B内对象之和,即概念的外延范围,表示为:OAB=Oa∩Ob;
A、B属性集的交集表示A,B内所包含的相同属性,即概念的相同内涵,表示为:Aab=Aa∩Ab;
A、B属性集的并集表示A,B内属性之和,即概念的内涵范围,表示为:AAB=Aa∩Ab.
依据以上表示,将(1)式改写成(2)式:
(2)
基于概念格的本体概念相似度算法(ontologyconceptsimilarityalgorithmbasedonconceptlattice,OCSA)算法表示如下:
输入:候选概念对(Ai,Bi);Oa,Ob,Aa,Ab概念层的最大概念数n;阈值α;调节参数β.
输出:相似矩阵Rij,Sim(Ai,Bi).
(1)FOReachj≤mDO.
(2)FOReachi≤nDO.
(3)IfCount(Ai.Attr), Count(Bi.Attr)and
(4)Until0≤β≤α≤1.
(5)EndFOR.
(6)EndFOR.
(7)Do.
SIM(A,B)=SimObj(A,B)·ObjRO+SimAttr(A,B)·AttrRO.
(8)RETURNAij.
(9)Untilα+β=1andSim(Ai,Bi).
Sim(A1,Bi)=max{Sim(A1,B1),Sim(A1,B2)…Sim(A1,Bi)}.
(10)EndIf.
(11)RETURNSim(Ai,Bi).
本模型综合考虑概念的对象属性二元关系,降低了概念相似度单一维度计算的偏差,提高了对象及属性在相似度系数设定过程中的权重精度.
为有效验证本模型的有效性,以CTBoSNOMED数据库(clinicaltermsbasedonsystematizednomenclatureofmedicine)中的标准医学建模术语为基础,构建基本语料库,随机抽取包含独立定义的术语集.实验选取临床诊断支持集、病情监控集、健康信息集等5类分层概念集中的500个临床数据及主题词表,通过标准化处理添加概念关联属性集作为计算实例.
临床概念本体利用开源平台Protégé解析出本体疾病概念,首先针对对象及属性集构建疾病概念形式背景,概念分类关系如图2所示.基于形式背景所生成的疾病概念格Hasse图如图3所示.
为提高患者医生资源的语义匹配性,按同样方法构建患者概念格和医生概念格,以图1中患者的相关属性为基础,筛选出与疾病概念格相同的症状,构建的患者概念格Hasse图如图4所示,P1~P5表示患者的对象标号.构建的医生概念格如图5所示,D1~D5表示医生的对象标号.
从选取的5类分层概念集中随机抽取患者及医生属性构建患者概念格和医生概念格,添加概念关联属性集作为计算实例,通过OCSA算法获取概念格映射关系集.并通过设置对比试验,验证本算法模型的运算性能.
模型验证实验分为两组:第一组实验为本模型在不同概念外延阈值下的计算准确性分析,测试5组不同样本数据下患者医生概念实例(P1,D1)的相似度;第二组实验将算法作横向对比分析,分析与其他算法的相似度稳定性.
第一组实验的目的是测试算法OCSA的准确性,采用皮尔逊相关系数(Pearsoncorrelationcoefficient,PCC)评价推荐相似度的计算公式为:
(3)
第二组实验的目的是测试算法OCSA的稳定性,选取验证实验效果的查准率,计算公式为:
(4)
4.1 第一组实验
采用基于概念格的本体概念相似度算法(OCSA),将图4和图5概念格的对象及属性代入(2)式,以对象(P1,D1)为例计算跨概念格的本体概念相似度,并以依次遍历医生概念格中的所有概念,最终选取其中数值最大的概念,为患者P1推荐医生.然后选择其他患者实例,重复以上过程.计算出各概念对的皮尔逊相关系数,并与专家的判定结果相比较,如表1所示,粗体数字表示与该患者相似度最高的医生概念实例,最终为不同患者推荐的医生映射关系图,如图6所示.
表1 患者医生概念对PCC对比
表1(续)
通过分析以上数据,本模型算法的相似度结果与专家评定数值较接近,且根据患者的疾病症状,推荐结果基本符合其要求,满足了患者个性化医生资源推荐的需求.
4.2 第二组实验
调整不同概念外延阈值,并与Souza、Davis等[12-13]经典算法进行比较,计算(P1,D1)相似度数值的查准率,如表2、图7所示.
表2 不同算法模型中(P1,D1)的查准率
分析图7可以看出:OCSA算法在不同概念外延阈值下的准确性均较其他算法有所提高,算法的整体稳定性较好;所有算法均在数据量增加的情况下,准确率出现下降的趋势,其原因是当对象增加时,其关联属性的数量也会急剧增加,对象的分类关系划分的准确性降低,导致算法的整体计算效能出现下降,推荐效果也逐渐降低.
本文围绕本体概念相似度计算的局限性展开研究,并将用户及医疗资源融入本体构建模型,利用概念格的层次分类模型,通过筛选用户偏好,分别构建用户本体与医疗资源本体,改进相似度匹配算法获取用户的个性需求,得到具有较高推荐精度的用户模型.实验结果表明,该模型能有效降低用户选择医疗资源的困难度,提高需求满意度和推荐质量.不足之处在于实验数据在动态新增的条件下,概念格构造算法的精度缺乏稳定性.下一步研究重点是概念格建格算法的鲁棒性问题,提高推荐算法的计算精度.
[1]孙海霞,钱庆,成颖.基于本体的语义相似度计算方法研究综述[J].现代图书情报技术,2010(1):51-56.
[2]刘宏哲,须德.基于本体的语义相似度和相关度计算研究综述[J].计算机科学,2012,39(2):8-13.
[3]吕刚,郑诚.改进的基于概念相似度的文本检索[J].计算机工程,2010,36(12):55-57.
[4]徐德智,郑春卉.基于SUMO的概念语义相似度研究[J].计算机应用,2016,26(1):180-183.
[5]李丹亚,胡铁军,李军莲,等.中文一体化医学语言系统的构建与应用[J].情报杂志,2011,30(2):147-151.
[6]WANG Y Z,JIA Y T.Information retrieval and data mining based on open network knowledge[J].Journal of Computer Research and Development,2014,52(2):456-474.
[7]傅兴玉,尤红建,付琨.基于改进Markov随机场的高分辨率SAR图像建筑物分割算法[J].电子学报,2012,40(6):1 141-1 147.
[8]刘庭煜,汪惠芬,贲可存,等.基于多维情境本体匹配的产品开发过程业务产物智能推荐技术[J].计算机集成制造系统,2016,12(4):158-162.
[9]曾庆田,鲁法明,段华,等.面向应急领域的本体管理与资源推荐工具[J].系统工程理论与实践,2014,8(2):34-39.
[10]赵振,胡乃平,刘敏,等.基于本体可信模型的知识可信评价理论[J].计算机集成制造系统,2014,12(2):124-130.
[11]张云中.Ontology和FCA在知识建模中的融合机理研究[J].现代图书情报技术,2010,26(3):40-46.
[12]DAVIS S,ESBENSEN K,GELADI P.Principal component analysis[J].Chemometr Intell Lab Syst ,2002,2(1):37-42.
[13]EVANGELISTA A T,HASSANIEN A E.Dimensionality reduction of medical big data using neural-fuzzy classifier[J].Soft Computer,2014,19(4):1 112-1 115.
(1.Department of Health Management, Bengbu Medical College, Bengbu 233030, China;2.School of Computer Science and Technology, University of Science and Technology of China, Hefei 230027, China;3.School of Information and Computer Science, Anhui Agriculture University, Hefei 230027, China)
[责任编辑 邵圣文]
SIM(A,B)=SimObj(A,B)·ObjRO+SimAttr(A,B)·AttrRO.
SIM(A,B)=SimObj(A,B)·ObjRO+SimAttr(A,B)·AttrRO=
Semantic Recommendation Method of Ontology Based on Concept Lattice
LIU Yuwen1,2, WANG Kai1, XU Jicheng3
Through the screening of user preferences, this paper focuses on the limitations of the study. Hierarchical classification model based on concept lattice were constructed, based on which users and medical resources into the construction of ontology model for similarity matching were improved to obtain the user's individual needs and high accuracy of recommendation. The experimental results show that the proposed model can effectively reduce the difficulty of selecting medical resources and improve the satisfaction and quality of recommendation.
keywords ontology; concept Lattice; personalized recommendation; semantic modeling; similarity matching
2016-12-10
安徽省高校自然科学一般项目(KJ2015B023by);蚌埠医学院自然科学重点项目(Byky1411ZD).
王凯,硕士,讲师,研究方向:大数据处理、本体论.E-mail:wangkai0552@126.com
TP391
A
1009-1734(2017)02-0047-10