基于hLDA层次主题模型的患者投诉分类框架研究

2018-03-21 01:33,,
中华医学图书情报杂志 2018年10期
关键词:语料框架建模

,, ,

随着“新医改”的推进,医疗机构和相关管理部门对改进医疗服务质量的关注度日益提高。作为衡量医疗服务质量的主要标准之一,患者体验是一种可监测的重要变量,而患者投诉又是反映患者体验的重要指标。通过对患者投诉的分类,可以从中观测到医疗纠纷关注的重点和患者关心的主要问题。

国内对患者投诉分类主要参照国际上比较通用的分类标准。如使用医疗投诉分析工具(Healthcare Complaints Analysis Tool,HCAT),将患者投诉分为质量、安全、环境、制度流程、倾听、沟通及尊重和病人权利等7类[1-4]。然而,由于语境、医疗管理制度、文化方面的差异,国外患者投诉的关注重点和国内患者存在着一定差异。因此,根据国内患者的具体情况,结合已有的患者投诉的文本信息,构建一个关于患者投诉的科学合理的分类框架,成为一个亟待解决的重要问题。目前,患者投诉的主题建模主要使用潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型[5-6]。LDA主题模型有如下缺陷:一是无法确定主题个数,如果采用交叉验证的方法,确定主题个数既浪费资源又比较繁琐;二是模型中Dirichlet随机向量各分量间的弱相关性(其相关性仅仅是各分量之和必须为1),使得潜在主题之间几乎是不相关的,这与很多实际问题并不相符合[7]。

hierarchical latent Dirichlet allocation(hLDA)层次主题模型是Blei[8-9]等提出的一种基于nCRP(nested Chinese Restaurant Process)的层次潜在狄利克雷分布非参数模型,是一种无监督的机器学习方法,能够从无结构、开放式的数据中学习层次主题。相比经典的LDA主题模型[10]所抽取的平行主题,hLDA层次主题模型基于主题树更能够挖掘出语料库中的语义层次结构[11-12]。另外,hLDA纯数据驱动的方式,能够识别主题间的关系,即抽象和具体主题之间的关系。在多文档摘要生成、图书信息组织等领域,hLDA层次主题模型得到了很好运用,但是在患者投诉文本信息挖掘领域,还未见运用hLDA层次主题模型进行文本挖掘的相关研究。

本文利用hLDA层次主题模型,对患者投诉的文本信息进行层次主题挖掘。通过对患者投诉文档的分析,挖掘患者投诉文本集中所包含的深层次语义信息,发现潜在的主题,并基于这些患者投诉关注的主题构建一个更加科学合理的分类框架。

1 数据和数据预处理

本文所用患者投诉的文本数据来源于某三甲医院患者随访系统。患者投诉有10 000条,经过人工筛选,去除重复、残缺的数据,最终留下8 690条,作为实验语料库。

数据预处理过程是根据hLDA层次主题模型的数据格式需要,对患者投诉的原始语料进行加工处理,生成相应层次主题挖掘所需要的数据格式。患者投诉语料预处理的具体流程如图1所示。

图1 患者投诉语料预处理流程

患者投诉语料预处理具体包含以下4个步骤:一是分词及去停用词,本文采用jieba分词工具对患者投诉的语料进行分词,再使用四川大学机器智能实验室停用词表[13]对患者投诉的文档语料进行去停用词处理;二是生成词表,即对分词及去停用词获得的所有词进行合并、去重,得到一个相应的词表;三是生成评论词向量,根据已经生成的词表将评论转化为词的向量,然后进行词频统计,计算每个词在每条评论中出现的次数;四是生成评论-词矩阵,所有患者评论的词向量构成一个关于患者投诉的评论-词矩阵,矩阵中每行对应1条患者评论,每列对应1个词,矩阵的每一元素值为评论中词的词频。

2 方法

本次实验使用Blei的hLDA-C软件包,对预处理后的患者投诉语料进行主题建模。实验的关键步骤是确定hLDA建模算法的关键参数取值,以取得最优的建模结果。hLDA层次主题模型生成的主题树结构主要取决于迭代次数、主题树深度、GEM分布超参数(m,π)、是否抽样、狄利克雷分布超参数η和nCRP超参数γ。

参考相关研究的常用参数[14],本文设定层次主题树的深度为L=3,迭代次数为10 000,GEM分布超参数的初始值为m=0.35,π=100。hLDA层次主题建模随着层次主题树深度的增加,后验推理的复杂度会不断增大,最终得到的最优结果的稳定性也会越差[15]。现有的分类标准通常为两层结构,所以L=3是一个合适的主题数深度(hLDA主题树第一层仅包含一个根主题)。同时,随着迭代次数增加,经过吉布斯抽样而得到的主题树结构也会更趋于稳定。当迭代次数设置为10 000次,得到树的路径已经趋向于一种较为稳定的变化状态。另外,GEM分布超参数m控制着从根节点到叶子节点的分配比例,而π则指定该分配比例的严格程度。狄利克雷分布超参数η对主题词的分配和路径数有影响,nCRP超参数γ决定先验树结构的形状,即每个文档每一层的路径选择[15]。

参数SAMPLE_ETA、SAMPLE_GEM会影响hLDA层次主题建模的时间复杂度、人工调整参数的作用和结果的可解释性[15]。在现有研究中,这些参数的最优取值尚无定论。本文通过实验调整参数,比较各种参数设置下的建模结果,选择主题区分度最高、层次主题分布均匀的层次主题模型作为最优结果,相应参数设置作为最优参数取值。

3 结果

对实验得到的最优层次主题模型进行合并归纳后如表1所示。表1中给出了每个主题中出现条件概率最高的10个主题词,相应的参数值为:L=3,SE=1(抽样),SG=1(抽样),m=0.35,γ=5e-1。

由于hLDA层次主题模型随着层级的增加,模型的稳定性会变弱,加之投诉语料的有些文本包含多种主题的可能性,某些主题相关投诉的数量较少,因此对实验结果中第三层主题中出现的相似主题进行合并处理,以保证主题之间的可区分性。如在主题树中不同第二层主题下,第三层主题都存在相应沟通不及时的情况,故而将其合并到第二层与沟通相关的主题“搞错 语气 告知 病情 手术 怀疑 解释 主任医师 钉太长 医生”大类下面,再依次对相应主题时行归纳,最终生成的分类框架(图2)。

表1 建模结果的主题词对应表

图2 建模结果树状结构图

对模型生成的患者投诉条件概率分布结果进行可视化分析,患者投诉的相关主题分布如图3所示。

从图3可以看出,患者投诉主要集中在临床服务类、环境类、管理类,共计7 679条,占88.37%。患者投诉的具体子类主要集中在临床服务质量、生活环境、制度流程等方面,其中临床服务质量3 756条,占43%;生活环境2 199条,占25.57%;制度流程1 169条,占14%。

图3患者投诉的相关主题分布(左图为第二层大类,右图为第三层子类)

4 讨论

本文运用hLDA层次主题建模,对患者投诉的语料数据进行层次主题挖掘,进而构建了一个关于患者投诉关注领域的分类框架,目的是得到一个更符合真实患者投诉主题分布的患者投诉分类框架。

4.1 贡献

4.1.1 获得了hLDA层次主题建模最优参数配置

根据相关研究,参数SAMPLE_ETA、SAMPLE_GEM对模型生成的结果具有重要影响。当SAMPLE_ETA、SAMPLE_GEM等于0时,表示对先验参数η、m、π不进行抽样估计。此时hLDA层次主题建模的时间复杂度比较低,人工调整参数对主题结果的影响较大,但层次主题结果的可解释性会相对较弱。当SAMPLE_ETA(SE)、SAMPLE_GEM(SG)等于1时,表示对先验参数η、m、π进行抽样估计。此时hLDA层次主题建模的时间复杂度比较高,人工调整参数对主题结果的影响较小,但层次主题结果的可解释性会相对较强。具体影响分布见表2。

现有研究大多缺乏具体可参考的建模策略。如何通过优化hLDA建模实验流程,获得满意的主题模型尚无权威的结论。在患者投诉语料层次主题建模的实验中,本文根据hLDA层次主题模型参数的性质,结合关键参数值是否进行抽样估计对主题模型的影响,采取参数设置——结果反馈——修正参数设置的优化策略,获得了较为理想的实验结果。

表2 抽样与否对hLDA层次主题建模的影响

4.1.2 获得了更切合实际数据的患者投诉分类框架

本次实验中,对患者投诉的文本进行层次主题建模,获得了图2所示的患者投诉分类框架。与HACT分类框架对比,除了在制度流程、环境、安全医疗差错、沟通等方面外,两种分类框架都有涉及相关患者投诉的问题(图4)。

图4 两种分类框架的对比

相比较而言,国际通用的HACT分类标准还反映了患者投诉在质量、倾听及尊重和权利方面的问题,而基于hLDA模型对国内患者投诉数据得出的分类框架则反映了患者投诉在生活支持、管理类其他和临床服务质量方面的问题。国际通用的HACT分类框架与基于国内患者投诉数据的hLDA建模结果的主题分布有所差异,说明基于hLDA层次主题建模得到的患者投诉的分类框架更符合国内患者投诉的主题分布,是一种更切合实际数据的患者投诉分类框架。

4.2 限制性

4.2.1 语料来源单一

由于本文所用患者投诉语料均来自于同一家医院,患者投诉的主题分布可能具有一定的偏倚,在反映国内患者医疗投诉所关注的主题和重点时,其通用性会受到一定限制。

4.2.2 对主题建模结果评估不足

目前,hLDA层次主题建模算法不能自动对建模结果进行合理的评估。采取人工评估的方法评估建模结果在一定程度上受主观性的影响,这也是以后的研究需要改进和探索的地方。

5 结论

本文通过hLDA层次主题模型算法,对某医院的患者投诉进行主题挖掘,再对挖掘出的主题进行归纳,得到了一个两层的患者投诉分类框架。与常用的分类框架(如HACT)相比,存在着一定差异。经过对建模结果的分析,发现患者投诉关注的领域和重点主要集中在临床服务质量、生活环境和制度流程等方面。本文基于无监督数据挖掘得到的分类框架,更贴近患者投诉主题的真实分布,有利于对医疗服务的质量进行更加科学、合理的评估。

猜你喜欢
语料框架建模
有机框架材料的后合成交换
基于归一化点向互信息的低资源平行语料过滤方法*
框架
K-框架和紧K-框架的算子扰动的稳定性
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
关于原点对称的不规则Gabor框架的构造
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法