基于主题词聚类和社会网络分析的患者就医体验主题挖掘

2019-02-14 02:55
中华医学图书情报杂志 2019年10期
关键词:子群门诊患者负面

医疗卫生服务作为一种多实体、多流程和多维度的复杂活动,其主要目标是满足患者的护理需求,优化患者感知体验。当医疗卫生机构在某些环节未满足患者预期时,则可能导致产生意见或投诉[1]。从医院管理的角度出发,来自患者的主观评价往往是促进医疗服务质量改进的一个核心要素[2]。挖掘并识别这些非结构化文本中的隐含主题和热点内容能够有效捕捉影响患者满意度的因素,为医院管理者优化整体卫生服务流程提供一定参考,从而适当降低医患纠纷发生率[3],构建和谐的就医氛围[4]。

当前国内外患者体验和满意度的调查研究不少,以医疗服务体验相关条目构建的结构化测量问卷为主。国外医院消费者对医疗提供者与医疗系统评价工具[5]和新Picker患者体验量表[6]都具有广泛适用性。在这一方面,国内医疗机构虽与国外存在较大差异,但已有学者在患者体验医疗服务质量评价量表上进行了尝试和大胆创新[7-9]。虽然这些测量工具较为全面地涵盖了与患者整体就医流程和环节相关的调查条目,但其评级评分机制往往缺乏患者参与,忽视了患者主观性评价和建议的内在价值,在理解患者真实感受方面有所欠缺。而人工分类总结大量患者评价文本时效率不高,多使用经验性的统计方法[10-11],缺乏机器学习方法的运用。

因此,本文对华中某三甲医院(以下简称“A医院”)线下回访调查的患者评价文本进行了主题词聚类和社会网络分析,主要针对该医院门诊、入院和出院3种类型的患者,探索影响其体验和满意度的因素,在充分利用患者反馈的基础上创新了医疗服务质量评价模式,为改善患者体验和提升服务质量提供思路。

1 材料和方法

1.1 实验数据来源

A医院患者回访调查得到的评价数据主要包括门诊患者、入院患者和出院患者评价数据,调查形式为电话咨询和现场调查。本文选取了2013-2019年患者反馈的关于服务体验的负面评价文本,去空行和去除无意义条目后得到出院患者回访评价16 697条,入院患者回访评价3 887条,门诊患者回访评价20 362条。

1.2 实验方法

1.2.1 数据清洗

本文采用了文本数据清洗的常用方法,即分词、去停用词、去空行的数据清洗过程。首先采取了适用于Python语言环境下的jieba分词工具进行分词,并采用哈尔滨工业大学的停用词表去除语气词、标点符号及其他无意义词汇。同时为了突出评价的真实主题内容,在词表中自定义加入了“医生”“护士”“患者”等出现频率较高但贡献不大的词汇。由于某些患者回访的评价过短,3类负面评价文本在分词之后都出现了空行。本文以移除空行后的分词文本作为标准语料。

1.2.2 Kmeans词聚类

为挖掘回访调查中的患者反馈主题内容,对负面评价文本进行数据预处理后,首先利用经过分词处理的文本构建“词-索引字典”以及“词-词向量字典”,训练成词向量模型后进行保存;然后运用已保存的词向量模型依次设置5~30类,分别对3种类型的患者评价数据进行Kmeans词汇聚类,依据聚类结果的可解释程度确定最佳聚类数;最后,利用词聚类结果计算每个类中词汇的逆向文档矩阵(Inverse Document Frequency,IDF)值,取每个类中IDF值最大的定性词及其权值做可视化雷达图,提取患者评价文本的主要特征。

1.2.3 社会网络分析

社会网络分析是为了进一步挖掘负面评价文本中出现频次较高的主题和相互之间的关联。在本文中包含节点中心度分析和凝聚子群分析两个部分。首先统计分词文本的词频,然后利用高频关键词构建共现矩阵,矩阵斜对角线上的数字代表该词在相应回访文本中的词频,作为社会网络分析的数据输入。

节点中心度分析采用Ucinet 6.186社会网络分析软件,首先输入仅保留高频定性词的共词矩阵,选择内嵌工具NetDraw进行可视化,在“分析”选项中选择“中心度测量”,节点大小反映“度”的大小,构造网络图谱可以更清楚地观察网络核心。

在凝聚子群分析中,因50个左右的词可以看出更清晰的边界和子群核心,所以选择前50个左右的高频词构建共现矩阵。将对应矩阵输入软件后,在“网络”选项中选择“角色&位置”-“结构”-“CONCOR”,设置最大切分深度为3,集中标准为0.200,构建子群图表,用以解释和总结负面评价的类别和主题特征。

2 结果与分析

2.1 Kmeans词聚类结果

经过人工浏览,删除了聚类中的低频词组合以及词数量达到上千而无法总结的聚类,发现出院、入院和门诊患者的负面评价数据均以8个聚类主题为最优。筛除低频词类别后的词聚类结果如表1、表2、表3所示。

表1 出院患者负面评价词聚类结果

从表1可以看出,出院患者的负面评价大致可分为8类。因为住院患者较门诊患者经历了更长时间和更多环节的诊疗流程,投入了更多的时间和经济成本,因此对医护人员的专业技能和服务品质提出了更高的要求,从而导致出院患者质疑住院治疗过程中接触的相关流程(如住院病房环境、接受检查和药物治疗)的规范和标准性,如聚类中的类0,1,2,3,6。

可视化图谱由按照IDF值最大化原则筛选出的词构成,从8个词聚类中抽取的词分别是“干净”“收取”“好转”“提高”“留置”“等待”“咨询”“需要”。如图1所示,尖端越向外凸起证明该词IDF值越大,其作为特征在出院患者负面评价文本中的地位越重要。很明显,“收取”“等待”“留置”作为特征词更能凸显出院患者负面反馈的主题。

图1 出院患者评价特征词分布雷达图

表2显示了入院患者负面评价的词聚类结果。从表2可以看出,与出院患者更注重治疗进程和效果不同,正在住院的患者更加关注住院治疗之前的相关手续和环节,如安排床位、办理入院手续(如医保等)。因此聚类主题除了部分说明医护工作人员的专业水平和服务态度的问题之外,同时还表达了患者在入院时对诊疗方案和病情沟通上的不满,如类0,2,4,7。

表2 入院患者负面评价词聚类结果

此外,医疗服务可及性也是患者重点关注的一个问题。入院患者评价中诸如医护人员繁忙无法及时接诊、入院时床位不够只能住走廊、做检查时排队时间长等主题占有很大的比重,如类1,3,6。

入院患者负面评价的聚类主题可视化图谱如图2所示。8个类依次选择的词汇是“值班”“忙”“小孩”“等待时间”“手术”“清洁”“床位”“医保”。图2显示,“清洁”“忙”“等待时间”“小孩”作为入院患者负面评价的主要特征词,更能反映核心主题。

图2 入院患者负面评价特征词分布雷达图

表3显示,门诊患者对检查检验、开药缴费诊疗环节的负面评价较集中,围绕这两个环节的投诉主要是排队等待时间和排队秩序问题、对检查和药物治疗的必要性和效果的质疑、药价高于患者预期等,如类0,1,2,3。此外,患者对窗口工作人员的沟通态度不满,以及周末和中午、夜晚时间的值班医护人员过少也是主要投诉主题,如类4,5。值得注意的是,一定比例的门诊患者是出院后回来复诊的,复诊时间往往是在出院15~30天后,这部分患者对住院治疗方案和效果的负面评价覆盖了门诊患者的八大类主题。

门诊患者负面评价的聚类主题可视化图谱如图3所示。8个类依次选择的词汇是“过长”“药费”“药物”“缴费”“仔细”“值班”“打扫”“错误”。其中“打扫”“错误”在门诊患者评价文本中更具代表性。

出院、入院和门诊患者负面评价聚类结果显示,患者对卫生环境和护理环境都提出了意见和建议,

不仅是环境卫生的打扫不到位,还有相关设施设备的破损和更换不及时等问题,这都应该引起重视。

表3 门诊患者负面评价词聚类结果

图3门诊患者负面评价特征词分布雷达图

2.2 社会网络分析结果

2.2.1 词频统计结果

3种类型患者的负面评价文本词频统计结果如图4所示。图4中由高到低显示前46个高频词,从左至右分别是出院患者、门诊患者和入院患者负面评论高频词。

图4出院患者、门诊患者和入院患者负面评价高频词分布

从图4可以明显看出3种类型患者的负面评价侧重点各有不同。出院患者负面评价中出现较为频繁的词是“不好”“态度”“治疗”“住院”“技术”“打针”等,说明医护人员的服务态度、住院治疗效果和注射、输液等专业技术是患者不满的重点内容。

门诊患者负面评价中出现较为频繁的词有“时间”“看诊”“长”“排队”“久”“等待”等,说明诊疗服务的可及性不高是门诊患者更难以接受的主观感受。

入院患者负面评价中“态度”“不好”“入院”“接诊”“管床”“及时”等词出现得更多,与出院患者的评价相似,患者感受到的是医护人员对其不够重视,如接诊不及时、态度差等。

2.2.2 节点中心度分析结果

按照高频定性词共现矩阵完成的3个可视化图谱如图5、图6、图7所示,图中节点之间连线越粗说明联系越紧密。

从图5中节点的大小和分布可以看出,以“治疗”“打针”“技术”“病房”“住院”“期间”“检查”等蓝色方形节点构成了出院患者评价的核心关键词。由于节点众多,连线的粗细程度和方向不够明显,但依然可以发现“打针”“技术”与“不好”“个别”的关联性更强,“住院”与“期间”“检查”“治疗”等节点之间的关联更密切。

图6显示,在门诊患者评价数据中,“看诊”“就诊”“时间”“检查”“拿药”“排队”“态度”“不好”等为核心关键词。从连线粗细上看,“看诊”“时间”“长”“等待”“等候”之间的联系更为紧密,说明患者对等待时间明显不满,问题核心比较明确。

图5 出院患者负面评价高频词共现图谱

图6 门诊患者负面评价高频词共现图谱

图7显示,在入院患者的负面评价数据中,“态度”“沟通”“入院”“询问”“清楚”“病房”“入院”等构成了核心关键词。其中“态度”“窗口”“门诊”“楼”之间的联系更密切,“入院”“接诊”“及时”这3个节点同样形成了一个小团体,除此之外其他节点较为分散。

图7入院患者负面评价高频词共现图谱

2.2.3 凝聚子群分析

评价数据的凝聚子群按照前述设置得出3个部分的图谱。以第二深度的凝聚层次为总结依据,与之前主题词聚类结果较为一致。从图8可以看出,出院患者负面评价的凝聚子群进一步诠释了聚类结果,主要评价内容包括:实习生等护理人员穿刺、打针技术不好,办理入院时窗口沟通态度不好,治疗效果不太好,病房床位太少,希望有所改善。图9为门诊患者评价的凝聚子群。排队秩序与等待时间等服务可及性方面的不满是主要评价内容,同样也是主题挖掘的关键特征。图10为入院患者评价的凝聚子群。患者在门诊窗口办理手续时工作人员服务态度不好、沟通困难等问题出现多次,应引起重视,但其他结果的显示不够明确。

图9 门诊患者负面评价的凝聚子群

图10 入院患者负面评价的凝聚子群

3 结语

本文对利用医疗机构主动调查获得的患者评价文本,采用面向大体量文本能够有效降维[12]的主题词聚类法和社会网络分析技术挖掘非结构化文本集中的隐含主题和重点特征分布,分析了A医院住院、出院和门诊3种不同类型患者的就医体验和满意度相关影响因素,在结构化的测量量表之外充分利用患者主动表达的价值,为医疗机构持续改进卫生服务质量和有针对性地提升管理水平提供参考和建议。

本文的不足之处在于3个类型患者的评价数量不均衡,尤其是入院患者评价数据过少,导致主题聚类结果不够深入,可解释性较差;部分负面评价内容过长,词与词之间共现频率高,社会网络节点之间的联系与分割不够明确。今后将进一步扩大相应部分的回访评价语料,提升聚类挖掘性能,并在现有社会网络分析的基础上进一步丰富实验单元,将社会网络中的所有节点拆解为聚类中心更明确的小团体集合,便于解释说明。

猜你喜欢
子群门诊患者负面
超聚焦子群是16阶初等交换群的块
有限群的弱τσ-嵌入子群
分析护理干预对门诊患者肠镜检查前肠道清洁度的影响
不变子群基本定理以及相关例题
COVID-19疫情下某三甲医院1066例发热门诊患者临床资料分析
探讨提升门诊患者满意度、改善分诊导诊护理服务的方法
负面清单之后的电改
正面的人和负面的人
πSCAP-子群和有限群的结构
昆明地区571例门诊患者HPV感染情况分析