基于知识抽取的医疗纠纷事件分析及对策研究*

2022-11-24 11:36刘忠禹俞思伟郑子强
医学信息学杂志 2022年10期
关键词:纠纷案件词频文书

刘忠禹 姚 佳 俞思伟 郑子强 兰 蓝 殷 晋

(四川大学华西医院 成都610041) (贵州医科大学 贵阳550004) (四川大学华西医院 成都610041) (首都医科大学附属北京天坛医院 北京100050) (四川大学华西医院 成都610041)

1 引言

1.1 研究背景

医疗纠纷是指发生于具有合法资质的医疗机构与患者之间的纠纷,其发生率近10年来呈持续上升趋势[1],已经成为影响医患关系、诊疗环境的不安定因素。同时近年来医疗纠纷时有演化为直接医患冲突甚至恶性“医闹”事件的现象,对医务人员人身安全、医疗机构形象产生极大威胁。因此对医疗纠纷相关资料进行回顾性研究和梳理,对于明晰医疗纠纷发生的诱因、特点,提出防控和应对策略具有极大作用。以“SU=(‘医疗损害’+‘医疗纠纷’)ב裁判文书’”作为检索式在中国知网中检索,可得到29篇利用裁判文书数据进行医疗纠纷分析的文献。其中安徽[2]、贵州[3]、广东[4]3省已有研究人员分别对该省某一时间段内医疗纠纷相关裁判文书进行挖掘分析;同时有研究人员从司法鉴定人出庭情况[5]、患者知情同意权侵害[6]、医疗器械损害责任[7]等多个层面对医疗纠纷相关裁判文书进行分析。但是这些研究仍采用人工研读进行文本分析,存在数据规模较小、信息抽取效率低且无法避免信息遗漏等问题。

1.2 自然语言处理技术

自然语言处理(Natural Language Processing,NLP)是研究将人类日常交流的自然语言(如文字、语音等)转变为机器所能理解的机器语言的学科,目前已经发展成为人工智能的主要分支领域之一[8]。NLP领域中的分句切词、词性标注、正则提取、命名实体识别、关系抽取等技术可以实现文本中信息的自动化提取和解析,并达到输出结构化知识的效果。目前NLP领域的知识抽取相关技术已经广泛应用于医疗[9]、教育[10]、金融[11]、能源[12]等多个行业。本文基于知识抽取的方法,利用统计学及NLP中的相关算法、工具对发生于2012—2020年间的四川省医疗纠纷案件文书数据进行分析和挖掘,总结医疗纠纷发生的原因、特点及规律等,从而为医疗纠纷防范和应对处理提出相应对策建议。

2 资料与方法

2.1 资料来源

下载裁判文书网中发生于2012—2020年间、地域为四川省且案由为“医疗损害责任纠纷”的初审文书数据,删除无效数据及去重后共获得1 900份医疗纠纷相关裁判文书作为源数据。

2.2 分析方法

采用知识抽取方法,主要涵盖统计学及NLP中分句切词、词性标注、正则提取、医疗纠纷种子词抽取、词云构建相关算法和工具,全部知识抽取工作采用Python编程语言(3.7版本)实现。

2.2.1 百度LAC 百度基于双向循环神经网络和条件随机场(Conditional Random Field,CRF)开发的开源联合词法分析工具,可以针对中文文本实现较高质量和效率的分句切词、词性分析和专有名词识别等功能。LAC中包含20种词性和4种专有名词的标注标签,同时可以通过导入自建词表的方法实现用户定制化词语切分和词性标注,见表1。LAC的分词、词性标注和专名识别结果示例如下:输入:‘我2020年住在四川省成都市’;分词:[‘我’,‘2020年’,‘住在’,‘四川省’,‘成都市’];词性标注和专名识别:[‘r’,‘TIME’,‘v’,‘LOC’,‘LOC’]。

表1 LAC词性与专名标签合集

2.2.2 Gensim[13]一款开源的Python工具包,通过无监督方法计算训练语料中的统计共现模式,从而自动发现文档的语义结构和主题向量表达。Gensim集成Word2Vec、TF-IDF、LSA、LDA等多个词向量和主题模型算法。本文主要采用Word2Vec算法进行词嵌入向量模型训练。Word2Vec采用无监督方法,利用文本一定范围内上下文语义信息对目标词生成高维向量表示,从而实现在同一向量空间中将每个词映射为唯一的词向量[14]。在该向量空间下,语义相近的词语会有相似的向量表示,因此两个词语的语义近似程度可以通过其词向量的余弦相似度、欧式距离、相关系数等指标进行量化。

2.2.3 词云 在NLP技术中,词云是通过对海量文字中的关键词统计和渲染,输出由文中关键词所组成类似云的彩色图片,图中出现频率越高的关键词形状越大,视觉上更突出,从而达到展示海量文字中关键信息的效果[15]。本文采用Python中的WordCloud库实现词云构建。

2.2.4 医疗纠纷种子词构建 构建流程,见图1。具体包括以下步骤:(1)以1 900份医疗纠纷文书作为实验组,4 000份非医疗纠纷文书作为对照组,对两组文书分别进行清洗,去除其中网页符号、换行符等无意义字符。之后利用LAC工具对两组文书进行分句切词及词性标注,保留标注为n、f、s、nw、nz、PER、LOC、ORG的名词性词语及专有名词,分别在医疗纠纷和非医疗纠纷文书中提取到112.3万、163.8万个名词。(2)将上述所有名词合并、去重,获得包含11.8万个名词的词典。以词典作为参照,分别统计医疗纠纷和非医疗纠纷文书中的各名词词频及平均词频。提取在医疗纠纷文书中词频高于平均词频且在非医疗纠纷文书中词频低于平均词频(包含词频为0)的名词,共获得550个医疗纠纷相关高频名词。经过人工删除具体人名、地名、机构名及其他无关名词后,共提取到126个候选名词。(3)利用Gensim模块的Word2Vec算法将步骤(1)中分句切词后的医疗纠纷文本训练为300维的词向量模型。(4)利用步骤(3)中的词向量模型对步骤(2)中得到的126个候选名词进行前 20位相似词扩展,去重、人工删除其中无关词,最终得到546个名词作为进一步研究的医疗纠纷种子词。

图1 医疗纠纷种子词构建流程

2.2.5 四川省医疗机构信息数据库构建 通过爬取公开网站以及从医疗纠纷文书中提取两种方式进行四川省医疗机构信息数据库构建。通过正则匹配方式,将网上检索到的医疗机构别名及曾用名、地址信息,与文书中提到的和公开网站中获取的机构进行对齐,然后将无法对齐到公开网站中的机构通过网上检索的方法进行信息补充。最终构建的数据库中包含四川省共计1 221家医疗机构信息,包括“名称”“所在地级市”“等级”“别名和曾用名”4个字段。

3 结果

3.1 基本信息统计分析

3.1.1 医疗机构情况 按照医疗机构所属地区对1 900件医疗纠纷案件进行地域划分,可见四川省21个地级市发生医疗纠纷案件的频次分布极不平衡,成都市由于医疗机构数量以及前来就诊的患者数量众多,发生医疗纠纷案件的频次达到近500起,占总数的26.2%,显著高于其他地级市。此外,宜宾、泸州、乐山、绵阳、南充等市也是医疗纠纷案件相对高发的地级市,案发频次均在100起以上。通过汇总四川省各地级市统计公报中国内生产总值(Gross Domestic Product,GDP)及医疗机构数量两个指标,可以发现各地级市2012—2020年间医疗纠纷数量与当地GDP总量呈强相关性,相关系数为0.957,P<0.01;同时各地级市医疗纠纷数量与当地医疗机构数量也呈现较强相关性,相关系数为0.837,P<0.01。通过提取医疗纠纷文书中的被告字段,并与医疗机构信息数据库中的1 221家医疗机构进行匹配,发现该1 900条文书中共涉及569家四川省内大小医疗机构,这些医疗机构地域分布与案件地域分布有类似趋势。成都市有124家医疗机构牵涉到医疗纠纷案件中,占据第1位,排在其后的仍然是发生医疗纠纷案件较多的宜宾、绵阳、泸州、南充以及乐山,牵涉医疗纠纷案件的机构数量都在30家以上。通过计算发生纠纷医疗机构的比例(发生纠纷医疗机构数量/医疗机构总数),可以发现成都虽然发生医疗纠纷事件的机构数量最多,但是占比并不算最高;凉山彝族自治州和攀枝花市虽然发生医疗纠纷的机构数量不多,但是因为其区域内医疗机构总量相对较少,发生医疗纠纷的机构占比相较于其他地级市更高。医疗机构评级一定程度上反映机构医疗水平,通过统计可以发现医疗机构发生医疗纠纷案件的频次与其医疗水平呈负相关,即一级及以下医疗水平较低的机构发生医疗纠纷案件的数量更多,而水平较高的三级医疗机构发生医疗纠纷的情况更少,见表2。通过医疗机构个体所涉及的医疗纠纷案件数量来看,涉及案件数量排在前列的几乎都是规模较大的三甲医院,这与其庞大的门诊量有密不可分的关系。根据具有代表性的几家三甲医院医疗纠纷数量统计结果可知,成都市某三甲医院虽然在纠纷年平均数方面明显高于泸州市、乐山市、广元市的3家三甲医院,但是由于其年门诊量巨大,因此综合来看其医疗纠纷发生频率却显著低于其他3市的三甲医院;而广元市某三甲医院虽然年纠纷数量低于成都市、泸州市、乐山市的3家三甲医院,但是由于其年门诊量相对较小,因此在纠纷发生频率上却显著高于其他3市的三甲医院,见表3。

表2 涉及医疗纠纷机构的级别分布

表3 代表性医疗机构纠纷数量统计

3.1.2 患者情况 对1 900起医疗纠纷案件中涉及的患者信息进行提取,其中有952起案件由于原告撤诉或未列出患者详细情况等原因未提取到相关字段,另有592起案件中患者最终死亡。此外,356起案件中的患者进行了伤残等级鉴定,仅占总数的18.7%。在这356起案件中,患者的伤残等级主要集中在九级、十级等较为轻微的伤残水平。同时1 900起案件中仅有108起患者对医疗事故等级进行了鉴定,占总案件数的5.7%。在所有鉴定结果中,三级和一级医疗事故案件数量最多,见表4。

表4 医疗事故等级统计

3.2 文书中医疗纠纷种子词统计

将1 900篇医疗纠纷文书按照所涉及医疗机构的等级(一级及以下、二级和三级)进行切分,并将得到的医疗纠纷种子词在各级医疗机构文书中的词频进行统计,选取其中前100个高频词进行词云构建,见图2。总的来看,医疗机构治疗所使用药物,出具的收据、报告单等单据,患者病情所伴随的并发症以及医疗机构对患者进行的检查和治疗方法(如彩超、CT、全麻等)等种子词在文书中出现频率最高。从提取到的医疗机构科室情况来看,ICU、儿科、急诊科、妇产科等是发生医疗纠纷事件较多的科室。同时,通过图2可看出不同级别医疗机构文书中所涉及的医疗实体分布也有一定差异。因此本文参考2018年原四川省卫计委为加强医疗机构、医务人员、医疗行为综合监管(以下简称“三监管”)所发布的《四川省医疗机构、医务人员、医疗行为责任追究办法(试行)》[16],按照“三监管”对医疗机构的监管事项将种子词分为医疗费用、检验检查、医疗文书、药品使用和治疗手段5个大类,见表5。通过对各类别种子词在不同级别医疗机构文书中的词频及T检验差异性统计结果,见表6。总结出以下几点:第一,通过词频统计来看,医疗纠纷事件中发生纠纷的核心点主要是医疗费用、医疗文书、医疗机构用药等方面,也契合《四川省医疗机构、医务人员、医疗行为责任追究办法(试行)》中对医务人员“不合理住院费用、不合理处方、不合理药品使用”等行为的监管事项。第二,一级及以下医疗机构涉及医疗费用词频要显著高于二级、三级机构,说明在较低级别医疗机构中针对医疗费用发生纠纷的情况要显著多于较高级别的机构,因此对于私人、基层等较低级别医疗机构在医疗费用方面还需要进一步加大监管力度。第三,三级医疗机构中涉及检验检查的种子词频要显著高于二级和一级以下机构,这与医疗机构水平越高,其检验检查设备和项目更齐全有关,但也需要注意避免不合理、不合规检验检查所造成的医疗纠纷事件。

图2 一级及以下(A)、二级(B)、三级(C)医疗机构医疗纠纷种子词云

表5 高频医疗种子词及分类

表6 各类别种子词词频及T检验差异性结果

4 讨论

4.1 社会层面

4.1.1 地区发展程度是造成区域医疗纠纷差异性的宏观因素 从上述分析可看出,四川省各地级市医疗纠纷数量与当地经济发展水平呈现强相关性,也表现出各地区间不均衡的特点。其中成都市作为四川省经济发展重点区域,医疗纠纷数量也遥遥领先其他地级市;而巴中、雅安、甘孜州、阿坝州等相对欠发达地区医疗纠纷数量最少。可推测发展程度相对较高的地区人口基数大、医疗活动参与者众多,同时群众法律意识较高,在发生医患纠纷时更愿意通过正规诉讼途径寻求解决,所以发生医疗纠纷案件的频次也相对较高。地区发展程度是造成区域医疗纠纷差异性的宏观社会因素。

4.1.2 医疗资源分布是造成区域医疗纠纷差异性的主要因素 从分析结果来看四川省各地级市医疗纠纷事件数量与医疗机构数量也呈现较为紧密的相关性。可推测医疗资源密集的地区,由于医疗机构、医疗人员以及参与医疗活动的患者基数大,医疗纠纷案件数量较多;反之医疗资源较稀少的地区发生医疗纠纷案件数量则相对较少。因此医疗资源分布的区域差异性是导致医疗纠纷区域差异性的主要社会因素。

4.2 医疗机构层面

4.2.1 不规范医疗行为是医疗纠纷的直接诱因 从对于医疗纠纷文书中关键种子词的分析来看,诱发医疗纠纷的因素都聚合于医疗费用、医疗文书、检验检查、药品使用以及治疗手段等医疗机构相关医疗行为。同时也契合四川省医疗“三监管”政策中所监管和处罚的重点,即“不合理用药、不规范医疗文书、不合理检验检查、不合理住院费用”等不合理、不合规医疗行为。因此医疗机构不规范医疗行为是诱发医疗纠纷的最直接原因。

4.2.2 不同级别机构中医疗纠纷的诱因各有不同 在较高级别和较低级别的医疗机构之间,诱发医疗纠纷的因素也各有不同。由于级别较高的医疗机构(几乎都是公立医院)医务人员的专业程度相对更高,并且其收费标准也严格按照卫生行政部门和物价局标准执行,同时受到有关部门严格监管,因此针对医疗文书和费用方面的纠纷相对级别较低的医疗机构更少;而由于级别较高医疗机构在检验检查设备和项目方面相对级别较低的医疗机构更全面,医疗纠纷文书中关于检验检查种子词出现的频率更高,同时也提醒级别较高的医疗机构应更加注意检验检查项目的合理性和合规性,避免出现医疗“三监管”中提及的“不合理检验检查”等不规范医疗行为。

4.2.3 医疗机构水平与医疗纠纷发生密切相关 医疗水平越高的机构在诊疗水平和诊疗流程、医疗硬件设施完备程度、医务人员专业程度等各个方面几乎都优于医疗水平较低的机构,因此可以从根源上避免医疗事故的发生。同时水平较高的医疗机构在监督管理制度和突发事件预警及应对体制方面更加完备和健全,也可以一定程度上避免医疗事故或不规范医疗行为造成的突发医疗事件进一步向医疗纠纷演化。

4.3 患者层面

在医疗纠纷事件中,患者对于医疗损害造成的伤残鉴定以及医疗事故鉴定依然属于少数。可推测其主要是由两方面因素造成的:一是患者进行医疗损害相关鉴定的意识较为淡薄,二是患者对于医疗损害及伤残鉴定的了解程度较差。

5 对策及建议

5.1 政府决策层面

5.1.1 建立有区别、有重点的医疗监督管理体系 继续落实和加强医疗行业“三监管”政策,完善医疗卫生监督管理的法律法规和标准体系,鼓励地方、机构依据实际医疗卫生情况实行有针对性、差异性的医疗监管政策和标准,对于医疗纠纷事件频发高发的地区、机构和科室实施重点监督和管理。具体而言,主要落实到对于医疗机构、医疗服务人员、临床技术和大型医疗设备等在医疗行业的准入监管,以及对于医疗机构和医疗服务人员的医疗服务行为、医疗政策执行方面的监管。

5.1.2 合理配置医疗资源 完善对于医疗卫生事业的投入和分担机制,构筑政府机制、市场机制、社会机制3方参与的医疗资源配置方式,合理整合现有医疗资源以建立资源共享平台,重点保障弱势群体的医疗权益,从而促进四川省医疗卫生事业体系发展,从根本上减少医疗纠纷的发生和激化。

5.1.3 建立健全医疗损害鉴定规范制度 政府应建立和完善医疗损害鉴定相关的法律政策,对鉴定机构资质和业务流程、医疗鉴定程序的启动和审查实行严格监管,并引导诉讼单位对于医疗损害鉴定意见的审核和采信,保障医疗损害鉴定的公平性、合法性和有效性。

5.2 医疗机构层面

5.2.1 加强自身管理 医方应加强对于国家及地方出台的关于医疗行业监管各项政策法规的学习,规范自身医疗行为,从源头上杜绝“不合理用药、不合规医疗文书、不合理检验检查、不合理医疗费用”等医疗乱象。同时组织机构内监管队伍对医务人员医德医风、医疗规章制度落实和日常医疗行为进行监督和纠察,对不合理、不合规医疗行为和人员做到“零容忍”。

5.2.2 建立顺畅、及时的医患沟通平台 医方应建立健全的机制体制和设施环境,保障医患沟通的及时和高效。同时完善患者评价和投诉机制,对患者需求做到妥善和高效处理。医方应定期针对不同层次的医务人员开展沟通技巧培训,使其善于倾听患者诉求,及时换位考虑患者感受,寻求快速有效的问题解决方式。

5.2.3 建立高效的纠纷预警和处置机制 医方应建立预警机制、采取相应措施防范医疗纠纷事件发生,对于易发生医疗纠纷的患者(如长期住院、严重并发症和疑难危重病例等)和科室(如ICU、儿科、急诊科、妇产科等)实施密切监测,一旦发现纠纷苗头要及时介入和化解矛盾,并及时对患者和医务人员进行心理抚慰和疏导。同时针对医疗纠纷建立高效处理的政策制度和应急预案,鼓励医患通过正确、有效的程序和途径(内部医患协商解决、第3方介入调解和正规司法诉讼程序)进行纠纷解决,避免出现因解决不力造成的群体性事件及恶性事件。

5.3 患者层面

5.3.1 寻求正规就医渠道并充分信任和尊重医务人员 患者就医时应选择具有完善资质、设备和人员的正规医疗机构,并寻求正确的科室和医务人员进行问诊。同时充分信任医务人员的医疗道德和医疗水平,积极配合进行治疗,与医务人员形成高效、顺畅的交流和沟通。在与医务人员产生矛盾或产生不良情绪时要及时与医务人员交流和协商,并通过家人朋友或者心理医生及时进行情绪安抚和心理疏导,避免事态进一步恶化。

5.3.2 加强医疗相关的法律法规政策学习,提高医疗损害鉴定意识 患者应主动积极进行医疗相关法律政策的学习,以便在受到不正当医疗行为带来的损害时可以在第一时间利用法律武器保护自身合法权益,并通过正当途径寻求解决。同时在受到医疗损害时应尽量保存好相关证据,并在第一时间进行损害鉴定,作为后续进行司法程序时的必要证明。

6 结语

本研究创新性地采用知识抽取方法,基于医疗损害纠纷相关的裁判文书数据,对四川省医疗纠纷事件的诱因、特点及规律进行分析,揭示医疗纠纷事件的发生受社会、医疗机构以及患者多方面的因素影响,并针对政府、医疗机构和患者3个层面提出防控和处理医疗纠纷的对策建议。总而言之,改善医疗纠纷现状、构建和谐医患关系、构筑平安医疗环境需要政府和社会、医疗机构及每位公民共同参与和努力。

猜你喜欢
纠纷案件词频文书
太行山文书精品选(17)
监狱执法文书规范探讨
黑水城出土《宋西北边境军政文书》中“砲”类文书再讨论
实务中循环贸易纠纷的研究与思考
对我国涉嫌犯罪的经济纠纷案件处理机制的评析及重构
25年来中国修辞研究的关键词词频统计*——基于国家社科与教育部社科课题立项数据
迈瑞生物发起医疗仪器专利战
等同特征判断标准在专利侵权纠纷案件中的适用问题
词频,一部隐秘的历史
以关键词词频法透视《大学图书馆学报》学术研究特色