基于文本挖掘法的北京市家庭医生评价体系构建及实证研究

2020-06-15 23:40:00刘芳羽赵静李泽黄敏婷赵秉元
中国全科医学 2020年25期
关键词:词频分词家庭医生

刘芳羽,赵静*,李泽,黄敏婷,赵秉元

随着我国社会经济水平的不断发展,人们对于生活质量和生命质量的追求日益迫切,对医疗健康服务和卫生保健资源的需求也在不断增加。家庭医生作为卫生事业工作规划的重点,从2009年至今,每年国家层面的卫生工作重点都会提及。2010年起,北京市开始推行家庭医生签约服务,通过家庭医生签约服务为签约居民提供相应的医疗卫生服务,开展预防保健活动[1]。现有的关于北京市家庭医生服务的评价体系与相关研究多以对签约居民或提供家庭医生服务的全科医生及家庭医生团队进行问卷调查、访谈、试点研究等方式,通过患者需求评价或家庭医生工作满意度来开展[2]。内容分析法是对明显的传播内容做客观而系统的量化并加以描述的一种专门研究方法,其特征为传播内容的明显性、客观性、系统性及量化性[3]。家庭医生系列政策作为自上而下的公开政策文件,语言表达统一规范,目的、内容明晰可见,能够作为量化材料进行数据转化和分析。曾经有学者运用内容分析及相关文本挖掘方法,对政策评价体系进行量化指标建立和实证分析,构建了广东省阳光用药制度评估指标体系[4]。政府是公共政策的制定者,对于政策的效果与实施具有自己的角色期望,本研究通过对家庭医生相关政策文件的梳理,对家庭医生的现状与发展制度进行评价与研究,对政策实施效果进行评价,能够在一定程度上丰富家庭医生评价角度,弥补家庭医生评价体系制定方面尚存在的不足。

1 方法与工具

1.1 成立研究小组 于2019年3—4月,经初步分析研讨与工作量计算,成立由8人组成的研究小组,小组成员来自北京中医药大学管理学院和研究生院,研究专业涵盖社会医学与临床医学,包含副高级职称1人、管理专业硕士研究生6人、临床专业硕士研究生1人。研究工作内容包括:筛选政策文件、查找并深入阅读文献、初步筛选指标体系、联络专家与调研场所、调研并统计结果。

1.2 ROST内容挖掘系统 ROST内容挖掘系统是由武汉大学信息管理学院沈阳教授设计编码的内容挖掘软件。该软件能够支持的分析方法包括:分词、字频统计、词频统计、聚类、分类、情感分析(含简单和复杂)、共现分析、同被引分析、依存分析、语义网络、社会网络、共现矩阵等。ROST是基于内容挖掘的人文社会科学数字化研究平台,是能够依据一定范式进行人文社科智能化学术研究的数字化研究平台[5]。

2 指标体系初选

本研究以《北京市卫生和计划生育委员会关于进一步加强家庭医生签约服务有关工作的通知》(京卫基层〔2018〕9号)文件为指标体系基础,由调研人员分组阅读通知内容,对文件中的政策目标进行背对背整理和筛选,在分组筛选后进行会议讨论、修改与调整。为增强标准的普适性和统一性,去掉了以“支持”“鼓励”等非明确要求为态度的条目(如“鼓励有条件的地区将基本康复纳入对残疾人的个性化签约服务范围”)。将文件中的八大类目按照家庭医生工作维度与版块进行分类组合,在保持政策原文内涵和意义不变的条件下,重组形成3个一级指标,分别为服务准备与宣传、服务内容与流程、服务监督与保障,在符合政策原文要求的同时,对家庭医生服务的各个环节均有涵盖,并将配套体制的建设和对政策的宣传工作也囊括进来。体系的二级指标包含7个维度,均由一级指标细化或拆分而来。在保持政策原意的条件下,提取三级指标,吸收政策原有的文本结构,由二级指标将所有三级指标划分为不同子组,以期在组间排序和组内排序的过程中能够更加便利和迅速。依据数据的可获得性、指标的代表性、指标的客观性(即无须自报,由第三方从外部获得)、宏观整体性、可测量性或可计算性等原则进行核查后[3],筛选出的指标体系见表1。

3 确定指标体系权重

根据初选指标情况,采用文本挖掘的方法与工具对政策文件进行内容分析,通过文本挖掘确定指标体系的权重。

3.1 获取文本 由调查员以家庭医生为关键词,收集与其相关的政策文件。获取途径主要是国家卫生健康委官网、北京市卫生健康委官网,以及国家、北京市卫生健康委内部参阅材料、工作安排及总结报告。由调查员以“家庭医生”“全科医生”为关键词,在国家卫生健康委、北京市卫生健康委等各级政府网站上搜索相关政策文件,政策文件及其来源具有权威性及可靠性。通过逐篇阅读后排除与家庭医生主题相关度过低、对构建指标体系参考性过小、数据或材料具有特殊性的材料(如新闻报道与宣传材料)。本次指标体系建立共纳入政策52件,其中国家级政策40件、市级政策12件。将经过筛选的52件政策文件材料整合在同一文件内,并转化为TXT格式,同时将初选指标体系也一并转化为 TXT 格式的纯文本文件,方便运用ROST软件进行文本挖掘处理。

3.2 挖掘法处理文本 使用武汉大学信息管理学院的内容分析工具ROST Content Mining 内容挖掘系统5.8.0.603版,将52件政策文件汇总成的文本集合及指标体系进行分词处理,得到分词结果。词频(TF)表示该词条在所查文档中出现的频率,通过词频统计能够看出每个分词在文档中的重要程度。

3.3 计算结果 根据分词形成的最终结果进行计算处理,得出每个分词的词频及词云。

3.3.1 输出词频 通过ROST软件进行分词处理,导出词频排在前1 000位的词表。由输出结果可见,有9个词的词频超过1 000次,分别为“卫生”“医疗”“服务”“健康”“机构”“管理”“医生”“医院”“加强”。其中,“卫生”“医疗”“服务”的词频分别为3 459、2 721、2 677次,位列分词词频的前3位。位于出现分词词频1 000位的有“体质”“实时”“戒烟”“视力”“多样化”等词语,词频均为16次。

3.3.2 输出可视化词云 通过ROST软件形成可视化词云(见图1),词频越多的词语占据画面越大,通过词云分布可以比较直观地看出在总的文本文件中每个分词的重要性。

3.4 整理指标内容

3.4.1 汇总指标关键词词频 根据指标内容将三级指标分解为若干关键词,统计指标下的关键词词频,计为指标词频数。如将“具有统一的服务协议文本基本内容和格式”条目提取出“统一”“协议”“文本”“内容”“格式”,将各关键词的词频加和,得到此条目的词频数为148次。对于因表述殊难以提取关键词的条目,经专家讨论,采取关键词同义替换或提取核心概念的方式进行关键词检索,通过词频统计,合并频数较低但经分析不可缺少的条目,如将“及时建立并完善签约居民健康档案个人基本信息”和“建立签约居民的个人资料及隐私保密制度”合并为“及时建立并完善签约居民健康档案和信息保密制度”。

表1 北京市家庭医生评价体系指标初选表Table 1 Primary selection of indicators for Beijing Family Doctor Evaluation System

3.4.2 选择专家并组织专家咨询 专家包括北京市社区卫生服务中心从事家庭医生管理工作3年以上的行政人员;家庭医生团队长或家庭医生工作室负责人;具有中级以上职称且工作超过5年的一线家庭医生;最终共选取15名愿意支持并配合本次研究的专家,专家单位涵盖卫生行政部门、医疗机构与科研院所。通过专家咨询与小组讨论,将可能带有歧义或能够合并的条目进行修改整理,调整指标的语序和句式。最终通过词频统计,去掉词频低于15次的指标,得到三级指标词频统计表,词频总数为9 905次(见表2)。

3.5 计算指标权重 以词频为基础,对评价体系的三级指标进行归一化处理,运用归一化法中的(0,1)法,将各条目词频数转化为1以下的小数,计算出各条目的权重值(见表2)。

4 设置评分办法

本次指标体系的评分分为定性与定量两种,对于定量答案采用直接计数制,如居民的家庭医生签约服务知晓率。对于定性答案采用三级评分制,即“完全符合”“一般符合”“不符合”,如条目“具有统一的服务协议文本基本内容和格式”,如果既有统一的协议内容又有格式则评为“完全符合”,如果两个都没有,则为“不符合”,如果只有统一的内容或统一的格式,则评为“一般符合”。“完全符合”“一般符合”“不符合”3个等级折合分数分别为5、3、1分,定量答案直接按照指标权重计算,如有必要则成倍数转化,如“居民家庭医生签约服务知晓率”范围为0~100%,则在计算时将原始数据乘5,即若知晓率为80%,则按4分计算,再进行权重处理。将所有条目分数相加得到最终总评分,总评分满分为5分,分数越高,表明该地的家庭医生服务建设越完善。

5 实证分析

图1 家庭医生政策文件可视化词云Figure 1 Visualized word clouds in family doctor policy files

为验证评价体系的实用性及科学性,将指标体系运用到北京市4家社区卫生服务中心进行家庭医生服务评价,将评价指标体系制作成调研问卷,对选取的4家社区卫生服务中心的负责人或家庭医生工作负责人进行一对一访问,得到自评数据(见表3),4个试点地区的家庭医生服务均在4分以上,可以看出北京市家庭医生服务的开展已经取得了一些成绩,尤其是在公共卫生服务和家庭医生团队建设上,4个测试点地区工作都已经比较成熟。同时,通过各条目的得分情况也能够看出北京市家庭医生服务尚存的不足,4个测试点得分最低的条目均为“搭建在线管理与考核平台”,可见在家庭医生团队的在线管理与信息化方面,北京市仍应进一步开展相关工作。通过此次实证分析也能够看出评价体系能够对北京市家庭医生服务建设工作进行评价,同时能够反映出工作现状及目前存在的一些问题。

表2 北京市家庭医生评价体系三级指标词频及权重Table 2 Term frequency and weight of three-level indicators in Beijing Family Doctor Evaluation System

表3 北京市4家社区卫生服务中心家庭医生服务评价得分情况(分)Table 3 Evaluation scores of family doctor services in four community health centres of Beijing

6 结论

通过将政策文件原文内容进行量化,根据政策目标与内容提取指标体系,通过运用文本挖掘法计算词频,赋予指标相应权重,能够减少传统德尔菲方式下人为因素的主观性和判断失误,能够在建立过程中更加贴近政策本来的目标与规划。同时,文本挖掘法借助少量人力和一定的分词工具,可以提高研究效率,节省研究成本。由于方法较新,可参考文献较少,研究在指标分词处理及词频统计的精细化上还存在可商榷之处,在实证分析上也只进行了初步探究,还需进一步做深入调研来验证指标体系的可行性。家庭医生评价随着家庭医生工作的不断推进还在进一步发展,通过文本挖掘建立评价体系能够在一定程度上拓展指标体系筛选的方法,未来可以对此途径进行更加深入的探索和研究。

作者贡献:刘芳羽、赵静负责论文选题与研究设计;李泽、黄敏婷负责前期文献准备与信息收集;赵秉元负责材料整理;全文由刘芳羽执笔,赵静进行质量控制与审校。

本文无利益冲突。

猜你喜欢
词频分词家庭医生
家庭医生
基于词频分析法的社区公园归属感营建要素研究
园林科技(2021年3期)2022-01-19 03:17:48
“有个头疼脑热先想到家庭医生”带来启示
结巴分词在词云中的应用
智富时代(2019年6期)2019-07-24 10:33:16
家庭医生签约理 想照进现实
中国卫生(2016年12期)2016-11-23 01:09:54
值得重视的分词的特殊用法
词频,一部隐秘的历史
云存储中支持词频和用户喜好的密文模糊检索
以关键词词频法透视《大学图书馆学报》学术研究特色
图书馆论坛(2014年8期)2014-03-11 18:47:59
高考分词作状语考点归纳与疑难解析