基于文本挖掘视角的我国互联网医疗政策量化分析

2021-11-03 15:36包鹏飞卢昕玥王鸿蕴郑秋莹孔军辉李瑞锋黄友良
中国医院 2021年10期
关键词:象限聚类政策

包鹏飞 孟 卓 卢昕玥 王鸿蕴 郑秋莹 孔军辉 徐 坤 李瑞锋 黄友良

互联网医疗是以移动互联网为主要载体,通过云计算、物联网等信息技术实现无接触诊疗服务提供的新型医疗保健体系的总称[1]。近年来,互联网医疗在我国发展较为迅速,2014年8月国家卫生计生委颁布《关于推进医疗机构远程医疗服务的意见》,为互联网医疗行业的发展营造了良好的外部环境。互联网医疗是一种全新的诊疗模式,为患者提供了更多、更优质的医疗服务。作为传统医疗模式的有益补充,也为整合医疗资源和重构健康产业做出了贡献[2],并受到了广泛重视与应用。

本文基于文本挖掘视角,对国家层面互联网医疗政策文本进行量化分析,归纳互联网医疗政策研究主题并聚焦政策热点,以期为今后政策的完善提供借鉴和参考。

1 资料与方法

1.1 资料来源

本文选取国务院办公厅、国家卫生健康委员会办公厅和国家中医药管理局等国家层面官方网站上公开发布的一系列政策文件作为资料来源。为确保资料选取的准确性,按照以下原则对文本进行了甄别和筛选:①发文时间限定在2014年8月-2020年12月;②主题涉及“互联网医疗”“互联网医院”“远程医疗”“在线医疗”“移动医疗”等政策文本,共52份。

1.2 研究方法

将政策文本导入ROSTCM软件,结合研究筛选得到有效关键词并确定政策研究主题。对有效关键词进行共现分析,旨在找出政策文本中主题词之间的关联,梳理政策脉络。以关键词共现矩阵为依据进行主题词聚类,根据聚类结果进行主题词分组,总结政策研究热点。最后,将聚类结果进行社会网络语义分析并通过可视化战略坐标呈现。

2 数据处理及量化分析

2.1 关键词提取与整理

由于政策文本中部分专业词汇工具无法识别,需要结合我国特殊语境含义人工对一些特殊词汇进行自定义,保证关键词提取的严谨性。同时,将与研究主题关联性较低的词汇纳入过滤词表以提高数据筛选的准确性。进一步提取后,得到符合研究主题范围的词频表作为本研究的有效关键词词频表(表1)。

表1 政策文本关键词有效词表(前20位)

2.2 共词分析

将生成的有效关键词进行整理,运用ROSTCM软件进行主题关键词共现处理,并生成有效共词矩阵(表2)。其中,对角线上的数据代表该关键词在所有的政策性文本中出现的联合频次,非对角线上的数据代表两个相同的关键词在相同政策性文本中共同出现的联合频次。两个关键词的联合频次值越大,代表政策聚焦主题联系越紧密。

表2 部分共词矩阵列表

通过分析可得,互联网医疗政策以“健康”“医疗”“卫生”等基本关键词为核心。这充分体现了互联网医疗政策对卫生基本目标的坚持。“大数据”和“互联网”等体现时代特征的关键词词频与共现频次值均排名靠前,在一定程度上也显示出政策对以互联网为代表的信息技术的关注。同时,“中医药”“少数民族”“基层医疗”等代表互联网医疗主要应用方向的主题关键词词频以及共现频次较高,进一步体现了多种医疗方式交叉融合的互联网医疗行业特点。

2.3 聚类分析

聚类分析技术作为在分类问题中常用的多元统计分析方法,又称为集群分析[3]。该方法根据关键词之间的关联性并按照强度大小,以部分能够代表所属研究主题的关键词为中心进行归类处理,将数据划分成有意义或有研究价值的簇组。经过聚类分析后,组内各个不同对象之间理论上具有高度的聚类相似性,而不同对象群体组间的聚类相关性则比较低。聚类得到的簇应具有高簇内相似性和低簇间相似性。根据本研究中政策文本的特点,将数据导入SPSS进行分析,使用“离差平方和”聚类方法,选择“欧氏距离”作为区间划分的标准,在变量转换取值的度量标准化方法的选择方面,选择按照变量z得分的方法,最终结果以聚类树状图形式输出(图1)。

图1 主题词共词聚类树状图

聚类树状图可以较准确地映射聚类进程,能够具体到聚类过程中各个样本进行归并的情况[4]。图谱通过调整不同的距离对所有关键词进行划分和整理,以便生成不同的主题类团。距离越近表示主题类团中的关键词在同一文章中出现的次数越多,类团所代表的研究主题之间的关系越紧密。取密度用于体现一个主题类团内部的联系强弱,向心度用于体现不同主题类团之间的联系强弱。计算类团内关键字共现次数的平均值作为该主题类的密度,将一个主题与其他主题群体的共现次数平均值作为向心度[5]。通过计算可得,各类主题类团的空间向心度、密度如表3。

表3 主题词聚类结果

综合考虑后,本研究设置聚类距离为8,该距离将所有关键词分为5个主题类团,分别以A、B、C、D和E字母进行编号。“卫生服务”“家庭医生”“大数据”“信息化”等关键词共同组成主题类团A,“护理”“康复”“基层医疗”等关键词共同组成主题类团B,“创新”“平台”“互联网”通过之间的相互关联性较高组合成主题类团C。由于“健康”和“医疗”的聚类距离与其他研究之间的关联度较松散,因此单独将其划分为2个主题类团D、E。

2.4 战略分析

战略坐标分析是一种基于主题位置分析各主题演进情况以及发展进程的共词分析方法。在战略坐标图中,以X轴表示主题类团密度,以Y轴表示主题类团向心度。在本研究战略坐标图中,X轴代表主题类团在政策规定中的成熟度,Y轴代表主题类团在政策规定中的核心程度。将主题类团计算得到的密度作为横坐标、向心度作为纵坐标,以密度与向心度平均值的交点作为原点,绘制得到战略坐标图(图2)。

图2 聚类分组结果战略坐标图

2.4.1 核心领域。位于第一象限的主题类团具有高密度和高向心度特点。类团内部各关键词之间不仅联系紧密,而且与其他主题类团联系性较强。因此,该象限的主题类团往往代表行业研究的核心领域。由图2可知,目前互联网医疗政策并没有核心关键词主题类团,这表明互联网医疗政策领域还没有形成明确的研究核心和政策支撑体系。

2.4.2 未来趋势。位于第二象限的主题类团具有低密度和高向心度特点。该类团的研究热度并不突出,但与第三、四象限的类团相比具有很大的发展潜力。该象限中类团的研究方向代表了行业未来的发展趋势。位于此象限的类团是主题A和E,分别代表健康与医疗两个行业热点,表明互联网医疗政策在未来仍会围绕健康与医疗这两个主题进一步深化。

2.4.3 边缘领域。位于第三象限内的主题类团具有低密度和低向心度特点。象限中类团的研究主题在行业中处于边缘领域,该类主题类团主要聚焦于卫生健康管理信息化研究,重点主要集中在以社区为代表的基层医疗卫生管理信息化研究。

2.4.4 独立研究领域。位于第四象限的主题类团具有低向心度和高密度特点。该类团所代表的政策规定已较为完善,但与其他研究方向的合作需要进一步加强,因此属于独立研究领域。位于该象限的两个主题类团B和C均围绕各自的中心主题来开展业务研究,主要是以患者为中心的基层辅助医疗服务的提供和以互联网平台为基础的技术创新。

2.5 社会网络分析

为更加直观地展示政策关键词间的相互关系,本研究使用ROSTCM工具中的社会网络和语义分析功能,经过提取高频词和生成行特征词表等步骤,最终得到关键词网络图谱(图3)。图谱中关键词距中心节点距离越近,代表关键词与中心节点词语的联系就越紧密,图谱线条的疏密代表共现频率高低,线条越密,表示共现次数越多。

由图3可知,图谱的网络结构具有“核心-边缘”特点。根据节点大小具体分为3个层次:第一层由“医疗”和“健康”两个关键词构成,处于图谱的中心位置。第二层由“基层医疗”“中医药”“医疗服务”“康复”等词组成。第三层主要包括“家庭医生”“卫生服务”“健康管理”“分级诊疗”“信息化”“互联网”等。社会网络语义分析结果与战略坐标分析结果大致吻合,二者都反映了互联网医疗行业政策的核心领域未被充分挖掘等问题。

图3 社会网络语义分析

3 讨论与建议

3.1 完善互联网医疗政策顶层设计

从政策的顶层设计角度综合分析,互联网医疗政策的制定应以健康为中心目标,以医疗服务的提供为主体,需要政府有针对性地完善相应的政策规范,引导产业健康发展。目前,互联网医疗政策规定主要聚焦于行业潜在发展领域和独立研究领域。因此,政府应完善互联网医疗政策的顶层设计,促进行业全面均衡发展,与国家“十四五”发展规划相适应。

3.2 细化互联网医疗政策内容

从政策的核心内容角度重点分析,政策重心多聚焦于互联网医疗行业的规划。当前互联网医疗政策标准不统一,行业较易出现标准制定混乱、行业发展良莠不齐的现象[6],陷于长期难以管控的局面。政府应结合社会发展现状对政策内容进行深化细化, 发挥行业协会在政策制定中的积极作用并进行有效监管[7],进而形成良好的互联网医疗行业秩序。

3.3 重视互联网医疗政策评估反馈工作

从政策的评估反馈角度分析,政策的覆盖范围存在一定的局限性。针对这些政策盲区,政府应积极完善互联网医疗政策,定期收集行业反馈,并将更多的边缘化受众纳入监管范畴,及时对政策效应加以评估,为政府的科学决策和政策内容的调整提供借鉴,促进互联网医疗行业的发展。

猜你喜欢
象限聚类政策
政策
勘 误
政策
复数知识核心考点综合演练
常数牵手象限畅游中考
助企政策
政策
基于K-means聚类的车-地无线通信场强研究
平面直角坐标系典例分析
基于高斯混合聚类的阵列干涉SAR三维成像