苑秋辰,杨浩杰,麻盛淼,沈晨,梁涛
(中国医学科学院 北京协和医学院 护理学院,北京 100144)
2021年我国工业和信息化部提出要加强基础学科和前沿学科建设,促进新兴交叉学科发展以提高社会建设水平[1],因此“医工交叉”已成为推进护理学科发展的新思路和必然趋势[2]。美国早在1988年和2008年分别开展护理信息学和护理工程学培养计划[3],是第一个落实护理交叉学科培养的国家。美国国家科学基金会(National Science Foundation,NSF)的资助领域覆盖广,在推动美国科学发展中扮演关键角色[4],因此其资助项目能反映美国科学研究的政策引领和发展方向,同时,促进跨学科研究也是NSF的重要优先事项[5]。近年来Python已成为最受欢迎的编程语言之一,其代表性的网络爬虫、机器学习和数据挖掘等技术已初步应用到医疗卫生领域中[6-7]。本研究旨在以创新的研究方法借助Python的网络爬虫和自然语言处理技术对NSF中护理-信息-工程学科相关资助项目进行分析,探索护理-信息-工程学未来的发展趋势,为后续研究提供参考。
1.1 数据来源 计算机检索NSF官网(https://nsf.gov/awardsearch/advancedSearch.jsp),选择高级检索,在补充信息中按关键词分别检索“nursing”“nurse”“care”“caring”,选择活跃资助和到期资助,不设时间范围。纳入标准:(1)项目主题与护理领域相关;(2)项目使用了信息学或工程学相关的技术。排除标准:(1)项目主题为动物或植物;(2)所得数据的关键字段(项目编号、项目标题、摘要等)有缺失值。
1.2 研究工具 Python是一种易于学习,功能强大,免费、开源、灵活的解释型编程语言[8]。网络爬虫是指通过编程实现程序模拟人操作浏览器上网,并在网站中批量获取数据信息的过程[9]。隐含狄利克雷分布(latent Dirichlet allocation,LDA)是一类贝叶斯层次主题模型,属于无监督机器学习算法中的一种[10],作为高效的自然语言处理模型之一,在医疗卫生领域已被应用于社交媒体平台中相关主题的文本分析[11-12]。
1.3 研究方法
1.3.1 数据采集与存储及筛选 使用Python的requests模块对上述网站的公开数据进行采集,包括每个项目的编号、标题、NSF资助机构、摘要、开始日期、项目负责人、资助金额等;使用csv模块将爬取的数据保存至本地。根据纳入和排除标准对数据进行筛选。
1.3.2 数据清洗及格式规范 使用Python的pandas模块读取csv文件,将每个项目的标题和摘要拼接,用re模块中的正则表达式去掉数据中的网页标签,将字符串类型的数据全部转换为小写,将复数词和动词转化为原形。使用python的jieba模块对拼接后的数据进行分词,并去除停用词。
1.3.3 词袋模型建立及主题数量确定 使用Python中gensim模块的corpora和doc2bow方法将每个项目数据的分词列表转化为词袋模型[13]。使用gensim、math和matplotlib模块根据传入的词袋模型绘制困惑度(perplexity,P)-主题数量(number of topic,NT)关系图以确定主题数量,当主题数量为某一值时P出现极大值拐点,且此后P-NT曲线逐步趋于平缓,则认为此时的这个值为该词袋模型的最佳主题数量[13]。
1.3.4 LDA模型建立及可视化分析 使用Python中gensim模块的LDAmodel方法对上述词袋模型进行主题聚类分析,并使用LDAvis模块绘制主题间距离图进行可视化效果评估,图中灰色气泡表示该主题的词袋,气泡越大则词袋中单词数量越多,当各气泡间均无重叠区域时,认为此LDA模型达最优效,主题的相关性(relevance,r)最好。
1.3.5 各主题代表词数量确定 借助文献计量学方法中的齐夫定律[14]选定词袋中高频词的数量。
2.1 NSF资助项目概况 经检索和筛选,共资助护理-信息-工程学项目265项,时间跨度为1988年至2023年,累计资助金额约合6.87亿元人民币。每年立项数量及资助金额整体呈上升趋势,详见图1。统计NSF资助金额最高的前10个项目,涵盖护理管理、老年护理、社区护理、孕产妇护理等,技术层面包括增强现实、自动化分析、智能互联、活动感知分析、可穿戴设备、新型引流装置等,详见表1。NSF资助学部方面,分别有科技创新与合作学部(91项,34.3%),计算机信息科学与工程学部(81项,30.5%),社会行为与经济学部(54项,20.3%),工程学部(27项,10.1%),科学、技术、工程和医药(science, technology, engineering and medicine,STEM)教育学部(3项,1.1%),教育与人力资源学部(3项,1.1%),主任办公室(3项,1.1%),生物科学学部(2项,0.7%),数学与物理科学学部(1项,0.3%)。
表1 NSF资助护理-信息-工程项目金额前10个项目
图1 NSF每年资助项目数量和资助金额
2.2 主题数量确定 使用Python建立词袋模型并绘制P-NT关系图。当NT为6时P出现明显的极大值拐点,且此后P-NT曲线变化逐渐减小且逐步趋于平缓;使用Python绘制主题间距离图如图2所示,发现当NT为6时,各灰色气泡间均无重叠区域。因此本研究将模型拟抽取的最终主题数量定为6个。
Topic 1:智能技术在患者安全管理中的研究;Topic 2:面向患者的护理大数据系统的研发;Topic 3:护士健康及辅助决策工具的研发;Topic 4:虚拟现实技术在护理教育中的应用;Topic 5:传感器和无线辅助设备的研发;Topic 6:机器人在医院工作流程中的应用
2.3 各主题命名及所含高频词 使用Python对本研究词袋中出现的词进行统计,共涌现2153个词,依据上述齐夫定律公式计算得出,前65个出现频次最多的词为高频词,由于本研究已确定分6个主题,因此平均每个主题纳入出现频次最多的前11个词,详见表2。
表2 各主题名称及所含高频词
3.1 NSF资助护理-信息-工程学项目力度整体上升 本研究显示,NSF资助护理-信息-工程学项目数量和资助金额整体呈上升趋势。美国马里兰大学最早于1988年成立护理信息学硕士培养类型[3],自此护理-信息交叉项目资助开始起步,而2008年麻省大学阿默斯特分校创立护理工程学博士培养类型后[3],护理-工程学交叉项目融入NSF资助计划中。2019年至今,随着范德堡大学、约翰霍普金斯大学等先后开展护理工程学博士或硕士培养类型后[3],NSF对于护理-信息-工程学项目资助力度也随之达到高峰,4年间资助项目93项(35%),资助金额3600余万美金(36%)。在NSF资助学部方面,科技创新与合作学部和计算机信息科学与工程学部共涵盖172项,占比达65%,同时工程学部单独立27项,反映出计算机信息技术为工程学技术在护理领域中的初步发展提供了基础。建议我国护理领域保持信息化技术发展的同时,不断拓宽视野,与工程学专业人员合作,借助现有信息化技术和平台搭载相关工程技术,为护理专业的高水平快速发展提供帮助。
3.2 NSF资助护理-信息-工程学项目对我国的启示
3.2.1 护理信息化改善护理服务质量 护理信息平台和健康干预App已然改善了护理服务质量[15-16]。如远程会诊平台能带给患者长期信任并为护理干预提供支持[17],健康干预App能促进患者的健康行为,同时减轻护士工作压力,改善护理服务质量[15]。但与此同时,护理信息平台不可避免地为患者信息安全带来挑战[17],健康干预App的设计缺少临床专家的直接参与也是一大问题[18]。Jaensson等[19]基于“信息技术-电子健康-护理专家”的跨学科团队开发了一种用于患者术后恢复监测和评估的网络应用程序,为患者的使用提供了便利,提高了护士评估患者术后恢复水平的效率和质量。此外,Sara的项目(#2026577)提出了一个获取患者护理相关数据的新机制以保护患者隐私,并提出一种异步通信工具将家庭健康助理与护理团队的成员直接关联,通过多时空维度的数据收集和反馈机制实现协同护理工作。Ephraim和Sylvia的项目(#0428420、#0703692、#1035565)也加入了隐私保护程序,维持了患者基本隐私问题和健康需求的相互平衡。建议今后加大护理学与信息科学的合作力度,从患者隐私安全等实际问题入手,鼓励临床护理专家直接参与平台设计以促进护理信息平台的建设,改善护理服务质量。
3.2.2 计算机图形优化虚拟现实场景革新护理教育范式 虚拟现实(virtual reality,VR)至今已发展至沉浸交互的仿真技术,VR的出现让一种跨时空的网络虚拟学习空间正初步形成[20],推动了医学教育事业的发展[21]。研究[22-23]证实,VR在护理教育中是可行的,并且能显著提升护生和护士的学习、认知和精神活动水平以及护理技能熟练度、应对事件时的自信心和同理心。但在虚拟场景中,学生缺少了对现实患者真实痛苦感受的人文关怀[21]。Ephraim的项目(#1564065)开发了一种物理虚拟病床,使用动态计算机图形及各种传感器将出汗、呼吸、脉搏跳动、身体各部分温暖或寒冷的感觉表现出来,将虚拟患者的灵活性与人体模型的物理性相结合,使人类特征充分融入到VR模型中,让护生更好地感受患者所感。Ephraim的项目(#0803652)提出了混合现实人类,集成触觉、物理对象和生理监控以形成虚拟患者,提高护生对于患者隐私部位(乳房、骨盆、前列腺)的护理评估和人际沟通技巧。建议今后学院教师-临床护理人员-VR技术厂家三方通力合作,针对不同疾病特点,结合临床经验总结不同疾病患者的临床真实感受,构建更加真实和个性化的虚拟患者模型,让护生更加全面、真实地学习不同场景下的操作和沟通技巧。
3.2.3 智能辅助设备优化护理资源配置与护理决策效率 在护士短缺的背景下,智能辅助设备协助护士解决临床问题的发展思路愈发受到重视[24]。智能辅助机器人多存在于医院和老年护理机构中,能帮助患者进行转移、行走、力量练习等,高效减轻护士的工作负担,降低护士职业相关疾病发生风险,逐步发展为护士的潜在合作伙伴[25-26]。护理决策需要护士收集患者信息,综合分析后做出判断,而护理团队的年轻化和临床繁重的工作加重了护理决策的困难[27]。这样的背景下,以辅助机器人为代表的智能辅助设备可以监测患者实时行为,一定程度上降低了护士的工作量和职业相关疾病的患病风险,但其无法监测患者所处环境的状态,由此非接触式环境智能传感技术应运而生,更加全面地协助护士满足患者需求[28],达到不良事件预警的作用。Sara的项目(#2026498)开发了一款环境智能监控设备,包括开发硬件(相机、深度传感器和麦克风)捕获患者受隐私保护的数据、开发算法识别患者临床活动行为的程度、医护人员输入互动信息、临床实验探究设备可用性。建议护理专业人员联合科技部门人员协同研究,以更优的算法处理从环境中监测到的冗杂临床数据,为优质护理决策提供保障,实现患者-环境-护士一体化的智能护理路径,通过智能技术赋能提升护理资源配置与决策效率。
3.3 本研究的局限性 本研究基于Python语言实现了对NSF中护理-信息-工程学科相关立项的数据采集和分析,同时存在一定的局限性:(1)NSF中每个检索词最多只开放3000条检索结果,这可能导致数据采集不完整。(2)截至目前,尚未有护理学专用的中英文停用词表和分词库,英文文本的分词多数是以空格和连接符为区分,可能会导致分词结果存在部分偏倚。(3)LDA模型多用于对文本的情感得分进行分析,但对于政策类文本数据的分类效果有待纳入更大样本的数据进一步验证。
本研究使用Python语言的网络爬虫和机器学习技术对NSF资助的护理-信息-工程学项目进行分析,从资助项目概况和项目主题两方面进行论述,为促进我国护理-信息-工程学科发展提供参考。在后续研究中,护理学者可根据国家最新政策,结合国情不断拓宽护理-信息-工程学交叉发展的深度和广度,推动我国护理事业的发展。