唐朝丰 叶姿兰
摘要 作为医学院校本科生和研究生必修的专业基础课程,“医学统计学”是关于医学健康数据的收集、整理、分析和解释的方法论学科,在医学上具有重要的作用。随着大数据时代的到来,大数据对医学统计数据的收集、整理和分析等方面的发展带来巨大的机遇和挑战,亟须对高等院校“医学统计学”课程作相应的教学改革。文章以大数据分析技术和“医学统计学”课程融合为例,剖析了大数据对“医学统计学”原理与方法提出挑战,并提出相关的教改建议举措,旨在提高课程教学质量,希望本研究能为我国“医学统计学”教学改革提供有益借鉴。
关键词 大数据;“医学统计学”教学;课程教学改革
中图分类号:G424文献标识码:ADOI:10.16400/j.cnki.kjdk.2023.18.037
“医学统计学”是我国医学类专业必修的专业基础课程。该课程以统計学理论为基础,旨在通过资料收集、整理、分析和推断的方法,帮助学生进行医学实证研究[1]。随着大数据时代的到来,以及大数据技术的不断发展,对统计学原有的结构架构和理论体系产生了直接的影响。同时,大数据也为医学领域的科研工作提供了强有力的数据分析支持,例如:借用大数据来处理复杂的医疗非结构化数据、分析医学影像以帮助医生做出诊断[2],以及基于大数据下的医保管理应用系统等[3]。无论是医院管理、医保支付方式和对医院监督、健康管理、还是疾病治疗、临床实效研究等,都亟须获取、管理和分析海量数据[4]。然而,传统的统计学数据分析原理(如概率论、数理统计等)已远远不能满足当前大数据时代的需求。
为了提高医学类学生解决实际医疗领域大数据问题的能力,将“医学统计学”的理论教学与大数据相结合,已成为我国高等院校“医学统计学”课程教学改革的必要任务。因此,本研究以大数据分析技术和“医学统计学”课程融合为例,剖析在大数据发展趋势下对“医学统计学”原理与方法提出挑战,并提出相关的改革建议举措。
1大数据对“医学统计学”原理与方法提出挑战
目前,在“医学统计学”的教学过程中,主要的研究对象是数据的收集、整理、分析方法。而本研究中的医科大学针对“医学统计学”的数据分析教学内容目前仅限于在概率论、数理统计学等统计学内容基础上,指导学生如何根据医疗目的进行收集医学数据和应用等方法对数据进行分析,比如①如何收集、整理数据、处理数据等;②如何对小样本(小于40样本量)和大样本(大于40样本量)的数据做因子分析、回归统计等数据分析。所以大数据使得统计学的理论与方法面临了很多挑战,主要有以下四个方面。
1.1统计数据的收集处理方式变化
传统的医学统计中,数据产生的方式主要是基于某个治疗方案或者所要研究药物的具体问题而主动做调查和实验,主动对患者测量各项指标进行“数据收集”,基本思路在于如何获取数据。而大数据发展趋势,实时观测系统的完善,使得海量数据随处可得,所以医学信息数据的收集将从个人数据收集方式向开放数据收集方式转变。传统意义上的对单个病患或者某个病例进行数据收集,一般是经过严格抽样设计获取样本,然后在严格控制的有代表性的“样本”中,推论出“该样本”所能代表的“总体”规律,该推论过程具有系统误差小,与总体差异小的特征[5]。然而这种方式所获得的数据样本量有限,且获取时间长,成本高。相反,医疗大数据可以更快捷和方便地获得“总体”数据,但近似“总体”的极大样本量却价值密度较低,即数据价值相对比较少,这是因为价值密度与数据总量呈负相关[6],并且这类数据难以判断数据获取误差与偏倚程度。由于数据收集和处理方式的难度提升,“医学统计学”无疑会面临新的考验。
1.2数据格式与结构复杂多样化
目前电子病历、医保数据、出生死亡登记等部分医疗统计数据均属于结构化数据。结构化数据是指可以被量化的数据,即是数据可用数字进行表示、计算以及测量。因此,结构化数据的优势在于:数据容易被常规统计软件读取和分析,从而使数据的处理更加高效和精确。然而,在大数据背景下,数据格式往往是多样的,不仅包括结构化数据,也包括大量的半结构化和非结构化的数据,即是描述性的和概念性的数据,例如:纸质医疗记录扫描成的图片和图像、住院病房的视频等。这些半结构化和非结构化数据往往难以转化成量化形式的结构化数据,这也为后期的数据分析带来了一定的困难。针对这一类复杂结构的数据,目前仅运用在能够实时观测等业务应用中。因此,如何将这些非结构化数据转变成结构化数据,以此进行有效及高效的量化分析无疑是目前大数据时代“医学统计学”面临的新挑战。
1.3大数据对数据分析方法的影响
当笔者使用大数据采集工具来获取大量的数据时,笔者通常认为这些数据的样本反映了总体的特征。因此,在数据分析中,笔者不能仅仅依据小样本和大样本所对应的分布函数来进行假设检验的调整,而是应直接对总体进行分析。这也就意味着,传统统计学的样本分析方法,例如假设检验和参数估计等,也可能变得不适用。这样的情况将会给“医学统计学”方法论带来一定的冲击。因此,笔者需要进一步研究和探索大数据分析方法,以确保它们的准确性和可靠性,这对于“医学统计学”方法论的发展至关重要。
1.4大数据的数据安全问题
在传统的统计学数据分析方法中,对于医院数据管理统计理论这一方面,通常并未提及数据安全及数据保护的技术方法。然而,在当今大数据时代,由于数据收集方式的改变,使得数据获取变得轻而易举,以至于数据安全和隐私保护已经成为了重要的议题。医院作为一个重要的数据收集和管理机构,需要采取一系列的数据保护技术来保障患者的个人隐私和医院的数据安全。因此,在医院数据管理统计理论中,应该加入更多的数据安全和隐私保护技术,以确保医院数据的安全性和完整性。
2适应大数据时代需要的“医学统计学”课程教学改革建议
2.1“医学统计学”理论教学改革
针对大数据背景下数据收集方式和数据处理的挑战,结合大数据的特点,加强大数据分析方法的教学。教学内容除了包括大数据采集、处理、分析、建模等方面内容,以提高学生的数据分析能力。还应该加强统计学、数学基础以外,还应加强计算机应用以及研究方法类的知识,对“医学统计学”的数据收集基本内容进行拓展和延伸。具体而言,可以分成以下两点:
一是数据收集和处理方法需要跳出传统统计学的收集和处理框架,除了了解定量类的数据收集方式以外,更多需要了解定性类的数据收集,同时还要了解将大量定性的乱序非结构化数据变为结构化数据的转换处理过程,以探索源数据隐藏的规律。此外,在完成数据收集后,还需对数据进行逻辑评估,主要包括趋势、异常值、缺失的等信息。因为这些信息将会反映到模型的所有结果。
二是更广泛学习一些定性研究方法和计算机编程知识,如定性研究方法的观察和访谈方法,计算机的爬虫技术。具体分析如下:以减少医生被刺伤的研究为例,如果借用观察和访谈方法,那么传统的统计学只能采用观察和访谈每天病人来访医院的样本数据以推来院病人总体的情况。但是,在大数据背景下,凭借着海量的历史病人来访医院数据,借助多种人脸识别技术和爬虫技术进行预分析处理本医院和其他医院的图像和视频数据,之后再进行人工选择性介入处理,最后再针对二者进行比对,帮助医院安保人员找出可疑人物,以做提前预防。
上述的学习都是为了提高医学领域学生对大数据背景下收集到的不同种类数据的处理技术水平,因此要更进一步地融合算法知识与“医学统计学”。
2.2“医学统计学”实践教学改革
针对大数据对数据分析方法的影响,在实践教学中,扩充实验教学内容,夯实基本软件操作。“医学统计学”课程可以通过实践教学和案例教学,让学生更好地理解和掌握统计学理论知识,并将其应用到实际问题中。加强编程软件与统计软件的实验教学,使学生在实践教学中,可以提高医学学生处理数据与运用数据剖析实际医疗问题和数据管理的能力。在此基础上,结合大数据技术特点,有计划地将大数据新技术操作渗透在实践教学工作中。此外,提高创新意识,鼓励跨学科合作。“医学统计学”课程可以通过鼓励学生跨学科合作,促进“医学统计学”与其他学科的融合,培养学生的创新意识和跨学科合作能力,以适应大数据时代的需求。
例如,为培养学生在医学领域适应大数据时代的需求,医保支付方式改革可以作为“医学统计学”课程的典型教学案例。这是符合国家培养人才的需要,因为国家为了加快推进大数据应用于医疗领域,日前大力推行以病种付费为主的多元复合式医保支付方式改革。同时,这个按病种分值付费改变了样本推算总体的仿真、预测年至精算模型,利用真实、全量数据客观还原病种的疾病特征及医疗行为,这将大大丰富了“医学统计学”里面的“样本抽样”变为“总体精算”的基础理论知识。此外,医保支付方式改革还借用医保医疗大量的数据进行充分聚类,以病种组合的“随机”“均值”等统计知识作为基础条件,建立实用高效的支付机制。通过医保支付方式改革的病种组合的“随机”“均值”等统计知识学习,可以促进“医学统计学”与医保管理学科的融合,同时,在病种聚类过程中,普通的excel文档只能打开104万行的数据,但是一个普通地級市3年的病种的数据都会超过300万行,同时内存也会超过10G容量,因此必须借用计算机语言(如:R、Python语言)进行读取,然后分类组合。像这样的分类组合实验操作过程,可以让学生结合实际问题,加强编程软件与统计软件的操作能力。
2.3“医学统计学”数据安全教学改革
强化数据安全教学和数据隐私保护意识非常重要。在大数据时代,数据安全问题越来越受到重视。尤其是医学类的数据往往涉及病患的个人隐私,涉及伦理问题。因此,“医学统计学”课程可以加强对数据安全的教学,让学生了解数据安全的重要性,掌握常用的数据加密和保护方法,从而保障数据的安全性。要加强渗透大数据的数据安全管理技术手段的实践教学与统计思维结合。考虑到大数据的开放性特点,而医学类数据大多是涉及病患,具有隐私性,因此,需要加强数据加密技术的学习,将数据进行加密,从而确保数据传输的安全性,数据备份技术的学习则可保证数据不会因为意外事件而丢失。另外,还有数据脱敏、访问控制、数据审计等技术,都是对医学类数据保护的重要手段。
3总结
本研究以某医科大学“医学统计学”课程为例,在大数据时代背景下,表明大数据知识与“医学统计学”课程的融合教学有助于提高学生在数据收集、数据整理和数据分析方法等方面的专业水平,特别是像医保支付方式改革这一类案例与“医学统计学”课程的融合教学方面,有助于提高学生结合实际问题进行实际操作能力。所以应该加强在理论和实践教学等方面的改革和创新,促进“医学统计学”的发展以适应大数据时代需要,为医疗领域培养出复合应用型的专业人才。
*通讯作者:叶姿兰
基金项目:2023-2025年青年科研与培育基金资助“环境意识和利他意识对绿色债券购买行为的影响”(2001/2XK22011);2023年博士科研启动经费(4SG23225G);2023年博士科研启动经费(4SG23259G)。
参考文献
[1]吕军城,王莹莹,石福艳,等.医学统计学教学面临的主要障碍及教改思考[J].中国卫生统计,2018,35(6):946-948.
[2]潘艳军.大数据分析技术及其在医疗领域的应用[J].科技传播, 2018,10(17):117-118.
[3]夏新,刘博,王珏,等.大数据分析在医院医保管理中的应用研究[J].中国数字医学,2017,12(1):9-11.
[4]贺晓松,胡川丽.大数据在医疗领域的应用及问题探讨[J].数字技术与应用,2023,41(1):52-54.
[5]蔡宏伟.传统医学统计学与医疗大数据应用的对比研究[J].中国数字医学,2016,11(10):12-14.
[6]刘东方,粟恒.区块链技术在财务管理领域的应用[J].国际商务财会,2019(12):28-31.