医 学 大 数 据 辨 析

2018-03-03 15:25孙荣国贾晓蓉
卫生软科学 2018年8期
关键词:伦理医学研究

孙荣国,贾晓蓉

(1.四川大学华西临床医学院/华西医院,四川 成都 610041;2.成都市食品药品检验研究院,四川 成都 610045)

大数据是一个较为抽象的概念,正如信息学领域大多数新兴概念一样,大数据至今尚无确切、统一的定义[1]。以“5V”为特征的大数据[Volume(容量)、Variety(多样性)、Velocity(速度)、Value(价值)和Virtual(实时性)][2]概念起源于美国,其研究已有近30年历史。我国大数据研究起步较晚,特别是在医药卫生方面还存在着很大的研究与应用的空间。仅以维普中文期刊检索工具为例,1982年中文期刊就有大数据文献记录,而医药卫生大数据文献却在1992年始见于中文期刊[3],并且从2014年开始研究文献逐渐增多。目前,我国医学大数据的收集、存储、分析和应用已经深入到预防、诊疗、健康管理、教育、图书情报和特种医学等各个方面,并且已经成为医学决策的重要支柱之一[4-12]。但是,长期以来,少数人对医学大数据存在诸多不当的观念及其行为,包括“重量轻质”,轻视大数据建设与应用、抽样分析和伦理审查等。本文结合医学管理实践,进一步理清医学大数据有关误区,并提出相应的建议。

1 当前医学大数据建设与使用中存在的主要问题

1.1 盲目追求医学大数据

现实中可见,有人张口“医学大数据”、闭口“医学大数据”,一味强调“大”,仿佛“医学大数据”已经成了“可靠性”和“准确性”的代名词,成了“高大上”的时髦词,而其却忽视了大数据的可靠性和准确性。

1.2 忽视医学大数据建设

个别人重视医学大数据应用而轻视医学大数据建设,甚至搞所谓“跟风工程”“面子工程”和采取“平时不烧香、临时抱佛脚”的做法。同时,由于存在医院间、院内外间的信息孤岛,使95%医疗大数据被浪费,被放空的大数据带来更大诊疗成本[13]。

1.3 轻视医学抽样研究

实践中,存在“医学大数据一用就灵”的想法,甚至不屑于传统的抽样数据,一味追求医学大数据,轻视医学抽样研究。

1.4 忽视医学伦理审查

个别人忽视医学大数据研究的医学伦理审查,认为其仅是利用了现有医学大数据进行回顾性研究而已。

2 辨析与建议

2.1 重视医学大数据质量

随时间推移,医疗数据库及其数据的收集与存储的数量总是从少到多、从小到大,而所谓“海量数据”是大数据的核心特征之一。但是,到底是以TB计量的数据是医学大数据,或是以PB计量的数据是医学大数据?换言之,就是说当医学数据库的数据量累积到何种量级时,就将成为了医学大数据?实际上这是一个难以“一刀切”清晰回答的问题,也是一个没有必要去纠结的问题。

在不同的情况和条件下,医学数据“大”概念应有所不同,大致可分为以下几个层次:①物理存储量。不同性质医学数据的存储量差别很大。例如电子表格式数据、图片、音像等文件之间存贮量不具可比性,其中图片和音像文件的存贮累计量较易达到TB级或PB级。例如每幅MR图像存储量约为0.7MB左右。因此,若每位患者存一幅MR图像,则1000名患者MR图像数据量可以达700MB。然而,模拟患者某定量变量值,即使为10,000名患者单变量数据(数据格式:***.**;数据库格式:.dbf)其占用存储空间也仅为88KB(0.0859MB)。显然,前者(1000幅图像)较后者(10,000个数据)数据存储量至少大8148倍。因此,医学大数据不能单单以数据存贮量的大小来判定,这样可能过于狭隘,故应该考虑结合其他标准进行医学大数据的定义。②观测单位量。在医学数据中,往往以患者或健康者作为观测单位。因此,结合统计学大样本概念和流行病学调查实践,以充实医学大数据定义,具有一定的现实意义。可考虑采用独立观察单位数或数据个数来进行医学大数据(电子表格式数据)的划分。③时空数据量。可分为几个层次,即医院层面、县市层面、省级,乃至国家级和国际级。例如医院层面,HIS、PACS、LIS等系统以及电子处方、电子病历等均成为构成三甲医院的医学大数据的重要部分,其历年所有住院患者的完整、有效资料,且可供计算机捡取与分析的个例、部分或全部数据,可以称作医院住院患者医学大数据;县市层面:在县市内,所有医疗机构患者数据的完整存储、互联、互通和共享所形成的医学数据库,且可供计算机捡取与分析的个例、部分或全部数据,也可以称作该县市医学大数据;省(自辖市、自治区)整合全省,乃至全国的相关医学数据而形成超大型完整、有效医学数据库,甚至跨国建立相关医学数据库,均应该称作医学大数据。

可见,医学“大”数据的概念是相对的,单纯强调“大”远远是不够的。按照研究目的所收集、存储和分析的数据,若能直接、准确地反映该“区域”全貌或能准确地获得该“区域”统计总体参数,包括分布特征和规律,就可视为医学大数据。故我们不必拘泥于医学数据量非要达到某一个量级,方认为所收集、存储和分析的数据库是医学大数据。另外,若医学大数据存在杂乱无章和/或缺失不全,和/或错误频出之处,这样的医学大数据就是“量大质差”数据,不但无使用价值,反而会给研究/管理(评估与预测)带来不利的影响,误导相关决定或决策,甚至造成难以估量的损失。

因此,不能仅仅要强调医学数据的“量”,更应该重视医学大数据的“质”,包括医学大数据的完整性、有效性、准确性和可靠性。应该重视科学、专业的设计与良好质量的控制在医学大数据收集、存储和使用中的重要地位,建立具有良好品质的医学大数据,才能真正地发挥其应有的作用。

2.2 重视医学大数据建设与应用

医学大数据建设是一个长期、艰巨的过程,不能一蹴而就,而医学大数据建设的出发点与落脚点均是应用。我们既应重视大数据应用也应重视大数据平台建设,确保在真正可靠、准确的大数据的基础上的分析与应用。另外,那种各自关起门来建设满足自身需求的所谓医学大数据平台,既不能适应更大范围和更广深度的医学大数据整合与应用,也可能带来重复性、低水平医学大数据平台建设,造成资源和数据的浪费。

因此,必须遵循“有所为、有所不为”和“统一规划、总体设计、分步实施”的原则,切实做好行业或区域性需求调研,充分论证并制定行业或区域性医学大数据平台建设与应用的科学性、专业性和前瞻性规划及其可行性方案,建立和完善医学大数据平台建设、维护和使用的标准、规范和制度,并积极探索并建立长效机制,打造互联、互通、科学、安全、高效、规范、多层次的医学大数据综合平台,以获得事半功倍的效果;应加强教育与培训,建立一支精干、高效的专业化队伍,切实做好医学数据收集、整理、存储与维护及其应用管理,不断提升医学大数据平台开放水平与应用服务;制定有效措施,加强大数据平台的开放与信息共享,吸引更多的人充分地利用医学大数据平台进行研究与管理;应重视医学大数据平台建设与应用的成本-效益分析,以便更好地控制资源投入,包括人力、物力、财力等,充分挖掘和利用医学大数据信息,不断发现问题和解决问题,为医学大数据平台的建设与应用提供可靠、准确决策依据。例如在三甲医院,建议以“医学大数据中心”为龙头,以医院信息中心为支撑,充分发挥各部门和科室积极性;建立院部(科)两级专兼职数据分析与管理人员队伍;成立医院大数据分析应用专家库,包括管理学、临床医学、护理学、卫生统计学、临床流行病学、循证医学等方面的专家;大力普及数据分析基本知识与技巧,进一步提高相关人员熟练应用数理统计等适宜的分析方法的能力;实行有条件、有管理的、现有的数据的开放;强化现有数据的综合分析与应用,同时辅以必要、科学的调查,弥补现有数据的不足,进一步发挥好医学大数据对于医疗机构各方面工作改进的基础性作用,为各级各类决策提供坚实的依据,更好地满足全院医教研管等诸方面工作需求。同时,借由院内相关数据的收集、整理和分析等,大力培养在职人员,例如在职攻读研究生学位等,也可以有条件、有管理地接入其他数据库。

2.3 重视医学抽样研究

在实际研究工作中,人们按照研究目的,收集、整理和分析一定时空内经良好质量控制而获得的全部医学研究对象的相关数据,并可采取“针对性”的措施实施干预,例如对某疾病普查。“抽样”分析是“以小博大”,是以最小成本(即人力、物力和财力等)抽取足量的样本,在较短的时间内完成研究目的所确定的研究总体的统计学描述与推断等分析。医学研究多为样本性研究,包括新药临床试验与生物医学研究等,例如预防、治疗和康复方法的安全性与有效性的样本研究,可以是回顾性医学研究,也可以是前瞻性医学研究等类型。即使是全国性人口调查,除采用全国性人口普查方法外,也可在非普查年采用全国1%人口抽样调查方式进行总体相应指标(例如性别、年龄、婚姻、生育、死亡等)较准确的估计。

因此,在任何时候、任何情况下,并非均必须建立医学大数据库方能进行有效的分析与管理。在日常医学研究中,存在大量非医学大数据分析与管理的情况,应该予以足够重视。不同的目的、不同研究内容,要求不同的专业与统计学设计,那些能够完成研究内容,达到研究目标,包括足够的样本含量、高质量的医学数据及其适宜的分析方法等,就可以获得可靠与准确的分析结果。医学大数据与样本数据均是医学研究数据的重要组成部分,两者各有所长、相得益彰,共同为医学研究提供可靠和准确的分析信息。因此,在实际工作中,我们不应拘泥于医学大数据分析,或为大数据而大数据,或认为只有医学大数据分析结果才是科学的或专业的。应该明确,小而精、高质量的抽样医学数据也是我们研究及其决策的重要依据之一。

2.4 重视医学伦理审查

大数据实践在融合两种“伦理”方面(即融合“从个体出发的伦理”和“从集体出发的伦理”)展现了广阔的前景,而优先关注保障个人权利是“融合”的前提[14]。

我国《涉及人的生物医学研究伦理审查办法》(下称办法)[15]把涉及人的生物医学研究活动分为三大类,并明确将采用流行病学、社会学、心理学等方法收集、记录、使用、报告或者储存有关人的样本、医疗记录、行为等科学研究资料的活动纳入伦理评审及其管理之中。因此,凡是涉及人的医学大数据研究,即使是回顾性医学研究也应进行伦理审查,且待批准后方能实施。

医学大数据平台建设,例如生物标本库建设的伦理审查包括相关数据的收集、贮存、使用及其保密措施等,以避免医学大数据滥用、误用和泄密情况的发生,保证医学研究对象的权益以及个人信息和隐私得到应有的保护,严格防止研究对象及其医学数据受到任何损害。除“办法”规定的两种情形可免除知情同意书外,其余的均应履行知情同意原则,与研究对象签署知情同意书。必须指出,免除知情同意书不能等同于免伦理审查。

综上所述,医学大数据是一个相对的概念,医学大数据平台建设与应用是一个系统工程,应该摈弃不当的观念,采取正确的行动,让医学大数据平台真正发挥其应有的基础性作用,造福于医学事业。

猜你喜欢
伦理医学研究
《心之死》的趣味与伦理焦虑
FMS与YBT相关性的实证研究
辽代千人邑研究述论
医学的进步
预防新型冠状病毒, 你必须知道的事
视错觉在平面设计中的应用与研究
护生眼中的伦理修养
EMA伺服控制系统研究
医学
医学、生命科学类