杜君 刘尚梅
近年来,随着互联网信息技术的发展,源自于人们日常生活中的各种信息量呈爆炸式发展趋势,借助于互联网而产生的数据迅猛增加。据统计数据显示,2011年,全世界范围内电子数据的总量已经达到1.8 ZB(1 ZB=1 024 PB),预计到2020年将可达到35 ZB[1]。这已远超人类能想象的数据量,因此,将会对人们的生活产生怎样的影响就成为越来越多的人必须面对的问题。于是,“大数据”便从一个形象的名称开始,在很短的时间内迅速成为一个技术热词,甚至是学术热词,渗透到社会各个行业及各个领域,并受到广泛关注。
早期,大部分医疗相关数据包括处方、X光片及病历等是纸张化的形式存在,而非电子数据化存储,而随着信息化的发展和互联网的发展,来源于大规模人群队列、影像存档和传输系统基因测序结果、各种可穿戴设备的日常监测等途径的医疗数据呈爆发式增长。有报告显示,2011年,单单美国的医疗健康系统数据量就达到了150 EB。因此,医学研究领域中,大数据的运用范围日益广泛,甚至于有人提出“除了上帝,任何人都必须用数据说话”,Google利用搜索引擎的关键词成功预测流感,IBM Watson的临床决策系统为Metropolitan医院儿童重症病房削减了40%的药品不良反应事件以及腾讯公司AI医学影像产品腾讯觅影的临床应用都是大数据应用于医学研究领域的成功范例。然而,对大数据——这一崭新的研究范式过分迷恋和崇拜,其背后却蕴含着深刻的危机:对数据的过分关注胜于对数据背后真正主体“人”的关注,唯数据论的研究倾向将会直接导致作为主体的“人”的不断消解。对此,不得不引发人们更多现实的思考。
自2008年9月《Nature》杂志推出大数据封面专栏后,大数据成为一个网络热词。世界知名咨询公司麦肯锡公司推出大数据的应用,使得世界各国都开始将大数据纳入当前的施政规划之中,中国于2015年出台了《促进大数据发展行动纲要》。但是,人们对“大数据”的认知仍然存在差异。共识的地方是它是异于传统的海量数据。差异的地方则在于对“大数据”认知的深刻程度,在数据、技术这一共识的基础之上,还可以是能力,更可以是思维、价值或文化。不同的认知背后反映了这一新生事物对人们生活影响层面的不同。仅就大数据作为数据本身而言,通常具有四个特征,一是数据容量大,在当前社会一些重量级企业的数据量已经达到EB量级;二是数据的多样性,数据具有不同的来源,数据具有多种格式,数据分为结构型数据和非结构性数据;三是更新速度比较快,反映在数据的快速产生及数据变更的频率上;四是有用的数据占比低,由于大数据的数据价值密度低,使得从众多的数据中寻找有价值的数据比较困难。
虽然人们对大数据哲学内涵仍存在着一定的差异,但对这四个方面的特征却认识一致。由于大数据的特点,直接导致了人们在面对大数据的时候,思维方式也随之发生了相应的变革,形成了所谓的“大数据思维”。大数据思维通常分为三个方面。一是开放性思维,由于数据本身来源比较广,同时数据形式多样,对大数据进行分析时也需要开放性的思维进行分析问题。二是非线性思维,非线性思维是指在对数据分析时不能只注重数据之间的因果关系、直接关系,而应该注重数据之间的相关性关系、间接关系,要通过多种数据之间的相关性因素来进行考虑。三是价值思维,传统的数据分析是数据统计分析,从数据中寻找规律;而大数据思维则是价值思维,从众多的数据中寻找潜在的价值。大数据思维与传统的思维方式完全不同,从很大程度上,为创新性思维奠定了基础。
客观上而言,大数据作为一种新的研究工具和手段,它的存在是信息技术发展到一定阶段的必然产物,而且客观也确实起到了对科研工作特别是医学研究的引领作用,主要表现在以下几个方面:
一是大数据的应用,使得研究从抽样走向“全体”。在传统的医学研究中,受制于科研条件、工具的限制,对于研究的样本通常局限于抽样调查,由此造成分析过程、分析结论可能存在不够全面的情况。而采用大数据进行研究,研究分析的样本已不仅仅局限于抽样,而是全面的数据,有效地规避了抽样研究的局限性。
二是大数据应用使得医学研究从单、多因素研究走向全因素研究。传统的临床研究由于样本量和时间、经费等实际限制,对设定目标的潜在影响因素无法做到全面检测和分析,而基于大数据的临床研究可实现无干扰情况下收集受试者的所有相关因素,即全因素研究。由此所进行的分析挖掘得到的研究结论,比单纯设定数个指标分析得到的结果更加接近真实。
三是大数据应用使得医学研究更加注重相关性,传统的临床研究,强调现象之间的因果关系和数据之间的证据链,而实际临床研究中的影响因素方方面面、纷繁复杂,任何一种因素都可能会直接影响研究结果,而大数据的应用分析更加注重各方面影响因素之间的相关性,更加乐于接受数据关系的复杂性和数据结构的多样性,而不再过分追求数据的精确性,更加注重结果而不是成因,从而使得研究可以另辟蹊径。
四是大数据使得医学研究的方法更加丰富。传统的医学研究通常是从个别到普遍、从特殊到一般的演绎思路,通常通过假设一些条件不存在的理想状态,再通过逐渐添加影响条件进行推理,最后根据临床实验、推理进行结果的描述。而大数据研究的通常思路是在长期的积累、测量、收集、分类、存储相关数据的前提下,通过科学的计算来对所有数据进行统计、分析,得出初步结果后再在大数据库中进行检验,通过对所有的数据的较深层次的挖掘和数据分析,从而得出更加科学的研究结论。大数据使得传统的量化研究更加深入,更加全面,更加考虑相关性。使得传统的质性研究更加深化,通过实现大数据与传统的量化、质性研究进行充分的结合,可以使医学研究方法更加丰富。
五是大数据的应用极大地加速了人工智能等新技术在医学研究领域的应用,大数据可以提供训练学习算法所需的海量数据,从而助推了人工智能的蓬勃发展,人工智能在医学影像的应用包括图像识别和深度学习,这两个部分都是基于医学影像大数据所进行的数据上的挖掘和应用,人工智能应用的数据越多,其获得的结果就越准确。
大数据本质上只是数据呈海量发展状态之后的一种形态,进而衍生出针对大数据的统计和分析技术;对大数据的使用起初和一般数据并无原则性的不同。然而,列宁说过,真理向前一步,哪怕是一小步,便会变成谬误。对大数据的过度使用,以及由此而推崇的工具理性将会出现各种问题。
医学数据衍生知识的过程,首先是数据的采集和数据库的建立,将来自检验、影像和临床诊疗等不同来源的数据源进行汇总,通过合适的数据加工、提取等方法,对数据进行深度挖潜后,最终转化为知识。在整个过程中,所吸纳的“数据”都是“客观数据”的呈现,而完全没有涉及医学研究的主体——“人”作为主体存在的意愿显现,而由此导致的问题也十分明显。
首先,大数据技术的过度使用可能忽视了医学研究中人作为主体的存在。跟传统的研究数据统计算法不同,大数据技术以海量数据为基础,被誉为“最理性”的研究模式。但是一旦当所谓的理性的发展到无限大的空间时,唯理性至上,就会导致只关注客观数据的呈现,而忽视数据背后所涉及的人群和患者的需求和利益。其次,大数据技术的过度使用可能忽视掉个性数据。大数据的应用特征之一是有用的数据占比低,在众多的海量数据中“提纯”出有用的数据占的比例非常小。当我们从海量的医学数据中获取分析和结果的同时,就意味着,有更多量的“无用”的个性化的数据被放弃了。大数据的技术在数据挖掘的横向范围(广度)上更为优越,而于数据的纵向(深度)范围或者说对于治疗的个体化却并没有更多的优势。而从个体化精准治疗的维度进行判断,每一个样本或者数据其实都存在着自身的个性和需求。基于大数据所建立的最佳预测模型并非适用于所有的研究样本,客观上促使了一个悖论的产生:需要的研究越大,其证明的防治的平均作用就越小,就越不精准。
再次,是大数据及其支撑的人工智能在高度复杂的医学研究中的可靠性问题。大数据和人工智能的快速发展使得社会对人工智能产生一定程度的盲目乐观,而忽视了大数据和人工智能出现错误结果对于临床研究和患者的严重性。
最后,大数据特别是医学研究大数据的应用过程中不可避免地会包含大量涉及个人隐私和敏感信息的数据。无论是各种生命组学数据,还是影像、检验、用药等数据,亦或是可穿戴设备实时记录的数据,无不使人们的行为及特征被数字化和精细化的捕捉。尽管这些数据虽然是剥离情景的碎片化信息,在利用大数据的过程中,有效安全的数据共享和隐私保护机制与规范、避免个人隐私和敏感信息泄露的技术和操作准则也在不断发展。但是大数据技术依然可以依靠算法串联碎片信息,重组和推测,从而呈现相对完整的信息,进而识别出具体的个人。
综上所述,在医学研究中,大数据是一把双刃剑。由于它处理的是海量数据,往往更容易做出趋势型的判断,这对医学研究本身而言,确实有如上的诸多益处。然而,也是由于它的这一特征,很容易让人对“大数据”本身产生依赖甚至于膜拜的心态,一旦这种心态形成,将有可能促使这一技术发生异化,而忽视数据背后的主体,“只见数据不见人”的情形一旦出现在医学研究中,其后果将是十分严重的。为此,有必要将大数据这一研究方法领域的“新贵”与传统研究方法进行有效的、有计划的整合,跳出唯数据论的禁锢。让研究方法为研究本身服务,回归“人”本身。