胡 文,侯政昆,刘凤斌,陈新林
(1. 广州中医药大学第一临床医学院 广州 510006 ;2. 广州中医药大学第一附属医院 广州 510405;3. 广州中医药大学基础医学院卫生统计教研室 广州 510006)
在现今时代,数据是材料,分析计算是生产。信息时代促使医疗行业的诸多业务开始走向信息化、数字化和智能化。现阶段医疗活动也开始以信息技术、网络技术等多种形式展开,整个医疗行业朝着智能化方向推进。大数据其名是JohnR.Masey 于1998 年在USENIX 赞助的计算机系统实验座谈会上首次提出,在《Big Data and the Next Wave of Infrastress》提出这一概念[1]。大数据只是一门市场语言,代表的是一种理念、一种问题解决赛思路、一系列技术的集合。“大数据”泛指巨量的数据集,互联网行业指的是互联网公司在日常用运营中生成、积累的行为数据,大数据的价值是运用方法和工具之后,将存放在服务器中平淡无奇的数据变成具有超高价值的产品。
数据是平台运行后最基本的产物,亦是最基本的再生资料。大数据具有体量大、数据类型多样、数据处理速度快和数据价值密度低等特点。数据把握事实的真相,中医临床诊断治疗疾病主要靠临床医师个人对疾病的经验性抽象认识,缺少临床诊疗过程直观证据。中医理论及在治疗疾病时对信息的处理方法和“大数据”处理方式很相似,即是对整体的把握、模糊信息的提取和对相关性信息的探讨[2]。临床医师经验积累的过程是人脑对数据样本不断提取、推断和总结的过程,样本量的积累和对疾病的认识、中医理论的理解和及中医药方面的创新呈正相关。大数据能尽可能多的收集具有多样性、多范围、多空间等特性的样本,并快速对信息进行提取、推断和总结,其高效性、正确率远远超过传统的临床经验积累。
互联网大数据主要分为设备数据和用户数据两类,具体为位置数据、上网数据、用户兴趣数据、通信数据和社交数据、身份证信息数据、用户金融数据等[3]。互联网数据采集是在互联网系统平台对数据进行采集,其中包括Web 端和APP 手机客户端两大系统,分别在各个系统中埋点规范或标准化来满足通用浏览、点击、特殊交互等多种业务场景,建立一套高性能、高可靠性的数据传输体系,完成数据从生产业务端到大数据系统的传输。大数据的大、快、多样性只是它的表象,大数据真正的价值在于生命性和生态性。不断产生的数据是活数据,活数据是全本记录、实时驱动决策和迭代,其价值是使用场景和方式呈动态变化。在中医药临床研究中大量的活数据可进行量化、衡量、对比和评估,其对于中医药临床的研究价值不可估量。
对数据进行分析计算是产出过程,数据挖掘是从海量数据中获取有效的、新颖的、潜在有用的、最终可理解的非平凡过程。机器学习是数据挖掘的重要工具,其专门研究计算机是怎么模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,使之不断的改善自身性能,主要流程是对数据进行特征提取、特征选择、推理、预测或者识别。在机器学习中深度学习(Deep Learning)算法是人工智能最热门的算法,其目的在于建立、模拟人脑进行分析和学习的神经网络,模仿人脑的机制来解释数据,由于模型的层次多、参数多、容量大,因此有能力处理庞大、复杂和多维的数据。中医诊断治疗疾病的过程在基于客观事实的基础上偏向主观经验,大数据善于挖掘较微小数据、容易被忽视的数据,发现和挖掘这些细小数据的价值,中医经验性的抽象操作很大可能与这些微小的信息数据有关,大数据的应用为中医药的发展提供了更多的可能[4]。
中医药临床大数据技术的处理和运用主要操作步骤分别为“数据储存和预处理”、“从非结构数据中提取结构数据”、“电脑录入信息”、“数据分析”、“数据可视化、预测和决策”五个部分。中医药临床数据的采集主要为住院病历系统和门诊病历系统,规范化、结构化和统一的病例标准减轻了数据采集的难度,然而临床单位病例数据库为局域网受保护数据,单个医院病源数量有限,患者流动情况、复诊情况及其它因素造成数据采集不全面,导致患者资料库进展缓慢和数据不全。临床医疗数据不能共享造成巨大的医疗资源浪费,同时阻挠了对患者信息资料全面采集、观察和数据提取。现阶段已经出现了区域性和全国性病历资料统一管理平台,具体有医院联合创建的区域性的病历库、单病种互联网病历库等多种形式的数据资料整合,像中国中医科学院的联合病例系统、不良反应哨点计划和国家局首页监测等,作为平台对中医药临床进行数据采集、管理和临床治疗质量进行监控。
大样本量的大数据平台下,抽样的传统临床评估方法可以克服样本量小的缺陷和不足,同时临床科研变得更加的方便、容易和多样化。Zhang Junhua[5]认为在大数据时代下医学研究目标从“因果关系推断”转向“相关性分析”,有助于评估个体疾病走向,然中医药临床数据复杂、种类繁多、区域差异等特点,需求具有中医药特色的数据录入存储方式、数据标准化方法和数据分析方法。大数据的价值越来越被认可,大量的适用于中医药特色的数据录入、挖掘、分析系统开始投入研发和使用[6-8],使其更好的服务于临床研究。同时大数据在中医药临床研究中的应用发展呈现多样性,适用于中医理论、诊断方法学、组方规律等多个方面的研究。Li juan C[9]通过对收集慢性乙型肝炎患者的中医辨证诊断信息,通过数据分析研制出慢性乙肝的中医诊断量表。Zhang XP[10]采用收集和分析艾滋病患者中医症候和处方数据,确认艾滋病的中医诊断、辨证和治疗方法。You Xin[11]对多个数据库进行中药补肾药方进行数据挖掘和分析,认为中药补肾法治疗骨髓抑制的规律是健脾补肾。
采用精确检索的方法对中国知网数据库进行检索,检索式为(TI = 数据OR TI = 信息OR TI = 智能化)AND(TI = 挖掘OR TI = 分析OR TI = 统计)AND(AB = 经验OR AB = 治疗OR AB = 临床),学科领域为中医学、中药学、中西医结合,末次检索时间为2018年12月3日。
文献纳入标准,需同时满足:①中医药领域的数据研究;②对数据库进行挖掘;③采用计算等方法对获得的数据进行分析;④有明确的研究结果
文献排除标准,满足以下任一标准即被排除:①挖掘对象为古代经典著作;②临床实验对照性研究;③数据来源不明;④单一中药化学成分的研究;⑤理论探讨研究;⑥涉及西医细胞、分子等机理研究。⑦重复发表或数据库间重复的文献;⑧无法获得全文者。
数据管理措施:①由2 名研究者独立搜索并追溯相关参考文献,获取信息后依据统一的纳入和排除标准进行筛选,选出相关文献;若2名研究者的结果不一致,交由第三方(侯政昆)评价,取得一致意见后交由下一步研究;②在获取纳入文献后,由2名研究者独立提取文献资料,制作表格,交由第三方评价,对表格不同的地方进行重新追踪文献,避免及减少偏倚。
(1)一般结果依据预制检索式,共获得2,086 条记录,其中受国家自然科学基金支持的文献有285 篇。依据统一的纳入和排除标准,最终确定135 篇文献纳入分析。2014 年以前仅有文献10 篇,2015 年至2016年有文献37 篇。2017 年至2018 年12 月3 日有文献88篇。
(2)西医病种类研究77 种,具体设计病种情况见图1。中医病种及证型研究14 种,中药类研究14 种,经络穴位针刺类研究8 种,分别为针刺、埋线、穴位注射、推拿、头皮针、耳穴、灸法、敷贴。
图1 77种西医病种具体情况雷达图
(3)疾病方药的数据研究有文献64 篇,对疾病病理、机制、辩证及临床应用特点等理论研究有文献12篇,对中药在方剂中的应用和配伍特点的数据研有15篇文献,中药药物不良反应的数据研究有2 篇,针刺、推拿、敷贴等选穴数据研究有38 篇文献,针刺手法数据研究有4篇文献。
(4)以文献检索的形式进行数据据挖掘的文献有84 篇,对图书资源进行数据挖掘的文献有12 篇,通过上海“大肠癌临床多中心大样本病历数据库”进行数据挖掘的文献有1 篇,通过临床病例收集进行数据挖掘的文献有42 篇。其中对名中医的用药经验研究的文献有41 篇,其中39 篇选择临床病例收集进行数据挖掘,2篇选用名老中医书籍进行数据挖掘。3篇文献对地方药物及用药经验进行挖掘分析。
(5)纳入的文献总共采用了10 种分析方法,分别是网状Meta、频次、描叙性分析、关联法则、聚类分析、因子分析及主成分分析、互信息法、贝叶斯网络、神经网络、决策树。应用SPSS 20.0 统计软件进行频数统计(表1)。
表1 分析方法频数统计
本文数据只基于中国知网数据库的精确检索,文献选取有国家自然基金支持的研究,不能够概括所有整体情况,但仍能反应数据分析技术在中医药研究中的应用现状;①在文献数量上,2017 年至2018 年关于数据挖掘发表的文献比之前数年发表文献的总和多了近两倍,研究数据呈增长趋势,说明数据的价值被认可,数据挖掘和计算分析作为新的技术,正在中医药学科迅猛的发展和推广应用;②研究范围广泛,从“西医-方药”“中医-方药”“中药-中药”“疾病-选穴”,“疾病-病机”等多纬度、多空间、多方面对中医药进行研究,并均有一定的研究发现;③研究选用的资料来源呈现多样性,包括临床病例收集、文献检索、出版书籍等;④对地方性的传统中医药进行了数据挖掘,促进了对名医经验方的研究,及流派、地方性中药研究的发展,促进了地域性中医药资源的保护和发掘;⑤分析技术和方法呈多样性。
通过文献检索结果可知数据分析在中医药中的应用具有多样性、广泛性和有效性等特点,对中医药的研究有明显的推动作用,但在存在诸多不足:①中药质量受产地、纬度、气候和收割季节等多种因素影响,临床研究中药质量难以监控,对临床试验结果和可重复性研究造成影响;②进行计算和数据分析时多只集中在分类、聚类算法、关联规则等传统方法,并未涉及到现今比流行的推荐算法,以及热门的深度分析,存在技术的延后问题;③病例收集的数据挖掘仅对用药进行分析,未进行患者用药后疗效结果反馈,其研究结果存在偏倚。
新技术的发展弥补在中医药临床数据研究中的不足,促使中医药大数据的应用和发展。理论知识、分析技术、应用技术的发展为中医药的研究创新和发展提供了更多机遇,中药上市让中医临床研究中的用药变得标准化、量化、可监测等保障,中医量表的临床应该让临床诊断、疗效、预测更为直观和科学,真实世界理论依据为中医药大数据应用和数据信息处理提供了理论支持。
随着我国制药技术的规范化、标准化、可监测等多种技术的发展,使中药便捷性、安全性及疗效得到保障,促进了中医药的推广和普及。中药上市使得中药生产进行了更多的严格把控和规范化管理,让中药变得安全、有效、高质量的同时,更为中医药临床研究提供了更多的便捷和支持。目前中药上市对中药的监控、疗效、结果反馈都在实验阶段,但随着信息化、标准化的发展,中药的数据监控及临床治疗信息将是客观的数据资料。这不仅保证了中药的品质,更方便了学者对中药的研究,何伟[12]对药品上市后的临床试验设计流程进行要点阐述,从设计方法,疗效评价方法(如使用中医证候量表的设计)等多个方面进行探讨。赵颖[13]等对中药上市后临床有效性再评价技术进行规范化、标准化操作解析。王永炎[14]等基于中药上市后规范化操作及临床评价反馈后的信息整合及大数据统计进行了探索。
量表是指“一种收集数据的途径并加上所有支持说明其如何使用的信息和资料,它预先清晰描述管理或回答的方法及相关说明,并包含数据收集的标准格式,良好的计分和分析方法,并说明在目标人群中结果如何解释”[15]。临床疗效是中医药生存发展数千年的基石和保障,中医临床结局评价将中医药临床疗效由模糊不清的抽象认知进行量化、具体化、客观化,实现中医药的治疗疗效证据更加具体。中医在临床诊断时有独特的证候,临床治疗以缓解患者症状为治疗目的,单纯的以西医的微观指标、实验室检查去评价中医疗效,忽视中医辨证施治的特点证候的疗效评价是不合理的。结合中医特点,应用量表测评工具对中医药人群特征、疾病诊断及疗效进行测量,可直观的、标准化的发现中医临床证候、诊断、质量、疗效评价特点[16]。开发适用于中医证候的中医临床诊断量表、疗效测评量表、患者结局报告量表等,并试图对中医、中药等中医治疗手段进行量化、数字化处理,使中医临床诊断、疗效结果趋向于标准化、可测化和客观化[17]。现阶段中医药临床测评表发展迅速,仅脾胃病就有刘凤斌教授团队制作的《胃痞报告结局量表》、《脾胃病症状量化标准》、《中华健康状况量表》等多种测评量表,并投入临床使用和继续研究优化。
真实世界证据起源于实用性随机对照试验,于1966年被提出,1993年由Kaplan教授在其论文雷米普利治疗高血压病的前瞻性研究中正式提出后逐渐受到重视[18],是指在常规条件下,不需要采取限定理想环境,不抹杀个体差异,不排除特殊人群,由日常临床诊断实践所产生的信息数据,运用流行病学的研究方法,在真实无偏倚或偏倚较少的人群中,对某种或某些干预措施的实际应用情况进行研究。Sherman 博士[19]认为,真正世界数据是指医疗卫生系统数据中,除了传统的临床研究数据以外的所有数据,包括来自医院电子病历系统的数据、医疗费用报销数据,药品或疾病的登记研究数据,或者个体医疗设备数据以及健康管理软件数据等。相对于随机对照试验多种局限性,真实世界研究不仅反映真实诊断环境和实际诊疗过程的研究设计,还可在不影响患者治疗的情况下进行研究[20],其数据包括以特定目的开展的观察性研究数据、基于真实医疗条件开展的干预性研究数据、非研究性数据(医疗领域的数据、医保数据、公共卫生调查数据等),囊括了患者社会生活条件、患者身体健康情况及心理情况,可全方位掌握病人信息,减少微小因素对试验造成偏差的影响。真实世界研究是包含了医院内关于所有患者信息的数据研究,和大数据的基本思想相同,它注重微小数据对主体的影响,为大数据在中医药临床的使用提供了重要理论和方法的支持。
大数据给中医药临床研究带了研究思维的转变,其数据全面庞大、多维复杂,可进行相关关系与因果关系的多种方式的研究,给中医药的研究带来了创新和挑战。在大数据时代,医疗数据是不枯竭的宝库,像互联网数据一样可大量涌现数据,可对患者的健康进行监控,疾病的信号早发现,对疾病进行走向进行预测。
大数据应用于中医药临床是科技发展的必然结果,但推动大数据进入中医药临床依然面临较多的问题:①最真实的数据产生最准确的结果,大数据强调数据的质量,保证数据的真实性,确保数据有可靠的科学证据、同临床相关、产生过程可靠,然临床上难以完全确保数据真实;②标准化的操作确保数据真实、完整和易于分析,数据标准化需要在数据录入时有具体的数据元定义,其中数据结构和数据格式清晰,数据元的收集记录过程完整和收集时效明确,然中医药临床数据复杂,对疾病的症状、程度、诊断依据具有抽象判断性质,且用词复杂多样,增加了标准化难度;③患者纳入标准和排除标准需严格和完整,最大程度接近真实世界和减小偏倚,然中医诊断量表推出但未大面积使用,仍难以控制偏倚;④在临床药物试验中需要对试验的数据严格监控,大数据大样本量下的中药的质量、药效难以把控,中药上市后标准化、可追溯的中药将会改善这一状况。
数据已经成为了资源资产,数据的处理、加工、管理、分析和产出有着巨大的潜力和机遇。中药上市保证了药品的安全性和有效性,中医药临床量表让中医实现循证临床评价,RWE理论为大数据在中医药临床应用提供了理论依据,保证了大数据在中医药临床应用的科学性和可靠性。而大量数据的生成、分析和研究促进了中药上市后药效监测和评价,促进中医诊断、治疗、疗效评价等中医量表的研制和应用,同时也可促进真实世界理论知识和医疗器械的研发,形成良好的临床研究反馈和循环。中医药自古以来都有赖于经验总结,大数据对微小数据的处理能力、高速计算能力、特殊的信息处理方式切合了中医药临床对数据处理的要求,具有中医药特色中医药临床大数据应用、分析计算和解析,是中医药人工智能化和现代化的必经之路,它可推动中医药经验的传承、助力中药新药研发、规范中医药临床诊断治疗,为中医药临床诊疗技术发展、中医理论的创新提供了更多的机遇。