袁斯来
1775年,英国外科医师Percivall Pott发现,长期暴露于烟囱煤烟中,会引发烟囱清洁工阴囊上的鳞状细胞癌。他的报告第一次把肿瘤的发展与环境的作用联系起来,这也是人类抗击肿瘤历史的开始。而在2014年创立的肿瘤大数据公司零氪科技要做的是另一件事:收集分析肿瘤临床数据,为这个充满未知的疾病提供治疗和研究的帮助。
零氪科技的创始人张天泽是医生世家出身,多年的耳濡目染让他很早就知道临床数据的价值。无论临床科研、疾病治疗,还是药企开发新药,这些数据都至关重要。然而,不管国内还是国外,高质量医疗临床数据的采集和分析都停留在很低效的阶段。即使在医疗信息化已经较为完善的美国,据美国临床肿瘤学会统计,也只有不到3%的肿瘤患者的数据被结构化可以用于研究,剩下的数据都闲置在医院信息系统(HIS)或者病历病案室中。
事实上目前在中国三甲医院,HIS系统已经普及,医疗行业的“无纸化”程度已经很高,一个重症病人从入院起,病历、拍片、处方、手术都有电子记录。但关键的是,“无纸化”的信息机器无法识别和理解,即没有结构化处理,与真正有价值的“数字化”并不是一回事。“现在只是做到无纸化,而不是数字化。数字化需要结构化和标准。最终数据辅助治病,让临床决策更加智能高效,才是数据结构化的最终目的。”河南肿瘤医院的副院长李印告诉《第一财经周刊》。
但要把病历加工成临床可用的结构化数据远非简单的“录入”过程。一本100多页的完整病历中,会涵盖患者的检查报告、医疗影像图、处方、诊断书和出院报告等。医生需要把这些内容分解成单个的标准化“信息点”,比如一个肺癌患者的出院报告,医生“阅读理解”后,把描述性的语句标准化拆解,包括既往病史、暴露史、肿瘤的分期等。
这样的工作繁琐耗神,临床医生很难保证时间做这样的事。“有些医院会使用Excel表格,让医生或者实习生往里填数据。你会看到前面几百行还填得很满,到后面慢慢稀疏,最后就没了。”零氪科技创始人之一、CTO罗立刚告诉《第一财经周刊》。
当然,科室也可以雇佣专业的外包合同研究组织(CRO)团队。他们会派工作人员到现场采集数据。不过这样就得做好下血本的准备,通常在这样的项目中,一个肿瘤患者的病历结构化费用高达5000元。一般来说,只有医生拿到大型研究项目,才会有预算支付这笔费用。
而评价治疗效果的随访数据,对重大疾病的治疗意义同样巨大,却一直处于缺失状态。对于肿瘤这样治疗周期长、过程复杂的疾病,必须在患者出院后持续跟踪,才能真正了解到临床治疗效果。但医院根本调拨不出多余的人手,也沒有专门的科室负责。即使申请到科研课题,有了人力和物力,再想重新回溯,很多患者可能早已去世。
无论是HIS系统的既有数据还是没能录入的随访数据,可以说都是沉默的金矿,让有大数据背景的第三方团队来完成数据结构化处理和分析,对医院来说是更明智的选择。“有数据才能发高质量的论文,中国医生不缺病人和病例,缺少数据。这就是肿瘤临床专家们的刚需。”零氪科技CEO张天泽告诉《第一财经周刊》。
2014年年底,一直在医疗领域打磨的张天泽创立了零氪科技,那会儿,他还“有些懵懵懂懂,有些赌性”。零氪科技把方向确定在主攻肿瘤大数据的结构化和离院随访。“我们提供的就是一个完整的解决方案。医生要做的是把病历规整好,让它们尽可能规范,剩下的活儿我们就帮着干了。”罗立刚说。
作为胸部肿瘤专家的儿子,他观察到肿瘤患者的样本量少,数据密集,但市场容量巨大,对于初创公司来说,是个起步的好选择。相比于几亿的心血管病患者,中国的肿瘤患者只有500万左右,然而根据国家药监总局南方医药经济研究所发布的《抗肿瘤药物市场研究分析报告》,中国在2015年消耗了1000亿元的抗肿瘤药物。这无疑是个巨大的市场。
张天泽曾经有过医疗行业创业经历,合伙人李丽平也是知名科研机构的高管。现在看来,他们的人脉在零氪科技初创阶段起到了很重要的助推作用,因为医疗行业门槛高,非常需要天使用户,如果没有案例,“连说话的机会都没有”。
零氪科技幸运地积累了第一批“天使用户”和案例。但在操作中,张天泽发现自己还是轻视了数据处理的难度。“没想到坑这么深,当时的确低估了医疗大数据处理的复杂性。”他说。
从专业的角度看,做结构化的前提是,首先需要对疾病有很深的了解,形成一个合适的“骨架”,才谈得上填充“血肉”。“肺癌就有各种不同类型,所以结构化之前,必须清楚地知道各类疾病模型应该采集哪些数据,不同医院标准术语是什么样的。”宽带资本合伙人、晨山资本创始合伙人蒋健告诉《第一财经周刊》。
张天泽要收录的病例遍布全国,经常会出现非标的描述。两家医院面对患者的同一个病情时,会使用完全不同的话语体系记录,仅仅是肺癌中对于吸烟的表述,就有200多种方式。甚至有时同一个化验,两家医院都会用不同的单位衡量。“湘雅医院和协和医院可能用的是不一样的仪器检验,它们的结果都是正确的,但在做结构化时,你应该怎么填写?”蒋健说。
这些“拆解”动作对一个训练有素的医生来说自然不是难事,但对于零氪科技这样的创业公司,却是一道难以逾越的门槛。他们唯一的办法是向医生取经,跟着医院的要求走。包括数据归一和疾病模型如何建立,他们都从头学起。实际上,零氪科技的数据库可以说是和医生合作建立的,比如李印所在的河南省肿瘤医院,会定期和零氪科技碰头,更新学界研究动态。
医院提出自己的需求和考虑,实际上倒逼零氪科技更快地完善自己的系统。比如为了检索和管理方便,他们会让零氪科技单独添加一个主刀医生和第一助手的信息点,作为检索手术的关键词。“不是他们定好标准,是我们定标准。他们要和临床一线医生的需求交流,调整数据模型。完善并优化数据模型。这些模型是永久的,可以复用。”李印说。在医生的指导下搭建框架是最关键的一步,剩下的就是清洗和录入数据。
和CRO机构类似,零氪科技团队招聘了一些有医学背景的专科或本科生,到医院一本本拍摄纸本病历,再填入到结构化数据库中。如果涉及到病人的隐私,它们会蒙上纸条做脱敏处理。谨慎地考察了一段时间后,院方终于松口,开放了自己的HIS系统,让零氪科技可以直接接入读取。
但这没有解决效率低下的问题,零氪科技的医学标注员拿着专业性极强的肿瘤病例还是会头疼,只能结合临床专家的意见阅读和标记。一本60多页的病历包含上千个信息点,传统方案下一个人要标注5个多小时才能完成。“标注是一件强业务导向的工作,病历书写太不规范,不能遍历所有医生的表达方式和习惯。只有把这件事做扎实,才有人工智能所需的数据基础。”张天泽说。
为了保证数据的准确性,零氪科技使用双人录入的方式,两个人同时处理一本电子病历,如果双方处理的结果一致,再经过层层筛选比对,数据才能够入库。这让录入的耗时更长。
一天个位数的处理速度,显然没法满足医院的需求。病历堆积如山,标注的工作人员每天早上6点就到医院,工作十几个小时仍然没能解决问题。临床医生也开始质疑起他们的处理能力。既然这是一个劳动密集型的工作,应急的办法是规模化生产:招聘更多的人,建立起一套标准作业程序(SOP)。这一做法类似于当年福特引入流水线—将生产拆分后,福特T型车的组装生产时间从原来的12小时缩短为90分钟。
2015年年初,零氪科技完成NEA恩颐投资的数千万美元A轮融资,当年就招聘了100多个标记员。零氪科技将病历拆分成了十几个部分,每个人负责大约50个信息点的处理,分工合作。这样一来,人均每天能够处理差不多30本病历,熟手有时能处理100多本,效率差不多提升了10倍。
纯粹依靠人力的工作方式很快达到了极限。到了2015年年初,罗立刚带着团队开始开发结构化智能引擎Dress,年中Dress的1.0版本上线。它把整个人工流水线融合到计算机系统集中管理,并设计了一套能提高效率的辅助工具。包括录入规范智能提示,让计算机自动提示每一部分应该有哪些规范,标注员遵循指南,很快就能找到对应的内容。
但即使这样,录入的效率仍然跟不上医院送病历来的速度。罗立刚又带着团队开发了人工智能系统Fellow-X,让计算机自己把其中的关键词提取出来。这其实是一个教机器学习的过程。在早期的人力录入中,他们已经很清楚医生的表达方式,形成了一套标准化的术语集。加上此前人工作业的经验和医学材料,机器跟着这些“教材”自己做结构化处理。如果计算机没法识别,再转交人工处理。
为了提高准确性,罗立刚团队给计算机植入了药物词典做检查。如果文字有错误,系统能比照着词典纠正。“比如青霉素的霉字,下面的偏旁可能识别错了,这个时候就靠计算机改正。”罗立刚介绍。
靠着Dress辅助下的人工识别和Fellow-X智能识别,零氪科技能够用5分钟完成一本病历的录入。这也成为了零氪科技目前最核心的竞争力之一。
作为第三方服务商,补齐病员随访数据采集这块短板大有可为,张天泽在随访团队上也花了大力气,在他看来,随访数据和临床数据本就是“自洽”的,如果结合,能打通整个治疗的链条,让医生更准确地了解到治疗的后续发展。
但这一块张天泽没有任何经验可以复制。即使是肿瘤及癌症治療大数据公司Flatiron,也没办法从医疗机构拿到随访数据。刚开始建立这个数据库时,他们完全不知道如何以专业的方式和病人打交道,甚至不知道应该询问哪些问题,以什么样的口气和病人交谈。也是靠着医院的指导,他们最终才建立起了一套相对成熟的随访制度。目前,零氪科技的随访团队占到了整体员工的1/3。
这正好填补了医院数据的空白,越来越多的医院愿意向零氪科技打开大门。靠着专家和医院之间的口碑积累和在学术交流会议上的展示,零氪科技已经与包括北京协和医院、四川大学华西医院、中南大学湘雅医院等400家医院展开合作。目前,零氪科技日处理病案数据45万页,其肿瘤数据库涵盖50余种肿瘤病种。2015年年底获得了宽带资本领投的数亿元B轮投资,2016年年底完成C轮融资,不过未透露金额和投资方。
结构化数据库的建立只是零氪科技介入医疗行业的第一步,为了真正盘活数据库里的数据,零氪科技推出Hubble系统。医生在做某项研究时,能够在数据库中点选变量,Hubble能找出它们之间的关联。例如医生想要比较腔镜和开放术式究竟哪种方式让病人的生存时间更长,Hubble能提供直观的生存曲线图。“同样都是早期病人,可是生存的时间长度却完全不同,这其中原因很难说清。但如果有了数据,可以提供一些参考,医生可能会尝试使用新的治疗方法。”罗立刚介绍。
目前,零氪科技开始尝试使用人工智能辅助医生做临床诊断。他们最新发布的“AI-肺结节智能诊断系统”使用了影像科医生标注的胸部CT数据,加上深度学习和强化学习,能自动识别出CT影像中的结节,据称识别率超过了90%。而且,这个系统还能计算出结节的特征,帮助医生撰写诊疗报告和诊断。
零氪科技主要依靠与医院科研项目合作收费,今年的收入可能达到千万元量级,目前还未盈利。不过,“对于专业性极强的医疗行业来说,做一天就是积累了一天的门槛。”
而投资人似乎更为理性一些,“要看他们是不是有能力处理好现在遇到的问题、他们的技术能解决多大的事情、未来的想象空间如何。指望在这个行业像滴滴一样增长上百倍不太现实。”蒋健说。