以因果智慧洞穿数据迷雾
——记浙江大学数据科学研究中心研究员崔逸凡

2023-11-15 08:34谢更好
科学中国人 2023年10期
关键词:精准模型统计学

郑 心 谢更好

美国哥伦比亚大学弗朗兹·梅瑟利博士曾提出:“一个国家人均巧克力消费量和这个国家获得诺贝尔奖的人数有着密切关系,人均巧克力消耗越多,获得诺贝尔奖的概率也越高。”然而,事实真是如此吗?这一研究结果在当时引起了极大争议。例如,2001年诺贝尔物理学奖得主埃里克·科内尔认为这项研究可能并无太大意义。

在用数据来研究事物的关系时,分不清函数关系、相关关系和因果关系,甚至把相关关系和因果关系混为一谈,就会导致最终研究结果存在偏差。浙江大学数据科学研究中心研究员崔逸凡介绍,统计是一门需要对重重迷雾般的数据进行收集、整理、分析并做出推论的学问,而因果推断则是通过数据建立因果关系的统计方法,涉及数理统计学、计量经济学、管理科学、心理学、生物统计与流行病学等诸多领域。但在漫长的时间里,关于因果推断的研究始终在数据迷雾中进展缓慢,“相关性不等于因果性”的古老告诫更是让科学家们在理解事物因果关系的道路上举步维艰。

进入人工智能时代后,科学家们认识到因果推断能克服现有人工智能技术在抽象、推理和可解释性等方面的不足。“数据的真相有时并非来自相关性,而是来自因果性。因果学习,能为科学发现和精准决策提供有力支撑。”作为因果推断和机器学习领域的优秀学者,崔逸凡积极推动国际前沿统计研究,在探索复杂数据和精准医疗等方面取得诸多成果。在他看来,拨开迷雾的过程是一种满足、是一种收获,更能激发自己对科研的热情与灵感。

探寻更准确的因果与统计测量标尺

早在16世纪,培根就提出“知识就是力量”,而“真正的知识是根据因果关系得到的知识”。时至今日,从观察获得的数据中发现不同变量之间的因果关系,依然是统计学和人工智能领域关注的科学难题。

“对于一组给定的数据,如果我们更感兴趣的是变量之间的因果关系而不仅仅是相关关系,如何设计更加精准且有效的机器学习算法?”“我们知道,无论在随机化实验还是观察性研究中,‘不存在未观测的混杂因素’这一关键假设都有可能不成立。那么,当我们面临潜在的未观测混杂因素时,怎样去运用观测到的数据回答因果问题,从而去支撑决策,或者学习个性化治疗方案?”带着这些疑问,在博士的第五年,崔逸凡开始进入因果推断领域并针对因果学习展开探索和研究。

可靠的决策依赖于对因果关系的准确把握。崔逸凡致力于用机器学习方法更好地估计处理效应,他提出了一个通用的机器学习模型选择框架,用于推断定义在半参数模型上的有限维函数。这一方法不仅巧妙地运用了双重稳健性,还刻画了选择标准的平滑近似值,从而可以对估计量进行不确定性量化。相关文章在修改期间就已经被多次引用,并得到美国哈佛大学、卡内基梅隆大学等高校多位专家学者的高度评价。崔逸凡还与合作者在近期的工作中将此方法推广并应用于多重稳健的因果模型,相关工作发表于《机器学习研究》(Journal of Machine Learning Research)。

针对观察性研究中存在可能的未观测混杂因素,崔逸凡参与合作的proximal因果模型提供了一个分析复杂因果关系的范式。“在现实数据中,混杂机制很少能从观测到的协变量中被准确地学习”,这一因果框架有着广阔的研究和应用前景,探索其中的因果关系将会对未知自然科学规律的揭示起到指导意义。相关成果文章在修改期间已经被引用过百次。此外,崔逸凡还深入研究了半参数proximal因果推断,从而大幅度地提高了proximal因果模型的适用性,成果文章最近被《美国统计学会杂志》(Journal of the American Statistical Association)接收。基于半参数proximal因果推断这一框架,崔逸凡还和合作者提出了一种P-学习器来学习异质处理效应,成果发表在机器学习领域学术会议——国际机器学习大会(International Conference on Machine Learning)上。

崔逸凡(右三)与学生合影

对于海量的离线数据,序贯随机化往往难以实现。针对这一情况,崔逸凡还与合作者借助随时间变化的工具变量,考虑了用于识别边际结构模型参数的充分条件,提出了新的半参数估计方法,并证明了这一估计量具有有效性和多重稳健性。这一系列工作显著提高了边际结构模型的普适性,相关成果发表在《生物计量学》(Biometrika)和《美国统计学会会刊》(Journal of the American Statistical Association)上。

实际上,除了在因果推断上取得的诸多成果之外,崔逸凡在精准医疗、生存分析、机器学习及统计学研究范式等领域同样建树颇多。

众所周知,估计个性化治疗方案是精准医疗的一项中心任务。崔逸凡借助工具变量,构造了新颖的逆概率分类估计量和基于多重稳健性的分类估计量,实现对个性化治疗方案的学习。此外,他还提出了满足单调性条件假设下针对服从者的最佳治疗方案,并得到一个有趣的结论:可以在不直接观测到患者是否接受治疗推荐的情况下一致地估计对于服从者的最佳治疗方案。结果显示,在有未知混杂因素的模拟实验中,这一方法表现出了更好的数值结果。这篇论文不仅受到统计学界的广泛关注,还得到计量经济学者的高度评价,并被《美国统计学会会刊》作为讨论文章刊出。不仅如此,崔逸凡还基于部分识别的因果模型,提出了一个基于协变量和参与者/病患的个人喜好共同搭建而成的精准医疗框架。这篇由崔逸凡独作的学术文章发表于《哈佛数据科学评论》(Harvard Data Science Review)。

“我们知道,临床试验数据中右删失数据非常常见,这也为估计个性化治疗方案带来了诸多新的挑战。”因此,崔逸凡将结果加权学习推广到右删失的生存数据。“为避免估计删失概率或者半参数建模生存和删失时间,我们利用树和森林方法的优势以两种不同的非参数方式估计期望生存时间,并利用非小细胞肺癌Ⅲ期临床试验数据进一步展示了所提出方法的优越性。”凭借这篇论文,崔逸凡在博士期间入选美国统计协会非参数统计领域学生论文奖入围名单。

机器学习是解决数据挖掘问题的主要方法之一,而作为最受欢迎的删失数据机器学习工具之一,生存树和森林模型在医疗领域得到了广泛应用。然而,崔逸凡却发现,尽管生存树和森林模型在精准医疗中表现出了很好的数值结果,但近年来,对于生存树和森林模型的理论性质的研究并没有太多进展。于是,他与合作者在综合分析了随机树和森林模型后,开发出一个针对生存数据的通用算法,并展示了这个模型的一致性理论框架。这是基于高维删失数据的树和森林回归估计已知的首个一致性结果,结果显著改善了目前业界对此类模型的理论理解。此外,他提出的生存因果森林,作为一种新颖的因果机器学习方法,它量化了治疗与生存结果之间的异质效应/因果关系。与传统的随机森林不同,生存因果森林模型直接针对异质效应进行二元分割,同步调整删失偏倚和选择偏倚,并根据内曼正交分数(Neyman orthogonality score)建立估计方程使得估计量具有有效性和稳健性。此成果于2023年在《英国皇家统计学会期刊:B辑》(Journal of the Royal Statistical Society: Series B)发表。

受到树模型的启发,崔逸凡还提出了一种基于基准推断的方法,为生存函数提供非参数点估计和置信区间。在理论上证明了一个全新的函数型伯恩斯坦-冯·米赛斯(Bernstein-von Mises)定理,作为统计方法的保证与支撑。更为重要的是,自从现代统计科学的奠基人费舍爵士在20世纪30年代引入基准推断以来,许多国内外学者对此方向开展了大量学术研究,但大多局限于对参数模型的讨论。而崔逸凡提出的非参数基准推断概念,为基准推断及统计理论基础注入了新鲜血液。他的相关文章受到国际同行的高度评价,并被《生物计量学》作为讨论文章刊出。同时凭借这一成果,崔逸凡获得了2018年美国统计协会贝叶斯统计领域的拉普拉斯奖(Laplace Award)。这项工作最开始是针对右删失数据的,崔逸凡最近也在设计针对区间删失数据的非参数基准推断算法。

“除了在临床医疗、公共卫生领域之外,生存分析模型还可以在经济、政策和金融等领域得到非常广泛的应用。”崔逸凡说,“前段时间硅谷银行倒闭、瑞信被瑞银收购、第一共和银行被接管……实际上,这些都可以用生存模型、生存分析的手段去做预测,给出决策的引导。我从事的这项研究,是一项关于数据的艺术,它涵盖了众多学科且应用范围十分广泛,值得我用一生去钻研。”

“年轻人要有一往无前的探索精神和敢于质疑权威的勇气”

谦逊睿智、彬彬有礼,这是崔逸凡给很多人留下的第一印象。听他讲述自己的科研经历,大家常常会被他坚韧、不服输、敢于质疑权威的精神所感染。

“我本科学的是数学专业,在数学建模过程中,必须与大量数据打交道。”在本科阶段与海量数据“相爱相杀”中,崔逸凡确定将统计学作为以后的研究方向。“从某种意义上来说,统计学为其他学科提供了方法论。数据思维、因果思维对任何一个学科的研究者来说都至关重要。”

2013年从厦门大学毕业后,成绩优异的崔逸凡考入美国北卡罗来纳大学教堂山分校,主修统计与运筹专业。在这里,他遇到了自己在统计学领域的两位导师——迈克尔·R.科索罗克(Michael R.Kosorok)教授和简·汉尼格(Jan Hannig)教授。“两位导师都是学界大咖,视野宽阔、充满活力。科索罗克教授是一位统计学大师,他在经验过程、半参数模型、个性化决策和随机森林等研究领域都有很高的学术造诣,他还是国际数理统计学会的主席;汉尼格教授偏理论,他所教授的课有哲学思辨的感觉,给了我很多启发。”崔逸凡说,“选择汉尼格作为合作导师这里有个小插曲,汉尼格当时教授一年级的数理统计课程,在他的课堂上我学到了很多,也自认为学得不错,但在第一年结束时,这门课只得了‘合格’,这是我当时唯一的一个合格,其他课全都是‘优秀’,当时就感觉挑战欲被激发了,要对这个方向加强钻研。”两位导师因为不在一个系,他们之间的学术交流并不多,学术方向也没有太多交集。但在不断探索中,崔逸凡发现了交叉点,并开创了一个小的方向——非参数模型的基准推断,并且研究越来越深入,目前他正在研究半参数模型上的基准推断。

“科研工作没有捷径,更不会像大家看上去那样一帆风顺。”回顾自己的研究生涯,崔逸凡坦言,也曾遇到许多困难。“刚到美国时,英语不是很好,我意识到语言短板会限制自己很多发展,但是当时并没有什么特别好的解决办法。”得益于一次偶然的机会,他选择去迪士尼实习半年,“之前有学长也在那里实习,我想去看看工业界在干些什么,了解一下统计学在管理和商业中的实际应用。”而恰恰就是因为这次实习,崔逸凡的英语得到了很大程度的提高。直至今日,他都十分感恩两位导师的宽容,没有干预他的“不务正业”并予以鼓励,“否则,我之后的发展可能是另一个故事了”。

如今,早已成为博士生导师的崔逸凡也会像当初的老师一样,给学生更宽松的发展空间。他建议学生要内外兼修,对外要拓宽视野、广泛交流,不仅要聚焦统计学,还要将目光投向其他学科,在关注国际前沿的同时保持多学科融合的眼界,更好地激发科研热情与灵感;对内要有强大的身心,不畏艰难,不能轻易被困难打倒。面对困难,崔逸凡有八字感悟——“持之以恒,劳逸结合”,他说,科研是一苇以航的修行,只有持之以恒,才能去到科学的彼岸。

“当然,年轻科研工作者还要敢于提出质疑,不能迷信权威结论。”崔逸凡说,他在美国食品与药品监督管理局实习期间发现,序贯平行比较设计实验可能存在内生的偏差。出于对科学问题的探究,他针对此现象写了一篇学术论文并在之后与哈佛大学著名统计学家戴维·A.舍恩菲尔德(David A.Schoenfeld)教授等学者交换学术观点和意见。这场学术交锋不但得到国际同行的关注,甚至可能对美国食品与药品监督管理局精神类疾病药物的审核政策产生一定影响。

“最近,我们在《科学》(Science)上发表了一个与政策评估和数据隐私相关的、有意思的工作,通过运用数理统计的知识去重新审视一个基于隐私数据的政策评估问题(精准扶贫)。我们发现评估中直接用有噪声的数据当作真实值时,由于底层统计模型的不自洽,其分析结果可能会导致偏差。”崔逸凡说,学术观点的碰撞往往离不开数据的支撑,同时,真实世界数据的分析也离不开统计与数学。

开启数据科学科研领域的新征程

崔逸凡身上有着独特的儒士气质,尤其当说到科研时他侃侃而谈,儒雅中伴有睿智,谦和中透着真诚。在他看来,自己目前所从事的国际前沿统计研究不只是理论上的突破,更是探索现实问题的新路径。而他的平台也从全职回国的那一刻开始,变得更加广阔。

崔逸凡(中)参加博士答辩

一代人有一代人的特质,一代人有一代人的使命。许多人出国求学,是想看见更大的世界,同时也被世界看见。“对我来说,走出去是为了更好地回归。”崔逸凡说,任何人的成长和事业成功,都是同祖国联系在一起的。让自己的祖国在世界上更为强大,发出更灿烂的光辉,是广大科技工作者梦寐以求的愿望。虽然多年海外求学、工作的沉淀和历练让崔逸凡在数据统计研究领域形成了敏锐的直觉和洞察力,积累了丰富、宝贵的研究经验,也最终收获了傲人成绩,但他报效祖国的初心从未动摇。随着我国吸引海外人才的力度逐渐增强,2021年1月,国家自然科学基金委员会发布重磅消息:2021年起设立国家自然科学基金优秀青年科学基金项目(海外)。这是一个完善科学基金人才资助体系的举措,吸引了一大批海外优秀青年人才回国发展。成功入选首届海外优青项目后,崔逸凡决定全职回国,来到浙江大学数据科学研究中心继续开展科学研究。

成立于2017年5月18日的浙江大学数据科学研究中心,是以统计学、应用数学、计算机科学和管理学为核心支撑学科,以大数据理论、应用研究和人才培养为主的学术创新研究机构。虽成立时间不长,但中心吸引了包括崔逸凡在内的诸多国际顶尖青年学者的加盟,希望通过组建跨专业、跨学科、跨领域的师资队伍,大力培养复合型数据科学人才。

回国后,崔逸凡正在努力组建一支跨学科、高水平的科研团队,“未来,在积极培养学科人才的同时,我会继续面向国家需求,并与国内和国际上相关领域的科研专家进行密切合作,在现代统计方法尤其是在精准决策、精准医疗等相关领域做出更好的创新成果”。为此,他也制定了详细的“规划图”——潜心科研,教书育人。崔逸凡在海外期间曾教授过本科、硕士及博士生课程,有着丰富的教学经验。“教书是我的核心要务,接下来一年我会开设3门课程,除了面向数据科学研究中心、数学学院之外,还会在管理学院开设一门‘因果推断与机器学习’的新课,为其他学科的人才培养提供支撑和助力。”对于人才培养,他也有着自己的规划。在他看来,“数据人才和统计人才是集理论、方法、实践于一身的复合型全能人才,对于他们的培养一定要采用全链条培养模式。想要做到这一点,就需要从娃娃抓起,从本科开始重视统计学及数据科学,打造本硕博全链条培养系统,这样才能培养出高精尖的数据人才。”

“科研是一场马拉松,研究工作不是三五年攻读完学历和学位就万事大吉了,杰出的、大师级的科学家都是在各自领域耕耘一生。”回到国内对崔逸凡来说,是科研的继续,是另一个开始。在他看来,理论研究固然重要,也要与实践联系起来,所以他期待在大数据时代将研究成果运用到不同生活场景,为科学决策提供数据支撑,解决实际问题。这一理念与浙江大学数据科学研究中心致力于面向大数据战略前瞻问题和社会需求,为不同学科之间实现有渠道的、有组织的合作提供数据科学核心技术与理论研究创新平台的目标不谋而合。崔逸凡的加入,能够最大限度地发挥个人的知识和技能,同时为浙江大学数据科学学科注入新的动能和活力。

在采访中崔逸凡提到,他将投入针对复杂数据的精准决策的研究中去。这项研究不仅延续了他在美国、新加坡求学、工作的成果,也综合了统计学最近的研究热点。例如,科学问题中纵向数据十分常见,序贯决策和动态治疗方案也很热门,他将研究锁定在精准决策与个性化医疗的自适应临床试验设计中,希望其能在商业决策、生物医学及临床试验中有广泛的应用。换句话说,崔逸凡的研究将从因果学习的角度分析不同类型的数据,从而为精准施策提供助力,积极开展交叉学科的高水平研究,促进多学科交叉融合。

好的科研团队才能催生出一流的科学家和科研成果,科技创新不能依靠单打独斗,需要平台的有力支撑与团队成员的协同努力。在采访中,崔逸凡对自己来到浙江大学表示高兴,“这里拥有一支优秀的概率和统计研究团队。希望我也能同各位老师一起努力,推动我国统计学和数据科学科研领域的蓬勃发展”。他说,具备更高的、更国际化的视野,以更大的热情投身科研和教学工作,是时代赋予青年科技工作者的责任。

专家简介

崔逸凡,浙江大学数据科学研究中心研究员、博士生导师,首届国家自然科学基金优秀青年科学基金项目(海外)入选者,国际统计学会推选会员,福布斯亚洲U30杰出青年,中国现场统计研究会因果推断分会副理事长。现任《生物统计杂志》(Biometrical Journal)副主编,《机器学习研究》(Journal of Machine Learning Research)编委会审稿人。

2018年,崔逸凡于美国北卡罗来纳大学教堂山分校获得统计与运筹专业博士学位。读博期间,他曾在美国华特·迪士尼公司及美国食品药品监督管理局实习,毕业后在宾夕法尼亚大学沃顿商学院从事博士后研究工作,2022年回国前在新加坡国立大学统计与数据科学系担任助理教授。在海外读博和任教期间,他提出了运用具有未观测的混杂因素的数据进行精准决策与精准医疗的具体方案,创造性地提出了非参数基准推断这一统计方向并将其运用于生存分析,证明了生存树和森林模型的一致性理论。

猜你喜欢
精准模型统计学
关于投稿的统计学要求
统计学符号使用的说明
统计学符号使用的说明
精准防返贫,才能稳脱贫
重要模型『一线三等角』
本刊对来稿中统计学处理的有关要求
重尾非线性自回归模型自加权M-估计的渐近分布
精准的打铁
精准扶贫 齐奔小康
精准扶贫二首