王辉
1854年,伦敦发生了大规模的霍乱,很长时间没办法控制。一位医师用标点地图的方法研究了当地水井分布和霍乱患者分布之间的关系,发现一口水井位于霍乱病例地理分布的中心,借此找到了霍乱暴发的原因:一口被污染的水井。在关闭这口水井之后,霍乱的发病率明显地下降了。这是一个简单的故事,却展示了统计学的力量,
目前,大数据时代拉开帷幕,作为数据分析的“灵魂”,统计学的重要性愈发凸显。“统计学的发展不仅可以极大地促进其它相关学科的研究,更可以为政府决策提供科学依据,促进整个社会的全面进步!”邓柯说。
求“实用”踏上统计之路
颐和园路5号,北京大学的所在地,2003年,邓柯以直博生的身份,在这里踏上了“统计”之路。“在北大读本科的4年,我意识到相对于纯理论研究,自己更希望能贴近实践,解决实际生活中的一些问题。而统计学在很多领域都有广泛的应用,所以我选择了它。”
邓柯是个讲求“实用”的人,统计学是一门面向应用的学科。他们“脾性相投”,在北京大学一起度过了5年的直博时光。回忆起这段日子,邓柯说了一个词——幸运,“那时,国家开始大力引进国外人才,享誉国际的著名统计学家、哈佛大学教授刘军以长江讲座教授的身份被北大引进,与我的博士生导师——北大数理统计研究所所长耿直教授一同指导我做研究,这让我受益匪浅。”
2008年博士毕业后,为了进一步深造,他漂洋过海来到美国哈佛大学统计系继续博士后研究,并于出站后留在哈佛大学工作。一路走来邓柯在统计学方面已颇有建树。
“序贯蒙特卡罗”是用来解决在高维复杂系统中进行统计抽样的一种蒙特卡罗方法,在以“Particle Filter”为代表的一大类重要实际问题中有着非常重要的应用。但是传统的“序贯蒙特卡罗”方法主要针对连续型分布,应用到离散型分布时,抽样效率会大幅降低。为了破解这一难题,邓柯针对离散型分布的特点,对原有的“序贯蒙特卡罗”方法进行了创新性改进,提出了“序贯拒绝控制抽样”的新方法,大幅提高了对离散分布的抽样效率,在许多实际问题中有重要应用。这项研究成果发表在统计学顶级杂志Journal of the RoyalStatistical Society;Series B
当然,解决实际问题才是邓柯的出发点和落脚点。在这方面,生物领域的“Hi-C”数据分析就是他的关注点之一。“Hi-C”是一项能够系统测量基因组中大量位点间相互作用的新技术,是近年来生物学和生物信息学研究中的一个热点问题。该技术可以在很高的解析度下间接测量染色体中任意两个位点之间的近似空间距离,从而为系统分析染色体的空间结构提供了基本信息。“然而,由于生物试验的复杂性,Hi-C数据中包含着许多测量偏差和不确定性,为数据分析带来很大挑战。”邓柯迎难而上,与合作者通过对“Hi-C”数据的深入分析,提出了一套通过统计推断来预测染色体三维结构的新方法,该方法能够很好地矫正数据中的测量偏差并系统性地处理其中的不确定性,使得生物学家能够在40KB的精细尺度下观察和分析染色体的三维结构,并从一个新的角度来研究遗传物质对生命系统的影响。论述这一新方法的系列论文发表在生物信息学的顶级期刊Bioinformatics和PloS Computational Biology上,获得广泛关注。
在这同时,邓柯还在计算机网络通讯、医学数据分析、社会学中的统计问题等方面有了新的突破。
回故土开启新征程
2013年,邓柯作为青年千人回国到清华大学任职,“在当时,清华的统计学科基础相对薄弱。只有清华、北大、中科院的统计学都强大起来,中国之统计才能强起来。所以,我愿意投入到清华的统计学科建设中来。”
随着统计学成为“一级学科”,国内许多高校都加大了统计学科建设的力度。2014年,清华大学决定组建“统计学研究中心”,并聘請邓柯的博士后导师刘军教授担任中心主任,哈佛大学生物统计系林希虹教授担任共同主任,领导中心的发展建设。而邓柯也作为副主任,加入到了中心的建设工作中。“这个过程非常艰辛,要找办公场地,跑手续、搞装修、招聘秘书、引进人才、做人事制度改革等许多其他工作。但是,我们最终还是成功地在短短的一年之内把中心建立了起来,并推动其迅速步入了快速发展的轨道。“2015年6月27日,清华大学统计学研究中心成立大会隆重召开,海内外150余名专家齐聚清华,邓柯与他们共同见证了这个历史性时刻。目前,清华大学统计学研究中心已经组建了一只由6位全职教员、3位兼职教员构成的师资队伍,他们正带领着2位博士后、十余位博士生向统计学的高峰不断攀登。
回到清华工作的3年中,邓柯在学术的道路上不断前行,取得了丰硕的成果。他首创了排序数据集成的贝叶斯方法,大幅提高了排序集成结果的准确性,这项研究成果发表在统计学顶级杂志Journal of American StatisticsAssociation。他还与合作者一起提出了运用统计学原理整合多种生物组学数据的新方法,相关研究成果发表在NatureCommunications。
基于统计学的文本分析是邓柯的另一个关注点。尽管作为计算机科学的一个传统研究领域,文本分析的理论和方法研究倍受关注,并已取得诸多成果。但是,目前仍然缺乏一种有效的方法可以将文本分析中的诸多环节进行整合。以中文分析为例:新词发现、分词和命名实体识别这三个关键问题大都被分别处理。“更为重要的是,现有的主流方法大多依赖高质量的训练样本。但是,在许多重要的实际问题中,由于所涉及的文本规模庞大且风格多样,几乎没有可能低成本地获取有广泛代表性的高质量训练样本。”邓柯补充道。这一事实极大地限制了许多文本分析方法的应用范围。
为了克服这种缺陷,邓柯剑走偏锋,提出了一种基于“词典模型”的统计方法。该方法将新词发现、分词和命名实体识别作为一个整体来通盘处理,既不需要传统意义上的训练样本,又能充分利用文本中的信息,有重要的学术价值和广阔的应用前景。这一研究成果发表在顶级综合性期刊《美国科学院院刊》(Proceedings of the NationalAcademy of Sciences of USA),引起了国内外中文处理学界的广泛关注。
为了支持日益增长的医疗大数据研究和产业需求,清华大学统计学研究中心于2015年10月成立了“医疗大数据中心”,与国内外医学界和产业界建立深入合作,共同推动与医疗大数据相关的理论和应用研究。在这个研究平台上,邓柯开展了一系列新的探索。“我国巨大的人口基数和医疗资源分配不均衡的现状使得我国自然形成了多个全国性和区域性的医疗中心,它们积累了大量宝贵的医疗数据。如果能够对这些医疗大数据进行有效的分析,并从中提取出与疾病诊断、疾病治疗、疗效评价、效费分析相关的重要模式和信息,必将对提升我国医疗系统的整体效率产生重大推动作用,并有可能催化出重大的新发现。”邓柯说。
“要实现这一目标,不仅要收集大量的医学临床数据,更要对这些数据进行深度清洗和整理从而将其转换为能够进行分析的形式,并需要设计出有针对性的分析方法来对这些数据进行分析。统计学在这其中的任何一步都发挥着不可替代的作用。”邓柯补充道。目前,邓柯带领的课题组正在医学自然语言处理和标准化、医学知识图谱构建、医学大数据模式识别等领域展开卓有成效的尖端研究。“我们期望在不久的将来会在这一领域做出一系列重要成果!”邓柯对未来充满信心。
邓柯的“野心”不止如此,他还力图运用统计学的方法和原理为政府决策提供有力支持。2015年,邓柯作为数据科学家参与到国家质检总局“进出口食品安全监管改革”方案的制定工作中,和总局的专家一道对我国进口食品口岸检验历史数据进行了深入分析,并依据数据分析的结果设计了一套全新的监管体系和口岸抽检方案。这从根本上改变了我国进口食品检验实践中长期依赖人为经验的粗旷式做法。目前,这套方案已经作为“国家抽检计划”在全国质检系统得到了实际运用。“这项工作可能因为保密性而不能发表文章,但是食品安全和人民群众的生活息息相关,所以要是做好的话还是非常有意义的。”邓柯说。
科学中国人2017年1期