方匡南:攻坚统计 利国利民

2021-02-26 04:45范佳乐
科学中国人 2021年35期
关键词:统计学模型学生

范佳乐

2012年,方匡南在厦门大学任教还不到两年,就因在工作和教学上的出色表现被破格提拔为副教授,3年后,他又被再次破格提拔为教授。之后又因在统计学的理论与应用中的突出贡献,当选为国际统计学会推选会员并入选了国家高层次青年人才。对于青年教师而言,如此顺利的职业晋升路线并不常见。然而,当谈及这一切时,方匡南却并不认为这些经历有多特别,他更为在意的是“用数据为国家和人民作一些贡献”,这也是他科研生涯中最大的心愿。

学科交叉促融合“顶天立地”做科研

谁也没想到,当初那个高考填志愿时阴差阳错选了统计学的小伙子,如今已经在统计学、数据挖掘、机器学习的科研攻坚道路上走过了整整20年。“一开始我其实没有想要做学术研究的。”2010年博士毕业时,方匡南拿到了好几家金融公司总部的工作邀请,尽管待遇十分丰厚,但他深入分析了自己的性格与理想,发现自身其实更偏向做学术研究和教学工作。于是,他选择留在了自己的母校——厦门大学,统计学领域也因此多了一位坚忍不拔的探索者。

在方匡南还在上学时,统计学是再冷门不过的专业了。但随着时代的发展,以大数据、云计算、人工智能及移动互联为引领的新的工业革命与科技革命将学科的边界、研究范式不断打破与重构,数据的获取、储存、处理分析与可视化逐渐成为金融科技的核心技术,统计学摇身一变成了炙手可热的专业,站在了时代的风口浪尖。然而,高速的发展往往会带来研究难度上的指数级提升:数据来源越来越多,数据维度不断增高,甚至出现几千几万维的情况,多源高维数据的处理因此成了大数据时代统计测度面临的最大挑战之一。针对这一问题,方匡南提出了全新的带结构信息的统计建模方法,该方法能够充分利用各数据间的结构信息,提高模型选择、估计和预测的准确性,他还对带结构信息高维数据情形下有效统计分析的学术难题进行了探索,将结构信息应用发展到各种复杂模型和复杂数据上去,为领域内的研究打下了坚实的理论基础。在实际应用上,新的建模方法可以在降维的情况下提高预测的准确性,为实际工作者处理复杂数据问题提供了新的统计研究工具,该成果已承接3项国家自然科学基金项目和国家社科基金重大项目子课题及国家统计局重大(重点)项目3项,在国际权威期刊发表论文50多篇,并多次获国家级和省级科研奖项,在国内外引起关注。

方匡南把“顶天立地”作为自己的座右铭,并以此为准则积极推动相关成果在实际社会经济中的应用。“‘顶天’说的是时刻接触领域前沿,保持新思想。‘立地’说的是把研究扎根到土里,把论文写在祖国大地上,能够真正为人民带来利益。”在金融信用风险管理与智能风控领域,带结构信息的统计建模方法可规避传统信用决策系统中由专家主观判断带来的随意性,通过公安记录、水电费缴纳情况等数据对企业或个人信用进行评估,降低平台贷款发放盲目性,缓解互联网金融中常出现的风控不达标、爆仓与企业破产等问题。例如在与厦门信息集团大数据运营公司合作的企业项目中,方匡南通过车险投保人的行为记录及车辆信息构建预测模型,利用信用数据与智能风控算法对超过26万条记录进行了信用评估,降低出险率约7%,减少企业超过2000万元的理赔损失。该模型目前已在厦门、泉州、成都、深圳、杭州等多个城市实现应用,得到政府与企业的一致好评。

研究成果在健康医疗领域也获得广泛的应用。在临床基础研究中,模型可通过对患者基因链的分析、整合,确定基因影响疾病的相关机制,为疾病治疗、基因的深层探索提供了方法论;而在诊断学上,这一成果可以为精确影像学成片诊断,减少医生培养成本,缓解中西部等人才相对落后地区的医疗资源缺口。方匡南创造性地在原先模型的基础上提出了解释变量分组且系数具有光滑性的高维分类模型,该模型专门针对分组且数值随时间变化的高维变量,利用不同的惩罚来处理模型中的组内变量结构,可对部分疾病的CT影像数据进行学习训练,在实践应用中可较为客观地做出评估,极高提升诊断的准确率。该方法被应用到有机化合物生物标记物预测肺癌的案例中,显著提升了肺癌的预测效果。

在未来,方匡南还将继续自己在数据挖掘、机器学习及其相关交叉领域的研究,他已申请国家自然科学基金面上项目等多项国家级项目基金,对带结构信息的统计建模、隐私保护下的多源数据融合建模、金融科技、健康医疗大数据等领域的理论与方法进行深入研究,以期做出更多的原创性成果。在应用领域,他将积极探索研究成果在金融科技和健康医疗中的应用,比如已与政府和银行合作引入机器学习方法构建更为完善的小微企业信用评分模型,推动小微企业信用评分标准化,帮助解决我国小微企业“融资难、融资贵、融资慢”等顽疾。

因材施教育桃李,教研相辅求发展

方匡南在美国耶鲁大学做博士后研究时,他的博士后导师马双鸽教授及系主任赵宏宇教授都带了将近20个硕士生、博士生和博士后,但依旧保持着与学生每周一次一对一交流。“这对我的触动很大,作为一名大学老师,主要职责应该是传道授业解惑,帮助学生做科研、带领科研团队攻坚克难。”也正是因为如此,尽管方匡南醉心科研,但他还是把人才培养作为自己的第一要务。他宁愿放弃休息与科研的时间,也要把精力优先留给学生。在方匡南看来,“我不赞成重科研轻教学”,他认为教师的本职工作是“传道授业解惑”,应为国家培养更多的专业人士。但他“也不赞成只教学而放弃科研”,因为知识总是在不断变化和更新,只有紧跟学科前沿发展和积极探索未知领域,才能够让自己的教学内容“永葆青春”。

为此,在教学上,方匡南联合耶鲁大学马双鸽教授、张庆昭副教授等行业领军人物和专家,组建了一支高水平数据智能教研团队,在科研的同时为学生提供更高质量的教学内容。他把因材施教、分类培养作为自己教学理念的核心,与每一位学生面对面、一对一沟通,深刻了解学生想法,结合学生兴趣爱好和能力给予他们不同的教学内容。对于已经在读的博士,方匡南每周都与他们开1~3次组会,他要求每个博士在组会上对自己一周的工作进展情况进行汇报,通过汇报反思在工作中遇到的困难,并与在场的老师和学生一起对问题进行探讨和解决。方匡南还经常带领他们研读领域内的最近进展与突破,实时交流重要信息,力求团队站在数据科学的研究前沿。

而在硕士生培养上,方匡南更是把因材施教的理念发挥到了极致。对于适合做学术、有攻读博士想法的学生,方匡南就按照博士的要求和标准去培养他们,提升他们的数理与编程能力,带领学生阅读前沿与经典文献,从源头上把学生的学术基础打好。而对于那些倾向硕士毕业后就去企业工作的学生,方匡南更加注重他们实践应用能力的发展。他将学生分为不同的小团队,培养学生团队协作精神与领导力,在每周组会中给学生上台演讲的机会,充分锻炼学生沟通与表达能力。方匡南经常为学生申请与企业合作的机会,让学生在校园里提前了解企业需求,有目标、有方向地利用数据挖掘、机器学习的方法帮助企业解决实际问题,为他们毕业后的工作做准备。通过对学生的严格训练和兴趣培养,多年来方匡南为国家培养出了一批高素质数据分析专业人才,毕业生多任职于高校、华为、腾讯、字节跳动、银行总行等名企事业单位,在各自领域取得了不错的成就。

除了在学生培养上尽心尽力,方匡南还抱有更远大的教育理想。在方匡南求学期间,国内统计学尚处于起步阶段,当时还是学生的他,常常受困于国内专业教材的不足。因此,为从根本上提高中国统计学教学质量,他开始进行统计学教材的编写。硕士阶段,他就和导师王斌会一同编写出了我国第一本R语言的中文简明教程。博士毕业后,他也常常把自己的教学讲义整理完善编辑成册,至今已完成出版两部教材,其中一部被引入中国台湾地区发行,并基于自己编写的教材录制了慕课课程《数据挖掘与机器学习》,广受学生喜欢。今后,方匡南还将继续开展《统计机器学习》等新教材的编写工作,怀揣着理想与信念在中国统计学教育事业上继续发光发热。

猜你喜欢
统计学模型学生
自制空间站模型
大数据的统计学基础分析
统计学教学与实验实践的一体化整合初探
赶不走的学生
模型小览(二)
圆周运动与解题模型
学生写话
省属地方高校应用统计学专业人才培养模式研究
离散型随机变量分布列的两法则和三模型
难以一致的统计结果