王瑞哲:停不下的科研路

2021-11-18 17:52张芊芊
知音海外版(上半月) 2021年10期
关键词:机器客户模型

张芊芊

2021年是王瑞哲到美国的第十二个年头。在这十二年里,他从一个对科研心怀向往的学生,成长为业内建树颇丰的科研工作者,支撑他的,是心中不灭的科研梦。

“他是一个做科研就停不下来的人,停下来就憋得慌。”这是太太喻莹对他的评价。

初出茅庐

2009年,王瑞哲还在厦门大学读大四,因成绩优异,世界名校美国圣路易斯华盛顿大学给他发来了攻读直博的offer,并提供全额奖学金。怀着纯粹的科研梦,这年夏天本科毕业后,王瑞哲便带上两个行李箱,飞往美国攻读博士学位。

王瑞哲在博士期间的主攻方向是利用数据和建模来研究复杂系统。关于复杂系统,在不同领域有着不同的研究对象,比如在生物学范畴,可以是细胞;在商业范畴里,则往往是多样化的消费者。这个领域像是一片尚未开垦的荒地,几乎没有现成的理论做指导,全靠自己摸索。

对王瑞哲来说,越有挑战性的工作,就越有吸引力。不过,理想很丰满,现实却很骨感。读博的头两年,他根据其他学者发表的实验数据,发展出一套关于细胞长度与生长速度关系的理论。正当他准备将研究结果发表时,国际顶尖研究期刊《自然》杂志刊登了一篇论文,展示了与原有实验截然相反的实验结果。这对王瑞哲来说无疑是当头一棒,这意味着几年辛苦研究的成果几乎全部报废,一切需要重新开始。

好在王瑞哲是一个乐观的人,他明白,这几年学到的研究方法论是放诸四海而皆准的,研究结果可以作废,但是努力不会白费。很快,他重整旗鼓,投入到了下一个研究课题——肌动蛋白动力学。这一次,新旧实验数据完美支持他的理论,他一口气在国际期刊上发表了两篇研究论文,并于2015年夏,成功通过了博士论文答辩,晋级成了王博士。

因其突出的研究成果,全美顶尖的华盛顿大学医学院Siteman癌症中心的主任DiPersio博士向王瑞哲抛来橄榄枝,邀请他加入他们的研究团队,运用数据和建模来研究基因学问题。而与此同时,世界500强企业通信巨头AT&T在亚特兰大的高等大数据团队也在盛情邀请王瑞哲加入,去研究利用数据科学来解决客户流失的问题。

在这两个机会面前,王瑞哲有些举棋不定。这时,他的太太喻莹提议:“来美国这些年,我们都很想念中餐,圣路易斯的中餐太少,我们还是去亚特兰大吧。”后来,王瑞哲在谈到这个决定时笑道:“这两个机会都非常宝贵,我都难以割舍,最后还是太太英明,大手一挥,我们便在2015年秋天挥师南下了。”

一战成名

在随后为AT&T工作的三年时间里,王瑞哲一直在研究预测客户流失的机器学习模型。在探寻了海量数据后,他开发出了针对数千万客户的精准预测模型,这项成果每年能为公司节省因客户流失而损失的上千万美金。但同时,王博士也发现,模型的准确性会随着新数据的涌入而逐渐降低。接受采访时,王瑞哲打了一个比方:“比如说去年很多客户在用iPhone12,彼时刚刚开发的机器学习模型会认定这批人是最新潮的,但是现在iPhone 13上市了,很多人会转用iPhone 13,iPhone 12就不是最新款了。数据的变化是日新月异的,可模型并不知道这个世界已经发生了变化,它还是会以老的眼光来看人看事,而根据老眼光做出的预测会越来越失准。”

为了克服机器学习模型的这一缺陷,王瑞哲设计了一个新的算法。这个算法的核心思想就是探测新数据并更新模型。新类别的数据会自动识别,老类别的数据自动归类。这样,模型所需数据时刻都被规整到最新的状态。不仅如此,这个算法还可以自动处理数据,节省70%的数据处理时间。

采访中,当提到这项研究时,喻莹打趣道:“还记得那个周末,我们带着孩子在奥林匹克公园里玩,本来玩得好好的,老王突然愣住了,看着公园里的喷泉发呆。我问他怎么了,他说,‘有个控制器控制着这个喷泉,让水流时静时动,这跟数据有点像。我可以让算法实现这个功能!对,一定能行!说着,他也不管我和孩子,掉头就跑。后来我才知道,他跑到公司去干活了!”王瑞哲笑道:“灵感来了,不能等啊!我得立刻把灵感敲进代码!”

这项成果让王瑞哲一战成名,并受邀在当年的一场数据科学竞赛中担任评委。这次竞赛由号称“南方麻省理工”的佐治亚理工主办,要求利用数据和建模解决一个实际问题,参赛作品题材不限,但要求原创。经过激烈竞争,最后脱颖而出的冠军团队作品是一个App,它能根据各个街区的犯罪数据来预测人行道的犯罪概率,并为路人推荐晚间行走的最佳路线。王瑞哲认为这个作品不仅技术出众,还具有真正的社会意义,能够切实帮助到群众。通过这个竞赛,王瑞哲也更深刻地体会到,研究者不应该永远待在象牙塔里,应该走出去,让科研成果服务于社会。

步履不息

在AT&T公司干了三年后,王瑞哲发现这项工作渐渐失去了挑战性。因此,2018年,他从AT&T公司离职,加入了一家名为FLEETCOR的金融公司。对此,他解释说:“在金融领域,有很多机器学习模型用来预测客户失信的概率,金融机构据此决定是否对客户进行借贷。有一次,我在一个学术会议中了解到,很多机器学习的模型都有一个重大缺陷,就是数据来源非常有限。一些关键数据,比如征信等,无法覆盖到大量没有信用历史的客户。对待这类客户,由于数据的匮乏,机器学习模型便无用武之地,这些需要借贷的客户也就没有办法融资。我觉得,金融不应该只是为有钱人服务,广大底层人民应该也有权利得到金融服务。如果我能够用科学的方法,挖掘相关数据,开发出好的解决方案,让金融惠及更多的平民百姓,那我的工作才是真正有价值的。正好当时FLEETCOR提供了这么一个机会,我就又整装出发了。”

在FLEETCOR,王瑞哲提出了一个非凡的设想:利用非传统的数据来增大机器学习数据集,帮助各种机器学习模型进行预测,以扩大受众群体。王瑞哲的设想得到了公司高层的认可,不仅如此,公司还给他提供了一个超大的云端数据平台,方便他来整合外部数据,进行探索和分析。通过这个云平台,他的任何想法都可以快速落地,不受任何人或者IT资源的限制。这令王瑞哲十分振奋。

在探索了上百个外部数据源的上万个变量之后,王瑞哲挖掘到一批在传统数据库没有的优质变量,开发出一套数据增强的技术,极大地丰富了机器学习数据训练集。这样,通过这些增强数据,原本苦于无米之炊的机器学习模型又可以大显神通了,让上百万没有信用记录的客户有了借贷的希望。这项成果广泛地扩展了潜在客户群体,帮助公司在短短一年的时间里扭亏为盈。而且,在研究过程中,王瑞哲还发现数据增强技术在诈骗侦测、风险控制等领域有巨大潜力,这也为他未来的工作奠定了方向。

一路走来,王瑞哲始终在科研的前沿探索,记者问道:“你在科研路上,遇到过困难吗?”王瑞哲说:“遇到的困难数也数不清,但是如果你转变一下心态,你就会发现困难无非就是很多简单的事情揉在一起,再裹上几层用来迷惑你的外衣。而你需要做的就是用科学的方法,不断尝试,抽丝剥茧。”他用砍柴举例,“一个人第一次砍柴,不知道怎么砍,用什么工具,用多大力气,那应该怎么办?如果是我,我会先用一把小刀试试,不行就换大刀,再不行就换斧頭。一开始,我会用小一点的力气,感受深浅,然后逐渐加大力度,直到找到最佳的力度。劈柴的角度我也会多方尝试,横着砍、竖着砍、斜着砍。最后,一定会找到最合适的工具、力度和角度。所有难题,不都是这么解决的吗?”

采访即将结束时,记者感慨道:“王博士,你年纪轻轻就有这样的成就,家庭事业双丰收,真是妥妥的成功人士啊!”谈起科研就口若悬河的王瑞哲,此时面对夸赞却露出了腼腆的微笑,他说:“我一路走到今天,离不开太太的大力支持。我的太太也是名校毕业,也拥有成功的事业,但她在工作之余,还要照顾孩子、操持家务,为我做出了很大的牺牲,我非常感激她。而我作为一名科研工作者,我的使命就是一步一个脚印地探寻真理。我很幸运,在这个领域做出了一点成绩,但若是论成功,我才刚上路呢!未来,我还想让我科学研究的成果更多地服务广大人民群众,这才是一个科学家真正的人生价值所在。”

猜你喜欢
机器客户模型
机器狗
机器狗
重要模型『一线三等角』
重尾非线性自回归模型自加权M-估计的渐近分布
未来机器城
为什么你总是被客户拒绝?
如何有效跟进客户?
3D打印中的模型分割与打包
做个不打扰客户的保镖
FLUKA几何模型到CAD几何模型转换方法初步研究