陈霖
董恩盛。1989年生于山西,美国约翰·霍普金斯大学土木与系统工程系博士一年级学生。2020年1月底起,与导师和同学制作的疫情地图成为全球最受关注的统计内容。
约翰·霍普金斯大学的疫情地图又创纪录了。这是全球最受关注的新冠肺炎数据统计网站,1月底上线,日访问量从2亿次攀升至20亿次。当记者采访网站主要制作人、该校土木与系统工程系的中国博士生董恩盛时,他告诉记者,最近的日访问量高峰已达45亿次。网站全称是“交互式、实时监控新冠病毒的仪表盘”,就是将收集来的数据做成可大可小的红点,实时反映全球确诊人数。人们更习惯称其为疫情地图,目前单一图层的累计访问量就有161亿,相当于世界上每个人平均打开它至少两次。记者与董恩盛约定时间,他在美国东部的马里兰州,与北京时间相差12个小时,经过比对,最终定在美国东部时间晚上9点。随时计算时差是他制作疫情地图时养成的习惯,这几个月就像在“与时差作战”。
1月17日,新冠肺炎疫情已在中国暴发,董恩盛正在学校,“我是中国人,很担心国内疫情”,便想制作模型呈现疫情发展。几天后,其他国家也曝出疫情,董恩盛的导师劳伦·加德纳也意识到模型的重要性,两人一拍即合。董恩盛花了七八个小时做了初版的疫情地图网站,整理各国公布的数据,于1月22日上线。
不过,全球有24个时区,要实时整理所有数据,他几乎连轴转。每天,他在美东时间早上8点半更新第一次,“这个时间正赶上国内卫健委更新数据”,然后在中午12点、下午三四点、晚上8点前查看。晚上8点后,许多欧洲国家更新数据了,他有时也会查看。于是,他每天要确认至少4次,下了课就查数据,只睡四五个小时。起初,他只能手动更新,澳大利亚报告首例确诊病例那天,就因为太累睡着而错过了。“一觉醒来,发现有好几个未接电话,是导师打给我的,告诉我澳大利亚出现病例。”
疫情暴发速度非常快,各国的统计网站也不断在细化,“以中国为例,一开始是全国确诊数,几天后变成各省,之后又细化到市、县等。疫情暴发的国家增多,许多统计网站开始分大洲”。这些统计单位每变一次,疫情地图的程序也要变,即便不眠不休也赶不上全球确诊人数增加的速度。直到2月初,他的中国同学杜鸿儒加入小组,让他们告别了“纯手工作业”。
杜鸿儒和董恩盛均是加德纳指导的学生,他设计了自动抓取中国数据的程序。杜鸿儒告诉记者:“当各国数据更新,计算机便会监测到,马上给我们发邮件。如果确诊人数突然减少,这明显不合逻辑,我们就要上网查证。”这节省了许多时间,他们可把精力放在人工核实上。杜鸿儒说,董恩盛很细心,“核实美国3000多个郡县的确诊数据时,他几乎没有遗漏,一个人完成了庞大的数据整理”。如今,疫情地图每20分钟便能自动更新一次。
疫情地图项目开设了面向全球的邮箱,“任何人发现数据不对或未更新,都可以发邮件告诉我”。有网友发现自家临近地区有了新病例,但当地政府或媒体未更新,就发邮件给董恩盛。“第一时间从用户那获得当地的数据,使得疫情地图更新速度远快于许多国际媒体。”
除了更新快,动态、可视化设计也使疫情地图在众多统计网站中脱颖而出。大部分疫情统计网站只能呈现某国的确诊人数,或用颜色深浅显示确诊数量,“深的代表确诊数多”。但董恩盛设计的地图用大小不一的红点呈现确诊数的多寡,缩小地图可见红点在全球的分布,放大则能看到各国、各城市或郡县的数据。他记得,疫情地图受到关注后,日本、泰国、以色列等国也参照这个模式设计统计网站。在一些医疗条件不是很先进的国家,老百姓能借此了解自己国家和邻国的疫情。“疫情地图上线两周,几乎每个国家都有人访问我们的网站。”
2020年3月初,董恩盛(右)和杜鸿儒在办公室,屏幕上即为疫情地图。
自疫情暴发以来,国内外媒体介绍疫情时,常引用疫情地图的数据,美国、德国、意大利的卫生部门和各级政府开会讨论时,会议室大屏幕实时展示的也是疫情地图,导师加德纳也被邀请到国会演讲,介绍这幅“地图”。2月19日,世界顶级医学期刊《柳叶刀》的副刊《柳叶刀传染病》发表了董恩盛、杜鸿儒与导师联合撰写的文章《实时追踪新冠病毒的交互式网站仪表盘》,介绍疫情地图的設计和数据。学术期刊从投稿至发表,一般短则几个月、长则一两年,但这篇文章不到3天便发表了。并且,一般来说,谷歌学术引用量能上百已是不错,这篇文章目前的引用量已超300次。此外,董恩盛和团队还分别收到诺贝尔化学奖得主、经济学奖得主发来的邮件,感谢他们制作的疫情地图。
董恩盛可以这么快制作出数据模型,因为以前就有传染病的建模经历。去年,美国暴发了25年来最严重的麻疹疫情。董恩盛入学没多久,就跟着导师做了可视化模型,预测美国麻疹病毒风险。他们研究国际大都市,“这类城市的国际航班很多,如果航班出发地病例多,而到达地的麻疹疫苗接种率不高,就可能暴发疫情”。根据这个模型,他们成功预测到洛杉矶1月份暴发的麻疹。
不过,这次制作新冠肺炎疫情地图时,董恩盛发现各国对“确诊”的定义并不一样,有的分类很繁杂,给统计带来了巨大挑战。一般来说,“检测试剂呈阳性的患者”和“新冠肺炎病例”是两种对确诊病例的说法,前者是检测结果,后者是经由官方确认检测结果且已对外公布的病例。确诊人数一般指这两个分类的总和。由于确认流程需要时间,在发现新病例时,不少媒体会先以“试剂呈阳性”报道病例数。
疫情地图上,红点可放大、缩小,呈现不同地理范畴的疫情数据。
董恩盛介绍,在法国,“确诊病例”指医院内确诊的+医院外确诊的病例,排除了检测结果呈阳性的人。但同时法国还有一种分类“医院外确诊的病例”,指在医院外确诊+检测结果呈阳性的病例。这两个分类重复的部分是医院外确诊的病例,而一些国际媒体报道时直接将这两个分类相加,导致数据重叠。董恩盛便请懂法语的志愿者每天上法国网站,听政府长达半小时的法语新闻发布会,记下不同分类的数据,从中摘取出“医院内确诊+医院外确诊+检测结果呈阳性的病例”,这个数字便是我们通常理解的确诊人数。
此外,領地归属也影响了统计。法国有些海外领地和省,而官方公布的确诊人数并未明确说明是否包含这些地区,最近董恩盛和团队正和法国卫生部门沟通,确认数据含义。
保护确诊患者的隐私也很重要。此前,“钻石公主号”游轮上出现了美国病例,后来部分人撤回美国,董恩盛和团队决定,把这些病例加到总的确诊数中,但为了保障病人隐私,不在某个地点标记出数字。
3月的一天,一位穿着棕色休闲服的老人走进董恩盛和导师所在的会议室。“因为疫情,当时已经封校,基本只有清洁工进出。他穿着朴素,我就以为他是清洁人员。”老人离开后,导师告诉他这是校长,董恩盛才恍然大悟,“校长在疫情期间来看望我们,我很感动”。约翰·霍普金斯大学为他们提供了许多支持。“原本我在研究室的一个小方格”,多亏学校提供会议室,董恩盛和团队能在保证安全的前提下制作地图。
公共卫生学院的老师和学生也提供了不少支持。该学院在全美的公卫领域排名第一,董恩盛的导师加德纳是土木与系统工程系的老师,毕业于得克萨斯州奥斯汀分校,后到澳大利亚新南威尔士大学教书,指导的本科生就能在《自然》杂志的子刊发文。后来,加德纳到约翰·霍普金斯大学求职,立刻拿到终身教职。她专攻传染病模型,也在公共卫生学院任职,常带董恩盛到公卫学院听讲座,学习传染病等相关知识。“公卫学院的同学对公共卫生系统很了解,有时候一眼就看出数据不对劲,并帮我们想解决方案。”此外,应用物理研究所的专家帮忙升级网站,提高抓取数据的速度;学校图书馆则招募小语种志愿者,像法国等国的疫情统计数据就由这些志愿者翻译。
董恩盛生于山西,本科毕业后到美国爱达荷大学读硕士,其间到全球最大的地理信息系统技术提供商ESRI公司实习。这家公司拥有成熟的地理分析技术,此次疫情地图的底层技术就由该公司提供,董恩盛在那里积攒了许多可视化地图制作经验。此后,他任职于一家电力调度公司,负责绘制美国部分地区电网,之后到东岸一家电信公司维护电信设施数据库。“总之,在美国,从南到北、从西到东都跑过了。”后来,他想走学术道路,便申请到约翰·霍普金斯大学读博。
疫情地图对所有人公开,也意味着数据可以直接被人拿去使用。一些公司的软件套用了疫情地图的统计数据,“当用户下载软件时,就给人一种错觉:如果你想用疫情地图的数据,就必须买这个软件”。还有一些非常知名的大公司联系约翰·霍普金斯大学,想购买疫情地图的数据作为商用。“制作疫情地图和公开数据的初衷是为了学术研究想公开数据,也为了让公众更多人了解疫情,我们目前不想受到资本的影响。”
疫情地图大火后,董恩盛常能在各种社交平台上看到亲朋好友转发疫情地图。最近,他和团队有了新计划。他们正在收集检测人数、各地死亡率和患病率等新数据,试着做出新模型以预测全球疫情走向。董恩盛说,希望疫情地图保障各国民众对疫情的知情权。