目前可供个人使用的大数据工具主要有两类,一类是来自医学监测机构的大数据,类似中国的疾控中心,美国的Carolinas Health Care,日本京都大学荒牧研究所等,以来自就诊患者统计为主,辅以大数据分析手段,以显示某地区目前流行病的发病情况为主,预测疾病流行走向为辅;另一类则来自搜索引擎和数据分析机构,包括Google Trends的疾病预测,百度预测的疾病预测,以及基于社交搜索的sickwether、patientslikeme和融合性的Healthmap等,以预测疾病流行走向为主,展示区域发病情况为辅。
两种数据工具的手段大同小异,区别只在于前者提供的数据多是针对大区域的、服务机构的数据需要,后者则多针对小区域甚至某个城市商圈,为个人消费者服务。
Google 预测曾经很准
谷歌流感预测(www.google.org/flutrends)早在2008年即已推出,原理是采用流感趋势系统监测全美的网络搜索,寻找与流感相关的词语,比如“咳嗽”和“发烧”等,并利用这些搜索结果来提前9个星期预测可能与流感相关的就医量。
2009年在H1N1爆发几周前,谷歌公司的工程师们在《Nature》上发表了一篇论文,介绍了GFT,成功预测了H1N1在全美范围的传播,甚至具体到特定的地区和州,而且判断非常及时,令公共卫生官员们和计算机科学家们倍感震惊。
这个工具最初运行表现很好,许多国家的研究人员已经证实,其流感样疾病(influenza-like illness, ILI)的估计是准确的,并且可以提前数周乃至数月,不像疾控中心一样要在流感爆发一两周之后才可以做到。
但此后的2013年,《新科学家》发现,在过去3年,该系统一直高估与流感相关的就医量,在这类数据最有用的流感季节高峰期尤其预测不准确。在2012/2013流感季节,它预测的就医量是美国疾控中心(CDC)最终记录结果的两倍;在2011/2012流感季节,它高估了逾50%。
《scientists》杂志认为,错误源自一种被称作大数据浮夸(Big Data Hubris)的算法变化,例如对模型的人工优化,或是模型对某些不当关键词的自动调整(例如某些搜索其实源于季节而非真实发病)。
芝加哥大学卫生促进研究中心博士后、卫生经济学者陈茁也曾撰文分析了其中的原因。他认为,谷歌搜索的结果和使用者人群“自我估计”的流感发病率相关。但在现实中,普通感冒在不同个体身上的严重程度上会有差别,有些患者因为担心,便搜索了相关信息。这些搜索构成了类流感“自我估计”中的“噪声”。如果只用“谷歌流感趋势”预测流感发病率就会存在问题。
陈茁认为“谷歌流感趋势”项目失误的另外一个原因是在数据分析方面存在欠缺。哈佛大学Gary King和搭档的研究就指出了谷歌项目在分析上的不足。首先,这个项目没有尽可能利用传统的统计分析手段来剔除系统误差,比如残差的自相关性和季节性;其次,“谷歌流感趋势”忽略了其他数据的作用。如果结合美国疾控中心的数据,谷歌的预测其实有可能被大大改善。
百度预测野心很大
百度的疾病预测(http://trends.baidu.com/disease/)于2014年6月上线,目前可以对全国34个省区、331个地市、2870个区县、19个城市的2558个商圈的11种疾病进行未来趋势的预测,包括提供流感、肝炎、肺结核和性病等疾病的活跃度、流行指数,以及各种疾病相关的城市和医院排行榜,用户可以查看过去 30 天以内的数据和未来 7 天的预测趋势。而且百度还在疾病预测的页面上,整合了百度旗下其他优势产品资源,比如在页面右下角提供了百度百科和百度健康的链接,用户点击过去就可以了解到有关当前页面疾病的各种相关知识。
百度疾病预测还加入了一些最新的技术成果和数据采集结果。例如,从公开资料来看,该产品模型的搭建一是通过历史数据构建统计规律性,比如流感或者手足口等疾病具有季节性周期的规律,二是通过研究疾病人数与其他相关数据的相关性来计算预测结果,同时从统计的角度来验证数据的正确性,以机器提供的数据为基础,加入对异常数据的监控和分析。
而为了让预测的准确率更高,百度还做了另外两方面的努力。其一是在数据合作上,不仅引入权威机构的相关数据而且保持同步更新,这其中不仅包含数据互通,同时也会与合作方的专家进行产品交流。
另一点不同在于,百度预测引入社交、天气、人群迁徙等搜索之外的数据,在搜索数据上,Google的query数据依赖于Google Correlation产品,而百度则是直接从原始日志中进行清洗、消岐、扩展和分析,相对来说,理论上更容易避免“春天感冒怎么办”这样的查询影响结果。此外,百度的地理划分可以细化到城市商圈,可以查询的疾病也比Google多。
事实上,百度的“野心”远不止简单的疾病预测,让“大数据落地”是如今互联网公司不得不做出的改进,而百度也将在医疗领域深化定制化的健康信息服务。
为了让疾病预测不只是一堆数据的堆积,而成为“中国人的健康图谱,老百姓实用的生活助手”,百度正在对此产品进行优化,希望继续增加病种,以覆盖常见传染病和慢性病。
此外,“除了时空数据,我们还会增加天气、环境污染、用户属性数据,希望能够针对不同用户,提供个性化的防病、健康信息推送。”百度相关负责人透露,百度疾病预测还将提供每日疾病指数等细化数据,日后有望增加个人健康顾问、预防治疗措施、求医用药指导等功能。
来源:ITBear、健康LIFE
《中国科学报》