石酱
一个人的脸书时间线或Instagram相册。就是他或她的心理健康数字晴雨表。它并不是通过表情符号、标签以及激励人心的名言警句表现出来的。而是潜藏在一些你本身不知道的较为微妙的信号里,就像医生的血压计和心律显示器一样,可以对一个人的心理健康提供准确的诊断。
那些喜欢在社交煤体上分享最新猫咪视频或旅行照片的人,可能会对这个结论十分惊讶。这同时也意味着,社交媒体蕴藏着重要的潜能——比如拯救生命。仅在美国,每13分钟就有一人自杀,过去50年里专家一直在研究自杀者的动机和行为模式,但都没有取得实质性的进展。预测精神病发作和抑郁症发生也面临着同样的难题。
现在。科技人员通过机器学习和数据挖掘技术,从社交媒体上的海量碎片数据中提取信息,以上情况正在发生改变——人们已经通过这些方法跟踪并预测了流感的爆发,现在开始转向应对心理健康问题。
研究发现,如果一个人患有抑郁症,他的Instagram就可能推送色彩更蓝、更灰、更暗,人脸更少的照片。这些照片收到的费往往很少,但评论很多。他还可能喜欢用“墨井”滤镜,把彩色照片做成黑白照片,而不是用“瓦伦西亚”滤镜提高亮度。
即便如此,单凭这些也不足以诊断或预测一个人得了抑郁症。不过这对构建预判抑郁症的模型至关重要。该是“机器学习”方法派上用场的时候了。
哈佛大学和佛蒙特大学的研究人员最近利用这些技术分析了Instagram上近44000条帖文,由此得出的楔型可以正确识别70%的抑郁症患者,而普通医生只能诊断出42%的患者。同时,模型出现假阳性的比例也较低(不过这个统计数字来自另一批人群,所以这样的比较可能不公平)。甚至,在心理医生作出正式渗断之前,用户的订阅内容就已经出现了抑郁信号,这就让Instagram成为了某种预警系统。
长期以来,心理医生认为语言和心理健康之间存在联系,比如精神分裂症患者说话经常前后脱节和离题,而抑郁症患者说话会较多使用第一人称单数。最新的方法是,把某人的推特名字输入“文字分析”软件(AnnlyzeWords)——这是一个免费的文本分析工具,它会关注虚词(代词、冠词和介词)以分析用户的情绪和思维方式。比如,某个用户最近在推特上发表了1017个词语,这些词都表明他感到生气和担忧,在积极情绪方面低于平均值,就可得知实际上他最近对于世界的状况确实感到悲观。如果把“@realdonaldtrump”(编者注:美国总统特朗普的推特名)输入AnalyzeWords。你会发现美国总统特朗普在积极情绪方面得分很高,而担忧、愤怒和沮丧情绪的得分则可能低于平均值。
除了这种对情绪和社交风格的快速、有时甚至搞笑的测验,研究人员还在深入探究心理健康方面的问题。
可以反映出抑郁症的信息包括负面词汇(“不”、“从不”、“监狱”,“谋杀”)的使用增加和积极词汇(“快乐”、“沙滩”和“照片”)的使用减少,但这些信息都不具有确定性。美国哈佛大学、斯坦福大学和佛蒙特大学的研究人员更进一步,从约28万条推文中提取出了许多特征(情绪、语言和语境等),这一次得出的计算横型在判断抑郁症用户方面得分很高,还正确地预判了九成的创伤后应激障碍。
佛蒙特大学的数学、自然科学和技术科学教授克里断·丹佛斯说,积极词汇和负面词汇的比例是模型内的一个关键预测变量。其他的重要预测变量还包括更长的推文字数。丹佛斯强调,研究只评估了一小部分特定的人,所以这项研究目前还只是概念性验证。但他很乐观,“这些研究结果和其他类似研究结果表明,人们在网上的行为可以用来为诊断和筛查工具提供信息。”丹佛斯说道。如果加入生理信息(比如来自FitBits和睡眠应用的(信息),这些数据分析工具可以产生更强大的力量。机器学习法对精神分裂生症的准确预判率平均可达88%,不过这种程度的成功率只有通过人机协作才能达到。
那么,应该如何处理所有这些信息?首先需委本人的授权许可。微软研究院的一个研究团队成功预测了哪些怀孕妈妈有可能性情大变。这一切都是基于她们产前和产后早期的推特使用情况。不过研究人员也强调,他们的目标并不是取代传统的诊疗和预判方法。但想象一下,如果准妈妈们可以在手机上运行此类预判模型,又会如何?她们可以通过这个应用程序获得“产后忧郁风险值”以及相关资源信息,还可以在有需要的时候获得急救帮助。
不过,目前这个领域仍然比较保守,尤其是在隐私方面。如果你的心理健康数据痕迹对所有人可见,该怎么办?你可能被制药公司盯上,或者遭到雇主和保险公司的歧视。此外,此类项目有一些并不受制于临床试验的严格伦理監督,用户常常在不知情的情况下,数据已被挖掘。正如研究互联网伦理与隐私的学者迈克尔·齐默曾经解释过的那样:“社交媒体上的一些个人信息会以某种方式呈现,但这并不意味着人们可以轻易获取并公开这些信息。”
因此对于这个美丽新世界,还需要加上一些限制。2013年,谷歌流感趋势工具大幅高估了流感高峰值,哈佛大学的研究人员指责了大数据的“傲慢”:“它常常含有隐含的假设——大数据可以取代传统数据收集和分析,而不是成为后者的补充。”
数据挖掘和机器学习法为提早发现心理健康问题提供了可能。目前,从抑郁症发作到与治疗提供者接触要花6—8年时间。而焦虑症则需要9—23年时间。接下来,我们有望看到情况得到改善。目前全球有20亿用户经常使用社交媒体——这是这些方法可以推广的基础。正如马克·扎克伯格近期在规划脸书的人工智能时所写:“这个世界发生过很多悲剧——比如自杀,其中一些还进行了直播——这些原本是可以避免的。前提是有人意识到这些人发生了什么事,并及早报告。”
心理健康存在于看医生之前和之后的现实生活中,并且症状随时都在变化中,网站上的帖子、照片和推文都可能泄露使用者的心理健康状态。同样的,我们也可以通过网络促进心理健康的预判、诊断和康复。
社交媒体上。用户情绪变化的数据可能在不知不觉中按一些商业机构挖掘