◆郑敬华 许成喜 汪松鹤
(电子工程学院 安徽 230037)
网络空间用户心理健康风险研究
◆郑敬华 许成喜 汪松鹤
(电子工程学院 安徽 230037)
心理健康缺陷容易造成心理障碍甚至决策失误,因此在网络空间认知域领域的对抗中,能够直接影响到战争的胜负,所以预测人的心理健康成为对抗双方的重中之重。本文从预测流程、特征提取和预测建模三个方面综述了国内外在互联网络用户心理健康预测方面进行的研究,指出了研究中存在的问题,提出一些可能的研究思路和方法。最后,分析了网络空间中用户心理健康可能带来的风险。
网络空间;心理健康;风险;预测
网络空间已经由物理域、信息域跨越到了认知域领域,网络空间认知域的主体是人,换句话说,网络空间安全的关键在于人,网络攻防的目标也是人。心理战正是以认知域为主战场,运用多种对抗手段影响对手决策和意志,以控制认知域战场主导权为主要目的的特殊作战形式。为了取得认知域战场的主导权,如何实现预测人的心理特征成为重中之重。分析对方心理特征的缺陷,针对性的实施心理干预,促使其心理状态发生变化,导致心理、情绪甚至意识的改变,以至于产生决策失败,从而为自己取得战争的胜利奠定坚实的基础。
在互联网络成为人们依赖的同时,其对人们心理的控制和影响也更加凸显。因此基于互联网络数据预测用户的心理特征成为一种新的方式。心理特征有很多种类,本文主要研究基于互联网络数据预测用户的心理健康。
心理是用于多方面刻画一个人内心特征的属性,它反映个人的社会存在,是个人行为的动因,并且主导个人的行为。也就是说,人的外在行为与内在的心理因素是息息相关的,因此不同的心理因素造成了外在行为的不同,这就是行为的一致性。基于行为的一致性,随着社会计算技术的发展、互联网的盛行,使得基于互联网预测个体的心理特征成为可能。同时网上行为的可记录、易计算等特点使得这一研究变得非常方便,从而成为研究热点。
心理健康是人的健康不可分割的重要方面,是一种持续的心理情况,描述个体在各种环境中的一种高效且满意的心理状态,包括情绪健康、意志健全及行为协调等多个方面的内容。世界卫生组织将心理健康定义为[1]:个体的心理活动处于正常状态,包括智力正常、善于协调和控制情绪、较强的意志和品质、人际关系和谐、保持人格的完整和健康等。
传统心理健康的测量都是通过自陈量表的方式获得的,常用的量表对抑郁和焦虑的预测较多,如流调用抑郁自评量表(Center for Epidemiological survey,depreesionscale,CES-D)、贝克抑郁自评量表(Beek depression rating scale,CES-D)、医院焦虑抑郁量表(Hospital anxiety and depression scale ,HAD)、PHI(Psychological Health Inventory)七维度心理健康量表(包括功能紊乱、抑郁、焦虑、病态人格、多疑、幻想、狂躁)、90项症状自评量表(SCL-90)、生活事件量表(LES)以及青少年心理适应性量表等等,每种量表都有自己的侧重点。如贝克抑郁自评量表是测量抑郁严重程度最广泛的工具之一。
心理学指出个体周边环境中能够包含一些可以预测其心理健康状况的信息[2],而互联网络已经成为现实社会对应的线上虚拟社会,个体的周边环境,也是行为总体的一部分,同时通过网络数据对心理健康的预测在国内外有着深厚的理论基础和实践经验,因此借助网络数据预测个体的心理健康是完全可行的。国内外不少学者已经展开了网络数据和心理健康之间关系的研究,也取得了一些成果[3]。
Jim等人[4]旨在研究神经质和轻微的精神障碍之间的关联模式。Campbell A J.等人[5]研究发现网瘾与互联网使用时间和频率有关系。也有研究者研究发现网络成瘾与焦虑呈显著正相关[6][8]。Peng W.等人[7]发现对网络游戏的依赖与抑郁有着很明显的正相关。管理等人[9]试图通过微博语言特征与个体的自杀性行为之间的关系,识别出自杀可能性高的个体。最近也有研究表明通过社交网络用户发布的语言能够识别出具有某种心理健康问题的个体,如自杀倾向、伤害他人倾向和精神分裂等[10-11]。Munmum D.等[12]研究表明语言特征可以用来预测用户的抑郁症和是否有自杀念头。Mrinal K.等[13]第一次通过社交网络研究推特效应,即自杀模仿效应。Danielle M.等[14]从数据挖掘的角度,研究了Twitter用户抑郁症分类的数据特征选择问题。
研究者基于互联网络数据预测用户心理健康的研究已经取得了一些成果,从开始的统计某种网络特征与某种心理健康之间的关系,到现在的基于互联网络数据,运用机器学习方法进行预测建模,在这一领域取得了很大的进展。基于互联网络预测用户心理健康的整个流程如图1所示。
图1 互联网络用户心理健康预测流程
第一步,数据获取。包括两种数据的获取,用户的网络数据和心理健康标签数据。
(1)网络数据的获取一般是通过网络爬虫或者是网站提供的API(Application Programming Interface ,API)获取。许多网络都提供开放的API接口或者函数,允许第三方程序进行访问。如新浪微博提供的开放平台API;人人网提供开放平台,并使用OAuth2.0作为验证与授权协议,允许第三方应用在用户授权的情况下访问网站存储的信息。
(2)心理健康标签数据,基本上都是通过让被试者填写问卷调查获得。选取网络数据中有效数据的用户,通过让其回答心理健康量表,评价其心理健康状况的得分。
第二步,数据预处理。
(1)噪声处理。包括两种噪声的处理,一种是网络用户的噪音处理:将发布内容都是转发的用户删除,将内容仅仅是超链接的用户删除,将不常更新的用户删除。第二种是用户心理健康标签数据的噪音处理:将问卷答案为空的、填写答案只有一种的、填写答案有规律的问卷删除,选择有效的问卷获取标签数据。
(2)规范化。将非数值型数据转化为数值型,如将个人描述转化为长度数值;将男女信息转化为0和1数值;将地域信息规范为特定的数值标识等。
(3)归一化。一般是通过函数将变化幅度较大的特征约束在某一范围内,如(0,1)区间。
(4)文本数据特征处理。通过自然语言处理等方法提取文本信息,如提取第一人称使用频率、第二人称使用频率、@数、情绪词使用频率等特征。或者通过语义分析提取主题,并通过心理健康语料库进行。
(5)语义分析。提取文本内容的情感、观点、意见等主题信息,首先经过分词、噪音处理、根据心理健康语料(如心理健康词典Linguistic Inquiry and Word Count, LIWC)生成主题特征。
第三步,特征提取。提取与心理健康相关的数据特征,通过特征提取、特征选择,确定用来创建预测模型的数据。
第四步,创建心理健康预测模型。主要通过机器学习算法实现,大部分采用传统的有监督分类或回归算法。
第五步,验证模型的正确性并修正模型。通常采用预测相关性指标、预测误差指标和分类准确性指标进行验证。
基于互联网络对用户心理健康进行预测,大部分研究是从用户在网络发布的文本信息来提取特征,包括语言特征及语义特征。也有一部分学者通过用户社交网络中微博数据进行预测。心理健康预测研究中使用的数据及算法如表1所示。
微博数据包括性别、年龄、朋友数、粉丝数、图像信息等。Wald R等人[15]通过Twitter用户的微博信息和文本信息,预测用户精神变态症状。白朔天等人[16]通过提取新浪微博的微博特征预测用户的抑郁和焦虑症状。Ferwerda B.等[17]通过采集 113名Instagram用户的22398副照片信息,并提取图片数据特征,如色调、亮度、饱和度等,最终验证图片的数据特征与人格特征之间是存在关联的,如神经质与图片的亮度相关联,宜人性与图片中黑暗与光明区域的多少相关联。
语言学中很多研究证明,不同心理的人使用语言时的风格是不相同的[15][10][11],也就是说通过用户在互联网络发表的一些文本数据,如微博内容、回复内容、自我描述等也能够预测用户的心理特征。另外也有学者通过提取用户在互联网络中文本信息提取语义特征,分析出用户的情感、观点、意见以及人格魅力等信息,然后对用户的心理健康进行预测分析。
表1 心理健康预测研究中使用的数据及算法
Randall W等[15][19]利用Twitter用户的静态信息和文本信息,通过构建逻辑回归、多层感知器、随机森林和支持向量机等四种分类模型来预测具备精神变态倾向的用户;朱廷劭等[18]通过分析用户网络行为数据,基于PHI(Psychological Health Inventory)七维度心理健康量表,利用决策树创建心理健康状况预测模型,平均预测正确率为70%左右;白朔天[16]等采用多任务回归学习预测社交网络用户的抑郁和焦虑两种心理健康状况,最终证明心理健康问题可以通过网络行为反应出来。George G.等[10]使用聚类算法针对Reddit社交数据的语言信息,确定与心理健康相关的语言特征。通过分析不同心理健康问题的subreddits论坛内容(包括发布的帖子和评论内容),分析出16种覆盖不同心理健康问题的语言特征。Margaret M.等[11]通过Twitter API采集了174位自认为存在精神分裂症的Twitter用户的3200个帖子,首先通过LIWC、LDA(LatentDirichlet Allocation)、Brown Cluster、Character Language Models和Perplexity等5种自然语言处理方法挖掘与精神分裂症相关的语言特征,然后采用支持向量机SVM和最大熵MaxEnt两种机器学习算法进行分类,其最好分类准确率分别为 82.3%和81.9%。
从表1可以看出,基于互联网络预测用户的心理健康的预测研究,主要依据的还是网络本身的数据,研究的对象主要是在网络中发布的语言特征,研究的重点在于数据特征的选取,研究的方法主要是机器学习中的有监督分类算法。大部分研究者仅停留在具有某种心理健康问题的个体在互联网络中的语言特征分析上。
基于社交网络预测用户心理健康研究属于跨学科领域的研究,涉及了计算科学、心理学、社会科学等多个学科领域。虽然该领域研究已经取得了很多成果,但是在预测研究方面仍存在着以下两个问题:
第一,现实中,获取大量而有效的互联网络用户的标签数据,是非常困难的,这样不可避免的造成训练数据样本的缺乏。
第二,研究方法仅仅局限于单任务机器学习,即只是对某一种任务(如抑郁)数据及进行训练,然后学习该任务的相关信息。
对于非常小规模的训练样本数据,如果分别训练每一个任务,不可避免地会造成过拟合现象。同样,心理健康虽然描述的是一个人不同方面的心理状况,但是不同维度之间是存在一定关系的。以PHI七维度心理健康指标为例,心理健康指标七维度之间就存在一定的相关性的,如焦虑与抑郁之间,狂躁与功能紊乱之间都存在着正相关。而传统的单任务机器学习方法,并不能够充分利用多个任务之间的共享信息。因此可以考虑采取多任务学习方法,建立互联网络用户心理健康预测模型,这就意味着,同时学习多个心理健康任务,不但充分共享了其间的关联信息,而且也较好地解决了小样本数据在训练过程中带来的过拟合现象,提高了预测精度以及模型的泛化性能。另外,一般来说具备某种心理健康问题(比如焦虑、抑郁等)的用户,很可能不会再使用社交网络,同时心理健康是一个逐渐变化的过程,邻近区间的差异较小,因此研究社交网络用户具有某种心理健康问题的倾向性也许更为关键,研究通过其互联网络行为的演变规律去寻找心理健康的变化。
虽然目前心理健康预测领域的研究还不成熟,并且面临着各种困难和障碍,但是从社会发展的长期趋势来看,无论从攻防角度还是安全角度,关键的核心仍然是人,因此心理学与计算机科学以及社会科学之间的融合将成为未来的必然发展趋势。
心理战已经融入战争全程,其地位和作用也日益凸显,成为影响战争全局的重要因素。心理战中,信息成为了心理杀伤武器,构成了决定战争胜负的重要因素,可诱导心理杀伤,并降低战斗力[20],这里的信息就是我们前面描述的预测互联网络用户心理健康所使用的网络数据。
2010年的“涡轮”网络攻击行动,通过窃取计算机设备信息,汇总形成用户个人特征描述,提供监控人员决策是否对该用户进行深入监控,最终成功入侵全球近10万台计算机。这足以说明网络行为能够真实地反映人的心理,通过分析其网络行为,预测其心理、生理、观念甚至意识方面的内容,寻找其心理特征的脆弱性,也就是说将人的意志、信念、思维、心理等作为对抗的目标,从而有针对性地实施网络空间对抗,如针对性地对其推送能够引发身心功能障碍的损伤信息,如虚假信息、恐吓信息、易产生视觉差的图片信息等,导致其认知域发生变化,从而可能出现意志下降等认知能力问题,决策错误等认知判断问题,以及心理障碍等情绪变化问题,从而赢得胜利,这充分体现了“攻心为上,攻城为下;心战为上,兵战为下”的对抗思想。
相反,为了网络空间安全,我们就要预测我方人员的心理特征,分析其脆弱性,针对性地对其进行干预和引导,弥补心理健康缺陷带来的风险,避免为对方所利用,从而保护我方网络空间的安全。
[1] Herrman H,Saxena S,Moodie R. Promoting Mental Health:Concepts,Emerging evidence,Practice:A report of the World Health Organization,Department of Mental Health and Substance Abuse in collaboration with the Victorian Health Promotion Foundation and University of Melboume[M]//World Heath Organization,2005.
[2] Brunswik E. Perception and representative design of psychological experiments[M],1956.
[3] Kosinski M,Stillwell D,Graepel T. Private traits and attributes are predictable from digital records of human behavior[J]//Proceedings of the National Academy of Sciences,2013.
[4] Jim V,Park S,Jone P.Neuroticism life events and mental healrh:evidence for person-environment correlation[J].British Journal of Psychiatry Supplement, 2001.
[5] Campbell A J,Cumming S R,Hughes I.Internet use by the Social Fearful:Addiction or Therapy[J].Cyber Psychology &Behavior,2006.
[6] 芈静,张玉媛,韩慧,梅翠竹.网络成瘾与非成瘾医学认知状况比较[J].现代预防医学,2009.
[7] Peng W,Liu M.Online Gameing Dependency:a preliminary Study in China[J]. Cyberpsychology Behavior & Social Networking,2010.
[8] 张梦菡,赵笑颜,孙易蔓.大学生网络成瘾现状及其对交往焦虑的影响[J].中国社会医学杂志,2013.
[9] 管理,郝碧波,程绮瑾,叶兆辉,朱廷劭.不同自杀可能性微博用户行为和语言特征差异解释性研究[J].中国公共卫生,2015.
[10] George G.,Anika O.,Tim J H.Richard J D.The Language of Mental Health Problems in Social Media[C]// San Diego,California. Proceedings of the 3rd Workshop on Computational Linguistics and Clinical Psychology, 2016.
[11] Margaret M., KristyH., Glen C. Quantifying the Language of Schizophrenia in Social Media[C]// Denver,Colorado. Proceedings of the 2nd Workshop on Computational Linguistics and Clinical Psychology, 2015.
[12] Munmum D. C., EmreK., Mark D., et al. Discovering Shifts to Suicidal Ideation from Mental Health Content in Social Media[C]// CA USA. In Proceedings of 2016 Special Interest Group on Computer-Human Interaction(SIGCHI), 2016.
[13] MrinalK., MarkD., Glen C.,Munmun D C. Detecting Changes in Suicide Content Manifested in Social Media Following Celebrity Suicides[C]// Cyprus.26th ACM Conference on Hypertext and Social Media, 2015.
[14] Danielle M.,CraigB.,Mike C.Feature Studies to Inform the Classification of Depressive Symptoms from Twitter Data for Population Health[J]. https://arxiv.org/pdf/1701.08229.pdf,2017.
[15] Wald R,Khoshgoftaar T M,Napolitano A. Using twitter content to predict psychopathy[C]//Boca Raton,USA.Proceedings of the 2012 11th International Conference on Machine Learning and Applications,2012.
[16] Bai S T,Hao B B,Li Ang,Nie D,Zhu T S.Depression and anxiety prediction on microblogs[J].Journal of University of Chinese Academy of Sciences,2014.
[17] BruceFerwda.MarkusSchedl,MarkoTkalcic.Predicting Personality Traits with Instagram Pictures[J]. Springer International Publishing,2016.
[18] Tingshao ZYueN, Ang L. Using Decision Tree to Predict Mental Health Status based on Web Behavior[J].Proceedings of the 2011 3rd Symposium on web Socitey. Port Elizabeth, South Africa,2011.
[19] Golbeck J,Robles C,Tuener K.Predicting personality with social media[C]// New York,USA. Proceedings of the 2011 Annual Conference Extended Abstracts on Human Factors in Computing Systems,2011.
[20] 苗丹民,朱霞.心理战信息损伤的概念与研究[J].心理科学进展,2006.
省部级重大项目(AWS13J003)、国家自然科学基金(61602491)。