米国伟 先祖权 王琳 吕端士
关键词:社会化问答社区;新冠肺炎疫情;心理健康;信息需求;聚类;主题模型
随着国内外新冠肺炎疫情防控形势的常态化,公众心理健康成为值得关注的焦点。2020年2月,中国政府网发文指出疫情期间心理健康问题不容忽视。2020年8月,世界卫生组织总干事谭德塞表示,疫情期间缺乏社交会对公众心理健康产生深远影响,造成公众焦虑和恐惧等心理问题,扰乱心理卫生服务。可见,疫情期间公众心理健康问题值得关注。
在数字化网络时代.人们已经由传统的向专业人员咨询转变为主动地通过各种渠道来获取健康信息。第45次《中国互联网络发展状况统计报告》显示,截至2020年3月,我国网民规模达到9.04亿,较2018年底新增网民7508万。疫情期间居家隔离导致社交减少,公众对心理健康信息需求的表达更多地转向线上平台。而随着社会化问答平台不断发展,以“知乎”为代表的平台用户数不断增加,用户通过在“知乎”平台上提出问题来反映其信息需求,其中心理健康话题下的提问数据已经累计达到16万余条,而现有文献几乎没有涉及该话题下的信息需求研究。以往对问答平台中信息需求的研究大部分采用问卷调查或者访谈的方式进行实证研究,研究所涉及的数据量较少。少部分研究通过人工标注或者K-means聚类算法对采集到的数据进行挖掘,但没有涉及心理健康信息需求方面的研究。本文通过K-means聚类算法和LDA主题模型挖掘“知乎”平台下心理健康话题中的公众心理健康信息需求提问数据,并对这些数据进行分析和研究。
本文研究的主要目标首先是构建出新冠肺炎疫情期间“知乎”平台下公众的心理健康信息需求框架,接着探究出公众心理健康信息需求分布(主题分布、时间分布、时期分布等)的特征,最后研究出疫情期间不同社会群体的心理问题分布。通过对这些问题的研究,可以有效把握疫情期间公众心理健康方面的信息需求规律和特点.为政府有关部门及相关社会化问答平台更好地服务公众提供参考。
1国内外研究现状
1.1社会化问答平台信息需求研究
国内外对社会化问答平台的信息需求研究主要是分析特定领域的信息需求。黄达安等通过内容分析研究知乎社区有关HPV疫苗的提问记录,将HPV疫苗信息需求分成疫苗的有效性、副作用、接种知识和接种渠道等方面的信息需求。金碧漪等通过参考现有糖尿病信息需求类目并结合提问数据内容分析结果来探究糖尿病信息需求主题特征,得出消费者对于糖尿病健康信息需求量最大的方面是日常疾病管理、疾病确诊和治疗的结论。赵安琪等结合威尔逊的信息模型,通过实证研究得出抑郁症健康信息需求主题规律,分析出健康信息消费者的认知需求最广泛,社会角色对健康信息需求的干扰较多。此外,还有一些学者使用数据挖掘的方法来分析特定领域的信息需求。Oh S等以Yahoo!Answers问答平台上与癌症有关的提问数据作为研究对象,通过文本挖掘的方法得出人口学、认知、情感、社会、情景和技术信息这6大癌症信息需求类目及各类目数据占比。陆泉等通过潜在语义索引(ISI)模型和MapReduce分布式聚类方法对求医网肿瘤板块中24305条提问数据进行需求挖掘,得出信息需求框架和需求占比情况,分别为治疗(43.3%)、病理及病因(34.5%)、检查(12.1%)、术后(7.0%)、预防(3.1%)。张霁月通过K-means聚类和MapReduce分布式聚类的方法挖掘求医网健康社区中的提问数据,分析肿瘤患者信息需求类目,主要为病理及病因、预防、检查、治疗和术后这5大类目体系。上述这些研究基于社会化问答平台某一特定领域,但鲜有涉及心理健康信息需求这方面的研究。
1.2公众心理健康研究
国内外对公众心理健康方面的研究,主要以传统的研究方法为主,但近年来逐渐开始关注网络环境的研究。Aref-Adib G等通过半结构化访谈的方式对精神障碍患者线上心理健康信息搜寻行为进行研究,发现精神疾病患者会利用互联网获取精神与健康有关的信息,有助于辅助决策和治疗。KimJ等基于深度学习模型挖掘健康社区中用户的帖子信息(Posting Information),能够自动诊断出用户是否存在抑郁、焦虑、边缘性人格障碍、精神分裂症和自闭症等心理问题。Pian W等通过文献调研的方式对216篇文献进行分析,发现很少的文章对消费者健康信息需求给出了明确的定义。Mei.ko M等通过内容分析的方法探究2017年心理健康宣传周期间在Twitter上转载的讨论文本,将文本分成了意识和倡导、污名化、个人心理健康/疾病体验这3类中心话语。
此外,一些学者研究了新冠肺炎疫情期间的公众心理健康问题。Barzilay R等对疫情期间公众心理健康问题进行了有益探索,通过网络调查的方式对疫情期间公众心理问题水平和复原力进行测度和评价,发现复原力有助于缓解公众的焦虑和抑郁等心理问题。王畅等通过问卷的方式对217位医务人员进行调查,分析了医务工作者的心理健康状况.发现新型冠状病毒肺炎流行期间医务人员心理健康状况有待改善,应重点关注未婚、文化程度为硕士及以上人群。吴怡等通过焦虑自评量表和自制问卷对1196名大学生进行网络调查.得出疫情期间大学生焦虑症状比例较高的结论。对现有文献的调查中,暂无对疫情期间公众心理健康信息需求方面的研究。
2基于文本挖掘的心理健康信息需求分析框架
本文基于文本挖掘方法对中文问答平台下公众心理健康信息需求提问数据进行分析,具體分析框架如图1所示。本分析框架包括5个步骤,首先是数据采集,并对爬取到的数据进行检查,之后进行数据处理.将原始数据转化成计算机可以识别处理的文档词条矩阵(DTM)的形式,再分别通过K-means聚类和LDA主题模型对DTM进行分析.对两者生成的结果进行综合,最后进行公众心理健康信息需求的识别。
2.1数据采集与处理
1)数据来源与采集
中文问答平台相比于普通搜索引擎,其检索到的答案能得到其他用户的反馈和评价,越来越受到大众的青睐。“知乎”作为社会化问答平台的代表,截至2020年7月,其用户数已超3亿。本文以疫情期间“知乎”平台下的公众心理健康信息需求提问数据作为研究对象,数据源确定为2019年11月10日-2020年8月12日该平台心理健康话题下全部共计14168条公众心理健康信息需求提问数据及其回答数、关注数和提问时间。笔者通过“八爪鱼”采集器V8版本(https://www.bazhuayu.com)进行数据爬取并进行去重检查,最后将数据保存至CSV文件中。
2)数据处理
数据处理部分首先需要对数据、专业词库和停用词表进行导人。本研究通过R语言进行编程,使用RSTUDIO编译环境,通过read.esv()方法导人数据。专业词库采用的是百度心理学专业词库(https://shurufa.baidu,com/dict_list?cid=233),词条数目为4 068。停用词(Stop Words)指的是一些无实际意义的词语,例如助词、介词、连词、语气词等,本研究采用的是哈工大停用词库(https://github.com/got0456/stopwords/blob/master/hit-stop-words.txt),停用词数共计676个。之后对提问数据进行分词,中文分词包括基于词典的分词方法和基于统计切分的分词方法_1引.本研究采用基于词典的分词方法,基于R语言开发的JiebaR包实现分词。在分词过程中,需要将停用词去除,确保后续文本特征准确提取。接着将分词之后的数据类型转变为语料(Corpus)的形式,通过DocumentTerm.Matrix()方法将语料构造成文档词条矩阵(DTM)。DTM是一个二维矩阵,第一行代表语料中的全部特征词,第一列代表用户提问文档数据序号,矩阵的值代表特征词在各文档中共现频次。初步生成的DTM维数众多,为了提高后续算法运行速度和聚类精度,需要对初始DTM进行特征筛选和提取,常见的方法有主成分分析(PCA)、奇异值分解(sVD)和人工筛选特征等。本研究通过对DTM中词频数和词长设置阈值来筛选特征,保留词频数高于10且词长大于1的共计949个特征词。
2.2 K-means聚类
聚类算法是研究对事物如何进行分类的一种无监督学习算法,包括K-means聚类算法、基于密度的聚类算法、层次聚类算法、期望最大化聚类算法等。K-means聚类算法是一种广泛使用的基于划分的聚类算法,它通过计算数据间的相似度来将原数据划分成不同的簇群.使得不同簇群之间的数据相异,而簇内数据相似。本文所爬取的公众心理健康信息需求文本数据通过K-means算法能够有效地将其进行聚类,将文本数据划分成合适的簇群,为后续公众心理健康信息需求框架的构建提供依据。
K-means聚类算法的簇数的确定和算法结果的评估是两个值得关注的重点。肘部法则是常见的簇数确定的方法,根据式(1)绘制不同k值下的成本函数曲线,随着k值的增大,函数曲线肘部(下降幅度最大的位置处)对应的k值则为最佳簇数。公式中u;是第k个类的中心坐标。
本研究对算法结果的评估主要采用轮廓系数(SC)法,它是一种常用的聚类算法评价的内部标准,具体如式(2)所示。a(d)代表样本d所属簇的凝聚度,6(d)代表样本d与其他簇的分离度,SC表示轮廓系数。
2.3 LDA主题模型
潜在狄利克雷分布(LDA)主题模型是在潜在语义分析(PISA)模型的基础上提出的,本质也是聚类算法。不同于K-means聚类,LDA是一种基于概率的算法,它是三层贝叶斯模型,包括文档、主题和词项3层结构。LDA是文本分析领域最受关注的模型之一.在文本挖掘领域有着广泛的应用。首先,它可以作为一种降维的工具。由于LDA模型训练完成之后,能够得到一个文档在主题空间的表示,在词项空间中进行的一些文档处理可以通过LDA模型在主题空间中完成。此外,利用主题模型的参数估计值,还可以完成协同过滤、单词或文档相似度计算、文本分段等任务。本研究使用LDA主题模型来对公众心理健康信息需求文本数据进行分析.能很好地进行主题发现,LDA假设文档生成过程首先对每个主题生成“主题一词项”分布参数:接着对每个文档生成“文档一主题”分布参数:再对当前文档的位置生成其所属主题:,并根据当前位置的主题.生成当前位置对应的词项:LDA主题模型概率图如图2所示,图2中的参数解释如表1所示。
2.4需求识别
K-means聚类和LDA主题模型所得到的结果需要进行心理健康信息需求识别。这一阶段需要综合分析结果并参考现有类目框架,从而得出本文的公众心理健康信息需求类目,统计出公众心理健康信息需求在每个类目中的分布情况。接着通过TF-IDF方法对每个类目下的特征词提取出主题关键词,TF(Term Frequency)指的是词频,需要计算词语在心理健康信息需求聚类后的文档中出现的频积,详见式(5)。之后对抽取出的关键词进行词云分析,绘制出词云图。此外,本阶段还需要进行公众心理健康信息需求规律统计和分析,绘制出条形图和词云图,将结果可视化。
3公众心理健康信息需求结果分析
3.1数据基本情况
本文通过对“知乎”中文问答平台心理健康话题的数据爬取和检查,共采集到14168条公众心理健康信息需求数据及其回答数、关注数和提问时间,对数据基本特征进行了统计,如表2所示。
通过对数据的统计,发现公众心理健康信息需求数据的回答数和关注数标准差较大,这反映了公众对不同类型的信息需求兴趣相差较大,为了研究疫情期间公众心理健康信息需求所关注的焦点,本研究对提问数据的关注数和回答数设置一个阈值10,抽取出超过10个回答和关注的数据.并对这些数据进行词云分析得到高关注、高回答数据的主题词云图.词云图中包含前100个主题关键词,如图3所示。从图中可看出“心理”“问题”是公众重点关注的主题,“抑郁”“痛苦”“害怕”是公众重点关注的心理问题。此外,还存在“学生”“高三”“高中”等与学校有关的关键词,这说明疫情期间公众也比較关注学生复学可能出现的心理健康信息需求。
此外.本研究将数据按照疫情发展的时间节点划分成疫情暴发前时期(2019.11.10-2020.01.22)、疫情时期(2020.01.23-2020.04.08)和后疫情时期(2020.04.09-2020.08.12),疫情暴发前时期至疫情暴发时期的划分以武汉封城为标志,疫情时期和后疫情时期的划分以武汉解封为标志,各时期公众日均提问数据量如图4所示。从图4中可发现疫情暴发前时期公众心理健康方面的信息需求较少.而疫情时期公众心理健康方面的信息需求显著增加,达到日均77.23条。而后疫情时期公众心理健康信息需求水平有所下降.但仍比暴发前时期的需求水平要高,这说明随着我国疫情防控局势的整体好转,居家隔离政策逐渐取消.公众可以参加一些户外及室内社交聚集活动,这有利于公众心理方面保持健康,从而降低其心理健康方面的信息需求水平。之后,本研究还根据公众的提问时间绘制出公众心理健康信息需求数据时期分布图,如图5所示.从图5中也可以看出公众心理健康信息需求水平与疫情发生的前后阶段呈相关关系。
为了更好地探究各时期公众心理健康信息需求的内容特征,本研究提取出各时期的15个关键词及其TF-IDF值,结果如表3所示。从表中可看出疫情暴发前时期公众心理健康信息需求主要集中在克服消极情绪、与他人的相处以及询问心理问题的原因。疫情时期的心理健康信息需求主要集中在疫情环境下发生的心理健康问题,例如焦虑、压抑等问题。后疫情时期的心理健康信息需求主要集中在询问如何克服心理问题以及走出阴影。
3.2公众心理健康信息需求框架
通过对K-mean聚类和LDA主题模型的结果进行分析,并综合现有的类目体系,构建出本文的公众心理健康信息需求框架。本框架大类数根据肘部法则确定,肘部法则图像如图6所示,从图像中可看出聚类数确定为9比较合适.通过同样的方法再确定出每个大类中的子类数,并结合LDA结果进行需求类目名称的分析与概括,最终确定本框架的9个大类和22个小类,并对数据聚类结果再通过内容分析的修正从而得出公众心理健康信息需求占比,如表4所示。
从表4中可看出新冠肺炎疫情公众心理健康信息需求占比最大的前3个大类分别是自我管理与调节(43.58%)、社会生活(22.95%)和诱因(12.91%),占比最小的前3个大类分别是预防(0.33%)、教育(0.90%)和治疗(1.84%),这说明疫情期间当公众出现心理健康方面的信息需求时,大部分公众想要通过自我管理与调节的方式而不是去专业机构治疗来满足其需求。在子类中,占比最大的前3个类目则是其他心理问题的自我管理与调节(28.75%)、社会情感支持(13.45)和负面情绪的自我管理与调节(11.24%),占比最小的3个类目分别是抑郁的预防(0.05%)、心理测试相关的检查和诊断(0.11%)、缺爱的症状及表现(0.13%),数据中与抑郁有关的信息需求占比为3.84%.而有关抑郁预防的信息需求仅占0.05%,这说明公众对抑郁预防的认识有待提高。
3.3疫情期间不同社会群体的心理问题分布
本研究通过对数据的分析,发现2398条以父母、孩子、朋友或同学为主体的心理健康信息需求提问数据,此外还发现1651条表征公众抑郁、焦虑、自卑、缺爱、压力和恐惧的心理问题的数据。通过对这些数据进行交叉统计得到疫情期间不同角色的公众心理问题分布,如图7所示。图7共对893条交叉数据进行统计.从不同群体的角度可以发现这6种心理问题普遍集中在自己身上的频率较高:从不同心理问题的角度可以发现抑郁这一心理问题在所有群体中出现的频率均较高。
4讨论
本研究发现,新冠疫情暴发前时期公众关注的重点主要集中在克服不良情绪、心理问题事件评价以及询问造成心理问题的原因。在疫情时期,心理健康方面的信息需求主体为公众自身.其次为朋友、父母、孩子和同学。这一时期公众提问数据中含有大量与疫情有关的信息.这反映出疫情暴发时期公众因为长时间居家隔离导致其心理健康方面可能出现问题从而产生相关的信息需求。此外,这一时期的数据中还有很多“焦虑”“压抑”等表征心理问题的关键词,这反映出疫情环境下会加剧公众心理健康问题的发生.相关部门和问答平台应该及时追踪,提供更多的心理健康方面的服务。后疫情时期公众关注的重点主要是生活方面的心理健康问题以及如何摆脱心理阴影,很多信息需求提问以母亲、女生为主体,以家庭为情景,这说明疫情期间家庭中出现心理健康方面的信息需求显著,并且女性出现心理健康信息需求的比重明显高于男性,疫情期间有关部门应该重点关注女性的心理健康信息需求,江永燕等的研究发现疫情期间男大学生心理健康水平要明显优于女大学生。本研究将研究群体扩展至社会公众,发现就社会公众而言,疫情期间男性的心理健康水平要明显好于女性。此外,Belkin的知识非常态理论指出公众的信息需求产生于知识非正常状态,公众在社会化问答平台上进行心理健康方面的信息需求提问并渴望获得信息需求反馈来实现其知识的常态化。Taylor需求层次理论将公众的需求依次分成内在需求、意识需求、形式化需求和折衷需求这4个层次,公众在社会化问答平台上进行的心理健康方面的信息需求表达属于折衷需求,而从形式化需求转化为折衷需求需要公众进行准确的信息需求表达.否则折衷需求便可能不能完全反映公众的真实需求,导致公众的信息需求不能充分满足。从3个时期的关键词中,都可看出“心理”和“心里”这两个关键词同时出现,这反映出公众在表达其心理健康方面的信息需求时存在一些描述不准确的情况,这可能不利于公众得到及时的心理健康信息需求反馈。
本研究构建出公众心理健康信息需求框架,并将提问数据归类到需求框架中,得出各需求类目数据分布情况。研究发现,疫情期间公众对自我管理与调节方面的信息需求最为显著,这可能是因为疫情期间由于居家隔离,公众不能去医院或有关心理咨询机构治疗心理方面的问题。此外,由于心理问题污名化现象的存在,公众对自身存在的心理健康方面的信息需求也不太愿意和他人诉说,所以公众对自身可能存在的心理健康问题有着强烈的自我管控的欲望,有关部门及问答平台应该为公众提供更多的心理健康管理与调节方面的知识,更好地满足公众的信息需求。此外,公众最少关注的需求类目是预防、教育和治疗,这反映出面对心理健康问题公众不太愿意寻求专业治疗.公众对心理健康问题的预防意识和接受专业心理治療的意识也有待提高,陈祉妍等的研究表明心理咨询与心理治疗有助于维护和改善公众心理健康水平,减轻疾病负担,促进家庭和谐,所以当公众心理问题比较严重的时候,应该及时去专业机构治疗,仅靠公众自我管理与调节效果可能并不理想。
本研究还发现公众心理健康信息需求提问数据中含有很多表征不同社会群体不同心理问题的信息.这说明疫情期间公众不仅关注自身的心理问题,也较关注身边人的心理健康相关的信息需求,体现出疫情期间公众有较强的自我保护与保护家人和朋友的意识。通过对这些数据的分析,绘制出疫情时期不同群体的心理问题分布图。群体主要包括提问者本人及提问者的父母、孩子、朋友和同学.这些群体在疫情期间均表现出常见的心理问题,例如抑郁、焦虑、恐惧、压抑、自卑、缺爱,其中有关抑郁的心理问题在各个群体中的发生情况尤为突出。在重大的危机事件下,公众极易产生不确定感,尤其是新冠肺炎疫情不可预测性和突发性,如果当地产生较多感染病例时,这种不确定感会转化为公众的焦虑情绪,直至抑郁。因此有关部门需要格外重视公众这种心理问题的发现、追踪和治疗。此外,缺爱这种心理问题在孩子这一群体中出现的频次也比较多.这表明疫情期间儿童的心理健康问题不容忽视。刘雯雯等的研究表明儿童处于身心健康快速发展的时期.缺乏积极的户外活动会导致其产生情绪低落和抑郁等问题,加之多数父母对这种心理问题不了解,无法及时帮孩子排解情绪,儿童会出现缺爱引发的各种心理健康问题,因此父母平时要留意孩子的举动和情绪变化,争取给孩子足够的自由活动空间.增加孩子与同龄人的交流机会。
5结论
本研究通过数据采集、数据处理、K-means聚类、LDA主题模型和需求识别这5大步骤,探究疫情期间基于社会化平台的公众心理健康信息需求。根据疫情发展态势,将数据划分为疫情暴发前时期、疫情时期和后疫情时期,通过TF-IDF方法提取出各时期前15个关键词,从而对比分析出各时期公众心理健康信息需求特点。研究得出以下结论:首先,疫情期间比较容易出现家庭情境下的心理健康信息需求。其次,公众容易出现与抑郁有关的心理健康信息需求。再次,新冠肺炎疫情期间公众心理健康问题的预防意识和接受专业心理援助的意识有待提高。最后,网络环境下心理健康信息需求表达的准确性有待加强。
另外,本研究也存在一定的局限和不足,在后续的研究中,可以通过对微博平台、心理健康专业门户网站或者“知乎”平台下其他与心理健康有关的话题数据进行分析.从而能够更加全面地探究疫情期间公众心理健康信息需求。此外,还可以通过设计其他算法来进行数据聚类和主题提取,从而更好地探究本研究方向。