抑郁症网络社交与疑似抑郁微博初步筛选算法

2022-01-22 07:47查国清胡超然孙铭涛王德庆

计算机工程与应用 2022年1期

关键词：词法分词群体

查国清，胡超然，孙铭涛，王德庆

1.北京航空航天大学可靠性与系统工程学院，北京 100191

2.波士顿大学文理学院，马萨诸塞州 02212

3.北京航空航天大学经济管理学院，北京 100191

4.北京航空航天大学计算机学院，北京 100191

统计显示目前世界各国有超过34 000 万的抑郁症患者，并且每年有1 000 万至2 000 万人有自杀倾向[1]。根据中国卫生部的统计[2]，截止2012 年，我国已有至少3 000万的抑郁症就诊记录。高校学生作为一个社会经验较少、心理承受能力较低，而又担负着未来家庭、社会多重责任的特殊群体，抑郁症发病率明显高于其他人群[3]。

目前，抑郁症的检测主要是基于心理量表测评。虽然该方法能够很好地预测用户是否有心理障碍[4]，但是也存在诸如：只能被动等待当事人主动寻求帮助，可能会漏掉存在抑郁倾向人员；效率低下，无法实现大规模人群心理健康状态的实时监控，识别结果反馈时间滞后；抑郁症患者有可能会选择不符合自我状态描述的积极备选项或表现出不符合自身状态的认知与行为等不可克服的不足。

有调查[5]显示，高校学生中微博普及率高达90%以上。用户使用微博的行为受到自身个性特征的驱动，个性特征可以作为推测微博用户心理特征的线索之一。微博用户会通过发表网络文本的方式来表达自己观点、想法和情绪等心理特征。用户使用微博的行为特征以及微博内容的语义特征有可能可以被用来表征微博用户的心理特征。通过对微博用户的网络文本和日志进行深度挖掘分析，可以获取用户一段时间以来的心理特征，进而为分析用户的心理健康状态包括抑郁状态提供了可能。

1 相关研究

借助于社交网络的数据进行心理分析逐渐成为研究的热点。目前研究主要为两个方向。

研究方向一，探索社交网络数据与抑郁症的关系。例如，密苏里科技大学的研究人员研究大学生互联网的使用方式与抑郁症之间的关联[6]。Gamon等人[7]从Twitter 上采集了有抑郁症以及没有抑郁症用户的数据，并利用最小二乘法对采集到的数据进行回归分析；统计了用户发布Twitter的时间信息，分析了两类用户在发布Twitter上的时间差异；并采用了皮尔逊相关系数方法分析了用户特征与抑郁症的相关性程度等。Moreno等人[8-9]使用Facebook数据检测青少年抑郁倾向，借助心理学上的诊断标准，结合Facebook主页信息对大学生抑郁状况进行分析。

研究方向二，利用社交网络数据检测识别抑郁症。如：Choudhury等人[10-11]中获取了大量的Twitter数据，并利用CES-D量表得到用户的抑郁状态标签，通过分析用户社交网络行为数据进行特征提取，构造抑郁检测模型，证明Twitter 数据能够用于检测用户是否有抑郁症。Hiraga等人[12]使用了来自Yahoo Japan、Livedoor等多个blog平台的数据，结合日语特有的语言特征进行特征抽取，并使用机器学习方法构建抑郁检测模型，证明blog数据可以用于检测抑郁用户。Li等人[13]研究发现，通过分析博客文本中文字词汇内容与文本结构特征可以实现针对网络用户情绪状态的识别。Gill 等人[14]研究发现，通过分析博客的短文本内容同样可以实现针对网络用户情绪状态的识别。

研究方向一中抑郁症用户和非抑郁症用户为事先采取人工标注方式得到。研究方向二中所提出的抑郁症检测识别模型，在计算机领域属于分类问题，也需要事先对抑郁症用户和非抑郁症用户采用人工方式进行标注以用于训练集和测试集构造。由于人工标注费时费力，本文在对抑郁症群体包括网络行为、文本语义（词和话题）等网络社交行为分析基础上，研究提出一种疑似抑郁微博的初步筛选算法，能够快速地从海量大学生微博中筛选带有抑郁情绪的微博，减少专家标注工作量，提高标注效率，为从海量微博中自动筛选占比非常少的疑似抑郁微博提供了可行性，并可进一步为后续抑郁症患者精确识别（分类问题）提供良好的数据处理基础。

2 抑郁症群体网络社交行为分析

2.1 数据来源

（1）抑郁症群体微博数据

新浪微博用户“走饭”为一名抑郁症患者，2012年3月18 日在微博上留下遗言后自杀身亡，影响巨大。在该微博遗言下有超百万的跟帖，并仍在不断增加。跟帖中不乏大量的抑郁症用户表达负面情绪。本文获取了“走饭”微博跟帖，在跟帖中寻找抑郁症微博，并籍由抑郁症微博寻找抑郁症用户。对于抑郁症微博的判定，本文共邀请了6 位在不同行业从事心理学有关工作的专家，分别独立地在上述获取的微博中标出抑郁症微博。最终由6位专家一致认定的，确定为抑郁症微博。同一用户在不同时间发布4 条以上抑郁症微博的认定为抑郁症用户。最终构成了抑郁症群体样本数据集和抑郁症群体微博样本数据集。样本数据集分别由8 081 名抑郁症用户及这些用户发布的90 568 条微博（包含40 035 条抑郁微博和50 533 条非抑郁微博）组成，获取的微博发布时间范围为2014 年至2018 年，获取时间为2019年1月。

（2）普通大学生微博数据

作为本文关注的大学生群体，获取了首都8所高校的53 573 名普通大学生的微博数据，考虑到研究伦理，不采集高校名称，不采集用户名。进行对比分析，并用于后续筛选疑似抑郁微博的数据集，微博发布时间为2018 年11 月12 日至2018 年12 月12 日，获取时间为2019年1月，共计701 827条微博。如表1所示。

表1 首都8所高校微博数据情况Table 1 Weibo data of 8 universities in Beijing

2.2 抑郁症群体微博网络行为分析

为了研究人们在抑郁症的影响下发布微博的行为将发生何种变化，本文利用2.1 节所述的抑郁症群体微博和普通大学生群体微博样本数据集，对比了抑郁症群体和普通大学生群体的微博数量与发布时间的关系。需要说明的是，由于普通大学生群体中有3 所高校的130 210 条微博数据时间戳受损，时间无法精确至“小时”，故将该部分微博数据舍弃，即本节利用的普通大学生群体微博样本集共571 617条。

（1）不同群体微博发布行为分析

对比了抑郁症群体和普通大学生群体的微博发布频率和变化率与时间的关系，如图1所示。横轴为一天中的24 小时，纵轴中微博发帖频率指某时段发帖数与当天总发帖数的比值。

图1 两类群体发帖频率及变化率Fig.1 Post frequency and change rate of two groups

从图1可见，抑郁症群体和大学生群体微博发布频率随时间变化的大体趋势相同。但是，抑郁症群体和普通大学生群体在微博发布频率和发帖变化率上又有所不同。从21点至次日8点左右，抑郁症群体发帖频率更高，而且发帖频率处于全天的较高水平。一方面说明抑郁症用户在夜间和凌晨比普通大学生群体更为活跃，另一方面也说明抑郁症用户在夜间和凌晨也是自身最为活跃的时段。由此可见，抑郁症群体的活跃度表现出明显的“昼低夜高”现象。

如图1 所示，大学生群体发帖变化率波动现象明显，结合发帖变化率的时间分布来看，波动现象基本都发生在上下课、午餐、午休、晚餐时段，说明大学生群体发帖受现实作息影响更为明显，侧面反映出普通大学生群体生物钟更加规律。与之相反，抑郁症群体的发帖变化率除了在凌晨和夜间有明显变化外，白昼时段发帖变化率较为平缓，反映出该群体在生活中过多关注自身、不想做事、不顾饮食甚至生活被动等现象，侧面反映出抑郁症群体伴随着意志活动减退的特点[15]。

2.3 抑郁症群体词特征分析

有研究表明，文档中出现频率较高的词语，即高频词，在一定程度上代表了文档的焦点所在[16]。本文统计并分析了抑郁症群体与普通大学生群体所发微博的高频词及特征，了解两类用户的关注焦点。如表2 所示，本文分别列出抑郁症群体与大学生群体所发微博排名前20的高频词。

表2 抑郁症群体和普通大学生群体高频词Table 2 High-frequency words in depression groups and ordinary college students

“语言探索与字词技术”（LIWC）广泛应用于研究语词分析与心理特征的关系。本文使用简体中文版的“语言探索与字词技术”（SC-LIWC）工具[17]，对抑郁症群体的词特征分析如下：（1）抑郁症群体在微博文本中使用第一人称单数代名词（“自己”）的频率最高。上述现象表明抑郁症群体自我意识或自我感知过强，在社会生活中更加沉浸在自己的世界里而不愿和其他人产生联系。（2）抑郁症群体在微博文本中使用确切词（“真的”）的频率很高。这说明抑郁症群患者对世界的看法更容易走极端，更容易以“非黑即白”的观念看世界。（3）抑郁症群体在微博文本中使用否定词（“没有”“不想”“可是”）的频率也较高。这种现象表明该群体在社会生活中常夹带着消极情绪，进而他们更容易否定自己、消极看待世界以及消极对待生活。（4）除此之外，抑郁症群体在微博文本中还广泛的使用没有实质意义的功能词和填充赘词等，这种现象说明该群体存在着思维不严密、不清晰的问题，进而反映出该群体犹豫、矛盾等心理特征。

与之相反，普通大学生在微博文本中频繁使用的词多属于社会历程词（“回复”“ 转发”）、正向情绪词（“哈哈哈”“喜欢”）和专有名词（“微博”“朱一龙”“超话”“卜凡”“尤长靖”“米奇”）等。这表明普通大学生更加关心外部世界、关心社会热点，在社会生活中也更加的与外界联系、与他人建立互动。这些词语特征反映了该群体积极、乐观等心理特点。

2.4 抑郁症群体话题分析

有研究表明，文本的话题内容在一定程度上反映了文本所要表达的中心思想[18]。因此，本文将提取抑郁症群体所发微博的话题内容，并分析其隐含的中心思想。

利用LDA[19]对抑郁症群体进行话题建模，话题数量设置为20。结果表明多数话题反映了抑郁症患者存在精神性—情感障碍、躯体性障碍、精神运动性障碍和心理障碍四个方面的问题。而上述内容与SDS 等抑郁评测问卷所涵盖的四个维度高度一致。本文选取了其中5个话题进行分析，如表3所示。

表3 选取的抑郁症群体5个话题及其主题词Table 3 5 topics and key words of selected depression groups

话题1孤独的话题。抑郁症患者内心孤独，感觉没有与自己能够说知心话的对象。可归为抑郁的精神性—情感障碍。话题2 选择死亡的忐忑不安心理的话题。这可能与严重抑郁症患者长期受病症的折磨，希望解脱但又害怕死亡，于是更希望自己在一场意外中突然结束生命的心理有关。这是严重抑郁症患者典型的心理症状，可归为抑郁的心理性障碍。话题3厌恶自己的话题。觉得自己是废物，是垃圾，感到自己没有用，可有可无，这是抑郁症患者典型症状，可归为精神运动性障碍。话题4 睡眠障碍的话题。失眠是抑郁症患者典型症状，可归为抑郁的躯体性障碍。话题5鼓励自己坚持下去的话题。这可能与抑郁症患者在与抑郁病症做斗争，接受治疗过程中展示出的正向积极的一面，给自己加油，鼓励自己有关。除了话题5，还有些话题也反映了抑郁症治疗以及抑郁患者社会支持等积极的话题，而这些话题在测评问卷中不会体现出来，可以看作是微博文本区别于问卷测评等传统抑郁症检测的不同之处。

3 基于抑郁关键词和语义扩展的大学生疑似抑郁微博初步筛选算法研究

本算法首先建立抑郁基础关键词表，然后利用Word2Vec工具[20]进一步扩展该词表，得到抑郁扩展关键词表，最后利用该扩展关键词表对被测微博进行分析，继而判断该微博是否带有抑郁情绪。算法的流程如图2所示。为了找了最佳的算法，本研究采用3种不同的方法建立抑郁基础关键词表和相应的抑郁扩展关键词表，进行对比。

图2 筛选算法流程Fig.2 Identify algorithm steps

3.1 抑郁基础关键词表的生成

方法1 SDS问卷分词法，指的是利用“jieba”文本分词工具对抑郁症自评量表（SDS）进行分词处理，并将分词结果作为抑郁基础关键词表的方法。先将SDS 量表中一半表征正向情绪的项目转化为表征负向情绪的项目，然后对所有项目进行分词并去除其中的主语和语气词等词汇，得到47 个词组成的词表（如：感到、情绪、沮丧、郁闷、早晨、心情、哭……）。

方法2 专家词法，指的是利用头脑风暴方法由若干专家运用研究经验基于精神性—情感障碍、躯体性障碍、精神运动性障碍和心理行为障碍四个维度开展头脑风暴，得到抑郁基础关键词表，由238 个词组成（如：情绪低落、沮丧、抑郁、闷闷不乐、失眠、易醒、噩梦、孤独、昼重夜轻……）。

方法3 综合词法，综合词法的抑郁基础关键词表与专家词法相同，然后按照3.2 节的方法对基础词表进行扩展，形成抑郁扩展关键词表。

3.2 Word2Vec 语义扩展和抑郁扩展关键词表的生成

Word2Vec 语义扩展的方法如下：将上一步抑郁基础关键词表的每个词分别与词典中的所有词计算余弦相似度，取相似度最大的前10 个词作为该词的近义词。这样对基础关键词表中的每个词都能筛选与其近义的10个词，去重，然后人工去掉其中与抑郁不相关的词或者不符合实验要求的词，如英文词和编码，得到抑郁扩展关键词表。实验时调用了python synonyms 包，synonyms 使用wikidata-corpus 训练的词向量生成近义词表。

需要说明的是，综合词法得到的抑郁扩展关键词表是在专家词法抑郁扩展关键词基础上加入与抑郁症有关的药品名生成的词表。本研究遍列了当前市场上治疗抑郁症的所有药品的化学名称和商品名称，如：阿戈美拉汀、阿莫沙平、百适可、百忧解、苯乙肼、彼迈乐、丙咪嗪、曲唑酮……等74个。3种基础词表法扩展后得到的抑郁关键词表分别有392、474、548个。

3.3 相似度分析

以2.1 节中普通大学生微博数据为样本，抑郁筛选首先要对微博做诸如删除语气词、分词等预处理，之后再展开相似度分析。相似度计算的做法是将每条微博分词为A1,A2,…,Am，每个分词与抑郁扩展关键词表的词向量K1,K2,…,Kn一一求余弦相似度，将最大的余弦相似度值作为该分词与抑郁症的相关度。举例：微博分词A1，依次求A1与K1,K2,…,Kn等n个词的余弦相似度，将n个余弦相似度中最大的那个作为该词与抑郁症的相关度。疑似抑郁微博筛选标准为：将微博分词A1,A2,…,Am与抑郁关键词表相似度最大的前3个求平均值（经人工多次测验，3个的效果比较好），若平均值大于95%，则认为该微博与抑郁相关。若微博中的分词数不足3个，则对所有词求其平均值。

相似度分析算法伪代码如下：

4 实验结果分析

4.1 筛选有效性分析

由于专家词法和综合词法相比只是没有药品的专有名词，所以为了确定最优方法，无需对3 种算法两两进行对比，只需先对比分析SDS问卷分词法和综合词法在筛选疑似抑郁微博上的性能，然后再对比综合词法的药品专有名词相比专家词法多筛选出的微博即可。本文分别从SDS 问卷分词法和综合词法两种算法的微博筛选结果中随机抽取2%，并交由专家判定筛选结果是否有效。SDS 问卷分词法与综合词法的专家评定结果如表4所示。

表4 筛选算法专家评定结果Table 4 Expert evaluation results of screening algorithm

综合词法和专家词法对比，有如下5条微博是被综合词法筛选出来而未被专家词法筛选的。

（1）有什么清热降火排毒的食物吗最近太暴躁了黄脸婆本人；

（2）原来情绪低落和不开心不一样；

（3）哈佛脑科学家：学习不好，情绪低落，比吃药更管用的方法是……

（4）[抱抱]我最近也是，时常情绪低落难以控制；

（5）【一夜“爆红”的芬太尼，黑天鹅又至，人福医药和恩华药业是否面临风险？】在周日的清晨，芬太尼意外成为12月最强市场焦点。如果说之前数次美国和加拿大抗议芬太尼并未能引起国内投资人的注意，那么今天C位出道的芬太尼必将被一再科普。从北美市场来看，芬太尼的凶猛与危险已经被上升到“鸦片”战争。

以上5条可见，虽然综合词法相比于专家词法增加了一定噪声，如（1）、（5）条，但是（2）、（3）、（4）条都带有负面情绪。

综上，3种算法对比，综合词法在筛选疑似抑郁微博的性能上表现最好。综合词法相比与专家词法虽然在引入药品名这一维度后会引入一定噪声，增加了误识率，但是其能够筛选到专家词法遗漏的疑似抑郁微博，而且扩大样本集范围后，更有可能直接筛选出在微博中符合治疗抑郁症药品的有关微博。

4.2 筛选出的疑似抑郁微博词特征分析

对于综合词法筛选出的疑似抑郁微博，使用与2.3节同样的方法进行词特征分析。

如表5所示，前20个高频词有如下特征：（1）疑似抑郁微博中使用悲伤词、否定词、生气词等负向情绪词，感知历程词，确切词，第一人称单数代名词、因果词等频率较高，占前20个高频词的80%，这种现象表明该群体自我意识较强，容易以“非黑即白”的观念看世界，并且在现实生活中常夹带着消极情绪，进而他们更容易否定自己、消极看待世界以及消极对待生活。这些用词特征与抑郁症群体特点高度相似。（2）但是疑似抑郁微博中也存在使用偏好词、摄食词、生活词、动词等表征该群体关注外部世界的词语的现象。由此可见，利用综合抑郁关键词法能够有效地从大学生群体中筛选出疑似抑郁微博。

表5 疑似抑郁微博高频词特征Table 5 Characteristics of high frequency words in suspected Weibo depression

4.3 筛选出的疑似抑郁微博话题分析

对于综合词法筛选出的疑似抑郁微博，使用与2.4节同样的方法进行微博话题的分析。在分出的20个话题中，有14个与抑郁相关的话题，占比达到了70%。举例如表6所示。可见，通过话题分析也验证了该算法对初步筛选出疑似抑郁微博有一定有效性。

表6 选取的疑似抑郁微博5个话题及其主题词Table 6 Selected 5 topics of suspected Weibo depression and their subject words

话题1 关于感到无聊发泄负面情绪的话题。

话题2 关于晚上做噩梦的话题。

话题3 关于恐惧自卑的话题。

话题4 关于迷茫的话题。

话题5 关于失恋分手的话题。

4.4 算法优化探讨

提出的综合词法虽然有效，有助于减少专家标注工作量，提高标注效率，但是筛选准确率只有65.7%。为了今后改进算法，提高准确率，对识别错误进行了分析，把错误识别分为漏识别和误识别两种情况，针对漏识别和误识别的微博分别进行了样例分析。结果如下：

漏识别（第一种识别错误）样例：这几年，健康不佳，睡眠煎熬，心情也不好，一路走来实属不易。希望年底许愿，明年有起色。该样例为漏识别样例。在该样例中，用户同时表达了身体不适和情绪不佳的症状，符合抑郁症生理和心理皆出现负面症状的特点，但该算法并未将该样例识别。该样例未识别的原因在于分词特征不足，分词过于细化使得“不好”“不佳”等形容词并未与之前的名词结合起来，使得整个文本的相关度低于阈值。

对于第一种识别错误，今后改进算法时，可增加分词特征。在模型中增加分词特征可以使得模型对于多个词连接成的合成词进行识别，并更准确地计算文本的相关度。

误识别样例（第二种识别错误）：小朋友看了综艺真是哭得超级惨[笑cry]感受到了对维他命老师深深的喜爱[笑cry]。该样例为误识别样例。在该样例中，由于模型识别到了如“哭”“cry”“惨”这样的词，导致该文本被识别了出来。

对于第二种识别错误，今后改进算法时，可使用能够将文本中词汇的上下文加入计算的模型。中文中有些词在不同的语境下可能表示了不同的意思，如“哭”表示了负面情绪，“笑哭”表示比“笑”更强烈的正面情绪，“笑着笑着就哭了”又表示了负面情绪。现有已获得特定词向量的语料库无法解决这种与上下文有关的情感分析问题，因此在进一步的研究中，应该着手于使用能够分析上下文语意语境的模型来进行进一步研究。

5 结论

构建了抑郁症群体样本数据集和抑郁症群体微博样本数据集，采集了普通大学生微博数据。以此分析并总结了抑郁症群体发布微博的网络行为、文本语义（词和话题）等社交网络行为特点。依据这些特点，综合专家智慧，并运用Word2Vec 工具建立了抑郁症扩展关键词表，该词表为研究提出疑似抑郁微博初步筛选算法提供了支持。

提出基于抑郁关键词和语义扩展的大学生疑似抑郁微博初步筛选算法，筛选准确率为65.7%。虽然准确率还不是很高，但达到了快速地从海量大学生微博中筛选带有抑郁情绪的微博，减少专家标注工作量，提高标注效率，并进一步为后续抑郁症患者精确识别（分类问题）提供良好的数据处理基础的目的。

为提高筛选准确率，分别对第一种识别错误和第二种识别错误进行了分析探讨，提出了未来结合语意语境分析优化算法的思路。