你“说”我来“猜”

2015-07-21 15:43洪蕴哲
科学家 2015年7期
关键词:词库中科院词典

洪蕴哲

看过美剧《犯罪心理》(Criminal minds)的人经常会为这样一个情节而感到半信半疑:联邦探员们仅仅通过罪犯的日记或者书信就能判断出他们的性别,年龄,社会地位,甚至人格特征与童年经历。很多时候,我们都把这些当作影视文学作品对于主人公的一种神化和茶余饭后的谈资,很少有人会把这些经验之谈当作真正的科学。然而,随着信息科学的发展,情感词库,情感分析工具,文本挖掘技术为心理学领域中研究心理和语言的关系提供了一定的技术支持。

德克萨斯州大学的心理学教授James Pennebaker(2008年)曾说过,人们说话的方式以及词语可以泄露他们的所思所想,他们与事物之间的关系。近年来,随着社交网络的流行,人们会在各种平台上发表状态,例如微博,QQ空间,微信朋友圈等等。“死了的人才被挂念,不曾记起,就相忘于江湖吧。”“想找一个地方大声哭出来。”当我们看到这些状态时,是否能感受到发起者强烈的负性情绪,是否能感受到他们的无助感?

微博作为一个公开的社交平台,可以从中获取大量的文本资源,中科院心理研究所的人员针对中文微博的文本分析与行为预测进行了开创性的研究。

简体中文版心理语言分析词典的建立

文本是由特定的人制作的,文本的语义不可避免地会反映人的特定立场、观点、价值和利益。因此,通过文本内容分析,可以推断文本提供者的意图和目的。在许多关于社交媒体的文本分析中,基于计算机的文本分析软件被普遍使用,语言获得与词汇计数系统(LIWC)就是其中一种,该软件的核心是拥有一个词库,分为不同的维度,如“心理过程词”“语言过程词”等。对于一段输入的文本,每个单词会与词库中的词语进行比对。

英文版的LIWC被广泛使用。由于中文相对于英文更加复杂,所以很有必要建立一个简体中文版的LIWC。之前已经有繁体中文版的LIWC词典,中科院心理研究所的社会与工程研究室的朱延劭团队(2013年)就基于此建立了一个简体中文版的LIWC词典,该词典不仅有正式常规的词语,还加入了微博中的高频词,因此该词典既可以用于正式文本的分析,也可以用于微博文本的分析。

首先,研究人员找到了21个中国科学院大学的毕业生,他们的母语都是简体中文。这21个人被分为3个组,每个组的每个人都独立地将繁体中文版LIWC词典里的词汇一个个过一遍,然后找到最合适的简体中文词来代替它。例如用“它们”代替“它們”。对于组内的分歧,所有人进行讨论,采取少数服从多数的原则。这样,每个组都生成了一个词库。接着,再请来3个评分者,对这3个组生成的词库进行检验,如果这3个组的词库有分歧,评分者再进行讨论,然后继续采取少数服从多数的原则得出一个更为合理的最终版本的简体正式中文版LIWC词典(SCLIWC)。

接下来,为了添加微博中的高频词到词典中,研究人员首先获取了99925821个新浪微博用户,并按以下原则来过滤掉一些研究价值不大的用户:1.在近3个月内没有发表状态或者用户发表总状态数少于512条的;2.每天发表状态在40条以上的(广告用户)。过滤掉之后,留下了1953485个活跃用户,将他们发的文本状态全部下载下来。然后,从所有活跃用户当中随机选取20000个用户,从这20000个用户发表的状态中提取词频前5000的词,再将20000个用户随机分成两个组,分别从这两个组用户发表的状态中提取出使用频率前5000的词,研究者发现从这几个样本中提取的高频词重合率是非常高的,说明这些词确实经常在微博中被使用。最后,剔除了停用词和SCLIWC中已有的词汇,获得了新浪微博中使用率排在前5000的词,这样就构成了简体中文版微博词典(SCMBLIWC)。

这样,将SCLIWC和SCMBLIWC这两个词典融合到一个应用程序中,就可以同时分析正式文本和微博文本。中科院就基于此开发了一个公开的网络平台“文心”(TextMind)http://ccpl.psych.ac.cn/textmind/。通过“文心”,可以便捷地分析文本中使用的不同类别语言的程度、偏好等特点。

自杀者和潜在自杀者的语言风格

中科院的研究者首先将他们开发的简体中文版词典应用到了自杀的研究中。量表作为一种传统自杀可能性评估方法,在时效性上有所欠缺,有自杀可能的人尽管很多不会主动寻求专业帮助,但其在言语中往往存在对于自杀倾向的流露。朱延劭管理等人(2015年)在线招募微博用户参与问卷调查,根据个体自杀可能性量表中文版得分情况将982名受访者分为446名高自杀可能组和536名低自杀可能组,分析2组在微博提取的10类行为特征和88类语言特征上的差异。结果发现,高自杀可能组的用户与其他用户相比社交活跃度低,夜间更加活跃,关注别人更少,使用更多表达否定、死亡的词语,使用更少指向未来的词语。

也许这样的结果仍然会引起别人的质疑,因为人毕竟没死,我们有对结果进行自圆其说的嫌疑。其实不然,该团队(2015年)接下来进行了更直接的研究,他们经新浪微博认证用户提供的信息,收集31 名网络识别自杀死亡用户(自杀死亡组);邀请微博用户填写自杀意念相关筛查量表,收集30 名无自杀意念用户(对照组)。比较两组用户在10 种微博行为和88 种语言特征方面的差异。结果发现,自杀死亡用户的微博互动更少,更加关注自我,更频繁地使用表达排除意义的词语,从情感层面上有更多负性表达,使用更多与死亡、宗教相关而更少与工作相关的表达。

我们可以看到,无论是潜在的高自杀可能性用户,还是已经自杀的用户,他们在语言特点上都更多使用负面,与死亡有关的词,并且不会提及他们的工作和未来,在行为层面上更加关注自我,较少与别人互动。

如果我们哪一天看到自己身边的人喜欢在夜晚发类似这样的状态:“呵呵,真落寞,永远只是一个人”,并且开始频繁散播负能量,他的状态也没人点赞和评论,他也几乎不会给被人点赞和评论,那么我们应该意识到问题的严重性。如果我们在平常的生活中能及时给予这些人关爱与支持,而不是一味地指责他们矫情,那么也许会防止一条生命的陨落。

猜你喜欢
词库中科院词典
一“吃”多用
加大授权力度中科院先行一步
评《现代汉语词典》(第6版)
词典例证翻译标准探索
词库音系学的几个理论问题刍议
中科院位列自然指数全球首位
中科院专家:京津冀何以成雾霾重灾区
《胡言词典》(合集版)刊行