社交媒体中表情符号的使用行为及成因分析

2020-09-24 07:44许小可
复杂系统与复杂性科学 2020年3期
关键词:表情符号现象情感

刘 飞,王 浩,许小可

(大连民族大学信息与通信工程学院,辽宁 大连 116600)

0 引言

表情符号(图文字,Emoji)的形式发源于上世纪90年代的日本,它是日常生活中各个方面的二维视觉体现,满足了网络用户在文本对话中肢体语言和面部表情的需要。Emoji在2009年正式加入统一编码系统后广受欢迎,几乎应用于所有的社交媒体平台中。emoji引入iOS不到半年时间,在Instagram中的使用率从0%快速增长到20%,目前约40%的帖子中含有emoji[1]。2015年牛津词典将选入“年度词汇”,表明表情的使用更加日常化。表情符号在线上交流中不仅可以用作情绪的表达(如,或),还可以装饰信息内容(如,或),或者代替语句中的词语(如,或)。Riordan等发现情绪表达类的面部表情得到了广泛研究,而非面部表情则很少,非面部表情符号同样可以传递情感并消除信息歧义[2]。Emoji就是网络上的肢体语言,在面对面交流的时候,人们会结合一个人的语调、表情、动作等非语言信息来领会对方的意图,而这些重要信息在网络通讯中都被抹去了,emoji在一定程度上弥补了这种损失,让沟通更顺畅、更高效。Tauch等研究表明,表情符号起到了放大消息的作用,只有在某些情况下,它才充当消息的修饰符[3]。

随着表情符号的使用越来越多,人们有必要关注它的使用特征及差异。Illendula等发现推特中存在大量表情符号共现现象,并以此构建了表情共现网络[4]。用户对某些表情使用频率较高,Lu等发现是全球许多国家用户最为喜欢的表情,使用频率达到总表情使用数的15%,而第二位的则下降至6%,用户使用的表情类别和频率为识别和理解不同文化提供了宝贵信息[5]。Oleszkiewicz等进一步观察表情符号使用模式和个性之间的关系,发现外向性、亲和性和情绪稳定性与表情的总体数量呈线性正相关关系[6]。虽然emoji表情符号多为生活中真实场景或常见情绪的简单视觉体现,但用户对emoji的理解和使用往往会因为文化差异、年龄差异和受教育背景差异等有所不同,不同社交平台上的表情符号呈现也有所不同[7]。Cho等研究表明,使用表情符号而不是词语可能会在线上交流中引入歧义,因为表情符号的含义是不确定的,受语境和文化背景的影响。然而,也正是这种不确定性和可塑性,使得表情符号迅速在全球社交媒体流行[8]。尽管对于表情符号所起的作用及意义还有待进一步研究,但目前对表情符号的研究已经覆盖了很多领域,包括人类对表情符号的情绪感知[9],表情符号对人际关系的影响[10]以及表情符号对在线教育和医疗健康的影响[11-12]。此外,对表情符号的使用行为研究有助于学者们更充分地进行自然语言处理,也可以帮助开发人员进行用户画像和用户分类,更准确地推断用户的状态、心情和喜好,从而提供个性化服务,优化用户体验[13-14]。

微博是一个基于用户间简短实时信息共享的广播式社交媒体,其中的博文大多以短文本的形式出现。同其他主流社交媒体一样,微博中的表情使用现象也非常普遍,包括emoji以及许多第三方的表情包。很多用户喜欢在同一条微博中使用多个表情来表达自己的情绪或强调博文中的某些词句。鉴于表情符号在社交媒体中的使用日益增加,网络用户的表情使用偏好和表情在表达中起到的作用值得进一步研究。本研究首先统计了微博中不同表情的使用频次,得出了微博量和表情使用随事件发展的演变情况,之后分析了用户在单条微博中关联使用多个表情的偏好。在此基础上,依据表情符号所表达的情感对微博中的高频表情进行分类,统计了不同类别表情的连用情况以及不同情感文本中的表情连用现象。最后探究了群体高频表情的出现以及个体表情关联使用现象的成因。

1 表情重复使用现象统计分析

1.1 数据描述和简单统计

此次研究通过新浪微博平台采集了2018年8月27日到9月2日“昆山反杀案”话题下的相关微博,覆盖了从事件发生初期到审判结果公示,再到舆论趋于平静这3个阶段,历时8天。数据包含了该话题下的微博内容、转发关系以及用户的基本信息,涉及了1 183 171位用户的1 800 958条微博。这些微博中含有297 197个表情,含表情率达11%。在含有表情的144 263条微博中,有28.3%的微博有表情连用现象。在这些有表情连用现象的微博中,38%的微博内容为纯表情,即除了表情外没有任何文本内容。有103 822条微博中出现了“文本+表情”的组合使用,其中25 326条(24.4%)有单表情连用现象。

1.2 群体表情的分布规律

Emoji相较于其他网络表情来说,是一套较为完善的表情系统,但很少有人会去了解或使用整套表情。为了解微博用户的表情使用偏好以及众多表情的使用情况,本文统计了数据中每个不同表情的使用频次,如图1所示。图中可以发现,表情的使用频次呈双峰分布,且在横坐标100附近出现了明显的拐点,表明在2 898个不同表情中,用户使用较多的表情,即高频表情,仅有100个左右,其余表情的使用次数较少。分析发现,这100个高频表情皆为微博平台自带的表情(见表2),而大量第三方表情包的使用量显著少于微博自带表情,因而出现了两套不同的“表情系统”及其各自的高频表情。此外,微博用户对其中10个左右的表情有明显的使用偏好,其中使用最多的3个表情为,和,占表情总使用量的28%,可见大多用户对该事件持支持鼓励的态度。

图1 表情使用频次分布以及使用量前十的表情Fig.1 Frequency distribution of emojis and top 10 emoijs

话题微博下的表情符号使用频次存在差异,这种差异类似于文章中词频差异。很多社会科学分布现象都符合齐夫定律的设定,如单词的出现频率、网页的访问频率和城市人口等。尤其在语言系统中,齐夫定律在字符或单词的等级和使用频率之间建立联系,不仅适用于语料全体,也适用于单独一篇文章。表情符号作为一种特殊的语言符号,其使用频次及规律值得我们深入研究。本文对话题微博数据中的表情符号进行统计分析,用f表示表情使用频次,r表示根据f降序排列的表情等级序号,如频次最高的表情符号等级为1,频次次之的表情符号等级为2。表情等级和频次的乘积呈现为一个常数,这里的常数并非恒量,而是围绕一个中心值上下波动。由于频次f和等级r的数值相差较大,因此对f与r值分别取对数并求积,计算结果如表1所示。可以看出,频次f与表情等级r的乘积较为平稳,基本围绕一个常数上下波动,而从图1a也可已看出,前100个表情的频次和等级对数关系基本呈一条直线,符合齐夫分布规律的设定,可见,高频表情的频次分布呈现出较为明显的齐夫分布规律。

表1 齐夫定律统计数据Tab.1 Statistics of Zipf’s law

特定话题下的微博表情使用量呈长尾分布,特定微博下的转发微博中也同样如此。本文选取了转发量最大的6条原创微博,分别统计了其转发微博中的表情使用情况,如图2所示。转发量较多的原创微博多为官方媒体发起的对事件看法的投票或对事件进展的实时报道,如“杀人者是否正当防卫”的投票以及事件结果“于海明的行为属于正当防卫,不负刑事责任”的公示。不同的人对同一条微博内容会有不同的看法,从图2横坐标可以看出这些微博的转发微博中出现了近百种甚至多达四百多种不同的表情。大量使用的少量表情则代表了大多数群众对该微博该事件的态度和看法是一致的。

图2 特定微博下的表情使用频次分布Fig.2 Frequency distribution of emojis in certain tweets

1.3 高频表情在事件舆情中的演变

为了解表情符号在舆情表达中的作用以及二者之间的相互影响,本文统计了从事发到结束期间每一天的微博数和表情使用情况,得到了总使用量较多且具有代表性的10个表情随时间发展的热度变化。图3显示,除8月30日外,表情数及微博表情使用率总体上是随微博数的趋势变化的,随着微博数量暴增,表情使用率也随之增长。从图4可以看出,昆山反杀案是一起历时较短并具有转折性的事件,在事件发酵初期,图中表情使用量较少,说明网民对这件事的关注度较低。使用的等表情较多,多表现出一种围观和反讽的吃瓜心态。在8月29日迎来了微博数的第一次爆发式增长,随着事件的进展,更多的人开始发声,也得到了更多用户的关注,等表情的使用量开始增多,还没有出现明显的舆情趋势。持续两天高热度之后微博数出现骤降现象,而随着该事件的审判结果公示,用户争相发博扩散,事件热度再一次飙升,的大量使用表现出网民内心的激动。此后两天来到事件舆论的顶峰,等表情的使用量爆发式增长。网民大多表现出对此事件结果的肯定与对处理此事件的相关单位的赞扬。至此,事件舆论接近尾声,微博数和表情使用量逐渐趋零,最终达成了公众对该事件的共识。可见高频表情的演变可以大致体现出事件的舆情,而事件的发展也会促使一些特定高频表情的出现。

图3 微博数及表情使用情况随时间演变图Fig.3 The evolution of tweets and emoji usage

图4 表情热度随时间演变图Fig.4 The evolution of popular emojis

1.4 个体表情关联使用

表情符号的多样性也促使了用户表情使用习惯的多样性。通过分析发现:约52.1%的用户习惯在单条微博中使用单个表情,而其余47.9%的用户习惯多个表情的连用。在69 095条使用多个表情的微博中,有51.5%的微博中出现了单表情连用现象,其余为不同表情的组合使用。在图5a中,n表示连用表情的数量,例如,微博“今天天气真好”中含有3个相同的表情符号,则n=3。可以看出用户更倾向于2~3个相同表情的连用,占总表情连用情况的80%以上,也有少量用户会在单条微博中使用较多个相同的表情来表达自己的情感。例如,有用户连用70个,也有用户在单条微博中使用了76个来表达自己强烈的欢喜。在图5b中,m表示单条微博中使用不同表情的数量,例如,微博“今天天气真好”中含有2个不同的表情符号,则m=2。可以看出用户同样倾向于2~3个不同表情的组合使用,约占87.9%,而仅有极少量用户会在单条微博中使用多个不同表情。在单表情连用的微博中,共出现了332种不同表情的1 197种不同连用组合;而在不同表情组合使用的微博中出现了722种不同表情的26 928种不同表情组合。可见,不同情况下表情使用数量没有太大差异,用户普遍喜欢在单条微博中使用2~3个相同或不同表情,而表情覆盖面及组合多样性却有较大差异,喜欢使用不同表情的用户更愿意去尝试使用“冷门”表情或者更具个性化的表情符号。

图5 表情使用数量比例Fig.5 Ratio of emoji usage

根据刘伟朋等人的研究,目前学界普遍将表情情绪划分为正面(高兴、喜爱、惊讶)、负面(悲伤、愤怒、恐惧、厌恶)、中性和其他综合性情绪[15]。为了研究表情关联使用的情感特征,本文将数据集中微博用户常用的100个表情符号分为了积极、消极、中性和其他4类,如表2所示。从表2可以看出,高频表情多为情绪表达类的面部和肢体表情,其中积极表情在微博中的使用更加广泛,占39.0%。可见,微博用户更倾向于在网络上分享自己积极向上的一面。

表2 表情分类Tab.2 Classification of emojis

在此基础上,统计了微博中连用表情的情感极性情况。显示在43 584次单表情连用中,积极表情连用占69.8%,中性表情占15.2%,消极表情占12.1%,其他表情占2.8%。本文截取了数据中出现频次最高的10种单表情连用现象和多表情组合使用现象,如表3所示。在单表情连用中,绝大多数为积极表情的连用,如、和等,这些表情的大量连用表现出用户强烈的积极情感。在多表情组合使用中,用户习惯连用情感极性相近的表情来加深自己所表达的情感。情感极性比较强的表情,连用现象以及重复使用现象更为普遍,但出现频次远低于单表情连用的情况,体现出表情使用的多样性和随机性。不同于单表情或单表情连用,两个或者多个不同表情的组合使用往往表达了多种复杂的情感。如和的组合使用表达出了该用户的悲伤和愤怒;和的组合使用表达该用户在称赞的同时还带有一丝滑稽;和的组合使用则表达出该用户的不屑和疑惑。当然,还有很多表意相近的表情的组合使用,如和、和以及和。

表3 高频连用表情Tab.3 Top 10 co-occurrence emojis

常用的微博情感分类方法一般为基于机器学习进行情感分类[16],以及基于微博文本情感强度的情感分类[17]。为了分析不同文本中表情使用现象的异同,本文采用大连理工大学信息检索实验室提出的七分类法[18],将文本情绪分为“喜爱、高兴、悲伤、恐惧、厌恶、惊讶和愤怒”7种类别,并添加了一个“中性”类用来标记没有明显情绪特征的微博文本。使用林鸿飞等人构建的大规模高质量的细粒度情感字典,可以更准确地对微博文本进行情感分类。通过对微博文本jieba分词,结合情感字典、程度副词字典和否定词字典与分词后的结果进行匹配,然后使用词频加权统计的方法确定每条微博的情感类别,最后统计了其文本中包含的连用表情,如表4所示。分析发现,连用表情现象普遍存在于不同情感的微博文本中,此话题下的主流表情和在8种不同情感的语境中均有较多的连用现象。正面情感(喜爱和高兴)下等相同情感极性的表情的连用现象更多,而负面情感(悲伤、恐惧、愤怒和厌恶)下也较少出现明显表达负面情绪的表情,多连用和来表达心中的不满情绪。悲伤语境下的和愤怒语境下的则高度吻合了对应文本内容表达的情感。可见,微博文本内容和其中的表情符号所表达的情感并非完全一致,不同用户在使用表情时会出现理解上的差异。

表4 不同情感文本中连用最多的5个表情Tab.4 Top 5 co-occurrence same emojis in different emotional texts

2 表情重复使用现象的成因分析

2.1 主题相关性

2.2 个体的从众心理

除了主题相关性,网络用户的从众心理也是出现高频表情的重要成因。法国社会学家塔尔德在自己的著作《模仿律》中提到“模仿是基本的社会现象,也是人类作为社会性动物的本能。”个人在外界人群行为的影响下,从知觉、判断和认识上表现出符合于公众舆论或多数人的行为方式即为模仿,它降低了人们的思考成本,也降低了决策风险。当看到别人观点的评论区下面为清一色的,而自己也认同或大致认同该博主的观点,那么很多用户都会有从众心理来“排好队形”,同其他用户一样评论。此时,这个表情的使用量就会随着原博文的热度升高而越来越多。当网络表情最初使用并流行开来之际,传播者通过模仿可获得社会认同感,这种模仿行为和社会认同心理是表情符号爆红的核心因素[20]。这也符合前面提到的表情符号长尾分布,尤其在特定话题或特定微博下,这种个体的从众心理是高频表情出现的重要原因。

2.3 重复使用以加强情感

在现代修辞学中,反复是指“为了突出某个意思,强调某种感情,特意重复某一语言部分”。诗歌中的反复又称“复沓”。它具有特殊的表现力,表现强烈的感情,强调主题、加强语气、增强旋律美,起着一唱三叹的作用。在《诗经》中,反复可以说是运用得最多最普遍的修辞法之一。反复的运用与渲染气氛、表达情感、精炼语言、意识流等有重要关联。

3 结论

本研究分析了新浪微博“昆山反杀案”话题下相关微博中的表情使用情况。通过对所有用户表情符号的统计分析,发现微博用户会使用大量不同的表情符号,但常用的表情仅有100个左右,特定话题以及特定微博下的表情符号使用频次呈长尾分布。然后,统计了高频表情随事件发展的数量变化,不同时期高频表情的变化可反映出该事件舆情的演变情况以及用户的情绪变化。此外,针对单条微博中的表情使用情况做了进一步分析,发现其中存在大量的相同表情连用现象以及不同表情的关联使用现象。通过对100个常用表情以及有表情连用现象的微博文本进行了情感分类,发现正面情感的表情符号在微博中的连用现象更多,不同情感的文本中往往有对应情感的表情连用。主题相关性往往直接决定了部分高频表情的出现,人类的从众天性也使很多网络用户倾向于模仿其他用户的表情使用行为,进一步促使特定表情符号的爆发增长。同语言文学中的反复现象类似,网络用户在单条微博中使用多个相同表情或情感相近的不同表情,往往是为了辅助表达,加强情感。对社交媒体中用户使用表情符号的分析是复杂在线社会系统中新兴的研究方向,相关研究有助于了解网络用户的表情使用、习惯,以及表情符号在社交媒体中对情绪表达的影响。

猜你喜欢
表情符号现象情感
微信表情符号写入判决:你发的每个表情都可能成为呈堂证供
如何在情感中自我成长,保持独立
世界表情符号日
情感
诗歌与情感的断想
如何在情感中自我成长,保持独立
它们离“现象级”有多远
这个表情符号,你用对了吗
表情符号玩上瘾 时尚爱尝鲜
你能解释下面的现象吗