基于CSL学习者认知的情感词汇计量与统计分析

2021-06-10 07:20张易扬王治敏
中文信息学报 2021年5期
关键词:本体词汇学习者

张易扬,王治敏,吴 迪,张 璇

(1. 北京语言大学 汉语国际教育研究院,北京 100083;2. 北京语言大学 速成学院,北京 100083;3. 清华大学 自动化系,北京 100084)

0 引言

随着人工智能研究的发展,自然语言处理领域的情感分析、情感计算的研究逐渐火热起来。汉语情感词汇相关的词表、词典的构建也逐渐发展起来。有清华大学李军中文褒贬义词典[1]、中国台湾大学NTUSD简体中文情感词典、知网Hownet情感词典、大连理工大学的中文情感词汇本体库、湖南工业大学的中文基础情感词典等。情感词汇研究常常被用于情感分析、数据挖掘、文本分类等,例如微博情感分析、电影评论情感分析、网络商品评论情感分析等,但国内利用情感词汇词典进行语言学本体研究还是较少。例如,从计量风格学的角度进行的考察[2]。在对外汉语教学领域,汉语作为第二语言(Chinese as a second language,CSL)学习者的情感词汇研究相对薄弱。相关研究有利用语料库进行CSL学习者的情感类词偏误研究[3],有对CSL学习者褒贬义词习得研究[4]等。目前还未见到直接利用情感词典对CSL学习者进行词汇方面的研究。

因此,本文以情感词汇词典为依托,对中文文本中情感词汇的提取进行统计分析,以此为基础采用问卷调查的方式对CSL学习者“接受性词汇”[5]和“产出性词汇”进行考察。旨在研究CSL学习者对“接受性词汇”的情感词汇熟悉度测量表现和“产出性词汇”的情感词汇输出表现,并对CSL学习者情感词汇认知结果进行描述,提出针对性的建议。

1 中文情感词汇文本反映

1.1 中文情感词汇本体库

中文情感词汇本体库是大连理工大学信息检索研究室林鸿飞教授所带团队整理和标注的一个中文本体资源。[6]该资源从不同角度描述一个中文词汇或者短语,包括词语词性种类、情感类别、情感强度及极性等信息,共含有情感词共计27 466个[7]。通过对比引言中提到的各类情感词典,发现该情感词汇知识库标注较为系统、属性信息相对丰富,适合本研究之用。中文情感词汇本体库中,一般的格式如表1所示。

表1 情感词汇本体格式举例

在标注中,词性种类一共分为7类,分别是名词(noun)、动词(verb)、形容词(adj)、副词(adv)、网络词语(nw)、成语(idiom)、介词短语(prep)。情感强度分为1、3、5、7、9五档,9表示强度最大,1表示强度最小。极性标注为: 0代表中性,1代表褒义,2代表贬义,3代表兼有褒贬两性。词汇本体中的情感共分为7大类21小类,如表2所示。

表2 情感词汇分类及示例

续表

中文情感词汇本体库中,有名词(noun)3 404个,动词(verb)3 460个,形容词(adj)5 261个,副词(adv)49个,网络词语(nw)140个,成语(idiom)14 986个,介词短语(prep)166个。我们无法从库中直接选取可以用以考察CSL学习者认知的词汇,而需要借助中文小说文本提取出汉语母语者所产出(即作者写作)和经常输入(即读者阅读)的情感词汇,以便与CSL学习者进行对比。所以,我们需要选择合适的中文文本进行分析,以查看中文情感词汇的文本反映。

1.2 四部长篇小说统计分析

我们选取的四部现代汉语长篇小说为: 《平凡的世界》、《三体》系列三本、《小时代》、沈石溪动物小说三本,题材涵盖当代城乡社会、科幻、军事、现代都市、校园青春、言情、儿童文学等,如表3所示。

表3 四部长篇小说基本信息

四部小说题材涵盖较广、社会影响较大、销量较高,阅读受众从幼儿到老年人基本能够涵盖。我们认为所提取出情感词汇的交集,在一定程度上能够反映现代汉语小说情感词汇用词面貌。

本文对这四部小说语料进行分词、词性标注(使用语料分词和词性标注软件CorpusWordParser(1)肖航.教育部语言文字应用研究所,email: exiaohang@sina.com,website: www.cncorpus.org)、统计词频(使用语料字词频率统计工具CorpusWordFrequencyApp(2)肖航.教育部语言文字应用研究所,email: exiaohang@sina.com,website: www.cncorpus.org)、删除重复词汇,最后与“情感词汇本体库”取交集抽取情感词汇,从情感分类、词性种类、极性、强度四个角度进行统计,观察其特点以待进一步研究。以所抽取的共同情感词汇为测量材料,对CSL学习者认知表现进行对比研究。

四部小说情感词汇的情感分类统计结果如表4所示。就情感词汇的21类情感分类来看,四部小说在各类情感词汇的使用比例上较为相似,其中赞扬类(PH)的词汇占比最高,比例均值为27.6%,贬责类(NN)次之,比例均值为22.3%。这两类情感词占比接近50%。快乐类(PA)比例均值为7.3%,悲伤类(NB)比例均值为5.65%,分别排第三和第四。虽然四部小说作者不同、题材不同,但各情感类用词差异较小。

表4 四部小说情感词汇情感分类

本文对四部小说情感词汇词性种类的统计结果如表5所示。四部小说在情感词汇词性种类上较为相似。其中形容词最多,比例均值为41.95%;动词次之,比例均值为23.95%;名词再次之,比例均值为17.73%。三者相对比例基本符合情感词汇库中的分布。就本次研究而言,形容词将作为考察的重点。

表5 四部小说情感词汇词性种类

本文对四部小说情感词汇极性的统计结果如表6所示。在极性方面,四本小说不同极性的用词比例依旧相似。其中,态度积极的词最多,中性词和态度消极的词数量接近,褒贬兼有的词相对偏少。

表6 四部小说情感词汇极性

在词汇强度方面,5级强度的词(如: 悲伤、粗鲁、端庄、欢乐)最多,比例均值为40.9%。1级(如: 安静、迟缓、单一、荒凉)和9级(如: 暴怒、荒唐、完美、心花怒放)强度的词最少,比例均值分别为9.43%和6.7%。四部小说情感词汇的强度分布基本上符合正态分布,如表7所示。

表7 四部小说情感词汇强度

总体来看,我们发现虽然四部小说题材不同、作者不同,但在用词上非常相近。即使字数相差悬殊的小说,在情感分类、词性种类、极性和强度的各项用词比例仍然相近。由此可以推断出,现代汉语长篇小说在情感词汇的使用上,并不会因为作者不同而产生较大差异。这一结论可以为计量风格学的文本分析提供参考。

四部小说的情感词汇用词占比非常接近,是否因为受制于情感词汇本体库的因素限制呢?为此本文统计了四部小说的总字数、总用词量和词性占比,发现结果同情感词汇统计的结果相似,四部小说总用词比例相近,不存在外部因素影响。

1.3 四部小说共同情感词汇提取

为了深入了解四部小说情感词语的情况,以便考察CSL学习者的认知,本文对四部小说共同情感词汇进行了提取,共得到784个词,在考察CSL学习者接受性词汇时,考虑到测量效果和情感词汇的特点,我们只选取形容词作为测量对象。共有409个形容词。在考察CSL学习者产出性词汇时,我们将做详细对比。

2 CSL学习者接受性情感词汇考察

上文中四部小说提取出的情感词汇是汉语母语者所产出(作者写作)和经常输入(即读者阅读)的词汇,是汉语母语者非常熟悉的词汇。但对于CSL学习者来说是否熟悉,有待于进一步考察。

针对这一问题,我们将测量材料(即从四部小说中提取的情感词汇)制作成测试词表,对CSL学习者进行熟悉度测试,并对熟悉度结果进行检验。

首先是词表制作。我们将上文提到的四部小说所抽取的409个形容词,按照频率排序,等比提取30个词(等比间距为13,例如,取第1个、第14个、第27个……),如表8所示。

表8 情感词汇形容词按比例抽取30词词表

针对这30个词,我们设计了六级量表,熟悉度从1到6,1表示最熟悉,6表示最不熟悉。表头信息为: 国籍、性别、年级、HSK等级。其中,年级和HSK等级共同作为被试汉语水平的评判标准。我们在北京语言大学范围内进行问卷调查,共收集到来自14个国家的有效问卷30份,其中高级5份,中级20份,低级5份。CSL中级水平学习者是本次实验重点考察的对象,因为他们能够基本反映CSL学习者对汉语词汇的认知特点,能够反映从初级向中级过渡、中级向高级过渡时词汇学习的问题,符合本次实验预期考察的目的。

接下来,我们进行熟悉度测量,并对测量结果进行检验。

科勒-拉普假设认为,人们对某些词的熟悉程度和其出现的频率之间存在某种关系,可以假设: 人们越熟悉一个词,其出现频率就越高。那是否对于CSL学习者也是如此?所以,我们针对CSL学习者检验科勒-拉普假设,如式(1)所示。

(1)

其中,V表示数据中最大熟悉度的值,x表示词的频率,A、B是函数的参数。[8]

考虑到初级CSL学习者和高级CSL学习者的水平特点,不适合列入熟悉度计算,所以我们只对其进行描述,不进行计算。

我们用提取出的这30个词语在四部小说中的频率x,对20名中级CSL学习者问卷熟悉度进行统计,计算出熟悉度均值为y。y值为1是最熟悉,y值为6是最不熟悉。V值最大值为6。结果如表9所示。

表9 测量词表频率与20名中级CSL学习者熟悉度

观察结果可以看到,按熟悉度降序排列后,熟悉度最高的前15个词,有10个词频率降序排列在前15,5个词频率降序排列在后15。

为了更精确地得出结论,我们继续进行科勒-拉普假设检验。使用MATLAB中inline自定义函数模型,与数据拟合后求得参数A、B(其中V=6):

(1) 使用inline函数定义模型,三个参数分别为: 函数模型、待定系数、自变量。在MATLAB中表达式为: myfunc=inline('6./(1+beta(1).*x.^beta(2))','beta','x');

(2) 待定系数的预估值: beta0=[0.1,0.1]';

(3) 数据集和函数模型进行拟合: beta=nlinfit(x,y,myfunc,beta0)。

其中beta(1)=10.359 1,beta(2)=0.456 6,则A=10.359 1,B=0.456 6。

将所得结果可视化,显示数据散点图及拟合曲线(见图1),计算函数模型的拟合优度R2,对比分析得出结果。R2=0.294 6。

图1 数据拟合图

结果显示,拟合优度R2=0.294 6,结果较差,因此科勒-拉普假设针对CSL学习者在情感词汇方面的假设不成立,即CSL学习者越熟悉一个情感词汇,其出现的频率不一定越高。也就是说母语学习者最熟悉的词,不一定CSL学习者也熟悉。

究其原因,CSL学习者的词汇大部分来源于教材和教师的词汇教学,其情感词汇的学习和使用也受制于教材和教师。CSL学习者对频率高的情感词汇熟悉度不够,将会使CSL学习者在阅读现代汉语小说时具有更大的困难。在对外汉语教材的编写上,尤其是阅读课,应该关注现代汉语小说中高频的情感词汇。这对提升CSL学习者在阅读和对话时的情感判断有重要帮助,进而使其在语义理解上更快、更准确。

3 CSL学习者产出词汇统计分析

上文利用情感词典和文本对CSL学习者接受性情感词汇进行了测试性考察,接下来我们从CSL学习者产出的角度进行情感词汇输出考察。一般而言,接受性词汇和产出性词汇之间存在巨大差距,也就是所谓“产出性词汇门槛”,CSL学习者的产出性词汇量远远小于接受性词汇量[9]。但是否在情感词汇上也是如此?CSL学习者在产出性词汇以及产出情感词汇上有什么特点?这些特点对对外汉语教学有什么启发?我们设计了问卷进行调查研究。

考虑到CSL学习者产出词汇的难度和我们预期产出词汇的广度,本文不将CSL初级和准中级学习者列入考察范围。我们认为对CSL中高级学习者的考察能够反映出CSL学习者产出词汇时的特点和问题的全貌。

CSL学习者产出词汇表问卷调查对象为北京语言大学留学生,HSK等级4级以上,学习汉语时间4年到6年,整体水平为中高级。共收集到有效问卷32份,来自韩国、日本、塞尔维亚、葡萄牙、埃及等多个国家。产出词汇表采取闭卷方式,CSL学习者自由输出300个词。我们将其校对、电子化,进行描述,并抽取其中的情感词汇进行统计分析。

据统计,除去无法识别的错别字和生造词,共收集到有效词汇9 674个,删除重复项后为3 549个。对CSL学习者产出情感词汇进行抽取,共取得词语372个。

考虑到情感词汇的特点,我们同样重点观察形容词的产出情况。

(1) 按情感分类(见表10)

表10 CSL学习者产出情感词汇情感分类分布

根据表10的数据,我们发现两方都没有嫉妒(NK)这一类,这类词在情感词汇本体库中也只有43个,例如“眼馋”“宠儿”“醋意”等。

根据上文我们对四部小说的情感类别的考察发现,赞扬类(PH)和贬责类(NN)占比最高,这两类情感词占比接近50%,第三和第四分别为快乐类(PA)和悲伤类(NB),比例均值分别为7.3%和5.65%。在CSL学习者产出的情感词汇中,我们可以看到,不同情感分类按照数量排序,前九种为赞扬(PH)、贬责(NN)、快乐(PA)、喜爱(PB)、尊敬(PD)、相信(PG)、烦闷(NE)、安心(PE)、悲伤(NB)。两者相比大体相近,不同在于CSL学习者对悲伤类的词语产出较少。在实验结果反馈和分析时,我们认为其受外部因素影响,如汉语教学中教师和教材积极乐观的态度、填写问卷时轻松愉快的心情等,所以CSL学习者在产出词汇过程中对悲伤(NB)类词汇输出较少,可能并不是因为相关词汇量小的原因。针对这类词(悲伤类)的二语教学是否应该以母语者的掌握水平为标准?这一点值得继续深入研究。

(2) 极性(见表11)

表11 CSL学习者产出情感词汇极性分布

表11中,CSL学习者与四部小说共同情感词汇极性占比相近,中性词和褒义词占比较大,贬义词占比较小。在四部小说共同情感词汇中,褒贬兼有的词为“好事”“解除”“迷恋”“天真”。这类词由于数量较少,对情感判断影响较大。在实际对外汉语教学中,我们建议重点强调其不同用法。

(3) 强度(见表12)

表12 CSL学习者产出情感词汇强度分布

在强度方面,CSL学习者产出的强度和四部小说共同情感词汇相似。在5级强度上,CSL学习者占比高于四部小说共同情感词汇,但9级强度上,CSL学习者占比低于四部小说共同情感词汇。这说明CSL学习者对表达强烈感情的词汇掌握得还不够多。

4 结语

通过利用中文情感词汇本体库对文学文本和CSL学习者产出性词汇的对比分析,我们发现,现代汉语长篇小说在情感词汇的使用上,并不会因为作者、题材、内容不同而产生较大差异。这一结论可以为计量风格学的文本分析提供参考。就文本中情感词汇的情感分类来看,赞扬类和贬责类两类情感词占总词数的一半,其他19类情感词占一半,而且积极正向的词数量多于消极负向的词。

另外,我们发现CSL学习者对频率高的情感词汇熟悉度不够,解决这个问题对他们在文本阅读和对话时的情感判断有很大帮助。中高级CSL学习者在产出性词汇中,CSL学习者对表达强烈感情的词汇掌握得不够多。

因此我们建议,在对外汉语教材的编写上,尤其是阅读课,应该关注现代汉语小说中高频的情感词汇。这对提升CSL学习者在阅读和对话时的情感判断有一定帮助,进而使其在语义理解上更快、更准确。在具体的教学中,我们可以强化他们在阅读现代汉语小说时对词的情感理解的训练,从而更加熟悉现代汉语中的词语使用特点和中国人的情感表达方式,以便突破汉语水平由“高级”到“地道”的瓶颈期。同时,我们也应该注意加强CSL学习者褒贬兼有词语的学习,在表达情感方面加强对表达强烈感情词语的使用。

猜你喜欢
本体词汇学习者
本刊可直接用缩写的常用词汇
一些常用词汇可直接用缩写
你是哪种类型的学习者
十二星座是什么类型的学习者
本刊可直接用缩写的常用词汇
基于本体的机械产品工艺知识表示
汉语学习自主学习者特征初探
《我应该感到自豪才对》的本体性教学内容及启示
高校学习者对慕课认知情况的实证研究
专题