网络媒体监测语料库汉字使用的性别差异

2011-09-25 03:41李向农王宇波
关键词:用字构词种数

李向农 王宇波

(华中师范大学 文学院,湖北 武汉 430079)

网络媒体监测语料库汉字使用的性别差异

李向农 王宇波

(华中师范大学 文学院,湖北 武汉 430079)

本文以国家语言资源监测与研究中心(网络媒体分中心)所建立的男女博客文本语料库为研究对象,对男女在汉字使用上的性别差异作统计调查与分析。通过从覆盖率、高频字、低频字、共用字、独用字、构词能力等多个角度的统计发现,男女博客在汉字的使用上既有一定的共性,又有明显的差异。男性在总字种数、低频字的字种数上明显多于女性,女性在总字次、非常用字的使用比例上高于男性。

网络媒体监测语料库;汉字;性别差异;字种数

性别语言研究一直是社会语言学的研究热点,国内学者对语言性别差异的研究与西方学界相比尚有很大差距,尤其以中国大陆为样本的实证研究不曾多见。同时,“重视汉语语料、加强本土化研究也符合当代语言性别差异研究的多元化、动态化、微观化和本土化的发展趋势。”①因此,本文以国家语言资源监测与研究中心(网络媒体分中心)建立的 2005—2006 年 spaces.live.com,blog.sina.com.cn,blog.sohu.com,blogcn.com,bokee.com,blog.hexun.com,blogbus.com等知名的中文博客网站的部分网页(共计4938041篇,1937732982字符次)的文本语料为基础,提取出具有性别标识的博客文本共计2275826篇,606571001字符次(其中男性作者54982个,文章773777篇;女性作者77007个,文章1502049篇)的博客语料库为样本作为研究对象,对博客语料中汉字使用的性别差异作统计调查。

一、男女性汉字使用的总体情况

杨信彰认为“语料库的使用为语言与性别的研究提供了良好的工具”,“在研究手段上,语料库的使用能帮助我们更好地审视语言与性别的关系。”②因此,对中文男女博客语料库中的男女性在总字次、字种数、使用频率等相关数据的统计,能客观、真实地反映汉字使用的性别差异。

如表1所示,男性博客中使用的总字种数为20917,女性为13558,男性多于女性;但在总字次上女性却远远高于男性,女性字种数的平均使用频次为27560次/字种,高于男性的11135次/字种,说明男性博客在用字上相对来说较为分散,而女性则较为集中,较为频繁地使用相对较少的字种。

表1 男女博客中汉字总体使用情况

二、汉字覆盖率对比

本文有关覆盖率的统计按照国家语言资源监测与研究中心编辑的《中国语言生活状况报告(2008)》(下编)中的定义,指的是被调查语料内指定调查对象占所有调查对象总量的百分比,计算方法与累加频率相同,即每一调查对象的频次同其前调查对象的频次的累加和,与所有语料中调查对象总次数的比值。汉字的覆盖率是衡量汉字在所属语料库中是否常用的标准之一。

表2中以覆盖率10%为增长的基准,在同一覆盖率的标准下,统计对比了男女博客中所使用的汉字字种数以及在总字种数中所占的比例,可以得出的结论是:要达到相同的覆盖率,男性与女性相比要使用相对较多的字种数;而要达到相同的覆盖率,女性所使用的字种数在总字种数中所占的比例则相对高于男性。这进一步印证了表1中得出的结论,即男性博客在用字上相对来说较为分散,而女性则较为集中,较为频繁地使用相对较少的字种。

表2 男女博客中汉字使用覆盖率差异

下面我们将同一覆盖率下男性字种数和女性字种数进行了一一比对,并计算得出了同一覆盖率下男女字种数差值。从表3中可以看到,随着覆盖率的增加,男女字种数的差值也逐渐变大。

表3 不同覆盖率范围内男女字种数对比

图1 不同覆盖率范围内男女字种数对比曲线图

图1两条曲线分别代表男性字种数和女性字种数,两条曲线的走向基本一致,在覆盖率不超过90%之前,男性和女性两条曲线之间的距离非常接近,这说明男女性字种数差值较小;而当覆盖率超过90%以后,代表男性和女性的曲线之间的距离逐渐变大,可见随着覆盖率的增加,男女字种数差值亦随之增加。

三、高频字使用情况对比

我们把某个调查对象的使用频次与所有调查对象的总频次的比值当做其使用频率,按照频率大小降序排列,可以明显地看出不同的调查对象在使用频率上的差异,表4是男女博客中使用频率最高的前20个汉字。

表4 使用频率最高的前20个字

表4中所列出的汉字使用频率最高的前20个字中,男女使用频率最高的字都为“的”字,男女使用频率分别为4.58%和4.68%,使用频率排名最低的字男女也都在0.5%以上。另外,频率最高的20个字中,男女性之间达到了70%的一致性,有17个字是男女共用的,属于共用高频字(见表5);只有3个字是男女各自的独用高频字,男性的独用高频字分别是“大”(频率为0.55%)、“也”(频率为0.50%)、“们”(频率为0.50%),女性的独用高频字分别是“好”(频率为 0.64%)、“天”(频率为0.61%)、“要”(频率为0.56%)。男女性之间的一致性还体现在,男女的独用高频字都位于表4中相对靠后的位置,这说明汉字的使用频率越高,其在男女博客中使用的一致性也相对较高。

表5 男女前20个高频字中共用字的使用频率对比

四、低频字比较

在以降序排列的汉字使用频率表中,出现频次较少的字占了很大一部分比例,在对男女博客中汉字使用情况进行比较时,高频字固然是重要的指标之一,同时,使用频率较低的字即低频字的使用情况也不容忽视。我们以出现频次为标准,单独列出了出现频次不多于10次的低频字。

表6 使用频次不多于10次的低频字

从表6中所列出的低频字可以发现,从低频字的字种数来看,男性远远大于女性,男性使用频次不多于10次的字种数为12309,女性只有4852,男性是女性的两倍还要多;从低频字所占总字种数的比例来看,男性低频字所占比例为58.85%,超过了半数,远远超过女性的35.79%。由此可见,在男女博客的汉字使用上,低频字都占有相当一部分比例,但男性表现得更为突出,即男性所使用的超过一半的汉字都为出现频次不大于10次的低频字,女性虽然没有男性这么明显,但低频字的比例也超过了三分之一,也是不可忽视的重要组成部分。这进一步说明男性博客在汉字的使用上更为分散,范围更广,更具有灵活性和多样性。

图2 男女低频字所占比例曲线图

男女低频字都在总字种数中占有相当大的比重,体现出了一定的相似性,但在更深层次上它们又体现出了一定的差异性。图2中我们以频次为标准,将男女低频字各自所占比例进行了对比,从上面的曲线图我们可以明显地发现:仅从出现频次从1次到10次这个区间来看,女性低频字中频次为1次的字所占比例最高,随着频次的增加,低频字所占比例依次降低;而男性的情况稍微有些变化,频次为1次的低频字所占比例并不像女性一样在这个区间内是最高的,而频次为2次的低频字,其所占比例几乎高达35%,然后随着频次的增加,低频字所占的比例也处于一种依次降低的趋势。

五、共用字与独用字

通过上面的统计分析,我们发现男女博客中的汉字使用在具有一致性的同时,也表现出了各自的特点。表7对男女性共用字与独用字的分析,更能表现出男女博客在汉字使用上的差异与共性。

表7 使用频率前100位中的男女共用字与独用字

使用频率排名在前100位的字中,男性的覆盖率达到了47.47%,略低于女性的50.69%,其中男女共用了86个字,各自独用了7个字。男性独用的七个字为“国、用、成、当、间、作、同”,女性独用的为“爱、候、又、让、女、老、做”,这些独用字在一定程度上说明男性较多地关注国家大事,较多地使用“国”等字;而女性则感情较为细腻,更多地关注感情、年纪、美容等,较多地使用与此相关的“爱、老”等字。与男女性关注热点有关的字的使用频率相对于对方来说都较高。

表8 使用频率前1000位中的男女共用字与独用字

表8中所列出的使用频率前1000位的字中,男女汉字使用的覆盖率都达到了90%左右,男性为89.93%,略低于女性的90.62%;男女共用字为922个,独用字各78个,独用字所占比例与前100字中独用字所占比例大致相当;男女性的独用字依旧与男女性所关注的事件具有一定的一致性,男性更多地使用了与政治、比赛、游戏、工作等相关的“政、权、治、魔、输、欧、胜”等表达较为正式的内容的字,而感情较为细腻的女性则相对更频繁地使用了与生活、感情、动物、感觉等有关的“暖、疼、猫、逛、甜、帅、凉”等,同时女性独用字中还出现了一定数量的繁体字,这与我们所选择的博客语料库有关,人们尤其是女性在网络语言中更倾向于使用一些繁体字来达到新颖活泼的表达效果。

表9 使用频率前1500位中的男女共用字与独用字

表10 使用频率前2000位中的男女共用字与独用字

表11 使用频率前2500位中的男女共用字与独用字

除了男女汉字使用频率前100位和前1000位之外,我们又分别统计了男女汉字使用频率前1500位、前2000位和前2500位的汉字使用情况(见表9-11):前1500位汉字中,男女独用字各102字,占6.8%;前2000位中,男女独用字各119字,占5.95%;前2500位中,男女独用字各124字,占4.96%。

图3 男女汉字使用独用字比例曲线图

通过图3可以明显地看出,从前100字到前2500字,除了前1000字中男女独用字比例大于其他几个对比范围之外,男女独用字的比例随着统计范围的扩大基本上是呈下降趋势的。

六、与《现代汉语常用字表》之对比

《现代汉语常用字表》包括常用字(2500字)和次常用字(1000字),由国家语言文字工作委员会和国家教育委员会发布,一般掌握了常用字就达到了利用汉语的基本要求。我们将男女博客中汉字使用频率前2500字分别与常用字表(2500字即一级常用字)进行对比,具体情况见表12。

下面我们分别将位于男女性使用频率前2500字中、但却没有出现在常用字表中的字分别列出。

表13 前2500字超出一级常用字的繁体字与叹词

通过表13中的统计对比我们发现:首先,男性汉字使用频率前2500字的覆盖率达到了98.37%,女性则达到了98.43%,其中男女性都包含了大量《现代汉语常用字表》(2500字)所没有的字,男性为344字,而女性则更多,为384字。其次,繁体字占了很大的比例,男性为95字,占了27.62%,女性为124字,占了32.29%,这与网络语言中人们喜欢求新求变有关,比如火星文、繁体字等都与人们这种追求新颖的心理密不可分。另外,男女博客汉字使用中都包含有一定量的方言用字,如“係、嘅、吖、咗、咁、叻”等;还有一些叹词,男性所使用的叹词有“呵、哦、嘛、嘿、哎、咯、哇、哼、呐”等,女性由于感情较为细腻所使用的叹词相对较多,包括“呵、哦、嘿、哎、咯、哇、哼、喔、哟、呐、咧”等。网络语言的口语化程度极高,所以在网络语言中叹词的出现频率是相对较高的。

七、构词能力

不同的字具有不同甚至是差异极大的构词能力,我们统计了覆盖率达到90%的高频字(男性为1005字种,女性为953字种)所构成的词语数,按照构词数的多少进行了排序。

表14 构词能力最强的20个字

表14中我们列出了构词数在前20位的字所构成的词种数以及所出现的总频次,其中男性构词能力最强的字为“大”,女性为“年”,所构成的词种数都在两万个以上,即使是排在第20位的字,它们所构成的词种数也超过了八千个;男性这20个字的平均构词能力为13699词/字种,略高于女性的13112词/字种;而且从表14中我们可以看到,“年、月、日”这三个与时间有关的字的构词能力在男女性中都几乎排在最前面的位置。

在对上述构词能力最强的20个字的构词数和出现频次进行概括的基础上,我们将男女性的情况进行了对比。

表15 构词能力最强的20个字中男女共用字与独用字

从表15中我们可以进一步发现,构词能力最强的这20个字所构成的词种数几乎占了总词种数的40%左右;男性构词能力最强的20个字所构成的词语总数为273978个,占总词种数631446的43.39%;而女性总词种数为656339个,其中构词能力最强的20个字所构成的262231个词语就占了39.95%;我们将男女性之间的这20个字进行了对比,其中男女共用字为16个,而且都排在这20位中较前的位置,男女独用字各为4个,排在这20位中相对靠后的位置。这说明构词能力最强的字所具有的极强的构词能力并不具有明显的性别差异。

表16 构词能力最强的20个字中的男女共用字及构词数差值

表16中我们又将构词能力最强的20个字中的16个男女共用字的构词情况进行了一一比对,计算得出了每个共用字的男女构词数差值,并按照男女构词差值的绝对值大小进行了排序。

从表16中的数据可以看到,前20个构词能力最强的字中,男女性有16个共用字,但这16个共用字的构词能力在男女性博客中的表现并不完全相同。其中,男女构词数差值最大的字是“小”,其在男性中的构词数比女性多了6240个,“的”字的男性构词数比女性多5456个,男女构词数差值位于第二位,“和”“国”等字的男女构词数差值依次减少,而“海”字的男女构词数差值是这16个共用字中最小的,男性构词数比女性多349个。根据表16中的数据生成下图4,可以更直观地将这些共用字在男女性中构词能力的不同表现出来。

图4 16个共用字的男女构词数对比曲线图

八、小结

通过上述统计分析发现,男女博客在汉字的使用上既有一定的共性,但同时又有较为明显的性别差异。具体表现为:第一,男性博客使用的总字种数明显多于女性,但是在总字次上女性则远远高于男性,男性在用字上相对来说较为分散,而女性则较为集中,较为频繁地使用相对较少的字种。第二,男女在高频字的使用上具有一定的一致性;而就低频字的使用来说,男女低频字所占比重都较大,但男性低频字的字种数及所占比例远远多于女性。第三,男女独用字的比例随着调查范围的扩大大致处于逐步降低的趋势。第四,男女博客中使用的汉字包含一定比例的非常用字,且女性非常用字的使用比例高于男性。第五,在构词能力最强的前20个字的构词能力上,男女性具有较为明显的一致性,但与各自关注热点有关的字的构词能力相对会更强。

注释

①史耕山、张尚莲:《国内语言性别差异研究概述》,《外语教学》2006年第3期。

②杨信彰:《语言与性别的多视角研究》,《当代外语研究》2010年第1期。

责任编辑张静

2010-11-20

国家社会科学基金项目“基于网络媒体监测语料库(汉语)的性别语言比较研究”(09BYY018)

猜你喜欢
用字构词种数
容易混淆的词语
从构词词源看英汉时空性差异
《汉语大字典》“人名用字”考误举隅
科技论文表格的编排要求(五):用线和用字
请“球”入“盒”问题八例
请“球”入“盒”问题八例
认知视野下“好”、“坏”构词的对称性研究
“分”的音变构词及其句法语义特征
辽代避讳用字“元”
绝句(二首)