徐秀玲
(浙江大学 外国语言文化与国际交流学院,浙江 杭州 310058)
字母词在新闻中使用情况的语料库考察
徐秀玲
(浙江大学 外国语言文化与国际交流学院,浙江 杭州 310058)
字母词已广泛出现在现代汉语新闻语体中。本研究基于两个语料库新闻子库,从使用频率、词形和语义内容定量等方面分析了在语料库中出现的字母词,多角度追踪了字母词近二十年间在新闻语体中的使用情况。研究发现,字母词在汉语新闻中的使用频率迅速增长,两个子库中都是纯字母词的使用比例最高,汉字字母词和数词字母词次之,而拼音字母词使用最少。近几年字母词已渗透到各个领域,呈现出多元化的特点。
字母词 新闻 语料库
随着我国社会、经济、科学技术的快速发展及对外交流的日益频繁,汉语与外语的接触日渐加深。随之而来的是现代汉语,尤其新闻语体中经常出现诸如GDP、T恤、PM2.5之类的字母词。
字母词进入汉语系统已经引起国内学者的关注。对字母词的研究始于上世纪90年代(刘涌泉,1994)。字母词,简言之,就是汉语中使用的含有或完全由字母构成的词语。刘涌泉(2002)将字母词定义为“由拉丁字母(包括汉语拼音字母)或希腊字母构成的或由它们分别与符号、数字或汉字混合构成的词”。陈佳璇、胡范铸 (2003)对2002年8月国内十五份报纸中使用的字母词做了穷尽性调查统计,并从使用频率、词形、语义内容等方面定量分析了这些字母词。皇甫素飞(2004)统计了1938年~1999年间50个高频字母词在《文汇报》中出现的频率及其历史演变与时代变异,发现字母词正以前所未有的速度和规模进入我们生活的各个领域。
然而前人研究并未考察字母词在多种新闻文本中的历时变化。鉴于此,本研究将基于两个汉语语料库中的新闻语料,试图追踪字母词在我国新闻语体中的使用情况。
本研究采用兰卡斯特大学汉语语料库LCMC和现代汉语语料库Torch2009中的新闻语体子库。两个新闻子库在建库标准等方面完全一致,都包括新闻报道、社论和新闻综述三个文本类型,两者库容也相近,分别为14万8163词和18万3975词,分别代表20世纪90年代初期及2009年左右汉语新闻语体的使用面貌,可用于考察现代汉语新闻语体近20年的动态发展。
笔者首先人工标注了两个语料子库中出现的字母词,并使用一款免费实用的语料分析软件AntConc进行数据检索和统计。最后从LCMC新闻子库中检索出37例字母词,Torch2009新闻子库中检索出188例字母词。所有的字母词均根据其词形和语义内容进行分类和讨论。
1.使用频率
上文提到,字母词在LCMC新闻子库和Torch2009新闻子库中分别出现37例和188例。由于这两个语料库子库库容有差异,因而将原始频数转化成标准频数,即每百万词中字母词出现的次数。因此得出LCMC和Torch2009新闻子库每百万词中字母词分别出现250次和1022次,这一差异高达4倍,对数似然比检验显示该差异具有统计学意义上的显著性(p<0.001),即Torch2009新闻子库中字母词的使用频率显著高于LCMC新闻子库。这表明从上世纪90年代到2009年这20年间,字母词在汉语新闻中的使用频率迅速增长。
2.词形分类
陈佳璇、胡范铸(2003)认为字母词词形可以分为四类,即纯字母词、汉字字母词、拼音字母词和数词字母词。纯字母词指的是一个词语全部采用外文字母的词,主要是英语词汇的缩略语,如CNN(美国有线电视新闻网)。汉字字母词是由字母和汉字共同组成的词,如阿Q、T恤,如果没有汉字的参与,这个词的语义将会改变甚至不存在。拼音字母词是源于汉语拼音字母的词,如GB(国标)、HSK(汉语水平考试),这些字母词都是由拼音中的声母组成的。数词字母词由数字和字母组合而成,如3D、G20。
表1是不同字形的字母词在LCMC新闻子库和Torch2009新闻子库中的分布情况。由此可以看出,在两个语料子库中都是纯字母词的使用比例最高,汉字字母词和数词字母词次之,而拼音字母词使用最少,这与陈佳璇、胡范铸(2003)的统计结果吻合。值得注意的是20年间一些完全由外文字母组成的纯字母词数量明显增多 (从15次增加到119次),说明大众对外文词汇的接受程度提高,这一现象与经济社会的发展、对外交流的加强和英语教育的普及密不可分。
表1 不同词形字母词在两个语料子库中的分布情况
3.语义内容
按照语义内容,字母词大致可以分为八大类 (皇甫素飞,2004),本研究在此基础上略有改动。表2显示,在LCMC新闻子库中字母词主要分布在专门名称、科技和军事交通领域,而经济和教育类字母词一次都未出现。相比之下,Torch2009新闻子库中字母词已经渗透到各个领域,呈现出种类多元多样的特征,其中又以专门名称、经济类和娱乐时尚类字母词的增长最明显。
表2 不同语义内容字母词在两个语料子库中的分布情况
专门名称类字母词包括企业公司、机构组织、会议赛事、计量单位等。LCMC中此类字母词如CNN(美国有线电视新闻网)、℃(摄氏度);Torch2009中如IBM (美国国际商业机器公司)、CCI(美国控制组件公司)、CCTV(中国中央电视台)、FIFA(国际足球联盟)、G8(八国集团)、PECC(太平洋经济合作会议)。
科技术语类字母词的使用达到了一定的规模。LCMC中这类字母词如CAD(计算机辅助设计)、STAQ(证券交易自动报价系统),Torch2009中如COD(化学需氧量)、3G(第三代移动通信技术)、PC(个人计算机)、PSP(掌上型多媒体终端)。
经济术语类字母词二十年间使用频率有较大幅度的增长。LCMC新闻语体中未出现一次经济类字母词,而Torch2009新闻语体中使用了36次,如GDP(国内生产总值)出现23次,CEO(首席执行官)5次,其他使用频率较低的有CPI(消费物价指数)、PPI(生产者物价指数)、IPO(首次公开募股)、A股(人民币普通股票)。
医疗健康类字母词在两个语料库新闻子库中分别出现2次和3次。LCMC中BM_D生物信息波治疗仪出现2次,Torch2009中甲型H1N1出现2次和DNA(脱氧核糖核酸)出现1次。
文化教育类字母词使用频率较低。LCMC新闻子库中未使用这类字母词,Torch2009新闻子库中使用了两次,分别是SCI(科学论文索引)和SSCI(社会科学论文索引)。
娱乐时尚类字母词二十年间使用频率呈现出大幅度增长。LCMC新闻子库中仅出现2次卡拉OK,而Torch2009中这类字母词种类较多,如Q版画像、PK(游戏中引申出来的“对决”含义)、各种游戏名称,如DNF(地下城与勇士)、RA3(红色警戒3)、NCAA2010、MaddenNFL10,等等。
军事交通类字母词保持在较高的使用频率。LCMC新闻语体中此类字母词如B-52轰炸机、F15战斗机、SY-132型卡车;Torch2009新闻语体中如AC310A直升机、Z9系列直升机、C-130运输机等。
其他类字母词是排除上面六类剩下的字母词,使用频率比较稳定,如等级:A级、A档,车牌号:鲁K2***5、闽D3***9。
以上列出的统计数据充分反映了近二十年来我国社会的发展状况,尤其表现在经济和娱乐时尚这两个领域的快速发展和对外交流的频繁。
本研究基于两个汉语语料库的新闻子库,追踪了近二十年间字母词在汉语新闻语体中的使用情况。结果发现,字母词在汉语新闻中的使用频率迅速增长,已成为一个难以阻挡的潮流。此外,本研究还从词形和语义内容两个方面定量分析了两个新闻子库中使用的字母词。从词性来看,两个子库中都是纯字母词的使用比例最高,汉字字母词和数词字母词次之,而拼音字母词使用最少。从语义内容来看,20世纪90年代,字母词主要集中于某几个领域,而近几年字母词已渗透到各个领域,表现出多元化的特征。
字母词的产生和发展是一种正常的语言现象,字母词被吸纳为汉语词汇,正是汉语不断发展且具有强大生命力之所在。如果对字母词持排斥态度,必将制约文化的交流。字母词的使用规范该如何建立,是进一步讨论和研究的重点。
[1]陈佳璇,胡范铸.我国大众传媒中字母词使用状况的调查与分析[J].修辞学习,2003(4).
[2]皇甫素飞.从《文汇报》看汉语字母词的历史演变[J].修辞学习,2004(5).
[3]刘涌泉.谈谈字母词[J].语文建设,1994(10).
[4]刘涌泉.关于汉语字母词的问题[J].语言文字应用,2002(1).