语言大数据迷思

2020-02-21 01:57郑锦全
语言战略研究 2020年5期
关键词:词类新闻稿语料

郑锦全

(美国伊利诺大学荣退教授,台湾师范大学讲座教授)

过去数十载,学界使用电脑处理语言资料,提炼出人类语言活动的规律。研究过程中大家面对浩瀚的原始资料,希望能建立更大的语料库。例如崔希亮、张宝林《全球汉语学习者语料库建设方案》一文(《语言文字应用》,2011年第2期),提出建构全球汉语学习者中介语大语料库的设想。2012年美国科技业关注大数据资源的流通与应用。中文计算机学界的响应是如何把大量资料以“词向量”计算法列出词语在中文文本中与临近词语出现的关系,例如2018年腾讯人工智能实验室发文《开源大规模高质量中文词向量数据,800万中文词随你用》。这样的大数据能给语言学界提供什么样的新的研究领域并不明显。

我个人近年关注的问题是如何衡量古今汉语的异同,如果单以词语的有无来考察,是无法显示不同时期或体裁差异的,例如“之”,古今都用,但是古代用“之”的有些语境,现在白话文用“的”。所以古今汉语比较,需要有断词的文本,才能探究词语的属性。近年我研究所用的语料包括台湾“中研院”典藏的上古汉语文本,取自秦汉(公元3世纪以前)的传世文献,有断词和词类语法标记,一共111 000多个词;唐诗三百首(公元7世纪至公元10世纪),有断词,无词类标记,一共有11 000多个词;宋词三百首(公元10世纪至公元13世纪),有断词,无词类标记,一共有13 000多个词;近代汉语文本包括唐五代到清代的作品,例如《水浒传》、《红楼梦》等,一共有2 865 000多个词;现代汉语语料包括台湾“中研院”1990年前后分两期建构的文本,有断词和词类标记,前后两期各收大约五百万个词;新闻体裁文本包括北京大学标记的《人民日报》1998年1月份有断词的新闻稿,共约100万个词;台湾“中央通讯社”1991年至2002年每天发布的新闻稿,共约950万个词,有断词标记。

我从这些语料里计算出词语使用的特色,区别特色的关键在于词语在语流中的使用次数,从出现最高的词语往下排列出来,以出现频次最高的15个词的累计频率百分比作为该文本的词汇动态属性。细节请见郑锦全《汉语词汇动态属性与变异》一文(《语言学论丛》,2017年第2期)。通过词汇动态属性能清楚地区别所考查的古代、近代、现代、诗词和新闻稿的异同和近似值。其中,唐诗三百首(3.431)和宋词三百首(3.327)的属性接近(括号中的数字为词语属性数值,下同);北京大学标记的《人民日报》1998年1月新闻稿(13.827)和台湾“中央社”发布的新闻稿(12.392),这两个语料库的新闻稿属性接近;现代汉语语料中的后五百万词(15.782)、现代汉语一千万词(16.705)和现代汉语前五百万词(17.712),三者之间的现代汉语属性接近;近代汉语(18.078)类似现代汉语;上古汉语(28.757)则离现代汉语较远。今后应该大量扩展这些语料成为大数据,希望能从中看到更多可以深入研究的理念。

猜你喜欢
词类新闻稿语料
基于归一化点向互信息的低资源平行语料过滤方法*
用词类活用法扩充词汇量
从成语中学习词类活用
新闻稿中的记者工作方法浅析
从唐诗的对偶看汉语的词类和语法
漫谈高考考点对词类及句子成分的隐性考查
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
Reliability assessment consideringdependent competing failure process and shifting-threshold
不要滥用“据了解”