中国儿童诗语料库建设刍议

2024-03-05 00:00:00赵嘉轩
文教资料 2024年20期
关键词:儿童诗语料库意象

摘要:儿童诗是中国现当代儿童文学的重要组成部分,过往中国儿童诗的研究多集中于名家名作,涉及词汇、句法、韵律等多个方面。作为诗歌词汇的核心部分,意象从儿童认知出发,以形象为载体,传达诗人的思想情感,具有时代特征和诗人个体特征。自“五四”时期至今,中国儿童诗已经积累了海量文本,为给儿童诗写史,弥补“文学屠宰场”式研究的不足和应对“读不完”的焦虑,本文以“远距离阅读”作为新的研究路径,参考国内外语料库的成功实践,并基于前人的质性研究结果,设计了百年中国儿童诗语料库结构和标注体系,以期为系统考察儿童诗的语言特点和发展规律提供帮助。

关键词:儿童诗语言语料库

中国儿童文学有着深厚的历史资源积淀和民族文脉传承,其中儿童诗被誉为“儿童文学王冠上的明珠”。对儿童诗的研究从传统范式转向数字人文范式是有必要的。传统研究方法主要依赖定性分析,枚举诗中的词句进行论证说明,已经很难出新。数字人文方法的引入,为儿童诗研究提供了新的视角和工具,使研究者能够从宏观和微观两个层面进行更系统的深入分析。

一、文献综述

(一)中国儿童诗研究

国内儿童诗大家的作品是学界过往研究的重点对象,涵盖了词汇、句法、韵律等多个层面,研究者通常枚举诗中的词句进行论证说明,这属于定性研究。汤素兰认为任溶溶儿童诗具有的语言特点有:口语化,自然灵活的节奏和和谐的韵律,诗歌形式的“视觉化”,对汉语语词创造性地运用,句式简单,语言夸张,善用反讽和悖论。[1]姚洪伟认为傅天琳的创作从母亲视角回归儿童本位,将语言的质感和儿童的日常经验有机结合,充满了奇妙的想象,并通过打破视听、物类的界限,将想象的空间进一步拓展,给人陌生化的审美体验,她的《大雁南飞》《对面走来的爷爷》《椰子树》《草原》等诗作里的“诗味儿”体现在动词、拟声词和语气词的巧妙运用,她将语言的质感和儿童的日常经验有机结合,还借用童谣“子了歌”的押韵形式,增强诗句的节奏感和韵律感,产生一唱三叹的语意效果,比如《星期天山就长高了》《幽蓝幽蓝的童话》。梁前刚评述王宜振的两本儿童诗集《21世纪校园朗诵诗》和《21世纪校园抒情诗》运用了新韵“十三辙”,且每一辙都用到了;古韵的基本要求“一诗一韵”“双句押韵”“一韵到底”以及合理换韵,王宜振也继承得较好;此外他在韵目并用和韵式样式等方面也有所创新。[2]与之相对,彭斯远指出儿童诗产生了阶段性的反传统韵律现象,20世纪80年代的儿童诗走向了散文化。[3]总之,儿童诗的共性特征有:从国家、社会、母亲的视角转向儿童本位;语言简洁浅显、口语化,巧妙运用动词、拟声词、语气词及叠词形式;运用通感等手法使语言“陌生化”,画面感强;节奏自然,从传统韵律走向散文化。个性特征有夸张、反讽、悖论等。

朱自强以儿歌作为参照,说明了儿童诗中形象为意象的原因:儿歌中的形象是直接、具体、客观的白描,而儿童诗中的形象则往往“意在象外”[4],托物言志,借景抒情,包含了抒情主体的主观思想和想象,不是纯然客观的。意象是诗歌词汇的核心部分。儿童诗的意象既根植于中国传统美学的深厚土壤,又在现当代语境中焕发出新的生命力,展现出儿童独特的认知世界和情感表达。

(二)基于语料库的诗词意象研究

语料库作为一项技术,同时也作为一种研究方法,历经近半个世纪的发展逐渐成熟,如今已深入国内古典诗词意象研究领域。例如,中国台湾元智大学的罗凤珠等建设了格律自动检索系统[5];大连理工大学的毕旭将特征向量输入神经网络,系统建立了一个小型唐诗语料库,标注了意象词汇在《同义词词林》中的编号与主题,并可以查询出语义相近的诗句[6];葛四嘉进行了关于《唐诗三百首》意象标注语料库的构建及统计分析,用深度学习方法标注分词和词性信息,用知网(HowNet)体系标注意象的表层义与深层隐喻义信息,探寻意象与作家风格、题材内容之间的关系,统计得到意象分布数据和内部词汇构成、深层情感等语义知识。[7]这些研究为儿童诗语料库的建设和标注提供了方法、工具和思路上的借鉴。

(三)德国儿童诗语料库

2023年德国推出的儿童诗语料库ChildPoeDE是目前世界上第一个较为系统、全面和专门的儿童诗语料库,收录了七部诗集,包含了1991年至2001年出版的356位作家(84位女性、271位男性、1位未知)创作于1800年至2018年两百余年间主要面向小学生的1 082首儿童诗。诗歌层面和词汇层面的元数据包括选本和作者信息及量化文本特征如押韵、词汇丰富度、移动平均词汇丰富度、词性、实词词云、分布和频率、拟声词和声调等。大多数特征是由研究者自己的Python脚本提取的。该研究使用rhymetagger发现,这1082首儿童诗的押韵模式,有的遵循传统韵律节拍,有的则较为自由和俏皮。其题材包括日常情景、冒险经历、自然和动物、家庭生活、梦想等。该语料库既可以用于计算文本分析,也可以作为实验研究中诱发语料的来源。有了德国儿童诗语料库的成功实践,中国儿童诗语料库的构建和应用指日可待。[8]

二、儿童诗语料库的建设与标注

经过百余年的发展,中国儿童诗已经积累了海量的文学文本。为了谱写儿童诗史,并弥补以往只关注名家名作这样“文学屠宰场”式研究的不足和研究过程中读不完的焦虑,本文认为,可以引入“远距离阅读”这一崭新的研究视角。[9]电子语料库作为儿童诗存储和研究的数字化载体,使“远距离阅读”成为可能。

(一)建设儿童诗语料库的目的与意义

第一,建设儿童诗语料库可以提供大规模儿童诗数据资源。数字人文技术的兴起正在引发人文研究的范式变革,大规模数据资源的存储和应用受到了人文学者前所未有的重视。建设大规模数据库是数字人文研究中的一项基础工作。语料库作为数字化载体,可以为儿童诗研究者提供丰富的素材,也能够为教育工作者提供丰富的教学资源,帮助他们设计教材和课程。

第二,建设儿童诗语料库可以挖掘中国儿童诗的语言特征和发展规律。不同年代的诗人诗作有不同的语言特点,不仅在高频词、词汇丰富度、词汇密度等方面存在不同,在字词、意象的选择上,不同诗人也有不同的侧重和喜好,用韵情况也各不相同。本文认为通过建立并整理语料库,可以展现出中国儿童诗百年来语言面貌的发展规律,为中国儿童诗编史修志。

第三,建设儿童诗语料库可以服务于儿童诗教。百年来小学语文教科书中不乏儿童诗篇目,社会上也出版了不少儿童诗集。儿童诗语言浅近、意象优美、富于音乐美,尤其适合儿童赏读。通过语言知识的传授,培养儿童的阅读能力、写作能力,有助于儿童全面提高语文水平。引导儿童感知世界、亲近自然、珍惜情感,激发想象力和思考能力,对于培养儿童的文学素养和审美情趣有着积极的影响。

第四,建设儿童诗语料库可以辅助制定儿童诗分级阅读清单。近年来,已有专家做过儿童诗阅读分级工作,如王小妮《给孩子们的诗》按儿童理解力的不同分为一二年级、三四年级、五六年级三个部分[10],但由于篇目有限,分级标准比较主观,且缺乏20世纪的经典诗作。分级阅读标准的制定以及根据标准对百年诗作进行归纳,对于语文教育、亲子阅读和儿童自主阅读都有一定的指导意义。

(二)语料来源和元数据字段设计

本文参考儿童文学界有代表性的专家学者推荐或选编的书目,采集了1000余首中国儿童诗,约有30万字,时间跨度自“五四”时期至21世纪期间百余年,其中既有著名诗人的诗作,也有一线语文教师和儿童的诗作,其中还有部分被收录进小学语文课本,尽量保证语料覆盖度广、代表性强、流通度高。本文将纸质书籍扫描成电子文本,并进行人工清洗,用TXT格式存储。

年代分期为本文奠定了深入探讨诗歌语言与社会、文化、历史关系的基础,帮助我们更清晰地识别和分析各个时期儿童诗的特点、流派、主题。那么如何合理地设置语料库的年代字段呢?杜传坤在《中国现代儿童文学史论》中梳理了现代中国儿童诗的发展脉络。晚清民初的学堂乐歌可看作儿童诗的前身,主张功利的“精神教育”,被视作“简化的成人文学”。“五四”时期的儿童诗创作不再将儿童视为成人的附庸,“儿童本位”意识初显。20世纪三四十年代,抗战救国的社会理想辐射到儿童诗阵地。谭旭东在《重绘中国儿童文学地图》中论述了当代儿童诗的发展情况:20世纪50年代—70年代,儿童诗中常见“红色意象”或“暖色意象”,大都表现出社会公有制背景下的集体主义精神和对时代的歌颂与赞美。到了个体经济发展的20世纪80年代,儿童诗不再是宣言和颂歌式的创作,审美、题材和意象开始呈现多元、个性、自我倾向,再次回归到儿童本身,真正从儿童的视角抒发真情、亲近自然、放飞想象。20世纪90年代的儿童诗服务于市场经济,创作受制于出版商的意图,处于一个小低谷的过渡时期。[11]21世纪以来儿童诗再次焕发出生机与活力,老中青三代作家同台,诗作各具特色[12],作品数量井喷式增长,不仅有着现代性的丰富意象,还运用通感等手法使语言陌生化,从而带来独特的审美感受。综上,本文认为应在年代上设计“‘五四’时期至20世纪20年代、20世纪三四十年代、20世纪50年代—70年代、20世纪八九十年代、21世纪”5个字段。语料没有明确年代的诗作,本文认为可利用智能问答系统kimi联网搜索和长文总结功能,参考诗人生平事迹、访谈及原选集的出版时间等来确认其年代归属,仍无法确认的可归为“其他”字段。

诗歌是人工语言,体现诗人的个人创造力,高频意象可以揭示诗人的写作风格,反映诗人习惯或倾向于聚焦一定的抒情客体。朱自强在《朱自强学术文集5:中国儿童文学史论》中选取了几位风格独特的儿童诗人诗作进行定性分析,就显示出一些诗人在某一阶段对特定意象的青睐。[13]如金波的《小鹿》等抒情童诗作品里富含“春天”意象,徐鲁在《山村母校》《晚秋的温情》等作品中常用“乡村”意象。当然,如果某类意象被大量诗人使用,也说明这种抒情客体可以唤起一定程度的集体共鸣。本文认为通过构建语料库,可以大范围地量化考察诗人用词尤其是意象的情况,因此根据研究目标需设置作者字段和意象字段。

在词汇层面,为了考察不同年代儿童诗的用词情况,还应设置高频词(停用词)、词汇丰富度、词汇密度、特色语言形式如叠词的词类等字段。词汇丰富度的计算公式是:类符数/形符数×100%,反映语料的词汇量和用词的变化性;词汇密度的计算公式是:实词数/词汇总数×100%,反映语料的信息量,也能侧面体现出语料的形式化程度。为了避免不同年代文本量的区别导致的结果误差,需要进行标准化计算。

(三)语料库的加工标注

每首诗分为4个层次。最大的层次是“诗”(verse),其次是“标题”(title)和“作者”(author),作者名字(包括笔名)不划分姓和名,统一标注为“/nr”,再次是“诗节”(stanza)。加工标注主要以中国国家标准《GB13715—信息处理用现代汉语分词规范》和《北京大学现代汉语语料库基本加工规范》标记集为准绳,使用NLPIR进行分词和词性标注并主要针对歧义词、未登录词的分词或标注错误进行人工清洗。

儿童诗作为现当代诗歌的一个分支,在一定程度上有机继承了中国传统诗词意象的一些语言形式,如《大历诗风》中所归纳的数字精确化、形容词和动词的修饰、方位词的运用,从数量、性状、位置三方面促成了意象的具体性。自然景观的白描是一个重要主题,现当代诗歌不受字数限制的特点使这些描写在形式和内容上都更加丰富多样,还常常使用色彩词、叠词等。另外,时间意象的空间化、通感、意象的跳跃、虚化(即淡化实体的存在,以声、色、味来体现)也都能在现当代的儿童诗中窥得踪迹。[14]因此意象单位不宜简单等同于名词单位,而应看作一种“合成空间”[15],人工在标注时需遵从词组本位原则,保留如名词、形容词、数量词、动词等必要的有意义的修饰词。

意象作为审美体验的产物,是一种心理现象。陆俭明假设意象的形成过程为:先通过感官感知客观世界的某一个方面,其所感知在人的认知域里形成意象[16],即意象的形成经历了“感知—动情判断—创构”的过程。从“感觉基础”和“意象的状态”角度,意象的类型有视象、声象、嗅象、味象、触象,形成意象的感知觉是设定标注体系的有效抓手。本文建议在前人分类的基础上增加“动象”标注,原因在于形象思维是儿童诗的显著特点,动作作为形象刻画的有机组成部分,能更细腻地传达人物情感,增强诗歌互动性。本文以分词和词性标注语料为基础,“视象、声象、嗅象、味象、触象、动象”分别用“[]shi”“[]sheng”“[]xiu”“[]wei”“[]chu”“[]dong”标注在意象词之后。因为意象具有多层性,有的意象除字面义外还有深层义,有深层义的意象在意象类别标签后用“{}”符号进行标注,“{}”符号内填入对应的深层义。编写Python脚本调用知网(HowNet)体系可以统计意象的义类组合、意象型、用例、内部的语言结构及其在不同年代和不同诗人诗作中的分布、频率等。

三、结语

过往的中国儿童诗研究主要聚焦专人专诗的词汇、句式、韵律等层面,其中在词汇层面上,意象作为核心组成部分也受到了较多关注。在传统研究范式下,研究者们利用文本分析、历史考证和文化解读等方法来讨论意象。随着“五四”时期以来海量儿童诗的文本积累和学界对于儿童诗史投入越来越多的关注,仅凭目前的研究手段已经较难再出新的成果。

参考前人的成功实践,儿童诗语料库作为“远距离阅读”的数字载体存储了1千余首儿童诗,覆盖了“五四”时期至21世纪期间的百余年的主要诗作。本文基于前人对儿童诗分期的研究结果,将年代字段设置为“五四”时期至20世纪20年代、20世纪三四十年代、20世纪50年代—70年代、20世纪八九十年代、21世纪共5个历史时期,以期反映不同政治社会背景与主流意识形态下语言面貌的变化。词汇层面上,本文认为可以设置高频词、词汇丰富度、词汇密度、叠词的词类等多种字段,以反映一定规模的用词情况;与此同时,以感觉、知觉为抓手标注意象字段,分为视象、声象、嗅象、味象、触象、动象,标注时需以词组本位为原则保留语义的完整性,调用知网体系挖掘语义知识。

总之,该语料库可用于词汇计量研究并辅助制定儿童诗分级阅读清单,统计意象义类组合、意象型、用例、内部语言结构等以及其在不同年代和不同诗人诗作中的分布、频率,服务于儿童诗教。数字人文技术的蓬勃发展使我们得以借助科技的力量,高效地存储、挖掘和分析儿童诗宝库,这不仅为儿童诗研究提供了崭新的视角,还能够反哺文学知识,为儿童文学未来的发展注入新的活力。

参考文献

[1] 汤素兰.任溶溶儿童诗的语言艺术[J].中国文学研究,2016(1):98-102.

[2] 梁前刚.评述王宜振儿童诗的用韵艺术[J].中国图书评论,2004(10):38-40.

[3] 彭斯远.儿童诗的韵律化与散文化[J].重庆师院学报(哲学社会科学版),2003(1):10-13.

[4] 朱自强.儿童文学概论[M]北京:高等教育出版社,2009:183.

[5] 罗凤珠,李元萍,曹伟政.中国古代诗词格律自动检索与教学系统[J].中文信息学报,1999(1):36-43.

[6] 毕旭.基于唐诗语料库的意象检索研究[D].大连:大连理工大学,2006.

[7] 葛四嘉.《唐诗三百首》意象标注语料库的构建及统计分析[D].南京:南京师范大学,2019.

[8] Marina Lehmann,Anne Heumann,Moniek M. Kuijpers.The ChildPoeDE Corpus: 1082 German Children’s Poems for Computational and Experimental Studies on Poetry Reception[J].Journal of Open Humanities Data,2023(1):1-6.

[9][美]弗兰科·莫莱蒂.对世界文学的猜想[J].诗怡,译.中国比较文学,2010(2):9-20.

[10] 王小妮.给孩子们的诗[M].广州:南方日报出版社,2014,前言1.

[11] 谭旭东.重绘中国儿童文学地图[M].西安:西北大学出版社,2006:157-230.

[12] 湛娇娇,谭旭东.21世纪儿童诗创作整体观察与分析[J].昆明学院学报,2023(2):124-132.

[13] 朱自强.朱自强学术文集5:中国儿童文学史论[M].南昌:二十一世纪出版社集团,2015:461-469.

[14] 蒋寅.大历诗风[M].上海:上海古籍出版社.1992:179-206.

[15] 余渭深,董平荣.合成空间与中国古典诗词意象[J].外语与外语教学,2003(3):4-6.

[16] 陆俭明.构式与意象图式[J].北京大学学报(哲学社会科学版),2009(3):103-107.

猜你喜欢
儿童诗语料库意象
抚远意象等
青年文学家(2022年9期)2022-04-23 15:39:14
教案《创作儿童诗》
创作儿童诗的有效教学策略
《语料库翻译文体学》评介
长了翅膀的儿童诗
如何写儿童诗
把课文的优美表达存进语料库
基于JAVAEE的维吾尔中介语语料库开发与实现
语言与翻译(2015年4期)2015-07-18 11:07:45
“具体而微”的意象——从《废都》中的“鞋”说起
“玉人”意象蠡测