张瑞国 万 礼
(青岛农业大学,山东 青岛 266109)
自20世纪70年代美国制作了Brown Corpus以来,世界各国都开始研制语料库,种类和规模越来越大。现在语料库的制作不再限于国家研究项目或是某个大学的研究项目,个人只要有足够资金和时间,也可以制作出相当规模的语料库。特别是针对于日语专业在校学生,针对于课堂使用教材,由学生动手制作适合学生自己的中日对译语料库,可以更有效地学习日语并且能够综合地运用日语。中日对译语料库即为储存各类日语文章的大型文字仓库,旨在根据各种需要对语料库内储存的语言信息进行检索,抽取所需信息。是外语学习中必不可少的一项学习工具,具备省时、易得等特点。
该研究主要针对不同阶段的日语学习者在日常学习中,对于生僻复杂语言现象难以根据自己以往的知识积累加以判断解决的状况,需要借助既定语境下大量语料数据进行学习分析的需求,进行了中日对译语料库的研究与开发。在以我校各语言学习阶段学生为调查对象,对于其需求获得大量反馈之后,开始了语料库的开发工作。
该语料库主要面向初中级学习者的语料学习工具,因此在内容上我们以教材中的重点文章、日语新闻板块(天声人语等)、日本文学名著等为主要内容。学习者在遇到生僻复杂语言现象时可借助语料库中的语料内容进行搜索,通过对比、分析、判断破除所遇到的复杂生僻语言瓶颈,满足了学习者需要借助既定语境下大量语料数据进行学习分析的需求。
具体内容包括将单词模块化、文章化并挑选出经典日语文章,经典日语例句,让每一个初学者使用者都可以轻松查询到单词相关联的例句、文章。通过单词理解记忆文章和例句,通过文章例句反馈学习单词,加深理解,并有助于区分意义相近的重难点词汇,使用者在使用的过程中改变以往一成不变的死记硬背的单词学习方式,在阅读、理解中记忆单词,用单词记句子、文章。语料全部实现了句段对齐和词性标注,全部摘录于著名作品的经典语句。本语料库可以提供一般日语学习、语言及翻译研究等多种目的的应用。
在制作方法上我们参考于康(2013),首先针对我们的设定用户,选取了相应能力阶段所需要的日语文献资料进行筛选,确定为初期语料。之后对筛选后的语料进行扫描,将扫描后的PDF格式文件转化为文字,通过日语文字编辑处理软件秀丸进行文字整理。之后建立并调试Java运行环境,将整理好的语料通过Edamame软件进行转换建库,最后通过语言检索软件Himawari进行检索,并调试运行,之后进行制作标签,标签分类等进一步细化功能的开发,梳理和完善。在初期完善之后我们将软件投放给学生进行试用,对于学生提出的重复句,语料转换过程中出现的乱码错别字,空格等问题进行了修改,并根据同学不断增长的日语学习需求进行了新语料的收集生成,并成立语料发展小组,贴合同学的需求不断增加新语料的开发,建立语料开发长效机制,及时淘汰模糊、暧昧语料。让语料库不断开源,继续长流,不断为同学的日语学习服务。
经过一年的研究开发,最终开发出能为日语专业学习者所实用的语料库,弥补了大语料库费用门槛高小语料库不能完全满足需要以及错误较多的短板。从本校日语学习者的实际需要出发,建立和不断丰富语料素材。经过研究发现并非只有少纳言等大型语料库,学习者可根据自己需要建立属于自己的语料库,使外语学习者根据自己的需要和学习方向拥有自己“专向专用”的语料库成为可能。
参考文献:
[1]戴宝玉.基于语料库的日语研究[M].上海学林出版社,2012.
[2]徐一平,曹大峰.中日对译语料库的研制与应用论文集[M].北京外语教学与研究出版社,2002.
[3]于康.语料库的制作与日语研究[M].浙江工商大学出版社,2013.