2002—2022年国内基于语料库的日本学研究之文献计量分析

2023-08-03 07:35:40邱妍
西部学刊 2023年13期
关键词:可视化分析语料库

摘要:基于文献计量工具CiteSpace,从整体趋势及特征、高产机构及核心作者群、研究热点主题及趋势四个方面,对近二十年来发表于国内期刊的513篇我国基于语料库的日本学研究成果进行了系统分析,以期探寻研究趋势,进一步推动我国语料库研究。研究表明:(1)缺乏学术共同体意识,发表在国内高水平期刊的研究成果不多,期待多角度、多层次的学术合作及相关技术的创新。(2)书面语语料库比口语语料库运用更广泛、更频繁。(3)研究热点呈现从词汇向篇章过渡,从词汇、句型表达研究向翻译学、话语分析等领域过渡的多样化趋势。

关键词:日本学研究;语料库;CiteSpace;可视化分析

中图分类号:H0-05;H36文献标识码:A文章编号:2095-6916(2023)13-0173-04

A Corpus-Based Bibliometric Analysis

of Japanese Studies in China (2002-2022)

Qiu Yan1,2

(1. Xian International Studies University, Xian 710128;

2. College of Foreign Languages, Hunan University of Technology, Zhuzhou 412007)

Abstract: Based on the bibliometric tool CiteSpace, this paper systematically analyzes 513 corpus-based research results of Japanese Studies in China published in domestic journals in the past two decades in terms of the overall trend and characteristics, high-yield institutions and core author groups, research hot topics and trends of the research, with a view to exploring the research trend and further promoting the development of corpus-based research in China. The study shows that: (1) there is a lack of academic community awareness, and few researchs results have been published in domestic high-level journals, and there is a need for academic cooperation and technological innovation from multiple perspectives and at multiple levels; (2) Written corpus is more widely and frequently utilized than spoken corpus; (3) The research hotspots show a diversified trend from vocabulary to chapter, from vocabulary and sentence expression research to translation and discourse analysis and so on.

Keywords: Japanese Studies; corpus; CiteSpace; visualized analysis

世界上第一个平衡语料库——布朗语料库自二十世纪六十年代初在美国布朗大学诞生,语料库的出现给语言研究带来的一大变化是其重构了定性研究和定量研究的关系。一直以来,定性研究和定量研究容易被认为是对立的关系,但其实将两者理解为互补关系更合适。如Leech[1]提到語料库语言学的特征时强调的是“质”与“量”的兼容性,即不仅可以构建质的(qualitative)语言模型,还可以构建量的(quantitative)语言模型。使用语料库进行研究可以用提取的数据对研究对象进行定量分析和全面地描述,继而把握数据的整体情况。语料库的出现填补了母语者和非母语者在语料使用、检索方面的信息沟壑,使非母语者对目标语言的研究变得容易。

黄水清、王东波[2]总结了近三十年国内语料库的研究与建设,从定量和定性两个角度总结概括了语料库的研究变化及研究热点,并对其在语言教学及信息检索等领域的应用现状进行了阐述。孙成志、柳瑞松[3]在对近十二年国内日语语言研究回顾中,发现语料库在日语语言研究中的工具性越来越得到重视,这“从研究方法和研究范式的角度拓宽了传统日语语言研究的范畴”,但该研究未进一步对基于语料库的研究现状作详细的论述。

为厘清近二十年来国内基于语料库的日本学研究的发展脉络和方向,笔者依托中国知网(CNKI)收录的所有期刊,在高级搜索中以“语料库*中日”or“语料库*汉日”or“语料库*日语”or“语料库*日本”为主题词进行检索,运用文献计量工具CiteSpace总共检出文献664篇,在对所获取的数据进行手动筛选处理之后,最终得到有效文献513篇。本文拟对检索到的数据进行可视化分析,以期为国内基于语料库的日本学研究提供参考和借鉴。

一、研究设计

因为本研究旨在考察基于语料库的日本学研究,所以对象并不局限于外语类期刊,涉及知网收录的所有期刊文献(不含报纸、学位论文和会议论文)。文献检索以“语料库*中日”or“语料库*汉日”or“语料库*日语”or“语料库*日本”为主题词,文献收录时间覆盖2002年1月1日至2022年11月15日。数据采集分为以下两个步骤:首先,在知网通过检索获取文献数据后,以逐一阅读的方式人工剔除不相关的通讯类信息及非研究类论文,比如书评、会议报告、论文综述及语料库介绍等,最终获得513篇有效论文数据。其次,下载相关论文的题录资料,包括论文题目、作者、作者单位、关键词,以Refworks格式导出,以备CiteSpace软件进行数据处理。

CiteSpace(引文空间)是一款引文可视化分析软件[4]。该软件可应用于科学文献中来识别与跟踪研究领域的演变并进行可视化展示,采用宏观计量与微观计量相结合的方式为科学发现提供参考,探究并显示科学发展新趋势和新动态,同时帮助预测该研究领域的未来发展走向。借助该工具对上述513篇基于语料库的日本学研究相关论文的题录信息进行可视化分析,以此对近二十年来国内相关方面研究进行回顾及展望。

二、数据分析及讨论

(一)总体趋势与特征

从发文年代分布来看,国内基于语料库的日本学研究始于2002年。1999年,北京外国语大学的徐一平教授获批“中日对译语料库的研制与应用研究”项目,并在2002年成功地建立了中日对译语料库。这一成果可谓是世界首创,是我国语料库建设与研究的里程碑,同时也为国内基于语料库进行日本学研究奠定了基础。2002—2007年这6年间,我国基于语料库的日本学研究发展缓慢,年平均文献量不超过2.3篇,这一结果与日语语料库的发展缓慢历程息息相关。虽然日本国立国语研究所自二十世纪五十年代就开始进行书面语、口语的实态调查,但遗憾的是未能发展成语料库,一直到九十年代,日本才开始进入语料库建设阶段。2008年至2017年这十年间,基于语料库的日本学研究得到显著发展,文献量呈现出逐年增加的态势。年平均发文量28.5篇,到2017年,基于语料库进行日本学相关研究的期刊论文数达到56篇之多。这得益于数据驱动的自然语言处理、机器深度学习和文本挖掘等技术的进步。但2017年之后发文量徘徊间续起伏,出现瓶颈现象。总体上来说,我国基于语料库的日本学研究成果持续增长,相信未来也将保持增长的态势。

(二)高产机构及核心作者群

将CiteSpace时间跨度设置为2002—2022年,时间切片为2年,得到作者共现网络知识图谱和机构共现网络知识图谱,结果显示高产作者为李光赫、毛文伟,刘玉琴、邹善军、孙成志等人尾随其后,他们属于国内该研究领域的代表人物。发文量比较靠前的研究机构为大连外国语大学、大连理工大学和上海外国语大学,说明这三所机构在基于语料库进行日本学研究中学术科研力量较强。以大连理工大学外国语学院李光赫为首,刘玉琴、邹善军等人一起形成学术共同体雏形,产出了较多研究成果。但是其他几位高产学者及机构之间合作较少,单独节点的作者及机构较多,表明我国学者及机构在基于语料库进行日本学研究上沟通、合作意识不足,学术共同体建设亟待加强。

(三)研究热点主题

研究热点反映该领域研究的重点及方向,对于深入了解分析该领域的研究内容有重要意义。关键词是一篇文献核心内容的凝练及提炼,从该领域关键词的频率高低可以推测该领域的研究热点所在。因此,本文对关键词进行聚类分析,以明晰语料库日本学研究的热点。运行CiteSpace,在关键词知识网络图谱的基础之上,选取了LLR算法,得到关键词聚类网络知识谱图,其中,Q值及S值均大于0.5,说明得到的聚类结构显著且是合理的。通过对关键词聚类网络知识图譜统计分析发现,国内基于语料库与日本学相关的研究集中在外语教学、汉日对比、日语本体研究和语料库的建设与创新四个领域。

1.外语教学领域

外语教学研究涵盖了教学模式与教学内容、教材分析、二语习得等,研究主题范围最为广泛。可视化共现知识图谱及关键词分析显示,与“外语教学”密切相关的关键词包括“中介语”“偏误分析”“二语习得”等,由此可知相关研究领域为四个方面:

(1)对日本留学生的母语迁移及偏误进行分析。该领域的研究多借助于汉语中介语语料库,如HSK动态作文语料库。该语料库囊括了1992年以来历年参加HSK高级写作考试的部分母语非汉语的外国人的答题数据。基于该语料库分析日本留学生汉语习得时出现的偏误情况,涵盖汉语书写、词汇习得、句型表达等方面,归纳偏误的种类与特点,分析其产生的原因,提出相应的教学建议。

(2)中国日语学习者二语习得分析。利用学习者语料库的考察结果,发现中介语的语言特点和学习者存在的问题,并针对性地加以解决。毛文伟基于词汇构成及句长等指标,在和本族语语料库的考察结果进行对照的基础上,对中国日语学习者作文词汇及表达方式中介语特征进行了考察。

(3)教学模式改革的研究。该领域研究尝试将语料库研究结果和句型、词汇、翻译等教学进行有机结合。彭玉全结合教学实践分析了语料库在日语句型教学中应用的可能性。吴桐和董鑫提出将语料检索系统引入写作课程教学中,增加地道的词语搭配,提升学生的自主写作能力。

(4)基于语料库的教材研究。杨秀娥和陈俊森基于日语教材语料库发现语法项目的导入、解说和练习编排不符合学习者的习得情况,针对这些问题提出相应的改进策略。毛文伟结合本族语语料库与学习者语料库聚焦教材编写问题。付晨曦借助日语书面语均衡语料库发现教材中关于「べきだ」句型的共现表达形式、动词和副词的介绍存在偏差。

2.汉日对比领域

汉日对比研究对象涵盖了语音、文字、词汇、语法、语用学等方面。可视化图谱显示,基于语料库的与汉日对照这一聚类相关性较强的关键词包括词语搭配、中日同形词等,通过对这些关键词进行分析归类,多维度地为易混淆中日同形词、句型的中日对译辨析起到了参考及借鉴作用。汉日对比研究主要集中在两个方面:一是词汇方面。代薇和张娜以词典及中日对译语料库中的例句为基础,揭示了汉语连词与日语并列助词之间存在的对应而不对等的关系。华迪圣、王灿娟基于语料库中日同形词进行了辨析,并利用抽样统计明晰了各义项的分布情况。二是句型表达方面。基于中日对译语料库对句型进行对比研究。张斌等对日汉因果复句进行了对比研究。姬彩彤和李光赫考察了条件句不同的翻译倾向及对译句式的特点。

3.日语本体研究

该领域多集中于近义词的词语搭配及句型表达研究。刘艳伟和刘玉琴以近义词「文句」和「苦情」为例,提出从词语搭配统计值来探讨日语近义词词典编纂的新方法。朱鹏霄对现代日语动词连用形重复与「ながら」句式在生成条件、语义范围、句法功能、主语出现等方面进行了对比研究。

4.语料库的建设与创新

谭晶华和毛文伟对中国日语学习者语料库CLJC的建构及应用前景展开了探讨。于康、田中良和高山弘子致力于“TNR汉日日汉翻译语料库”研发工作及对如何将其应用于翻译教学进行了探讨。虽然有部分研究致力于日语写作课程、视频、口译、听力等语料库的构建,但是语料库的建设是一项及其耗费人力、物力和财力的工程,因此这些语料库的建设规模较小,仅仅止步于初探。

(四)研究趋势

借助CiteSpace对相关文献的关键词随时间变化的情况进行定量分析,形成关键词时序图反映了研究主题随时间变化的走向,能够在一定程度上反映该领域的研究趋势。

结果显示基于语料库的日本学研究在不同时期关注点不同,可以将该领域的研究成果分为三个时间段,以更好地观察我国在该领域的发展。

1.初创期(2002—2008年)。这段时间是我国运用语料库进行日本学研究的起步发展时期,由于新技术的出现,传统语言学研究者们对这一新兴学科的了解也不甚详细,势必会有磨合期,该阶段研究杂乱未成系统。

2.繁荣期(2009—2014年)。在这一时期,我国学者运用语料库进行日本学研究的成果逐渐增多,主要集中在外语教学、汉日对比、日语本体研究等领域。

3.转换期(2014—)。出现了运用语料库进行篇章的研究,比如翻译学研究、话语分析等均有涉及。于菲将语料库与翻译研究相结合关注译者的翻译风格特征。刘曼借助文本挖掘软件对新闻语料库进行分析,阐明了日本主流报刊对“一带一路”的认知变化及其原因。在这一时期,不仅研究领域发生了扩展,语料库的形式有了新的变化。例如口语语料库的建构带来了礼貌等新的研究方向,为人机互动研究提供言语行为、语言要素和话题展开模式等相关依据。除此以外,语料库从以前单一的纯文本语料演化到现在多模态视频语料,被广泛运用于语音学习、同声传译教学,可以多模态地分析言语行为、句型表达等。

三、结语

本文基于文献计量工具CiteSpace对近二十年国内基于语料库的日本学研究现状进行了科学知识图谱分析,从中得到如下三个方面的启示:

第一,从目前研究性论文的发文量来看,整体上呈现出逐年递增的趋势,但是近5年出现了瓶颈期。从高产机构及核心作者群来看,无论是机构还是作者,之间连线数量较少,说明相互之间缺乏合作意识,今后应该加强合作,建立学术共同体,扩展研究范围,鼓励跨学科研究,促进学科融合,使研究更加全面化。基于语料库的研究,国内高水平的期刊基本还是以英语为主,关于日本学研究的论文较少,这从侧面反映出研究范式的创新程度和工具技術革新需要进一步加强。

第二,从语料来源来看,所用语料均以书面语研究为主,较少使用口语语料库。自建语料库的研究语料多源自于文学作品或者译本、新闻报道、政府工作报告等文本。现在口译语料库、视频语料库的出现为研究者们提供了多维度研究的渠道,但语料较少,应用面较窄仍为一大问题。未来研究可增加口语语料的收集与研究。同时,近年来高考日语人数不断增加、出于个人兴趣在培训机构接受日语教育的人数逐年增加,日语学习者构成结构、学习目的呈现多元化,针对不同年龄段日语学习者语料库的构建及相关研究都会成为研究热点。这些研究的落地,迫切需要研究者及研究机构更多地进行横向交流合作。

第三,从研究热点及趋势来看,从词汇向篇章过渡,从本体研究词汇、句型表达研究向翻译学、话语分析等领域过渡,呈现出多样化的趋势。国内基于语料库的研究要多关注高层次期刊同类研究或类似研究所使用的新型研究方法,跳出传统对比分析研究方法的藩篱。就现阶段来看,高水平同类研究中较广泛使用多因素数据分析和可视化方法,而日本学研究仍旧局限于传统的汉日对比等研究领域,希望未来可以尝试新方法,开拓新领域。

参考文献:

[1]LEECH G.Corpora and Theories of Linguistic Performance[M]//SVARTVIK J.Directions in Corpus Linguistics.Berlin:Mouton de Gruyter,1992:105-22.

[2]黄水清,王东波.国内语料库研究综述[J].信息资源管理学报,2021(3):4-17,87.

[3]孙成志,柳瑞松.基于CiteSpace的日语语言研究的知识图谱分析(2009—2020)[J].辽宁师范大学学报(社会科学版),2021(2):109-115.

[4]李杰.CiteSpace中文版指南[EB/OL].2015:5[2021-11-17].

http://cluster.ischool.drexel.edu/~cchen/citespace/manual/

CiteSpaceChinese.pdf.

[5]孙成志.基于语料库的汉日新闻语篇转述话语对比研究:以“英国脱欧”为例[J].日语教育与日本学,2020(2):1-11.

作者简介:邱妍(1987—),女,汉族,湖北武汉人,西安外国语大学博士研究生在读,湖南工业大学外国语学院讲师,研究方向为日语语言学。

(责任编辑:王宝林)

猜你喜欢
可视化分析语料库
《语料库翻译文体学》评介
基于语料库“隐秘”的词类标注初步探究
广东蚕业(2019年3期)2019-05-14 05:37:40
把课文的优美表达存进语料库
高校学生管理法治化研究:基于CiteSpace的可视化分析
高校学生管理法治化研究:基于CiteSpace的可视化分析
我国职业教育师资研究热点可视化分析
职教论坛(2016年26期)2017-01-06 19:04:59
声波吹灰技术在SCR中的应用研究
科技传播(2016年19期)2016-12-27 16:18:28
可视化分析技术在网络舆情研究中的应用
现代情报(2016年11期)2016-12-21 23:40:14
国内外政府信息公开研究的脉络、流派与趋势
现代情报(2016年10期)2016-12-15 12:27:57
基于JAVAEE的维吾尔中介语语料库开发与实现
语言与翻译(2015年4期)2015-07-18 11:07:45