基于文献计量分析汉语方言语料库建设及应用研究态势

2023-11-24 05:47敏,刘
晋图学刊 2023年5期
关键词:语料语料库方言

李 敏,刘 飞

(1.海南师范大学 图书馆,海南 海口 571158;2.新疆医科大学 图书馆,新疆 乌鲁木齐 830017)

0 引言

随着中国城镇化进程的不断推进,普通话的普及对汉语方言文化的生存环境提出了严峻挑战。如何理解和表征方言特征,传承和发扬方言所承载的民族文化,成为语言学界迫在眉睫的重要任务。

语料库是指经过科学取样和加工的大规模电子语言材料库,汉语方言语料库是指以汉语方言为语料基础进行研究的大型语料数据库。近四十年来,中国汉语方言语料库取得了长足进展。汉语方言语料库的研究在传承中国各个民族语言,传播汉语方言文化、增强民族自信中发挥巨大的作用。20世纪80年代,对方言语料库的建设和应用开始起步[1];20世纪90年代末至二十一世纪初为汉语方言语料库相关研究的初始阶段,北京语言大学等机构建设了我国较早的方言语料库,如“北京口语语料库”等语料库的产生[2],代表着汉语方言语料库建设及应用研究步入正轨;2008年国家语委启动了“中国语言资源有声数据库建设”项目后[3],把汉语方言语料库相关研究推向了新的高度。现在,汉语方言语料库建设及应用研究已经成为国内语言学及相关学科领域研究的前沿和热点领域,其文献数量不断增加[4]。

文献计量法是一种通过借助文献的各种特征数量,采用相关数学和统计学的方法,定量地描述、评价和预测科学技术的发展动态,凸显出重要的方法论价值[5]。本文以汉语方言语料库建设及应用为研究主题,基于文献计量研究方法,分析汉语方言语料库相关研究领域的发展现状,分别从研究数量、研究机构、研究热点等层面介绍了主要研究力量的研究信息,从而掌握汉语方言语料库建设及应用的最新研究趋向,为后续研究提供文献参考。

1 数据来源与分析方法

1.1 数据来源

本文以中国知网数据库CNKI为数据源分析汉语方言语料库建设及应用研究态势,时间段截取区间为1995年至2021年(完整的会计年度,即1995-01-01至2021-12-31)。在CNKI数据库中以“语料库”和“汉语方言语料库”为主题词进行检索,为了数据的科学性和可靠性,均选择核心论文期刊为数据来源,在CNKI数据库中运用高级筛选机制“期刊来源”勾选为“SCI来源期刊”,“EI来源期刊”“北大核心”“CSSCI”和“CSDN”,并选择研究时间段1995-01-01至2021-12-31。本研究按照不同年份对机构、期刊、作者等统计分类信息进行筛选,在Excel中进行数据整理和归纳计算。研究指标包括:研究主题、论文数、被引频次等。

1.2 分析方法

本文基于文献计量学理论,运用中国知网可视化分析软件进行文献信息的挖掘和分析,进行文献的关键词共被引分析、高产作者分析和主要研究机构分析,形成可视化网络图谱,并进一步针对主要信息整理成表格,进而能够从海量文献中找到关键的信息。通过图谱和表格信息可以观察到某一学科领域的发展历程和当前研究热点,从而了解该领域最新研究动态[6]。

2 结果分析与讨论

2.1 文献总体分析

各个学科领域在一定时间内的论文产出数量是反映该学科知识积累程度和研究活跃程度的重要指标,代表了该学科研究领域最新的发展动态和走向。统计表明:当一门学科处于萌芽和快速发展阶段时,其研究相应的文献数量呈指数增长[12]。

语料库,通俗含义下指的是语言材料库,系统而全面的语言学是语料库的建设的理论指导,对真实语言材料的搜集和整理是语言学得以发展的不竭动力,而方言语料又是几千年来中国广大地域上最原始、丰富的语料。根据2012年《中国语言地图集》[7]的最新统计,我国共有10种汉语方言大区、17种方言区、98种方言片、168种方言小片。对汉语方言语料库建设和应用的研究是语料库研究最核心的部分,能够最大程度的保护汉语方言话语语料的原生态属性[8][13]。

本文选择检索条件为:(主题%=‘汉语语料库’or题名%=‘汉语语料库’)AND(发表时间Between(‘1995-01-01’,‘2021-12-31’))。结果表明:汉语方言语料库建设及应用领域发文量呈逐年增加趋势。1995—2006年为我国汉语语料库建设和应用的探索期。在这一时期,随着语料库建设在中国的发展,汉语方言语料库的建设和应用也与之同步发展,但是发文数量较少。这是因为随着1955年“全国文字改革会议”和“现代汉语规范问题学术会议”的召开,全国实行推行普通话政策,在一定程度上对汉语方言的生存空间造成挤压。1956年开始全国开展了各个方言片区的汉语方言普查工作,此次普查工作积累了丰富的方言材料和方言调查经验,为后期汉语方言建设和应用的研究奠定了基础。2006—2015年为我国汉语方言建设和应用领域研究的成长期,对汉语方言语料库的探索的文献数量大幅度增加。进入21世纪以后,随着城市化进程的加快,普通话的普及,汉语方言文化开始出现代际传承的断裂,方言文化濒危,濒危方言、弱小方言萎缩甚至消亡,我国各地方言的传承和发展面临前所未有的挑战,汉语方言语料库的建设和应用成为学术界日益关注的重点[9]。2015—2021年间汉语方言语料库建设和应用研究步入稳定的发展期,但是数量上逐年下行,汉语方言语料库的研究热度有所下降[10-11]。

2.2 主要研究力量分析

检索发现共有40个机构参与了汉语方言语料库的建设。主要的研究机构如表1所示。首先,对汉语方言语料库建设和应用研究的机构大多是科研机构,如高校、社科院,尤其是处在少数民族区域。中国各大方言片区的大学承担了汉语方言语料库建设和应用的重任,对传承中国汉语文化、保存汉语方言资源起到了重要的作用。其次,暨南大学和中国社会科学院语言文字应用研究所在论文数量及篇均被引频次方面显著超越其他研究机构,显示了这两个机构在中国汉语方言语料库建设和应用领域强大的科技实力和学术影响力。再次,各个研究机构关注的研究主题侧重点不同。概括来说,尽管不同的研究机构在不同的方言之间进行语料库的探索和研究,但是重点研究主题的重心在不同的汉语方言语料库、语音语料以及语法研究、方言语料库的用途等层面。

表1 汉语方言语料库建设和研究领域前5个机构的研究主题Table 1 Research topics of the top five institutions in the field of Chinese dialect corpus construction and research

2.3 研究热点分析

关键词是对文章内容的高度凝练和概括,可以说出现频次较高的关键词代表着学科的研究热点和最新的研究趋势。本文通过对高频关键词的挖掘和提取,运用中国知网CNKI计量可视化分析,创建了关键词共建网络,如图2所示。

Figure 1 Annual distribution of research on the construction and application of Chinese dialect Corpus (1995—2021)图1 汉语方言语料库建设及应用相关研究发文量年度分布(1995—2021)

Figure 2 Hotspot distribution of Chinese literature research related to the construction and application of Chinese dialect corpus图2 汉语方言语料库建设及应用相关中文文献研究热点分布

不同的颜色代表不同的词组,圆圈的大小代表出现的次数,将出现频次较高的关键词根据不同的主题分类,汇总如表2。

表2 汉语方言语料库建设及应用领域热点关键词Table 2 Hot keywords in the construction and application of Chinese dialect corpus

汉语方言语料库建设和应用领域文献的高频关键词主要围绕四大主题进行,分别是现代汉语方言、方言语料库、语料库的建设、语料库的应用。

在汉语方言语料库的研究领域,主要研究来源是中国各个方言片区代表区域文化的地域方言,如中国的七大方言[14](官话方言、客家方言、闽方言、粤方言、赣方言、吴方言、湘方言),还有七大方言的次方言,次方言之下又产生的若干小片和方言点。这些方言体系是中国汉语方言语料库的语料来源,通过建设语料库的方式,促使方言文化传承在城镇化的快速进程中,寻找新的生存空间和传承方式,中国汉语方言文化得以源远流长[15-16]。

方言语料库的研究内容是不同方言的语料,涵盖了文学、戏剧、历史传说、祭祀礼仪、相声小品、口语、读物、地方传统等各个领域,对语料研究的表现特征是研究句法、语法、词汇、词性、词缀、不同音系、口语特征,最真实、全面地反映了各种方言特色[17]。

通过分析文献发现,语料库的建设需要强大的技术支撑,因而和计算机发展的水平有很大关联。现有的汉语方言语料库通过不断更进的系统设计,已经完善了语料库的个性化功能开发、检索平台、数据加工、发布和安全设置、用户体验等多项实践[18-19]。

汉语方言语料库的应用主要是三大领域:一是语料库语言学研究,主要内容有社会语言学、语言变迁、自然语言文本和处理、词典编纂等;二是方言翻译,主要有在线检索、机器翻译、语言教学和高校翻译等;三是方言信息储存,不断更新和增加语料资源,保护汉语方言文化多样性。

2.4 学科、来源期刊和高产作者分析

从学科角度来看,检索到的汉语方言语料库建设及应用研究文献主要分布在两大学科,分别是哲学与人文科学、社会科学:哲学与人文学科占比较大,文献数量占比达到97.5%;而社会科学类比较匮乏,仅仅占比2.5%。主要涉及的类别有语言科学、语言研究、语言生态学、语言可持续发展等。

汉语方言语料库建设及应用研究文献的主要期刊见图3。这些国内期刊主办机构种类较多、分布较广,居于前三位的有《世界汉语教学》《外语教学与研究》和《中国翻译》:《世界汉语教学》收录文献最多,文献数量占比达到26.19%;其次是《外语教学与研究》,文献数量占比达到15.48%;第三位是《中国翻译》,文献数量占比达到7.14%。

Figure 3 Distribution and proportion of major journals in the construction of Chinese dialect corpus and applied research literature图3 汉语方言语料库建设及应用研究文献的主要期刊分布及占比

对高产作者进行分析得到作者网络图谱,如图4所示。可以看到,汉语方言语料库建设及应用研究领域的高产作者数量相较而言偏少,大多集中在各个高校和中国社会科学院语言文字应用研究所,且分布并不均匀。

Figure 4 Network atlas of high-yielding authors in Chinese dialect corpus construction and application field图4 汉语方言语料库建设及应用领域高产作者网络图谱

进一步对高产作者网络图谱中文献发文量较高的作者进行分析和归纳,在CNKI数据库中以(主题%=‘汉语方言语料库’or题名%=‘汉语方言语料库’)AND(发表时间Between(‘1995-01-01’,‘2021-12-31’))为检索条件,文献数量居于前十位的关键作者检索的结果如表3所示。

从表3中可以看出:居于首位的是彭泽润教授,研究内容有汉语语言规划、语言应用、研究方言事实描写等,尤其是对交界区域的混合方言、三峡区域移民的方言接触等问题,彭润泽教授作出了卓越贡献;居于第二位是詹伯慧教授,总被引和总下载次数均在较高水平,在汉语方言语料库建设和应用领域具有较高的影响力,其的研究内容涉及语言学理论、汉语方言、方言辞书编纂、方言文字改革等多项内容,研究语言类别有闽、粤、客家等不同类型的方言;居于第三位的是吴福祥教授,其研究内容主要涉及汉语历史语法和中国南方民族语言的语法演变等;居于第四位的是罗昕如教授,主要研究内容涉及汉语方言学、语法学、修辞学、应用语言学等,其为湖南汉语方言的发展和传承做出了卓越的贡献;居于第五位的是张金桥教授,主要从事传承汉语方言的华语习得与认同研究,从汉语方言、古汉语等多个视角解释海外不同区域的华语特征及形成原因。通过对关键作者的梳理,发现这些高产作者涉及的主题均在汉语方言语言学、汉语方言多样性和可持续发展等领域。

3 结束语

随着经济一体化、城镇化的快速发展,中国汉语方言多样性和持续性发展正面临前所未有的冲击,汉语方言语料库建设及应用的研究逐渐成为各大高校和社会关注的热点。本文运用文献计量的方法,以中国知网CNKI检索获得的数据为数据来源,结合中国知网可视化分析软件,通过检索年限和主题词的设置,从汉语方言语料库建设和应用文献数量和总体分析、主要研究机构、研究热点以及文献学科、来源期刊和高产作者分析等多视角的探究,系统全面地梳理了汉语方言语料库建设及应用领域的最新研究动态。

通过分析发现,汉语方言语料库建设及应用研究领域的文献数量近几年取得了大幅度的增长,表明了汉语方言的研究正处在快速发展时期,但是文献数量依然不足,研究成果的应用不够深化,学术界对于汉语方言文化持续性和多样性发展的重视程度依然需要提高[20]。

主要研究力量分析说明汉语方言语料库建设及应用的研究参与者范围狭窄,汉语方言文化的传承和发展有赖于社会大众共同参与和努力,决不能仅限于高校和其他科研机构的学术研究,且各个研究机构由于大多数的研究内容聚焦在自己区域所在的地域方言文化,研究范围较窄,研究领域内各个机构之间合作少。各个研究机构和企业应该强化学术研究合作合力效应,深化该领域产学研一体化合作关系,为汉语方言语料库建设及应用领域的快速发展培养提供助力。

研究热点的角度分析结果表明,学者们对中国各个方言片区的派系方言研究和语料库建设热情较高,但是方言应用范围面较窄,且对小片区方言及分支方言研究较少,且大部分仅仅用来语言学研究和在线翻译、教学等用途。汉语方言语料库的建设及应用研究范围应该拓展,加强促进多种研究成果的产生。

在对文献涉及的学科、来源期刊和高产作者分析中,发现汉语方言的分布只涉及两个学科,主要载文期刊分类多,高产作者数量不足,且多为权威专家,学者分布有年龄断层现象。高校应该提升汉语方言语料库建设及应用的研究成果转化率,进行更深入的汉语方言语言研究和语言应用研究。

猜你喜欢
语料语料库方言
方严的方言
方言
《语料库翻译文体学》评介
说说方言
留住方言
基于语料调查的“连……都(也)……”出现的语义背景分析
华语电影作为真实语料在翻译教学中的应用
基于JAVAEE的维吾尔中介语语料库开发与实现
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法