数字语言学的界定、特征和发展

2024-12-06 00:00王荔王春辉
江汉学术 2024年6期

主持人语:人类进入数字时代,生产力和生产关系正在发生深刻变革,语言生活也在这一进程中发生着翻天覆地的变化。数字时代的典型特征主要体现在信息的迅速传播和获取方式的多样化,人们通过多种平台,如社交网络、即时通讯工具和在线学习平台等,实时分享和获取信息,这种即时性和便捷性,使得语言沟通的方式和频率大幅提升,也推动了语言表达的多样化。在数字时代,语言生活出现了许多新现象和新特征。比如,语言使用的环境变得更加复杂和多元,用户在不同平台往往采用不同的表达方式;数字时代还推动了全球化语言交流的进程,这种跨文化的语言互动,为语言生活带来了新的活力,但也可能导致某些语言的边缘化和消亡,带来保护和传承的挑战。面对这些新现象、新论题,研究者应加强跨学科合作,结合语言学、社会学、心理学和信息技术等多方面的知识,深入分析数字化对语言使用的影响,通过定量和定性的研究方法,探索用户在不同场景中的语言行为及其背后的社会文化因素;建立开放的研究平台,鼓励不同领域的学者和从业者分享经验和观点,以便形成多元化的研究视角。此外,利用大数据和人工智能技术,分析海量的语言数据,揭示语言变化的趋势和规律。本期专题聚焦数字语言学和大语言模型给世界语言生活带来的新变化等话题,期待能为此专题的研究增砖添瓦。

(本期专题特约主持人:王春辉)

摘 要:数字语言学是一门研究语言在数字化环境中的应用和发展的新兴学科。不同于计算语言学,数字语言学有着更加广阔的研究视野。其核心目标不仅限于利用计算手段解决特定的语言处理任务,而且更专注于语言数据的全面采集、系统化管理、精细化分析和可视化呈现,注重研究成果的产业化,并且与数字人文密切相关。中国在数字语言学研究领域,虽然已取得初步进展,但还可以在加强基础设施建设、推动学科教育体系构建和加快研究成果产业化等方面进一步发展。未来,数字语言学将在语言教育、公共服务、商业等更多应用场景中展现出独特价值。

关键词:数字语言学;计算语言学;语料库;数字人文;语言数据

中图分类号:H0-05;H08 文章标志码:A 文章编号:1006-6152(2024)06-0028-09

DOI:10.16388/j.cnki.cn42-1843/c.2024.06.003

一、引 言

人工智能领域的重大进展不仅极大地改变了我们的日常生活,也为语言学研究带来了前所未有的新机遇。现代语言学研究正逐渐转向数据/计算密集型的第四/第五范式,为推动通用人工智能的发展贡献着其独特的学科价值[1]。在技术革新和学术需求的双重驱动下,数字语言学作为一门新兴学科应运而生,不仅为传统语言学研究注入了新的活力,提供了全新的研究视角和方法,而且还促进了与其他学科的交流与合作,展现了跨学科的特性。

目前数字语言学的研究还处于初级阶段,现有的研究成果尚显分散,还没有形成一个完整的研究思路[2]。与此同时,数字语言学与其他语言学分支的关系也没有明确,学科的研究特征和优势亟待进一步阐明[3]。以上这些问题都在一定程度上制约了数字语言学的成长和发展。基于此,本文将围绕着数字语言学的界定、基本特征、发展历程、在高等教育机构中的构建以及在中国的发展情况进行探讨,以期加深对数字语言学这门新兴学科的认识,并为其未来的发展提供一些有价值的参考。

二、数字语言学的界定

从目前来看,数字语言学作为一门新兴研究领域,其界定边界持续扩展与深化,尚未形成统一定论。这一现象不仅源于它作为一门新兴学科正快速发展,更与其跨学科性质、技术的日新月异以及社会对数字语言现象认知的不断演变等复杂因素紧密相连。因此,对于数字语言学的界定,我们应保持开放与灵活的研究视角,随着学科的不断进步而持续更新与完善。

经过对现有研究文献及网络资源的系统性梳理与深入分析,可将当前与数字语言学界定相关的观点概括为以下几个类别。这些类别不仅反映了不同学科背景的研究者对于数字语言学研究的不同理解,也揭示了它作为一个跨学科领域的丰富内涵与广阔前景。

观点一:数字语言学是对数字环境中语言使用的研究,例如研究在线聊天、社交媒体和短信等数字通信平台中的语言使用趋势和模式[4-5]。

这个观点突出了数字语言学探索数字环境中语言使用的重要性,尤其是在社交媒体、在线聊天和短信等数字通信平台上。通过聚焦这些日常使用的平台,数字语言学揭示了数字时代下语言变异和创新的新趋势,为传统语言学研究提供了新的数据来源和研究领域。然而,这个观点也存在一些不足。首先,它可能过于狭窄地限定了数字语言学的研究范围,仅仅关注了数字通信平台上的语言使用,而没有涵盖数字语言学可能涉及的其他方面,把数字语言学简单地等同于网络语言学。其次,该定义没有明确指出数字语言学与数字技术、社会科学等其他学科的交叉性,这些交叉性是数字语言学作为一门跨学科领域的重要特征。因此,虽然这一界定为我们提供了一个关于数字语言学研究焦点的清晰视图,但它需要进一步扩展,包括该领域的更广泛研究内容和跨学科特性。

观点二:数字语言学是有关语言学数字数据管理的科学,包括语言数据的数字存储、展示、操作和传播。它关注如何以数字形式表示语言数据以及使用现代开放网络平台(OWP)的所有优势来处理这些数据的最佳实践[6]。

这个观点的核心优势在于它明确地将数字语言学定位为一门专注于语言学数字数据管理的科学,强调了语言数据的数字化存储、展示、操作和传播的重要性,这些都是现代语言学研究中不可或缺的组成部分。但是,这个定义也存在一些局限性。首先,它可能过于侧重于技术层面,而没有充分考虑语言学研究的理论深度。语言学不仅仅是关于数据管理的科学,它还涉及对语言结构、功能、发展和变异的深入理解。此外,定义中提到的“最佳实践”是一个相对模糊的界定,它需要进一步的阐释和标准化,以便学者们能够在实践中达成共识。例如,什么样的数据处理方法被认为是最佳的?这些方法如何适应不同的语言研究需求?

观点三:数字语言学是传统语言学、信息技术和社会科学的交叉点上一个不断发展的跨学科领域。与计算语言学专注于使用计算机执行与语言相关的任务不同(如机器翻译或语音识别),数字语言学更加关注语言数据本身,即语言数据的收集、处理、分析、可视化、存储、传播等方面,即使用语言作为人类表达手段的数字人工制品。新闻文章、社交媒体内容或数字化的中世纪手稿等都是数字语言学家感兴趣的潜在对象。与数字人文密切相关,数字语言学正吸引着学术界以及公共和私营部门越来越多的关注,因为处理数字语言数据的技能被认为是现代经济和社会中必不可少的[2]。

通过与前两个观点的比较,Witt在《数字语言学》这本书中对数字语言学界定的理解显得比较全面和清晰。这段论述不仅突出了数字语言学这门学科的跨学科属性,强调了语言数据管理在数字语言学中的重要性,而且还指出了数字语言学侧重于量化分析的特点。值得我们注意的是,这段论述明确提出了数字语言学与计算语言学的区别,同时肯定了它与数字人文的密切关系。然而,尽管这一定义在学术层面上具有显著的深度和广度,但是忽略了数字语言学对于语言资源的价值贡献,在某种程度上未能充分考虑到数字语言学研究成果的产业化潜力。在当今知识经济时代,学术研究与产业应用之间的互动和融合,对于推动语言学的理论进步和技术革新具有重要意义。

通过上述对数字语言学界定的基本梳理,我们大概可以看到数字语言学的界定应具有以下基本特征:

第一,具有跨学科的融合性。数字语言学并不是简单的“数字+语言”的组合,它有效地整合了计算机科学和社会科学等多个学科的方法和理念,提升了传统语言学的研究质量,拓展了语言学的研究视野。它不仅为解答传统语言学中的疑难问题提供了新的视角,也使得研究更深层次地揭露了语言的本质和功能。

第二,关注语言数据的数字管理。这里的数据管理包括语言数据的收集、处理、分析、可视化、存储、传播等方面以及语言数据在数字环境中的表现和变化。数字语言学的这一特性适应了数字化社会的要求,为理解语言在现代社会中的角色和功能提供了新的视角,为语言保护、语言教学、语言服务和语言管理等领域提供了新的思路和方法。

第三,侧重研究方法的量化性。通过运用统计学和计量学的工具,研究者能够对语言数据进行量化分析,揭示语言现象背后的规律和趋势。这种定量的研究方法为语言学提供了一种新的视角,使得语言研究更加科学化和精确化。

第四,注重语言研究成果的产业化。数字语言学作为一门结合语言学理论和现代技术的学科,其研究成果的产业化意味着数字语言学的研究不仅是为了探索语言的本质和规律,而且是为了将语言的知识和技术转化为具有实用价值和市场需求的语言产品和服务,从而促进语言产业的发展和创新。数字语言学的研究成果的产业化,可以为语言产业提供更多的语言数据、语言资源、语言工具和语言服务,满足不同领域和场景的语言需求,解决语言交流、语言学习、语言应用等方面的问题,创造更多的语言利益和语言红利[7]。

第五,数字语言学区别于计算语言学。虽然两者都依赖于先进的技术工具和方法来处理和分析语言数据,但是计算语言学主要关注使用计算机技术来执行与语言相关的任务,如机器翻译、语音识别、自然语言理解等。而数字语言学更侧重语言数据本身,包括数据的收集、处理、分析、可视化、存储和传播,更关注理解和解释语言数据在数字环境中的表现形式和使用方式[2]。

第六,数字语言学与数字人文密切相关。Wang等通过采用分类法,最终确定了中国数字人文研究的五个主要关注点,即图书情报学、语言学、历史学、文学、艺术和文化保存[8]。由此可见,数字语言学是数字人文框架内的一个专门分支,它专注于语言文本数据的数字处理和分析,通过数字化手段揭示语言的内在规律和变化趋势。相比之下,数字人文则更为宏观,它将数字技术应用于人文学科的广泛领域,包括但不限于历史、艺术、文学等,还研究图片、音乐、艺术品等多种类型的文化产品,旨在解答人类文化与社会现象中的复杂问题[9]。

三、数字语言学的发展历程

数字语言学的发展历程不仅体现了科学技术的飞速发展,也反映了语言学科在新技术支持下的自我革新与适应。尽管被视为一门新兴学科,数字语言学的根基却深植于语言量化的传统之中[10],其历史脉络可追溯至计算机技术的诞生之初。

(一)数字语言学的初始与早期发展(20世纪50年代—70年代)

这一时期最显著的特征之一是语言资料的数字化。随着电子计算机的出现,语言学者开始将传统的语言资料(如词典、文本、语料库)转化为电子格式。早期的数字文本语料库的构建与应用成为数字语言学发展初期的关键。这些语料库的建设,提供了可被计算机高效分析的大规模、结构化的语言数据,为语言学界带来了巨大的飞跃。特别值得一提的是,20世纪60年代布朗大学创建的布朗语料库,作为第一个百万词级别的英语文本语料库,在语言研究领域实现了显著的进步。布朗语料库及其类似的文本集合,使得语言学家得以采用量化方法进行语言分析,推动了更为实证和数据驱动的研究方法。

(二)数字语言学的扩展与多样化(20世纪80年代—21世纪初期)

互联网的普及和发展,特别是在20世纪末至21世纪初期,为数字语言学带来了全新的研究视角和挑战。在这一时期,互联网不仅改变了信息获取和传播的方式,而且创造了新的语言形式和交流模式。Dalola指出,自个人电脑出现以来,数字话语已经彻底改变了沟通实践[11]。每一种新的交流类型都有其独特的语言特征。在互联网时代,语言形式不再是静态的了,而是在技术变革和数字文化的快速发展中不断演变[12]。

然而,这一时期的数字语言学也面临着挑战。随着网络语言和数字文化的快速发展,对于处理和解释大规模在线文本和话语的需求日益增加,这要求语言学家不仅要熟悉传统的语言学理论,还要掌握复杂的计算方法和数据分析技能[13]。

(三)当代数字语言学(21世纪初期—现在)

21世纪初以来,数字语言学领域发生了重大变革,这主要得益于机器学习、人工智能和大数据分析等前沿技术的融合。这一阶段见证了该领域从简单的计算工具向能够处理复杂语言现象的高级计算工具的显著转变,催生了许多创新的见解和应用。

在这个时期,值得注意的是欧洲CLARIN (Common Language Resources and Technology Infrastructure) 研究基础设施的建设。基于对语言在信息时代核心作用的普遍认可以及欧洲委员会(EC)在制作文本和翻译官方语言所需技术的庞大需求,欧洲研究基础设施联盟(ERIC)自2008年起便着手规划CLARIN项目。该项目的宗旨在于促进语言资源和技术的共享、应用及持续性,为研究者提供一个统一的框架,以便他们能够便捷地访问和利用语言数据及分析工具。

CLARIN的建立标志着一个重要的学术网络的形成,它不仅涵盖了25个成员国和观察员国,还包括70个研究中心以及超过90万条的语言记录。此外,CLARIN还汇集了众多的数据贡献者、用户和培训师,共同推动了语言学研究的深入发展。这一基础设施的建立,不仅加强了跨学科研究的合作,也为语言学的数字化转型提供了坚实的基础,进一步促进了语言资源的可持续利用和学术交流的国际化。

与此同时,在欧美等西方国家的高等教育机构中,数字语言学正逐渐成为课程设置和研究课题的重要组成部分。例如,美国的加利福尼亚大学圣巴巴拉分校(UCSB)、瑞士的苏黎世应用科技大学(ZHAW)、挪威科技大学(NTNU)等,均已将数字语言学纳入其学术体系。这些举措不仅反映了学术界对于数字语言学重要性的认识,也预示着该领域在教育和研究方面的迅速扩张。随着这些领先教育机构的积极参与,数字语言学无疑将在未来的语言学研究中扮演更加关键的角色,推动语言学科与现代科技的深度融合。

四、数字语言学专业在高等教育机构中的构建

随着数字语言学的不断发展,全球众多高等教育机构纷纷开设了以“数字语言学”直接命名的专业学习项目。例如,斯洛文尼亚卢布尔雅那大学、捷克马萨里克大学以及克罗地亚萨格勒布大学联合推出的数字语言学硕士国际联合培养项目(DigiLing-Joint Master in Digital Linguistics),俄罗斯圣彼得堡彼得大帝理工大学的数字语言学硕士项目(Digital Linguistics Master Program)以及瑞士苏黎世应用科技大学提供的涵盖本科至硕士阶段的数字语言学项目。此外,土耳其的土耳其大学也提供了数字语言学硕士及博士项目(Digital Language Studies)。这些项目的设立表明,数字语言学作为一门新兴学科,在高等教育体系中正逐渐获得重视,尤其是在硕士层次的教育中。这些项目的发展不仅反映了数字语言学的学术价值,也预示着该领域在未来学术研究和人才培养中的重要地位。

下面,我们将以卢布尔雅那大学、马萨里克大学和萨格勒布大学联合提供的数字语言学硕士国际联合培养项目(DigiLing-Joint Master in Digital Linguistics)为例,深入探讨该项目在目标设定、课程体系构建以及毕业要求等方面的实施情况,以展现数字语言学专业在该项目框架内的学术发展与实践应用。

卢布尔雅那大学、马萨里克大学和萨格勒布大学联合提供的数字语言学硕士国际联合培养项目是一个为期两年的硕士培养计划。这个学习项目总计120学分,旨在通过跨学科教育,为具有语言学、计算机科学或社会科学背景的学生提供全面而深入的学习机会。在项目的实施过程中,学生将有机会在这三所大学中任选一所进行注册学习,并在第三学期前往另一所合作大学交流深造。这种独特的培养模式不仅促进了学生跨学科的融合学习,还为他们提供了广阔的国际视野和宝贵的跨文化交流经验。成功完成该项目的学生,会获得由三所合作大学联合颁发的硕士学位证书,这一学习经历将为他们未来的学术研究和职业发展奠定坚实的基础。

此外,该项目特别强调构建一个涵盖语言学、计算机科学、社会学、法律和伦理等多元领域的综合知识框架(图1)。通过精心设计的跨学科课程体系与实践导向的教学模式,激发学生的创新思维,培养他们面对复杂问题时的解决能力。这一过程不仅为学生的学术探索提供了深度与广度的双重保障,更为他们未来在数字语言学及其相关领域的职业生涯铺设了坚实的学术基石与实践平台。

该项目第一年的课程结构分为三个板块(表1)。一般基础模块依据学生既有学术背景,灵活补充跨学科知识的短板,确保学生具备全面的学习基础。具体而言,对于人文或社会科学背景的学生,此模块注重加强编程和统计学的基础教育;而对于技术或计算背景的学生,则侧重于深化他们对语言学和数字通信原理的理解;特定学科基础模块则提供了深度探索的机会,其中包括自然语言处理的必修课程以及一系列涉及社会语言学、语料库语言学、信息安全、伦理学和计算语言建模等领域的选修课程。这些课程不仅拓宽了学生的知识边界,还促进了学科间的交叉融合。研究与应用模块则强调了理论与实践的紧密结合。通过教授研究方法论,鼓励学生参与实习或项目实践,该模块旨在培养学生的实践能力和解决问题的能力。这种教学模式有助于学生将所学知识应用于实际情境中,从而加深对理论知识的理解和掌握。

该项目第二年的课程结构也分为三个板块(表2),即语言与计算专题、语言与社会专题、研究与应用。在第三个学期,学生需前往任一合作大学完成一个强制性的学期交换,该学期包含围绕特定主题的选修课程及一项独立研究项目的实施,以促进学生在国际环境中的学术探索与交流。在第四学期,学生则返回其注册大学,继续深入学习语言学、计算机科学和社会科学领域的高级课程,为他们的知识体系增添深度与广度。

通过对卢布尔雅那大学、马萨里克大学和萨格勒布大学联合提供的数字语言学硕士国际联合培养项目的分析,我们可以明确地认识到,数字语言学专业的设计是以跨学科的教育模式来深化学生在语言学、计算机科学及社会科学等多个领域的知识和技能的。通过这一综合性的学习体验,学生们不仅深化了对全球语言技术挑战的认识,提升了自身的创新潜能和处理复杂问题的能力,而且也为他们在数字化时代的多样化职业发展奠定了坚实的基础。高校中数字语言学专业的设立,为该领域的研究和实践发展注入了宝贵的人才资源,确保了学术传承与创新的持续动力。

五、中国数字语言研究的建设与发展

尽管数字语言学的研究在中国起步较晚,但是却拥有良好的基础设施建设,即丰富多元的语料库资源。自20世纪70年代起,中国学者和研究机构致力于构建多元化的语料库资源,涵盖了现代汉语语料库、垂直领域专用语料库、平行语料库、中介语语料库以及多模态语料库等多个维度。这些语料库的建立,如中国社会科学院语言研究所的国家语料库、北京大学的现代汉语语料库(CCL)、北京语言大学的现代汉语语料库(BCC)等,不仅为数字语言学的研究提供了丰富的数据基础,而且为该领域的理论创新和应用实践奠定了坚实的基础设施。

为了进一步促进语言资源的共享与利用,中文语言资源联盟(Chinese Language Data Consortium)应运而生。该联盟旨在通过学术合作与资源共享,推动中国语言资源的整合与优化。联盟的成立,不仅标志着中国在语言资源管理与利用方面迈出了重要步伐,而且对于提升数字语言学研究的国际影响力具有重要意义。

在学术论著方面,近年来数字语言学的研究也取得了显著的成就。例如,王春辉[14-17]深入探讨了数字社会背景下的语言及语言生活的新变化以及这些变化对语言治理提出的新挑战和语言伦理方面的考量。姜国权和李一飞[7]从社会角度出发,分析了数字化时代语言生活的特征。陈丽湘[18]从国家发展的层面出发,指出语言的多样性和多层次性需求正推动着语言文字数字化进程的快速发展。戴曼纯[3]区分了数字与非数字语言生活两种界定,并且探讨了数字语言生活研究面临的问题和挑战。

尽管中国在数字语言学领域的研究已取得初步进展,但与国际同领域相比,我们的研究仍处于相对初级阶段,具有显著的发展潜力。在未来数年内,我们建议集中精力于以下几个关键领域。

第一,加强数字语言研究的基础设施建设。数字语言研究的基础设施指的是由在数字环境下进行语言研究所需的语言数据集、网络标准协议、平台、软件工具和人才以及合作模式形成的一个联合体[19]。目前,一些国家已将数字语言研究的基础设施建设纳入国家战略中。数字语言研究基础设施建设需要大量的投资和人力以及与国内外其他数字语言学机构的合作[20]。研究发现,中国的数字语言学在基础设施方面可能会遇到以下几个问题:(1)数据存储和管理问题。数字语言学涉及大量的语料库和多语种数据,它需要高效、可靠的数据存储和管理系统。这不仅包括数据的存储,还包括数据的组织、访问和长期保存。由于数据量可能非常大,这需要显著的存储空间和高效的数据管理策略。(2)数据共享和访问权限问题。不同学者和研究机构之间共享数据和资源是一个挑战,包括如何以安全的方式共享数据、如何确保数据使用的合法性以及如何处理版权和隐私问题。(3)工具和软件的开发与长期维护问题。数字语言学研究依赖于专门的分析工具和软件,这些工具需要不断地更新和维护以适应新的研究需求和技术变革,这需要持续的技术支持和资金投入。(4)国际合作和标准化问题。数字语言学研究往往具有国际性,涉及跨语言、跨文化的数据和研究[21]。因此建立国际合作机制、统一的数据格式和标准对于促进全球范围内的研究合作至关重要。

第二,推动高等教育机构设立数字语言学学科。经过综合考察,目前尚未发现国内有高等教育机构设立明确以“数字语言学”命名的本科、硕士或博士层次的学位项目。同样,也未见到数字语言学与其他学科交叉融合的学位点与专业建设。鉴于数字语言学在现代学术研究和社会实践中的应用日益广泛,高等教育机构有责任着手构建相应的专业教育体系,以培育具有数字语言学专业知识和技能的人才。

第三,加快数字语言学研究成果的产业化转换。语言产业是数字时代重要的产业形态和经济增长点。加强数字时代语言产业发展研究,有利于为语言产业发展提供智力支撑,为数字经济发展注入活力[22]。数字语言的研究成果可以在社会的多个领域进行产业转换。例如,瑞士苏黎世应用科技大学的数字语言学研究通过对公共话语进行建模、分析和模拟,为商业合作伙伴和客户提供沟通技能,使他们能够处理公共话语,并帮助他们量身制定沟通解决方案。通过产业化,数字语言学的研究成果可以在教育、健康沟通等多个领域得到实际应用,满足社会和经济发展的需求。

六、结 语

在全球信息化浪潮的推动下,数字语言学作为一门前沿交叉学科,其飞速发展标志着语言学研究步入了一个全新的数字化时代。该领域不仅在语料库构建、语言数据高效管理方面取得了显著成就,更通过与人工智能、大数据等尖端技术的深度融合,重塑了传统语言学的研究框架与思维逻辑。数字语言学的蓬勃发展,不仅是技术进步的直观体现,更深刻推动了人类对语言本质和结构的理解,实现了语言学领域的深层次变革。

与计算语言学相比,数字语言学展现出更加广阔的研究视野。其核心目标不仅限于利用计算手段解决特定的语言处理任务,而且更专注于语言数据的全面采集、系统化管理、精细化分析和可视化呈现。这种全方位的研究方法使得数字语言学能够提供对语言现象更为深刻和多维度的解读。此外,数字语言学与数字人文研究在目标和方法上也存在明显差异。数字语言学聚焦于语言数据在数字环境中的应用价值与信息挖掘,而数字人文学科则主要关注文化遗产、历史材料的数字化处理与分析。通过对大量语言数据的深入解析,数字语言学为理解语言的复杂性及其动态演变提供了全新的理论框架和研究工具,推动了语言研究的范式向更为数据驱动的方向转型。

当前,中国在数字语言学领域虽已取得初步成果,但仍面临基础设施不健全、数据共享机制缺失、分析工具滞后及学科体系构建滞后等挑战。高等教育体系中相关专业与课程的匮乏,亦阻碍了专业人才的培养与学科的国际化发展。为应对这些挑战,中国亟须借鉴国际先进经验,强化跨学科合作,加快标准化建设和数据资源共享机制的落实。同时,通过在高校增设相关课程,完善人才培养体系,从根本上提升我国在数字语言学领域的科研实力与国际影响力。

展望未来,数字语言学将在更多应用场景中展现出独特的价值。在语言教育领域,数字语言学可以为学习者提供个性化的学习路径,并通过智能化语言学习工具提升学习效果。在公共服务领域,数字语言学为政府政策制定、语言保护和语言规划提供了科学依据,有助于优化公共服务和提高社会沟通效率。此外,数字语言学在商业领域也具有广阔的前景,特别是在跨国企业中,它可以帮助企业更好地理解和适应不同文化背景下的语言使用,避免因语言误解而带来的商业风险。尽管数字语言学的前景光明,但它的未来发展不仅取决于技术进步,更依赖于与其他学科的深度融合与协同合作。通过打破学科壁垒,推动理论研究与实际应用的无缝衔接,数字语言学将进一步推动全球语言学研究的范式转型,促进国际间的语言技术创新与文化交流。

参考文献:

[1] 袁毓林.人工智能大飞跃背景下的语言学理论思考[J].语言战略研究, 2023(4):7-18.

[2] Witt A.Digital Linguistics[M].Berlin, Boston: De Gruyter, 2021.

[3] 戴曼纯.数字时代的语言生活及其研究[J].外国语(上海外国语大学学报), 2024(1):17-25.

[4] Vijavakumar S, Sheik H N.Embracing Paralinguistic Elements in Digital Linguistics: A Scooping Review of Emoji Semiotics and Implications for Cross-Cultural Online Communication[J].Journal of the Asiatic Society, 2023(1):40-45

[5] Laghari R.Digital Linguistics: Unraveling the Tapestry: Digital Dimensions of Language Exploration [EB/OL].(2023-07-22) [2024-05-20].https://www.linkedin.com/pulse/digital-linguistics-unraveling-tapestry-dimensions-language-laghari/.

[6] Daniel W H.Digital Linguistics (DLx): The Science of Digital Data Management for Linguistics [EB/OL].(2023-04-16) [2024-05-20].https://digitallinguistics.io/about/.

[7] 姜国权, 李一飞.数字时代的语言新特征[EB/OL].(2022-06-05)[2024-05-20].https://epaper.gmw.cn/gmrb/html/2022-06/05/nw.D110000gmrb_20220605_2-05.htm.

[8] Wang X, Tan X, Li H.The Evolution of Digital Humanities in China[J].Library Trends, 2020(1):7-29.

[9] 宋丽珏.法律翻译的数字人文转型研究:以专题数据库与ChatGPT为中心[J].外语学刊,2024(2):51-57.

[10] Sargsyan M.Digital Linguistics as A New Direction in Language Study: Development Prospects [EB/OL].(2023-11-08)[2024-05-20].https://arar.sci.am/publication/390546#info.

[11] Dalola A.Introduction to Special Issue on French Variation in Digital Media[J].Journal of French Language Studies, 2022(2):115-119.

[12] Teich E, Degaetano-Ortlieb S, Fankhauser P, et al.The Linguistic Construal of Disciplinarity: A Data‐Mining Approach Using Register Features[J].Journal of the Association for Information Science and Technology, 2016(7):1668-1678.

[13] Tokumaru K.An Information Theory of Language (Digital Linguistics)[J].Linguistics and Literature Studies, 2019(5):206-219.

[14] 王春辉.数字社会对语言治理提出新要求[EB/OL].(2021-09-19)[2024-05-20].https://www.thepaper.cn/newsDetail_forward_14581829.

[15] 王春辉.语言数据安全论[J].语言战略研究, 2022(4):15-25.

[16] 王春辉.数字时代语言伦理的新形态和新表现[J].社会科学战线, 2022(12):152-159.

[17] 王春辉.自然人、机器人、数字人“三人”共生时代的语言生活[J].语言战略研究, 2024(3):7-16.

[18] 陈丽湘.数字化引领语言文字生活新形态[EB/OL].(2022-04-06)[2024-05-20].https://news.gmw.cn/2022-04/06/content_35636321.htm.

[19] 赵薇.数字时代人文学研究的变革与超越:数字人文在中国[J].社会科学文摘, 2022(2):11-14.

[20] 李宇明.语言数据是信息时代的生产要素[EB/OL].(2020-07-04)[2024-05-20].https://news.gmw.cn/2020-07/04/content_33965331.htm.

[21] 刘海涛.数据驱动的应用语言学研究[J].现代外语, 2021(4):462-469.

[22] 姜国权,李一飞,赵屹青.试论数字时代的语言产业发展[J].语言文字应用, 2023(3):16-24.

责任编辑:刘伊念

Definition, Characteristics, and Development of Digital Linguistics

WANG Li1, WANG Chunhui2

(1.School of Literature and Media, Hubei University of Arts and Science, Xiangyang Hubei 441053;

2. Research Center for Language Governance, Capital Normal University, Beijing 100089)

Abstract: Digital linguistics is a new subject which studies the application and development of language in digital environment. Different from computational linguistics, digital linguistics has a broader research horizon. Its core goal, not only limited to the use of computational means to solve specific language processing tasks, focuses on the comprehensive collection, systematic management, fine analysis, and visual presentation of language data; it pays attention to the industrialization of research results, and is closely related to digital people. China has made initial progress in the field of digital linguistics research, yet, it can further develop infrastructure construction, the construction of disciplinary and educational systems, and the industrialization of research results. In the future, digital linguistics will show its unique value in more application scenarios including language education, public service, and business.

Key words: digital linguistics; computational linguistics; corpus; digital humanity; linguistic data

(E-mail:lynsy@ jhun. edu. cn)

收稿日期:2024 - 09 - 02 本刊网址·在线期刊:http://qks. jhun. edu. cn/jhxs

基金项目:国家语委“十四五”科研规划2021年度重大项目“我国语言文字治理体系现状及创新研究”(ZDA145-1)

作者简介:王 荔,女,湖北襄阳人,湖北文理学院文学与传媒学院讲师,博士,E-mail:345688261@qq.com;王春辉(通讯作者),男,山东莱芜人,首都师范大学语言治理研究中心教授,(国家语委)语言治理研究融智协同创新中心研究员,E-mail:friendwch@126.com。