面向“一带一路”的低资源语言机器翻译研究

2024-04-23 10:04侯钰涛阿布都克力木阿布力孜史亚庆马依拉木木斯得克哈里旦木阿布都克里木
计算机工程 2024年4期
关键词:微调汉语一带一路

侯钰涛,阿布都克力木·阿布力孜,史亚庆,马依拉木·木斯得克,哈里旦木·阿布都克里木

(新疆财经大学信息管理学院,新疆 乌鲁木齐 830012)

0 引言

截至2023年6月,中国已经同152个国家和32个国际组织签署200余份共建“一带一路”合作文件。“一带一路”需要语言铺路[1]。然而,语言多样性和稀缺性所产生的语言障碍问题被看作是妨碍各国之间深层次交流的主要挑战之一。自然语言处理(NLP)技术是推进文化交流的重要手段,借助NLP技术研究语言障碍问题为我国“一带一路”倡议的深度实施和广泛推广提供了重要的技术支持。

机器翻译(MT)是NLP领域重要的研究内容,也被看作是突破语言障碍的“金钥匙”。VASWANI等[2]提出基于自注意力机制的Transformer模型,从而引领神经机器翻译(NMT)步入高速发展阶段。NMT模型的训练通常需要大量的双语平行语料,然而,对于大多数语言,获取高质量的双语数据是极其困难的。据调研,世界上97%以上的语言都是无资源或者是资源稀缺的语言[3],这无疑为NMT模型的训练和优化带来巨大的挑战。目前,机器翻译任务正经历着巨大变革,多语言预训练模型技术发展迅速,并在机器翻译任务中取得了重大突破。2022年底,以ChatGPT模型为代表的大语言模型(LLM)在NLP领域中取得了显著进步,同时也为低资源语言机器翻译研究提供了新的可能性,极大地缓解了数据稀缺所带来的挑战。

“一带一路”倡议沿线国家众多,涵盖了多种语言。受资源的限制,本文采用CCMT2023提供的4种“一带一路”低资源语言(越南语、老挝语、蒙语以及捷克语)作为研究对象,以深入探究其与汉语之间的翻译能力。本文在低资源语言上应用一种多语言预训练模型NLLB,该模型是在200多种语言的数据集上训练而成。在低资源语言数据集上对预训练模型进行微调的方法已被证明比从头开始训练效果更好[4]。在此基础上,本文提出一种基于NLLB模型改进的低资源语言机器翻译训练方法,该方法主要在数据增强的基础上,对损失函数进行优化,从而有效提高低资源语言的机器翻译效果。此外,本文使用LLM模型初步探索其在低资源语言机器翻译上的性能,主要使用ChatGPT以及ChatGLM[5]模型分别评估老挝语-汉语以及越南语-汉语的翻译能力。

1 相关工作

1.1 低资源语言机器翻译研究

随着NMT技术的发展,以Transformer为代表的神经网络模型逐渐被应用到低资源语言的机器翻译任务中[6-9]。2018年,以BERT和GPT为代表的预训练模型引领机器翻译领域逐渐进入预训练模型时代,出现许多将预训练模型应用到机器翻译任务中的工作,其研究主要分为2个方面:1)将预训练模型与NMT模型结合讨论[10-12];2)专门构建端到端的机器翻译模型[13-15]。由于语料资源的稀缺,NMT模型的训练受到限制,因此无法获得足够的训练数据以实现更优的翻译性能。为了应对这一挑战,大多数研究者采用各种数据增强技术以解决低资源语言数据不足的问题,从而提高翻译质量和性能[16]。其中,被研究者广泛使用的方法是反向翻译(BT)技术,然而,仅使用反向翻译技术生成的伪平行语料库质量往往不佳。因此,反向翻译通常与其他技术(模型集成、模型融合、知识蒸馏及低频词替换等方法)结合使用[17-22]。此外,部分学者开始尝试利用多语言预训练模型来缓解低资源语言语料稀缺的问题[23-25],借助多语言预训练模型中所包含丰富的语言学知识,从而迁移到低资源语言翻译过程中。因此,在处理语料资源稀缺的低资源语言时,多语言预训练模型仍然能够显示出优秀的翻译性能。

“一带一路”倡议中大多数国家的语言都属于低资源语言,研究相对较少,令人欣喜的是2022年Meta AI团队[26]提出了支持202种语言之间任意互译的大规模多语言机器翻译模型NLLB。202种语言中包含部分“一带一路”上的低资源语言,为低资源语言机器翻译研究带来了巨大突破,然而该模型在本文所研究的语言对上的翻译效果还有待进一步提高。此外,他们创建了1个多语言数据集FLORES-200,该数据集允许衡量任意方向的翻译性能,为构建通用机器翻译模型奠定了坚实的基础。

1.2 基于大语言模型的机器翻译研究

随着模型参数量的不断增大,LLM逐渐显露出小型模型中不具有的能力,被称为涌现能力[27]。同时LLM在机器翻译领域表现出惊人的能力,其原因可能是大规模训练数据中存在的偶然双语性使得LLM具备翻译能力[28]。LLM在机器翻译任务中的分析工作主要从Prompt的选择[29]、任务信息、领域信息、参数设置[30-31]等方面进行考虑。通过上下文学习(ICL)[32-33]、融入词性(POS)[31]以及结合翻译记忆[34]等方法进一步研究LLM在多语言、多领域、少样本中的翻译能力。PENG等[30]提出2种提示策略:任务特定提示(TSP)和领域特定提示(DSP),并简单分析了ChatGPT使用ICL和思维链(CoT)方法在机器翻译任务上的有效性。CoT方法已被证明在激发LLM方面的推理能力是有效的[35],而且可以提高ChatGPT在自然语言理解任务中的性能[36]。然而,研究人员发现,将CoT方法应用到机器翻译中会出现逐字翻译的现象,导致翻译能力退化。目前,使用CoT方法在机器翻译中的研究尚未得到充分的探索。TAN等[37]在mGPT模型基础上研究不同的Prompt策略对翻译的影响,并提出MSP(Multi-Stage Prompting)方法来缓解预训练和翻译之间的差距。此外,JIAO等[38]针对远距离语言提出一种基于枢轴语言的提示方法。现有研究大多针对高资源或者较为常用的几种低资源语言,未来将进一步探究LLM在“一带一路”低资源语言的翻译能力。

2 本文方法

为提高低资源语言机器翻译的效果,本文通过2种方法来探索低资源语言机器翻译的能力。第1种是基于NLLB模型改进的方法,底层模型选用NLLB-200-distilled-600M模型,翻译过程主要分为2个阶段,首先在CCMT 2023提供的数据基础上使用反向翻译技术进行数据增强,然后使用NLLB模型对合成数据进一步微调,考虑到合成数据集中存在一定的噪声数据,本文使用HUANG等[39]提出的不完全信任(In-trust)损失函数进行优化,该损失函数可以防止模型在训练过程中过度拟合噪声数据。实验结果表明,该方法可以有效提高低资源语言的翻译效果。第2种是使用LLM模型初步评估低资源语言的翻译结果,该方法分为2种类型:1)ChatGPT模型使用ICL和CoT方法对越南语-汉语以及老挝语-汉语的翻译任务进行直接评估;2)使用基于LoRA的ChatGLM模型对越南语-汉语的翻译任务进行高效微调。

2.1 基于NLLB改进的低资源语言机器翻译

2.1.1 数据增强

数据增强是对原有训练语料库进行扩充或修改的一种方法。机器翻译领域中经典的数据增强方法是反向翻译技术,如图1所示。该方法是由SENNRICH等[40]提出的,一种利用单语数据对原有训练语料库进行扩充或修改的方法。反向翻译的核心思想主要有:1)在真实平行语料库上训练1个反向翻译模型(目标语言-源语言);2)利用第1步训练好的反向翻译模型在单语语料(目标语言)上训练生成伪源语言,得到伪平行语料库(伪源语言-额外源目标语言);3)将生成的伪平行语料库和真实的平行语料库混合,训练最终正向翻译模型(源语言-目标语言)。

图1 反向翻译Fig.1 Back translation

2.1.2 NLLB模型

NLLB模型[26]主体架构是在Pre-LN结构的Transformer模型基础上融入稀疏门控混合专家(MoE)模块。图2所示为Transformer Encoder融入MoE结构示意图,解码器修改也类似。MoE是一种条件计算模型,通过门控机制激活部分神经网络参数,而不是所有参数,以此来提高模型计算效率,同时也是一种扩大模型规模的方法。NLLB模型将原始Transformer模型编码器和解码器中的单个前馈神经网络(FFN)模块替换为e个FFN模块(FFN1,FFN2,… ,FFNe),FFN模块表示专家模块,通过MoE门控机制计算输入文本进入不同专家模块的概率,决定前K个专家模块进行工作。具体计算如式(1)~式(5)所示:

图2 融入MoE层的Transformer Encoder 示意图Fig.2 Schematic diagram of the Transformer Encoder integrated into the MoE layer

ReLU(x)=max(0,x)

(1)

(2)

Gt=Softmax(xt·Wg)

(3)

gt=Top_K_Gating(Gt)

(4)

(5)

然而,这种方法在低资源语言机器翻译领域中的效果不佳,因此研究人员提出2种方法来解决该问题:1)EOM(Experts Output Masking)方法,该方法是对部分专家模块的输出进行随机掩码,之后对多个专家模块的输出进行加权求和,通过这种掩码方法可以防止模型过多依赖某个专家模块,提高模型的鲁棒性;2)CMR(Conditional MoE Routing)方法,具体结构对比见图2,该方法设置了1个二进制门控机制让模型自行决定哪些Token进行MoE训练。具体计算如式(6)和式(7)所示:

G(xt)=Sigmoid(xt,WCMR)

(6)

CCMR(xt)=

(1-G(xt))·FFFNshared(xt)·MMoE(xt)

(7)

其中:WCMR是CMR门控机制的权重矩阵,CMR分为共享密集的FFN子层(FFNshared)和具有不同专家模块(FFNi)MoE子层(MMoE(xt))2个分支。

2.1.3 In-trust损失函数

由于低资源语言存在语料资源稀缺的问题,因此大部分研究均会进行数据增强实验。数据增强生成的伪数据质量参差不齐,存在一定的噪声数据。受LI等[23]的启发,本文使用In-trust损失函数代替以往的交叉熵损失函数,帮助模型在存在噪声的情况下进行训练,防止模型过度拟合噪声数据。In-trust损失函数如式(8)和式(9)所示:

LDCE=-tloga(δt+(1-δ)l)

(8)

LIn-trust=αLCE+βLDCE

(9)

其中:δ是超参数,决定是否信任模型输出;t表示翻译模型的输出;l表示真实的翻译标签;当δ较大时,模型将更多地相信预测值,相反,模型将更信任真实标签;LCE表示交叉熵损失函数;LDCE是一种加速度调节项;α和β是超参数;LIn-trust可以有效缓解噪声数据的过拟合现象。

2.2 基于LLM的低资源语言机器翻译

2.2.1 基于ChatGPT的模型

基于ChatGPT模型进行低资源语言机器翻译任务时主要使用ICL和CoT 2种方法。ICL是指无须对模型进行参数调整,而是直接通过Prompt对下文进行预测的过程,根据Prompt中示例的数量,ICL可以分为Zero-shot和Few-shot 2种类型。CoT是使用自然语言的表达形式,利用有逻辑的提示模型一步一步完成任务的推理,相较于ICL,该方法不是直接给出翻译结果,而是预测翻译的“思维过程”。CoT同样分为Zero-shot和Few-shot进行实验。简单的CoT提示策略是在普通Prompt后加入“Let’s think step by step.”来实现翻译过程的一步步推理。

2.2.2 基于LoRA微调的ChatGLM模型

鉴于ChatGPT模型无须微调即可进行评估,本文进一步探索微调LLM的机器翻译方法。然而,随着LLM参数量越来越大,在消费级GPU(例如RTX 3090或4090)对模型进行全部参数的微调变得难以负担。近年来,研究者提出多种参数高效微调方法来解决上述问题。参数高效微调是指微调少量或额外的模型参数,固定大部分预训练模型参数,从而大幅降低计算和存储成本,基于LoRA[41]微调的方法是对模型中的一部分参数进行低秩适应,在冻结原模型参数的情况下,仅训练新添加的网络层,有效提高模型的微调效率,节省显存占用,同时,也能实现与全参数量微调相当的性能。

3 实验设置

3.1 数据集

本文采用CCMT 2023“一带一路”低资源语言机器翻译任务中提供的4种语言和汉语之间的平行语料作为训练数据,采用FLORES-200 提供的验证和测试数据作为本实验的验证集和测试集。具体数据规模见表1,基于NLLB改进的模型和ChatGLM模型的实验采用全部的实验数据完成,基于ChatGPT的实验随机选择FLORES-200测试数据集的100条数据。本实验仅是前期的简单探索,未来将进一步深入研究基于LLM的低资源语言机器翻译任务。

表1 数据集信息Table 1 Datasets information 单位:个

3.2 基线模型

为评估基于NLLB模型改进方法的有效性,本实验选取了2个基线模型进行对比:MBART和MT5。这2种模型与NLLB模型类似,同样是序列到序列的多语言预训练模型。

MBART 模型[13]是1个基于BART预训练的跨语言序列到序列的降噪自编码模型,其训练数据源自大规模多语言单语语料库。在此模型中,输入文本通过掩码和句子置换的方式进行噪声化处理,然后利用预训练的自回归模型在多语言环境的噪声干扰下,实现完整文本的重构。

MT5 模型[14]是T5模型的1个多语言版本,该模型在覆盖101种语言的新数据集上进行预训练,主要采取了T5模型的训练方法。预训练过程主要基于“跨度破坏”的掩码语言模型目标,其中连续输入的标记被替换为掩码标记,然后训练模型以重建这些被掩码的标记。

3.3 评估指标

本实验采用自动评估方法,使用Sacrebleu工具包开源的BLEU[42]、chrF++[43]进行评估,所有评估都区分大小写,并使用基于字符的评估方法。

3.4 实验设置

基于NLLB模型改进方法的实验环境为Ubuntu20.04 的Linux操作系统,GPU为RTX 3090,显存为24 GB,内存为43 GB,实验架构基础为PyTorch,编程语言为Python3.8,模型选择Meta AI Research在Huggingface上开源NLLB-200-Distilled-600 M模型实现。实验参数设置如下:Transformer层数为12层,Batch_size设置为8,句子最大长度设置为128,优化函数使用AdamW优化算法,学习率设置为1×10-5,In-trust损失函数超参数设置为Alpha=1,Beta=0.8,Delta=0.5。

基于ChatGPT的机器翻译任务主要通过调用GPT-3.5-Turbo模型的API完成,温度参数设置为0,以确保生成结果的准确性。在ICL和CoT实验中,Zero-shot实验主要评估不同模板对老挝语-汉语翻译任务的影响,并选择其中最好的模板进行Few-shot实验。受ChatGPT模型最大Token数的限制,ICL的Few-shot实验最大进行15-shot,CoT的Few-shot实验最大10-shot。

基于ChatGLM模型微调实验GPU为A40,显存为48 GB,内存为56 GB,模型选择清华大学在Huggingface上开源的ChatGLM-6B模型实现。实验参数设置如下:Batch_size设置为8,Max_len设置为768,LoRA_r设置为8。

4 实验结果及分析

4.1 基于NLLB改进的低资源语言机器翻译

4.1.1 对比实验

本实验对比分析了MT5、MBART、NLLB模型以及本文使用的改进方法在“一带一路”低资源语言到汉语数据集上的翻译能力。表2所示为BLEU和chrF++的评估结果,加粗表示最优数据。此外,考虑到NLLB原始论文中54B版本的模型报告了他们的翻译结果,且本文使用的测试数据集和评估指标chrF++与原论文一致,具有一定的可比性。因此,表2中除基线模型实验对比以外,也说明了NLLB-54B参数量的模型在这4种语言对上的翻译结果。

表2 4种低资源语言到汉语的翻译结果Table 2 Translation results from four low-resource languages to Chinese

从表2可以看出,本文模型在4种低资源语言到汉语的翻译任务中均取得了最佳结果,而且使用NLLB模型直接微调的翻译效果优于MBART-large和MT5-base模型,其原因为NLLB模型是在包含大量低资源语言的数据集上训练而成,具有较强的语言迁移能力。从平均值来看,相较于直接微调的NLLB-600M模型,本文模型提升了1.33个BLEU值和0.82个chrF++值。此外,在蒙语、捷克语到汉语的翻译任务上,本文方法仅以600×106参数量的模型超越了NLLB-54B参数量模型的翻译结果,而且本文模型的翻译效果与NLLB-54B参数量的模型效果相当。因此,本文模型在低资源语言机器翻译上具有一定的有效性。

4.1.2 消融实验

为验证本文模型的有效性,本实验在“一带一路”4种低资源语言到汉语的翻译任务上设置了2组消融实验:只进行损失函数的改进和只融入数据增强的实验。数据增强部分首先训练反向翻译模型,选择20 万条的汉语数据(此处选择的是CCMT2023提供的汉语数据作为额外的目标端单语数据)生成对应的伪数据(伪源语言),之后在合成的数据集(伪源语言-额外目标语言)上进行训练。表3给出了消融实验的结果,其中-In-trust loss表示去掉改进的损失函数,只进行数据增强的方法,-DA表示去掉数据增强部分,只进行In-trust损失函数的方法。从表3可以看出,去掉这2种任何一种方法,均会导致翻译效果变差,而且在没有额外数据增强的情况下,模型在训练期间可能仍然会接触到一些噪声数据,In-trust损失函数仍有助于模型处理这些噪声数据,从而提高性能。因此,本文模型将数据增强技术与损失函数改进相结合有效提高了低资源语言翻译能力。

表3 消融实验结果Table 3 Ablation experiment results

4.1.3 实例分析

针对源语言“2013 онд Шарк Танк нэвтрүүлэгт ороход шоуны шүүгчид түүний стартапыг санхүүжүүлэхээс татгалзсаны дараа борлуулалт нь нэмэгдсэн гэж Симинофф хэллээ.”,目标语言“西米诺夫说,2013年他在《创智赢家》节目中露面后,公司的销售额大增,当时节目组拒绝向这家初创公司投资。”。基线模型与本文模型在蒙语-汉语方向的翻译对比示例如表4所示,此外,表4中NLLB-54B给出了原论文提供的翻译结果。

表4 不同模型的译文示例Table 4 Translation examples among different models

从表4可以看出,本文模型学习到的源语言信息更多,虽然与目标语言的排序有所变化,但并没有改变原意。针对目标语言中出现的人名“西米诺夫”,MT5模型的译文完全没有翻译该词;MBART模型的译文翻译成“辛诺夫”;NLLB-54B模型的译文并没有翻译成汉语,而是用英文人名表示,出现此问题的原因是NLLB-54B模型中包含大量的英文语料,模型翻译时可能不会翻译成汉语,但学习到了如何翻译成英文的情况。而本文模型翻译为“司米诺夫”,虽然与目标语言“西米诺夫”不完全一致,但是更接近目标语言,而且通过在蒙语-汉语的双语平行语料库中查找,源语言的训练语料中并没有“Симинофф”西米诺夫这一人名,本文模型通过训练后可得到较为正确的翻译,可能有关该词的知识是由NLLB-54B模型引入的。然而,所有模型均没有翻译出《创智赢家》这一节目名称,原因是该节目名称在训练语料中也没有出现过,并且模型难以学习到这种复杂信息。以上实例表明,本文模型虽然存在一定的局限性,但相较于基线模型能生成更好的译文。

4.2 基于ChatGPT的低资源语言机器翻译

4.2.1 ICL Zero-shot实验结果分析

为更好地激发ChatGPT模型在低资源语言上的翻译潜力,本实验首先判断3种不同的Prompt模板在老挝语-汉语Zero-shot的翻译性能,如表5所示。

表5 不同Prompt模板的翻译结果Table 5 Translation results among different Prompt templates

从表5可以看出,模板T3获得最好的翻译结果,在没有其他任何翻译示例的情况下,ChatGPT在老挝语-汉语上已具备一定的翻译能力,但比本文模型低16.08个BLEU值和8.95个chrF++值。虽然ChatGPT没有超越本文方法的翻译结果,但是在没有任一训练数据提示的情况下已经取得了不错的翻译效果。

此外,本实验使用T3模板评估ChatGPT模型在越南语-汉语上的翻译结果,BLEU值为33.56,chrF++为21.73,与本文方法相比提高了9.28个BLEU值和3.12个chrF++值。由此可见ChatGPT模型在机器翻译任务上具有强大能力,在高资源以及部分低资源语言上翻译效果已超越传统的NMT模型,然而在类似老挝语等极低资源且形态复杂的语言上,翻译性能有待进一步提高。

4.2.2 ICL Few-shot实验结果分析

本节选择3种模板中的最好模板T3进行后续的Few-shot实验,实验结果见图3。

图3 ICL Few-shot实验结果Fig.3 Experimental results of ICL Few-shot

从图3可以看出,随着示例数的增加,翻译效果整体呈现先升高后下降的趋势,在10-shot达到最佳效果。虽然BLEU值有所降低,但是chrF++值一直保持上升趋势,在Few-shot翻译过程中,有时候会在输出翻译结果的同时输出示例句子,因此需要手动删除多余的示例,确保输出结果的准确性。此外,随着示例数的增多,模型可能更容易过度拟合,导致在Few-shot情况下出现性能下降。然而,在10-shot时,模型能够更好地利用示例信息,获得更准确的翻译结果。因此,找到适当的示例数量对于实现高质量的Few-shot翻译至关重要。

4.2.3 CoT Zero-shot实验结果分析

本实验将进一步使用CoT方法深入探索ChatGPT模型的翻译能力。本节选取了3种典型的CoT Prompt模板来评估ChatGPT的翻译能力,实验结果见表6。

表6 不同CoT Prompt模板的翻译结果Table 6 Translation results among different CoT Prompt templates

然而,从表6可以看出,CoT2取得最好结果,相较于ICL Zero-shot中的T3模板提升了1.19个BLEU值,然而在使用CoT方法翻译的过程中,翻译结果较为杂乱,存在部分翻译结果不完整、直接输出老挝语而不翻译汉语或者翻译成英语等多种问题,导致翻译结果并不理想。因此在CoT Few-shot实验过程中,通过提供模板的示例来规范CoT的输出结果。

4.2.4 CoT Few-shot实验结果分析

本节主要评估CoT2方法在Few-shot情况下对老挝语-汉语机器翻译任务的影响。受CoT Zero-shot翻译结果的启发以及ChatGPT在英语上的响应能力更加准确,Few-shot示例主要分为3个部分完成:1)确定所翻译文本属于何种语言;2)将源语言翻译成英语;3)将英语翻译成汉语。此外,受ChatGPT模型最大Token数的限制,本节最多进行10-shot的实验,实验结果见图4。

图4 CoT Few-shot实验结果Fig.4 Experimental results of CoT Few-shot

从图4可以看出,使用CoT方法进一步提高了ChatGPT模型在老挝语-汉语的翻译能力,而且通过模板示例的提示,模型输出的翻译结果明显变得更为整洁,而且最高可提升1.24个BLEU值以及0.28个chrF++值。由于ChatGPT受最大Token的限制,因此只进行了10-shot的翻译实验,翻译性能整体呈上升趋势,说明ChatGPT模型在老挝语-汉语的翻译能力有待进一步提高。

4.2.5 基于LoRA微调的ChatGLM模型

上述基于ChatGPT模型并没有进行微调实验,而是直接在Prompt指令下进行翻译任务的评估,为了进一步了解微调LLM模型在低资源语言机器翻译上的能力,本实验选取ChatGLM模型进行实验。由于越南语-汉语在ChatGPT模型上表现优异,因此本节主要使用ChatGLM模型评估其在越南语-汉语的翻译能力。ChatGLM是1个开源的支持中英双语的对话语言模型,在大量中文语料上训练而成,具备一定的汉语理解能力。鉴于直接微调ChatGLM模型所耗费的资源巨大,本实验选取LoRA高效微调方法进行实验,实验结果见图5。

图5 基于ChatGLM的越南语-汉语翻译结果Fig.5 Vietnamese-Chinese translation results based on ChatGLM

从图5可以看出,随着运行步数的不断提高,翻译效果也在同步提升。虽然性能仍有进一步提高的可能,但是提升过于缓慢且运行时间长,因此本实验只进行了599 982步的运行。此时使用ChatGLM翻译效果比本文方法低了8.53个BLEU值以及7.27个chrF++值,可能的原因是ChatGLM虽然拥有一定的汉语理解能力,但是并没有见过越南语或者类似语言,所以翻译效果不佳。

此外,基于ChatGLM所耗费的时间和计算成本均高于基于NLLB模型的改进方法。本实验总计运行599 982步,在单卡A40上运行时长133 h左右。因此,即便使用高效微调LLM的方法也需要耗费一定的资源和时间成本,仍需要探索更有效的适用于低资源语言机器翻译的LLM微调方法。

5 结束语

低资源语言因语料稀缺导致翻译性能不佳,本文使用多语言预训练模型以及LLM方法来分析其在低资源语言机器翻译任务上的能力。该方法在数据增强的基础上,对损失函数进行优化,旨在提升低资源语言的机器翻译效果。实验结果表明,本文方法在低资源语言上具有较优的翻译性能。受资源的限制,本文研究尚存在一定局限性,在选择越南语、老挝语、蒙语(西里尔)以及捷克语等4种语言时,并未全面考虑其他低资源语言的通用性。后续将进一步更有效地将LLM引入到低资源语言机器翻译任务中,为解决低资源语言翻译难题提供更具普适性的解决方案。

猜你喜欢
微调汉语一带一路
学汉语
轻轻松松聊汉语 后海
一种新型微调挤塑模具的设计及应用
追剧宅女教汉语
灵活易用,结合自动和手动微调达到好效果 StormAudio ISP 3D.16 ELITE/PA 16 ELITE
汉语不能成为“乱炖”
全国大部省份结束2014高考 多地高考模式微调
宏观政策适时适度进行预调微调