基于多语言预训练模型的缅甸语分词研究

2024-06-03 05:04张啸岩张慧陈宇
电脑知识与技术 2024年11期
关键词:自然语言处理语料库

张啸岩 张慧 陈宇

摘要:缅甸语属于低资源语言,收集大量缅语文本进行预训练是一项耗时耗力的工作。目前已存在一些在多种语言(包括缅甸语)上预训练的模型,例如bert-base-multilingual-cased和xlm-roberta-base。因此,文章提出了一种新方法,即在多语言(包括缅甸语)预训练模型的基础上,利用缅语文本进行再预训练,以提升模型的分词性能。首先,构建了缅语预训练语料库,并使用它制作了一个仅包含缅甸语的tokenizer。然后,重置了多语言预训练模型的词嵌入层和位置编码层,并在重置后的多语言预训练模型上使用自制的tokenizer加入缅语预训练语料库进行再预训练。最后,在自建的以及公开的分词标注数据集上进行了微调。与未进行再预训练的情况相比,模型在F1值上分别提高了2.23%和1.2%,且自建数据集的提升幅度高出公开数据集的1.34%。

關键词:缅甸语;自然语言处理;自动分词;Roberta;语料库

中图分类号:TP391 文献标识码:A

文章编号:1009-3044(2024)11-0022-07

猜你喜欢
自然语言处理语料库
《语料库翻译文体学》评介
基于语料库“隐秘”的词类标注初步探究
基于组合分类算法的源代码注释质量评估方法
面向机器人导航的汉语路径自然语言组块分析方法研究
词向量的语义学规范化
汉哈机器翻译中的文字转换技术研究
HowNet在自然语言处理领域的研究现状与分析
基于JAVAEE的维吾尔中介语语料库开发与实现
基于.NET的维哈柯多语种网上数据采集系统的设计与实现
基于网络语料库的“给力”研究