基于多语言预训练模型的缅甸语分词研究

2024-06-03 05:04:11张啸岩张慧陈宇

电脑知识与技术 2024年11期

关键词：自然语言处理语料库

张啸岩张慧陈宇

摘要：缅甸语属于低资源语言，收集大量缅语文本进行预训练是一项耗时耗力的工作。目前已存在一些在多种语言（包括缅甸语）上预训练的模型，例如bert-base-multilingual-cased和xlm-roberta-base。因此，文章提出了一种新方法，即在多语言（包括缅甸语）预训练模型的基础上，利用缅语文本进行再预训练，以提升模型的分词性能。首先，构建了缅语预训练语料库，并使用它制作了一个仅包含缅甸语的tokenizer。然后，重置了多语言预训练模型的词嵌入层和位置编码层，并在重置后的多语言预训练模型上使用自制的tokenizer加入缅语预训练语料库进行再预训练。最后，在自建的以及公开的分词标注数据集上进行了微调。与未进行再预训练的情况相比，模型在F1值上分别提高了2.23%和1.2%，且自建数据集的提升幅度高出公开数据集的1.34%。

關键词：缅甸语；自然语言处理；自动分词；Roberta；语料库

中图分类号：TP391 文献标识码：A

文章编号：1009-3044（2024）11-0022-07

猜你喜欢

自然语言处理语料库

《语料库翻译文体学》评介

天津外国语大学学报(2020年1期)2020-03-25 13:29:26

基于语料库“隐秘”的词类标注初步探究

广东蚕业(2019年3期)2019-05-14 05:37:40

把课文的优美表达存进语料库

作文评点报·低幼版(2017年13期)2017-04-18 18:15:11

基于组合分类算法的源代码注释质量评估方法

计算机应用(2016年12期)2017-01-13 01:24:36

面向机器人导航的汉语路径自然语言组块分析方法研究

电脑知识与技术(2016年10期)2016-06-16 21:16:32

词向量的语义学规范化

求知导刊(2016年10期)2016-05-01 14:09:25

汉哈机器翻译中的文字转换技术研究

电脑知识与技术(2016年5期)2016-04-14 11:12:38

HowNet在自然语言处理领域的研究现状与分析

科技视界(2016年5期)2016-02-22 11:41:39

基于JAVAEE的维吾尔中介语语料库开发与实现

语言与翻译(2015年4期)2015-07-18 11:07:45

基于.NET的维哈柯多语种网上数据采集系统的设计与实现

电脑知识与技术(2015年11期)2015-06-24 11:51:27

电脑知识与技术2024年11期

电脑知识与技术的其它文章: 基于小学生计算思维培养的项目式教学模式构建与实践研究; BOPPPS 参与式课程思政教学案例设计; 混合式BOPPPS 教学模式的Scratch 编程教学设计; CDIO-OBE 工程教育理念下的Java程序设计课程改革探析; 信号处理类课程教学中信号频谱的对偶性总结; 新工科背景下Multisim 在电工电子技术课程教学中的应用研究