基于隐性句逗号识别的汉语长句机器翻译

2025-01-26 00:00:00冯文贺李熳佳张文娟

外语学刊 2025年1期

提要：长句翻译一直是机器翻译的难题。本文根据汉语中相当数量的逗号和句号可相互转化的特点，提出“隐性句号”和“隐性逗号”概念，并实现其自动识别，以将汉语长句变为短句用于汉英机器翻译。为此，首先通过人工与半监督学习结合方法构建一个隐性句逗数据集，实现基于预训练模型的隐性句逗识别方法，其中性能最好的Hierarchical BERT作为后续应用模型。进而，实现基于隐性句逗识别的汉英机器翻译方法。在新闻和文学公开翻译测试语料上基于预训练机器翻译模型的实验表明，对于汉语长句的英译，本文方法相比基准翻译的BLEU值整体有所提高，而且在相对稳健机器翻译模型上，呈现为句子越长本文方法效果越明显。

关键词：机器翻译；长句翻译；隐性句逗号；汉语长句；逗号识别；句内标点

中图分类号：H08 """"文献标识码：A """"文章编号：1000-0100（2025）01-0039-8

DOI编码：10.16263/j.cnki.23-1071/h.2025.01.005

Machine Translation of Chinese Long Sentences Based on

Recognition of" Implicit Period and Comma

Feng Wen-he1 Li Man-jia1 Zhang Wen-juan2

（1.Lab of" Language Engineering and Computing， Center for Linguistics and Applied Linguistics，

Guangdong University of" Foreign Studies， Guangzhou 510420， China; 2.School of Computer Science and

Engineering， Guangzhou Institute of" Science and Technology， Guangzhou 510420， China）

The translation of long sentences has always been a difficult task for machine translation. In this paper， based on the feature that a considerable number of commas and periods" in Chinese text can be transformed into each other， we propose the concepts of" “implicit period” and “implicit comma”， and realize their automatic recognition to transform Chinese long sentences into short sentences for Chinese-English machine translation. In this paper， a dataset of implicit period and comma is constructed by combining manual and semi-supervised learning methods， and an implicit period and comma recognition method is realized based on a pre-trained model， in which Hierarchical BERT， which has the best performance， is used as the subsequent application model. In this paper， a Chinese-English machine translation method based on implicit period and comma recognition is realized. The experiments based on pre-trained machine translation models on the News" and Literature corpus show that for the English translation of Chinese long sentences， the method in this paper improves the BLEU value compared to the benchmark translation as a whole， and the effect of the method in this paper is more obvious the longer the sentence is for the relatively robust machine translation model.

Key words：machine translation; long sentence translation; implicit period and comma; Chinese long sentence; recognition of comma; intra-sentence punctuation

1 引言

篇章翻译是当前制约机器翻译技术性能的一个突出问题，其困难集中体现于长句翻译上（Koehn， Knowles" 2017）。原因在于长句一般由多个小句（clause）构成，而不同语言的小句及其间结构差异巨大。如表现在汉英语言间，汉语小句无系统的语法主从之别，长句多流水句，小句间“可断可连”（吕叔湘 1979：27），反映在标点上即逗号（句内标点）、句号（句间标点）可相互转换，句子边界相对模糊；而英语小句则有系统的语法主从之别，句号、逗号分明，相互转化性弱，句子边界相对清晰（赵朝永王文斌 2020，冯文贺" 李青青 2022）。句子边界差异自然引发双语长句的翻译问题。长句机器翻译困难也有其计算机制的原因。如对于基于循环神经网络的翻译模型（Sutskever et al. 2014），长句会造成更多长距离依赖关系需要维护，以致难以记住大量上下文信息；对于基于注意力机制的翻译模型（Vaswani et al. 2017），长句会造成注意力分散到更多信息点，以致难以持续聚焦于最关键信息。

对于长句翻译问题，一种解决思路就是将其化为短句翻译。问题是如何将长句合理化为短句。本文认为，可从汉语句逗号中有大量可相互转化而又不影响原义表达的特点入手，解决汉语长句的翻译问题。例如：

（1） a. "①少年姓孙，②属马［，］③比小水小着一岁，④个头也没小水高，⑤人却本分实诚。（贾平凹《浮躁》）

b. ①This boy，a member of Sun Family， ②was born in the year of the horse［.］ ③Although he was a year younger ④and a head shorter than water girl， ⑤he was honest and sincere.（Goldblatt 1991）

c. ①The young Sun， ②a horse③， is one year younger than Xiaoshui， ④and the individual is no higher than Xiaoshui， ⑤but the person is sincere.（有道翻译 2023.11.18）

d. ①The young man’s surname is Sun，" ②he was born in the year of the horse， ③and is one year younger than Xiao Shui. ④He is not as tall as Xiao Shui， ⑤but he is honest and earnest.（ChatGPT4 2023.12.10）①

例（1）a汉语复句包含5个小句。语义主题上，小句①②描述少年的个人特征；小句③④和小句⑤虽然也描述少年的个人特征，但相比却有了对比人物“小水”。据此，前两个小句和后3个小句所表达语义主题有所差异，其间语义关系也远近有别。也因此，可将小句②后逗号改为句号，而且原文小句间的语义关系远近及具体逻辑语义等不变。本文将此类可转化为句号而不改变原文小句间语义关系远近及逻辑语义的逗号视为“隐性句号”。同理，汉语文本中也存在句号可变为逗号的情况，本文将此类句号视为“隐性逗号”。

将汉语长句变为短句，相比可以实现更好翻译。如专业译者（例（1）b）在小句②后断句翻译，更好翻译表达了源语小句间的语义远近关系，句子的内部结构也更符合英文习惯。相比之下，机器译文例（1）c中句逗号与源语一致，小句间的语义关系不明，句子结构也显得冗长，不符合英文结构习惯。但是，如果不能恰当地化长句为短句，也可能导致不良翻译。如机器译文例（1）d中在小句③后断句翻译，根本上改变源语小句间的结构关系，其中割裂了小句③④间密切的并列关系（由连接词“也”表示），隔断了小句⑤对小句③④整体的转折关系（由此也导致译文连接词but不能准确翻译原文连接词“却”的管辖范围）。可以说，长句化短后翻译，在根本上会影响句子内外的结构组织，影响是全局性的。

本文认为，如果能够识别汉语文本中隐性句逗号，就可能将相当一部分长句经切分重组为较短句子，而经此处理后再进行机器翻译，就可能达到更好的翻译效果。基于此，本文提出基于隐性句逗号识别的汉语长句机器翻译方法。为此，本文首先构建汉语隐性句逗号数据集，并实现其识别模型；进而将隐性句逗号识别模型用于机器翻译的汉语源语数据预处理，以使机器翻译获得更好的长句翻译效果。

2 相关工作

现有机器翻译模型处理短句表现良好，但对于长句，往往无法给出优质翻译。为改善长句翻译效果，主要进行了两类研究：一类是进行篇章级机器翻译建模，综合解决包括长句在内的篇章翻译问题；另一类是专门针对长句的机器翻译研究。

在篇章机器翻译建模研究中，一般既关注句内词语间结构关系，也关注上下文句子间的一致性、连贯性、结构层次、衔接性等信息（Tan et al. 2019；Chen et al. 2020；Guo et al. 2022；贾爱鑫等 2024）。由于更多关注上下文，一定程度上有利于缓解长句翻译问题。在篇章机器翻译建模中，有研究特别注意到句长的影响。如研究指出篇章级机器翻译中源语和目标语的句长偏差会导致翻译质量下降；提出动态采样训练数据，以确保不同序列长度可均匀分布；引入长度归一化注意力机制，以使模型聚焦于目标信息，缓解处理较长序列时的注意力偏离问题；提出在解码过程中采用滑动窗口策略，以在不超过最大序列长度的前提下整合更多上下文信息（Zhang" et al. 2023）。然而，根本上篇章机器翻译建模并不着重于解决由于（汉英）双语句子边界差异带来的长句翻译问题。

在专门针对长句的机器翻译研究中，一般将长句化为较短的语言单位再翻译。在传统机器翻译（基于规则、基于统计）下，不同语言的翻译上均有研究尝试将长句划分为较短的语言单位再翻译，一般是利用一些语言特征，如句法模板、结构层次、小句、连接词、标点等，将长句划分为较短的短语、小句、结构片段等后，先翻译较短单位后再进行组合（Oliveira et al. 2010；Goh， Sumita" 2011；Yin et al. 2012；Hung et al. 2012；Pouget-Abadie et al. 2014）。在汉英翻译中，也有一些研究尝试利用标点符号、关系代词、层次结构等长句划分为简单句、子句等后再进行翻译（黄河燕陈肇雄 2002；李幸" 宗成庆 2006；Xiong et al. 2009）。在神经机器翻译（NMT）技术框架下，也有研究考虑将长句化短后分别翻译再组合。如有研究在汉英翻译中引入一个拆分和重新排序模型来共同检测源语长句的最佳分割点序列，进而将每个源语子句由NMT系统独立转换为目标子句，并将翻译的目标子句连接起来形成长句的最终翻译（kuang， Xiong 2016）。有研究提出双语短语提取方法，以构建双语短语对齐语料库，并实现了一种长句预处理技术，以切分长句为短语，解决长句翻译问题（Tien， Minh 2019）。长句分割与句子边界相关，有研究发现句子边界分割对口语翻译质量影响显著，提出一种数据增强策略，即在训练过程中将模型暴露于各种边界分割错误中，以提高NMT系统对句子边界分割错误处理的鲁棒性和机器翻译的准确性（Li et al. 2021）。然而这些研究只是一般地将长句化为较短的语言单位再翻译，而不考虑长句化短后是否改变了源语长句内外，小句间语义关系的远近与逻辑类别等。但事实上，随意切断长句后翻译可能导致原文小句间的逻辑语义结构的改变，如例（1）d的译文。为此，本文基于汉语部分句逗号可相互转化的特点，提出“隐性句逗号”概念，实现其机器识别，并用以解决汉语长句的机器翻译难题，其中特别关注长句内外小句间语义关系的远近与逻辑类别等是否得到了准确翻译。

3 隐性句逗号识别

本文构建了汉语隐性句逗号数据集，并实现了基于预训练语言模型的隐性句逗号识别方法。考虑到原始文本中句逗号的数据不平衡（句号少，逗号多），及相应隐性句逗号的不平衡，和预训练语言模型中本身句逗号知识的不平衡，本文专门构建了一个只包含隐性句逗号的数据集。基于该数据集上，我们训练实现了最优隐性句逗号识别模型，该模型可以相对集中地反映隐性句逗号的特征差异。在机器翻译中，该模型将用于预处理源语汉语文本，由于该模型并未关注真句逗号，其识别结果将与现实文本中的句逗号进行一致性对比调正后作为源语文本预处理结果，输入机器翻译模型进行翻译。

首先，本文构建了隐性句逗号数据集。在不同体裁（含政府工作报告、法律文本、新闻、小说、学术等）的汉语文本（其中一部分来自经典汉英翻译的平行语料）上人工标注一定规模隐性句逗号数据；然后通过self-training半监督学习方法大规模扩充数据集。人工标注由汉语母语者实施，通过两种方式实现。第一，标注者根据母语者的语感直接对汉语文本标注。基本判断标准：句逗号相互转变后，语法合理、且不改变原句所含逻辑语义关系的，为隐性句逗号。第二，参照汉英翻译标注。标准为：在经典汉英翻译平行语料上，如果英译文本为句号断句，而汉语文本的对应标点处为逗号，则认定该汉语标点为隐性句号；隐性逗号的确定方法同理。具体做法如表1所示，其中红色标注出隐性句逗号，连同其左右各一个标点句（用S1、S2等标注）（宋柔 2022）构成一条数据。如其中的隐性句号数据由S3-S4构成，隐性逗号数据由S3-S4构成。最终，人工标注共3，100条隐性句逗号样本，其中包含1，847条隐性句号标注，1，253条隐性逗号标注。

随后，采用了self-training半监督学习方法（Du et al. 2021）大规模扩充数据集。先将这些标注样本作为初始数据，然后构建一个基础模型在已有人工标注数据上进行训练，使得模型能够学习到隐性句逗号的标注逻辑和文本特征。接着，利用训练好的模型对未标注数据进行推断，生成伪标签。当模型输出的标签概率高于设定阈值时，将其作为新的标签数据，扩充至初始数据中。通过该方式，最终构建了一个包含33，847条数据的隐性句逗号数据集，其中隐性句号19，407条，隐性逗号14，440条。识别实验中，将该数据集按照8：1：1的比例切分为训练集、验证集和测试集。具体统计结果如表2所示。

其次，本文提出基于预训练语言模型的隐性句逗号分类识别方法。为充分考虑隐性句逗识别中相关语段特征，具体采用Hierarchical BERT模型（Lukasik et al. 2020）对句子对进行编码。如图1所示，其包含嵌入层、Sentence Encoder、Context Encoder层，模型输出为隐性句逗号的预测结果。其中Sentence Encoder使用BERT预训练模型（Devlin et al．2019），Context Encoder使用GRU模型。模型的输入为两段文本，分别表示为Sentence1和Sentence2，此处并不是直接拼接两个句子，而是将其层次化并行输入模型。随后Sentence Encoder将学习每个Sentence句内的局部特征并聚合至对应的［CLS］向量中；将两个Sentence的［CLS］表征输入到Context Encoder层中，该层可赋予文本前后的顺序特征以及上下文关系特征，并最终得到文本对的全局特征。全局特征通过线性分类层，将输出映射到隐性句逗的类别标签上，其中线性分类层通过Softmax函数对输出的概率进行归一化，并利用交叉熵损失函数计算损失。

最后，进行隐性句逗号识别实验。除基于Hierarchical BERT模型外，我们也进行了基于Cross-segmen BERT模型（Wicks， Post 2021）的方法。与此同时，我们还对比实现了基于序列标注的方法，包括BERT-CRF（Liu et al．2020）、BERT-LSTM-CRF（Yang et al．2022）。各模型结果见表3。实验表明，基于Hierarchical BERT模型的方法性能最佳。原因在于Hierarchical BERT相比可以充分学习到句逗号相关语段文本的词汇、语序及上下文特征。而序列标注方法的问题在于，当前的隐性句逗号识别任务下相关数据是独立的文本段，并非实际文本中的句逗号序列。基于Hierarchical BERT的隐性句逗号识别模型将用于后续机器翻译汉语长句化短的预处理。

4 基于隐性句逗号识别的长句机器翻译

4.1 本文方法模型

为验证基于隐性句逗号识别的长句机器翻译方案效果，本文使用PipeLine方案（Atrio et al. 2023）进行实现。首先，对源语汉语进行预处理，即进行隐性句逗号识别，并与源语文本的句逗号比对校正，确定最终句逗号；然后对预处理文本进行机器翻译，如图2。

模型所输入的文本为一个句逗号切分的标点句序列（记为sentence1，2，……n）。为适配本文基于Hierarchical BERT的隐性句逗号识别模型，相邻的两个标点句组合作为一个输入，经过识别模型，预测其间的标点位置为隐性句号或隐性逗号。由于隐性句逗号识别模型仅考虑了隐性句逗号，而实际文本中为所有句逗号（既包括隐性句逗号，也包括真句逗号），这里须对隐性句逗号模型识别结果进行校正，以获得最终句逗标点。具体做法是：将隐性句逗识别模型输出结果与原文结果进行比对，当模型输出结果与原文一致，保留原文本标点；当模型输出结果与原文本不一致，保留隐性句逗的识别结果。这样做的原因在于，由于受预训练语言BERT自身所包含的大量一般句逗号文本知识的影响，隐性句逗号识别模型并不能很好地从真实文本（包含所有句逗号）中识别出隐性句逗号。具体而言，当其标点分类结果与原文本不一致时，可以认为是，句逗模型增强了本文隐性句逗号知识后的结果，即为隐性句逗号；当其与原文一致，可以认为是BERT自身包含的大量真句逗号知识的结果。校正后的句逗标点文本，作为预处理结果输入机器翻译模型。

4.2 实验设计

为验证本文方案效果，本文在公开机器翻译任务WMT2018的汉英翻译（新闻）②和WMT2023中的汉英翻译（文学）③的测试集上进行实验。引入文学语料的考虑在于，文学文本是机器翻译难点，而且文学文本相比一般文本口语性强，可逗可句或可断可连的情况更突出，特别适于本文方法的验证。为了充分验证本文方法在汉语长句上的效果，进一步按照文本长度（以包含的逗号数计算）将数据集划分如表4。如此考虑在于，逗号是句内标点，一个文本包含的逗号数越多，往往意味着其中的句子包含的小句越多，句子越长。

在翻译阶段，本文使用两个表现优异的预训练机器翻译模型进行实验，分别是opus-mt （Tiedemann， Thottingal 2020）和Randeng-mt（Zhang et al．2022）。二者均基于transformer的端到端架构，并基于大型中英平行语料库训练，包含了丰富的双语知识。实验中二者具体设置相同，主要是：设置束搜索宽度为2；采用多概率采样；top＿k为40，其可以在生成过程中过滤掉不太可能的词，仅保留头部的40个词；top＿p概率为0.8，其代表输出词的概率之和达到或超过0.8，才会在生成过程中保留；此外为确保模型不重复地连续输出，限制了模型连续重复生成单词的个数为5。

评估标准采用通用的BLEU值（Papineni" et al．2002）。其主要通过比较机器翻译的输出和参考译文的n-gram相似度计算得出。BLEU值中n-gram的取值为4。另外，也进行了翻译实例分析。主要对比分析标点修正前后机器翻译对于小句间关系疏密的处理等。

4.3 实验结果

由实验结果（表5）可见：

（1）随着逗号增多，即句子包含的小句数增多，句长增大，机器翻译效果变差，充分证明长句越长对机器翻译的挑战越大。

（2）在包含3到5个逗号的语段文本内，本文比基准方案的翻译质量整体有所提高；其中在更稳健翻译系统（Opus-mt）上，本文的BLEU值分别提高0.86、0.97和1.28，也即随着源语文本长度的增加，本文的优势更明显。

（3）本文也适应于文学翻译，在Opus-mt系统上，本文方法比基准模型提升0.69个BLEU值。一般认为文学翻译难度大，主要是文学文本中更多人物对话和叙事，也更多涉及日常生活，内容容易理解，但也因此句子口语性强，结构更灵活，可断可连的句子更多，句子边界相比更模糊，翻译断句等难度更大。本文可为文学机器翻译难题的解决提供一种特别思路。

（4）本文方法对于相对较短的句子（包含3个以下逗号的语段文本）翻译，并没有体现出优势。这一方面反映出短句翻译并非机器翻译难题，另一方面也反映出本文方法也还未能更好识别真句逗号。这是因为隐性句逗号识别模型仅专注于隐性句逗号的识别，而暂时忽视了真句逗号的问题。这无疑需要在进一步工作中予以合理解决。

4.4 实例分析

表6分别给出了汉语原文与其机器翻译结果和经本文方法修正标点后的汉语修正文本与其机器翻译结果。

实例1 文本选自WMT2018的新闻文本。修正文本将S4后的逗号改为句号，修正后S3、S4、S5、S6间的关系远近更清晰，逻辑语义更明确。对比修正文本翻译与原文翻译可以发现，修正文本翻译更好地反映了S3与S4的关系，S5与S6的关系，而且相比原文翻译语法结构也更合理。

实例2 文本选自WMT2023的文学文本。修正文本将S2后的逗号改为句号，将S3后的句号改为逗号，将S5后的逗号改为句号。修正后S3、S4、S5间的紧密关系得以凸显，包括S3与S4的递进性关系（都是“他们都认为”的内容，并且用“而”连接），S5与S3、S4间的因果性关系（由“因此”体现）。并S3-5与S1-2和S6-6的关系距离也相对拉开，显得更清晰。对比修正文本翻译与原文翻译，修正文本翻译较好地反映各S间关系的语义远近与逻辑关系关系。

5 结束语

针对长句机器翻译难题，本文提出基于隐性句号逗识别的汉语长句机器翻译方法。本文首先构建了隐性句逗号数据集，并基于预训练模型实现隐性句逗自动识别；进而将隐性句逗号识别模型作为翻译数据预处理模块与翻译模型结合，以解决汉语长句翻译难题。实验结果显示本文方法对长句的翻译性能有显著提升，而且长句越长效果越佳；这一方法对于提升文学翻译的长句翻译也有明显效果。未来我们将进一步完善隐性句逗号识别方法，特别是考虑真实语境中所有句逗号（真实句逗号与隐性句逗号）的识别问题，并将探索直接在机器翻译模型中融入隐性句逗号的理解。

注释

①数字序号代表汉英小句序号；汉语隐性句逗号与其对应英译标点用红色［］标出，下同。例①a、b及其小句切分采用自冯文贺（2019：1）。

②网址分别为：https：//www.statmt.org/wmt2018/translation-task.html；https：//aclanthology.org/events/wmt-2023/2023wmt-1.

*张文娟为本文通讯作者。

参考文献

冯文贺. 汉英篇章结构平行语料库构建与应用研究［M］. 北京：科学出版社， 2019.‖Feng， W.-H. The Construction and Application of Chinese-English Discourse Treebank［M］. Beijing： Science Press， 2019.

冯文贺李青青. 汉语复句的成分共享与英译断句［J］. 外语教学与研究， 2022（5）.‖Feng， W.-H.，" Li， Q.-Q. Constituent Sharing in Chinese Complex Sentence and the Segmentation of" Its English Translation［J］. Foreign Language Teaching and Research， 2022（5）.

黄河燕陈肇雄. 基于多策略分析的复杂长句翻译处理算法［J］. 中文信息学报， 2002（3）.‖Huang， H.-Y.， Chen， Z.-X. The Hybrid Strategy Processing Approach of" Complex Long Sentence［J］. Journal of Chinese Information Processing， 2002（3）.

贾爱鑫李军辉贡正仙张民. 融合目标端上下文的篇章神经机器翻译［J］. 中文信息学报， 2024（4）.‖Jia， A.-X.， Li， J.-H.， Gong， Z.-X.， Zhang， M. Mo-deling Target-side Context for Document-level Neural Machine Translation［J］. Journal of Chinese Information Processing， 2024（4）.

李幸宗成庆. 引入标点处理的层次化汉语长句句法分析方法［J］. 中文信息学报， 2006（4）．‖Li， X.， Zong， C.-Q. A Hierarchical Parsing Approach with Punctuation Processing for Long Chinese Sentences［J］. Journal of Chinese Information Processing， 2006（4）.

吕叔湘. 汉语语法分析问题［M］. 北京：商务印书馆， 1979.‖Lv， S.-X. Analyses of Chinese Grammar［M］. Beijing： The Commercial Press， 2022.

宋柔. 小句复合体的语法结构［M］. 北京：商务印书馆， 2022.‖Song， R. Grammatical Structure of Clause Complexes［M］. Beijing： The Commercial Press， 2022.

赵朝永王文斌. 汉语流水句与英语复杂句结构特性对比：英汉时空特质差异视角［J］. 外语教学， 2020（5）.‖Zhao， C.-Y.， Wang， W.-B. A Structural Contrast Between Chinese Run-on Sentences and English Complex Sentences from the Perspective of English Temporality and Chinese Spatiality［J］. Foreign Language Education， 2020（5）.

Atrio， L.R.， Allemann， A.， Dolamic， L.， Popescu-Belis， A. A Simplified Training Pipeline for Low-resource and Unsupervised Machine Translation［R］. Proceedings of" the Sixth Workshop on Technologies for Machine Translation of" Low-Resource Languages（LoResMT 2023）， 2023.

Chen， J.， Li， X.， Zhang， J.， Zhou， C.， Cui， J.， Wang，" B.， Su， J. Modeling Discourse Structure for Document-level Neural Machine Translation［J］. arXiv Preprint arXiv：2006.04721. 2020.

Devlin， J.， Chang， M.W.， Lee， K.， Toutanova， K. Bert： Pre-training of Deep Bidirectional Transformers for Language Understanding［R］. Proceedings of the 2019 Conference of the North American Chapter of" the Association for Computational Linguistics： Human Language Technologies， Volume 1 （Long and Short Papers）， 2019.

Du，" J.， Grave， E.， Gunel， B.， Chaudhary， V.， Celebi， O.， Auli， M.， Stoyanov， V.， Conneau， A. Self-training Improves Pre-training for Natural" Language Understanding［R］. Proceedings of the 2021 Conference of North American Chapter of the Association for Computational Linguistics， 2021.

Goh， C.L.， Sumita，" E. Splitting Long Input Sentences for Phrase-based Statistical Machine Translation［R］. The Association for Natural" Language Processing， 2011.

Guo， J.， Chen， X.， Liu， Z.， Yuan， W.， Zhang， J.， Liu， G. Context Modeling with Hierarchical Shallow Attention Structure for Document-level Nmt［R］. 2022 Internatio-nal Joint Conference on Neural Networks （IJCNN）， 2022.

Hung， B.T.， Minh， N.L.， Shimazu， A. Sentence Splitting for Vietnamese-English Machine Translation［R］. Fourth International Conference on Knowledge and Systems Engineering， 2012.

Koehn， P.， Knowles， R.， Six Challenges for Neural Machine Translation［R］. Proceedings of the First Workshop on Neural Machine Translation， 2017.

Kuang， S.， Xiong， D. Automatic Long Sentence Segmentation for Neural Machine Translation［A］. In： Lin， C.Y.， Xue， N.， Zhao， D.， Huang， X.， Feng， Y.（Eds.）， Natural Language Understanding and Intelligent Applications［C］. Cham： Springer， 2016.

Li， D.， Arivazhagan， N.， Cherry， C.， Padfield， D. Sentence Boundary Augmentation For Neural Machine Translation Robustness［R］. ICASSP 2021-2021 IEEE International Conference on Acoustics， Speech and Signal Processing， 2021.

Liu， M.， Tu， Z.， Wang， Z.， Xu， X. LTP： A New Active Learning Strategy for Bert-CRF Based Named Entity Re-cognition［J］. arXiv preprint arXiv： 2001.02524. 2020.

Lukasik， M.， Dadachev， B.， Papineniet， K.， Simoes， G. Text Segmentation by Cross Segment Attention［R］. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing， 2020.

Oliveira， F.， Wong， F.，" Hong， I.S. Systematic Processing of" Long Sentences in Rule Based Portuguese-Chinese Machine Translation［R］. Computational Linguistics and Intelligent Text Processing： 11th International Conference， 2010.

Papineni，" K.， Roukos， S.， Ward， T.，" Zhu， W.J." Bleu： a Method for Automatic Evaluation of Machine Translation［R］. Proceedings of the 40th Annual meeting of the Association for Computational Linguistics， 2002.

Pouget-Abadie， J.， Bahdanau， D.， Van Merrienboer， B.， Cho， K.， Bengio， Y. Overcoming the Curse of Sentence Length for Neural Machine Translation Using Automatic Segmentation［R］. Proceedings of SSST-8， Eighth Workshop on Syntax， Semantics and Structure in Statistical Translation， 2014.

Sutskever， I.， Vinyals， O.， Le， Q.V.， Sequence to Sequence Learning with Neural Networks［R］. Proceedings of the 27th International Conference on Neural Information Processing Systems， 2014.

Tan， X.， Zhang， L.， Zhou， G. Document-Level Neural Machine Translation with Hierarchical Modeling of Global Context［J］. Journal of Computer Science and Technology， 2022（2）.

Tiedemann， J.， Thottingal， S. OPUS-MT-building Open Translation Services for the"" World［R］. Proceedings of" the 22nd Annual Conference of the European Association for Machine Translation， 2020.

Tien， H.N.， Minh， H.N.T." Long Sentence Preprocessing in Neural Machine Translation［R］. IEEE-RIVF International Conference on Computing and Communication Technologies （RIVF）， 2019.

Vaswani， A.， Shazeer， N.， Parmar， N.， Uszkoreit， J.， Jones， L.， Gomez， A.N.， Kaiser， L.， Polosukhin， I. Attention is all You Need［R］. Proceedings of the 31st International Conference on Neural Information Proces-sing Systems， 2017.

Wicks， R.， Post， M. A Unified Approach to Sentence Segmentation of Punctuated Text in Many Languages［R］. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing， 2021.

Xiong， H.， Xu， W.， Mi， H.， Liu， Y.， Liu， Q. Sub-sentence Division for Tree-based Machine Translation［R］. Proceedings of the ACL-IJCNLP 2009 Conference， 2009.

Yang， C.， Sheng， L.， Wei， Z.， Wang， W. Chinese Named Entity Recognition of" Epidemiological Investigation of Information on COVID-19 Based on BERT［J］. IEEE Access， 2022（10）.

Yin， B.， Zuo， J.， Ye， N. Long Sentence Partitioning Using Top-down Analysis for Machine" Translation［R］. IEEE 2nd International Conference on Cloud Computing and Intelligence Systems， 2012.

Zhang， J.， Gan， R.， Wang， J.， Zhang， Y.， Zhang， L.， Yang， P.， Gao， X.， Wu， Z.， Dong， X.， He， J.， Zhuo， J.， Chen， C. Fengshenbang 1.0： Being the Foundation of" Chinese Cognitive Intelligence［J］. arXiv preprint arXiv： 2022.2209.02970.

Zhuocheng，" Z.， Gu， S.， Zhang， M.， Feng， Y. Addressing the Length Bias Challenge in Document-Level Neural Machine Translation［R］. Findings of the Association for Computational Linguistics： EMNLP， 2023.

定稿日期：2024-12-10【责任编辑谢群】