面向数字人文的先秦两汉典籍自动标点研究
——以SikuBERT预训练模型为例*

2022-12-15 02:50赵连振张逸勤刘江峰王东波冯敏萱
图书馆论坛 2022年12期
关键词:断句标点语料

赵连振,张逸勤,刘江峰,王东波,冯敏萱,李 斌

0 引言

信息技术对学术研究产生切实影响,在人文学术研究方面,信息技术带来的方法论和研究范式创新莫过于“数字人文”概念。数字人文的目标是将现代信息技术融入传统的人文研究与教学过程,从而在根本上改变人文知识的获取、标注、取样、阐释与表现方式王东波[1]。中华典籍是中华文化根基,浩如烟海的中华典籍一直为相关研究造成困难,数字人文为典籍整理研究带来了新机遇。《中共中央关于深化文化体制改革推动社会主义文化大发展大繁荣若干重大问题的决定》要求加强文化典籍整理和出版工作,推进文化典籍资源数字化。文化典籍资源数字化中的古籍文献具有结构数据特性,需要进行标点整理和正确标引,人工标点耗时耗力,自动标点研究成为推动古籍研究在人文社科领域发展的关键环节。当前古文自动处理领域已有了长足进展,但古籍自动断句标点的方法工具研究仍存在扩大深度学习技术应用范围的问题。在此背景下,本研究利用基于深度学习搭建的SikuBERT模型,探索古文自动标点模型。

1 研究现状

古文自动断句及标点是指根据古代汉语句子特点并结合现代汉语的标点符号用法,让计算机自动切割(断开)连续的文本字符序列,成为句子,然后添加标点[2]。我国汉语古籍自动断句标点研究,最早可追溯到20世纪末。1997年北京大学计算语言研究所和古文学研究所合作开展以《全宋诗》为对象的古诗研究[3],开发的系统可以自动判断诗作的押韵与韵脚。从20 世纪末至今,不少学者利用自然语言处理技术对古文自动断句和标点展开探索,表现出不同程度的方法创新。当前古文自动标点的研究大致分为基于语法规则方法和基于统计建模方法两种类别。

(1)基于语法规则方法的自动标点研究。利用古文句读(即断句)规则指导计算机开展自动标点。古文自动标点建立在掌握句读知识基础上,此类研究最先得到探索和验证。陈天莹等[4]提出基于前后文n-gram模型,实现古汉语句子自动切分(自动加句读)算法,充分考虑上下文信息预测切分位置,解决数据稀疏问题。黄建年[5]探索古籍计算机自动断句标点与自动分词标引,构建古籍计算机自动整理与开发集成系统,基于规则匹配模式对农业典籍开展自动断句与自动标点实验,开发包括自动标点等4个子系统在内的农业古籍整理与开发实验系统,并在《齐民要术》《氾胜之书》等古农书上验证可行性。总体上,基于语法规则方法的自动标点研究侧重采用自动化手段对原始古文自动断句和标点,弊端是不适用于大规模古籍处理。

(2)基于统计建模方法的自动标点研究。中文古籍计算机自动标点近年多采用统计建模方法。根据机器学习模型,相关研究划分为以条件随机场(CRF)为代表的传统机器学习模型方法和较前沿的Bi-LSTM、BERT等深度学习模型方法。

传统机器学习模型与汉语古籍自动标点领域,条件随机场(CRF)模型[6]应用普遍,可解决序列标注模型存在的标注偏置等问题,可广泛应用在中文自动分词、词性标注、命名体识别等领域。也有研究者将该模型应用于古籍自动断句标点。比如,张开旭等[7]提出基于条件随机场的古文自动断句标点模型,引入互信息和t-测试差两个统计量作为模型的特征,实现层叠CRF和单层CRF两类自动标点处理策略。基于传统机器学习模型的古文自动分析存在两个问题:为特定类型的古文人工定制特征模板的过程耗时耗力;实验使用的数据集规模小,定制的特征模板对不同时代和体裁的古籍文本的适应性较差[8]。因此,需要提高模型的泛化能力。

深度学习模型与汉语古籍自动标点领域,针对传统机器模型在古文自动标点中的不足,探索深度学习方法。王博立等[9]提出基于神经网络语言模型的古文分词句读方法,在大规模古籍语料上的实验结果表明该方法的F1值高于传统方法。还有学者探索BERT 方法在古文自动标点和断句中的应用。王倩等[10]针对现有技术方法暴露的语义理解不足问题,采用BERTLSTM-CRF 模型和多特征LSTM-CRF 模型等,搭建基于深度学习层叠模型的句读自动标记平台,能为用户指定的古汉语句子或文本文件自动给出断句与标点的标记结果。以上方法和模型可以根据训练语料自动学习断句特征,避免复杂的特征工程,表现出比传统方法更佳的自动标点效果。

综上,深度学习模型在汉语古籍自动标点研究中越来越受重视,尤其是以BERT 为代表的文本深度表示模型的应用提升了古籍自动断句及标点的准确率。BERT模型高效的上下文信息提取能力和阅读理解性能,能适应汉语典籍文本句式灵活、上下文关联性强以及语法意合等特性。但在古文自动断句标点方面应用BERT模型的研究尚不多见,原始BERT基线模型在繁体古文智能处理任务中的性能也需要进一步提升。为此,本研究在大规模繁体字古文文本基础上,构建性能更优越的SikuBERT预训练模型,探索该建模型在古籍自动标点的有效性。研究构建的自动标点模型将全部免费公开给研究者,以推动古文自动标点研究的进一步发展。

2 数据集及模型简介

2.1 数据集

实验数据来自“中国哲学书电子化计划”线上开放电子图书馆(古籍数据库,https://ctext.org/confucianism/zhs)。其收录逾3万部中国历代传世文献;按照年代分为先秦两汉和汉代之后两部分,先秦两汉依照派别细分为兵家、道家、法家、名家、墨家、儒家、杂家等13类,汉代之后依照年代细分为魏晋南北朝、隋唐、宋明、清代与民国5类,内容准确可靠;能根据学术派别、文献年代、文献名称、章节名称等字段以及关键词检索文献。本实验即从其网站爬取《论语》《礼记》《战国策》《尚书》《道德经》《左传》《孙子兵法》《论衡》《周易》《孝经》《扬子法言》《商君书》《墨子》《庄子》《孟子》《公孙龙子》等16部先秦典籍数据作为实验语料。语料为繁体字文本,带有经过校对的句读和加注的标点符号,不包括编纂人、目录、标题等典籍外部特征信息。语料正文部分的文本最小组织单位为段落,规模共计222,793kb,包含汉字与标点符号总计25,640,997个字符。图1为源自该网站的数据摘录样例。

2.2 模型

本研究实验工具包括3种:基于Transformer编码的BERT预训练模型、基于神经网络架构的层叠式深度学习模型LSTM-CRF,以及自建的使用大规模古籍数据继续训练的SikuBERT预训练模型。

(1)BERT 预训练模型。BERT(Bidirectional Encoder Representation from Transformers)方法的基础是Transformer编码器,它作为双向的预训练方法可以实现对语言的表征。BERT 属于深层次的双向训练语言模型,能借助海量编码层提升字嵌入模型的泛化能力,性能优于Word2Vec和ELMo模型。BERT预训练模型有众多应用场景,本研究仅利用该模型进行特征提取。如图2,利用BERT模型创建语境化的字嵌入,作为后续模型的输入。因为Transformer具有RNN模型所缺乏的并行化处理功能,而BERT模型在预训练阶段可以利用Transformer的双向编码器根据上下文进行双向转换解码。Masked Language Model用以遮盖部分词语,并在训练中进行预测,实现实验过程中的双向理解。为使模型能学习两个句子的关联,利用Next Sentence Prediction 方法表示句子级别。预训练完成后,模型在训练语料基础上做了有监督的微调,以便应用到各类型的任务中。区别于传统的BERT模型,数字人文研究需要一定的条件支持,如大规模语料库以及可以处理古文的高性能自然语言处理工具。对英文和现代汉语文本,预训练语言模型已大幅度改善文本挖掘的精度,但当下亟需开发面向古文自动处理的预训练模型。

图2 BERT模型生成语境化的字嵌入

(2)LSTM- CRF 模型。 循环神经网络(Recurrent Neural Network,RNN)把序列信息作为输入变量,且按照序列的方向递归连接。因具有循环结构,循环神经网络可以保留前期信息并将其关联到当前信息种,从而解决无法保存信息这个传统神经网络难以处理的难题。循环神经网络的不足是:当序列过长且文本信息上下文间隔过大时,将出现梯度消失,因而不适用于长序列任务。长短期记忆网络(Long Short Term Memory Network,LSTM)解决梯度消失问题,可以应用于多个实际问题。长短期记忆网络的结构不同于门控循环单元,区别在于前者的组成要素包括1个时间细胞和3个门结构,即输入门、遗忘门和输出门。输入门决定保存到记忆状态细胞中的是输入新信息中的何种部分,遗忘门管控历史记忆细胞状态的相关信息,输出门输出更新后细胞状态的部分。LSTM 模型的局限之处是,无法考虑到当前文本上下文所蕴含的信息。Bi-LSTM(Bidirectional LSTM)神经网络是对传统LSTM的改进。该神经网络借鉴了双向循环网络的方法,在LSTM上增加前向层和反向层两个并行层,分别从序列的开始处和末尾处进行处理,因而使得Bi-LSTM保存两个方向的文本信息,解决大文本序列任务的上下文存储问题。借助LSTM网络能够产生优良的实体标注效果,但输出标签之间的强烈依赖关系会对LSTM模型的性能带来不良影响,这尤其表现在实际的序列标注任务中。鉴于神经网络结构对数据有很大的依赖性,数据量的大小和质量会严重影响模型训练的效果。本研究使用LSTM-CRF模型就是为了解决该问题。如图3,LSTM-CRF模型输出的内容是最佳的标签序列,而不是相互独立的标签。LSTM-CRF模型有两大优势:保存LSTM同时兼顾上下文信息的特性;借助CRF层考量输出独立标签前后的相互依赖关系。

图3 LSTM-CRF模型框架示意图

(3)SikuBERT 预训练模型。由南京农业大学、南京理工大学和南京师范大学联合开发的SikuBERT模型是为汉语古籍文本进行智能处理所构建的预训练模型[11]。Siku是“四库”汉语拼音的缩写,SikuBERT是在BERT模型的基础框架下,选择删除注释的繁体汉字无标点版《四库全书》全文作为训练语料而得到的语言模型。由于BERT模型具有双向Transformer编码器结构的特性,SikuBERT模型在词向量的训练中能够最大程度上保留古籍文本的原始特征,从而规避实验受限于训练文本分词质量的缺陷。SikuBERT在预训练过程中仅使用掩码语言模型(Mask Language Model,MLM)完成无监督学习任务,可以综合上下文内容预测被遮罩的字符。因此,SikuBERT模型可以移除原始模型中对下游任务性能影响甚微的NSP任务,仅使用MLM损失函数判断模型预训练的完成度。在实验中该预训练模型随机遮罩15%的词汇,并通过预测被遮罩字符的方式完成参数更新。与原始BERT-base 以及 RoBERTa、GuwenBert 等基线模型相对比,SikuBERT预训练模型在古文分词、古文词性标注、古文命名实体识别等繁体古文智能处理任务中的性能均有所提升。

自动标点问题可视为序列标注任务。具体而言,利用{B,E,I,J,S}分别描述句子各部分的字,使用{D,J,F,G,W,M,S,O}区分具体标点,将古籍自动标点问题转换为单句序列标注任务。BERT系列模型中的单句序列标注任务仅需改造BERT模型的输出层,即在模型所有输出后增加一个分类层。分类层由一个全连接层和一个softmax层组成,用于输出最后标注类别的概率。SikuBERT系列预训练模型的结构与BERT-base模型相同,两者在预训练过程中所使用的预训练任务略有差异。可见,SikuBERT系列预训练模型应用于古籍自动标点任务的方法与上述改造BERT模型的方法是相一致的。

3 实验设计

本研究选取经过句读校验的“中国哲学书电子化计划”古籍数据库中的全文语料作为实验训练集,利用自建SikuBERT预训练语言模型对先秦典籍文本开展自动标点研究。

3.1 数据预处理

数据预处理阶段主要包括两个内容:规范标注已经完成断句校对的语料;利用句号、问号、感叹号等句末标点符号切分句子。

第一步,对语料进行断句,以{B,E,I,J,S}为标记集合。在该集合中B代表句首字,E代表句尾字,I代表句长超过3(字数)时的中间字,J表示当句长大于2(字数)时句尾字前面的一个字,S代表单字成句,标签标注示例见表1。

表1 断句标签摘录样例

第二步,在断句基础上输出标点标记,以{D,J,F, G,W, M,S,O}为标记集合。各字母含义为:D 表示逗号,J 表示句号,F 表示分号,G表示感叹号,W表示问号,M表示冒号,S表示书名号,O表示文字后无标点符号。针对语料语句“曰:然。諸子之書稱爵祿,非貴也”,标签标注示例见表2。通过将语料制成深度学习模型可识别的格式,本实验获得总计约2,600万行token格式的深度学习语料,句长存在不平衡情况。数据集进一步被随机分为10份,其中训练集9份,测试集与验证集1份;训练集数据约2,308万行,测试集与验证集数据约255万行。借助十折交叉验证(10-fold cross-validation)法实现数据增强,把10份数据中的9份当作训练数据,提高实验准确率并降低结构性误差。

表2 标注体系标注示例

3.2 评价指标

模型分词水平有以下常用评价指标:准确率P(Precision)、召回率R(Recall)、调和平均值F1,计算算式详见下列公式。在公式中,M为测试集总句数,N为标注出的标点符号数,T为标注正确的标点符号数。模型分词的精确度与全面度分别由准确率和召回率表示,而调和平均值则综合了前两个指标的优点,可以防止两者差距扩大。因此,调和平均值指标可以更客观地评价分词效果,成为本实验中最为重要的评价指标。

3.3 实验环境与参数设置

本研究实验环境配置为:CPU,Intel(R)Xeon(R) CPU E5-2650 v4 @ 2.20GHz;GPU,NVIDIA®Tesla®P40;内存,512GB;显存,24GB;操作系统,CentOS 3.10.0。全部模型的训练和测试均在Pytorch后端的BERT框架内进行。表3展示本实验模型中的主要超参数设置。

表3 本实验模型的主要超参数设置

4 实验分析

通过对十折交叉整体调和平均值的分析,发现SikuBERT模型在先秦典籍自动标点实验中取得较优越的整体效果。选取第三组实验为例,以深入分析主要标点符号的标注结果,见表4。

表4 自动标点十折交叉实验的准确率、召回率与F1值

由表4看出,书名号标签S与冒号标签M总体上的识别准确率、召回率与F1 值表现最优;其次是句号标签J和逗号标签D的识别准确率、召回率与F1值表现也不错。问号标签W、分号标签F与感叹号标签G的识别准确率相对较差,三者中又有差异:问号相对较好,除准确率较低于80%外,召回率和F1值均在80%以上;分号和感叹号的3种指标多在50%以下,有的甚至低于40%,与书名号和冒号有显著差异。以下分析标点实验现状的原因。

就书名号与冒号而言,实验结果最理想,主要原因在于二者的断句形式标志较明显。在古籍标点中,书名号标明的书名、篇章名、乐舞名等作为实体容易识别,如本实验语料中出现的《诗》《书》《训》《帝典》《论语》《史记》。古籍引书还遵循一定模式,如“……云”“……曰”,有助于提高识别的准确率。书名号标点致误的主要原因是不明文献名称。比如,SikuBERT模型的处理为:“故司馬法曰:賞罰不時,欲使民速見善惡之報也。”古籍标点中的引书识别法之一是“……曰”,但“曰”也可用在人名后表示“说,说道”,因此该句的正确标注为:“故《司馬法》曰:賞罰不時,欲使民速見善惡之報也。”冒号通常出现在提示性话语之后或总括性话语之前,位置具有较显著的特征,易被模型学习与掌握,因此标注准确率高达95%以上。部分自动标点致误的主要原因在于不明文义,没有用冒号正确揭示句子内部结构。例如,“狄人之所欲者,吾土地也。吾聞之也,君子不以其所以養人者害人。”在该例中,“君子不以其所以養人者害人”属于句中的解释或综括性部分,该部分与句子的提示语之间应正确使用冒号,以更好地揭示句子内部的逻辑结构。因此,正确的标点应该是:“狄人之所欲者,吾土地也。吾聞之也:君子不以其所以養人者害人。”

就句号和逗号而言,句号各项指标逾86%,实验结果较理想。标识句号和逗号的形式特征较弱,语义特征较强,需要进行语义层面的判断,可能出现因理解产生的不一致。句号标注出现明显的偏误更多是不明文义造成的。例如,“學猶飾也。器不飾則無以為美觀;人不學則無以有懿德。”3个分句语义上关系较密切,但句号表示明显的停顿,第一个分句后使用句号则割裂三者之间的关联。因此,正确标注应为:“學猶飾也,器不飾則無以為美觀,人不學則無以有懿德。”逗号情况也大致如此,由于词义不明和句义不明等,模型在自动标点时会出现偏误。例如,“有懿德故可以經人倫,為美觀故可以供神明。”模型的这种标点显然是不明汉语句式的成分和结构造成的。正确的标点应为:“有懿德,故可以經人倫;為美觀,故可以供神明。”总之,通过初步比较机器模型在句号和逗号标注中出现的偏误,发现在标点判断中语义成为首要考虑因素,因而自动标注更复杂,影响实验准确率。

就问号、感叹号和分号而言,问号标签W的准确率和F1值低,准确率甚至低于80%。尽管问号的准确率低于上两组中的标点符号,但在同组中其准确率却高于分号和冒号,可以归因于问号标点出现的位置具有较强的特征。句尾语气词的多用法特征,是导致模型自动标注出错的主要原因。比如,模型标注为“今日行之,可以知古,可以察今,其此邪?”这里的“邪”应是表示感叹,正确标注应为“今日行之,可以知古,可以察今,其此邪!”感叹号准确率更低,仅约61%,召回率和F1 值低于50%。在所有标点中,感叹号数量较少、使用频率较低,可能会影响统计数值,这是感叹号自动标点准确率较低的原因之一。但更重要的是,句末形式标记的歧义性和意义语气判断的不确定性。从统计数据看,模型自动标点中感叹号和问号出现判断失误较普遍,这与句尾语气词的歧义性有很大关系。分号准确率约59%,召回率和F1值均不到50%。统计数据表明,分号准确率最低,总体实验结果不理想。分号标注的实质是判定复句内部各分句之间的语义关系,语义的复杂性是机器学习最为薄弱环节,导致分号出现较低准确率。

为直观分析自动标点模型的效果,本研究在测试集上截取部分语料进行观测,结果见表5。从上述截取结果可知,模型对逗号的识别较准确,而问号及感叹号的识别精度较差;句子“猶莫之敢規也,而况於人君哉!”,末尾“哉”字后应为感叹号,而模型将其标为问号。同时,在人工检查测试集语料后,也发现多处问号和感叹号识别错误的情况。

表5 标注结果样例

为对本模型进行严谨科学的评价,借助十折交叉验证法来判断其性能。表6 展示每组准确率、召回率和调和平均值3个重要指标的数值。本次实验模型的总体性能以柱形图展示,其中横轴为十折交叉验证的10组实验组次,纵轴为各组的各项指标平均值,结果见图4。实验语料共计222,793kb,通过对十折交叉整体调和平均值的比较分析可知,在本文先秦典籍自动标点实验中,SikuBERT模型的整体效果均比较优越。其中,最优为组次3,准确率达到87.86%,召回率达到87.92%,调和平均值为87.86%。

表6 十折交叉验证实验的结果

图4 十折交叉验证的模型指标平均值

根据最后的评测指标,模型对不同标点的预测表现出显著的差异。由于使用位置特征明显,逗号、冒号、书名号以及句号容易被机器模型学习和掌握,因而表现出良好的预测结果。相比之下,模型对分号和感叹号的预测仍有较大提升空间。分号表现尤其如此,原因在于该标点符合的使用场景复杂,不确定性高,对模型学习与预测造成一定的难度。人工查错后发现,分号较多地被错误预测为逗号,表明这两种符号的区分有较大困难,这也符合本文的判断。感叹号则大量被误测为问号和句号,原因在于三者同为句末的句读标记,具有类似的句法功能。加之,句末语气词是它们的形式标记,语气词字形类似,会给识别工作带来困难。另外,感叹号使用频率较低,会造成数据稀疏,这也会影响模型预测结果。

5 单机版古文断句自动标记平台设计

基于实验结果,借助SikuBERT模型,本研究开发兼容古文文本自动断句功能的集成型古文智能处理平台,运用Python语言和pyQt5图形界面编程。单机版“Sikuaip:面向数字人文的中国古代典籍智能处理平台”(以下简称“Sikuaip平台”)以可视化方式帮助研究人员实现任意古文文本的断句自动标记。在1.0版中,Sikuaip平台提供包含自动断句、自动分词与词性标注、实体识别在内的多种古文智能处理功能。经过代码整合,实现3种功能,可处理不同规模文本,即单句自动断句、单文本文件自动断句以及多文件自动断句。通过pyQt5信号发送,软件中的“自动断句”按钮可连接到作为槽函数的断句函数。表7展示了断句函数的参数。

表7 断句函数的参数及其功能

在表7中,参数input_path表示接受用户语料输入的待处理文件路径,而参数output_path表示处理后输出的文件路径。每个序列在输入文件中的长度不超过512字符;若单个序列过长,需进行截断处理,将其分为若干子序列。采用CPU与GPU两种软件同时运行的方式,保证计算资源可得到最大程度利用。本研究开发的Sikuaip平台主界面如图5所示。依据待处理文本规模的不同,Sikuaip平台可以为用户提供单文本模式和语料库模式两种处理入口。

图5 智能处理平台主界面

用户根据需求单击相应按钮后,可进入自动断句功能界面。单文本模式下的自动处理界面见图6。在单文本模式下进行自动断句处理,需在左侧文本框内输入繁体中文形式的原始文本,单击“自动标点”按钮,右侧结果栏即可生成自动断句后的古籍文本。图6中使用的样例文本来源于《史记·陳涉世家》。根据现有较权威的中华书局修订版点校本《史记》,该段文本的断句处理应为:“陳勝者,陽城人也,字涉。吳廣者,陽夏人也,字叔。陳涉少時,嘗與人傭耕,輟耕之壟上,悵恨久之,曰:「茍富貴,無相忘。」庸者笑而應曰:「若為庸耕,何富貴也?」陳涉太息曰:「嗟乎,燕雀安知鴻鵠之志哉!」”可见,使用Sikuaip平台进行智能处理,除缺失传统句读符号双引号外,输出的处理结果几乎与权威句读完全一致。这表明Sikuaip平台的自动断句功能对中文古籍处理有较好的适用性。

图6 单文本模式自动断句功能

图7 为语料库模式自动断句场景示意图。大规模文本的自动断句处理可以选用语料库模式,操作流程如下:单击“浏览”按钮选择待处理的文件夹与输出文件夹,之后点击“自动标点”按钮来调用Sikuaip自动断句模型,实现古籍文本大批量自动断句。现阶段开发较完备的文本智能处理平台有北京理工大学大数据搜索与挖掘实验室开发的NLPIR-Parser大数据语义智能分析平台[12],以及针对现代汉语、汉语文言文以及前现代韩文(韩国语)命名实体自动识别等相关应用的MARKUS 与COMPARATIVUS 文本标记平台[13]等。NLPIR-Parser大数据语义智能分析平台主要面向现代汉语;MARKUS主要面向汉文,尤其是文学领域的汉文与朝鲜文的处理;Sikuaip平台应用SikuBERT模型,针对性地实现了中国古代汉语文本自动断句的智能化处理。

图7 语料库模式自动断句功能

6 结语

数字人文为中华典籍的整理研究带来了新机遇。在人文社科领域,古籍自动标点研究扮演关键角色。近年古籍自动标点领域取得很好进展,但在方法工具方面,机器深度学习技术的应用仍然需要探究。为此,本研究利用SikuBERT 模型,以“中国哲学书电子化计划”古籍数据库中的先秦两汉典籍为数据源,探索基于深度学习技术的古文自动标点模型。通过对十折交叉整体调和平均值的比较分析,发现SikuBERT模型对先秦两汉典籍自动标点的整体效果均比较优越,尤其是书名号、冒号、句号以及逗号,预测表现良好;分号、感叹号和问号的识别准确率相对较差,预测表现有待提高。后续研究将考虑在3个方面进行。一是克服自动标点中形式标记的“双刃剑”属性影响。古汉语句末语气词“也”“邪”等可以表达多重含义,如陈述、感叹、疑问。这既为自动标注带来方便,也因其多义性造成标注的偏误。二是加强机器深度学习的语义学习功能。当标点的形式特征显著时,实验结果往往较为理想,但涉及到语义和语气等意义层面的判断时,准确率就会降低,这是机器自动学习需要进一步完善之处。三是探索其他标点的实验效果。引号、顿号等标点在本研究中没有涉及,今后的研究可以验证这类标注的准确性等指标。作为古籍研究与文化传承中重要的基础性研究项目,我国古籍自动断句标点研究可以丰富数字人文在古文智能处理方面的内涵。未来,伴随深度学习方法的更新,古籍研究将引入更先进的自动处理模型算法,这对高质量古籍知识教育、古籍内涵深度挖掘与优秀传统文化创新应用等具有重大意义。

猜你喜欢
断句标点语料
基于归一化点向互信息的低资源平行语料过滤方法*
标点可有可无吗
《辽史》标点辨误四则
小小标点真厉害
“夏译汉籍”中的断句情况考察
濒危语言与汉语平行语料库动态构建技术研究
“断句” “密码”费人解(二则)
对外汉语教学领域可比语料库的构建及应用研究
——以“把”字句的句法语义标注及应用研究为例
妙用标点巧断句
有趣的标点