面向中文网络对话文本的论辩挖掘
——基于微调与提示学习的大模型算法

2024-01-20 05:29:22言佳润鲜于波

中文信息学报 2023年10期

言佳润,鲜于波

(中山大学哲学系逻辑与认知研究所,广东广州 510275)

0 引言

随着互联网技术的火速发展,以及互联网使用的广泛普及,越来越多的人选择在社交网站、在线论坛等地方,发表自己的观点并围绕一个或多个话题进行讨论,试图反驳或说服对方,这些行为都产生了大量的论辩文本,而这些论辩文本通常是非结构化或半结构化的。如何高效准确地自动识别与提取网络对话论辩文本中的论辩元素与结构具有极大意义与研究价值。近年来,在论辩文本上形成了新的研究方向 ——论辩挖掘,通过机器学习与自然语言处理方法对论辩文本进行分析,自动识别、提取其中的论辩元素与论辩结构等,以此来对网络对话文本进行自动分析,获得更深层次的理解。

论辩挖掘属于一个新兴的领域,相比其他的文本分析,它处理的对象和需要完成的任务具有更高的复杂性与难度。论辩挖掘前期的研究主要通过人工构建特征工程的方法,这些方法在论辩挖掘研究上具有一定的效用,但也存在明显的不足。随着深度学习相关技术的不断发展,其方法也不断应用到论辩挖掘相关研究任务上来。近年来,预训练模型在自然语言处理领域中飞速发展。但是最近自然语言处理中较新的“预训练模型+Prompt+预测”范式,即预训练提示学习,在论辩挖掘领域中的使用还不多见。

另外,从现有的研究看,大部分论辩挖掘研究都是建立在英语语料库上的。最近,论辩挖掘在中文信息处理上也受到一定的重视。不过总的来看,中文论辩文本语料库的建立,以及对其论辩元素论辩关系的识别与抽取还处于一个发展阶段。

鉴于中文和英文在论辩文本上存在很多不同之处,独立的中文论辩分析是必须的。首先,中英文有非常不同的语言结构,在词汇、语法、表达方式等方面存在明显差异。其次,不同辩论数据蕴含着不同的文化背景。中文辩论数据往往反映了中国传统文化、思维方式和价值观。在表达风格上,中文和英文也有很大差异。在中文辩论文本中,表达方式往往更加含蓄,英文辩论数据则更注重逻辑性、条理性和证据。此外,中文和英文辩论数据在语言习惯方面也存在不同,如中文偏好使用成语、俗语、谚语等传统表达方式。这使得在中英文文本处理上,尤其是论辩文本分析中存在一定的差异,中文文本通常被认为有自己特殊的处理难度。因此展开对中文论辩文本包括网络对话论辩文本的挖掘具有一定的迫切性和现实意义。

本文使用预训练模型+微调以及预训练模型+Prompt+预测这两种方法,在本文构建的中文网络对话论辩文本语料库上,完成论辩挖掘的论辩元素分类与论辩关系识别任务,这也是该方法应用于中文论辩挖掘研究的初步尝试。

本文第1节先回顾了论辩挖掘相关理论与技术,对论辩挖掘任务涉及的理论和方法进行简要分析;第2节介绍构建中文网络对话论辩文本语料库的方法;第3节构造了基于预训练和基于提示的深度学习模型,对实验结果进行分析;第4节是结语与展望。

1 相关工作

论辩(Argumentation)作为一种社会的、理性的话语行为活动,是指用一系列的命题或论据来证明或反对一个观点主张,使得己方所认同的观点的合理性能够被接受,来达到说服或驳倒对方的目的[1]。论辩文本通常可以分为独白型和对话型。对话型论辩文本是由不同人讨论互动产生的,不同人所持的观点不一致,每个人会提出支持自己主张的前提,也可能会反驳他人的主张。因此对话型论辩更加关注论辩文本的宏观结构,主要分析不同主张之间的支持或是反对关系。

通常,论辩挖掘主要分为论辩元素识别任务以及论辩关系识别任务,其中论辩元素识别任务可以分为论辩元素边界检测与句子分类这两个子任务。典型的论辩挖掘流程主要是在论辩元素识别与分类的基础上,再对论辩元素之间的论辩关系进行抽取与分类,但是将其作为联合任务处理的研究也是可以看到的一种方法。

目前在论辩元素的识别和论辩元素之间关系的识别上已经进行了大量的工作[2]。Moens等人[3]在2007年就开展了相关工作。Palau与Moens[4]首次定义了论辩挖掘的基本任务;Mochales与Moens基于新闻文本和议会讨论文本等进行了论辩挖掘研究[5]。Goudas 等人[6]基于博客和其他网站等社交媒体上的论辩文本进行研究,Petasis等人[7]将基于图的文本排序提取摘要算法 TextRank[8],并将其应用于论辩元素识别任务;Addawood 等人[9]利用社交媒体文本对论据的类型进行了研究,通过推特上的文本数据标注了3 000条文本的论据分类语料库;Dusmanu等人[10]通过线性回归分类器对推特文本进行分类;Peldszus[11]标注了论辩元素与论辩关系的短篇论证语料数据集[12];Stab和 Gurveych[13-14]基于议论文论辩文本构建了论辩语料库,将论辩元素分为论点与论据、论辩关系分为支持与攻击,Stab 等人[15]又进一步扩充了学生议论文论辩语料库,并对论辩的结构进行了分析。Nguyen[16-17]等人通过主题模型(LDA)构建上下文相关特征表示。Persing 等人[18]设计了一个端到端的论辩挖掘框架。这些研究采用的基本上都是基于统计的特征工程机器学习方法,核心在于如何定义和提取文本的特征。但如何定义特征以及改进模型的泛化性能一直是机器学习论辩文本分析的挑战。

随着深度学习的发展,该方法在近年来也被广泛应用到论辩挖掘任务中[19]。Eger等人[20]提出了一个端到端的神经网络论辩挖掘模型,联合了论辩挖掘的两个子任务,使用了BiLSTM 在说服性文章上进行了实验;Koreeda等人[21]在词嵌入技术的基础上,提出了一种基于注意力机制的循环神经网络(RNN)模型,识别论辩元素之间的攻击与支持关系。Potash等人[22]将序列到序列的基于注意力机制的指针网络[23]应用于论辩挖掘,获得论辩元素之间的序列信息。廖祥文等人[24]使用深度卷积网络(CNN)以及高速神经网络以获得论辩文本在字符级别、词级别的参数表示,再将其输入BiLSTM,同时训练论辩挖掘的多个子任务,进行联合预测与迭代学习。

典型的论辩挖掘流程的先后关系最近也受到挑战。Stab 等人[14]发现,论辩元素之间的关系也可以反过来给论辩元素的分类提供一些有价值的信息。Carstens 等人[25]认为句子的论辩性并不一直是依赖于它的上下文,更可能依赖于句子之间的关系,这样联合任务学习就有自己的优势。

近几年,预训练模型在自然语言处理领域被广泛应用,在许多任务中取得了不错的结果。Chakrabarty等人[26]基于在线论辩论坛 ChangeMyView的CMV 数据集[27]将BERT[28]模型应用在论辩元素分类和论辩关系识别任务上;Schaefer等人[29]利用预训练模型BERT[28]等方法进行了Tweet文本的论辩挖掘。不过现有研究中的文本通常篇幅较短,这往往降低了论辩文本分析的困难程度。

目前,自然语言处理中Prompt方法正在兴起,已经成为自然语言处理的新范式。它体现为在预训练语言模型支持下的 Prompt 挖掘工程[30],即对输入的文本相关信息按照特定的模板进行处理,以直接将下游任务重构成一个更能对预训练语言模型进行充分利用的形式。这是通过对下游任务进行适当的 Prompt,使得下游任务靠近预训练语言模型,让预训练语言模型或大模型本身就可以对所需的输出进行直接预测。

对于具体 Prompt 的设计,主要需要考虑预训练模型的选择、Prompt 工程、Answer工程等。Prompt 工程是指创建一个可以在下游任务上获得最有效性能的提示函数f_Prompt(x)的过程,可以理解为下游任务设计一个合适的模板,需要根据具体任务考虑使用什么预训练语言模型和Prompt 的形式,再由此决定使用人工提示工程还是自动提示工程。

目前基于Prompt的研究方式有很多[30]。Prompt 工程最原始自然的方式就是通过人工经验来手工创建直观的模板,可以在一定程度上解决很多问题,但是也有许多不足。Shin 等人[31]的研究表明,人工创建模板需要大量的时间与经验,特别是对语义解析等复杂的任务更是如此。Jiang 等人[32]研究发现人工设计最佳的Prompt比较困难,即使是经验丰富的设计者也不一定能很好完成,而自动提示工程则希望通过一些手段而使得模型可以自己找到高质量的Prompt模板。其中自动提示工程分两类,一类是离散的Prompt,这里的Prompt是实际的文本字符串,也就是真实的文本;另一类是连续的,这种 Prompt 是一种Embedding,即一个连续空间中的向量,可以直接在底层语言模型的嵌入空间中进行描述和优化。

基于上述考虑,Liu等人提出了 P-tuning方法[33]。P-tuning方法首次提出通过连续空间搜索的embedding 设计 Prompt,需要使用少量的可训练参数来将自动连续 Prompt输入预训练语言模型。此外,对于如何将GPT与 Prompt 相结合并应用于自然语言理解任务中也进行了探讨。

相比微调,Prompt 所需要的参数少很多,也不需要像微调一样对每个任务都保存整个预训练模型的副本,只需要存储特定于下游任务的一个小单元即可。同时,Prompt在零样本或小样本中往往也更适配。可以预见,将Prompt 应用在论辩挖掘任务中,是值得探讨的工作。

此外,论辩语料库也是论辩挖掘研究要构建的重要因素,论辩挖掘的研究基于语料库。表1列出了目前部分研究中所使用的代表性语料库类型、论辩结构以及具体的标注方案[2]。

表1 部分代表性论辩语料库

标注可以有不同粒度层面的,如篇章级别、句子级别、子句级别、字符级别。相比句子粒度,子句粒度可以更精确地描述论辩结构。现在所存在的语料库大多为基于独白型长文本的,其微观结构的论辩成分主要由前提与结论组成,语种多为英语,可用的中文语料库相对很少,规模不大。

在中文学术界,论辩挖掘近来逐步受到重视和研究,对深度学习在论辩挖掘上也有了比较深入的了解[19]。论辩挖掘的主要任务如论辩成分分类[38]、文本中论辩片段的抽取和论辩元素之间的关系检测等[39]课题都得到了一定的研究。国内业界相关评测也在开展中,如中国情感计算大会2022 第二届智慧论辩评测(1)http://www.playcongcong.plus/?cat=3以及中国法律智能技术评测2022中的论辩理解(2)http://cail.cipsc.org.cn/等。

综上可以看到,目前采用大模型以及提示学习方法对论辩文本进行研究的工作还不多,分析的文本也比较短。对于中文论辩文本的系统分析还处于一个快速发展阶段,需要展开更多的工作。作为研究基础的中文语料库还少见到,因此构建中文论辩语料库也是目前所急需的工作。

2 中文网络对话文本语料库构建

2.1 数据来源

本文实验的文本数据是中文网络对话文本,这一般是比较零散的对话形式。本文选取了微博的热议话题榜中的讨论作为数据集,爬取并人工筛选了200篇文本数据作为本次研究的数据,其中多为针对社会热点话题进行对话型的讨论,如“亲情关系”“恋爱问题”“读书问题”“纳税问题”等,其中每个文本都是针对一个话题进行讨论。为了使论辩过程更加清晰,本文选取类似针对一个问题提出“是否”的话题讨论来进行实验,例如,“是否应该提高个税起征点”。这种对话讨论一般会具有更加清晰的论辩。每个讨论选取按照热度排序前10左右的评论放入语料库,其中对一些无意义的评论进行清洗,每个评论为一个自然段。

本文所标注的200篇文本数据一共包含有97 843个字符(不包括标点符号),样本平均字符数等相关统计信息如表2所示。

表2 文本数据信息

2.2 标注原则、方法和结果

每篇文本都是关于一个话题的,每个文本是针对同一个话题的多人回帖的连贯文本。在每个讨论中,几乎每个人都有或多或少对话题持有赞成或者反对的观点,故而在广泛的“前提-结论”结构中加入“话题”元素,并添加与之相关的论辩关系,即在论辩关系中引入“赞成”与“反对”关系。

论辩语料库中每个文本中的论辩元素分为3类,即前提(Premise)、主张(Claim)以及话题(Topic)。文本论辩结构如图1所示。

图1 标注文本论辩结构

图2 P-tuning自动构建Prompt

文本中的句子论辩关系分为如下类别: 支持(Support)、攻击(Attack)、赞成(For)、反对(Against)。其中主张和话题之间的关系是赞成或反对关系,主张和前提之间或前提之间是支持或攻击关系。

本次标注的工具是为命名实体识别和关系抽取任务设计的 Brat软件[40]。标注标准的确认由中山大学论辩研究实验室小组讨论完成。具体的文本获取与标注由本文作者二人完成。由于多人论辩文本标注的一致性一直是论辩语料库的一个难点,所以本文的标注流程是: 两人分别对一半文本按照既定原则进行标注,然后交换标注校对,如果对标注有疑问或标注存在矛盾之处,则进行讨论以达到一致。

标注时遵循以下原则: 在标注文本选择对象时,要求按照子句的粒度进行选择,而不是以完整的句子作为基本单位。标注两个论辩元素之间的关系的时候,一般要遵循“直接关系原则”以及“就近原则”。直接关系原则指的是标注的是文本中论辩元素之间可以直接得到的明显关系,而不是需要联想、引申或者推理才能得出的关系。标注后的语料库相关统计信息如表3所示。其中平均一个文本中含有一个话题,10个主张,4个前提。主张占比最大,前提较少,非论辩成分则相对很少。

表3 语料库论辩元素与关系分布

标注好后会得到与原论辩文本相对应的后缀名为ann的文件。每个实体标注或关系标注占一行。例如,第一行的1表示序号,“T1”是第一个实体(T代表实体,R表示关系),“Topic”是实体类型,后面两个数字为标注在文本中的起始位置和终止位置,最后为所标注的内容。一个标注好的文本片段如下所示:

1 T1 Topic 0 11 被爱的前提是要漂亮吗?

2 T2 Claim 15 31一定要先爱自己啊,才会被别人爱。

10 T10 Premise 256 377 还是要现实点…

12 R1 against Arg1: T2 Arg2: T1

13 R2 attack Arg1: T3 Arg2: T2

14 R3 for Arg1: T3 Arg2: T1

18 R7 support Arg1: T6 Arg2: T5

3 中文网络对话文本论辩挖掘实验

3.1 数据集预处理

本文的语料库一共包含有200个样本,将其打乱后进行随机分配,这里是随机分为训练集与测试集,其中包括180个训练集、20个测试集。语料库中的数据类型在进行具体训练前需要转换成预训练可以输入的形式。将文本按照标注切分成句子,分别处理成句子与元素类型标签、源-目标有向句子对与关系标签的格式,获得标准数据。

基于这个句子长度的统计和实验所使用模型的种类,要对实验中句子的大小进行规定。句子输入模型需将句子进行对齐,保持尺寸一致才可以。如句子长度超过了规定的大小,多出的部分就会被截掉,句子的长度不到规定的大小,就需要补齐0 保持一样的长度,补0 不影响模型的学习预测。

语料库中句子长度是不均衡的,基于单句子加上[CLS]、[SEP]长度不大于128 的占约99%,故可以设置其句子长度为128;源-目标句子对是由两个句子组成的,且最长的不到256,故可以设置其长度为256。

3.2 模型结构

本文的目标是论辩元素的识别与论辩关系的识别。论辩元素的识别的基本单位是句子,是一个句子序列标注的问题,而论辩元素之间的关系检测建模为一个句子对分类任务。本文分别采用微调预训练语言模型与基于提示的预训练语言模型的方法完成上述任务。

3.2.1 基于微调的预训练模型方法

由于本文语料库的构建方式是以子句为粒度进行,于是按照标注切分进行句子的输入,直接进行论辩元素的分类任务,同时这也有利于后续关系识别工作。

本文实验的关系识别也是对输入的有向“源-目标”对的关系进行分类。“源-目标”对是源指向目标的有向句子对,在本文语料库中可以理解为“前提-主张”“主张-话题”等由分类后识别的元素组成。而语料库标注的论辩结构是具有一定规则的,比如源是前提,那目标就只能是同一自然段的前提或主张。通过规则清理过的有效有向对按照指向的固定方向输入到完成关系识别的预训练模型,然后进行关系分类,该模型通过有标注的数据集进行微调。这里的模型和一般预训练模型分类任务类似,通过预训练模型后的最后一层的[CLS]输出分类标签。

3.2.2 基于提示的预训练模型方法

8.牛呼吸道合胞体病毒感染。主要发生于集约化养殖断奶犊牛及青年牛，发病率高达90%以上，死亡率低，秋冬多发，通过气雾或呼吸道分泌物迅速传播，运输、恶劣的环境等应激可促使本病的暴发，继发细菌感染死亡率升高。

本文还使用了基于提示的预训练模型方法P-tuning。这是一个自动设计连续模板的方法,由于论辩文本具有语义复杂性,所以它比人工构建模板更适合当前的任务。

P-tuning自动化模板将一组离散输入Token(伪Prompt)通过预训练的嵌入层映射到Embedding上,结合上下文得到目标,再对Encoder优化。本文实验中用[u1]～[u8]作为预训练模型词表中的[unused1]～[unused8],即通过这几个从未见过的伪提示token 来构建模板。对于这些Token 来说,它们的数目是一个超参数,通过已标注数据来一起自动找出所需要的模板。这个模板即对现在任务的描述,使得本文的任务更加接近预训练模型。在这里,模板为{h1,…,h4,e(x),h5,…,h8,e(y)},其中y在使用BERT[30]模型时为MASK,在使用GPT[41]模型时必须放在末尾。当然,也不是一定需要8个token,这个可以根据任务自行设定。

接下来需要对Embedding层进行重新定义与替换修改。由于本文标注数据比较小,所以需要固定整个模型的权重,只对这几个Token的Embedding进行优化,使之可以起到模板的作用。理论上,模型的权重很多都被固定了,要学习的参数也很少,故而在小样本数据上也可以学出来模板而不会过拟合,适合本文实验的小样本数据。

这样,本文针对本次实验两个任务也可以如前面的方法一样,看作句子的论辩元素分类以及源-目标对(句子对)的关系分类任务,分别自动构建满足任务需求连续的可学习模板,使得本文的任务向预训练模型靠近,让预训练模型其本身就可以对所需的输出进行直接预测。

3.3 实验结果及其分析

3.3.1 实验设置

在微调预训练模型的实验中,使用了BERT、XLNet[42]、RoBERTa[43]这三类预训练语言模型,选择了其基础版本与扩大参数的版本,其中BERT 除了其base 版本与large 版本外,还选择了在中文任务上表现优秀的BERT-WWM。

在基于提示的预训练模型的实验中,则选择了BERT、RoBERTa、GPT 这三种预训练模型。其中,预训练模型都使用了Huggingface 所提供的预训练模型。

在微调预训练模型实验中,论辩元素分类任务的学习率设为1e-8,由于句子长度设为128,故训练批大小Batch Size设置为32,训练轮次Epoch设置为5轮。论辩关系识别任务中学习率也为为1e-8,训练批大小Batch Size 由于句子长度变长,故设置为16,训练轮次Epoch为5轮。在提示学习实验中,论辩元素分类任务的学习率为6e-4,训练批大小Batch Size设置为32,训练轮次Epoch为20轮。论辩关系识别任务中学习率为6e-4,批大小Batch Size 设置为16,训练轮次Epoch为20轮。

3.3.2 论辩元素识别实验分析

表4为对预训练模型进行微调后的论辩元素分类实验结果。可以看到,在论辩元素识别任务中,这几个预训练模型的准确率都较高,几乎都达到了0.8及其以上,其中XLNet 的两个模型表现最好,可能与输入中除了短句还存在有一些较长的句子有关,而XLNet 本身在长文本上比较擅长。不过本实验的结果发现RoBERTa与BERT在论辩元素识别的任务上表现似乎没有太大区别。

可以看到,其large/mid 版本比base版本提高的准确率不大,两者表现差不多,甚至XLNet 的准确率在参数增加后还下降了,这表明现在模型中参数的扩充对论辩元素识别任务没起到太大作用,这可能和现有实验的小样本数据有关。对于BERT 来说,BERT-WWM 的准确率比其base 与large 版本均有着明显的提高,这也正符合BERT-WWM 在预训练阶段使用了更大规模的中文语料,对中文任务有更好的适应性的特点。

随后本文采用预训练提示学习来对论辩元素识别进行实验,相关实验结果如表5所示。

表5 预训练提示学习-论辩元素识别

就准确率而言,RoBERTa 效果最好,GPT 明显差于RoBERTa 与BERT。BERT 虽然效果比不上改进后的RoBERTa,但是其作为自编码语言模型,似乎还是天然的在论辩元素识别这种自然语言理解任务而非生成任务上,优于GPT这种自回归语言模型。虽然有研究表明将GPT 与Prompt 相结合应用于自然语言理解领域,在某些任务上甚至GPT 比BERT 更优秀[33]。但是在本实验任务中可以看出来,对于论辩元素的识别来说不是这样的。这与Bert模型双向上下文建模方式使得模型对论辩元素的识别更有益。

同时实验也发现,在BERT、RoBERTa 上,使用预训练提示学习不比对预训练模型进行微调差,甚至可以有更好的效果。如RoBERTa 在预训练提示学习中准确率达到了0.837,优于预训练微调中RoBERTa-large 的0.811 与RoBERTa-base的0.798,BERT 在预训练提示学习中的准确率也大于BERT-base、BERT-large在预训练微调中的准确率。这也说明,将Prompt 提示应用于论辩元素识别任务上是可行的。

本文还研究了随着训练数据集的不断减小,预训练微调与预训练提示学习两种方法在论辩元素识别任务下的准确率变化。本文选取了在两种方法中均有较好表现的RoBERTa 预训练模型,在原训练集中随机抽取150 个数据、120 个数据以及90 个数据,分别作为训练集进行测试。实验结果显示,预训练提示学习在小样本数据集中的确更具有优势,在小样本或零样本数据集的任务中也具有更好的发展潜力。由于本文采用小样本学习,总样本数 200比较小,增大数据集对在论辩元素识别任务准确率的影响还有待将来的工作。

3.3.3 论辩元素关系识别实验分析

由于任何两个论辩元素之间都可能存在论辩关系,因此存在论辩关系的可能在文本中位置比较接近,也可能是距离较远。论辩元素之间的关系识别需要模型有较强的上下文理解能力,这在论辩挖掘中一直都是一个比较困难的问题。本文采用预训练微调实验的结果如表6所示。

表6 微调-论辩关系识别

可以看到,其准确率与召回率都比前一个任务低,不过这是在论辩元素识别约0.85 正确率的基础上进行的,因此会存在一定的错误累积,且相比前一个任务,论辩元素之间关系识别本身也更加复杂。这其中RoBERTa-large 和XLNet的表现最好。在每一类预训练语言模型中,其大参数版本(large/mid)相比基础版本均有了比较明显的效果提示,说明了参数的扩充在关系识别任务上在一定程度上是有用的,这可能是因为对于一篇文本中的论辩元素之间的关系的判断更加复杂,也需要更多的语义知识。同样,在这个任务中BERT-WWM 的准确率对比其base 与large 版本有了更明显的提高,也符合其对中文任务的适应性,同时也可能是因为BERT-WWM 采用全词mask 后,可以学到词的语义信息,而这对关系识别任务来说比较有效。

使用Prompt方法的论辩关系识别实验结果如表7所示。可以发现,就准确率而言,GPT效果最好,高于BERT、RoBERTa等。除了GPT以外的这两个预训练模型结合P-tuning在论辩关系识别任务上,目前来说还是不那么适合,BERT、RoBERTa使用预训练提示学习的准确率远低于使用微调时。不过预训练提示学习时使用GPT的准确率,比有些模型微调时高,大概处于本次实验使用预训练微调的模型的中间水平。

表7 Prompt-论辩关系识别实验准确率

还可以看出,GPT与Prompt相结合,虽然可能目前在论辩元素分类的任务上表现不够好,但是值得注意的是,在目前的论辩挖掘领域中,在关系识别和预测任务上甚至比BERT更好。众所周知,双向BERT类模型在训练和预测阶段存在不一致性,所以这应该与GPT生成模型单向性对预测性任务(训练和预测阶段都只能先看到前面先出现的论辩句子)有一定的天生优势有关。

此外,实验发现,在关系识别任务上,实验结果中的准确率都大于召回率,这意味着漏掉了一些真正的正例。其中主张对主张的attack(攻击)关系的召回率最低,这可能也与语料库中的标签分别不均有关,或许可以将主张与主张之间的宏观关系与前提与主张之间的微观关系区分出来,对宏观关系主张之间的支持单独设计一个标签,不与前提支持主张中的“支持”放在一起,这样主张之间的两种关系会相对稍微平衡。

结合论辩和自然语言理解的理论,可以看到论辩关系不仅仅涉及对论辩元素语义的理解,也涉及其在论辩文本中的位置结构信息。如果缺少明确线索和提示,判断论辩元素之间的关系就是一个富于挑战性的任务。这可能需要对论辩文本整体性以及论辩模式(Scheme)有更完善的理解。

4 结语

本文的主要贡献如下:

(1) 针对中文网络对话论辩现状,提出一个合理的论辩结构标注方案,在“前提-结论”结构的基础上,引入“话题”这个新的论辩元,将“赞成”或“反对”作为论辩关系加入论辩结构,并由此构建了一个中文网络对话论辩语料库。

(2) 将最近自然语言处理新范式——预训练提示学习,应用到论辩挖掘中的元素识别和关系识别任务上。根据实验结果可以发现,将预训练提示学习用于完成论辩挖掘任务的方案是可行的,且准确率与现今取得很好效果的预训练微调方法相近,有时准确率甚至更高。同时预训练提示学习在小样本或零样本数据集上有着更好的效果,非常具有发展潜力。以往更擅长生成任务的GPT,其与Prompt 结合后也可以较好地完成论辩关系识别任务。

当然,本文也存在一些局限。在实验过程中发现了一些可以改善的空间,如可以对本文的小样本语料库进行扩充,在语料库标注标准上进行多人标注,然后进行一致性检验。改进实验方法和模型提高预训练提示学习方法在关系识别上的准确性还需进一步的研究等。

本文的研究和实验表明,从理论以及某些领域上已有的应用效果来看,提示模板的构建确实是有很大的发展潜力的。提示学习不仅在小样本、零样本任务上激活了许多新的研究,也为预训练模型与下游任务的靠近提供了一个新的思路,有必要在论辩挖掘领域进行进一步探索。

面向中文网络对话文本的论辩挖掘——基于微调与提示学习的大模型算法