基于机器学习的复句关联标记嵌套力研究
——以现代汉语二重有标三分句为例

2023-08-15 08:24:40储小静

华中学术 2023年2期

储小静

(常州大学周有光文学院，江苏常州，213159)

一、引言

中文信息处理作为应用语言学一大重要分支，目前处于句处理攻坚阶段[1]。复句作为连接小句与篇章的桥梁，在真实文本中出现频率很高，是重难点所在。学者们结合语言学知识和数据挖掘技术丰富了相关应用研究(刘云，2009；胡金柱，2010；Yang等，2017；Wang等，2020；Li等，2020)。

复句层次关系划分究其实质是对分句语义关联度的计算，体现了复句内部不同层级意义的相对完整性[2]。这一计算过程较为复杂，离不开对重要抓手——关联标记的探讨[3]。学界对此展开了系统研究。陆丙甫、金立鑫(1988)基于关联标记的“论域”概念，描写偏正复句内部高低层级间嵌套关系。王维贤(1994)借助显性关联标记，以计分法测算九种条件复句(69种格式)间嵌套关系。周刚(2002)沿用此思路，对表联合、偏正关系的关联连词包孕机制展开探讨，并用关联标记的句法、语义特征加以理论解释。

在层次关系自动划分应用层面，关联标记这一形式特征依然重要。鲁松等(2001)构建句法分析器，针对关联标记进行确定性移进—归约操作。刘云提出关系标记的“临近原则”“前者前则优先，后者后则优先”(2005)和关联标记的“离析度”概念(2008)，重视关联标记的音节形式、位置前后及数量多少(2009)。吴锋文先后总结4种二标三句式(2012)、4种一标三句式(2013)、14种二标四句式(2017)、50种四句式(2017)和18种充盈态三标四句式(2020)的关联标记联结序列，制定出相应的句法语义判定规则，并提取出若干制约规则与优先序规则(2019)。李源等(2017)提倡一种基于语义分析与关系搭配相结合的层次分析融合模型，一定程度上提升了识别准确率。杨进才等(2021)融合关联标记特征，利用深度学习模型Rm-transformer实现二句式因果复句的自动标识。

这些研究充实了关联标记嵌套力专题分析，全面翔实。“关联标记嵌套力”是指复句中关联标记嵌套分句结构的能力，关联标记的嵌套力越强，辖域越宽。二重有标三分句的嵌套受分句总量限制，表现在语言结构上多为单个关联标记嵌套其所处分句与相邻分句构成的小句关联体。本文将所有与关联标记有关的嵌套要素统一视为关联标记嵌套力。事实上，影响关联标记嵌套力的因素共六类十三种，但并非所有因素均同等重要。为此，本文借助自建的包含2092条二重有标三分句语料的关联标记嵌套力影响因素分析语料库，引入信息量模型、K-means聚类算法、CART算法、scikit-learn工具包等技术方法，考察常见的六类十三种影响因素，以期得到嵌套因素的综合重要性排名，以回答规则效用重要性问题。

二、关联标记嵌套力的影响因素

(一)关联标记的音节

音节在人类语言中普遍存在，指语感上能从语流中分离出的最自然、最小的发音单位和听觉单位。汉语以音节为基本的表意单位。二重有标三分句中关联标记的音节形式众多，包含单音节、双音节、三音节、四音节、五音节和六音节。其中，双音节关联标记在数量上占有绝对优势(占比56.09%)，从嵌套概率来看，双音节关联标记比其他音节类型的关联标记要大得多。

从语法特征来看，单音节关联标记受音节所限，承载的信息意义不足，多数须成对使用，强整体性、高凝固性和低离析度使其嵌套能力不如双音节。而三音节、四音节、五音节和六音节关联标记的“词类”多是超词形式，使用位置固定，语义、句法限制条件多，相比之下双音节更为灵活，嵌套能力也更强。如例(1)为双音节关联标记对嵌套单音节关联标记对，高层语义关系是“因为……所以……”构成的因果关系，低层语义关系为“既……也……”组配的并列关系。后者的意义和形式结合得非常紧密，穷尽语料库也很难发现中间插入其他关联成分。

(1)就因为我们既不是仇敌，也不是朋友，所以我才信任你。(《陆小凤传奇》)

从韵律学角度看，汉语最基本的音步是两个音节[4]，双音节关联标记正是标准的韵律词。不同于双音步的普适性，其他类型的音步(单音节关联标记称为蜕化音步，三音节关联标记为超音步，四字串关联标记是两个音步的组合，五音节、六音节关联标记由标准韵律词和超韵律词组成)与特定句法环境、语用条件相牵连。这同样证明双音节关联标记的嵌套用法更为自由。

(二)关联标记的位置

1.关联标记所处分句的位次

二重有标三分句中，关联标记所处分句的位次有三种：初始分句、中位分句、末尾分句。语言符号的线条性决定了书面语中汉字的书写顺序先左后右，关联标记管辖的分句范围也为右向性。当关联标记所处分句为初始分句或中位分句且管控范围为两个分句时，关联标记嵌套所管控的小句关联体，此关联标记联结的为高层结构，嵌套力最强。而当关联标记管控范围为一个分句时，复句的嵌套分析较为复杂，要结合搭配对象综合考虑——若搭配对象嵌套小句关联体，此关联标记标示高层语义关系；否则，标示低层语义关系。

2.关联标记与主语的相对位置

结合王维贤(1994)对关联词语放置位置的分析，二重有标三分句中主语与关联标记的相对位置有四种：关联标记都在主语前、关联标记都在主语后、关联标记与主语一前一后、关联标记位于句首。

若主语先于关联标记出现，其管辖范围大多超出所在分句，右向管辖。辖域内的分句因陈述对象连贯和谐、前后过渡自然，语义关系上更紧密，更易形成小句关联体。若主语位于关联标记之后且异于后分句主语，关联标记管控范围倾向于仅限当前分句。若主语位于关联标记之后但与后分句主语一致，关联标记管控范围须结合前后景信息进行综合判定。这与刘云(2008)的结论“能在主语前面的复句关系词语当然比仅位于主语后面的关系词语的离析度高”[5]是一致的。

3.连用的关联标记相互位置

连用式二重有标三分句中，两个连用关联标记的相对位置具有标示价值，先后配列一定程度上决定嵌套复句层次识别的优先序。可概括为“前者后优先原则”和“后者后优先原则”。

“前者后优先原则”指两个既不同义、搭配对象亦不同的关联标记处于同一个分句中时，句法位置靠前的关联标记倾向于嵌套后边的关联标记。由于成年人平均记忆容量仅三到五块(Cowan，2001)，受前摄干扰(proactive interference)的影响，语言结构中较难处理的部分嵌套较容易的部分[6]更符合人类认知心理操作策略。体现在二重有标三分句中，高层结构的语义内容、语法结构、语用特征都更复杂，与内嵌结构所表达的核心相比，最外层的引领性关联标记距离核心较远。当各自代表的关联标记出现在同一分句中，引领高层结构的关联标记更容易外置于引领低层结构的关联标记前[7]，书面语中则居于更左边的位置。持类似看法的还有张谊生(1996)、张文贤(2007)、吴锋文(2010)、陆丙甫(2015)等。如例(2)假设标“如果”在原因标“因为”的左边，位置偏右的关联标记“因为”引领的分句与后分句优先形成因果型小句关联体，再被左边的“如果”嵌套。

(2)股东如果因为特殊原因，想在股票上市后将股票转入在其他证券商处开立的账户上，则只须到港澳证券柜台填写转托管申请书即可办理转托管手续。(1994年报刊精选)

当然，个别二重有标三分连用式复句遵从“后者后优先原则”，即两个既不同义、搭配对象亦不同的关联标记处在同一分句中时，句法位置靠后的关联标记倾向于嵌套其前边的关联标记。这条原则多用来处理并列关系、递进关系或选择关系与因果关系、求得式目的关系、假设关系、条件关系以及让步关系组合而成的二重复句，并且相邻分句大多出现相同的关联标记。如下例二、三分句的递进标“既”“更”均在相同的原因标“因为”的前面，优先规约为递进型小句关联体，原因标在语义上管辖着它们，前后联结成复句的高层结构。

(3)椿树园在京城可出了名，既因为今昔变迁，更因为椿树园为北京申奥做出过特殊贡献。(新华社2002年9月新闻报道)

(三)关联标记的词性特征

学界普遍认可的复句关联标记有四种：连词、副词、助词和超词形式。大量语料观察发现，介词作为显著的形式标志可以帮助标示连接成分间的句法语义关系，是句法、语义及语用三个平面的综合体。而部分动词(如“看来、想来”)经历了语义虚化、功能语法化的过程，向着情态副词虚化演变，同样可以标明连接成分间的句法语义关系。为提高覆盖面、避免收录缺漏，本文将关联标记的范围扩充为六种。

其中，跨语法单位的超词形式按照结构大致分为带“说”类(李晋霞、刘云，2009)、带“是”类、组合类和其他关联性成分四种，多可拆解为连词或副词与别的词的组合；动、介、助词数量较少，一般也不嵌套其他关联标记；关联连词和关联副词比重之和则超过60%，占绝对优势。相较之下，关联连词本身语义是确定的，在句法允许的前提下，可以去掉其中一个并保持句法语义关系的原貌；且关联连词与分句的嵌套关系亲密，难以省略。因而连词的关联强度是最强的，嵌套力也最大。

(四)关联标记的语义特征

二重复句表达的意义事件复杂，其内部构成要素——每一基本的语义单元以分句的形式显现，语义单元的推进正是复句结构由低层向高层、由单重向多重的扩张。周刚(2002)认为虚词也可以分析语义特征，对嵌套现象研究亦有助益。基于此，本文总结出五组和关联标记嵌套力有关的语义特征因素。

(1)关联标记引领的分句表既成事实，具有已然性——推断标、实让标；关联标记引领的分句表未成事实，具有未然性——假设标、条件标、总让标、忍让标、虚让标；关联标记引领的分句既可以表已然也可以表未然——原因标。

一般情况下，具有已然性语义特征的关联标记嵌套力强于具有未然性语义特征的关联标记。这既是逻辑学上的要求，也符合语用学“合作原则”之“质量准则”(Quantity Maxim)。语义特征都具有[+未然性]的关联标记间亦可相互嵌套，而具有[±已然性]的关联标记因其内涵外延宽广，属于全论域，嵌套力则仅次于[+已然性]关联标记。

(2)关联标记引领的分句标明特定条件，具有特定性——假设标、条件标、目的标；关联标记引领的分句表示无定条件，具有自由性——选择标、总让标。

一般情况下，具有特定性语义特征的关联标记嵌套力强于具有自由性语义特征的关联标记。逻辑语义上，具有[+特定性]的关联标记层次高于具有[+自由性]的关联标记，前者可以制约后者，二者位置很难颠倒。语用学上，具有[+特定性]的关联标记提供了适量且足够详尽的信息量，符合“合作原则”之“数量准则”(Quantity Maxim)。

(3)关联标记引领的分句指向明确的事物，具有确定性——结果标(表推断关系、假设关系、条件关系、因果关系等)、转折标；关联标记引领的分句指向非确定的事物，具有选择性——选择标。

从语义适应性角度看，为防止语义特征相矛盾、逻辑混乱，具有选择性语义特征的关联标记不能嵌套具有确定性语义特征的关联标记，具有确定性语义特征的关联标记亦不能嵌套具有选择性语义特征的关联标记。

(4)关联标记引领的分句内容与其配对分句在思维表述上具有一致性——平列标、解注标、连贯标、顺递标、原因标、推断标、条件标、假设标、求得目的标、结果标；关联标记引领的分句内容与其配对分句在思维表述上具有对立性——对照标、反递标、转折标、求免目的标、假转标。

具有对立性语义特征的关联标记嵌套力一般强于具有一致性语义特征的关联标记。这是因为前者表达逆向思维，是从预期到反预期的命题转换(Quirk，1985)，具有一定滞后性和难以接受性；后者却更符合人类顺向思维表达习惯。这导致反映直接顺承思维的关联标记很难嵌套经过转变进化、要付出更多认知努力、违逆思维顺序的关联标记。ERP实验同样证明英语也存在类似情况(Xiang M，2015)。

(5)关联标记联结的前后分句概念语义距离较近，认知过程同步，停顿能力差——并列类关联标记；关联标记联结的前后分句概念语义距离较远，认知过程复杂，停顿能力强——因果类关联标记和转折类关联标记。

本文认为，关联标记与其管控部分的线性距离越小、搭配距离越近，则嵌套其他关联标记的可能性相对小很多。相反，关联标记搭配距离越远，意味嵌套能力越强。姚双云(2006)罗列的平均搭配跨距在10个词长以上的常见搭配格式大部分属于因果类和转折类，亦佐证本文观点。

此外，若二重有标三分句呈现扩展式嵌套(相同关联标记重复出现在相邻分句)，相同的语义特征使得所引领分句间的关系更为紧密，复句嵌套遵循“同义优先组原则”。如例(4)初始分句和中位分句都有前配位让步标“即使”，优先组配为并列型小句关联体，再与末尾分句构成让转复句。

(4)即使成本高一点，即使质量不是最优，最后也得用上。(CCL语料)

(五)关联标记的数量

二重有标三分句中关联标记的实际数量分为四种情形：关联标记全出现，关联标记省略其一，关联标记省略其二，关联标记省略其三。各层次关联标记均未省略是最理想的状态，复句层次构造、分句间语义关系一目了然。但实例化语料中，关联标记省略现象极为常见，几乎占语料库总数的86.84%。关联标记的省略使某些分句变为无标分句，难以判别其组合对象究竟是一个分句抑或一个小句关联体；还会造成歧义，无法甄别省略的关联标记属于高层次还是低层次结构。

复句是否呈现充盈态与关联标记出现的数量有关——关联标记出现数量愈多，复句为充盈态复句可能性愈高。从信息论的角度看，二重有标三分句中分句共同形成一个关系集合，集合中元素的数目较多，构建、表达说话人思想的语言单位编码较长，其“熵”(Shannon，1948)值自然较大。马尔科夫链强调，根据前面出现的语言符号来预测下一个语言符号的不肯定性会越来越小，因而，在形式上标明分句间特定关系的关联标记出现越多，嵌套复句的结构层次划分越清晰明了。“数量象似原则”(The quantity principle)亦可证明。

(六)传承关联标记

传承关联标记指关联标记古代社会已然存在，发展演变至现代社会或者衍生出更多含义用法，如“既”，做副词表推断关系是后起意义，始于近代汉语阶段，见北宋沈括《梦溪笔谈》：“既云孟子不见诸侯，因何见梁惠王”；或者用法基本没有发生改变。关联标记的传承性是判断其嵌套能力强弱的参考因素。传承关联标记多出现在带有文言色彩的正式文体中，适应面较窄，不如新关联标记灵活，嵌套能力总体上也弱于语义相同的新关联标记。

试比较“虽”与“虽然”。“虽然”可以嵌套并列类关联标记“又、既、而且”[例(5)]、因果类关联标记“如果、只要、只有”[例(6)]和让步类关联标记“无论、就算、不管”[例(7)]等；而“虽”嵌套能力较弱，适应面很窄，多见于古典白话(古雅文言与白话的混合)文体[例(8)]。

(5)虽然她连中学都没毕业，而且又是个新移民，但她却毫不畏惧。(《读者》)

(6)长海县文工团虽然只有30多人，但是，演员一专多能，从团长到乐师都能上台串戏。(1996年《人民日报》)

(7)虽然不管是机动车撞非机动车还是被非机动车撞，结果一样，但责任是一定要分清的。(微博)

(8)林、刘、何所论虽角度不同，且各有发挥，但都是基于“企恋”这一心理现象生发开去。(《读书》)

三、影响因素的重要性分析

为全面描写分析关联标记嵌套力的影响因素，本研究依托CCL语料库、CCCS语料库自建了一个现代汉语平衡语料库，收录2092条二重有标三分句，并按照结构语义层的不同将各影响因素进行人工标注，见下表1，共13种嵌套因素。它们是：关联标记的音节(A1—A9)、关联标记所处分句的位次(B1—B28)、关联标记与主语的相对位置(C1—C7)、连用的关联标记相互位置(D1—D3)、关联标记的词性特征(E1—E48)、关联标记的已然性和未然性(F1—F10)、关联标记的确定性和选择性(G1—G5)、关联标记的特定性和自由性(H1—H5)、关联标记的一致性和对立性(K1—K5)、关联标记联结的前后分句概念语义距离(L1—L5)、扩展的关联标记出现的句序(M1—M5)、关联标记的数量(N1—N7)和传承关联标记(O1—O4)。标注后的语料库中，句法关联模式为“1-2型”的有1382例，句法关联模式为“2-1型”的有710例。

表1 关联标记嵌套力影响因素分析语料库标注示例

虽然各类影响因素在现实语料中皆能找到实例，但并不意味着它们的影响概率或影响程度是相同的。各影响因素自身重要性并不均等，甚至差别很大。为保证系统性和有效性，本节基于机器学习算法分析各影响因素，并给出各因素的重要性排名。

(一)研究方法

本文基于构建的关联标记嵌套力影响因素分析语料库，通过信息量与K-means聚类集成模型、CART模型和scikit-learn算法包中的inspection. permutation. importance工具，分别对各因素的重要性进行排名。而后给三种方法下的各因素排名分别赋予重要性得分，综合三种方法的重要性得分，得到最终的影响因素综合重要性排名。总体操作流程见图1。

图1 嵌套力影响因素重要性排名求解过程

1.信息量模型

信息量模型可作为分析过程中量化评价的手段之一，将句法关联模式中“1-2型”的结果标签记为“0”，“2-1型”的结果标签记为“1”，来定量化分析各离散性指标对嵌套结果的影响。如果某一因素指标对“1”这类结果的贡献越大，那么其对应的信息量值就越大，相应地，此指标对“0”这一类结果的贡献就越小。

例如，对于嵌套因素“关联标记的音节”所属次级状态“A1”而言，统计该分级状态下全语料库有多少语料属于“A1”，记为NA1；将语料库中语料总数记为N；“A1”状态分级下“1-2型”句法关联模式的语料数量为N1A1；全语料库中“1-2型”句法关联模式的语料数量为N1。那么，“A1”这一次级状态对语料的句法关联模式为“1-2型”形成的信息量值为：

(1.1)

2.K-means聚类算法

聚类算法是机器学习算法中的无监督学习算法。事先不给定嵌套结果标签，仅就所给的嵌套力输入因素进行样本聚类，聚类的类别结果就是预测或分析的嵌套结果标签。若两个语料样本间距离越近，则相似性越大，越容易被划分为一类。

这部分借助SPSS中的运算工具，先确定K-means聚类的类别为“2”，得到初始化的两个聚类中心，通过不断迭代更新聚类中心，直到达到最大的迭代次数或者目标函数小于相应的阈值，从而得到最终结果。

3.CART算法

CART(Classification and Regression Tree)属于有监督学习类的机器学习算法。本研究在Python语言环境中采用CART算法对影响因素分析语料库中的指标因素进行处理。首先依赖SPSS工具对2092条语料进行随机无放回的分层抽样，其中，967条为“0”、497条为“1”作为训练数据集，占全部数据集的70%，剩下30%语料作为测试数据集，用以寻找最优参数。随后依次抽离各影响因素，重复寻优，得到相对应的max_depth和最优准确率指标，以最终获取影响因素的重要性排名。

4.scikit-learn因素重要性分析工具

scikit-learn包中的inspection.permutation.importance工具可以直接调用。仅需对标注完成的标签化语料库进行直接操作，在算法中调用重要性分析工具对影响因素分析语料库中的因素部分进行分析，即可直接得解。

(二)处理结果

囿于篇幅有限，处理过程不做赘述。三种方法基于的底层逻辑均是科学合理的，但得到了不同的重要性排名，体现出显著的因子重要性差异。为了得到更全面、综合的影响因素重要性排名，还应分别给它们进行赋值，将三次赋值累加，得到各嵌套因素的综合重要性得分，基于此对嵌套因素的重要性进行综合排名。具体的重要性得分赋分情况和最终的综合重要性排名情况见表2。

表2 重要性得分赋分情况与综合重要性排名

四、结论

因素重要性分析一定程度上能够解决二重有标三分句嵌套分析时规则间出现相互冲突问题，保证各影响因素的系统性及有效性。本文基于关联标记嵌套力影响因素分析语料库和信息量与K-means聚类集成模型、CART模型、scikit-learn因素重要性分析工具，得到嵌套因素的综合重要性由重要到非重要的排名顺序为：关联标记所处分句的位次>关联标记的概念语义距离>关联标记的数量>(关联标记的词性特征、传承关联标记、关联标记的音节)>扩展的关联标记出现的句序>关联标记的确定性和选择性>连用的关联标记相互位置>关联标记与主语的相对位置>关联标记的特定性和自由性>关联标记的一致性和对立性>关联标记的已然性和未然性。

当然，目前论文提及的重要性分析方法建立在大数据应用的背景下，未来的发展进程中，数量庞大且高质量的语料、高准确度的人工校核、稳定高效的机器学习算法以及合理的定量化分析流程都会为影响因素的重要性研究带来更可靠的结果。此外，对复句句法关联模式产生影响的不仅有关联标记的嵌套力，相邻分句句法成分间的语里关系与变换方式、分句的语气功能类型和结构模式类型异同，甚至语篇要素，同样是影响嵌套结果的重要关联手段。未来研究还要注意：(1)语料选择的包容性；(2)人工判定的准确性；(3)分析方法的科学合理性；(4)嵌套因素的完备性；等等。

注释：

[1] 刘云、肖辛格:《中文信息处理发展简史》,北京:科学出版社,2019年,第126页。

[2] 吴锋文:《汉语复句句法语义关系判定研究》,北京:科学出版社,2022年,第170页。

[3] 邢福义:《汉语复句研究》,北京:商务印书馆,2001年,第26页。

[4] 冯胜利:《汉语的韵律、词法与句法》,北京:北京大学出版社,1997年,第3页。

[5] 刘云:《复句关系词语离析度考察》,《语言教学与研究》2008年第6期,第15～21页。

[6] J. Jonides, D. E. Dee, “Brain Mechanisms of Proactive Interference in Working Memory”,Neuroscience,1,2006,pp.181-193.

[7] 陆丙甫:《从宾语标记的分布看语言类型学的功能分析》,《当代语言学》2001年第4期,第253～263页。

基于机器学习的复句关联标记嵌套力研究——以现代汉语二重有标三分句为例